当前位置: 代码迷 >> CUDA
 解决方案列表
  • [CUDA] CUDA系列学习(2)CUDA memory & variables

    CUDA系列学习(二)CUDAmemory&variables本文来介绍CUDA的memory和变量存放,分为以下章节:(一)、CPUMemory结构(二)、GPUMemory结构(三)、CUDAContext(四)、kernel设计(五)、变量&Memory5.1globalarr...

    967
    热度
  • [CUDA] CUDA, 软件抽象的幻像背后

    CUDA,软件抽象的幻影背后本文原载于我们的博客planckscale.info,转载于此。版权声明:原创作品,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。今天最酷炫的事情应该就是来自老黄的这条消息:1TFLOPS,P<...

    809
    热度
  • [CUDA] NVIDIA Jetson TK1学习与开发(六):怎么安装CUDA

    NVIDIAJetsonTK1学习与开发(六):如何安装CUDA本文介绍如何安装CUDA,以CUDA6.0为例介绍。1、InstallingtheCUDAToolkitontoyourdevicefornativeCUDAdevelopmentDownloadthe.debfilefortheCUD...

    674
    热度
  • [CUDA] CUDA, 软件抽象的幻像背后 之二

    CUDA,软件抽象的幻影背后之二本文原载于我的主页:planckscale.info,转载于此。版权声明:原创作品,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。上一篇里说到,有两点对CUDA的计算能力影响甚大:数据并行,以及用...

    727
    热度
  • [CUDA] Ubuntu14.04 64 位系统 装配 Cuda 6.5

    Ubuntu14.0464位系统安装Cuda6.51、首先需要卸载系统自带的NVIDIA相关驱动:$sudoapt-get–purgeremovenvidia-glxnvidia-glx-new$sudoapt-get–purgeremovenvidia-settingsnvidia-kernel-...

    648
    热度
  • [CUDA] ubuntu14.04装配cuda

    ubuntu14.04安装cuda首先验证你是否有nvidia的显卡(http://developer.nvidia.com/cuda-gpus这个网站查看你是否有支持gpu的显卡):$lspci|grep-invidia查看你的linux发行版本(主要是看是64位还是32位的):$uname-m&...

    693
    热度
  • [CUDA] CUDA系列学习(5)GPU基础算法: Reduce, Scan, Histogram

    CUDA系列学习(五)GPU基础算法:Reduce,Scan,Histogram喵~不知不觉到了CUDA系列学习第五讲,前几讲中我们主要介绍了基础GPU中的软硬件结构,内存管理,task类型等;这一讲中我们将介绍3个基础的GPU算法:reduce,scan,histogram,它们在并行算法中非常常...

    698
    热度
  • [CUDA] cuda-convnet2与caffe对照

    cuda-convnet2与caffe对比出于对性能和多GPU训练CNN的考虑,这段时间一直在研究cuda-convnet2。搜了下,网上居然一篇像样的研究cuda-convnet2代码的文章都找不到,看来假期有的忙了。Caffe作者贾扬清也在一些场合表达了对Convnet2作者Alex的仰慕之情,...

    740
    热度
  • [CUDA] CUDA入门(1)

    CUDA入门(一)介绍CUDA是由NVIDIA(英伟达)公司开发的一个并行计算平台,并行编程模型。它通过控制GPU(图形计算单元,graphicsprocessingunit)的计算能力,可以戏剧性地提高计算性能。CUDA的设计思想是:提供一个比如C之类的标准语言的小的扩展集,来直接实现并行算法。有...

    608
    热度
  • [CUDA] CUDA Runtime API 集锦

    CUDARuntimeAPI汇总1.cudaChooseDevice:selectcompute-devicewhichbestmatchescriteria;2.cudaDeviceGetAttribute:returnsinformationaboutthedevice;3.cudaDevice...

    1090
    热度
  • [CUDA] 在Windows上安装PyCUDA跟Theano

    在Windows上安装PyCUDA和Theano最近几个月在学习DeepLearning,刚开始的时候什么条件都不具备。自己从淘宝上面买了一个GT240,搭建一个GPU环境用于程序的调试。折腾了几个月,以前PyCUDA总是搭建失败,最近几天才尝试成功。为了学习DeepLearning的源代码,自己又...

    912
    热度
  • [CUDA] Barracuda文件格式跟Antelope的区别

    Barracuda文件格式和Antelope的区别/**TherearecurrentlytwoInnoDBfileformatswhichareusedtogroupfeatureswithsimilarrestrictionsanddependencies.Usinganenumallowssw...

    554
    热度
  • [CUDA] CUDA 二 - 简介

    CUDA2----简介CUDA简介CUDA是并行计算的平台和类C编程模型,我们能很容易的实现并行算法,就像写C代码一样。只要配备的NVIDIAGPU,就可以在许多设备上运行你的并行程序,无论是台式机、笔记本抑或平板电脑。熟悉C语言可以帮助你尽快掌握CUDA。CUDA编程CUDA编程允许你的程序执行在...

    710
    热度
  • [CUDA] CUDA 五 - GPU架构(Fermi、Kepler)

    CUDA5----GPU架构(Fermi、Kepler)GPU架构SM(StreamingMultiprocessors)是GPU架构中非常重要的部分,GPU硬件的并行性就是由SM决定的。以Fermi架构为例,其包含以下主要组成部分:CUDAcoresSharedMemory/L1CacheRegi...

    953
    热度
  • [CUDA] CUDA 四 - device管理

    CUDA4----device管理device管理NVIDIA提供了集中凡是来查询和管理GPUdevice,掌握GPU信息查询很重要,因为这可以帮助你设置kernel的执行配置。本博文将主要介绍下面两方面内容:CUDAruntimeAPIfunctionNVIDIA系统管理命令行使用runtimeA...

    915
    热度
  • [CUDA] CUDA 三 - 线程配置

    CUDA3----线程配置前言线程的组织形式对程序的性能影响是至关重要的,本篇博文主要以下面一种情况来介绍线程组织形式:2Dgrid2Dblock线程索引一般,一个矩阵以线性存储在globalmemory中的,并以行来实现线性:在kernel里,线程的唯一索引非常有用,为了确定一个线程的索引,我们以...

    706
    热度
  • [CUDA] CUDA 六 - Warp解析

    CUDA6----Warp解析Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。WarpsandThreadBlockswarp是SM的基本执行单元。一个warp包含32个并行thread,这3...

    996
    热度
  • [CUDA] CUDA - Branch Divergence and Unrolling Loop

    CUDA----BranchDivergenceandUnrollingLoopAvoidingBranchDivergence有时,控制流依赖于thread索引。同一个warp中,一个条件分支可能导致很差的性能。通过重新组织数据获取模式可以减少或避免warpdivergence(该问题的解释请查看...

    766
    热度
  • [CUDA] CUDA - Dynamic Parallelism

    CUDA----DynamicParallelismDynamicParallelism到目前为止,所有kernel都是在host端调用,GPU的工作完全在CPU的控制下。CUDADynamicParallelism允许GPUkernel在device端创建调用。DynamicParallelism...

    693
    热度
  • [CUDA] CUDA - Memory Model

    CUDA----MemoryModelMemorykernel性能高低是不能单纯的从warp的执行上来解释的。比如之前博文涉及到的,将block的维度设置为warp大小的一半会导致loadefficiency降低,这个问题无法用warp的调度或者并行性来解释。根本原因是获取globalmemory的...

    713
    热度