-
[CUDA] CUDA系列学习(2)CUDA memory & variables
CUDA系列学习(二)CUDAmemory&variables本文来介绍CUDA的memory和变量存放,分为以下章节:(一)、CPUMemory结构(二)、GPUMemory结构(三)、CUDAContext(四)、kernel设计(五)、变量&Memory5.1globalarr...
967
热度 -
[CUDA] CUDA, 软件抽象的幻像背后
CUDA,软件抽象的幻影背后本文原载于我们的博客planckscale.info,转载于此。版权声明:原创作品,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。今天最酷炫的事情应该就是来自老黄的这条消息:1TFLOPS,P<...
809
热度 -
[CUDA] NVIDIA Jetson TK1学习与开发(六):怎么安装CUDA
NVIDIAJetsonTK1学习与开发(六):如何安装CUDA本文介绍如何安装CUDA,以CUDA6.0为例介绍。1、InstallingtheCUDAToolkitontoyourdevicefornativeCUDAdevelopmentDownloadthe.debfilefortheCUD...
674
热度 -
[CUDA] CUDA, 软件抽象的幻像背后 之二
CUDA,软件抽象的幻影背后之二本文原载于我的主页:planckscale.info,转载于此。版权声明:原创作品,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。上一篇里说到,有两点对CUDA的计算能力影响甚大:数据并行,以及用...
727
热度 -
[CUDA] Ubuntu14.04 64 位系统 装配 Cuda 6.5
Ubuntu14.0464位系统安装Cuda6.51、首先需要卸载系统自带的NVIDIA相关驱动:$sudoapt-get–purgeremovenvidia-glxnvidia-glx-new$sudoapt-get–purgeremovenvidia-settingsnvidia-kernel-...
648
热度 -
[CUDA] ubuntu14.04装配cuda
ubuntu14.04安装cuda首先验证你是否有nvidia的显卡(http://developer.nvidia.com/cuda-gpus这个网站查看你是否有支持gpu的显卡):$lspci|grep-invidia查看你的linux发行版本(主要是看是64位还是32位的):$uname-m&...
693
热度 -
[CUDA] CUDA系列学习(5)GPU基础算法: Reduce, Scan, Histogram
CUDA系列学习(五)GPU基础算法:Reduce,Scan,Histogram喵~不知不觉到了CUDA系列学习第五讲,前几讲中我们主要介绍了基础GPU中的软硬件结构,内存管理,task类型等;这一讲中我们将介绍3个基础的GPU算法:reduce,scan,histogram,它们在并行算法中非常常...
698
热度 -
[CUDA] cuda-convnet2与caffe对照
cuda-convnet2与caffe对比出于对性能和多GPU训练CNN的考虑,这段时间一直在研究cuda-convnet2。搜了下,网上居然一篇像样的研究cuda-convnet2代码的文章都找不到,看来假期有的忙了。Caffe作者贾扬清也在一些场合表达了对Convnet2作者Alex的仰慕之情,...
740
热度 -
608
热度 -
[CUDA] CUDA Runtime API 集锦
CUDARuntimeAPI汇总1.cudaChooseDevice:selectcompute-devicewhichbestmatchescriteria;2.cudaDeviceGetAttribute:returnsinformationaboutthedevice;3.cudaDevice...
1090
热度 -
[CUDA] 在Windows上安装PyCUDA跟Theano
在Windows上安装PyCUDA和Theano最近几个月在学习DeepLearning,刚开始的时候什么条件都不具备。自己从淘宝上面买了一个GT240,搭建一个GPU环境用于程序的调试。折腾了几个月,以前PyCUDA总是搭建失败,最近几天才尝试成功。为了学习DeepLearning的源代码,自己又...
912
热度 -
[CUDA] Barracuda文件格式跟Antelope的区别
Barracuda文件格式和Antelope的区别/**TherearecurrentlytwoInnoDBfileformatswhichareusedtogroupfeatureswithsimilarrestrictionsanddependencies.Usinganenumallowssw...
554
热度 -
[CUDA] CUDA 二 - 简介
CUDA2----简介CUDA简介CUDA是并行计算的平台和类C编程模型,我们能很容易的实现并行算法,就像写C代码一样。只要配备的NVIDIAGPU,就可以在许多设备上运行你的并行程序,无论是台式机、笔记本抑或平板电脑。熟悉C语言可以帮助你尽快掌握CUDA。CUDA编程CUDA编程允许你的程序执行在...
710
热度 -
[CUDA] CUDA 五 - GPU架构(Fermi、Kepler)
CUDA5----GPU架构(Fermi、Kepler)GPU架构SM(StreamingMultiprocessors)是GPU架构中非常重要的部分,GPU硬件的并行性就是由SM决定的。以Fermi架构为例,其包含以下主要组成部分:CUDAcoresSharedMemory/L1CacheRegi...
953
热度 -
[CUDA] CUDA 四 - device管理
CUDA4----device管理device管理NVIDIA提供了集中凡是来查询和管理GPUdevice,掌握GPU信息查询很重要,因为这可以帮助你设置kernel的执行配置。本博文将主要介绍下面两方面内容:CUDAruntimeAPIfunctionNVIDIA系统管理命令行使用runtimeA...
915
热度 -
[CUDA] CUDA 三 - 线程配置
CUDA3----线程配置前言线程的组织形式对程序的性能影响是至关重要的,本篇博文主要以下面一种情况来介绍线程组织形式:2Dgrid2Dblock线程索引一般,一个矩阵以线性存储在globalmemory中的,并以行来实现线性:在kernel里,线程的唯一索引非常有用,为了确定一个线程的索引,我们以...
706
热度 -
[CUDA] CUDA 六 - Warp解析
CUDA6----Warp解析Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。WarpsandThreadBlockswarp是SM的基本执行单元。一个warp包含32个并行thread,这3...
996
热度 -
[CUDA] CUDA - Branch Divergence and Unrolling Loop
CUDA----BranchDivergenceandUnrollingLoopAvoidingBranchDivergence有时,控制流依赖于thread索引。同一个warp中,一个条件分支可能导致很差的性能。通过重新组织数据获取模式可以减少或避免warpdivergence(该问题的解释请查看...
766
热度 -
[CUDA] CUDA - Dynamic Parallelism
CUDA----DynamicParallelismDynamicParallelism到目前为止,所有kernel都是在host端调用,GPU的工作完全在CPU的控制下。CUDADynamicParallelism允许GPUkernel在device端创建调用。DynamicParallelism...
693
热度 -
[CUDA] CUDA - Memory Model
CUDA----MemoryModelMemorykernel性能高低是不能单纯的从warp的执行上来解释的。比如之前博文涉及到的,将block的维度设置为warp大小的一半会导致loadefficiency降低,这个问题无法用warp的调度或者并行性来解释。根本原因是获取globalmemory的...
713
热度