当前位置: 代码迷 >> CUDA的解决方案
 
  • CUDA - CUDA库简介

    CUDA----CUDA库简介CUDALibraries简介上图是CUDA库的位置,本文简要介绍cuSPARSE、cuBLAS、cuFFT和cuRAND,之后会介绍OpenACC。cuSPARSE线性代数库,主要针对稀疏矩阵之类的。cuBLAS是CUDA标准的线代库,不过没有专门针对稀疏矩阵的操作。cuFFT傅里叶变换cuRAND随机数CUDA库和CPU编程所用到的库没有什么区别,都是一系列接口的...

    657
    热度
  • 回来cuda的世界

    返回cuda的世界http://itis.grid.sjtu.edu.cn/blog/?p=171?这篇文章教你如何配置cuda环境,是我看到的最好的文章。看域名是上交的。

    825
    热度
  • CUDA入门(1)

    CUDA入门(一)介绍CUDA是由NVIDIA(英伟达)公司开发的一个并行计算平台,并行编程模型。它通过控制GPU(图形计算单元,graphicsprocessingunit)的计算能力,可以戏剧性地提高计算性能。CUDA的设计思想是:提供一个比如C之类的标准语言的小的扩展集,来直接实现并行算法。有了CUDAC/C++,程序员就可以专注于并行算法的实现,而不是去担心他们写出来的程序的加速时间不够好...

    555
    热度
  • CUDA Runtime API 集锦

    CUDARuntimeAPI汇总1.cudaChooseDevice:selectcompute-devicewhichbestmatchescriteria;2.cudaDeviceGetAttribute:returnsinformationaboutthedevice;3.cudaDeviceGetByPCIBusld:returnsahandletoacomputedevice;4.cud...

    1044
    热度
  • CUDA samples 2.3节 用CUDA示范来创建CUDA项目

    CUDAsamples2.3节用CUDA示例来创建CUDA项目2.3.1.CreatingCUDAProjectsforWindows略2.3.2CreatingCUDAProjectsforLinux默认的samples的安装路径<SAMPLES_INSTALL_PATH>是NVIDIA_CUDA_5.5_Samples并且示例程式的分为六类:0_Simple,1_Utilities...

    1026
    热度
  • CUDA 二 - 简介

    CUDA2----简介CUDA简介CUDA是并行计算的平台和类C编程模型,我们能很容易的实现并行算法,就像写C代码一样。只要配备的NVIDIAGPU,就可以在许多设备上运行你的并行程序,无论是台式机、笔记本抑或平板电脑。熟悉C语言可以帮助你尽快掌握CUDA。CUDA编程CUDA编程允许你的程序执行在异构系统上,即CUP和GPU,二者有各自的存储空间,并由PCI-Express总线区分开。因此,我们...

    667
    热度
  • CUDA并行程序设计系列(四)】CUDA内存

    【CUDA并行程序设计系列(4)】CUDA内存前言CUDA并行程序设计系列是本人在学习CUDA时整理的资料,内容大都来源于对《CUDA并行程序设计:GPU编程指南》、《GPU高性能编程CUDA实战》和cuda/index.html">CUDAToolkitDocumentation的整理。通过本系列整体介绍CUDA并行程序设计。内容包括GPU简介、CUDA简介、环境搭建、线程模型、内存、原子操作、...

    788
    热度
  • ubuntu14.04装配cuda

    ubuntu14.04安装cuda首先验证你是否有nvidia的显卡(http://developer.nvidia.com/cuda-gpus这个网站查看你是否有支持gpu的显卡):$lspci|grep-invidia查看你的linux发行版本(主要是看是64位还是32位的):$uname-m&&cat/etc/*release看一下gcc的版本:$gcc--version首先...

    640
    热度
  • CUDA 四 - device管理

    CUDA4----device管理device管理NVIDIA提供了集中凡是来查询和管理GPUdevice,掌握GPU信息查询很重要,因为这可以帮助你设置kernel的执行配置。本博文将主要介绍下面两方面内容:CUDAruntimeAPIfunctionNVIDIA系统管理命令行使用runtimeAPI来查询GPU信息你可以使用下面的function来查询所有关于GPUdevice的信息:cuda...

    862
    热度
  • CUDA - Memory Model

    CUDA----MemoryModelMemorykernel性能高低是不能单纯的从warp的执行上来解释的。比如之前博文涉及到的,将block的维度设置为warp大小的一半会导致loadefficiency降低,这个问题无法用warp的调度或者并行性来解释。根本原因是获取globalmemory的方式很差劲。众所周知,memory的操作在讲求效率的语言中占有极重的地位。low-latency和h...

    651
    热度
  • 求FFT cuda源代码解决思路

    求FFTcuda源代码哪位大侠谁能能够给我给小弟一个FFT的CUDA源代码,不胜感激涕零!急。color='#e78608'>------解决方案--------------------------------------------------------探讨我的版本没有啊,只有simplecuFFT的代码

    8704
    热度
  • CUDA 六 - Warp解析

    CUDA6----Warp解析Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。WarpsandThreadBlockswarp是SM的基本执行单元。一个warp包含32个并行thread,这32个thread执行于SMIT模式。也就是说所有thread执行同一条指令,并且每个thread会使...

    905
    热度
  • CUDA - Shared Memory

    CUDA----SharedMemoryCUDASHAREDMEMORYsharedmemory在之前的博文有些介绍,这部分会专门讲解其内容。在globalMemory部分,数据对齐和连续是很重要的话题,当使用L1的时候,对齐问题可以忽略,但是非连续的获取内存依然会降低性能。依赖于算法本质,某些情况下,非连续访问是不可避免的。使用sharedmemory是另一种提高性能的方式。GPU上的memor...

    1029
    热度
  • CUDA - Dynamic Parallelism

    CUDA----DynamicParallelismDynamicParallelism到目前为止,所有kernel都是在host端调用,GPU的工作完全在CPU的控制下。CUDADynamicParallelism允许GPUkernel在device端创建调用。DynamicParallelism使递归更容易实现和理解,由于启动的配置可以由device上的thread在运行时决定,这也减少了ho...

    632
    热度
  • CUDA 三 - 线程配置

    CUDA3----线程配置前言线程的组织形式对程序的性能影响是至关重要的,本篇博文主要以下面一种情况来介绍线程组织形式:2Dgrid2Dblock线程索引一般,一个矩阵以线性存储在globalmemory中的,并以行来实现线性:在kernel里,线程的唯一索引非常有用,为了确定一个线程的索引,我们以2D为例:线程和block索引矩阵中元素坐标线性globalmemory的偏移首先可以将thread...

    653
    热度
  • CUDA - Memory Access

    CUDA----MemoryAccessMemoryAccessPatterns大部分device一开始从globalMemory获取数据,而且,大部分GPU应用表现会被带宽限制。因此最大化应用对globalMemory带宽的使用时获取高性能的第一步。也就是说,globalMemory的使用就没调节好,其它的优化方案也获取不到什么大效果。AlignedandCoalescedAccess如下图所示...

    697
    热度
  • CUDA/CUDA编程]请问一个调用CUFFT的有关问题[

    CUDA/CUDA编程]请教一个调用CUFFT的问题[-CUDA/CUDA编程请问一下,我产生了5120000个数据并存在一维数组中,我计划对其每512个数据进行一次FFT,也就是10000个512点同时进行FFT,我调用CUFFT的时候NX=512,BATCH=10000,请教一下,程序在运行的时候是不是这么运行的啊,即:0-511,512-1023,......是不是这么调用的数组呢,谢谢了c...

    5037
    热度
  • CUDA跟OpenCL异同点比较

    CUDA和OpenCL异同点比较CUDA和OpenCL异同点比较一、概述对CUDA和opencl有一定的编程经验,但是细心的人可以发现,OPENCL就是仿照CUDA来做的。既然两个GPU的编程框架如此相像,那么他们究竟有什么不同呢?下面就一一道来。二、数据并行的模型OpenCL采用的数据并行模型就是采用CUDA的数据并行模型。下面的表格反应了CUDA和opencl并行模型之间的映射关系。OpenC...

    566
    热度
  • CUDA系列学习(2)CUDA memory & variables

    CUDA系列学习(二)CUDAmemory&variables本文来介绍CUDA的memory和变量存放,分为以下章节:(一)、CPUMemory结构(二)、GPUMemory结构(三)、CUDAContext(四)、kernel设计(五)、变量&Memory5.1globalarraysface="MicrosoftYaHei"size="3">5.2globalvariable...

    920
    热度
  • cuda中线程的单位

    cuda中线程的组织设有dim3blocks(bx,by);dim3threads(tx,ty);ker<<<blocks,threads>>>()则每个线程块有tx行ty列的线程,x=threadIdx.x,y=threadIdx.y代表第x行第y列的那个线程;整个网格有bx行by列的线程块,blockIdx.x,blockIdx.y代表第x行第...

    829
    热度
上一页12...45下一页