当前位置: 代码迷 >> 综合 >> NVIDIA CUDA入门(4)GPU体系架构概述
  详细解决方案

NVIDIA CUDA入门(4)GPU体系架构概述

热度:69   发布时间:2023-11-18 01:48:48.0

GPU 体系架构概述

为什么需要GPU?

应用的需求越来越高

FLOPS:每秒钟可以进行的浮点数预算

GFLOPS:每秒钟可以运行十亿条浮点数运算

TFLOPS:一万亿次

GPU是一个异构的多处理器芯片,为图形图像处理优化

橙色的是渲染器(核心为ALU计算单元)0

 

三种方法提升GPU的处理速度:

1、16个核共享一条指令流,如果不是一条,需要额外的辅助控制机构,指令流共享,多个程序片源共享指令流。

2、3、增加ALU,SMD,128个程序片元同时执行,并发16路指令流。

SIMD处理并不总是需要显式的SIMD指令:显示的向量运算指令、标量指令,但是硬件进行矢量化。

停滞:当没有准备好时需要

3、大量的独立片元相互切换,通过片元切换掩藏延迟

上下文存储空间:上下文存储池

 

GPU设计举例