GPU 体系架构概述
为什么需要GPU?
应用的需求越来越高
FLOPS:每秒钟可以进行的浮点数预算
GFLOPS:每秒钟可以运行十亿条浮点数运算
TFLOPS:一万亿次
GPU是一个异构的多处理器芯片,为图形图像处理优化
橙色的是渲染器(核心为ALU计算单元)0
三种方法提升GPU的处理速度:
1、16个核共享一条指令流,如果不是一条,需要额外的辅助控制机构,指令流共享,多个程序片源共享指令流。
2、3、增加ALU,SMD,128个程序片元同时执行,并发16路指令流。
SIMD处理并不总是需要显式的SIMD指令:显示的向量运算指令、标量指令,但是硬件进行矢量化。
停滞:当没有准备好时需要
3、大量的独立片元相互切换,通过片元切换掩藏延迟
上下文存储空间:上下文存储池
GPU设计举例