2024-09-26 00:03:42
相关特点
模块化
在DirectX 11时代,为进一步加强通用可编程化能力,NVIDIA将GPU划分为多个GPC模块,每个模块实际上除了没有独立的显示存储器控制器、二级高速缓存以外,几乎是一颗完整的小型GPU。在GPC内部,自带光栅单元、SM(流式多处理器)数组/单元,SM单元中包含了一个指令高速缓存、Warp调度程序和分派单元各两个、寄存器、32个/48个流处理器(CUDA核心)、16个加载/存储单元、4个特殊功能单元、一级高速缓存、4个纹理单元、纹理高速缓存以及一个负责曲面细分的PolyMorph引擎。
通过对GPC单元或SM数组的增加删减,性能会随之成近乎线性的增减,籍此可以快速产生多个不同的GPU产品线。顶级产品GeForce GTX 480上,显示核心代号‘GF100’,共计4组GPC单元,每组4个SM数组,每个SM数组32个流处理器,但其中一组SM数组被关闭。中高端产品GeForce GTX 460,核心代号‘GF104’,拥有2组GPC单元,每组4个SM数组,但每个SM数组中有48个流处理器,同样有一个SM数组被关闭。
Tessellation
Tessellation技术已经被编入为DirectX 11标准。对手AMD则在Radeon 8500时代已经支持相关技术。但当时的Tessellation级别不能够被有效控制,容易造成图像有损。现时,Tessellation技术已经可以完全被编程。额外的顶点可以通过不同的算法而新增。
Direct Compute 11
Direct Compute可以加强图形特效。例如不同对象的半透明效果,景深效果。
PolyMorph引擎
由于应用了Tessellation技术,场景中的多边形数量可能会大幅增加。PolyMorph引擎则用来增强多多边形场景的几何性能。
流处理器
亦即是NVIDIA所称的CUDA核心。所有指令都被打散为1D指令。增加CUDA核心的使用率。数据只在输出时四舍五入。以往的做法是每一个步骤都要四舍五入,误差会累积。整数指令精度方面,支持32位,而对手AMD则只支持24位。在运行殊函数运算时,AMD的显示核心使用流处理器仍计算。而NVIDIA的显示核心则采用专用的组件。
纹理单元
纹理单元的数量有所下降。NVIDIA声称会通过提高单元效率,来弥补纹理单元数目的减少。纹理单元亦已经集成到流处理器中,减少了延迟。
光栅单元
重新设计光栅单元,以追赶对手的抗锯齿性能。而CSAA的精度亦有所提升,达到32x。