内容导航:
[GTX 285架构优势(一)]
由于GTX 285与GTX 280具有相同的架构,所以55nm的GT200b核心与65nm的GT200核心除了面积不同,内部结构完全相同,开发代号也同样为D10U。
240个流处理器
D10U核心与G80、G92均采用了相同的SPA(Scalale Processor Array)结构体系,核心内建了一定数量的TPC(Texture Processing Clusters),每个TPC内又继承了一定数量的SM(Streaming Multiprocessors),而每个SM则具有8个SP(Streaming Processor)。

而决定GPU性能的主要就是运算处理单元,所以D10U核心直接在G80、G92的基础上多加入了两个TPC,每个TPC内部的SM数量也有2组增加到了3组,所以D10U最终拥有了240个运算单元,浮点运算能力可以达到933GFLOPS。
不过在硬件技术上,D10U仍然不支持DirectX 10.1以及Shader 4.1,NVIDIA做出这样决定的主要原因是由于目前市面上能够支持DirectX 10.1和Shader 4.1的游戏少之又少,而且NVIDIA可能会直接跳过,而直接开发下一个版本规格。
改良Dual Issue设计
在G80、G92核心中有一项非常突出的设计,就是“Dual Issue”,该项设计可令G80、G92核心在进行MADD运算时可同时多运加一组MUL运算,进而加强了GPU的执行效率。而GT200B对这项设计做了进一步改良,当SP的MAD单元在处理MUL与ADD的同时,SFU单元可以同时对另外一组的MUL进行处理。NVIDIA官方表明,改进后的执行效率最高可提升93%左右。
为了能够让Dual Issue能够完美的发挥性能,NVIDIA还特别对D10U的Registered Allocation、Instructions Scheduling以及Instructions Issue等微架构进行重新设计,可让SP与SFU具有更高的执行效率。

D10U核心模块分布图
80个纹理单元
相对于G80的64个纹理单元,D10U核心进一步提升至了80个,每次可处理 80个Pixels的Texture Filtering、80个Pixels的Texture Addressing、80个8 Bit Integer Bilinear-Filtered Pixels、40个Pixels的Anisotropic Bilinear Filtering或40个16 Bit Floating Point的bilinear-Filtered Pixels 。
而且NVIDIA还特别加强了Scheduler处理器,有效的减少了不必要的缓存应用,从而可让显存的执行效率更加贴近理论峰值,实际效率可以比G92核心可以提升22%左右。
32个光栅单元
光栅单元的数量方面,D10U从G80的24个提升至了32个,可处理每笔32个Pixels (4 pixel per POR Partition x 8 Partition) ,每个ROP Partition在8x MSAA模式最高可支支持32个color及Z sample,每个ROP内建2组 Z/Stencil 运算单元,因此单一週期可处理高达64个Stencil Shadow 运算,极大的提升了GPU在高分辨率下的反锯齿能力。
|