NVIDIA的GPU从G80时代开始,其MIMD(多指令多数据流)一直以高效能而著称,但也存在一个让人头疼的问题——GPU流处理器数量较少、浮点运算能力太低,这同样限制了N卡在游戏以及计算方面的实际性能。
这种情况在GTX680发布之时终于得以终结,每个SM流处理器数量从GTX580的32个猛增到192个,共计1536个流处理器和HD6970相同! 流处理器与核心同频率,不再是两倍。这些大刀阔斧的改进让GK104的浮点运算能力翻番,性能也凌驾于HD7970之上!
现在NVIDIA的Geforce GTX680正式发布还不到一个月,影驰便推出了4GB显存的非公版产品——GTX680四星大将。影驰GTX680四星大将不仅显存翻倍,而且拥有 1110MHZ的基础核心频率,动态加速可高达1162MHZ,如此强大的规格能带来什么样的性能?小编这就带大家来体验这块4GB显存的卡皇!
突破1GHz,GTX680参数规格一览
是时候揭开GTX680的真面目了,我们先来看看它的规格参数:
使用“开普勒”核心的NVIDIA GEFORCE GTX680拥有1536个CUDA核心,默认频率1006MHz,加速频率为1058MHz,配备2GB 256Bit GDDR5、6000MHz频率的显存,外接供电为双6Pin,热设计功耗为195W,显示输出接口为2个Dual-Link DVI、1个HDMI和1个Displayport 1.2。
GTX680与GTX580、HD7970、HD6970的对比表格:
GTX680采用全新28纳米制造工艺,与NVIDIA上代旗舰GTX580相比,CUDA核心数量暴增至1536个,核心频率飙升至1006MHz,成 为首款默认核心频率超过1GHz的旗舰级显卡。而令人吃惊的是,晶体管数量和核心面积却都有所减少,远远低于GTX580和HD7970,这样一来供电方 面仅需要双6Pin外接PCI-E供电,热设计功耗也仅有195W,成为近年来最为省电的旗舰显卡。显存方面,GTX680采用了256Bit GDDR5,而显存频率大幅提高,达到了创纪录的6000MHz。此外,这次GEFORCE GTX680可以支持4屏显示,在显示接口的配备上也有所改进,将使用多年的DVIx2+MiniHDMI的组合改为DVIx2+HDMI+DP。
基于效能和计算能力方面的考虑,NVIDIA与AMD不约而同的改变了架构,NVIDIA虽然还是采用SIMT架构,但也借鉴了AMD“较老”的SIMD 架构之作法,降低控制逻辑单元和指令发射器的比例,用较少的逻辑单元去控制更多的CUDA核心。于是一组SM当中容纳了192个核心的壮举就变成了现实!
通过上面这个示意图就看的很清楚了,CUDA核心的缩小主要归功于28nm工艺的使用,而如此之多的CUDA核心,与之搭配的控制逻辑单元面积反而缩小了,NVIDIA强化运算单元削减控制单元的意图就很明显了。
此时相信有人会问,降低控制单元的比例那是不是意味着NVIDIA赖以成名的高效率架构将会一去不复返了?理论上来说效率肯定会有损失,但实际上并没有想 象中的那么严重。NVIDIA发现线程的调度有一定的规律性,编译器所发出的条件指令可以被预测到,此前这部分工作是由专门的硬件单元来完成的,而现在可 以用简单的程序来取代,这样就能节约不少的晶体管。
随意在开普勒中NVIDIA将一大部分指令派发和控制的操作交给了软件(驱动)来处理。而且GPU的架构并没有本质上的改变,只是结构和规模以及控制方式 发生了变化,只要驱动支持到位,与游戏开发商保持紧密的合作,效率损失必然会降到最低——事实上NVIDIA著名的The Way策略就是干这一行的!
这方面NVIDIA与AMD的思路和目的是相同的,但最终体现在架构上还是有所区别。NVIDIA的架构被称为SIMT(Single Instruction Multiple Threads,单指令多线程),NVIDIA并不像AMD那样把多少个运算单元捆绑为一组,而是以线程为单位自由分配,控制逻辑单元会根据线程的任务量 和SM内部CUDA运算单元的负载来决定调动多少个CUDA核心进行计算,这一过程完全是动态的。
但不可忽视的是,软件预解码虽然大大节约了GPU的晶体管开销,让流处理器数量和运算能力大增,但对驱动和游戏优化提出了更高的要求,这种情况伴随着AMD度过了好多年,现在NVIDIA也要面对相同的问题了,希望他能做得更好一些。
全新的Kepler相比上代的Fermi架构改变了什么,看架构图就很清楚了:
GK104相比GF110,整体架构没有大的改变,GPU(图形处理器集群)维持4个,显存控制器从6个64bit(384bit)减至4个64bit(256bit),总线接口升级至PCIE 3.0。剩下的就是SM方面的改变了:
这里之所以要把GF104这颗中端核心的SM架构图也列出来,是因为GF104相比高端的GF100核心做了一些细小的改动,这些改动也被沿用到了GK104当中。另外从核心代号上来看,GK104其实就是用来取代GF104的,而取代GF100的核心另有他人。
NVIDIA把GK104的SM(不可分割的流处理器集群)称为SMX,原因就是暴增的CUDA核心数量。但实际上其结构与上代的SM没有本质区别,不同的只是各部分单元的数量和比例而已。具体的区别逐个列出来进行对比:
1. NVIDIA现在把流处理器称为CUDA核心;
2. SFU(Special Function Units,特殊功能单元)是比CUDA核心更强的额外运算单元,可用于执行抽象的指令,例如正弦、余弦、倒数和平方根,图形插值指令也在SFU上执行;
3. Warp是并行线程调度器,每一个Warp都可以调度SM内部的所有CUDA核心或者SFU;
4. Dispatch Unit是指令分派单元,分则将Warp线程中的指令按照顺序和相关性分配给不同的CUDA核心或SFU处理;
5. LD/ST就是载入/存储单元,可以为每个线程存储运算源地址与路径,方便随时随地的从缓存或显存中存取数据;
6. TMU是纹理单元,用来处理纹理和阴影贴图、屏幕空间环境光遮蔽等图形后期处理;
通过以上数据对比不难看出,GK104暴力增加CUDA核心数量的同时,SFU和TMU这两个与图形或计算息息相关处理单元也同比增加,但是指令分配单元 和线程调度器还有载入/存储单元的占比都减半了。这也就是前文中提到过的削减逻辑控制单元的策略,此时如何保证把指令和线程填满一个CUDA核心,将是一 个难题。
影驰GTX680四星大将显卡依然是我们熟悉的风格:蓝色PCB加上银白色的双风扇散热器。
相比NVIDIA公版的GTX680使用的双6PIN电源接口,影驰GTX680四星大将使用了6PIN+8PIN电源接口,可以提供更大的功率是GPU稳定运行在更高的频率之上。
由于影驰GTX680四星大将使用了4GB的显存,所以背面也布满了显存颗粒。频率同公版GTX680保持一致,为6008MHZ。
对于超频玩家来说,每一相供电都是压榨显卡性能的重要配备,而影驰 GeForce GTX680 四星大将配备了5相核心供电,total power输入由原来的150w飙升到225w,比公版更强。
采用了Direct FET MOSFET,其电流输入输出高达40A且转换效率高达89.09%比起公版GTX680所采用的八爪鱼MOSFET拥有更卓越的性能、更酷冷的温度。配合5相核心供电,能为GPU提供强大的电流支持。
影驰GeForce GTX680 四星大将采用了新一代的双子星散热器,其散热器TDP设计高达250W,大大高于公版的225W设计。而配合其供电相数、供电能力,将显卡每一分的能耗性能压榨至极限。
DIYER一直强调个性身份,而影驰GeForce GTX680 四星大将采用了LED设计,更加炫丽,灯光效果更加更显DIY个性。
测试平台我们使用目前性能最强劲的intel i7 3960X处理器,配合强大的技嘉X79UD7主板。
3960X CPU默认频率高达3.3GHZ,拥有6核心12线程,同时可以提供原生的PCI-E3.0总线,不会对GTX680造成总线上的瓶颈。
通过与公版GTX680的对比我们发现在功耗增加不多的情况下影驰GTX680四星大将的性能较公版产品提高13.60%。尤其是吃显存的地铁2033提升尤为明显,达到了28%的性能提升。
总结:集成两个双通道DVI 完整尺寸的HDMI DP接口,并且首度支持4屏是GTX680的一大优势。但公版2GB的显存容量显然不是喜欢多屏和超高分辨游戏玩家的最佳选择。影驰GTX680四星大将的诞生为这些顶级玩家提供了方便。
而公版GTX680超频会有着TDP以及默认频率的限制,GTX680四星大将通过魔盘K可以将显卡最大TDP限制调高,让TDP限制不再是限制显卡频率 提升的瓶颈,再通过魔盘设置提升动态超频幅度,轻松让显卡运行在默认设定更高的频率下。而即使不超频,四星大将基础核心频率也达到了1110MHZ,动态 提速核心频率更是达到了史无前例的1162MHZ,这对于追求高性能的极限玩家来说无疑非常具有吸引力。