CPU遭遇瓶颈效应 GPU催热桌面高性能计算
2010年06月23日 18:00
本页显示全文>>(共计4页)
NVIDIA Fermi双精度计算
Fermi CUDA核心
Fermi CUDA核心
Tesla Fermi的理论浮点运算能力
Fermi改变了GPU功能执行方式,单精度模式下每个时钟循环均可执行512个积和熔加运算(Fused Multiply-Add/FMA),双精度下则是256个。
双精度:SP频率*2Float*256(Fermi最大CUDA核心数)= X GFLOPS
单精度:SP频率*2Float*512(Fermi最大CUDA核心数)= X GFLOPS
对于实际上市产品C2050来说(448个1.15GHz CUDA核心)
C2050双精度浮点运算能力 1.15*2*448*0.5=515.2 GFLOPS
C2050单精度浮点运算能力 1.15*2*448=1030.4 GFLOPS
AMD RV870
AMD CORE
AMD依然沿用了之前的RV6XX与RV7XX的架构,也就是我们通常理解的5SP 4D+1D约等于一个完整的核心,而RV870具备320个4D+1D。单精度浮点(32位)5个MAD(StreamCores的4个+SFU里的1个),双精度浮点(64位)1个64bitMAD。
双精度:SP频率*2Float*320(RV870最大流处理器数)= X GFLOPS
单精度:SP频率*2Float*320*5(RV870最大流处理器数)= X GFLOPS
这样看来,RV870的双精度浮点运算能力只有单精度的5分之1。这也是延续了RV670,RV770架构的原因。
再来看下我们这个月初测试的,基于Nehalem-EX E6540的Dell R810表现吧。
Xeon E6540相关参数
Xeon E6540运算能力
一颗6核12线程主频2GHz的Nehalem-EX Xeon的浮点运算能力为129.19GFLOPS(单精度)。约为一颗Tesla C2050浮点运算能力的8分之1。 >>

Fermi CUDA核心

Fermi CUDA核心
Tesla Fermi的理论浮点运算能力
Fermi改变了GPU功能执行方式,单精度模式下每个时钟循环均可执行512个积和熔加运算(Fused Multiply-Add/FMA),双精度下则是256个。
双精度:SP频率*2Float*256(Fermi最大CUDA核心数)= X GFLOPS
单精度:SP频率*2Float*512(Fermi最大CUDA核心数)= X GFLOPS
对于实际上市产品C2050来说(448个1.15GHz CUDA核心)
C2050双精度浮点运算能力 1.15*2*448*0.5=515.2 GFLOPS
C2050单精度浮点运算能力 1.15*2*448=1030.4 GFLOPS
AMD RV870
![]()
AMD CORE
AMD依然沿用了之前的RV6XX与RV7XX的架构,也就是我们通常理解的5SP 4D+1D约等于一个完整的核心,而RV870具备320个4D+1D。单精度浮点(32位)5个MAD(StreamCores的4个+SFU里的1个),双精度浮点(64位)1个64bitMAD。
双精度:SP频率*2Float*320(RV870最大流处理器数)= X GFLOPS
单精度:SP频率*2Float*320*5(RV870最大流处理器数)= X GFLOPS
这样看来,RV870的双精度浮点运算能力只有单精度的5分之1。这也是延续了RV670,RV770架构的原因。
再来看下我们这个月初测试的,基于Nehalem-EX E6540的Dell R810表现吧。

Xeon E6540相关参数
![]()
Xeon E6540运算能力
一颗6核12线程主频2GHz的Nehalem-EX Xeon的浮点运算能力为129.19GFLOPS(单精度)。约为一颗Tesla C2050浮点运算能力的8分之1。 >>
网友热评 暂无评论
快速评论
相关文章