IrisTech 彩原科技: AMD FireStream 斯坦福大學(Stanford)：ATI GPU具有最好通用計算性能

斯坦福大學(Stanford)：ATI GPU具有最好通用計算性能
Beyond3d採訪了Stanford大學的Mike Houston，討論了ATi宣佈的Folding@Home項目。Houston表示目前ATI晶片具有最好的GPGPU架構，同時他還透漏NVIDIA GPU進行通用運算的劣勢所在。
Beyond3D：是不是X1K系列GPU的動態分支性能可以讓你們真正挖掘R580(和R520)的GPGPU功能，特別是BrookGPU的GROMACS(分子動力學軟體)。那麼這種方式是否可以在當前其他的硬體上實現？除此之外，X1K還有哪些功能是GROMACS性能的關鍵？是否在fragment硬體中接近峰值性能？內存頻寬如何？GROMACS的什麼功能讓晶片工作負荷嚴重？你們是如何挖掘晶片在該應用中的潛力的？
Mike Houston：所有的GPU都是SIMD，所以分支肯定會有相應的性能結果。我們仔細設計了代碼，具有很高的分支統一性。代碼嚴重依賴於shader中巨大的循環數目。對於ATi而言，循環和分支運算可以通過數學來處理。我們有很多數學計算。我們所運行的fragment shader非常接近所使用的指令順序峰值。但是，我不能說分支就是該應用實現的關鍵。我認為是X1K令人難以置信的內存系統和線程設計使得它成為了最適合GPGPU的架構。這允許我們以接近峰值的速度運行fragment引擎。
ATi所能實現而NVIDIA卻無法做到的原因是因為運行 Folding代碼需要在每個fragment中動態執行許多指令。而對於NVIDIA來說，在指令大於64K後，shader終止並在 Color[0]->Color[3]中以R0->3退出。所以，對於NVIDIA顯卡，我們必須執行多通道運算，這可能導致緩存崩潰並增加晶片外部頻寬要求。
另外一個對我們很重要的是ATi硬體中紋理延遲隱藏的方式。通過數學計算，我們可以消除所有紋理讀取的成本。我們可以在很寬範圍內進行海量計算，我們可以在同一內存系統中驅動更多ALU。NVIDIA則無法隱藏紋理延遲率，更重要的是，即使發出一個float4取回命令也要花費4個週期。所以NVIDIA的成本=ALU+紋理+分支，而ATi則可以將GPGPU性能發揮到最好。
在當前NVIDIA硬體上運行代碼還不可能，我們必須對代碼做出巨大變化，即便如此，性能還是不理想。我們將關注NVIDIA的下一代架構並作出評估。ATi和NVIDIA的下一代晶片都引人注目。

斯坦福科研項目Folding@home先驅者Vijay Pande表示，他的團隊還優化了GPU中心軟體的運算法則，將讓現有GPU速度再提高「10至15倍」。
ATi顯卡GPGPU性能信息：
●是常規GPU峰值性能的100倍。
●AMD FireStream 9170運算性能為500 GFlops，相比而言Cell處理器只有220 GFlops，Core 2 Duo處理器更是只有25 GFlops。
●10000台配備AMD FireStream 9170顯卡的客戶機性能相當於一台PetaFlop的超級計算機。

目前Folding@home進行中的研究：
阿茲海默症
癌症
亨廷頓病
成骨不全症
帕金森氏症
核糖體與抗生素

2009年2月6日星期五

AMD FireStream 斯坦福大學(Stanford)：ATI GPU具有最好通用計算性能

1 則留言:

2009年2月6日 星期五

AMD FireStream 斯坦福大學(Stanford)：ATI GPU具有最好通用計算性能

1 則留言:

2009年2月6日星期五