斯坦福大學(Stanford):ATI GPU具有最好通用計算性能
Beyond3d採訪了Stanford大學的Mike Houston,討論了ATi宣佈的Folding@Home項目。Houston表示目前ATI晶片具有最好的GPGPU架構,同時他還透漏NVIDIA GPU進行通用運算的劣勢所在。
Beyond3D:是不是X1K系列GPU的動態分支性能可以讓你們真正挖掘R580(和R520)的GPGPU功能,特別是BrookGPU的GROMACS(分子動力學軟體)。那麼這種方式是否可以在當前其他的硬體上實現?除此之外,X1K還有哪些功能是GROMACS性能的關鍵?是否在fragment硬體中接近峰值性能?內存頻寬如何?GROMACS的什麼功能讓晶片工作負荷嚴重?你們是如何挖掘晶片在該應用中的潛力的?
Mike Houston:所有的GPU都是SIMD,所以分支肯定會有相應的性能結果。我們仔細設計了代碼,具有很高的分支統一性。代碼嚴重依賴於shader中巨大的循環數目。對於ATi而言,循環和分支運算可以通過數學來處理。我們有很多數學計算。我們所運行的fragment shader非常接近所使用的指令順序峰值。但是,我不能說分支就是該應用實現的關鍵。我認為是X1K令人難以置信的內存系統和線程設計使得它成為了最適合GPGPU的架構。這允許我們以接近峰值的速度運行fragment引擎。
ATi所能實現而NVIDIA卻無法做到的原因是因為運行 Folding代碼需要在每個fragment中動態執行許多指令。而對於NVIDIA來說,在指令大於64K後,shader終止並在 Color[0]->Color[3]中以R0->3退出。所以,對於NVIDIA顯卡,我們必須執行多通道運算,這可能導致緩存崩潰並增加晶片外部頻寬要求。
另外一個對我們很重要的是ATi硬體中紋理延遲隱藏的方式。通過數學計算,我們可以消除所有紋理讀取的成本。我們可以在很寬範圍內進行海量計算,我們可以在同一內存系統中驅動更多ALU。NVIDIA則無法隱藏紋理延遲率,更重要的是,即使發出一個float4取回命令也要花費4個週期。所以NVIDIA的成本=ALU+紋理+分支,而ATi則可以將GPGPU性能發揮到最好。
在當前NVIDIA硬體上運行代碼還不可能,我們必須對代碼做出巨大變化,即便如此,性能還是不理想。我們將關注NVIDIA的下一代架構並作出評估。ATi和NVIDIA的下一代晶片都引人注目。
斯坦福科研項目Folding@home先驅者Vijay Pande表示,他的團隊還優化了GPU中心軟體的運算法則,將讓現有GPU速度再提高「10至15倍」。
ATi顯卡GPGPU性能信息:
●是常規GPU峰值性能的100倍。
●AMD FireStream 9170運算性能為500 GFlops,相比而言Cell處理器只有220 GFlops,Core 2 Duo處理器更是只有25 GFlops。
●10000台配備AMD FireStream 9170顯卡的客戶機性能相當於一台PetaFlop的超級計算機。
Beyond3d採訪了Stanford大學的Mike Houston,討論了ATi宣佈的Folding@Home項目。Houston表示目前ATI晶片具有最好的GPGPU架構,同時他還透漏NVIDIA GPU進行通用運算的劣勢所在。
Beyond3D:是不是X1K系列GPU的動態分支性能可以讓你們真正挖掘R580(和R520)的GPGPU功能,特別是BrookGPU的GROMACS(分子動力學軟體)。那麼這種方式是否可以在當前其他的硬體上實現?除此之外,X1K還有哪些功能是GROMACS性能的關鍵?是否在fragment硬體中接近峰值性能?內存頻寬如何?GROMACS的什麼功能讓晶片工作負荷嚴重?你們是如何挖掘晶片在該應用中的潛力的?
Mike Houston:所有的GPU都是SIMD,所以分支肯定會有相應的性能結果。我們仔細設計了代碼,具有很高的分支統一性。代碼嚴重依賴於shader中巨大的循環數目。對於ATi而言,循環和分支運算可以通過數學來處理。我們有很多數學計算。我們所運行的fragment shader非常接近所使用的指令順序峰值。但是,我不能說分支就是該應用實現的關鍵。我認為是X1K令人難以置信的內存系統和線程設計使得它成為了最適合GPGPU的架構。這允許我們以接近峰值的速度運行fragment引擎。
ATi所能實現而NVIDIA卻無法做到的原因是因為運行 Folding代碼需要在每個fragment中動態執行許多指令。而對於NVIDIA來說,在指令大於64K後,shader終止並在 Color[0]->Color[3]中以R0->3退出。所以,對於NVIDIA顯卡,我們必須執行多通道運算,這可能導致緩存崩潰並增加晶片外部頻寬要求。
另外一個對我們很重要的是ATi硬體中紋理延遲隱藏的方式。通過數學計算,我們可以消除所有紋理讀取的成本。我們可以在很寬範圍內進行海量計算,我們可以在同一內存系統中驅動更多ALU。NVIDIA則無法隱藏紋理延遲率,更重要的是,即使發出一個float4取回命令也要花費4個週期。所以NVIDIA的成本=ALU+紋理+分支,而ATi則可以將GPGPU性能發揮到最好。
在當前NVIDIA硬體上運行代碼還不可能,我們必須對代碼做出巨大變化,即便如此,性能還是不理想。我們將關注NVIDIA的下一代架構並作出評估。ATi和NVIDIA的下一代晶片都引人注目。
斯坦福科研項目Folding@home先驅者Vijay Pande表示,他的團隊還優化了GPU中心軟體的運算法則,將讓現有GPU速度再提高「10至15倍」。
ATi顯卡GPGPU性能信息:
●是常規GPU峰值性能的100倍。
●AMD FireStream 9170運算性能為500 GFlops,相比而言Cell處理器只有220 GFlops,Core 2 Duo處理器更是只有25 GFlops。
●10000台配備AMD FireStream 9170顯卡的客戶機性能相當於一台PetaFlop的超級計算機。
目前Folding@home進行中的研究:
阿茲海默症
癌症
亨廷頓病
成骨不全症
帕金森氏症
核糖體與抗生素
這個產品真是具有佛心啊...
回覆刪除研究不少人生疾苦.
不知對我的痴呆症有沒有幫助?