融核一出GPGPU可以扔了？

2018-06-11 來(lái)源：

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

Intel最近發(fā)布的至強(qiáng)融核協(xié)處理器可謂是賺足了眼球，在Top500上也盡顯它強(qiáng)大的實(shí)力。Top500作為全球高性能計(jì)算的行業(yè)風(fēng)向標(biāo)，我們?cè)谝郧翱吹降囊话愣际切乱淮腃PU，GPGPU的系統(tǒng)在排行榜上占據(jù)多少多少比例之類的信息，但在今年Intel的這一枚重磅炸彈可以說(shuō)是直接命中要害。

Intel在07年就已經(jīng)有了這一計(jì)劃，當(dāng)時(shí)在競(jìng)爭(zhēng)對(duì)手AMD、NVIDIA競(jìng)相推出GPGPU的時(shí)候，Intel就準(zhǔn)備拿出一種可以編程的多核心芯片“Larrabee”進(jìn)行抗衡。但由于種種原因一直未能實(shí)現(xiàn)，不過這么多年的跳票還是積攢出了一些成果，Xeon Phi一經(jīng)推出就達(dá)到了當(dāng)今GPGPU計(jì)算能力的主流水平。

產(chǎn)品對(duì)比

Xeon Phi：

英特爾至強(qiáng)融核Xeon Phi

首先Xeon Phi是基于集成眾核(MIC)架構(gòu)的也就是Intel Larrabee GPU。 Xeon Phi的制造工藝采用了Intel當(dāng)前最先進(jìn)的22nm 3-D柵極晶體管。對(duì)于Linux操作系統(tǒng)，Xeon Phi是可以不依賴傳統(tǒng)Xeon CPU直接運(yùn)行的，但BIOS等方面還需要做一些小的改動(dòng)，為了兼容大量傳統(tǒng)x86應(yīng)用，目前還沒有推出這樣的平臺(tái)。

NVIDIA Tesla K20X：

NVIDIA GPGPU Tesla K20X

今年TOP500的冠軍泰坦所使用的GPU加速器就是Tesla K20X，Tesla K20系列是基于NVIDIA的 Kepler計(jì)算架構(gòu)。采用SMX流式多處理器。除此之外通過增加四倍數(shù)量的CUDA架構(gòu)核心來(lái)實(shí)現(xiàn)SMX的節(jié)能效果，同時(shí)還降低了每個(gè)核心以及GPU電源門控零件在閑置時(shí)的時(shí)鐘頻率，最大限度增大了專門用于并行處理核心而非控制邏輯的GPU區(qū)域。

優(yōu)勢(shì)對(duì)比

性能方面

NVIDIA Tesla K20X：

Tesla K20X屏蔽了1組SMX單元，剩下14組SMX，CUDA計(jì)算核心相應(yīng)的減少為2688個(gè)，不過保存了384bit完整的顯存位寬，配備的是6GB GDDR5顯存，顯存頻率為5200MHz。由于要面對(duì)大核心功耗、良率、發(fā)熱的問題，Tesla K20X核心頻率預(yù)設(shè)并不太高，為732MHz，單精度和雙精度浮點(diǎn)計(jì)算性能分別達(dá)到了3.95 TFlops和1.31TFlops，比例為1：3。

Xeon Phi：

在Xeon Phi coprocessor 5110P身上我們更多的看到的還是x86的影子，產(chǎn)品雖然使用了多達(dá)60個(gè)計(jì)算核心，當(dāng)然架構(gòu)和流水級(jí)數(shù)的大幅削減，產(chǎn)品的核心頻率并不會(huì)像桌面產(chǎn)品那樣動(dòng)輒3GHz以上，只有區(qū)區(qū)1.053GHz，但是和桌面產(chǎn)品相比卻有著更高的執(zhí)行效率，雙精度計(jì)算性能也突破了1TFlops，為 1.053TFlops。

編程方面

Xeon Phi最大優(yōu)勢(shì)就是在使用x86架構(gòu)的并行計(jì)算時(shí)不需要對(duì)代碼進(jìn)行大規(guī)模改寫，只需要對(duì)編譯器和Runtime等進(jìn)行調(diào)整即可順利使用Xeon Phi進(jìn)行加速。Intel指出相對(duì)NVIDIA的CUDA或者OpenCL等異構(gòu)計(jì)算道路，一些研究機(jī)構(gòu)可以不用重寫它們的x86應(yīng)用。

NICS的MIC架構(gòu)初步試驗(yàn)結(jié)果

Xeon Phi的推出無(wú)疑是對(duì)NVIDIA GPGPU代表的異構(gòu)計(jì)算構(gòu)成了威脅，那么有了Xeon Phi之后我們真的不再需要GPGPU了么?

回答是否定的，Intel在Xeon Phi中加入了新的512bit寬度ZMM寄存器指令集，使得Xeon Phi的矢量單元(vector unit)和其他所有Intel處理器產(chǎn)品都不相同，這意味著Xeon Phi系列產(chǎn)品和其他Intel CPU在二進(jìn)制代碼上實(shí)際是不兼容的。為 Xeon Phi所編寫、編譯的代碼不能在其余CPU上運(yùn)行，反之亦然：為SIMD大量?jī)?yōu)化的代碼對(duì)Xeon Phi同樣沒有意義。此外Intel還重申Xeon Phi是一款協(xié)處理器，需要CPU的輔助才能發(fā)揮應(yīng)有的作用，從模式上來(lái)說(shuō)已經(jīng)和NVIDIA的Tesla加速卡類似，偏離了原有的設(shè)想。

總結(jié)

以上解釋與說(shuō)明只指向一個(gè)事實(shí)：在MIC架構(gòu)上編寫應(yīng)用并不比走CUDA/OpenCL GPGPU的道路工作量小。即使是號(hào)稱通用性最強(qiáng)的OpenCL，代碼也必須根據(jù)硬件的架構(gòu)特征所大量的優(yōu)化與改動(dòng)，否則得到的性能數(shù)據(jù)毫無(wú)實(shí)際意義。聯(lián) 系到目前的實(shí)際情況，毫無(wú)疑問NVIDIA的CUDA無(wú)論性能還是走在了市場(chǎng)的最先端，而OpenCL和Intel要稍微落后一些。

標(biāo)簽： linux 代碼計(jì)劃問題行業(yè)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:Jolla發(fā)布Sailfish OS，UI類似安卓

下一篇:2012年全球PaaS市場(chǎng)規(guī)模將達(dá)12億美元

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

融核一出GPGPU可以扔了？