站長資訊平臺

浪潮發(fā)布業(yè)界最高GPU密度的SR-AI整機柜

2018-06-11 來源：

在不久前結(jié)束的2017浪潮云數(shù)據(jù)中心全國合作伙伴大會（IPF）上，浪潮秉承堅持圍繞"計算+"戰(zhàn)略，進一步明確業(yè)務(wù)重心，聚焦智慧計算，發(fā)展開放融合的計算生態(tài)，建立智慧計算市場的領(lǐng)導(dǎo)力。

智慧計算的未來在商業(yè)應(yīng)用，隨著人工智能應(yīng)用的快速發(fā)展，AI所需的計算力也急劇攀升。此前，浪潮就已在AI計算平臺、架構(gòu)領(lǐng)域布局，擁有業(yè)界完整的支持2、4、8 GPU卡的異構(gòu)超算服務(wù)器陣列。而本次IPF上，浪潮發(fā)布了業(yè)界最高密度的、單機點支持16塊GPU卡的SR-AI整機柜，進一步優(yōu)化了AI計算硬件架構(gòu)，改變原有CPU-GPU緊耦合狀態(tài)，實現(xiàn)GPU資源的靈活池化擴容。

更復(fù)雜的AI應(yīng)用呼喚更強大的計算平臺

深度學(xué)習(xí)概念和淺層學(xué)習(xí)算法已經(jīng)被提出多年，而人工智能近年才開始逐漸升溫，原因是人工智能技術(shù)的進步受限于計算平臺的性能和數(shù)據(jù)量的積累。舉個例子，從IBM深藍戰(zhàn)勝卡斯帕羅夫，浪潮天梭戰(zhàn)勝五位象棋大師，再到谷歌AlphaGo戰(zhàn)勝圍棋冠軍李世石，解決問題的博弈樹空間擴大了237數(shù)量級，這其中需要更優(yōu)化的算法，也需要更強大的計算平臺來支撐實時運算。

除了AI游戲，在現(xiàn)實生活中人工智能的應(yīng)用也越來越廣泛和復(fù)雜，從人臉簽到打卡，到行動軌跡追蹤，再到無人駕駛汽車，更復(fù)雜的AI應(yīng)用呼喚更強大的計算平臺。傳統(tǒng)的單機單卡、2卡甚至8卡已經(jīng)不能滿足多樣化的業(yè)務(wù)需求，浪潮SR-AI整機柜服務(wù)器以單節(jié)點16卡的更高密度，滿足當(dāng)下快速膨脹的AI計算能力需求。

更高密度+資源解耦，10倍于傳統(tǒng)AI計算設(shè)備性能

此次，浪潮與百度聯(lián)合發(fā)布的SR-AI整機柜服務(wù)器，符合最新的天蝎2.5標(biāo)準(zhǔn)，是全球首個采用PCIe Fabric互聯(lián)架構(gòu)設(shè)計的AI方案，通過PCI-E交換機和GPU BOX兩個模塊的配合，打破GPU和CPU的物理耦合，讓兩者可以靈活擴展，相對于傳統(tǒng)的GPU服務(wù)器，這是種顛覆式的創(chuàng)新，帶來了高密度、低延遲、易擴展等優(yōu)勢。

首先，傳統(tǒng)的AI計算設(shè)備集群需要通過高速網(wǎng)絡(luò)實現(xiàn)數(shù)據(jù)的交互，著會帶來us級以上的延遲，而SR-AI整機柜中GPU BOX間的互聯(lián)是通過PCI-E交換機來實現(xiàn)，并借助GPUDirect RDMA技術(shù)可以大幅下降跨節(jié)點GPU間的通信延遲，能夠?qū)崿F(xiàn)ns級網(wǎng)絡(luò)延時。

第二，SR-AI整機柜的I/O BOX單節(jié)點即可實現(xiàn)支持16個GPU的超大擴展，并且可以通過PCI-E交換機實現(xiàn)4個BOX、64塊GPU的級聯(lián)，峰值處理能力達到為512TFlops。

第三，SR-AI整機柜的GPU資源擴展無需同步配置高成本的IT資源（比如IB交換機），成本可優(yōu)化5%以上，并隨著規(guī)模上升成本優(yōu)勢越明顯。

SR-AI整機柜是面向更大規(guī)模數(shù)據(jù)集和深層神經(jīng)網(wǎng)絡(luò)的超大規(guī)模AI計算平臺，能夠高效支撐復(fù)雜的深度學(xué)習(xí)線下模型訓(xùn)練任務(wù)，適用于圖像識別、語音識別、自然語言處理、搜索排序等AI應(yīng)用。百度實際業(yè)務(wù)的測試數(shù)據(jù)顯示，SR-AI整機柜相比傳統(tǒng)的AI方案性能提高5-10倍！

高效開發(fā)框架+算法協(xié)同優(yōu)化，AI計算效率最大化

與 CPU 少量的邏輯運算單元相比，GPUFPGAMIC這種協(xié)處理加速設(shè)備整個就是一個龐大的計算矩陣，可實現(xiàn) 10-100 倍應(yīng)用吞吐量。但同時，這種龐大的并行能力需要付出代價：需要較強的軟件開發(fā)能力和算法優(yōu)化能力。

為此，浪潮將高效深度學(xué)習(xí)框架Caffe-MPI開源，與眾多開發(fā)者共同優(yōu)化，為深度學(xué)習(xí)的用戶提供了更便捷、更高效的應(yīng)用手段。浪潮Caffe-MPI能夠在保證正確率相同的情況下，在4節(jié)點下16卡的性能較單卡提升13倍，并增加了對cuDNN庫的支持，使程序開發(fā)人員能夠輕松實現(xiàn)高性能深度學(xué)習(xí)代碼的開發(fā)。

在算法方面，此前浪潮與客戶在GPU加速加速流量特征分析技術(shù)開展合作，通過軟硬件和算法的協(xié)同優(yōu)化，使訓(xùn)練24萬樣本的時間單節(jié)點4GPU相對于單GPU加速3倍，單機4GPU卡程序性能較原始版本加速270倍。

數(shù)據(jù)顯示，2016年浪潮在人工智能計算領(lǐng)域的市場份額超過60%，為百度、阿里巴巴、騰訊、奇虎、科大訊飛、Face++等中國人工智能企業(yè)，提供基于GPU、FPGA、KNL等協(xié)處理加速服務(wù)器和caffe-MPI等軟件、算法優(yōu)化。

標(biāo)簽：標(biāo)準(zhǔn) 代碼服務(wù)器谷歌開發(fā)者企業(yè) 搜索通信網(wǎng)絡(luò) 問題用戶

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:2017WHD.china與您一起暢享融云即時通訊云服務(wù)

下一篇:大勢所趨，企業(yè)全面轉(zhuǎn)向超融合基礎(chǔ)架構(gòu)

相關(guān)文章

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

浪潮發(fā)布業(yè)界最高GPU密度的SR-AI整機柜