中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

IBM研究院利用新型軟件技術(shù),將深度學(xué)習性能推到新“制高點”

2018-06-11    來源:

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

      深度學(xué)習是一種廣泛使用的 AI 方法,可以幫助計算機理解人們用以體驗世界的圖像和聲音,并提取其中的含義。它有望幫助我們不僅提升用戶移動設(shè)備體驗,并且在醫(yī)療影像診斷等廣闊領(lǐng)域取得突破。但是,大規(guī)模運行 AI 深度學(xué)習模型在技術(shù)上面臨著困難,訓(xùn)練時間通常要持續(xù)數(shù)天甚至數(shù)周,這使得大規(guī)模部署深度學(xué)習的準確率和實用性進展受到了限制。 

      我們在IBM 研究院的團隊致力于縮短使用大型數(shù)據(jù)集、訓(xùn)練大型模型的時間。我們的目標是將與深度學(xué)習訓(xùn)練相關(guān)的等待時間從數(shù)天或數(shù)小時縮短到幾分鐘或幾秒鐘,并提高這些 AI 模型的準確率。為此,我們正在解決在大量服務(wù)器和 NVIDIA GPU 間進行分布式深度學(xué)習的巨大挑戰(zhàn)。 

      大多數(shù)流行的深度學(xué)習框架可擴展到一個服務(wù)器中的多個 GPU,但無法擴展到多個配有 GPU 的服務(wù)器。而我們團隊(Minsik Cho、Uli Finkler、David Kung以及其他合作者)編寫了軟件和算法,能夠?qū)υ跀?shù)十個服務(wù)器中的數(shù)百個 GPU 加速器間并行運行的、非常龐大且復(fù)雜的計算任務(wù)進行自動優(yōu)化。

      我們的軟件能夠完全同步進行深度學(xué)習訓(xùn)練,并且數(shù)據(jù)通信開銷非常低。因此,當我們擴展到一個包含數(shù)百個 GPU 的大型集群,并使用ImageNet-22k 數(shù)據(jù)集的750 萬張圖像訓(xùn)練模型時,圖像識別準確率史無前例地達到了 33.8%,而 Microsoft此前發(fā)布的最好結(jié)果僅為29.8%。4% 的準確率提升是一次巨大的飛躍;因為過去一般提升不到 1%。由于能夠充分利用配備了數(shù)百個 NVIDIA GPU 的數(shù)十臺服務(wù)器,我們創(chuàng)新的分布式深度學(xué)習(DDL,Distributed deep learning) 方法不僅讓我們提高了準確率,還能在短短 7 小時內(nèi)訓(xùn)練一個 ResNet-101 神經(jīng)網(wǎng)絡(luò)模型;而Microsoft 訓(xùn)練同一個模型需要花費 10 天時間。這一成果需要我們創(chuàng)建分布式深度學(xué)習代碼和算法,解決對強大的深度學(xué)習框架進行擴展的固有難題。

      與此同時,隨著 GPU 變得更快,它們的學(xué)習速度也會更快,就需要使用傳統(tǒng)軟件完全無法達到的速度與所有其他 GPU 共享其學(xué)習結(jié)果。這是一個很棘手的技術(shù)問題,給系統(tǒng)網(wǎng)絡(luò)帶來了壓力。基本來講,更智慧且更快的學(xué)習者們 (即GPU們) 需要更好的通信方式,否則它們將不同步,并會花費大部分時間等待獲得彼此的結(jié)果。所以,通過使用更多、能更快學(xué)習的 GPU,你并沒有獲得更快的速度,甚至可能遇到性能下降的情況。

      我們通過分布式深度學(xué)習 (DDL) 軟件彌補的功能局限,主要體現(xiàn)在提高擴展效率以及如何在增加GPU 時實現(xiàn)接近完美的系統(tǒng)擴展性能上。這項指標展示了 256 個 GPU 如何高效地“交流”彼此的學(xué)習成果。

      我們通過使用ImageNet-22K 數(shù)據(jù)集的 750 萬張圖像(批量處理的圖像尺寸為 5120)來訓(xùn)練 ResNet-101 深度學(xué)習模型,證明了該分布式深度學(xué)習軟件的擴展能力。團隊使用了一個包含 64 臺 IBM Power 服務(wù)器和總計 256 個 NVIDIA P100 GPU 加速器的集群,以非常低的數(shù)據(jù)通信開銷實現(xiàn)了 88% 的擴展效率。 

      Facebook AI 研究所 (FAIR) 的一個團隊此前實現(xiàn)了 256 個 GPU 的最佳擴展能力。FAIR 在較小的數(shù)據(jù)集 ImageNet-1K(擁有約 130 萬張圖像)上使用了一個較小的深度學(xué)習模型 ResNet-50,兩者都降低了計算的復(fù)雜性,而且使用了 8192 這一更大的批處理尺寸,他們使用 Caffe2 深度學(xué)習軟件,在由 256 個 NVIDIA P100 GPU 加速的集群上,實現(xiàn)了 89% 的擴展效率。使用ResNet-50 模型以及與 Facebook 相同的數(shù)據(jù)集,IBM 研究院的 DDL 軟件使用 Caffe 實現(xiàn)了 95% 的效率,如下圖所示。

IBM DDL 在 256 個 GPU 間的擴展性能

      對于開發(fā)人員和數(shù)據(jù)科學(xué)家,IBM 研究院的分布式深度學(xué)習 (DDL) 軟件提供了一個 API(應(yīng)用編程接口),每個深度學(xué)習框架都可以接入該 API,從而擴展到多臺服務(wù)器上。PowerAI 企業(yè)級深度學(xué)習軟件第 4 版提供了一個技術(shù)預(yù)覽版,使這項集群擴展功能可以用于任何使用深度學(xué)習框架訓(xùn)練其AI 模型的組織。我們期望,通過為 AI 社區(qū)提供 DDL功能,更多的人將利用集群的強大功能進行 AI 模型訓(xùn)練,實現(xiàn)更高的準確性。

標簽: 代碼 服務(wù)器 企業(yè) 通信 網(wǎng)絡(luò) 問題 用戶

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Win32.Hack.WinControl

下一篇:Win32.hack.Ders