中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

人工智能時代計算機架構(gòu)的趨勢與挑戰(zhàn)

2019-05-15    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

1 背景簡介

主持人:Chulian Zhang, compute architect@NVIDIA

20世紀(jì)70年代以來微處理器的單線程性能一直保持著指數(shù)增長。而在2010年后,由于Moore's Law和Dennard scaling幾近終結(jié),其增長速度明顯放緩。

 

 

圖片來源:www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/

然而對算力的需求不僅沒有減緩,反而越來越大,特別是深度學(xué)習(xí)的再次爆發(fā)更是讓這種需求變得愈加緊迫。為了滿足這種需求,一個有效的解決方案就是使用專用處理器。專用處理器的一個典型例子就是GPU,一種專門加速圖形和并行計算的處理器。下圖中可以看到在CPU 加速已經(jīng)明顯減緩的情況下,GPU加速的計算能力卻還在快速上升。

 

 

圖片來源:https://www.nvidia.com/es-la/data-center/hpc/

隨著深度學(xué)習(xí)日漸流行,幾乎每家大公司都在打造深度學(xué)習(xí)處理器,其中Google的Tensor Processing Unit (TPU) 就是一個重要的代表。TPU的主要功能是處理神經(jīng)網(wǎng)絡(luò),而神經(jīng)網(wǎng)絡(luò)中的大部分計算最終都歸結(jié)于矩陣乘法,因此TPU的核心就是矩陣運算單元(MUX,即進行矩陣相乘計算的單元。

 

 

圖片來源: https://cloud.google.com/tpu/docs/system-architecture

2 圓桌討論要點

1. 機器學(xué)習(xí)應(yīng)該在什么樣的硬件環(huán)境下運行?是使用付費的云計算,還是只使用線下已有的專用計算和存儲資源?

觀點1:

TPU的主要作用是提供更多的計算能力。目前只有Google Cloud提供TPU,然而云資源非常昂貴,單是獲得TPU的使用權(quán)限就要800美元,最終總費用是按小時數(shù)計算。所以計算的成本必須足夠高才值得嘗試在TPU上運行。

如果個人或者初創(chuàng)公司想要嘗試,最劃算的方法是購買廉價的GPU安裝在自己的計算機上。對于初學(xué)者來說,可以嘗試NVIDIA GTX 1060或RTX 2070。2070的性能更好一些,而2060或1060則更便宜。訓(xùn)練了一段時間之后,可以再看看其他選擇。如果需要更強的計算能力,可以使用AWS或者Google Cloud。比如在我使用云的時候,通常一半的模型訓(xùn)練在本地運行,其余的在云上運行。

觀點2:

我們還可以利用Google Colab(類似Python Jupyter Notebook)進行模型訓(xùn)練,通過瀏覽器訪問免費的TPU資源和NVIDIA T4GPU。Colab的問題在于,如果你用的是自己的數(shù)據(jù)集,那么每次使用前都需要重新設(shè)置。如果把數(shù)據(jù)從網(wǎng)絡(luò)硬盤導(dǎo)入Colab,再進行相同的操作,速度也會慢得多。不過對初學(xué)者來說,這是一個非常好的選擇。

2. 在5G物聯(lián)網(wǎng)時代,選擇哪種設(shè)備進行邊緣計算更合適:GPU、FPGA還是ASIC?

觀點1:

目前市場上有幾個解決方案。我認為在物聯(lián)網(wǎng)設(shè)備的特定應(yīng)用中采納優(yōu)化后的ASIC是一個很好的解決方案。但問題是,機器學(xué)習(xí)算法本身仍在快速發(fā)展,而GPU和FPGA可編程性的優(yōu)勢依然會持續(xù)。我們固然可以構(gòu)建一個最優(yōu)的ASIC設(shè)計,但是在流片(tape-out)的1.5年后,算法可能已經(jīng)過時了。將來也許行業(yè)會趨同于使用某個特定的算法,那時候使用ASIC 就是最佳方案了。

觀點2:

隨著算法的發(fā)展,ASIC也在不斷演變。每半年或一年就會有新一代物聯(lián)網(wǎng)設(shè)備出現(xiàn),能夠執(zhí)行更先進的算法。FPGA和ASIC實際上大同小異,都只是負責(zé)執(zhí)行命令。FPGA可以用來開發(fā)程序,方便靈活,但是性能不佳;而ASIC則可以針對特定目的進行優(yōu)化并不斷更新迭代。兩者的組合現(xiàn)在已經(jīng)成了趨勢。Intel支持的芯片創(chuàng)業(yè)公司SiFive最近收購了一家名為Open-Silicon的公司。他們的專用ASIC具有嵌入式編程功能,如eFPGA,能夠重新編譯和開發(fā)更多算法。

3.深度學(xué)習(xí)加速器目前主要用于模型訓(xùn)練和推理這兩種功能,那么這兩類加速器在將來會更加分化還是逐漸趨同?

觀點1:

我認為它們不會趨同,因為提高應(yīng)用能效和目標(biāo)優(yōu)化是兩個完全不同的方向,最終它們將會拆分成兩個市場。但即使是這兩個市場的公司,也有不同的要求。以NVIDIA為例,他們在數(shù)據(jù)中心的訓(xùn)練方面做得很好,甚至還包括一些數(shù)據(jù)中心推理。但是如果是純粹推理,市場上就出現(xiàn)了很多競爭對手。所以我認為這兩種功能很難趨同,特別是考慮到邊緣應(yīng)用的專用程度。我認為除了NVIDIA或Google之外,很多其他公司都可以通過打開一個非常小眾的市場并深入研究來立足。

觀點2:

從架構(gòu)的角度來看,我認為它們有可能趨同,因為它們?nèi)匀荒軌蚪鉀Q類似的問題。但是對于給定的架構(gòu),它們可以通過不同的方法實現(xiàn)。

觀點3:

對于推理,我們通常更關(guān)心效率。我們通常在數(shù)據(jù)中心進行訓(xùn)練,而在邊緣設(shè)備上進行推理,因此推理的架構(gòu)的設(shè)計傾向于使用更少的bits。正因如此,才會有兩種不同的設(shè)計方式。

觀點4:

我認為這是兩個不同的市場,目標(biāo)也不盡相同。對于訓(xùn)練,我們希望吞吐量越大越好;對于推理,我們要考慮的則是減少延遲和功耗。因此,在設(shè)計架構(gòu)時,首先要考慮最終目標(biāo),然后相應(yīng)地設(shè)計架構(gòu)。例如,對于在數(shù)據(jù)中心中進行訓(xùn)練,我們并不關(guān)心單個網(wǎng)絡(luò)的延遲,只關(guān)心一小時內(nèi)可以訓(xùn)練多少個網(wǎng)絡(luò)。對于在邊緣設(shè)備上進行推斷,我們關(guān)心的是運行單個網(wǎng)絡(luò)的延遲以及功耗。這樣一來,我認為趨同的可能性不大。

4. Google近期開發(fā)了哪些加速器?

觀點:

在TensorFlow的生態(tài)系統(tǒng)中,Google有許多加速器,如TPU和Edge TPU,還有許多非開源的內(nèi)部開發(fā)項目。

除了硬件之外,Google最近發(fā)布了一個名為MLIR(multi-level intermediate representation)的開源項目。TensorFlow的圖形結(jié)構(gòu)使其并不能非常有效的構(gòu)建連接不同后端的編譯器,所以MLIR被用作中間語言,成為連接SLA (Specialized learning accelerator),TPU和不同后端的橋梁。

MLIR的快速開發(fā)過程得益于Chris Laettner的全力推動,他2017年加盟Google,是LLVM(編譯器的框架系統(tǒng))和Swift編程語言的設(shè)計者。(完)

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:高通宣布新型數(shù)據(jù)中心人工智能芯片計劃:2020年

下一篇:手把手教你用Python構(gòu)建你的第一個多標(biāo)簽圖像分類模型(附案例)