中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌新研究對神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)并行性提出質(zhì)疑

2019-03-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,并行計算和模型并行是很常用的方法,以最大限度地利用有限的算力。然而,谷歌的一項新研究表明,數(shù)據(jù)并行并不一定總能加快模型訓(xùn)練速度。這是為什么呢?

過去十年多中,神經(jīng)網(wǎng)絡(luò)已經(jīng)在各種預(yù)測任務(wù)中實現(xiàn)了最先進的結(jié)果,包括圖像分類、機器翻譯和語音識別等。這些成果的取得至少部分應(yīng)該歸功于軟硬件的改進加速了神經(jīng)網(wǎng)絡(luò)訓(xùn)練。更快的訓(xùn)練速度直接使得模型質(zhì)量顯著提高,可以處理更多的訓(xùn)練數(shù)據(jù),也讓研究人員可以更快地嘗試新的想法和配置。今天,像云 TPU Pod 這樣的硬件開發(fā)商都在迅速提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練的計算力,這既提高了利用額外計算的可能性,使神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度更快,還促進模型質(zhì)量得到更大改進。但是,我們究竟應(yīng)該如何利用這空前強大的計算力,更大的算力是否一定意味著訓(xùn)練速度更快呢?

利用巨大算力最常用方法,是把算力分配到多個處理器上并同時執(zhí)行計算。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,實現(xiàn)這一目標(biāo)的主要方法是模型并行,在不同處理器上分布神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)并行是指在不同處理上分發(fā)訓(xùn)練樣例,并且并行地計算神經(jīng)網(wǎng)絡(luò)的更新。雖然模型并行使得訓(xùn)練大于單個處理器可支持的神經(jīng)網(wǎng)絡(luò)成為可能,但通常需要根據(jù)硬件需求定制模型架構(gòu)。相比之下,數(shù)據(jù)并行是模型不可知的,且適用于所有神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),它是用于并行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的最簡單、最廣為采用的技術(shù)。對于最常見的神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法(同步隨機梯度下降及其變體),數(shù)據(jù)并行的規(guī)模和樣本大小、用于計算神經(jīng)網(wǎng)絡(luò)的每次更新的訓(xùn)練樣本的數(shù)量相對應(yīng)。但是,并行計算有什么限制?我們什么時候才能實現(xiàn)大幅度的訓(xùn)練加速?

在《測量數(shù)據(jù)并行在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的作用》一文中,我們在實驗中使用三種不同的優(yōu)化算法(“優(yōu)化器”)在七個不同數(shù)據(jù)集上運行六種不同類型的神經(jīng)網(wǎng)絡(luò),來研究樣本大小和訓(xùn)練時間之間的關(guān)系?偟膩碚f,我們在約 450 個工作負(fù)載上訓(xùn)練了超過 100K 的單個模型,發(fā)現(xiàn)了我們測試的所有工作負(fù)載中樣本大小和訓(xùn)練時間之間看似普遍的關(guān)系。我們還研究了這種關(guān)系如何隨數(shù)據(jù)集、神經(jīng)網(wǎng)絡(luò)架構(gòu)和優(yōu)化器而變化,結(jié)果我們發(fā)現(xiàn),工作負(fù)載之間的差異非常大。此外,我們很開心地把原始數(shù)據(jù)分享出來,供研究界進一步分析。這些數(shù)據(jù)包括超過 71M 的模型評估,組成我們訓(xùn)練的所有 100K + 單個模型的訓(xùn)練曲線,并可用于復(fù)現(xiàn)我們論文中提到的所有 24 個圖。

樣本大小與訓(xùn)練時間之間的普遍關(guān)系

在理想的數(shù)據(jù)并行系統(tǒng)中,處理器之間的時間同步可以忽略不計,訓(xùn)練時間可以通過訓(xùn)練步驟來計量(神經(jīng)網(wǎng)絡(luò)參數(shù)的更新)。在此假設(shè)下,我們在樣本大小和訓(xùn)練時間之間的關(guān)系中觀察到三種不同的縮放模式:“完美縮放”模式,其中樣本加倍,達(dá)到目標(biāo)樣本外錯誤所需的訓(xùn)練步驟數(shù)減半;其次是“收益遞減”模式;最后是“最大數(shù)據(jù)并行”制度,即使在理想的硬件環(huán)境中,進一步增加樣本也不會減少訓(xùn)練時間。

 

 

(對于我們測試的所有工作負(fù)載,我們觀察到樣本大小和訓(xùn)練速度之間的普遍關(guān)系具有三種不同的模式:完美縮放(沿著虛線),收益遞減(從虛線偏離)和最大數(shù)據(jù)并行(趨近平行)。各模式之間的過渡點在不同的工作量上變化很大。)

雖然樣本大小和訓(xùn)練時間之間的這些基本關(guān)系看似普遍,但我們發(fā)現(xiàn),在不同神經(jīng)網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)集上,三種縮放模式之間的轉(zhuǎn)換點變化很大。這意味著,在當(dāng)今的硬件條件下(如云 TPU Pod,),雖然簡單的數(shù)據(jù)并行可以大大加速某些工作負(fù)載,但是另一些工作負(fù)載需要的不僅僅是簡單的數(shù)據(jù)并行。例如,在上圖中,CIFAR-10 上的 ResNet-8 無法從大于 1,024 的樣本中受益,而 ImageNet 上的 ResNet-50 只有當(dāng)樣本至少增加到 65,536 才可能繼續(xù)受益。

優(yōu)化工作負(fù)載

如果可以預(yù)測哪些工作負(fù)載可以最大化地從數(shù)據(jù)并行訓(xùn)練中受益,那么我們就可以定制工作負(fù)載,以最大限度地利用可用硬件。但是,我們的結(jié)果表明這不一定行的通,因為最大化利用有用的樣本在某種程度上取決于工作負(fù)載的方方面面:神經(jīng)網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)集和優(yōu)化器。例如,某些神經(jīng)網(wǎng)絡(luò)架構(gòu)可以從比其他架構(gòu)更大的樣本中受益,即使在使用相同優(yōu)化器對相同數(shù)據(jù)集進行訓(xùn)練時也是如此。雖然這種影響有時取決于網(wǎng)絡(luò)的寬度和深度,但它在不同類型的網(wǎng)絡(luò)之間是不一致的,并且一些網(wǎng)絡(luò)甚至沒有明顯的“寬度”和“深度”概念。

雖然我們發(fā)現(xiàn)某些數(shù)據(jù)集可以從比其他數(shù)據(jù)集更大的樣本中受益,但這些差異并不總是因為數(shù)據(jù)集的大小引起的,有時對于較大的樣本,較小的數(shù)據(jù)集也可能比較大的數(shù)據(jù)集受益更多。

 

 

(左圖: 在 LM1B 數(shù)據(jù)集上,transformer 神經(jīng)網(wǎng)絡(luò)比 LSTM 神經(jīng)網(wǎng)絡(luò)擴展到更大樣本的樣本。右圖:Common Scrawl 數(shù)據(jù)集并不比 LM1B 數(shù)據(jù)集受益更多,盡管前者大小是后者的 1,000 倍。)

也許最讓人鼓舞的發(fā)現(xiàn)是,即使是優(yōu)化算法的微小變化,如隨機梯度下降的 momentum ,也可以隨著樣本擴大顯著改善訓(xùn)練。這讓新優(yōu)化器或測試優(yōu)化器縮放屬性的可能性變大,以找到可以最大限度地利用大規(guī)模數(shù)據(jù)并行的優(yōu)化器。

未來的工作

通過增加樣本數(shù)量,利用額外的數(shù)據(jù)并行是一種加速工作負(fù)載的簡單方法,但是,我們的實驗顯示工作負(fù)載加速的優(yōu)勢由于硬件限制在逐漸減小。但另一方面,我們的結(jié)果表明,一些優(yōu)化算法可能可以在許多模型和數(shù)據(jù)集中擴展完美的縮放模式。未來,我們可以用相同的方法測試其他優(yōu)化器,看看現(xiàn)在是否存在可以將完美模式拓展應(yīng)用到所有問題中的優(yōu)化器。

原文鏈接:

https://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.html

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:人工智能推動全球業(yè)務(wù)的數(shù)據(jù)中心管理

下一篇:算法工程師眼中的AI崗位