中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

GPU云服務(wù)器深度學(xué)習(xí)性能模型初探

2019-10-25    來源:多智時(shí)代

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

摘要:本文根據(jù)實(shí)測(cè)數(shù)據(jù),初步探討了在彈性GPU云服務(wù)器上深度學(xué)習(xí)的性能模型,可幫助科學(xué)選擇GPU實(shí)例的規(guī)格。

NVCaffe是NVIDIA基于BVLC-Caffe針對(duì)NVIDIA GPU尤其是多GPU加速的開源深度學(xué)習(xí)框架。LMDB格式的ImageNet訓(xùn)練集大小為240GB ,驗(yàn)證集大小為9.4GB。

我們使用NVcaffe對(duì)AlexNet、GoogLeNet、ResNet50、Vgg16四種經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)做了圖像分類任務(wù)的模型訓(xùn)練測(cè)試。分別對(duì)比了不同vCPU和Memory配置下的訓(xùn)練性能。性能數(shù)據(jù)單位是Images/Second(每秒處理的圖像張數(shù))。圖中標(biāo)注為10000指的是迭代次數(shù)10000次,其它都是測(cè)試迭代次數(shù)為1000次。

GPU云服務(wù)器深度學(xué)習(xí)性能模型初探

GPU云服務(wù)器深度學(xué)習(xí)性能模型初探

GPU云服務(wù)器深度學(xué)習(xí)性能模型初探

GPU云服務(wù)器深度學(xué)習(xí)性能模型初探

從NVCaffe和MXNet的測(cè)試結(jié)果來看,圖像分類場(chǎng)景單純的訓(xùn)練階段對(duì)CPU要求不高,單GPU 只需要4vCPU就可以。而內(nèi)存需求則取決于深度學(xué)習(xí)框架、神經(jīng)網(wǎng)絡(luò)類型和訓(xùn)練數(shù)據(jù)集的大。簻y(cè)試中發(fā)現(xiàn)NVCaffe隨著迭代次數(shù)的增多,內(nèi)存是不斷增大的,但是內(nèi)存需求增大到一定程度,對(duì)性能就不會(huì)有什么提升了,其中NVCaffe AlexNet網(wǎng)絡(luò)的訓(xùn)練,相比其它網(wǎng)絡(luò)對(duì)于內(nèi)存的消耗要大得多。相比之下MXNet的內(nèi)存占用則要小的多(這也是MXNet的一大優(yōu)勢(shì)),93G預(yù)處理過的訓(xùn)練數(shù)據(jù)集訓(xùn)練過程中內(nèi)存占用不到5G。

對(duì)于磁盤IO性能,測(cè)試顯示訓(xùn)練階段NVMe SSD本地盤、SSD云盤性能基本接近,高效云盤上的性能略差1%。因此訓(xùn)練階段對(duì)IO性能的要求不高。

從NVCaffe的圖像分類推理測(cè)試來看,除AlexNet 2vCPU剛剛夠用外,其它網(wǎng)絡(luò)2vCPU對(duì)性能沒有影響,而9.4GB的驗(yàn)證數(shù)據(jù)集推理過程中內(nèi)存占用大概是7GB左右,因此對(duì)大部分模型來看,2vCPU 30GB 1GPU規(guī)格基本滿足圖像分類推理的性能需求。

對(duì)于磁盤IO性能,推理性能NVMe SSD本地盤、SSD云盤很接近,但高效云盤差15%。因此推理階段至少應(yīng)該使用SSD云盤保證性能。

5.2.2 自然語言處理

對(duì)于自然語言處理,參考訓(xùn)練性能需求,我們應(yīng)該可以推測(cè)2vCPU 30GB 1GPU規(guī)格應(yīng)該也能滿足需求。

5.3 數(shù)據(jù)預(yù)處理

從NVCaffe對(duì)ImageNet ILSVRC2012數(shù)據(jù)集做數(shù)據(jù)預(yù)處理的測(cè)試來看,數(shù)據(jù)預(yù)處理階段是IO密集型,NVMe SSD本地盤比SSD云盤快25%,而SSD云盤比高效云盤快10%。

6 總結(jié)

深度學(xué)習(xí)框架眾多,神經(jīng)網(wǎng)絡(luò)類型也是種類繁多,我們選取了主流的框架和神經(jīng)網(wǎng)絡(luò)類型,嘗試對(duì)單機(jī)GPU云服務(wù)器的深度學(xué)習(xí)性能模型做了初步的分析,結(jié)論是:

(1)深度學(xué)習(xí)訓(xùn)練階段是GPU運(yùn)算密集型,對(duì)于CPU占用不大,而內(nèi)存的需求取決于深度學(xué)習(xí)框架、神經(jīng)網(wǎng)絡(luò)類型和訓(xùn)練數(shù)據(jù)集的大小;對(duì)磁盤IO性能不敏感,云盤基本能夠滿足需求。

(2)深度學(xué)習(xí)推理階段對(duì)于CPU的占用更小,但是對(duì)于磁盤IO性能相對(duì)較敏感,因?yàn)橥评黼A段對(duì)于延遲有一定的要求,更高的磁盤IO性能對(duì)于降低數(shù)據(jù)讀取的延時(shí)進(jìn)而降低整體延遲有很大的幫助。

(3)深度學(xué)習(xí)數(shù)據(jù)預(yù)處理階段是IO密集型階段,更高的磁盤IO性能能夠大大縮短數(shù)據(jù)預(yù)處理的時(shí)間。

標(biāo)簽: 云服務(wù)器 深度學(xué)習(xí) 卷積神經(jīng) 圖像分類 神經(jīng)網(wǎng)絡(luò) 數(shù)據(jù)集 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:淺談OpenStack平臺(tái)的安全問題及應(yīng)對(duì)措施

下一篇:網(wǎng)絡(luò)直播系統(tǒng)教育的學(xué)習(xí)階段