中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

GPU云服務器深度學習性能模型初探

2019-10-25    來源:多智時代

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

摘要:本文根據實測數據,初步探討了在彈性GPU云服務器上深度學習的性能模型,可幫助科學選擇GPU實例的規(guī)格。

NVCaffe是NVIDIA基于BVLC-Caffe針對NVIDIA GPU尤其是多GPU加速的開源深度學習框架。LMDB格式的ImageNet訓練集大小為240GB ,驗證集大小為9.4GB。

我們使用NVcaffe對AlexNet、GoogLeNet、ResNet50、Vgg16四種經典卷積神經網絡做了圖像分類任務的模型訓練測試。分別對比了不同vCPU和Memory配置下的訓練性能。性能數據單位是Images/Second(每秒處理的圖像張數)。圖中標注為10000指的是迭代次數10000次,其它都是測試迭代次數為1000次。

GPU云服務器深度學習性能模型初探

GPU云服務器深度學習性能模型初探

GPU云服務器深度學習性能模型初探

GPU云服務器深度學習性能模型初探

從NVCaffe和MXNet的測試結果來看,圖像分類場景單純的訓練階段對CPU要求不高,單GPU 只需要4vCPU就可以。而內存需求則取決于深度學習框架、神經網絡類型和訓練數據集的大。簻y試中發(fā)現NVCaffe隨著迭代次數的增多,內存是不斷增大的,但是內存需求增大到一定程度,對性能就不會有什么提升了,其中NVCaffe AlexNet網絡的訓練,相比其它網絡對于內存的消耗要大得多。相比之下MXNet的內存占用則要小的多(這也是MXNet的一大優(yōu)勢),93G預處理過的訓練數據集訓練過程中內存占用不到5G。

對于磁盤IO性能,測試顯示訓練階段NVMe SSD本地盤、SSD云盤性能基本接近,高效云盤上的性能略差1%。因此訓練階段對IO性能的要求不高。

從NVCaffe的圖像分類推理測試來看,除AlexNet 2vCPU剛剛夠用外,其它網絡2vCPU對性能沒有影響,而9.4GB的驗證數據集推理過程中內存占用大概是7GB左右,因此對大部分模型來看,2vCPU 30GB 1GPU規(guī)格基本滿足圖像分類推理的性能需求。

對于磁盤IO性能,推理性能NVMe SSD本地盤、SSD云盤很接近,但高效云盤差15%。因此推理階段至少應該使用SSD云盤保證性能。

5.2.2 自然語言處理

對于自然語言處理,參考訓練性能需求,我們應該可以推測2vCPU 30GB 1GPU規(guī)格應該也能滿足需求。

5.3 數據預處理

從NVCaffe對ImageNet ILSVRC2012數據集做數據預處理的測試來看,數據預處理階段是IO密集型,NVMe SSD本地盤比SSD云盤快25%,而SSD云盤比高效云盤快10%。

6 總結

深度學習框架眾多,神經網絡類型也是種類繁多,我們選取了主流的框架和神經網絡類型,嘗試對單機GPU云服務器的深度學習性能模型做了初步的分析,結論是:

(1)深度學習訓練階段是GPU運算密集型,對于CPU占用不大,而內存的需求取決于深度學習框架、神經網絡類型和訓練數據集的大小;對磁盤IO性能不敏感,云盤基本能夠滿足需求。

(2)深度學習推理階段對于CPU的占用更小,但是對于磁盤IO性能相對較敏感,因為推理階段對于延遲有一定的要求,更高的磁盤IO性能對于降低數據讀取的延時進而降低整體延遲有很大的幫助。

(3)深度學習數據預處理階段是IO密集型階段,更高的磁盤IO性能能夠大大縮短數據預處理的時間。

標簽: 云服務器 深度學習 卷積神經 圖像分類 神經網絡 數據集 

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:淺談OpenStack平臺的安全問題及應對措施

下一篇:網絡直播系統(tǒng)教育的學習階段