站長資訊平臺

騰訊AI Lab詳解3大熱點：模型壓縮、機(jī)器學(xué)習(xí)及最優(yōu)化算法

2018-12-21 來源：raincent

NeurIPS (Conference on Neural Information Processing Systems，神經(jīng)信息處理系統(tǒng)進(jìn)展大會)與ICML并稱為神經(jīng)計算和機(jī)器學(xué)習(xí)領(lǐng)域兩大頂級學(xué)術(shù)會議。今年為第32屆會議，將于 12月3日至8日在加拿大蒙特利爾舉辦。騰訊AI Lab第三次參加NeurIPS，共20篇論文入選，位居國內(nèi)企業(yè)前列。

騰訊AI Lab對會議的三大熱點——模型壓縮、自動機(jī)器學(xué)習(xí)、機(jī)器學(xué)習(xí)及最優(yōu)化算法相關(guān)的23篇論文進(jìn)行了解讀。

模型壓縮

Model Compression

模型壓縮是近期深度學(xué)習(xí)領(lǐng)域中一個較為熱門的研究方向，通過對模型的網(wǎng)絡(luò)結(jié)構(gòu)或者權(quán)重表示方式進(jìn)行簡化，在精度損失可控的前提下，降低模型的計算復(fù)雜度和參數(shù)規(guī)模，以解決深度學(xué)習(xí)模型計算效率較低的問題。粗略統(tǒng)計，本屆NIPS有15-20篇模型壓縮相關(guān)論文，涵蓋了網(wǎng)絡(luò)剪枝、權(quán)重量化、知識蒸餾、精簡網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計等多個方面。

這次會議的研究中體現(xiàn)出四大特點：一、多種權(quán)重量化算法被提出，同時相應(yīng)的訓(xùn)練算法與理論分析也有較多討論;二、遷移學(xué)習(xí)與知識蒸餾的結(jié)合;三、新型精簡網(wǎng)絡(luò)結(jié)構(gòu)的不斷涌現(xiàn);四、模型壓縮的應(yīng)用推廣至目標(biāo)檢測、自然語言理解等領(lǐng)域。另外，“精簡深度神經(jīng)網(wǎng)絡(luò)及其產(chǎn)業(yè)界應(yīng)用”研討會(Workshop)環(huán)節(jié)集中探討了近期模型壓縮方向的研究成果以及在實際場景中的應(yīng)用。我們重點關(guān)注了以下文章：

1. 基于敏感度正則化的稀疏神經(jīng)網(wǎng)絡(luò)訓(xùn)練

Learning Sparse Neural Networks via Sensitivity-Driven Regularization

https://nips.cc/Conferences/2018/Schedule?showEvent=11386

本文由都靈理工大學(xué)、Nuance Communications公司、巴黎高等電信學(xué)院和意大利電信集團(tuán)合作完成。深度神經(jīng)網(wǎng)絡(luò)中的海量參數(shù)使得其難以應(yīng)用到內(nèi)存有限的場景中，而正則化加剪枝的訓(xùn)練方式可以使得網(wǎng)絡(luò)權(quán)重變得稀疏，以解決這一問題。本文對網(wǎng)絡(luò)最終輸出相對于網(wǎng)絡(luò)權(quán)重的敏感度進(jìn)行量化分析，并引入了一個正則化項，以逐步減小低敏感度的網(wǎng)絡(luò)權(quán)重的絕對值�；谠撍惴�，大量的網(wǎng)絡(luò)權(quán)重會逐步收斂為零，從而可以被安全地從網(wǎng)絡(luò)模型中刪去。實驗結(jié)果表明，該算法在權(quán)重稀疏度和模型預(yù)測精度方面都超過了現(xiàn)有算法;在部分?jǐn)?shù)據(jù)集上，當(dāng)模型預(yù)測精度相同時，該算法可以將權(quán)重稀疏度提升至現(xiàn)有算法的兩倍。

2. 一種高可擴(kuò)展性的8比特神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法

Scalable Methods for 8-bit Training of Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11503

本文由Intel和以色列理工學(xué)院合作完成。對訓(xùn)練完畢的網(wǎng)絡(luò)模型進(jìn)行定點量化可以提升模型在推理過程中的計算效率，但是對于如何確定最優(yōu)的量化比特數(shù)以及量化方案尚無定論。本文首先通過理論分析指出，在網(wǎng)絡(luò)訓(xùn)練過程中，除部分特定的操作外，大部分操作對于模型權(quán)重精度的下降并不敏感�；谶@一結(jié)論，本文提出對模型權(quán)重、各層特征圖以及梯度信號進(jìn)行量化，并且維護(hù)了兩個量化精度不同的梯度信號，在不損失精度的情況下最大程度地提升計算效率。同時，由于batch normalization層對于量化精度要求更高，本文提出了Range BN層以提升對量化誤差的容忍度。實驗結(jié)果表明，在ImageNet-1K數(shù)據(jù)集上，本文對模型權(quán)重、各層特征圖以及梯度信號進(jìn)行8比特量化，量化后模型達(dá)到了目前最好的預(yù)測精度。

3. 判別力最大化的通道剪枝算法在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

Discrimination-aware Channel Pruning for Deep Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11109

本文由華南理工大學(xué)、阿德萊德大學(xué)、德州大學(xué)阿靈頓分校和騰訊AI Lab合作完成�，F(xiàn)有的通道剪枝算法大多基于稀疏約束進(jìn)行重新訓(xùn)練，或者基于預(yù)訓(xùn)練模型進(jìn)行剪枝后模型的重構(gòu)誤差最小化，存在訓(xùn)練困難，忽視模型判別力等問題。本文提出了一種判別力最大化的通道剪枝算法，以篩選和保留模型中真正對判別力有貢獻(xiàn)的通道。為實現(xiàn)這一目標(biāo)，作者引入了額外的判別力損失項，以提高網(wǎng)絡(luò)中間各層的判別力，再基于判別力損失項和重構(gòu)誤差項進(jìn)行各層的通道選擇。實驗表明，在ILSVRC-12數(shù)據(jù)集上，基于該算法剪枝后的ResNet-50模型可以在刪去30%通道的情況下，top-1分類精度比基準(zhǔn)模型高0.39%。

4. 釋義復(fù)雜模型：基于因子遷移學(xué)習(xí)的網(wǎng)絡(luò)壓縮

Paraphrasing Complex Network:Network Compression via Factor Transfer

https://nips.cc/Conferences/2018/Schedule?showEvent=11283

本文由國立首爾大學(xué)完成。本文提出了一種新的知識蒸餾訓(xùn)練算法，通過引入額外的卷積層，對參考模型的信息進(jìn)行解釋與重新組織，從而更好地指導(dǎo)目標(biāo)模型的訓(xùn)練。這一過程由兩個卷積模塊共同完成，分別被稱為釋義器(paraphraser)和翻譯器(translator)。釋義器以無監(jiān)督的方式進(jìn)行訓(xùn)練，以提取參考模型中的有效信息;翻譯器則位于目標(biāo)模型中，用于將目標(biāo)模型中的對應(yīng)信息進(jìn)行變換，以擬合參考模型的釋義器所輸出的信息。實驗結(jié)果表明，基于該算法訓(xùn)練得到的目標(biāo)模型，在多個數(shù)據(jù)集上的圖像分類和目標(biāo)檢測任務(wù)上，都取得了超過已有知識蒸餾算法的訓(xùn)練效果。

5. Moonshine：基于精簡卷積操作的知識蒸餾

Moonshine:Distilling with Cheap Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11295

本文由愛丁堡大學(xué)完成。本文提出了一種結(jié)構(gòu)化的模型蒸餾算法以降低模型運行過程中的內(nèi)存開銷。具體地，基于預(yù)定義的參考模型的網(wǎng)絡(luò)結(jié)構(gòu)，經(jīng)過簡單的結(jié)構(gòu)變換，可以得到目標(biāo)模型的網(wǎng)絡(luò)結(jié)構(gòu)，從而避免了重新設(shè)計目標(biāo)模型的網(wǎng)絡(luò)結(jié)構(gòu)，同時也可以直接復(fù)用參考模型的超參數(shù)設(shè)定。以殘差模型為例，通過對殘差單元中的兩個3x3卷積層進(jìn)行變換，以分組卷積+跨組混合卷積的結(jié)構(gòu)作為替代，可以顯著降低模型的計算復(fù)雜度。變換后得到的目標(biāo)模型可以基于知識蒸餾和注意力遷移學(xué)習(xí)算法進(jìn)行訓(xùn)練。實驗結(jié)果表明，該算法可以以極低的精度損失，大幅度降低內(nèi)存開銷;同時，相比于直接訓(xùn)練目標(biāo)模型，知識蒸餾訓(xùn)練機(jī)制的引入可以明顯提升目標(biāo)模型的預(yù)測精度。

6. 基于在線自我集成的知識蒸餾

Knowledge Distillation by On-the-Fly Native Ensemble

https://nips.cc/Conferences/2018/Schedule?showEvent=11723

本文由倫敦瑪麗女王大學(xué)和Vision Semantics公司合作完成。知識蒸餾常被用于訓(xùn)練低復(fù)雜度、高泛化能力的模型，但是離線知識蒸餾算法往往需要一個高精度的預(yù)訓(xùn)練模型作為參考，并且訓(xùn)練過程需要分為兩個階段進(jìn)行，而在線知識蒸餾算法不能有效地構(gòu)造一個高精度的參考模型。本文提出了一種在線自我集成的知識蒸餾算法，以實現(xiàn)單階段的在線蒸餾。具體地，該算法訓(xùn)練了一個多分支的網(wǎng)絡(luò)，在線地構(gòu)造參考模型以提升目標(biāo)模型的預(yù)測精度。實驗結(jié)果表明，該算法在多個數(shù)據(jù)集上，對于各種網(wǎng)絡(luò)結(jié)構(gòu)均取得了一致的性能提升，同時訓(xùn)練效率更高。

7. ChannelNet：基于逐通道卷積的高效卷積神經(jīng)網(wǎng)絡(luò)

ChannelNets:Compact and Efficient Convolutional Neural Networks via Channel-Wise Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11508

本文由德克薩斯A&M大學(xué)完成。本文提出了一種逐通道卷積操作，以取代CNN模型中特征圖之間的稠密連接關(guān)系。基于這一逐通道卷積操作，作者提出了ChannelNet這一輕量級的網(wǎng)絡(luò)結(jié)構(gòu)。ChannelNet中采用了三個類型的逐通道卷積操作，分別是：分組逐通道卷積、深度可分逐通道卷積以及全卷積分類層。與之前常用于移動端的CNN模型(包括SqueezeNet、MobileNet和ShuffleNet)相比，ChannelNet在性能無損的前提下顯著降低了模型的參數(shù)量與計算開銷。下圖中，(a)是深度可分卷積，(b)是將深度可分卷積中的1x1卷積替換為分組1x1卷積，(c)是本文提出的分組逐通道卷積(以融合各組信息)，(d)是本文提出的深度可分逐通道卷積。

8. Pelee：一種基于移動端設(shè)備的實時目標(biāo)檢測系統(tǒng)

Pelee:A Real-Time Object Detection System on Mobile Devices

https://nips.cc/Conferences/2018/Schedule?showEvent=11208

本文由西安大略大學(xué)完成。為實現(xiàn)深度學(xué)習(xí)模型在移動端設(shè)備上的部署，研究者們提出了一系列精簡網(wǎng)絡(luò)結(jié)構(gòu)，包括MobileNet、ShuffleNet和NASNet-A等，但是此類模型嚴(yán)重依賴于深度可分卷積，而這一卷積操作在大多數(shù)深度學(xué)習(xí)框架中沒有較好的高效實現(xiàn)。針對這一問題，本文基于傳統(tǒng)的卷積操作，構(gòu)建了PeleeNet這一高效網(wǎng)絡(luò)結(jié)構(gòu)。PeleeNet可以看作是DenseNet的一個變種，采用了類似的連接模型和設(shè)計思想。具體地，PeleeNet中采用了雙卷積通道和名為stem block的初始卷積單元，同時動態(tài)地調(diào)整瓶頸層中的通道數(shù)量以節(jié)省計算開銷，并對SSD模型的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化，與PeleeNet結(jié)合，實現(xiàn)了在移動端設(shè)備上的實時目標(biāo)檢測。

自動機(jī)器學(xué)習(xí)

Auto Machine Learning

自動機(jī)器學(xué)習(xí)(AutoML)是機(jī)器學(xué)習(xí)中最近興起的重要分支。它主要是指，把機(jī)器學(xué)習(xí)在現(xiàn)實問題上的應(yīng)用過程自動化的技術(shù)。在一個典型的機(jī)器學(xué)習(xí)應(yīng)用中，實踐者必須人工去做特征預(yù)處理、算法選擇、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(如果選擇了深度學(xué)習(xí)算法)、超參調(diào)節(jié)，以求最大化模型性能。這其中的很多步驟都超出了非算法專家的能力，所以自動機(jī)器學(xué)習(xí)被提出來將這些步驟自動化。自動機(jī)器學(xué)習(xí)，使得機(jī)器學(xué)習(xí)在實際問題的應(yīng)用中變得更為容易，也更容易得到一些可以超越手工設(shè)計模型性能的新模型。初略統(tǒng)計本屆NIPS有20余篇自動機(jī)器學(xué)習(xí)相關(guān)論文，涵蓋貝葉斯優(yōu)化、網(wǎng)絡(luò)結(jié)構(gòu)搜索、以及遷移學(xué)習(xí)等多個方面。

這次會議的研究中體現(xiàn)了三大特點：一、研究上開始解決更為復(fù)雜的任務(wù)(例如，語義分割)的網(wǎng)絡(luò)結(jié)構(gòu)搜索;二、小領(lǐng)域之間開始了融合，比如出現(xiàn)了用貝葉斯優(yōu)化(傳統(tǒng)上用于超參優(yōu)化)來解決網(wǎng)絡(luò)結(jié)構(gòu)搜索的技術(shù)研究;三、其他非自動機(jī)器學(xué)習(xí)領(lǐng)域的技術(shù)開始被更多地應(yīng)用過來，例如遷移學(xué)習(xí)。

1. 為稠密圖像預(yù)測搜索高效多規(guī)模結(jié)構(gòu)

Searching for Efficient Multi-Scale Architectures for Dense Image Prediction

https://nips.cc/Conferences/2018/Schedule?showEvent=11831

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計是許多機(jī)器學(xué)習(xí)系統(tǒng)在很多任務(wù)上最先進(jìn)性能的關(guān)鍵組件。許多工作都致力于通過將巧妙構(gòu)建的搜索空間和簡單的學(xué)習(xí)算法結(jié)合來自動設(shè)計和構(gòu)建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。最近的進(jìn)展表明，這種元學(xué)習(xí)方法在圖像分類問題上可以取得超出人類設(shè)計的神經(jīng)網(wǎng)絡(luò)的性能。一個懸而未決的問題是這些方法在其他領(lǐng)域中能夠取得什么樣的性能。在這項工作中，我們關(guān)注密集圖像預(yù)測的元學(xué)習(xí)技術(shù)的構(gòu)建，重點是場景解析，人體分割和語義圖像分割的任務(wù)。由于視覺信息的多尺度性以及圖像的高分辨率，在密集圖像預(yù)測任務(wù)上進(jìn)行合適的網(wǎng)絡(luò)結(jié)構(gòu)搜索是十分具有挑戰(zhàn)性的�；趯γ芗瘓D像預(yù)測技術(shù)的調(diào)查，我們構(gòu)建了一個遞歸搜索空間，并證明即使使用有效的隨機(jī)搜索，我們也可以找出出優(yōu)于人類設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)，并在三個密集預(yù)測上實現(xiàn)最先進(jìn)的性能任務(wù)：其中包括在Cityscapes(街景解析)數(shù)據(jù)集上取得82.7%的準(zhǔn)確度，在PASCAL-Person-Part(人體分割)上71.3%的準(zhǔn)確度，以及在PASCAL VOC 2012(語義圖像分割)87.9%的準(zhǔn)確度。另外，我們模型得到的網(wǎng)絡(luò)結(jié)構(gòu)在計算上更有效，跟現(xiàn)有的技術(shù)相比僅需要一半的參數(shù)和一半的計算力。

2. 神經(jīng)結(jié)構(gòu)優(yōu)化

Neural Architecture Optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11750

自動神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計已經(jīng)顯示出其在發(fā)現(xiàn)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu)方面的潛力。無論是基于強(qiáng)化學(xué)習(xí)還是進(jìn)化算法(EA)的現(xiàn)有技術(shù)都是在離散空間中進(jìn)行搜索。這是非常低效的。在本文中，我們提出了一種簡單有效的基于連續(xù)優(yōu)化的自動神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計方法。我們將這種新方法稱為神經(jīng)結(jié)構(gòu)優(yōu)化(NAO)。我們提出的方法有三個關(guān)鍵組成部分：(1)編碼器將神經(jīng)網(wǎng)絡(luò)架構(gòu)映射到連續(xù)空間中(2)預(yù)測器將網(wǎng)絡(luò)的連續(xù)表示作為輸入并預(yù)測其準(zhǔn)確性(3)解碼器將網(wǎng)絡(luò)的連續(xù)表示映射回其架構(gòu)。性能預(yù)測器和編碼器使我們能夠在連續(xù)空間中執(zhí)行基于梯度優(yōu)化，以找到具有更高精度的新架構(gòu)的表達(dá)。然后，解碼器將這種更好的嵌入解碼到網(wǎng)絡(luò)。實驗表明，我們的方法發(fā)現(xiàn)的體系結(jié)構(gòu)對于CIFAR-10上的圖像分類任務(wù)和PTB上的語言建模任務(wù)具有很強(qiáng)的競爭力，優(yōu)于或者與先前的網(wǎng)絡(luò)結(jié)構(gòu)搜索方法的最佳結(jié)果相當(dāng)，并且計算資源顯著減少。具體來說，我們在CIFAR-10圖像分類任務(wù)的測試集上的錯誤率為2.07%和在PTB語言建模任務(wù)測試集perplexity為55.9。在上述兩個任務(wù)上發(fā)現(xiàn)的最佳體系結(jié)構(gòu)可以被遷移到其他諸如CIFAR-100和WikiText-2等數(shù)據(jù)集合。此外，通過使用最近人們提出的權(quán)重共享機(jī)制，我們的模型可以在有限計算資源條件下(單一GPU訓(xùn)練10小時)在CIFAR-10(錯誤率為3.53%)和PTB(測試集perplexity為56.3)上取得不錯的結(jié)果。

3. 利用貝葉斯優(yōu)化和最優(yōu)運輸做神經(jīng)結(jié)構(gòu)搜索

Neural Architecture Search with Bayesian Optimisation and Optimal Transport

https://nips.cc/Conferences/2018/Schedule?showEvent=11214

貝葉斯優(yōu)化是指一類用于對黑盒函數(shù)f進(jìn)行全局優(yōu)化的方法，其中對于f我們只能得到其在某些點處的評估值。這種方法通常應(yīng)用于f的評估代價非常昂貴時，在機(jī)器學(xué)習(xí)中的一個應(yīng)用情形是模型選擇。由于模型的泛化性能是很難分析的，所以我們一般利用帶噪音和高昂的訓(xùn)練、驗證程序去選擇最好的模型。傳統(tǒng)的貝葉斯優(yōu)化方法集中在歐式和類別數(shù)據(jù)的領(lǐng)域，所以它在模型選擇中只能用來對機(jī)器學(xué)習(xí)模型調(diào)節(jié)超參。但是，隨著對深度學(xué)習(xí)的興趣的激增，調(diào)節(jié)網(wǎng)絡(luò)結(jié)構(gòu)的需求也在快速增長。在本文中，我們設(shè)計了一個名為NASBOT的算法，一個基于高斯過程來做網(wǎng)絡(luò)結(jié)構(gòu)搜索的貝葉斯優(yōu)化框架。為了實現(xiàn)這個目標(biāo)，我們針對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)空間設(shè)計了一個可以通過最優(yōu)運輸程序高效計算的度量。這個度量對于深度學(xué)習(xí)社區(qū)可能還有在貝葉斯優(yōu)化之外的其他用處。我們在幾個基于交叉驗證的多層感知器和卷積神經(jīng)網(wǎng)絡(luò)模型選擇問題上，展示了NASBOT可以超越其他網(wǎng)絡(luò)結(jié)構(gòu)搜索的替代方案。

4. 利用傅里葉特征的高效高維貝葉斯優(yōu)化

Efficient High Dimensional Bayesian Optimization with Additivity and Quadrature Fourier Features

https://nips.cc/Conferences/2018/Schedule?showEvent=11859

我們針對高維的黑盒函數(shù)優(yōu)化設(shè)計了一個高效的貝葉斯優(yōu)化算法。我們假設(shè)了一個可重疊變量組的廣義可加模型。當(dāng)變量組之間不重疊時，我們可以為高維貝葉斯優(yōu)化提供第一個可以證明的多項式時間算法。為了使得優(yōu)化高效和可行，我們引入一個新的基于數(shù)值積分的確定性的傅里葉特征逼近，并為平方指數(shù)核提供了詳細(xì)的分析。這個逼近的錯誤隨著特征的個數(shù)指數(shù)衰減，并且可以對后驗均值和方差給出精確逼近。另外，核矩陣的逆的計算復(fù)雜度從數(shù)據(jù)點個數(shù)的立方減少到線性。

5. 帶有一個未知高斯過程先驗的元貝葉斯優(yōu)化的后悔上界

Regret bounds for meta Bayesian optimization with an unknown Gaussian process prior

https://nips.cc/Conferences/2018/Schedule?showEvent=11991

貝葉斯優(yōu)化通常假設(shè)一個貝葉斯先驗是提前給定的。但是，由于先驗里未知的參數(shù)，在貝葉斯優(yōu)化里的強(qiáng)理論保證經(jīng)常是在實踐里是達(dá)不到的。在這篇文章中，我們采用了一個經(jīng)驗貝葉斯的變體并且展示了，通過用相同先驗里抽取的離線數(shù)據(jù)來估計高斯過程先驗并構(gòu)造后驗的無偏估計，基于置信上界和提升概率的變體都可以達(dá)到一個接近零的后悔上界。該后悔上界隨著離線數(shù)據(jù)個數(shù)和在線評估個數(shù)的增加，可以衰減到一個與觀察噪音成比例的常數(shù)。實驗上，我們在很有挑戰(zhàn)的模擬機(jī)器人問題處理和運動規(guī)劃上成功驗證了所提的方法。

6. 為貝葉斯優(yōu)化最大化獲得函數(shù)

Maximizing acquisition functions for Bayesian optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11938

貝葉斯優(yōu)化是一個主要依賴于獲得函數(shù)來引導(dǎo)搜索過程的，用于全局優(yōu)化的高效抽樣方法。對獲得函數(shù)進(jìn)行完全最大化就產(chǎn)生了貝葉斯決策規(guī)則，但是由于這些獲得函數(shù)通常都是很難優(yōu)化的，所以這個理想很難實現(xiàn)。尤其當(dāng)并行評估幾個詢問時，由于獲得函數(shù)是非凸、高維和棘手的，最大化獲得函數(shù)就更加難以實現(xiàn)了。為此，我們利用了蒙特卡洛積分的可微性和并行詢問的子模性，提出兩個新的用于最大化獲得函數(shù)的方法。

7. 用于自動化機(jī)器學(xué)習(xí)的概率矩陣分解

Probabilistic Matrix Factorization for Automated Machine Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11337

為了達(dá)到頂尖的性能，現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)需要仔細(xì)的數(shù)據(jù)預(yù)處理和超參調(diào)節(jié)。此外，由于研發(fā)的機(jī)器學(xué)習(xí)模型的個數(shù)的增長，模型選擇也變得越來越重要。自動化機(jī)器學(xué)習(xí)的選擇和調(diào)節(jié)，一直以來都是機(jī)器學(xué)習(xí)社區(qū)的研究目標(biāo)之一。在本文中，我們提出通過組合協(xié)同過濾和貝葉斯優(yōu)化的想法來解決這個元學(xué)習(xí)的任務(wù)。具體來說，我們通過概率矩陣分解利用在數(shù)百個不同數(shù)據(jù)上的實驗，然后利用獲得函數(shù)來指導(dǎo)對可能的機(jī)器學(xué)習(xí)流程空間的探索。在我們的實驗里，我們展示了我們的方法可以在很多數(shù)據(jù)上快速確認(rèn)高性能的流程，并可以顯著地超越目前的頂尖方法。

8. 可擴(kuò)展的超參遷移學(xué)習(xí)

Scalable Hyperparameter Transfer Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11660

貝葉斯優(yōu)化(BO)是一種針對例如超參優(yōu)化等無梯度黑盒函數(shù)優(yōu)化問題的基于模型的方法。通常來說，貝葉斯優(yōu)化依賴于傳統(tǒng)的高斯過程回歸，然而傳統(tǒng)的高斯過程的算法復(fù)雜度是評價測試數(shù)目的立方級。因此，基于高斯過程的貝葉斯優(yōu)化不能夠利用大量過去評價測試的經(jīng)驗作為熱啟動。在本文中，我們提出了一種多任務(wù)的自適應(yīng)的貝葉斯線性回歸模型來解決該問題。值得注意的是，該模型僅是評價測試數(shù)目的線性復(fù)雜度。在該模型中，每個黑盒函數(shù)優(yōu)化問題(任務(wù))都以一個貝葉斯線性回歸模型來建模，同時多個模型通過共享一個深度神經(jīng)網(wǎng)絡(luò)進(jìn)行耦合，從而實現(xiàn)遷移學(xué)習(xí)。實驗表明該神經(jīng)網(wǎng)絡(luò)可以學(xué)到一個適合熱啟動黑盒優(yōu)化問題的特征表示，并且當(dāng)目標(biāo)黑盒函數(shù)和其他相關(guān)信號(比如訓(xùn)練損失)一起學(xué)習(xí)的時候，貝葉斯優(yōu)化可以變快。該模型被證明至少比最近發(fā)表的相關(guān)黑盒優(yōu)化文獻(xiàn)快了至少一個數(shù)量級。

9. 利用神經(jīng)自動機(jī)器學(xué)習(xí)的遷移學(xué)習(xí)

Transfer Learning with Neural AutoML

https://nips.cc/Conferences/2018/Schedule?showEvent=11799

在本文中，我們通過遷移學(xué)習(xí)減小神經(jīng)網(wǎng)絡(luò)AutoML的計算代價。AutoML通過自動化機(jī)器學(xué)習(xí)算法以減少人的干預(yù)。盡管神經(jīng)網(wǎng)絡(luò)AutoML因可以自動設(shè)計深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)最近非常流行，但是其計算成本巨大。為了解決該問題，我們提出了基于遷移學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)AutoML，以充分利用之前任務(wù)上學(xué)習(xí)到的知識來加快網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計。我們擴(kuò)展了基于增強(qiáng)學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)搜索方法以支持多個任務(wù)上的并行訓(xùn)練，并將得到的搜索策略遷移到新的任務(wù)上。在自然語言及圖像分類的任務(wù)上，該方法將單任務(wù)訓(xùn)練的收斂時間減少了至少一個數(shù)量級。

機(jī)器學(xué)習(xí)與最優(yōu)化算法

Optimization For Learning

眾所周知，機(jī)器學(xué)習(xí)與最優(yōu)化算法之間的關(guān)系密不可分。在機(jī)器學(xué)習(xí)建模的過程中，會出現(xiàn)各式的極小值優(yōu)化模型。在學(xué)習(xí)參數(shù)的過程中，會使用到各種各樣的最優(yōu)化算法。機(jī)器學(xué)習(xí)算法和最優(yōu)化算法以及它們的交叉，歷年都是研究的熱點。在本次nips收錄的文章中，同樣出現(xiàn)了大量的機(jī)器學(xué)習(xí)的模型建立以及模型訓(xùn)練算法設(shè)計的工作。

1. Adaptive Methods for Nonconvex Optimization

https://papers.nips.cc/paper/8186-adaptive-methods-for-nonconvex-optimization.pdf

本文由google research 和卡內(nèi)基梅隆大學(xué)合作完成。本文證明，通過增加batch-size，ADAM和RMSProp可以保證全局收斂性質(zhì)�；诖耍闹幸蔡岢隽艘活愋碌挠�(xùn)練深度神經(jīng)網(wǎng)絡(luò)的自適應(yīng)隨機(jī)梯度算法YOGI。通過增加batch-size，同樣證明了YOGI的全局收斂性并且通過實驗驗證了YOGI比ADAM具有更快的訓(xùn)練速度和更高的測試精度。注意到，本文的作者曾從理論層面指出了ADAM和RMSProp是發(fā)散的，并因此獲得ICLR2018 Best Paper Award。

Figure1. ADAM和YOGI的算法框架對比

Figure2. ResNet在CIFAR10數(shù)據(jù)集上的測試精度對比

Figure3. 在深度自動編解碼模型上, YOGI和ADAM訓(xùn)練損失和測試損失對比圖

2. Spider: Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator

https://papers.nips.cc/paper/7349-spider-near-optimal-non-convex-optimization-via-stochastic-path-integrated-differential-estimator.pdf

本文由北京大學(xué)和騰訊AI Lab合作完成。本文的主要貢獻(xiàn)主要在理論層面，文中提出了尋找非凸隨機(jī)優(yōu)化的一階和二階穩(wěn)定點的算法SPIDER。文中證明SPIDER算法的計算復(fù)雜度在當(dāng)前求解非凸隨機(jī)優(yōu)化算法中是最優(yōu)的。另外文中采用的一種全新的計算復(fù)雜度的分析技巧，該技巧具有很強(qiáng)的可移植性，可以應(yīng)用到其他很多的隨機(jī)優(yōu)化算法的分析中。

Figure1. SPIDER算法框架

Figure2. 不同算法的計算復(fù)雜度對比圖

3. Escaping Saddle Points in Constrained Optimization

https://papers.nips.cc/paper/7621-escaping-saddle-points-in-constrained-optimization.pdf

本文由麻省理工學(xué)院獨立完成。針對帶約束的非凸光滑優(yōu)化問題 , 本文提出了一類通用的求解算法框架，并且首次證明了該算法框架可以逃離約束非凸優(yōu)化問題的鞍點。值得說明的是，本文是第一個提出能求夠逃離約束非凸優(yōu)化問題鞍點的算法。

4. Online Adaptive Methods, Universality and Acceleration

https://papers.nips.cc/paper/7885-online-adaptive-methods-universality-and-acceleration.pdf

本文由蘇黎世聯(lián)邦理工學(xué)院和洛桑聯(lián)邦理工學(xué)院合作完成。本文提出一類新的自適應(yīng)隨機(jī)梯度算法來AcceleGrad求解無約束隨機(jī)凸優(yōu)化問題。AcceleGrad算法中采用了新穎的加權(quán)自適應(yīng)學(xué)習(xí)率估計策略和Nesterov加速策略來提高效率。作者理論上證明了該算法能夠達(dá)到最優(yōu)的計算復(fù)雜度。另外，作者從實驗上說明了AcceleGrad算法的優(yōu)越性。

Figure 1. AcceleGrad 算法框架

Figure2. AcceleGrad 算法與SGD和AdaGrad的效果對比圖。

5. Multi-Task Learning as Multi-Objective Optimization

https://papers.nips.cc/paper/7334-multi-task-learning-as-multi-objective-optimization.pdf

本文由Intel實驗室獨立完成。多任務(wù)學(xué)習(xí)問題通常建模成為一個極小化問題，其中這個優(yōu)化問題的損失函數(shù)為多個任務(wù)的損失函數(shù)的線性組合。在本文中，作者創(chuàng)造性的將多任務(wù)學(xué)習(xí)直接建模成為一個多目標(biāo)優(yōu)化問題，

并且提出了一類求解上述多目標(biāo)優(yōu)化問題的梯度型算法。最后，作者通過實驗上說明了基于多目標(biāo)優(yōu)化的多任務(wù)學(xué)習(xí)算法的優(yōu)越性。

Figure1. 多目標(biāo)優(yōu)化問題的梯度型算法框架

Figure2. 不同算法的效果對比圖(越小越好)

6. Semidefinite relaxations for certifying robustness to adversarial examples

https://papers.nips.cc/paper/8285-semidefinite-relaxations-for-certifying-robustness-to-adversarial-examples.pdf

本文由斯坦福大學(xué)獨立完成。神經(jīng)網(wǎng)絡(luò)的攻防是近年的研究熱點。本文基于最優(yōu)化中的半正定松弛技巧來確定神經(jīng)網(wǎng)絡(luò)對攻擊樣本的防御能力。文中提出的半正定松弛技術(shù)驗證任意的ReLU神經(jīng)網(wǎng)絡(luò)的防御魯棒性，并且從理論上說明了文中采取的半正定松弛技術(shù)比線性規(guī)劃松弛技術(shù)更加精準(zhǔn)，從而得到更好的魯棒性估計。

Figurre1. 不同的松弛技巧的松弛效果對比圖

標(biāo)簽： Google ssd 安全搜索推廣網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:手把手教你用Python創(chuàng)建簡單的神經(jīng)網(wǎng)絡(luò)（附代碼）

下一篇:如何為數(shù)據(jù)集構(gòu)建圖像重復(fù)查找器？（附代碼）

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

騰訊AI Lab詳解3大熱點：模型壓縮、機(jī)器學(xué)習(xí)及最優(yōu)化算法

騰訊AI Lab詳解3大熱點：模型壓縮、機(jī)器學(xué)習(xí)及最優(yōu)化算法