中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

當(dāng)前機(jī)器學(xué)習(xí)成果真的可靠嗎?伯克利&MIT新研究質(zhì)疑基準(zhǔn)測(cè)試集

2018-06-13    來(lái)源:

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
近日,伯克利和MIT研究者發(fā)布的一篇名為《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》的新論文提出了學(xué)界一個(gè)尖銳的問(wèn)題:包括CIFAR10在內(nèi)的知名基準(zhǔn)測(cè)試集,都存在驗(yàn)證集過(guò)擬合問(wèn)題。

這一論文引起了Keras之父François Chollet的關(guān)注與力挺,關(guān)于數(shù)據(jù)集的討論在推特上一發(fā)不可收拾,包括Gary Marcus和François都連發(fā)數(shù)條推特對(duì)此問(wèn)題進(jìn)行了討論。

在連續(xù)20幾個(gè)小時(shí)的連續(xù)發(fā)推中,F(xiàn)rançois Chollet肯定了這篇論文帶來(lái)對(duì)過(guò)測(cè)試集擬合問(wèn)題的思考,但是也提出了一些論文中不恰當(dāng)?shù)牡胤健?/p>

最后,大神也提出了自己的建議,通過(guò)高熵驗(yàn)證過(guò)程(如k-fold驗(yàn)證)來(lái)解決這個(gè)問(wèn)題。

讓我們先來(lái)看看這篇論文到底說(shuō)了什么。

 

 

這篇論文創(chuàng)建了一組真正“未出現(xiàn)過(guò)”的同類圖像來(lái)測(cè)量 CIFAR-10 分類器的準(zhǔn)確率,以驗(yàn)證當(dāng)前的測(cè)試集是否會(huì)帶來(lái)過(guò)擬合風(fēng)險(xiǎn)。

論文中稱,我們通常只能獲取具備同樣分布的有限新數(shù)據(jù),F(xiàn)在大家普遍接受在算法和模型設(shè)計(jì)過(guò)程中多次重用同樣的測(cè)試集。但顯而易見的是,當(dāng)前的研究方法論忽視了一個(gè)關(guān)鍵假設(shè):分類器與測(cè)試集應(yīng)該獨(dú)立存在。

這種不獨(dú)立帶來(lái)了顯而易見的威脅——研究社區(qū)可能會(huì)設(shè)計(jì)出只在特定測(cè)試集上性能良好,但無(wú)法泛化至新數(shù)據(jù)的模型。

顯而易見,目前深度學(xué)習(xí)領(lǐng)域的很多“標(biāo)題黨論文”,都存在驗(yàn)證集過(guò)擬合問(wèn)題,包括CIFAR10在內(nèi)的知名基準(zhǔn)測(cè)試集。

 

 

大量“標(biāo)題黨”論文

François Chollet稱很高興在這篇論文《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》看到對(duì)驗(yàn)證集過(guò)擬合的量化。從2015年以來(lái),ImageNet數(shù)據(jù)集也存在這樣的問(wèn)題。

接下來(lái)的一天中,F(xiàn)rançois Chollet之后還針對(duì)這一問(wèn)題發(fā)表了很多評(píng)論。

以下為François Chollet推特部分內(nèi)容:

 

 

如果為了發(fā)論文,針對(duì)固定驗(yàn)證集,選擇特定的方法、體系結(jié)構(gòu)和超參,那么它就已經(jīng)不再是驗(yàn)證集,而是訓(xùn)練集,而且不能保證選定方法能推廣到真實(shí)數(shù)據(jù)。

很多深度學(xué)習(xí)研究并未遵循科學(xué)方法,驗(yàn)證集過(guò)擬合問(wèn)題不容忽視。另外,使用弱基準(zhǔn)測(cè)試集,很難將實(shí)驗(yàn)結(jié)果與論文提出的重大想法建立明確的聯(lián)系(因?yàn)橛械奶嗫勺円蛩?。

同樣,想要復(fù)現(xiàn)大多數(shù)論文中的模型或想法也很困難。例如實(shí)驗(yàn)結(jié)果的后選擇、對(duì)比實(shí)驗(yàn)結(jié)果時(shí)缺乏顯著性檢驗(yàn)等問(wèn)題。

假如你正在參加Kaggle比賽,如果你使用從訓(xùn)練集(包括public leaderboard)分離出來(lái)的固定驗(yàn)證集來(lái)評(píng)估你的模型/想法,那么你的模型在private leaderboard上的表現(xiàn)肯定很一般。學(xué)術(shù)研究同樣如此。

François Chollet還提出了克服該問(wèn)題的一個(gè)簡(jiǎn)單建議:用高熵驗(yàn)證過(guò)程(如k-fold驗(yàn)證),用帶shuffling的遞歸k-fold驗(yàn)證更好。并且只在最終官方驗(yàn)證集上檢驗(yàn)結(jié)果。

的確成本更高了,不過(guò)成本也是正則化項(xiàng),迫使你嘗試更少更明智的方法。

同時(shí),F(xiàn)rançois Chollet對(duì)前段時(shí)間引起軒然大波的文章,計(jì)算機(jī)視覺(jué)和 AI 領(lǐng)域?qū)<?Filip Piekniewski的文章《AI Winter Is Well On Its Way》也發(fā)表了自己的見解:

自動(dòng)駕駛汽車是一個(gè)很好的例子,因?yàn)樵谶@種情況下,存在兩種相互競(jìng)爭(zhēng)的方法:一種是符號(hào)方法,另一種是深入學(xué)習(xí)方法,即通過(guò)端到端的學(xué)習(xí)。其中一種方法會(huì)到達(dá)L4,在一定程度上甚至?xí)_(dá)到L5,另一種卻永遠(yuǎn)達(dá)不到。

這并不是說(shuō)深度學(xué)習(xí)本質(zhì)上無(wú)法與無(wú)人駕駛相融合,而是因?yàn)闋顟B(tài)空間維度極高,深度學(xué)習(xí)系統(tǒng)需要在系統(tǒng)運(yùn)行的同一維度的密度抽樣中進(jìn)行訓(xùn)練。

由于這種具有代表性的密度抽樣是不可取的,即使在大量利用模擬環(huán)境的情況下,符號(hào)方法也將占上風(fēng),具體來(lái)說(shuō),雖然這種方法大多是抽象性的,但卻將人類抽象概念與學(xué)習(xí)的感知基元結(jié)合了起來(lái)。

讓我們用François Chollet的一段話做結(jié):

與大多數(shù)事物一樣,科學(xué)也是一種不精確的藝術(shù),一種靠知識(shí)創(chuàng)造的藝術(shù)。就像所有的藝術(shù)一樣,它有我們應(yīng)該遵循的精確規(guī)則。這些規(guī)則很容易被破壞,但你破壞的規(guī)則越多,你的努力也就越低效。(Science, like most thing, is an inexact art. The art of knowledge creation. And like any art, it has precise rules that one should follow. Any of these rules may be broken, but the more of them you break, the less effective your effort.)

標(biāo)簽: 推廣 選擇

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:全球十大AI初創(chuàng)公司,今日頭條、商湯、優(yōu)必選、曠視、云從上榜

下一篇:全國(guó)高校人工智能學(xué)院盤點(diǎn)來(lái)啦!今年的高考志愿考慮一下?