中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何改善你的訓(xùn)練數(shù)據(jù)集?(附案例)

2018-08-07    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

 

這張幻燈片是Andrej Karpathy 在Train AI 演講的一部分,我很贊同它表達(dá)的觀點(diǎn)。它充分體現(xiàn)了深度學(xué)習(xí)在研究和應(yīng)用上的差異。學(xué)術(shù)論文幾乎全部集中在新的和改進(jìn)的模型上,使用的數(shù)據(jù)集是從公共數(shù)據(jù)集中選出的一小部分。相反,我認(rèn)識(shí)的將深度學(xué)習(xí)作為實(shí)際應(yīng)用的一部分人,他們大部分時(shí)間都在思考如何改善訓(xùn)練數(shù)據(jù)。

關(guān)于研究人員專注于模型架構(gòu)有很多好的理由,但它確實(shí)意味著很少有資源可以引導(dǎo)那些專注于在生產(chǎn)中部署機(jī)器學(xué)習(xí)的人。我在會(huì)上的發(fā)言是“那些有效到不合常理的訓(xùn)練數(shù)據(jù)”。在這里我想稍微擴(kuò)展一下,解釋訓(xùn)練數(shù)據(jù)為什么如此重要,以及一些改進(jìn)它的實(shí)用技巧。

因?yàn)楣ぷ鞯脑颍倚枰c許多研究人員和產(chǎn)品團(tuán)隊(duì)緊密合作。我對(duì)于改善數(shù)據(jù)可以帶來(lái)效果提升的信念來(lái)源于我看到它們?cè)跇?gòu)建模型時(shí)取得了巨大的成果。現(xiàn)實(shí)世界的大部分應(yīng)用中,運(yùn)用深度學(xué)習(xí)的最大障礙就是沒(méi)有足夠高的精度,而我看到提高精度的最快的方法就是改善訓(xùn)練數(shù)據(jù)集。即使你被困在延遲或存儲(chǔ)大小等其他約束上,你可以通過(guò)更小的架構(gòu)來(lái)?yè)Q取一些性能特征,這樣可以提高特定模型的準(zhǔn)確性。

語(yǔ)音指令

我不能分享我對(duì)生產(chǎn)系統(tǒng)的大部分觀察,但是我有一個(gè)開源例子可以證明同樣的道理。去年,我用Tensorflow創(chuàng)建了一個(gè)簡(jiǎn)單的語(yǔ)音識(shí)別的例子,但是事實(shí)證明,沒(méi)有現(xiàn)有的數(shù)據(jù)集可以很容易地用于訓(xùn)練模型。不過(guò)在很多志愿者慷慨的幫助下,我收集了60000個(gè)由他們說(shuō)的短語(yǔ)音頻片段。在此感謝“開放式語(yǔ)音錄制網(wǎng)站”(Open Speech Recording site)的AIY團(tuán)隊(duì)幫我發(fā)起這個(gè)項(xiàng)目。最后得到的模型是可以使用的,但并沒(méi)有達(dá)到我所希望的精度。

 

 

為了看看模型設(shè)計(jì)者的身份對(duì)我產(chǎn)生的局限性有多大,我使用相同的數(shù)據(jù)集發(fā)起了一個(gè)Kaggle比賽。參賽者的結(jié)果要比我最初的模型好很多,但即使有很多團(tuán)隊(duì)提出很多不同的方法,最后達(dá)到91%精度的只有很少的一部分人。對(duì)我來(lái)說(shuō),這意味著數(shù)據(jù)有一些根本上的錯(cuò)誤,而且參賽者也確實(shí)發(fā)現(xiàn)了很多錯(cuò)誤,比如不正確的標(biāo)簽或者截?cái)嗟囊纛l。更多的樣本開始促使我關(guān)注數(shù)據(jù)集新版本中他們發(fā)現(xiàn)的固定的問(wèn)題。

我查看了錯(cuò)誤評(píng)價(jià)指標(biāo),來(lái)了解模型中哪些詞的問(wèn)題最多。結(jié)果發(fā)現(xiàn)“其它”類別(當(dāng)語(yǔ)音被識(shí)別,但單詞表不在模型的有限詞匯表內(nèi))特別容易出錯(cuò)。為了解決這個(gè)問(wèn)題,我增加了我們正在捕獲的不同單詞的數(shù)量,以提供更多樣化的訓(xùn)練數(shù)據(jù)。

因?yàn)镵aggle參賽者提出的標(biāo)簽錯(cuò)誤,我“眾包”了一個(gè)額外的驗(yàn)證通道,要求人們聽每個(gè)剪輯,并確保它可以匹配到期望的標(biāo)簽。另外,他們也發(fā)現(xiàn)了一些幾乎無(wú)聲或者被截?cái)嗟奈募,因此我編寫了一個(gè)實(shí)用工具來(lái)做一些音頻分析,并自動(dòng)剔除糟糕的樣本。盡管刪除了一些糟糕的文件,最后我還是將總的說(shuō)話數(shù)量增加到了100000。這要感謝更多志愿者和收費(fèi)“眾包”者的幫助。

為了幫助別人使用這個(gè)數(shù)據(jù)集(并從我的錯(cuò)誤中學(xué)習(xí)),我將所有相關(guān)的事情和最新的精度結(jié)果寫進(jìn)了一篇論文。最重要的結(jié)論是,在不改變模型或測(cè)試數(shù)據(jù)的前提下,第一名的精度提高了4%,從85.4%提高到了89.7%。這個(gè)提高讓人很激動(dòng),并且當(dāng)人們?cè)贏ndroid 或 Raspberry Pi 演示應(yīng)用中使用該模型時(shí),反映了更高的滿意度。我相信如果我花時(shí)間在模型架構(gòu)的調(diào)整上,盡管我知道我的模型不如最好的模型,最終我得到的精度的提高肯定沒(méi)有現(xiàn)在的多。

論文:https://arxiv.org/abs/1804.03209

這就是在生產(chǎn)環(huán)境中一次又一次地產(chǎn)生偉大結(jié)果的過(guò)程。但是如果你想做同樣的事情,很難知道從哪里開始,你可以從我處理語(yǔ)音數(shù)據(jù)所使用的技巧中得到一些啟發(fā)。為了更加明確,這里有一些我發(fā)現(xiàn)的有用的方法。

首先,了解你的數(shù)據(jù)

這似乎是顯而易見的,但你的第一步應(yīng)該是隨機(jī)瀏覽你將要開始使用的訓(xùn)練數(shù)據(jù)。復(fù)制一些數(shù)據(jù)文件到你本地的機(jī)器上,然后花費(fèi)幾個(gè)小時(shí)預(yù)覽它們。如果你的數(shù)據(jù)集是圖片,可以使用類似MacOS’s的查找器來(lái)滾動(dòng)縮略圖視圖,可以很快的檢查完數(shù)千張圖片。

對(duì)于音頻,可以使用取景器播放預(yù)覽,對(duì)于文本可以將隨機(jī)片段轉(zhuǎn)存到終端上。

在第一個(gè)版本的語(yǔ)音指令中,我沒(méi)有花費(fèi)足夠的時(shí)間來(lái)做這些。這也是為什么Kaggle參賽者一開始使用這個(gè)數(shù)據(jù)集就會(huì)發(fā)現(xiàn)很多問(wèn)題。經(jīng)歷這個(gè)過(guò)程我總覺(jué)得有點(diǎn)傻,但事后我再也沒(méi)有后悔過(guò)。每次我做完這個(gè)過(guò)程,我都會(huì)從數(shù)據(jù)中發(fā)現(xiàn)一些重要的事情。比如是否各類別中例子的數(shù)量不均衡,損壞的數(shù)據(jù)(例如,用JPG文件擴(kuò)展標(biāo)記的PNG),不正確的標(biāo)簽,或者只是令人驚訝的組合。

Tom White通過(guò)觀察ImageNet得到了一些奇妙的發(fā)現(xiàn),包括“太陽(yáng)鏡”標(biāo)簽實(shí)際上是一個(gè)古老的放大陽(yáng)光的裝置,用于“垃圾車”的魅力鏡頭,對(duì)不死女性的“斗篷”偏見。Andrej’s的工作是手工從ImageNet中分類照片,這也教會(huì)我關(guān)于數(shù)據(jù)集的很多東西。包括即使對(duì)于一個(gè)人來(lái)說(shuō),將所有不同品種的狗區(qū)分出來(lái)是有多難。

 

 

你將要做什么取決于你發(fā)現(xiàn)了什么。你應(yīng)該在清洗數(shù)據(jù)之前總是進(jìn)行一次這種數(shù)據(jù)觀察,因?yàn),?duì)數(shù)據(jù)集的直觀認(rèn)識(shí)將會(huì)有助于你在接下來(lái)的流程中做決策。

快速選擇一個(gè)模型

不要在選擇模型上花費(fèi)太多時(shí)間。如果你在做圖片分類,可以參考AutoML,或者看看類似Tensorflow的模型庫(kù),再或者從Fast.AI搜集的例子中找一個(gè)解決類似問(wèn)題的模型(http://www.fast.ai/)。重要的是盡快開始迭代,這樣你就可以提前和真實(shí)用戶一起嘗試你的模型。你總是可以在以后得出一個(gè)改進(jìn)的模型,并且也許可以得到更好的結(jié)果,但是你首先要得到數(shù)據(jù)。深度學(xué)習(xí)仍然遵循‘垃圾入,垃圾出’(“garbage in, garbage out”)的基本計(jì)算法則,所以即使是最好的模型也會(huì)受到訓(xùn)練集缺陷的限制。通過(guò)挑選一個(gè)模型并測(cè)試它,你將能夠得知這些缺陷是什么并且開始改進(jìn)它們。

AutoML:https://cloud.google .com/automl/

Fast.AI:http://www.fast.ai/

為了加快你的迭代速度,可以嘗試從一個(gè)已經(jīng)在一個(gè)大的現(xiàn)有數(shù)據(jù)集上預(yù)先訓(xùn)練的模型開始,然后使用遷移學(xué)習(xí)在你收集的數(shù)據(jù)集(可能很小)上進(jìn)行微調(diào)。

這通常比只在較小的數(shù)據(jù)集上進(jìn)行訓(xùn)練的效果要好得多,而且速度快得多,并且你可以快速地了解如何調(diào)整數(shù)據(jù)收集策略。最重要的是,你可以把你的結(jié)果反饋到你的收集過(guò)程中,以適應(yīng)你學(xué)習(xí)的情況,而不是在訓(xùn)練之前把收集數(shù)據(jù)作為一個(gè)單獨(dú)的階段來(lái)進(jìn)行。

成為它之前先假裝它

研究模型和生產(chǎn)模型的最大區(qū)別在于研究通常在開始時(shí)有明確的問(wèn)題陳述,但是實(shí)際應(yīng)用的要求被鎖定在用戶的意識(shí)行為中,并且只能隨著時(shí)間的推移而被提取。

例如,在Jetpac中我們想要找到一張好的照片去展現(xiàn)在城市自動(dòng)旅行指南中。我們開始時(shí)要求評(píng)價(jià)人給他們認(rèn)為好的照片打一個(gè)標(biāo)簽,但最后我們看到了很多微笑的人的照片,因?yàn)樗麄兙褪沁@樣解釋這個(gè)問(wèn)題的。我們把這些放在產(chǎn)品的模型中,看看測(cè)試用戶是如何反應(yīng)的。結(jié)果是他們沒(méi)有留下深刻的印象,也沒(méi)有被這些照片所鼓舞。

為了解決這個(gè)問(wèn)題,我們重新定義了提問(wèn)的問(wèn)題:“這張照片會(huì)讓你想去它所展示的地方嗎?”。這使我們得到了更好的結(jié)果,但也反應(yīng)出我們使用的工人是東南亞人,他們認(rèn)為會(huì)議照片看起來(lái)令人很驚異,因?yàn)榇箫埖昀锍錆M了穿西裝和拿紅酒杯的人。

這種不匹配及時(shí)提醒了我們生活在“泡沫”里,但這也確實(shí)是一個(gè)現(xiàn)實(shí)的問(wèn)題,因?yàn)槲覀兠绹?guó)的目標(biāo)觀眾看到這些會(huì)議照片會(huì)感到沮喪和沒(méi)有理想。最后,我們?cè)贘ETPAC團(tuán)隊(duì)中的六個(gè)人手動(dòng)評(píng)估了超過(guò)二百萬(wàn)張照片,因?yàn)槲覀儽任覀兛梢杂?xùn)練的任何人都要熟悉標(biāo)準(zhǔn)。

這是一個(gè)極端的例子,但是它證明了標(biāo)記過(guò)程很大程度上取決于應(yīng)用的需求。對(duì)大多數(shù)生產(chǎn)用例來(lái)說(shuō),存在一個(gè)要為模型找合適的問(wèn)題去回答的過(guò)程,而且這才是關(guān)鍵所在。如果你用你的模型回答了錯(cuò)誤的問(wèn)題,你將永遠(yuǎn)無(wú)法在這個(gè)糟糕的基礎(chǔ)上建立一個(gè)可靠的用戶體驗(yàn)。

 

 

Thomas Hawk拍攝

我已經(jīng)告訴你詢問(wèn)正確問(wèn)題的唯一方法就是模仿你的應(yīng)用,而不是一個(gè)人陷在機(jī)器學(xué)習(xí)循環(huán)中。因?yàn)橛幸粋(gè)人在幕后,這有時(shí)被稱為‘Wizard-of-Oz-ing’。我們讓人們手動(dòng)選擇一些旅行指南的樣本照片,而不是訓(xùn)練一個(gè)模型,然后使用來(lái)自測(cè)試用戶的反饋來(lái)調(diào)整我們挑選圖片的標(biāo)準(zhǔn)。

一旦我們從測(cè)試用戶那里得到可靠的正向反饋,為了得到數(shù)百萬(wàn)張照片的訓(xùn)練集,我們會(huì)把制定的挑選照片的規(guī)則轉(zhuǎn)換為標(biāo)簽集。然后,它訓(xùn)練了能夠預(yù)測(cè)數(shù)十億張照片質(zhì)量的模型,但是它的DNA來(lái)自我們開發(fā)的原始手工規(guī)則。

在真實(shí)的數(shù)據(jù)上訓(xùn)練

在Jetpac,我們用來(lái)訓(xùn)練我們模型的圖像來(lái)自相同的數(shù)據(jù)源(大部分來(lái)自Facebook和Instagram) ,也是我們想用在模型上的圖像。我所看到的一個(gè)常見問(wèn)題是訓(xùn)練數(shù)據(jù)集在重要的方面與模型最終會(huì)在生產(chǎn)中看到的輸入不同。

 

 

目前世界上圖像識(shí)別最大的數(shù)據(jù)庫(kù)ImageNet

例如,我經(jīng)常會(huì)看到團(tuán)隊(duì)在ImageNet上訓(xùn)練一個(gè)模型,但當(dāng)他們?cè)噲D在無(wú)人機(jī)或機(jī)器人中使用時(shí)就會(huì)碰到問(wèn)題。原因ImageNet都是人拍攝的照片,這些照片有很多共同之處。它們是用手機(jī)或靜態(tài)相機(jī)拍攝的,使用中性透鏡,在大致的高度,白天或人工照明的條件下,把對(duì)象標(biāo)記在中心突出的位置。

機(jī)器人和無(wú)人機(jī)使用的攝像機(jī)通常是高視野鏡頭。無(wú)論是從地面還是從上方,照明都很差,沒(méi)有任何對(duì)象的智能框架,因此它們通常被裁剪。這種差異意味著如果你只接受一個(gè)從ImageNet的照片中訓(xùn)練出來(lái)的模型,并將其部署在這些設(shè)備上,那么你就會(huì)發(fā)現(xiàn)精確度不高。

有關(guān)你的訓(xùn)練數(shù)據(jù)偏離模型本來(lái)應(yīng)該需要的訓(xùn)練數(shù)據(jù),還存在很多微妙的形式。想象一下,你正在建造一個(gè)相機(jī)來(lái)識(shí)別野生動(dòng)物,并利用世界各地的動(dòng)物數(shù)據(jù)集進(jìn)行訓(xùn)練。如果你只在Borneo叢林中部署,那么企鵝標(biāo)簽的正確率肯定是極低的。

如果南極照片被包含在訓(xùn)練數(shù)據(jù)中,那么它將有更高的幾率將其他東西誤認(rèn)為企鵝,所以你的總錯(cuò)誤率會(huì)比你排除那些訓(xùn)練中的圖像更糟糕。有一些方法可以根據(jù)已知的先驗(yàn)信息來(lái)校準(zhǔn)你的結(jié)果(例如,在叢林環(huán)境下大規(guī)模的企鵝的概率),但是使用一個(gè)反映產(chǎn)品實(shí)際遇到的情況的訓(xùn)練集更容易和更有效。

我發(fā)現(xiàn),最好的方法是使用直接從實(shí)際應(yīng)用程序得到的數(shù)據(jù),這些數(shù)據(jù)與上面提到的Wizard of Oz方法很好地聯(lián)系在一起。循環(huán)中的人成為初始數(shù)據(jù)集的打標(biāo)簽者,即使收集的標(biāo)簽數(shù)量很小,它們也會(huì)反映實(shí)際使用情況,并且對(duì)于遷移學(xué)習(xí)的一些初步實(shí)驗(yàn)應(yīng)該是足夠的。

遵循指標(biāo)

當(dāng)我在做語(yǔ)音指令的例子時(shí),看到的最頻繁的報(bào)告就是訓(xùn)練過(guò)程中的混淆矩陣。這里有一個(gè)例子,展示了如何在控制臺(tái)中顯示:

 

 

這看起來(lái)可能很嚇人,但實(shí)際上它只是一張表格,顯示了網(wǎng)絡(luò)所犯的錯(cuò)誤的細(xì)節(jié)。這里有一份更漂亮的標(biāo)簽版本:

 

 

表格中的每一行代表一組樣本,其中真實(shí)的標(biāo)簽是相同的。每一列代表樣本被預(yù)測(cè)為對(duì)應(yīng)標(biāo)簽的次數(shù)。例如,高亮顯示的一行代表所有實(shí)際上是無(wú)聲的音頻樣本,如果你從左讀到右,你可以看到那些預(yù)測(cè)正確的標(biāo)簽,每一個(gè)都落在預(yù)測(cè)無(wú)聲的列中。

這告訴我們,這個(gè)模型可以很好地發(fā)現(xiàn)真正的無(wú)聲樣本,并且沒(méi)有負(fù)樣本。如果我們看一下展示有多少將音頻預(yù)測(cè)為無(wú)聲的一整列,就可以發(fā)現(xiàn)一些音頻片段實(shí)際上是誤分到無(wú)聲的一列中的,這一列有很多假正例。

事實(shí)證明這個(gè)是很有幫助的,因?yàn)樗梢宰屛腋幼屑?xì)地分析那些被錯(cuò)誤地歸類為無(wú)聲的片段,從而發(fā)現(xiàn)他們大部分是極其安靜的錄音。根據(jù)混淆矩陣提供的線索,我清除了低音量的音頻片段,這幫助我提高了數(shù)據(jù)質(zhì)量。

雖然大多數(shù)結(jié)果是有用的,但是我發(fā)現(xiàn)混淆矩陣是一個(gè)很好的折衷,因?yàn)樗葍H僅一個(gè)精確值給的信息要多,卻又沒(méi)有呈現(xiàn)太多復(fù)雜的細(xì)節(jié)。在訓(xùn)練過(guò)程中觀察數(shù)字的變化是很有用的,因?yàn)樗梢愿嬖V你模型正在努力學(xué)習(xí)的類別,并且可以讓你在清理和擴(kuò)展數(shù)據(jù)集時(shí)集中精力。

相似的方法

我最喜歡的一種理解我的模型如何解釋訓(xùn)練數(shù)據(jù)的方法就是可視化。TensorBoard可以很好的支持這種探索,雖然它經(jīng)常用來(lái)可視化詞嵌入,但是我發(fā)現(xiàn)它幾乎對(duì)每一層都很有用,工作原理也像詞嵌入。例如,圖像分類網(wǎng)絡(luò)通常在最后一層的全連接層或者softmax之前有一層網(wǎng)絡(luò)可以用來(lái)作為嵌入(這就是簡(jiǎn)單的遷移學(xué)習(xí)的例子,和TensorFlow for Poets(地址如下)工作流程很像)。

這些并不是嚴(yán)格意義上的嵌入,因?yàn)樵谟?xùn)練過(guò)程中并沒(méi)有任何機(jī)制去保證真正的嵌入布局中有理想的空間屬性,但是對(duì)它們的向量進(jìn)行聚類確實(shí)可以產(chǎn)生很多有趣的東西。

鏈接:https://codelabs.developers.google.com/codelabs/tensorflow-for-poets/#2

舉一個(gè)實(shí)際的例子,我合作的一個(gè)團(tuán)隊(duì)對(duì)某些動(dòng)物的圖像分類模型的高錯(cuò)誤率感到很困惑。他們使用聚類可視化去觀察訓(xùn)練數(shù)據(jù)中不同的類別是如何分布的。當(dāng)他們?cè)诳?ldquo;捷豹”這個(gè)類別時(shí),很清楚的看到數(shù)據(jù)被分為兩組之間的距離。

 

 

圖片來(lái)自djblock99Dave Adams

這是他們看到的一幅圖,一旦每個(gè)聚類的照片都顯示出來(lái),就可以很明顯的發(fā)現(xiàn)許多捷豹品牌的汽車都被錯(cuò)誤地貼上了捷豹貓的標(biāo)簽。如果團(tuán)隊(duì)成員知道了這些,那么就會(huì)去關(guān)注標(biāo)注過(guò)程,并且可以意識(shí)到工人的方向和用于標(biāo)注的用戶界面不夠完善。

有了這些信息,他們就能夠改進(jìn)標(biāo)注者(人)的培訓(xùn)過(guò)程并且去修復(fù)標(biāo)注工具。這可以將所有的汽車圖像從捷豹類別中移除,并為這一類別提供了一個(gè)更好的模型。

聚類通過(guò)讓你對(duì)訓(xùn)練集進(jìn)行深刻的了解,可以讓你得到與你探索數(shù)據(jù)相似的好處。但是,網(wǎng)絡(luò)實(shí)際上是按照它自己的學(xué)習(xí)理解將輸入數(shù)據(jù)排序分組,然后指導(dǎo)你探索數(shù)據(jù)。

人類很擅長(zhǎng)在視覺(jué)信息中發(fā)現(xiàn)異常,因此將我們的直覺(jué)和計(jì)算機(jī)處理大量數(shù)據(jù)的能力結(jié)合起來(lái)是一種非常靈活的追蹤數(shù)據(jù)集質(zhì)量的解決方案。關(guān)于如何使用TensorBoard來(lái)做這件事超出了本文的范圍(文章已經(jīng)足夠長(zhǎng)了,我很感激你還在繼續(xù)讀下去)。但是如果你真的想提高你的結(jié)果,我強(qiáng)烈建議你熟悉這個(gè)工具。

收集數(shù)據(jù)不能停

我從來(lái)沒(méi)有見過(guò)收集更多的數(shù)據(jù)不能提高模型準(zhǔn)確性的例子,而且也有很多研究可以支持我的經(jīng)驗(yàn)。

 

 

這張圖片來(lái)自“重新審視那些有效到不合常理的訓(xùn)練數(shù)據(jù)”,并且展示了即使數(shù)據(jù)集已經(jīng)增長(zhǎng)到了數(shù)億,圖像分類模型的精度依然不斷增加。

Facebook最近更加深入的使用大數(shù)據(jù)量,例如,在ImageNet分類中使用了數(shù)十億個(gè)帶有標(biāo)簽的Instagram圖片,以達(dá)到新的記錄精度。這表明,即使對(duì)于大型、高質(zhì)量數(shù)據(jù)集的問(wèn)題,增加訓(xùn)練集的大小仍然可以提高模型結(jié)果。

這意味著只要用戶可以從更高精度的模型中受益,你就需要一個(gè)不斷改善數(shù)據(jù)質(zhì)量的策略。如果可以的話,找到一種創(chuàng)造性的方法,利用即使微弱的信號(hào)也可以得到更大的數(shù)據(jù)集。Facebook使用Instagram標(biāo)簽就是一個(gè)很好的例子。

還有一種方法是提高標(biāo)注“管道”的智能性,例如通過(guò)增加由初始模型預(yù)測(cè)的建議標(biāo)簽的工具,這樣可以使打標(biāo)簽的人快速做決定。這在剛開始可能有風(fēng)險(xiǎn),但是在實(shí)際應(yīng)用中受益往往超過(guò)了這種風(fēng)險(xiǎn)。

通過(guò)雇傭更多的人來(lái)給新的訓(xùn)練數(shù)據(jù)貼上標(biāo)簽來(lái)解決這個(gè)問(wèn)題通常也是一項(xiàng)有價(jià)值的投資。不過(guò)因?yàn)檫@種花費(fèi)通常沒(méi)有預(yù)算,組織過(guò)程中會(huì)有很多困難。如果是一個(gè)非盈利的組織,則可以讓你的支持者通過(guò)某種公共工具自愿貢獻(xiàn)數(shù)據(jù),這是一種在不花費(fèi)錢的同時(shí)提高數(shù)據(jù)集規(guī)模的好方式。

當(dāng)然任何組織都希望有一個(gè)產(chǎn)品,當(dāng)它在正常使用時(shí)可以生成標(biāo)注數(shù)據(jù)。

我不會(huì)太執(zhí)著于這樣的想法,它不符合很多現(xiàn)實(shí)世界的用例。即人們只是想盡快得到一個(gè)答案而并不涉及標(biāo)簽的復(fù)雜問(wèn)題。如果你是一家創(chuàng)業(yè)公司,這是一個(gè)很好的投資項(xiàng)目,因?yàn)樗拖袷且慌_(tái)用于改進(jìn)模型的永動(dòng)機(jī)。

但是在清理或增加你接收到的數(shù)據(jù)時(shí),幾乎總是會(huì)有一些單位成本,因此,最后花的錢往往最終看起來(lái)更像是一個(gè)廉價(jià)版的商業(yè)眾包,而不是真正免費(fèi)的東西。

通往危險(xiǎn)區(qū)域的高速公路

模型錯(cuò)誤對(duì)產(chǎn)品用戶的影響往往要大于由損失函數(shù)捕捉到的錯(cuò)誤。你應(yīng)該提前想到可能發(fā)生的最糟糕的結(jié)果,并為模型設(shè)計(jì)一個(gè)輔助程序來(lái)避免發(fā)生。這也許是一個(gè)你永遠(yuǎn)都不想預(yù)測(cè)的類別黑名單,因?yàn)榧僬拇鷥r(jià)太大。

或者你僅僅有一套簡(jiǎn)單算法去保證發(fā)生的結(jié)果不會(huì)超過(guò)你已經(jīng)設(shè)定的參數(shù)邊界。例如,你可能會(huì)保留一個(gè)永遠(yuǎn)不希望文本生成器輸出的粗俗語(yǔ)言的列表,即使它們?cè)谟?xùn)練集中,因?yàn)樗鼈儾贿m合出現(xiàn)在產(chǎn)品中。

因?yàn)槲覀儾荒芸偸侵牢磥?lái)可能會(huì)出現(xiàn)什么不好的結(jié)果,所以學(xué)習(xí)現(xiàn)實(shí)世界中的錯(cuò)誤是很重要的。如果你有了合適的產(chǎn)品或市場(chǎng),那么從現(xiàn)實(shí)中學(xué)習(xí)最簡(jiǎn)單的辦法就是使用錯(cuò)誤報(bào)告。

另外,當(dāng)用戶使用你的應(yīng)用程序出現(xiàn)他們不想要的東西時(shí),應(yīng)該給用戶一個(gè)便捷的反饋路徑。如果可以的話,獲取模型的全部輸入,但是如果數(shù)據(jù)是敏感數(shù)據(jù),那么僅僅知道錯(cuò)誤的輸出是什么也可以幫助你調(diào)查原因。這些類別可以用來(lái)決定收集更多什么樣的數(shù)據(jù),并且這些類別可以讓你理解當(dāng)前標(biāo)簽的質(zhì)量。

一旦你對(duì)模型進(jìn)行了新的修改,就會(huì)有一組先前產(chǎn)生了壞結(jié)果的輸入,并且除了正常的測(cè)試集之外,還對(duì)它們進(jìn)行單獨(dú)的評(píng)估。這個(gè)有點(diǎn)像一個(gè)回歸測(cè)試,并給你一個(gè)方法追蹤你改進(jìn)用戶體驗(yàn)的效果如何,因?yàn)閱我坏哪P途榷攘坑肋h(yuǎn)不會(huì)完全捕捉到人們關(guān)心的一切。

通過(guò)看一些過(guò)去引起強(qiáng)烈反應(yīng)的例子,你就有了一些獨(dú)立證據(jù)表明你實(shí)際上是在為你的用戶做得更好。如果在一些情況下因?yàn)閿?shù)據(jù)太敏感而不能得到輸入數(shù)據(jù),可以使用內(nèi)部測(cè)試或者內(nèi)部實(shí)驗(yàn)來(lái)確定什么樣的輸入會(huì)產(chǎn)生這些錯(cuò)誤,然后代替回歸數(shù)據(jù)集中的那些數(shù)據(jù)。

故事是什么,曇花一現(xiàn)?

我希望我已經(jīng)說(shuō)服你花更多的時(shí)間在你的數(shù)據(jù)上,并且給你了一些關(guān)于如何投入精力改進(jìn)它的想法。對(duì)數(shù)據(jù)領(lǐng)域的關(guān)注并沒(méi)有它值得的那么多,而且我真的覺(jué)得我在這里的建議僅僅是涉及數(shù)據(jù)表面。

我很感謝所有與我分享他們的策略的人,另外我希望我可以從更多的人那里聽到你已經(jīng)取得成功的方法。我認(rèn)為會(huì)有越來(lái)越多的機(jī)構(gòu)將工程師團(tuán)隊(duì)專門用于數(shù)據(jù)集的改進(jìn),而不是讓機(jī)器學(xué)習(xí)研究人員來(lái)推動(dòng)進(jìn)展。我期待著看到整個(gè)領(lǐng)域的發(fā)展。

我總是驚嘆于即使是在有著嚴(yán)重缺陷訓(xùn)練數(shù)據(jù)的情況下模型依然可以運(yùn)作良好。因此我迫不及待的想看看隨著我們數(shù)據(jù)集質(zhì)量的提高我們可以做些什么。

相關(guān)報(bào)道:

https://petewarden.com/2018/05/28/why-you-need-to-improve-your-training-data-and-how-to-do-it/

標(biāo)簽: Google 大數(shù)據(jù) 數(shù)據(jù)庫(kù) 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:談?wù)劥髷?shù)據(jù)平臺(tái)的建設(shè)目標(biāo)

下一篇:機(jī)器學(xué)習(xí)為核心,DeepMind助力谷歌開發(fā)的安卓 9「Pie」今日上線