中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機(jī)器學(xué)習(xí)的教訓(xùn):5家公司分享的錯(cuò)誤經(jīng)驗(yàn)

2019-01-03    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

機(jī)器學(xué)習(xí)是當(dāng)下的熱門技術(shù)之一,許多業(yè)務(wù)和技術(shù)高管都在爭(zhēng)相了解他們的組織可以如何參與其中。如果操作得當(dāng),機(jī)器學(xué)習(xí)可以幫助您創(chuàng)建更有效的銷售和營(yíng)銷活動(dòng),改進(jìn)財(cái)務(wù)模型,更輕松地檢測(cè)欺詐,提高設(shè)備的預(yù)測(cè)性維護(hù),好處不一而足。

 

機(jī)器學(xué)習(xí)的教訓(xùn)

 

但是機(jī)器學(xué)習(xí)也可能會(huì)出嚴(yán)重的錯(cuò)誤,讓你悔不該當(dāng)初。根據(jù)采用機(jī)器學(xué)習(xí)的公司的實(shí)際經(jīng)驗(yàn),這里有五種機(jī)器學(xué)習(xí)可能出錯(cuò)的方式。他們分享了他們的經(jīng)驗(yàn),希望你可以吸取經(jīng)驗(yàn)以避免同樣的失敗。

教訓(xùn)1:錯(cuò)誤的假設(shè)使機(jī)器學(xué)習(xí)偏離了軌道

Projector PSA是美國(guó)一家設(shè)計(jì)和制造專業(yè)服務(wù)自動(dòng)化軟件的公司,并幫助咨詢公司經(jīng)營(yíng)業(yè)務(wù)。當(dāng)它試圖用機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)人員配置計(jì)劃的差異時(shí),它慘痛地吸取了這一教訓(xùn)。

因?yàn)樽稍児纠锩娑际菍I(yè)的、訓(xùn)練有素的顧問(wèn),能有效地利用他們的才能,所以公司經(jīng)常需要雇傭項(xiàng)目經(jīng)理來(lái)評(píng)估和預(yù)測(cè)他們項(xiàng)目的人員需求。

然后,他們跟蹤顧問(wèn)花在每個(gè)項(xiàng)目上的時(shí)間,以便向客戶收取費(fèi)用。如果組織在單一系統(tǒng)(例如專業(yè)的服務(wù)自動(dòng)化工具)中同時(shí)管理這兩項(xiàng)活動(dòng),則有一些明顯的優(yōu)勢(shì),例如能夠?qū)㈩A(yù)測(cè)與實(shí)際時(shí)間進(jìn)行比較,從而了解不同的項(xiàng)目經(jīng)理在規(guī)劃方面的準(zhǔn)確性。

Projector PSA的首席運(yùn)營(yíng)官Steve Chong回憶說(shuō),該公司與一位客戶開(kāi)始了一項(xiàng)研究,該客戶雇傭了數(shù)百名的項(xiàng)目經(jīng)理。它建立的模型比較了在不斷增加的規(guī)劃范圍內(nèi)實(shí)際工作的平均小時(shí)數(shù)與預(yù)測(cè)小時(shí)數(shù)之間的差異。它還在幾個(gè)月的時(shí)間里研究了項(xiàng)目經(jīng)理預(yù)測(cè)的一致性以及可變性。

也就是說(shuō),如果在一周內(nèi)預(yù)測(cè)過(guò)高,而在下一周預(yù)測(cè)過(guò)低(高可變性),Projector PSA希望知道這兩者是否能夠相互抵消,讓預(yù)測(cè)的平均值差異很小,或者說(shuō)方差很小。

“最初的前提是低方差和低可變性是好的,而高方差和高可變性是壞的,”Chong說(shuō);谶@一前提,Projector PSA實(shí)現(xiàn)了一種機(jī)器學(xué)習(xí)算法,將項(xiàng)目經(jīng)理分為不同的群體,比如“囤積者”和“樂(lè)觀主義者”,基于這些數(shù)據(jù),該算法使用公司項(xiàng)目經(jīng)理的樣本作為訓(xùn)練集。

然后,公司讓機(jī)器學(xué)習(xí)算法根據(jù)學(xué)到的知識(shí)對(duì)剩下的項(xiàng)目經(jīng)理進(jìn)行分類。事實(shí)證明,它將一些公司最有經(jīng)驗(yàn)和受過(guò)良好培訓(xùn)的項(xiàng)目經(jīng)理列為了最糟糕的違規(guī)者,因?yàn)樗麄兙哂懈叩姆讲詈透叩目勺冃浴?/p>

他說(shuō):“事實(shí)上,這些項(xiàng)目經(jīng)理是公司能夠針對(duì)那些已經(jīng)陷入困境的項(xiàng)目提出解決方案的人,他們希望這些項(xiàng)目能夠得到控制。”

類似地,最初的機(jī)器學(xué)習(xí)算法對(duì)一個(gè)項(xiàng)目經(jīng)理的評(píng)價(jià)很高,因?yàn)樗姆讲詈涂勺冃詭缀鯙榱恪5聦?shí)證明,她將預(yù)測(cè)的時(shí)間發(fā)送給她的團(tuán)隊(duì),隱含著一種期望,即他們會(huì)將這些時(shí)間報(bào)告為他們實(shí)際工作的時(shí)間。Chong表示,這導(dǎo)致了她從未超出預(yù)算或出現(xiàn)預(yù)算不足的局面,但這樣做實(shí)際上鼓勵(lì)了她的團(tuán)隊(duì)以不利于大局的方式行事。

“這些錯(cuò)誤不是機(jī)器學(xué)習(xí)算法本身造成的,而是我們最初訓(xùn)練它們時(shí)的假設(shè)造成的,”Chong說(shuō)。“它們只是還原了完全依賴于數(shù)據(jù)而沒(méi)有充分了解數(shù)據(jù)所代表的現(xiàn)實(shí)。”

一旦該公司訓(xùn)練其機(jī)器學(xué)習(xí)算法識(shí)別了這些新的配置文件,它就會(huì)覺(jué)得它能更好地反映現(xiàn)實(shí)。

教訓(xùn)2:無(wú)監(jiān)督的機(jī)器學(xué)習(xí)可能會(huì)有意想不到的偏差

雖然許多任務(wù)可以通過(guò)機(jī)器學(xué)習(xí)來(lái)完成,但是因?yàn)橛行┣闆r在項(xiàng)目開(kāi)始時(shí)并沒(méi)有被考慮到,從而導(dǎo)致機(jī)器學(xué)習(xí)產(chǎn)生了錯(cuò)誤的結(jié)果。這就是巴西金融服務(wù)公司Mejor Trato的遭遇,該公司將機(jī)器學(xué)習(xí)作為人力資源部門數(shù)字化轉(zhuǎn)型的一部分。

該項(xiàng)目涉及讓潛在的新員工通過(guò)實(shí)時(shí)聊天和使用公司內(nèi)部開(kāi)發(fā)的機(jī)器學(xué)習(xí)聊天機(jī)器人來(lái)回答一系列問(wèn)題。

最初使用聊天機(jī)器人時(shí)出現(xiàn)了兩個(gè)關(guān)鍵問(wèn)題。一個(gè)是要求求職者填寫(xiě)了錯(cuò)誤的個(gè)人資料/職業(yè)表格。另一個(gè)問(wèn)題是,給出了與人力資源員工會(huì)議重疊的面試時(shí)間,這意味著人力資源員工無(wú)法根據(jù)需要監(jiān)控聊天機(jī)器人。

CTO Cristian Rennella表示,在最初幾周,HR團(tuán)隊(duì)中的一些人需要對(duì)每一次對(duì)話進(jìn)行監(jiān)控,以便在必要時(shí)糾正機(jī)器人,這一點(diǎn)至關(guān)重要。“我們犯了一個(gè)錯(cuò)誤,以為一切都解決了,沒(méi)有監(jiān)督就離開(kāi)了聊天機(jī)器人,”她說(shuō)。教訓(xùn)是“不要忘記在幾個(gè)月內(nèi)持續(xù)監(jiān)控聊天機(jī)器人的全職工作。”

由于沒(méi)有對(duì)聊天機(jī)器人進(jìn)行微調(diào),該公司斷定,收集到的數(shù)據(jù)中有10%是錯(cuò)誤的。

Rennella說(shuō):“機(jī)器學(xué)習(xí)在一開(kāi)始可能會(huì)對(duì)90%的答案有用,但是剩下的10%應(yīng)該由人工監(jiān)督來(lái)修正算法。”隨著時(shí)間的推移,可用性將從90%增加到99%,“但我們不能停止關(guān)注可能出現(xiàn)的偏差甚至新情況,當(dāng)我們開(kāi)始這個(gè)項(xiàng)目時(shí),這是出乎意料的,”她說(shuō)。

教訓(xùn)3:糟糕的數(shù)據(jù)標(biāo)注會(huì)損害機(jī)器學(xué)習(xí)的結(jié)果

俄羅斯的兩家關(guān)聯(lián)公司Ashmanov神經(jīng)網(wǎng)絡(luò)和SOVA(智能開(kāi)放式虛擬助理)在為其商業(yè)客戶開(kāi)發(fā)基于機(jī)器學(xué)習(xí)的產(chǎn)品。其內(nèi)容包括了視頻分析、自然語(yǔ)言處理、信號(hào)處理和神經(jīng)網(wǎng)絡(luò)。

兩家公司的首席執(zhí)行官Stanislav Ashmanov表示,公司在機(jī)器學(xué)習(xí)方面遇到的最大問(wèn)題之一是基于標(biāo)簽難度的糟糕數(shù)據(jù)。 “提供高質(zhì)量的數(shù)據(jù)標(biāo)簽是非常困難的,”Ashmanov說(shuō)。“通常情況下,從事數(shù)據(jù)標(biāo)識(shí)工作的人都很草率,因?yàn)樗麄兘?jīng)常只是匆忙地工作著。更重要的是,以一種每個(gè)人都能以同樣的方式和理解任務(wù)的方式來(lái)傳遞任務(wù)是非常困難的。”

因此,這些數(shù)據(jù)可能包含多個(gè)標(biāo)記的樣本,比如圖片中錯(cuò)誤識(shí)別的輪廓,這些樣本對(duì)訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的性能多少產(chǎn)生了一些影響。

在短時(shí)間內(nèi)收集所需的大量數(shù)據(jù)也很有挑戰(zhàn)性。Ashmanov說(shuō),數(shù)據(jù)收集可能需要幾個(gè)月的時(shí)間。此外,從公開(kāi)渠道收集的數(shù)據(jù),比如在互聯(lián)網(wǎng)上找到的數(shù)據(jù),并不總是能夠準(zhǔn)確地反映現(xiàn)實(shí)。例如,在工作室或?qū)嶒?yàn)室拍攝的照片可能與現(xiàn)實(shí)生活中的街景或工廠生產(chǎn)單元快照截然不同。結(jié)果,這樣訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)的性能會(huì)很低。

作為客戶項(xiàng)目的一部分,當(dāng)公司訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別在線自拍中的眼鏡時(shí),就出現(xiàn)了一個(gè)可能出錯(cuò)的例子。他們從社交媒體上收集了一些照片并貼上標(biāo)簽。Ashmanov說(shuō),神經(jīng)網(wǎng)絡(luò)的表現(xiàn)質(zhì)量很低,因?yàn)樗蜒劬ο旅嬗泻谘廴Φ娜苏`認(rèn)為戴著眼鏡。

另一個(gè)客戶提交了一個(gè)城市的兩幅衛(wèi)星圖像。任務(wù)是在圖像中標(biāo)記汽車,并教神經(jīng)網(wǎng)絡(luò)識(shí)別它們并計(jì)算它們的近似數(shù)量。在這個(gè)例子中,問(wèn)題是神經(jīng)網(wǎng)絡(luò)將建筑屋頂上的壁架也識(shí)別為汽車,因?yàn)樗鼈冊(cè)谕庥^上相似——它們都是小的、矩形的,而且大多是深色的。

“這一切都取決于對(duì)特殊案例的仔細(xì)研究,創(chuàng)建啟發(fā)式方法,以及改進(jìn)初步數(shù)據(jù)處理和后處理證明檢查,”Ashmanov說(shuō)。

教訓(xùn)4:過(guò)于細(xì)微的分類問(wèn)題可能會(huì)混淆機(jī)器學(xué)習(xí)

Casepoint是美國(guó)一家為法律行業(yè)和其他市場(chǎng)提供電子發(fā)現(xiàn)技術(shù)的公司,它也經(jīng)歷了機(jī)器學(xué)習(xí)算法的缺陷問(wèn)題。該公司使用機(jī)器學(xué)習(xí)來(lái)進(jìn)行文檔分類和預(yù)測(cè)分析。通過(guò)使用這項(xiàng)技術(shù),法律團(tuán)隊(duì)可以大大減少審查和分類文件的時(shí)間。

首席戰(zhàn)略官David Carns表示,利用機(jī)器學(xué)習(xí)對(duì)文件進(jìn)行分類是有效的,但并非完美無(wú)缺。該公司發(fā)現(xiàn)的一個(gè)弱點(diǎn)是,人們會(huì)過(guò)度依賴機(jī)器學(xué)習(xí)來(lái)解決微妙、復(fù)雜的分類問(wèn)題。

例如,在法律領(lǐng)域,機(jī)器學(xué)習(xí)文檔分類器經(jīng)常用于識(shí)別響應(yīng)“生成文檔請(qǐng)求”的文檔。甲方要求提供與特定主題或內(nèi)容相關(guān)的文檔,乙方可以使用機(jī)器學(xué)習(xí)文檔分類器進(jìn)行分類來(lái)幫助篩選文檔存儲(chǔ)庫(kù)以獲取響應(yīng)文檔。

Carns說(shuō),這種方法非常有效,律師已經(jīng)開(kāi)始定期使用這種技術(shù)來(lái)輔助審查(TAR)文件。“這種成功導(dǎo)致人們希望能夠盲目地使用機(jī)器學(xué)習(xí)文檔分類器來(lái)進(jìn)行更細(xì)微的分類,例如識(shí)別受律師-客戶特權(quán)保護(hù)的文檔,”他說(shuō)。

雖然使用機(jī)器學(xué)習(xí)對(duì)文檔分類器進(jìn)行特權(quán)文檔內(nèi)容的訓(xùn)練很容易,但是如何使文檔具有合法特權(quán)在很大程度上取決于文檔的受眾、保密性、接收時(shí)間以及與法律咨詢或訴訟的關(guān)系。Carns說(shuō),大多數(shù)機(jī)器學(xué)習(xí)文檔分類器無(wú)法對(duì)這些額外的上下文線索進(jìn)行充分分類。

Carns說(shuō):“這并不意味著機(jī)器學(xué)習(xí)文檔分類器不能幫助對(duì)潛在的特權(quán)文檔進(jìn)行選擇和分類。但法律專業(yè)人士不應(yīng)僅僅依靠機(jī)器學(xué)習(xí)來(lái)確定特權(quán)。”他說(shuō),如今,人類律師需要手動(dòng)審查潛在的特權(quán)文件,以便最終決定是否適用法律特權(quán)。

教訓(xùn)5:測(cè)試/訓(xùn)練數(shù)據(jù)的污染可能會(huì)影響機(jī)器學(xué)習(xí)

美國(guó)自動(dòng)化公司Indico多年來(lái)一直在為客戶提供企業(yè)人工智能和深度學(xué)習(xí)服務(wù),它不斷遇到的最大問(wèn)題之一是機(jī)器學(xué)習(xí)測(cè)試和訓(xùn)練數(shù)據(jù)的污染。

CTO Slater Victoroff說(shuō),一個(gè)客戶正在創(chuàng)建一個(gè)模型來(lái)確定一條新聞是否會(huì)影響其股價(jià)。由于很難準(zhǔn)確地確定影響時(shí)間,所以公司創(chuàng)建了一個(gè)模型來(lái)預(yù)測(cè)第二天的影響。

“他們沒(méi)有意識(shí)到的是,他們忽略了確保測(cè)試/訓(xùn)練數(shù)據(jù)完全分開(kāi)的數(shù)據(jù)科學(xué)基礎(chǔ),”Victoroff說(shuō)。“因此,在預(yù)測(cè)第二天的影響方面,他們給出了接近100%的準(zhǔn)確率,而實(shí)際上,這個(gè)模型并不會(huì)比隨機(jī)的模型更好。”

另一次體驗(yàn)則涉及到一名客戶查看其內(nèi)部自然語(yǔ)言處理( NLP )系統(tǒng)。客戶有一個(gè)團(tuán)隊(duì),多年來(lái)一直在為機(jī)器學(xué)習(xí)模型創(chuàng)建和更新功能,并根據(jù)同一組搜索結(jié)果不斷測(cè)試這些功能。該團(tuán)隊(duì)也經(jīng)歷了測(cè)試/訓(xùn)練數(shù)據(jù)污染的影響。Victoroff說(shuō):“如果你看到你的測(cè)試錯(cuò)誤就改變你的算法來(lái)改進(jìn)你的測(cè)試錯(cuò)誤,你的數(shù)字就不再準(zhǔn)確了。”

在一些特殊情況下,人們對(duì)該問(wèn)題的理解往往不足。在內(nèi)部,該模型對(duì)于特定任務(wù)實(shí)現(xiàn)了接近100%的準(zhǔn)確性。“但在生產(chǎn)過(guò)程中,該系統(tǒng)往往無(wú)法正常運(yùn)行,因?yàn)樗麄儫o(wú)意中污染了他們的結(jié)果,”Victoroff說(shuō)。“任何組織在機(jī)器學(xué)習(xí)中最關(guān)鍵的錯(cuò)誤都是測(cè)試/訓(xùn)練數(shù)據(jù)的污染問(wèn)題。”

標(biāo)簽: 互聯(lián)網(wǎng) 金融 媒體 搜索 網(wǎng)絡(luò) 轉(zhuǎn)型

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:IDC行業(yè)年度熱詞正式出爐啦!

下一篇:2019最值得關(guān)注的幾個(gè)科技發(fā)展趨勢(shì)