中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機(jī)器學(xué)習(xí)從業(yè)人員到底做什么?

2018-07-20    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

關(guān)于機(jī)器學(xué)習(xí)人才的稀缺和公司聲稱他們的產(chǎn)品能夠自動(dòng)化機(jī)器學(xué)習(xí),而且能完全消除對(duì)ML專業(yè)知識(shí)需求的承諾經(jīng)常登上媒體的新聞?lì)^條。在TensorFlow DevSummit的主題演講中,Google的AI總指揮Jeff Dean估計(jì),有數(shù)千萬(wàn)擁有可用于機(jī)器學(xué)習(xí)的數(shù)據(jù)而缺乏必要的專業(yè)知識(shí)和技能的組織。因?yàn)槲以趂ast.ai主要專注于讓更多的人去使用機(jī)器學(xué)習(xí)并且讓它更容易使用,所以我密切關(guān)注剛才所提的機(jī)器學(xué)習(xí)人才稀缺等問(wèn)題。

在考慮如何使機(jī)器學(xué)習(xí)的一些工作自動(dòng)化以及讓具有更廣泛背景的人更容易使用這項(xiàng)技術(shù),首先有必要問(wèn)的是:機(jī)器學(xué)習(xí)行業(yè)從業(yè)者到底在做什么?任何用來(lái)解決機(jī)器學(xué)習(xí)專業(yè)知識(shí)稀缺的方案都需要回答這個(gè)問(wèn)題:我們是否知道去教什么技能、去建立什么工具或者去自動(dòng)化什么工序。

 

 

從事機(jī)器學(xué)習(xí)行業(yè)的人做什么?

構(gòu)建數(shù)據(jù)產(chǎn)品是一項(xiàng)復(fù)雜的工作

雖然許多關(guān)于機(jī)器學(xué)習(xí)的學(xué)術(shù)來(lái)源幾乎都是預(yù)測(cè)建模,但這只是從事機(jī)器學(xué)習(xí)在正常情況下做的其中一件事。適當(dāng)?shù)胤治錾虡I(yè)問(wèn)題,收集和清理數(shù)據(jù),構(gòu)建模型,實(shí)施結(jié)果,然后監(jiān)控變化的過(guò)程在很多方式中是相互關(guān)聯(lián)的,這往往很難僅僅通過(guò)單個(gè)部分進(jìn)行孤立(至少不知道其他部分需要什么)。正如Jeremy Howard等人在《設(shè)計(jì)出色的數(shù)據(jù)產(chǎn)品》上寫(xiě)道:偉大的預(yù)測(cè)建模是解決方案的重要組成部分,但它不再獨(dú)立;隨著產(chǎn)品變得越來(lái)越復(fù)雜,它就會(huì)消失在管道中。

 

 

構(gòu)建數(shù)據(jù)產(chǎn)品是一項(xiàng)復(fù)雜的工作

來(lái)自Google,D. Sculley等的一個(gè)團(tuán)隊(duì)撰寫(xiě)了經(jīng)典的機(jī)器學(xué)習(xí)案例:《技術(shù)債務(wù)的高利率信用卡》,這是關(guān)于在實(shí)踐中使用機(jī)器學(xué)習(xí)時(shí)時(shí)常產(chǎn)生的代碼復(fù)雜性和技術(shù)債務(wù)。作者發(fā)現(xiàn)了許多系統(tǒng)級(jí)別的交互、風(fēng)險(xiǎn)和反模式,包括:

1.膠水代碼:為了將數(shù)據(jù)輸入和輸出通用軟件包而編寫(xiě)的大量支持代碼;

2.管道叢林(pipeline jungles):以ML友好格式準(zhǔn)備數(shù)據(jù)的系統(tǒng)可能成為刮擦,連接和采樣步驟的叢林,通常帶有中間文件輸出;

3.重新使用輸入信號(hào)的方式會(huì)導(dǎo)致其他不相交系統(tǒng)的意外緊耦合;

4.外部環(huán)境的變化可能使模型或輸入信號(hào)的行為意外發(fā)生改變的風(fēng)險(xiǎn),這些可能難以監(jiān)控。

作者寫(xiě)道:現(xiàn)實(shí)世界的“機(jī)器學(xué)習(xí)”工作中一個(gè)重要部分是致力于解決這種形式的問(wèn)題...值得注意的是,膠水代碼和管道叢林是整合問(wèn)題的癥狀,可能是過(guò)度分離的“研究”和“工程”角色的根本原因 ...學(xué)術(shù)界可能會(huì)驚訝地發(fā)現(xiàn),許多機(jī)器學(xué)習(xí)系統(tǒng)中只有很小一部分代碼實(shí)際上在進(jìn)行“機(jī)器學(xué)習(xí)”。

當(dāng)機(jī)器學(xué)習(xí)項(xiàng)目失敗時(shí)

在其中一次機(jī)器學(xué)習(xí)項(xiàng)目中,我發(fā)現(xiàn)了在工作空間失效的故障模式:

1.數(shù)據(jù)科學(xué)團(tuán)隊(duì)構(gòu)建了一個(gè)非?岬臇|西卻永遠(yuǎn)不會(huì)被使用。關(guān)于他們正在進(jìn)行的工作,組織的其余部門(mén)沒(méi)有任何支持,而且一些數(shù)據(jù)科學(xué)家對(duì)將什么投入生產(chǎn)并不十分清楚。

2.數(shù)據(jù)科學(xué)家積壓生產(chǎn)模型的速度比工程支持生產(chǎn)模型要快得多。

3.數(shù)據(jù)架構(gòu)工程師由數(shù)據(jù)科學(xué)家分離出來(lái)。管道中現(xiàn)在沒(méi)有數(shù)據(jù)科學(xué)家所要求的數(shù)據(jù),數(shù)據(jù)科學(xué)家也在利用數(shù)據(jù)架構(gòu)工程師所收集的數(shù)據(jù)源。

4.該公司已經(jīng)明確決定生產(chǎn)功能/產(chǎn)品X.他們需要數(shù)據(jù)科學(xué)家來(lái)收集支持此決策的一些數(shù)據(jù)。數(shù)據(jù)科學(xué)家感覺(jué)PM正在忽略與決策相矛盾的數(shù)據(jù); PM認(rèn)為數(shù)據(jù)科學(xué)家正在忽視其他商業(yè)邏輯。

5. 數(shù)據(jù)科學(xué)家大材小用:數(shù)據(jù)科學(xué)團(tuán)隊(duì)采訪了一位令人印象深刻的數(shù)學(xué)建模和工程技巧的職位申請(qǐng)者,一旦被聘用,求職者就會(huì)加入到需要簡(jiǎn)單業(yè)務(wù)分析的垂直產(chǎn)品團(tuán)隊(duì)中。

在之前,我將這些視為組織失敗,但它們也可以被描述為各種從業(yè)者過(guò)分關(guān)注構(gòu)成完整數(shù)據(jù)產(chǎn)品的復(fù)雜系統(tǒng)的一部分。這些是數(shù)據(jù)產(chǎn)品管道的不同部分之間的溝通和目標(biāo)對(duì)齊的失敗。

那么,從事機(jī)器學(xué)習(xí)行業(yè)的人做什么?

如上所述,構(gòu)建機(jī)器學(xué)習(xí)產(chǎn)品是一項(xiàng)多方面且復(fù)雜的任務(wù)。以下是機(jī)器學(xué)習(xí)從業(yè)者在此過(guò)程中可能需要做的一些事情:

理解上下文:

1.確定可以從機(jī)器學(xué)習(xí)中受益的商業(yè)領(lǐng)域;

2.與其他利益相關(guān)者溝通有關(guān)機(jī)器學(xué)習(xí)是什么和自己不具備的能力(通常存在許多誤解);

3.了解商業(yè)戰(zhàn)略,風(fēng)險(xiǎn)和目標(biāo),確保每個(gè)人都在同一平臺(tái)上;

4.確定組織擁有哪種數(shù)據(jù);

5.適當(dāng)?shù)貥?gòu)建和審視任務(wù);

6.理解操作約束(例如,在推理的時(shí)候選出實(shí)際可用的數(shù)據(jù));

7.主動(dòng)識(shí)別道德風(fēng)險(xiǎn),包括騷擾者或進(jìn)行宣傳/虛假宣傳活動(dòng)(并計(jì)劃如何降低這些風(fēng)險(xiǎn));

8.識(shí)別潛在的偏見(jiàn)和潛在的負(fù)反饋循環(huán)。

數(shù)據(jù):

1.制定計(jì)劃收集更多不同的數(shù)據(jù);

2.將來(lái)自許多不同來(lái)源的數(shù)據(jù)整理在一起:這些數(shù)據(jù)通常以不同的格式或不一致的慣例收集;

3.處理丟失或損壞的數(shù)據(jù);

4.可視化數(shù)據(jù);

5.創(chuàng)建適當(dāng)?shù)挠?xùn)練集,驗(yàn)證集和測(cè)試集;

模型:

1.選擇使用哪種模型;

2.將模型資源需求納入約束(例如,完成的模型是否需要在邊緣設(shè)備上運(yùn)行,在低內(nèi)存或高延遲環(huán)境中運(yùn)行等);

3.選擇超參數(shù)(例如,在深度學(xué)習(xí)的情況下,這包括選擇架構(gòu)、損失函數(shù)和優(yōu)化器);

4.訓(xùn)練模型(并調(diào)試為什么訓(xùn)練不成功),這可能涉及:

4.1調(diào)整超參數(shù)(例如學(xué)習(xí)率);

4.2輸出中間結(jié)果,以查看損失,訓(xùn)練誤差和驗(yàn)證誤差如何隨時(shí)間變化;

4.3檢查模型錯(cuò)誤的數(shù)據(jù)以查找模式;

4.4識(shí)別數(shù)據(jù)潛在的錯(cuò)誤或問(wèn)題;

4.5思考你需要改變清理和預(yù)處理數(shù)據(jù)的方式;

4.6意識(shí)到你需要更多或不同的數(shù)據(jù)增強(qiáng);

4.7意識(shí)到你需要更多或不同的數(shù)據(jù);

4.8嘗試不同的模型;

4.9確定你的數(shù)據(jù)是否欠擬合或過(guò)擬合;

產(chǎn)品化:

1.使用你的模型作為端點(diǎn)創(chuàng)建API或Web應(yīng)用程序以實(shí)現(xiàn)產(chǎn)品化;

2.將模型導(dǎo)出為所需的格式;

3.計(jì)劃你的模型需要使用更新的數(shù)據(jù)進(jìn)行重新訓(xùn)練的頻率;

監(jiān)控:

1.跟蹤模型隨時(shí)間的變化;

2.監(jiān)控輸入數(shù)據(jù),以確定它是否隨著時(shí)間的推移而變化,從而使模型無(wú)效;

3.將你的結(jié)果傳達(dá)給組織的其他成員;

4.制定監(jiān)督和應(yīng)對(duì)錯(cuò)誤或意外后果的計(jì)劃。

當(dāng)然,不是每個(gè)機(jī)器學(xué)習(xí)從業(yè)者都需要完成上述所有步驟,但此過(guò)程的組件將成為許多機(jī)器學(xué)習(xí)應(yīng)用程序的一部分。即使你只是處理這些步驟的一部分,熟悉其余過(guò)程也有助于確保你不會(huì)忽視會(huì)妨礙項(xiàng)目成功的注意事項(xiàng)!

機(jī)器學(xué)習(xí)中最難的兩個(gè)部分

對(duì)于我和我認(rèn)識(shí)的許多其他人,我要強(qiáng)調(diào)機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí))中最耗時(shí)和最令人沮喪的兩個(gè)方面:

1.處理數(shù)據(jù)格式化,不一致和錯(cuò)誤通常是一個(gè)混亂和繁瑣的過(guò)程。

2.訓(xùn)練深度學(xué)習(xí)模型是一個(gè)眾所周知的脆弱過(guò)程。

清理數(shù)據(jù)真的是ML的一部分嗎?是。

處理數(shù)據(jù)格式化,不一致和錯(cuò)誤通常是一個(gè)混亂和繁瑣的過(guò)程。人們有時(shí)會(huì)將機(jī)器學(xué)習(xí)描述為從數(shù)據(jù)科學(xué)分離的過(guò)程,就像機(jī)器學(xué)習(xí)一樣,你可以從完美地清理數(shù)據(jù),格式化數(shù)據(jù)集開(kāi)始。但是,根據(jù)我的經(jīng)驗(yàn),清理數(shù)據(jù)集和訓(xùn)練模型的過(guò)程通常是交織在一起的:我經(jīng)常在模型訓(xùn)練中發(fā)現(xiàn)導(dǎo)致我返回并改變輸入數(shù)據(jù)的預(yù)處理的問(wèn)題。

 

 

有必要去處理雜亂和不一致的數(shù)據(jù)

訓(xùn)練深度學(xué)習(xí)模型是脆弱且困難的

訓(xùn)練模型的困難嚇退了許多常常感到沮喪的初學(xué)者。甚至專家經(jīng)常抱怨模型訓(xùn)練過(guò)程有多么令人沮喪和變幻無(wú)常。斯坦福大學(xué)的一位人工智能研究員告訴我,他教過(guò)深度學(xué)習(xí)課程,并讓所有學(xué)生都做自己的項(xiàng)目,真是太難了!學(xué)生們無(wú)法讓他們的模型進(jìn)行訓(xùn)練,我們通常都會(huì)說(shuō):“好,這是深度學(xué)習(xí)”。擁有十多年經(jīng)驗(yàn)并獲得NIPS 2017年度時(shí)間獎(jiǎng)的人工智能研究員Ali Rahimi在他的NIPS獎(jiǎng)?lì)C獎(jiǎng)演講中抱怨模型訓(xùn)練的脆弱性。有人向AI研究人員詢問(wèn):你們當(dāng)中有多少人已經(jīng)從零開(kāi)始設(shè)計(jì)了一個(gè)深層網(wǎng)絡(luò),從設(shè)計(jì)開(kāi)始,架構(gòu)以及其他流程來(lái)構(gòu)建它,當(dāng)它無(wú)效時(shí),你感到糟糕透了?許多人舉了手。對(duì)于我來(lái)說(shuō),大概每3個(gè)月發(fā)生一次。甚至AI專家有時(shí)也難以訓(xùn)練新模型,這一事實(shí)意味著該過(guò)程至今不能將其納入通用產(chǎn)品的方式實(shí)現(xiàn)自動(dòng)化。一些深度學(xué)習(xí)的最大進(jìn)步將通過(guò)發(fā)現(xiàn)更強(qiáng)大的訓(xùn)練方法來(lái)實(shí)現(xiàn)。我們已經(jīng)看到了一些像dropout(dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,對(duì)于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄)、超融合和遷移學(xué)習(xí)這樣的進(jìn)步,所有這些都使訓(xùn)練變得更容易。通過(guò)遷移學(xué)習(xí)的力量,當(dāng)為足夠狹窄的問(wèn)題域定義時(shí),模型訓(xùn)練可以是一個(gè)健壯的過(guò)程。但是,我們?nèi)匀挥修k法讓訓(xùn)練更加健壯。

對(duì)于學(xué)術(shù)研究人員

即使你正在從事機(jī)器學(xué)習(xí)的理論研究,理解機(jī)器學(xué)習(xí)從業(yè)者在實(shí)際問(wèn)題中所經(jīng)歷的過(guò)程也是有用的,因?yàn)檫@可能會(huì)為你提供關(guān)于最相關(guān)或最具影響力的研究領(lǐng)域的見(jiàn)解。

正如Googler工程師D. Sculley等人寫(xiě)道,技術(shù)債務(wù)是工程師和研究人員都需要注意的問(wèn)題。為了提供微小精度優(yōu)勢(shì)而以大幅提高系統(tǒng)復(fù)雜性為代價(jià)的研究解決方案很少是明智的做法......降低技術(shù)債務(wù)并不總是像證明新定理那樣令人興奮,但它是持續(xù)強(qiáng)勁創(chuàng)新的關(guān)鍵部分。為復(fù)雜的機(jī)器學(xué)習(xí)系統(tǒng)開(kāi)發(fā)全面,優(yōu)雅的解決方案是非常有益的工作。

AutoML

現(xiàn)在我們已經(jīng)概述了機(jī)器學(xué)習(xí)從業(yè)者在其工作中所做的一些任務(wù),我們已經(jīng)準(zhǔn)備好評(píng)估自動(dòng)完成這項(xiàng)工作的嘗試。顧名思義,AutoML是一個(gè)專注于自動(dòng)化機(jī)器學(xué)習(xí)的領(lǐng)域,作為AutoML的子領(lǐng)域的神經(jīng)架構(gòu)搜索,目前正受到大量關(guān)注。

標(biāo)簽: Google 代碼 媒體 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:半年盤(pán)點(diǎn):2018年10家大數(shù)據(jù)初創(chuàng)公司

下一篇:谷歌建跨大西洋海底電纜6400多公里,自家專用