中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機器學(xué)習(xí)平臺和數(shù)據(jù)科學(xué)平臺究竟是什么?

2019-12-23    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Ron Schmelzer 譯者:核子可樂 來源:InfoQ

過去幾年,各大科技廠商開放了各種各樣的“平臺”,比如大數(shù)據(jù)平臺、機器學(xué)習(xí)平臺等,用于滿足數(shù)據(jù)科學(xué)與機器學(xué)習(xí)需求,這些平臺爭相奪取數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)項目經(jīng)理以及其他 AI 項目管理與規(guī)劃者的關(guān)注以及錢包。本文作者 Ron Schmelzer 是 AI 研究咨詢公司 Cognilytica 的執(zhí)行合伙人兼首席分析師,在他看來,很多機器學(xué)習(xí)平臺并不符合規(guī)范,卻可以不斷占據(jù)市場份額。那么,機器學(xué)習(xí)平臺應(yīng)該具備哪些條件?存在合格的機器學(xué)習(xí)平臺嗎?
 

這些平臺究竟是什么?

對于各大科技公司努力做機器學(xué)習(xí)平臺的行為,我很能理解,畢竟作為主要的技術(shù)供應(yīng)商,如果沒在 AI 領(lǐng)域弄出點動靜,可能很快就被市場遺忘了。但是,這些平臺究竟是什么?為什么會出現(xiàn)這么激烈的市場競爭狀態(tài)?

要回答這個問題,關(guān)鍵在于意識到機器學(xué)習(xí)和數(shù)據(jù)科學(xué)項目,同以往典型應(yīng)用程序或硬件開發(fā)項目之間的區(qū)別。過去,硬件與軟件開發(fā)工作的重點在于系統(tǒng)或者應(yīng)用程序功能。相反,數(shù)據(jù)科學(xué)與機器學(xué)習(xí)項目更強調(diào)數(shù)據(jù)管理,持續(xù)不斷地從數(shù)據(jù)中學(xué)習(xí)知識,并對數(shù)據(jù)模型進行迭代演進。從以數(shù)據(jù)為中心的角度來看,傳統(tǒng)的開發(fā)流程與平臺在這類新場景中根本無法正常起效。所以,我們需要新的平臺。

數(shù)據(jù)科學(xué)平臺是什么?

數(shù)據(jù)科學(xué)家們的任務(wù)是從海量數(shù)據(jù)中整理出有用信息,并將業(yè)務(wù)與運營信息轉(zhuǎn)化為數(shù)據(jù)與數(shù)學(xué)語言。數(shù)據(jù)科學(xué)家需要掌握統(tǒng)計學(xué)、概率、數(shù)學(xué)以及算法相關(guān)知識,借此從大量信息中收集有用的洞察見解。數(shù)據(jù)科學(xué)家還負責(zé)創(chuàng)建數(shù)據(jù)假設(shè)、運行數(shù)據(jù)測試與分析,而后將結(jié)果轉(zhuǎn)換為組織內(nèi)能夠輕松查看與理解的形式。

因此,一套純數(shù)據(jù)科學(xué)平臺應(yīng)當(dāng)滿足以下要求:協(xié)助構(gòu)建數(shù)據(jù)模型、確定最適合當(dāng)前信息的假設(shè)、測試假設(shè)、促進數(shù)據(jù)科學(xué)家團隊之間的協(xié)作,并隨信息的不斷變化推動數(shù)據(jù)模型的管理與開發(fā)。

此外,數(shù)據(jù)科學(xué)家的工作重點并不在以代碼為中心的集成開發(fā)環(huán)境(IDE)中。相反,Notebook 才是他們的天地。Notebook 概念最初由 Mathematica 及 Matlab 等以數(shù)學(xué)為中心的學(xué)術(shù)型平臺提出,目前在 Python、R 以及 SAS 社區(qū)當(dāng)中非常流行。所謂 Notebook,其本質(zhì)在于記錄數(shù)據(jù)研究結(jié)果,并允許用戶面向不同源數(shù)據(jù)加以運行,從而簡化結(jié)果的可重復(fù)性。良好的 Notebook 應(yīng)充當(dāng)一種共享式協(xié)作環(huán)境,數(shù)據(jù)科學(xué)家小組可以在這里協(xié)同工作,并利用不斷發(fā)展的數(shù)據(jù)集進行模型迭代。盡管,Notebook 不能算是代碼開發(fā)的理想環(huán)境,但卻能夠為數(shù)據(jù)的協(xié)作、探索以及可視化提供強有力的支持。事實上,如果擁有足夠的訪問權(quán)限對接清潔數(shù)據(jù),那么數(shù)據(jù)科學(xué)家們將毫不猶豫地利用 Notebooke 快速瀏覽大型數(shù)據(jù)集。

但是,如果無法訪問大量清潔數(shù)據(jù),數(shù)據(jù)科學(xué)家的工作則會陷入困境。很明顯,數(shù)據(jù)的提取、清理與移動并不是數(shù)據(jù)科學(xué)家的職責(zé)所在,這些工作應(yīng)該由數(shù)據(jù)工程師負責(zé)完成。數(shù)據(jù)工程師面對的主要挑戰(zhàn)就是從各類系統(tǒng)中提取結(jié)構(gòu)化與非結(jié)構(gòu)化格式的數(shù)據(jù),而且這些數(shù)據(jù)往往并不“清潔”——存在缺少字段、數(shù)據(jù)類型不匹配以及其他與數(shù)據(jù)形式相關(guān)的種種問題。

從這個角度來看,數(shù)據(jù)工程師實際上屬于負責(zé)設(shè)計、構(gòu)建以及安排數(shù)據(jù)的工程人員。優(yōu)秀的數(shù)據(jù)科學(xué)平臺還應(yīng)幫助數(shù)據(jù)科學(xué)家輕松根據(jù)需求的增長動用計算能力。平臺無需將數(shù)據(jù)集復(fù)制至本地計算機上即可開始工作,確保數(shù)據(jù)科學(xué)家始終以最簡單便捷的方式訪問算力與數(shù)據(jù)集。為了實現(xiàn)這一目標(biāo),數(shù)據(jù)科學(xué)平臺當(dāng)然也需要提供必要的數(shù)據(jù)工程功能?偨Y(jié)來講,一套實用的數(shù)據(jù)科學(xué)平臺應(yīng)當(dāng)具備一系列數(shù)據(jù)科學(xué)與數(shù)據(jù)工程功能元素。

機器學(xué)習(xí)平臺是什么?

誰能真正簡化機器學(xué)習(xí)模型的創(chuàng)建、訓(xùn)練與迭代,誰就能在這場競賽中勝出。

事實上,機器學(xué)習(xí)平臺和數(shù)據(jù)科學(xué)平臺之間存在交集,例如都會采用數(shù)據(jù)科學(xué)技術(shù)與機器學(xué)習(xí)算法,并將其應(yīng)用于大型數(shù)據(jù)集以開發(fā)機器學(xué)習(xí)模型。數(shù)據(jù)科學(xué)家每天使用的工具,與關(guān)注機器學(xué)習(xí)的科學(xué)家以及工程師們使用的工具也頗為相似。但是,相似并不代表相同,畢竟機器學(xué)習(xí)科學(xué)家與工程師的實際需求,與常規(guī)數(shù)據(jù)科學(xué)家與工程師還是存在一定差異的。

一般來說,負責(zé)管理機器學(xué)習(xí)項目的人員不僅需要管理 Notebook 與生態(tài)系統(tǒng),打理與其他 Notebook 的協(xié)作工作,同時還需要統(tǒng)籌各類機器學(xué)習(xí)專用算法、庫以及基礎(chǔ)設(shè)施,進而在龐大且不斷發(fā)展的數(shù)據(jù)集之上訓(xùn)練這些算法。理想的機器學(xué)習(xí)平臺能夠幫助機器學(xué)習(xí)工程師、數(shù)據(jù)科學(xué)家以及數(shù)據(jù)工程師了解哪種機器學(xué)習(xí)方法最為有效,如何調(diào)整超參數(shù),在基于自有或云端的 CPU、GPU 或 TPU 集群上部署計算密集型機器學(xué)習(xí)訓(xùn)練,并提供用于管理與監(jiān)控有監(jiān)督與無監(jiān)督訓(xùn)練模式所必需的生態(tài)系統(tǒng)。

很明顯,數(shù)據(jù)科學(xué)平臺需要提供一套可協(xié)作、交互式的可視化系統(tǒng),用于機器學(xué)習(xí)模型的開發(fā)與管理,但在機器學(xué)習(xí)平臺方面,這樣的支持遠遠不夠。如上所述,機器學(xué)習(xí)系統(tǒng)正常運作的一大核心挑戰(zhàn)在于超參數(shù)的設(shè)置與調(diào)整。

從概念角度出發(fā),機器學(xué)習(xí)模型需要從數(shù)據(jù)中學(xué)習(xí)各類參數(shù)。換言之,機器學(xué)習(xí)模型實際學(xué)到的就是數(shù)據(jù)參數(shù),并借此將新數(shù)據(jù)擬合至當(dāng)前模型中。超參數(shù)是一種可配置的數(shù)據(jù)值,且無法在機器學(xué)習(xí)模型獲取實際數(shù)據(jù)前預(yù)先設(shè)置。這些超參數(shù)將直接影響到各類因素,例如復(fù)雜性以及學(xué)習(xí)速度等。不同的機器學(xué)習(xí)算法需要不同的超參數(shù)組合,同時應(yīng)當(dāng)注意剔除其中不必要的超參數(shù)部分。在這方面,機器學(xué)習(xí)平臺有助于發(fā)現(xiàn)、設(shè)置并管理超參數(shù),特別是非機器學(xué)習(xí)類數(shù)據(jù)科學(xué)平臺所不具備的算法選擇與比較等功能。

應(yīng)該具備什么特質(zhì)?

歸根結(jié)底,機器學(xué)習(xí)項目經(jīng)理想要的只是能夠提升自身工作效率的工具。 但是,機器學(xué)習(xí)項目復(fù)雜多樣,而且各有不同需求。其中某些項目專注于會話系統(tǒng),有一些強調(diào)識別或者預(yù)測分析功能,也有一些主要面向強化學(xué)習(xí)或者自主系統(tǒng)。

此外,這些模型的部署(或者運營)方式也有所區(qū)別。某些模型在云端或自有服務(wù)器內(nèi),也有一些模型被部署在邊緣設(shè)備中,或者采用脫機批處理模式。數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師以及機器學(xué)習(xí)開發(fā)人員等群體在機器學(xué)習(xí)的應(yīng)用、部署與需求等方面的差異,使得單一機器學(xué)習(xí)平臺的概念幾乎不具備實際可行性,這最終帶來了“十八般武藝,樣樣稀松”的結(jié)果。

因此,目前市面上出現(xiàn)了四種不同平臺:其一專注于數(shù)據(jù)科學(xué)家與模型構(gòu)建者的需求;其二強調(diào)對大數(shù)據(jù)及數(shù)據(jù)工程的管理;其三面向模型“搭建”與模型交互系統(tǒng);其四則用于模型生命周期管理,即“機器學(xué)習(xí)運營”。要想真正踐行機器學(xué)習(xí)平臺做出的承諾,開發(fā)者需要在這四個方面痛下苦功。

 

 

AI 的四種應(yīng)用環(huán)境

誰能真正簡化機器學(xué)習(xí)模型的創(chuàng)建、訓(xùn)練與迭代,誰就能在這場競賽中勝出。 在這類強大解決方案的幫助下,用戶能夠快速輕松地從笨拙的非智能系統(tǒng),跨越至可利用機器學(xué)習(xí)功能,解決以往無法解決的難題。相比之下,那些無法適應(yīng)機器學(xué)習(xí)功能需求的數(shù)據(jù)科學(xué)平臺則將遭遇降級。同樣的,那些天然具備數(shù)據(jù)工程能力的大數(shù)據(jù)平臺也將在市場上成為贏家。 未來的應(yīng)用程序開發(fā)工具亦需要著力將機器學(xué)習(xí)模型視為生命周期中的主要組成部分?偨Y(jié)來講,機器學(xué)習(xí)運營才剛剛出現(xiàn),且必將在未來幾年內(nèi)成為行業(yè)中的又一大事件。

大家在爭些什么?

毫無疑問,不同規(guī)模的各類技術(shù)供應(yīng)商都將重點放在平臺開發(fā)上,畢竟數(shù)據(jù)科學(xué)家與機器學(xué)習(xí)項目經(jīng)理必須依賴這些平臺來開發(fā)、運行、操作以及管理企業(yè)中正在使用的數(shù)據(jù)模型。

對于這些供應(yīng)商而言,未來的機器學(xué)習(xí)平臺如同過去以及當(dāng)下已存在的操作系統(tǒng)、云環(huán)境乃至移動開發(fā)平臺一樣。只要能夠在數(shù)據(jù)科學(xué)和機器學(xué)習(xí)平臺領(lǐng)域占據(jù)市場份額,廠商就能夠在未來幾十年獲得豐厚的回報。

結(jié)果就是,在這場新興斗爭中,每位參與者都希望盡可能攫取更可觀的市場份額。

所以,當(dāng)供應(yīng)商在宣傳中提到他們擁有人工智能或者機器學(xué)習(xí)平臺時,我們不妨多問一句:“是哪一種平臺?”,通過本文,相信大家已經(jīng)意識到這世界上存在著不只一種機器學(xué)習(xí)平臺,而且各自面向不同的實際需求。多一點思考,才能確保我們不會因身陷市場炒作而信錯廠商、選錯產(chǎn)品。

原文鏈接:

https://www.forbes.com/sites/cognitiveworld/2019/12/12/theres-no-such-thing-as-the-machine-learning-platform/#326f9b96a8dd

標(biāo)簽: 機器學(xué)習(xí)平臺 數(shù)據(jù) 蒲教

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:哪種編程語言最適合區(qū)塊鏈?

下一篇:Google,Uber和Facebook為數(shù)據(jù)科學(xué)和AI開發(fā)的開源項目