中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)即將迎來(lái)“無(wú)代碼”時(shí)代

2018-10-23    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

我們正在進(jìn)入數(shù)據(jù)科學(xué)實(shí)踐的新階段,即“無(wú)代碼”時(shí)代。 像所有重大的變化一樣,這個(gè)變化還沒(méi)有在實(shí)踐中清晰地體現(xiàn),但這個(gè)變化影響深遠(yuǎn),發(fā)展趨勢(shì)非常明顯。

現(xiàn)在,每一周都會(huì)有一些自動(dòng)代碼行業(yè)的最新進(jìn)展。創(chuàng)業(yè)公司的集成產(chǎn)品是有一些進(jìn)展的,不過(guò)更多見(jiàn)的是基于現(xiàn)有分析平臺(tái)供應(yīng)商新添加的功能或模塊。

自從自動(dòng)化機(jī)器學(xué)習(xí)(AML)平臺(tái)出現(xiàn)以來(lái),我一直在關(guān)注它們的成長(zhǎng)。

我在2016年春天,撰寫了一篇關(guān)于它們的文章,題目是“數(shù)據(jù)科學(xué)家將被自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)取代并在2025年失業(yè)!”。

當(dāng)然,我的預(yù)測(cè)不是絕對(duì)準(zhǔn)確的,但在過(guò)去的兩年半里,自動(dòng)化功能在我們機(jī)器學(xué)習(xí)行業(yè)中的發(fā)展確實(shí)非常引人注目。

不需要人工寫代碼的數(shù)據(jù)科學(xué)

 

 

無(wú)代碼數(shù)據(jù)科學(xué)(即不需要人工寫代碼的數(shù)據(jù)科學(xué)),或自動(dòng)機(jī)器學(xué)習(xí),或者可以稱為簡(jiǎn)單易用的 “增強(qiáng)型”數(shù)據(jù)科學(xué)產(chǎn)品,范圍包括:

附帶指導(dǎo)的平臺(tái):具有高度指導(dǎo)功能的建模程序平臺(tái)(當(dāng)然還是需要用戶完成一定步驟,這樣的平臺(tái)有BigML,SAS,Alteryx)。經(jīng)典的簡(jiǎn)易操作平臺(tái)(drag-and-drop )是這一代的基礎(chǔ)。

自動(dòng)機(jī)器學(xué)習(xí)(AML):全自動(dòng)機(jī)器學(xué)習(xí)平臺(tái)(例如DataRobot)。

會(huì)話分析:在最新版本中,用戶只要提出可以通過(guò)常用英語(yǔ)解決的問(wèn)題,平臺(tái)就會(huì)提供最佳答案,選擇數(shù)據(jù),特征,建模技術(shù),甚至可能是最佳數(shù)據(jù)可視化。

不僅僅為了先進(jìn)的分析

 

 

我們工具的智能擴(kuò)展從預(yù)測(cè)和規(guī)范建模,已經(jīng)擴(kuò)展到了數(shù)據(jù)混合和數(shù)據(jù)準(zhǔn)備領(lǐng)域,甚至擴(kuò)展到數(shù)據(jù)視覺(jué)設(shè)計(jì)的領(lǐng)域。這意味著無(wú)代碼智能功能可提供傳統(tǒng)商學(xué)院的商業(yè)智能分析師(BI business analysts)使用,當(dāng)然也可以為公民數(shù)據(jù)學(xué)者(又名Citizen Data Scientists)提供支持。

這種演變的市場(chǎng)驅(qū)動(dòng)因素眾所周知。在高級(jí)分析和人工智能中,核心的困難在于精英數(shù)據(jù)科學(xué)家的短缺,以及其高昂的成本和迫切的需求。在這個(gè)領(lǐng)域,最需要的是洞察力,效率和一致性。簡(jiǎn)而言之,就是效率高,速度快。

然而,上述工具在數(shù)據(jù)準(zhǔn)備,混合,特征識(shí)別領(lǐng)域,對(duì)數(shù)據(jù)科學(xué)家來(lái)說(shuō)也很重要,但是這些工具真正吸引的是有著更多數(shù)據(jù)分析師/ BI從業(yè)者的世界。在這個(gè)世界中,經(jīng)典靜態(tài)數(shù)據(jù)的ETL仍然是一個(gè)巨大的負(fù)擔(dān)和時(shí)間的延遲,它正在從IT專家的功能迅速轉(zhuǎn)向自助服務(wù)。

簡(jiǎn)易平臺(tái)->寫代碼->回到簡(jiǎn)易平臺(tái)

我在2001年開(kāi)始從事數(shù)據(jù)科學(xué)研究時(shí),SAS和SPSS是主要的工具,并且已經(jīng)從他們的專有代碼轉(zhuǎn)向簡(jiǎn)易操作平臺(tái),這便是機(jī)器學(xué)習(xí)自動(dòng)化的最早形式。

在這之后的7~8年,學(xué)術(shù)界轉(zhuǎn)向R語(yǔ)言教學(xué),因?yàn)殡m然SAS和SPSS向?qū)W生免費(fèi)開(kāi)放,但是他們?nèi)匀幌蚪處熓召M(fèi)(盡管給學(xué)術(shù)界的折扣很大)。但是,R一直是免費(fèi)的。

然后我們就到了這樣一個(gè)時(shí)代,一直持續(xù)到今天。在這個(gè)時(shí)代里,成為數(shù)據(jù)科學(xué)家意味著成為程序員。用代碼作業(yè),這就是當(dāng)前這一代數(shù)據(jù)科學(xué)家受到教育的方式,也是他們?cè)跀?shù)據(jù)科學(xué)實(shí)踐的方式。

人們有著一個(gè)并不正確的誤解:在簡(jiǎn)易操作系統(tǒng)平臺(tái)中,不允許微小超參數(shù)的調(diào)試,而這應(yīng)該被允許。如果你曾經(jīng)使用過(guò)SAS Enterprise Miner或其競(jìng)爭(zhēng)對(duì)手的平臺(tái)上,那么您知道這個(gè)想法并不對(duì),事實(shí)上,微調(diào)非常容易做到。

在我的腦海里,總需要寫代碼是一個(gè)不必要的彎路—這往往會(huì)讓新的數(shù)據(jù)科學(xué)實(shí)踐者忽視基礎(chǔ)知識(shí),而致力于學(xué)習(xí)另一種編程語(yǔ)言。

模型質(zhì)量怎么樣

 

 

我們傾向于將“提高模型的準(zhǔn)確性”視為高級(jí)分析是否成功的標(biāo)準(zhǔn)。有一種觀念認(rèn)為,依靠自動(dòng)化的無(wú)代碼解決方案會(huì)丟失部分準(zhǔn)確性。事實(shí)并非如此。

像DataRobot,Tazi.ai和OneClick.ai這樣的AutoML平臺(tái)不僅支持并行運(yùn)行數(shù)百種模型類型,還包括超參數(shù),而且它們還可以執(zhí)行變換,特征選擇甚至進(jìn)行一些特征工程。在準(zhǔn)確度上擊敗這樣的平臺(tái)是很困難的。

需要注意的是,應(yīng)用特征工程領(lǐng)域的專業(yè)知識(shí)仍然是人類的優(yōu)勢(shì)。

也許更重要的是,你在開(kāi)發(fā)上花費(fèi)幾周時(shí)間得到的結(jié)果和這些AutoML平臺(tái)提供的幾天甚至幾小時(shí)的結(jié)果相似,那到底哪個(gè)更值?

無(wú)代碼化帶來(lái)更深遠(yuǎn)的影響

 

 

在我看來(lái),無(wú)代碼化的最大受益者實(shí)際上是傳統(tǒng)數(shù)據(jù)分析師和數(shù)據(jù)學(xué)者,他們?nèi)匀蛔铌P(guān)注BI靜態(tài)數(shù)據(jù)。獨(dú)立的數(shù)據(jù)混合和準(zhǔn)備平臺(tái),對(duì)這個(gè)群體(以及工作量將大大減輕的IT工作者)來(lái)說(shuō),是一個(gè)巨大的好處。

這些無(wú)代碼化數(shù)據(jù)準(zhǔn)備平臺(tái),例如ClearStory Data,Paxata和Trifacta正在迅速將機(jī)器學(xué)習(xí)功能納入它們的流程,幫助用戶選擇合適的數(shù)據(jù)源進(jìn)行數(shù)據(jù)混合,判斷哪些數(shù)據(jù)項(xiàng)有價(jià)值,甚至它們的功能擴(kuò)展到了特征工程和特征選擇。

現(xiàn)代數(shù)據(jù)平臺(tái)正在使用嵌入式機(jī)器學(xué)習(xí)技術(shù),作為智能數(shù)據(jù)自動(dòng)清洗或異常值處理的典范。

其他公司,例如Octopai公司,剛剛被Gartner評(píng)為“5大酷炫公司”之一,專注于讓用戶通過(guò)自動(dòng)化技術(shù)快速查找可信數(shù)據(jù),使用機(jī)器學(xué)習(xí)和模式分析來(lái)確定不同的數(shù)據(jù)要素,創(chuàng)建的背景數(shù)據(jù),以及數(shù)據(jù)的預(yù)使用和轉(zhuǎn)換之間的關(guān)系。

這些平臺(tái)還通過(guò)強(qiáng)制執(zhí)行權(quán)限以及保護(hù)PID和其他類似敏感數(shù)據(jù)來(lái)實(shí)現(xiàn)數(shù)據(jù)安全的自助服務(wù)。

甚至數(shù)據(jù)可視化技術(shù)的領(lǐng)導(dǎo)者Tableau也正在使用自然語(yǔ)言處理(NLP)和其他機(jī)器學(xué)習(xí)(ML)工具推出會(huì)話分析功能,允許用戶以簡(jiǎn)單的英語(yǔ)提出查詢要求,并收到最優(yōu)可視化效果。

這對(duì)數(shù)據(jù)科學(xué)家而言究竟意味著什么

Gartner認(rèn)為,在兩年內(nèi),即到2020年前,公民數(shù)據(jù)學(xué)者(即citizen data scientist)所完成的高級(jí)分析將在數(shù)量上和價(jià)值上超越數(shù)據(jù)科學(xué)家。他們建議數(shù)據(jù)科學(xué)家專注于專業(yè)問(wèn)題,并將企業(yè)級(jí)模型嵌入到應(yīng)用程序中。

我不同意此想法,這似乎會(huì)使數(shù)據(jù)科學(xué)家降級(jí)去做QA和產(chǎn)品實(shí)施(Implementation)的工作。這不是我們的本職工作。

我的看法是,由于較小的數(shù)據(jù)科學(xué)家團(tuán)隊(duì)能夠處理越來(lái)越多的項(xiàng)目,這將迅速將高級(jí)分析的使用范圍擴(kuò)大到更深入的項(xiàng)目組織層次。

在一兩年之間的我們的技術(shù)已經(jīng)整合了數(shù)據(jù)科學(xué)家必備的數(shù)據(jù)混合以及數(shù)據(jù)清洗功能,以及選擇最適合某個(gè)項(xiàng)目的預(yù)測(cè)算法的能力。這正是自動(dòng)無(wú)代碼化數(shù)據(jù)科學(xué)工具正在取代的領(lǐng)域。

需要?jiǎng)?chuàng)建,監(jiān)控和管理成百上千個(gè)模型的公司是這種技術(shù)最早的采用者,特別是保險(xiǎn)和金融服務(wù)行業(yè)。

那還剩下了什么?剩下了分析優(yōu)化師的高級(jí)角色。麥肯錫最近認(rèn)為這是任何數(shù)據(jù)科學(xué)項(xiàng)目中最重要的角色。簡(jiǎn)而言之,分析優(yōu)化師的工作如下:

1、引導(dǎo)并識(shí)別在公司業(yè)務(wù)中,在哪里數(shù)據(jù)分析可以發(fā)揮作用。

2、優(yōu)化分析的流程排序。

3、在項(xiàng)目中,能夠勝任項(xiàng)目經(jīng)理。

4、積極采用有效優(yōu)化成本效益解決方案。

換句話說(shuō),將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)科學(xué)項(xiàng)目,并引導(dǎo)優(yōu)化各種類型的風(fēng)險(xiǎn)和成果,使這些項(xiàng)目?jī)?yōu)先化。

那所謂的人工智能呢?

是的,我們最近在圖像,文本和語(yǔ)音處理中使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的最新進(jìn)展中,也正在促進(jìn)迅速推廣自動(dòng)化無(wú)代碼化的解決方案。它們發(fā)展的速度還不夠快,是因?yàn)槿鄙倬哂猩疃葘W(xué)習(xí)技能的數(shù)據(jù)科學(xué)家,這個(gè)問(wèn)題比普通的數(shù)據(jù)科學(xué)行業(yè)還要嚴(yán)重。

微軟和谷歌都在去年推出了自動(dòng)深度學(xué)習(xí)平臺(tái)。這些平臺(tái)從遷移學(xué)習(xí)起步,正朝向完整的AutoDL平臺(tái)進(jìn)發(fā)。詳細(xì)請(qǐng)參閱微軟 Custom Vision Services和Google的類似條目Cloud AutoML。

還有一些研究集成AutoDL平臺(tái)的初創(chuàng)公司。我們今年早些時(shí)候關(guān)注了OneClick.AI。它們包括了完整的AutoML和AutoDL平臺(tái)。 Gartner最近提名DimensionalMechanics稱其擁有AutoDL平臺(tái)的“5大炫酷公司”之一。

曾經(jīng)有一段時(shí)間,我試圖持續(xù)更新和整合無(wú)代碼化AutoML和AutoDL的供應(yīng)商列表,并提供有關(guān)其功能的更新。但因?yàn)樵撔袠I(yè)的快速發(fā)展,使得這個(gè)整合的工作量急速上升。

我希望Gartner或其他一些團(tuán)隊(duì)能夠繼續(xù)全面的對(duì)這個(gè)領(lǐng)域進(jìn)行關(guān)注。在2017年,Gartner做了一個(gè)相當(dāng)詳細(xì)的報(bào)告,名為“未來(lái)數(shù)據(jù)和分析的深度分析技術(shù)”。這是一個(gè)非常棒的供應(yīng)商總結(jié)報(bào)告,雖然有一些我留意的供應(yīng)商并沒(méi)有被囊括其中。

報(bào)告鏈接:https://www.gartner.com/doc/3773164/augmented-analytics-future-data-analytics

據(jù)我所知,當(dāng)前沒(méi)有全面整合所有完全自動(dòng)化或基本全自動(dòng)化功能平臺(tái)供應(yīng)商的統(tǒng)計(jì)表格。然而,Gartner的報(bào)告中,你可以看到,從IBM和SAS這些大企業(yè),到小型的初創(chuàng)公司都在提供類似服務(wù)。

關(guān)于作者:Bill Vorhies是Data Science Central的編輯總監(jiān),自2001年以來(lái)一直從事數(shù)據(jù)科學(xué)工作。

相關(guān)報(bào)道:https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science?from=singlemessage&isappinstalled=0

標(biāo)簽: Google 安全 代碼 谷歌 金融 權(quán)限 數(shù)據(jù)分析 推廣 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:機(jī)器學(xué)習(xí)+ICU:為重癥患者提供實(shí)時(shí)護(hù)理

下一篇:中國(guó)電信啟動(dòng)2018年11888卡集采項(xiàng)目:規(guī)模約為6