中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)正在進(jìn)入“無(wú)代碼”的新時(shí)代

2020-03-27    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作者:Bill Vorhies 譯者:劉嘉洋 來(lái)源:InfoQ

我們正在踏入數(shù)據(jù)科學(xué)實(shí)踐的新階段,“無(wú)代碼”時(shí)代。就像其他重大的變化一樣,這個(gè)階段還沒(méi)有非常成熟,但是改變的腳步卻非常清晰。

即使僅僅過(guò)去了一周,也有一些我們不知道的新的自動(dòng)化 / 無(wú)代碼技術(shù)推出。有的是新成立的初創(chuàng)公司帶來(lái)的整合產(chǎn)品。但更多的是現(xiàn)有的分析平臺(tái)提供商增加的新功能或模塊。

從這些自動(dòng)化機(jī)器學(xué)習(xí)(AML)平臺(tái)出現(xiàn)以來(lái),我就一直在關(guān)注它們。在 2016 年春天,我第一次寫文章討論這些平臺(tái),標(biāo)題為“到 2025 年,自動(dòng)化技術(shù)會(huì)讓數(shù)據(jù)科學(xué)家失業(yè)!”。

當(dāng)然,這絕對(duì)不是我夸大其詞,在過(guò)去的兩年半內(nèi),自動(dòng)化功能在我們行業(yè)中的傳播速度是驚人的。

 

 

無(wú)代碼數(shù)據(jù)科學(xué)

無(wú)代碼數(shù)據(jù)科學(xué),或者叫自動(dòng)化機(jī)器學(xué)習(xí),或者像 Gartner 所述的那樣,“增強(qiáng)版”數(shù)據(jù)科學(xué)提供了一些便捷的工具。包括:

向?qū)脚_(tái):提供詳細(xì)建模步驟的平臺(tái)(但仍然需要用戶來(lái)做這些步驟,比如說(shuō) BigML、SAS、Alteryx)。該平臺(tái)是基于經(jīng)典的拖放平臺(tái)理念而設(shè)計(jì)的。

自動(dòng)化機(jī)器學(xué)習(xí)(AML):全自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)(比如 DataRobot)。

會(huì)話分析:在最近的版本中,用戶只需要用普通英語(yǔ)提出需要解決的問(wèn)題,平臺(tái)就會(huì)給出最佳答案,選擇數(shù)據(jù)、功能、建模技術(shù)甚至最佳數(shù)據(jù)可視化。

這個(gè)列表還很好地闡述了發(fā)展時(shí)間表。向?qū)脚_(tái)已經(jīng)過(guò)時(shí)了。AML 平臺(tái)越來(lái)越多,越來(lái)越成熟。會(huì)話分析剛剛起步。

不僅僅是為了深入分析

工具的智能發(fā)展不限于預(yù)測(cè) / 規(guī)范建模,而是擴(kuò)展到數(shù)據(jù)混合和準(zhǔn)備階段,甚至是數(shù)據(jù)可視化領(lǐng)域。這意味著,傳統(tǒng)的 BI 業(yè)務(wù)分析師,當(dāng)然還有用戶業(yè)務(wù)線經(jīng)理(也稱為公民數(shù)據(jù)科學(xué)家)都可以使用無(wú)代碼智能功能。

這種發(fā)展的市場(chǎng)驅(qū)動(dòng)是眾所周知的。在深入分析和 AI 領(lǐng)域,這和短缺、成本和獲得熟練的數(shù)據(jù)科學(xué)家有關(guān)。在這個(gè)領(lǐng)域,這和時(shí)間洞察力、效率和一致性有關(guān)。簡(jiǎn)而言之,就是用更少的資源、更快的速度完成更多的事情。

然而,在數(shù)據(jù)準(zhǔn)備、混合、特征識(shí)別領(lǐng)域(這對(duì)數(shù)據(jù)科學(xué)家也很重要),真正吸引人的是大許多的數(shù)據(jù)分析師 / BI 從業(yè)者領(lǐng)域。在這個(gè)領(lǐng)域,傳統(tǒng)靜態(tài)數(shù)據(jù)的 ETL 仍然是一個(gè)巨大的負(fù)擔(dān),延誤了從 IT 專家功能到自助服務(wù)的快速轉(zhuǎn)換。

老樹(shù)發(fā)新芽

在我 2001 年開(kāi)始進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域的時(shí)候,SAS 和 SPSS 還占據(jù)著主導(dǎo)地位,它們已經(jīng)從專有代碼轉(zhuǎn)型為拖放平臺(tái)模式,這是最早的自動(dòng)化模式。

七八年后,學(xué)術(shù)研究領(lǐng)域更傾向于教學(xué)生 R 語(yǔ)言,可能是出于經(jīng)濟(jì)考慮,盡管 SAS 和 SPSS 可以讓學(xué)生免費(fèi)使用,但它們還是會(huì)向?qū)熓召M(fèi),雖然提供巨大的學(xué)術(shù)研究折扣,而 R 語(yǔ)言卻是免費(fèi)的。

然后我們又回到了之前的時(shí)代,直至今天,數(shù)據(jù)科學(xué)家還是需要寫代碼。這就是現(xiàn)在的數(shù)據(jù)科學(xué)家所接受的教育,好不意外,他們就是這樣做的。

有人認(rèn)為,拖放系統(tǒng)無(wú)法提供代碼可以提供的細(xì)粒度超參優(yōu)化,這個(gè)認(rèn)識(shí)是錯(cuò)誤的。如果你使用過(guò) SAS Enterprise Miner 或其競(jìng)爭(zhēng)產(chǎn)品,那你知道這是錯(cuò)誤的觀點(diǎn),事實(shí)上要進(jìn)行調(diào)整是更容易的。

在我看來(lái),回到過(guò)去只編寫代碼的時(shí)代是非常糟糕的,這可能導(dǎo)致新的從業(yè)者忽視基礎(chǔ)內(nèi)容,而僅僅掌握了另外一門編程語(yǔ)言。因此我非常歡迎并期待無(wú)代碼在從業(yè)者之間的快速推進(jìn)。

模型質(zhì)量如何

 

 

我們通常會(huì)把模型準(zhǔn)確度的提升視為深入分析的“勝利”。有人會(huì)認(rèn)為,使用自動(dòng)化無(wú)代碼解決方案就會(huì)降低其中的準(zhǔn)確度,這是不正確的。

AutoML 平臺(tái),比如 DataRobot、 Tazi.ai 和 OneClick.ai ,以及其他很多平臺(tái)不僅能夠并行地運(yùn)行數(shù)百種包括超參變體的模型,而且它們還執(zhí)行轉(zhuǎn)換、特征選擇,甚至一些特征工程。所以你不可能在單純的準(zhǔn)確度上擊敗這些平臺(tái)。

需要注意,特征工程的領(lǐng)域知識(shí)仍然是我們?nèi)祟惖膬?yōu)勢(shì)。

可能更重要的是,當(dāng)我們討論第二或者是第三個(gè)數(shù)據(jù)點(diǎn)的準(zhǔn)確度變化的時(shí)候,和 AutoML 平臺(tái)僅僅幾天甚至幾小時(shí)的工作相比,你耗費(fèi)的幾周開(kāi)發(fā)時(shí)間真的值得嗎?

無(wú)代碼更廣泛的影響

我認(rèn)為無(wú)代碼最大的受益者其實(shí)是傳統(tǒng)的數(shù)據(jù)分析師和 LOB 經(jīng)理,他們最關(guān)注 BI 靜態(tài)數(shù)據(jù)。單獨(dú)的數(shù)據(jù)混合和準(zhǔn)備平臺(tái)對(duì)他們來(lái)說(shuō)非常有幫助(對(duì)于 IT 人員來(lái)說(shuō),工作量也減輕許多)。

這些無(wú)代碼準(zhǔn)備平臺(tái),比如 ClearStory Data、Paxata 和 Trifacta,正在迅速地整合 ML 功能到它們的過(guò)程中,幫助用戶選擇適合混合的數(shù)據(jù)源,了解這些數(shù)據(jù)項(xiàng)的真正含義(在沒(méi)有很好的數(shù)據(jù)字典查詢功能情況下,了解更多信息,獲得更需要的數(shù)據(jù)資源),甚至擴(kuò)展到了特征工程和特征選擇的領(lǐng)域。

現(xiàn)代化的數(shù)據(jù)準(zhǔn)備平臺(tái)使用嵌入式 ML,比如說(shuō)智能自動(dòng)清理或處理異常值。

剛被 Gartner 評(píng)選為“最酷的 5 家公司”之一的 Octopai,通過(guò)使用機(jī)器學(xué)習(xí)和模式分析確定不同數(shù)據(jù)元素的關(guān)系,創(chuàng)造數(shù)據(jù)的上下文環(huán)境以及數(shù)據(jù)的早先使用和轉(zhuǎn)換,幫助用戶自動(dòng)快速地找到可信賴的數(shù)據(jù)。

這些平臺(tái)還通過(guò)設(shè)置權(quán)限并保護(hù) PID 和其他類似的敏感數(shù)據(jù)來(lái)實(shí)現(xiàn)安全的自助服務(wù)。

甚至數(shù)據(jù)可視化領(lǐng)先者 Tableau 也在使用 NLP 和其他 ML 工具開(kāi)發(fā)會(huì)話分析功能,幫助用戶使用英語(yǔ)提出問(wèn)題,并返回最佳可視化結(jié)果。

這對(duì)數(shù)據(jù)科學(xué)家來(lái)說(shuō)到底意味著什么

Gartner 相信,兩年之內(nèi),到 2020 年,公民數(shù)據(jù)科學(xué)家將在數(shù)量和產(chǎn)生的深入分析價(jià)值上壓倒數(shù)據(jù)科學(xué)家。他們預(yù)測(cè),數(shù)據(jù)科學(xué)家會(huì)將重心轉(zhuǎn)移到專門的問(wèn)題上,并將企業(yè)級(jí)模型嵌入到應(yīng)用程序中。

我不同意。這似乎把數(shù)據(jù)科學(xué)家歸類到 QA 或者是實(shí)施人員中。這不是我們的使命。

我認(rèn)為,由于小部分?jǐn)?shù)據(jù)科學(xué)家可以處理更多的項(xiàng)目,這將幫助深入分析越來(lái)越多、越來(lái)越快地滲透到組織中去。

僅僅一兩年時(shí)間,數(shù)據(jù)科學(xué)家最重要的技能就已經(jīng)展現(xiàn)了出來(lái),這包括混合和清理數(shù)據(jù),給任務(wù)選擇恰當(dāng)?shù)念A(yù)測(cè)算法。這正是增強(qiáng)版 / 自動(dòng)化無(wú)代碼工具需要負(fù)責(zé)的領(lǐng)域。

需要?jiǎng)?chuàng)造、監(jiān)視并管理成百上千個(gè)模型的公司是無(wú)代碼最早的一批使用者,特別是在保險(xiǎn)和金融服務(wù)領(lǐng)域。

還剩下什么?還有分析翻譯的重要角色。這是 McKinsey 最近發(fā)現(xiàn)的任何數(shù)據(jù)科學(xué)方案中最重要的角色。簡(jiǎn)單來(lái)說(shuō),分析翻譯的工作包括:

負(fù)責(zé)識(shí)別深入分析可能產(chǎn)生的不同機(jī)會(huì)。
推動(dòng)優(yōu)先處理這些機(jī)會(huì)的過(guò)程。
經(jīng)常在項(xiàng)目中擔(dān)任項(xiàng)目經(jīng)理的角色。
積極地采納跨企業(yè)解決方案,提高成本效益。

換句話來(lái)說(shuō),將業(yè)務(wù)問(wèn)題轉(zhuǎn)變成數(shù)據(jù)科學(xué)項(xiàng)目,將不同類型的風(fēng)險(xiǎn)和回報(bào)量化,幫助制定項(xiàng)目的優(yōu)先級(jí)。

那 AI 呢?

是的,CNN 和 RNN 最近在圖像、文字和語(yǔ)音等方面的進(jìn)展都在快速推進(jìn)自動(dòng)化無(wú)代碼解決方案。但速度并不是很快,因?yàn)槿鄙倬邆渖疃葘W(xué)習(xí)技能的數(shù)據(jù)科學(xué)家,甚至比全科醫(yī)師還要少。

Microsoft 和 Google 去年都推出了自動(dòng)化深度學(xué)習(xí)平臺(tái)。一開(kāi)始是處理遷移學(xué)習(xí),而之后朝著完全 AutoDL 發(fā)展。感興趣的讀者可以了解下 Microsoft Custom Vision Services 和 Google 類似的入門級(jí)服務(wù) Cloud AutoML。

還有一些初創(chuàng)公司整合了 AutoDL 平臺(tái)。我們?cè)诮衲暝缧⿻r(shí)候分析了 OneClick.AI 。它們包含了完全的 AutoML 和 AutoDL 平臺(tái)。Gartner 最近評(píng)選擁有 AutoDL 平臺(tái)的 DimensionalMechanics 為“最酷的 5 家公司”之一。

有一段時(shí)間,我嘗試更新無(wú)代碼 AutoML 和 AutoDL 的提供商名單以及它們提供的功能。但是這個(gè)列表更新得實(shí)在太快了。

我希望 Gartner 或其他有價(jià)值的團(tuán)隊(duì)能進(jìn)行全面的審核,在 2017 年,Gartner 給出了一篇很長(zhǎng)的報(bào)告“數(shù)據(jù)和分析領(lǐng)域在未來(lái)的增強(qiáng)分析”。這篇報(bào)道很好地概括了一些內(nèi)容,但有很多我知道的提供商沒(méi)有被提及。

據(jù)我了解,還沒(méi)有一個(gè)完整的列表,列出所有提供完全自動(dòng)化或相當(dāng)數(shù)量的自動(dòng)化功能的平臺(tái)。這包括從 IBM 和 SAS 這樣的大企業(yè)到一些很小的初創(chuàng)公司。

很多提到的內(nèi)容都來(lái)自下面的文章列表。如果你正在以任何方式使用深入分析,或單純地想讓你的傳統(tǒng)業(yè)務(wù)分析功能變得更好,請(qǐng)查看下面文章中提到的解決方案。

有關(guān)自動(dòng)化機(jī)器學(xué)習(xí)、自動(dòng)化深度學(xué)習(xí)和其他無(wú)代碼解決方案的文章

What’s New in Data Prep(September 2018)

Democratizing Deep Learning – The Stanford Dawn Project(September 2018)

Transfer Learning –Deep Learning for Everyone(April 2018)

Automated Deep Learning – So Simple Anyone Can Do It(April 2018)

Next Generation Automated Machine Learning (AML)(April 2018)

More on Fully Automated Machine Learning(August 2017)

Automated Machine Learning for Professionals(July 2017)

Data Scientists Automated and Unemployed by 2025 - Update!(July 2017)

Data Scientists Automated and Unemployed by 2025!(April 2016)

作者介紹:Bill Vorhies 是數(shù)據(jù)科學(xué)中心的主任編輯,從 2001 年開(kāi)始就在數(shù)據(jù)科學(xué)領(lǐng)域?qū)嵺`。他的郵箱是:Bill@Data-Magnum.com 或 Bill@DataScienceCentral.com

原文鏈接:https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science

標(biāo)簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:阿里高級(jí)安全專家自述:阿里如何實(shí)現(xiàn)數(shù)據(jù)“可用不可見(jiàn)”

下一篇:區(qū)塊鏈如何保護(hù)大數(shù)據(jù)和物聯(lián)網(wǎng)設(shè)備