中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學正在進入“無代碼”的新時代

2020-12-04    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Bill Vorhies 譯者:劉嘉洋 來源:InfoQ

我們正在踏入數(shù)據(jù)科學實踐的新階段,“無代碼”時代。就像其他重大的變化一樣,這個階段還沒有非常成熟,但是改變的腳步卻非常清晰。

即使僅僅過去了一周,也有一些我們不知道的新的自動化 / 無代碼技術(shù)推出。有的是新成立的初創(chuàng)公司帶來的整合產(chǎn)品。但更多的是現(xiàn)有的分析平臺提供商增加的新功能或模塊。

從這些自動化機器學習(AML)平臺出現(xiàn)以來,我就一直在關(guān)注它們。在 2016 年春天,我第一次寫文章討論這些平臺,標題為“到 2025 年,自動化技術(shù)會讓數(shù)據(jù)科學家失業(yè)!”。

當然,這絕對不是我夸大其詞,在過去的兩年半內(nèi),自動化功能在我們行業(yè)中的傳播速度是驚人的。

 

 

無代碼數(shù)據(jù)科學

無代碼數(shù)據(jù)科學,或者叫自動化機器學習,或者像 Gartner 所述的那樣,“增強版”數(shù)據(jù)科學提供了一些便捷的工具。包括:

向?qū)脚_:提供詳細建模步驟的平臺(但仍然需要用戶來做這些步驟,比如說 BigML、SAS、Alteryx)。該平臺是基于經(jīng)典的拖放平臺理念而設(shè)計的。

自動化機器學習(AML):全自動化機器學習平臺(比如 DataRobot)。

會話分析:在最近的版本中,用戶只需要用普通英語提出需要解決的問題,平臺就會給出最佳答案,選擇數(shù)據(jù)、功能、建模技術(shù)甚至最佳數(shù)據(jù)可視化。

這個列表還很好地闡述了發(fā)展時間表。向?qū)脚_已經(jīng)過時了。AML 平臺越來越多,越來越成熟。會話分析剛剛起步。

不僅僅是為了深入分析

工具的智能發(fā)展不限于預測 / 規(guī)范建模,而是擴展到數(shù)據(jù)混合和準備階段,甚至是數(shù)據(jù)可視化領(lǐng)域。這意味著,傳統(tǒng)的 BI 業(yè)務分析師,當然還有用戶業(yè)務線經(jīng)理(也稱為公民數(shù)據(jù)科學家)都可以使用無代碼智能功能。

這種發(fā)展的市場驅(qū)動是眾所周知的。在深入分析和 AI 領(lǐng)域,這和短缺、成本和獲得熟練的數(shù)據(jù)科學家有關(guān)。在這個領(lǐng)域,這和時間洞察力、效率和一致性有關(guān)。簡而言之,就是用更少的資源、更快的速度完成更多的事情。

然而,在數(shù)據(jù)準備、混合、特征識別領(lǐng)域(這對數(shù)據(jù)科學家也很重要),真正吸引人的是大許多的數(shù)據(jù)分析師 / BI 從業(yè)者領(lǐng)域。在這個領(lǐng)域,傳統(tǒng)靜態(tài)數(shù)據(jù)的 ETL 仍然是一個巨大的負擔,延誤了從 IT 專家功能到自助服務的快速轉(zhuǎn)換。

老樹發(fā)新芽

在我 2001 年開始進入數(shù)據(jù)科學領(lǐng)域的時候,SAS 和 SPSS 還占據(jù)著主導地位,它們已經(jīng)從專有代碼轉(zhuǎn)型為拖放平臺模式,這是最早的自動化模式。

七八年后,學術(shù)研究領(lǐng)域更傾向于教學生 R 語言,可能是出于經(jīng)濟考慮,盡管 SAS 和 SPSS 可以讓學生免費使用,但它們還是會向?qū)熓召M,雖然提供巨大的學術(shù)研究折扣,而 R 語言卻是免費的。

然后我們又回到了之前的時代,直至今天,數(shù)據(jù)科學家還是需要寫代碼。這就是現(xiàn)在的數(shù)據(jù)科學家所接受的教育,好不意外,他們就是這樣做的。

有人認為,拖放系統(tǒng)無法提供代碼可以提供的細粒度超參優(yōu)化,這個認識是錯誤的。如果你使用過 SAS Enterprise Miner 或其競爭產(chǎn)品,那你知道這是錯誤的觀點,事實上要進行調(diào)整是更容易的。

在我看來,回到過去只編寫代碼的時代是非常糟糕的,這可能導致新的從業(yè)者忽視基礎(chǔ)內(nèi)容,而僅僅掌握了另外一門編程語言。因此我非常歡迎并期待無代碼在從業(yè)者之間的快速推進。

模型質(zhì)量如何

 

 

我們通常會把模型準確度的提升視為深入分析的“勝利”。有人會認為,使用自動化無代碼解決方案就會降低其中的準確度,這是不正確的。

AutoML 平臺,比如 DataRobot、 Tazi.ai 和 OneClick.ai ,以及其他很多平臺不僅能夠并行地運行數(shù)百種包括超參變體的模型,而且它們還執(zhí)行轉(zhuǎn)換、特征選擇,甚至一些特征工程。所以你不可能在單純的準確度上擊敗這些平臺。

需要注意,特征工程的領(lǐng)域知識仍然是我們?nèi)祟惖膬?yōu)勢。

可能更重要的是,當我們討論第二或者是第三個數(shù)據(jù)點的準確度變化的時候,和 AutoML 平臺僅僅幾天甚至幾小時的工作相比,你耗費的幾周開發(fā)時間真的值得嗎?

無代碼更廣泛的影響

我認為無代碼最大的受益者其實是傳統(tǒng)的數(shù)據(jù)分析師和 LOB 經(jīng)理,他們最關(guān)注 BI 靜態(tài)數(shù)據(jù)。單獨的數(shù)據(jù)混合和準備平臺對他們來說非常有幫助(對于 IT 人員來說,工作量也減輕許多)。

這些無代碼準備平臺,比如 ClearStory Data、Paxata 和 Trifacta,正在迅速地整合 ML 功能到它們的過程中,幫助用戶選擇適合混合的數(shù)據(jù)源,了解這些數(shù)據(jù)項的真正含義(在沒有很好的數(shù)據(jù)字典查詢功能情況下,了解更多信息,獲得更需要的數(shù)據(jù)資源),甚至擴展到了特征工程和特征選擇的領(lǐng)域。

現(xiàn)代化的數(shù)據(jù)準備平臺使用嵌入式 ML,比如說智能自動清理或處理異常值。

剛被 Gartner 評選為“最酷的 5 家公司”之一的 Octopai,通過使用機器學習和模式分析確定不同數(shù)據(jù)元素的關(guān)系,創(chuàng)造數(shù)據(jù)的上下文環(huán)境以及數(shù)據(jù)的早先使用和轉(zhuǎn)換,幫助用戶自動快速地找到可信賴的數(shù)據(jù)。

這些平臺還通過設(shè)置權(quán)限并保護 PID 和其他類似的敏感數(shù)據(jù)來實現(xiàn)安全的自助服務。

甚至數(shù)據(jù)可視化領(lǐng)先者 Tableau 也在使用 NLP 和其他 ML 工具開發(fā)會話分析功能,幫助用戶使用英語提出問題,并返回最佳可視化結(jié)果。

這對數(shù)據(jù)科學家來說到底意味著什么

Gartner 相信,兩年之內(nèi),到 2020 年,公民數(shù)據(jù)科學家將在數(shù)量和產(chǎn)生的深入分析價值上壓倒數(shù)據(jù)科學家。他們預測,數(shù)據(jù)科學家會將重心轉(zhuǎn)移到專門的問題上,并將企業(yè)級模型嵌入到應用程序中。

我不同意。這似乎把數(shù)據(jù)科學家歸類到 QA 或者是實施人員中。這不是我們的使命。

我認為,由于小部分數(shù)據(jù)科學家可以處理更多的項目,這將幫助深入分析越來越多、越來越快地滲透到組織中去。

僅僅一兩年時間,數(shù)據(jù)科學家最重要的技能就已經(jīng)展現(xiàn)了出來,這包括混合和清理數(shù)據(jù),給任務選擇恰當?shù)念A測算法。這正是增強版 / 自動化無代碼工具需要負責的領(lǐng)域。

需要創(chuàng)造、監(jiān)視并管理成百上千個模型的公司是無代碼最早的一批使用者,特別是在保險和金融服務領(lǐng)域。

還剩下什么?還有分析翻譯的重要角色。這是 McKinsey 最近發(fā)現(xiàn)的任何數(shù)據(jù)科學方案中最重要的角色。簡單來說,分析翻譯的工作包括:

負責識別深入分析可能產(chǎn)生的不同機會。
推動優(yōu)先處理這些機會的過程。
經(jīng)常在項目中擔任項目經(jīng)理的角色。
積極地采納跨企業(yè)解決方案,提高成本效益。

換句話來說,將業(yè)務問題轉(zhuǎn)變成數(shù)據(jù)科學項目,將不同類型的風險和回報量化,幫助制定項目的優(yōu)先級。

那 AI 呢?

是的,CNN 和 RNN 最近在圖像、文字和語音等方面的進展都在快速推進自動化無代碼解決方案。但速度并不是很快,因為缺少具備深度學習技能的數(shù)據(jù)科學家,甚至比全科醫(yī)師還要少。

Microsoft 和 Google 去年都推出了自動化深度學習平臺。一開始是處理遷移學習,而之后朝著完全 AutoDL 發(fā)展。感興趣的讀者可以了解下 Microsoft Custom Vision Services 和 Google 類似的入門級服務 Cloud AutoML。

還有一些初創(chuàng)公司整合了 AutoDL 平臺。我們在今年早些時候分析了 OneClick.AI 。它們包含了完全的 AutoML 和 AutoDL 平臺。Gartner 最近評選擁有 AutoDL 平臺的 DimensionalMechanics 為“最酷的 5 家公司”之一。

有一段時間,我嘗試更新無代碼 AutoML 和 AutoDL 的提供商名單以及它們提供的功能。但是這個列表更新得實在太快了。

我希望 Gartner 或其他有價值的團隊能進行全面的審核,在 2017 年,Gartner 給出了一篇很長的報告“數(shù)據(jù)和分析領(lǐng)域在未來的增強分析”。這篇報道很好地概括了一些內(nèi)容,但有很多我知道的提供商沒有被提及。

據(jù)我了解,還沒有一個完整的列表,列出所有提供完全自動化或相當數(shù)量的自動化功能的平臺。這包括從 IBM 和 SAS 這樣的大企業(yè)到一些很小的初創(chuàng)公司。

很多提到的內(nèi)容都來自下面的文章列表。如果你正在以任何方式使用深入分析,或單純地想讓你的傳統(tǒng)業(yè)務分析功能變得更好,請查看下面文章中提到的解決方案。

有關(guān)自動化機器學習、自動化深度學習和其他無代碼解決方案的文章

What’s New in Data Prep(September 2018)

Democratizing Deep Learning – The Stanford Dawn Project(September 2018)

Transfer Learning –Deep Learning for Everyone(April 2018)

Automated Deep Learning – So Simple Anyone Can Do It(April 2018)

Next Generation Automated Machine Learning (AML)(April 2018)

More on Fully Automated Machine Learning(August 2017)

Automated Machine Learning for Professionals(July 2017)

Data Scientists Automated and Unemployed by 2025 - Update!(July 2017)

Data Scientists Automated and Unemployed by 2025!(April 2016)

作者介紹:Bill Vorhies 是數(shù)據(jù)科學中心的主任編輯,從 2001 年開始就在數(shù)據(jù)科學領(lǐng)域?qū)嵺`。他的郵箱是:Bill@Data-Magnum.com 或 Bill@DataScienceCentral.com

原文鏈接:https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science

標簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:辨析BI、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺內(nèi)涵及差異點

下一篇:阿里高級安全專家自述:阿里如何實現(xiàn)數(shù)據(jù)“可用不可見”