中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Gartner報告:我們正處于數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)工具 “大爆炸”的時代

2019-03-19    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

日前, Gartner 發(fā)布了 2019 年版面向數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)工具的魔力象限。Gartner 的魔力象限是在某一特定時間內(nèi)對市場情況進(jìn)行的圖形化描述,根據(jù) Gartner 的定義,它描述了 Gartner 依據(jù)標(biāo)準(zhǔn)對該市場內(nèi)的廠商所進(jìn)行的分析。Datanami 的 Alex Woodie 為我們解讀了 2019 年版面向數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工具的魔力象限。

Gartner 表示,目前用于數(shù)據(jù)科學(xué)的工具正在迅速發(fā)生變化。該公司在其最新的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺的報告中稱,我們正處于 “大爆炸” 中。

1 月 28 日,Gartner 發(fā)布了《數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺魔力象限》(Magic Quadrant for Data Science and Machine Learning Platforms),并表示:“數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)市場是健康、活躍的,眾多供應(yīng)商提供了一系列產(chǎn)品。這個市場正在經(jīng)歷一場‘大爆炸’,這場‘大爆炸’不僅重新定義了應(yīng)由誰來做數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),還重新定了數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)應(yīng)如何實(shí)現(xiàn)。”

分析師小組將數(shù)據(jù)科學(xué)平臺定義為綜合場所,在這里,數(shù)據(jù)科學(xué)家、民間數(shù)據(jù)科學(xué)家和開發(fā)人員不僅可以得到構(gòu)建數(shù)據(jù)科學(xué)應(yīng)用所需的所有核心功能,還可以將它們嵌入到現(xiàn)有業(yè)務(wù)流程和管理中,并對其進(jìn)行管理和維護(hù)。

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺必須滿足最低要求,并包括以下工具:

♦ 提取和準(zhǔn)備數(shù)據(jù);

♦ 以交互方式探索和可視化數(shù)據(jù);

♦ 工程數(shù)據(jù)特征和構(gòu)建預(yù)測模型;

♦ 與周圍基礎(chǔ)設(shè)施集成,測試并部署這些模型。

 

 

Gartner 數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺魔力象限(圖:Gartner)

Gartner 認(rèn)為,整合和凝聚力是關(guān)鍵,如果應(yīng)用程序(尤其是開源產(chǎn)品)只是簡單地將各種包和庫捆綁起來,那么這樣的產(chǎn)品并不能視為真正的平臺。

雖然這些核心要求為數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺奠定了基礎(chǔ),但不同的供應(yīng)商在如何實(shí)現(xiàn)這些需求上存在著很大的差異。Gartner 指出,專業(yè)數(shù)據(jù)科學(xué)家可能更喜歡用 Python 或 R 編寫代碼,而其他人更喜歡數(shù)據(jù)科學(xué)筆記本的易用性,如 Jupyter。還有一些不太懂技術(shù)的人更喜歡用鼠標(biāo)在界面上點(diǎn)擊,因?yàn)閷λ麄儊碚f這樣很直觀。

領(lǐng)導(dǎo)者象限

在領(lǐng)導(dǎo)者象限中,Gartner 列入了四家供應(yīng)商,包括:KNIME、RapidMiner、TIBCO Software、SAS。

 

 

在 Gartner 的評估中,KNIME 名列前茅,這歸功于客戶的大力支持、廣泛的產(chǎn)品組合以及市場上 “最平衡的” 愿景之一。蘇黎世公司的產(chǎn)品系列(包括開源 KNIME Analytics 產(chǎn)品和商業(yè) KNIME Server 產(chǎn)品)被譽(yù)為分析領(lǐng)域的 “瑞士軍刀”。對深度學(xué)習(xí)、中級用戶提供的的易用性以及與其他包集成的高級功能的支持受到了稱贊,然而,性能和可擴(kuò)展性被視為弱點(diǎn),以及對物聯(lián)網(wǎng)的吸引力也很有限。

 

 

在領(lǐng)導(dǎo)者象限中,Rapid Miner 也是名列前茅,這得益于它在易用性和支持復(fù)雜數(shù)據(jù)科學(xué)能力之間的平衡。這款軟件支持深度學(xué)習(xí)技術(shù)并部署到 GPU,Gartner 似乎很喜歡 Rapid Miner 為機(jī)器學(xué)習(xí)部署提供更高的透明度。它與開源工具的整合有利于數(shù)據(jù)科學(xué)家。主要關(guān)注點(diǎn)是數(shù)據(jù)準(zhǔn)備和可視化、許可和定價、模型操作。

 

 

TIBCO 從挑戰(zhàn)者象限中邁出了一大步,購買了一系列分析領(lǐng)域的企業(yè),包括 Jaspersoft、Spotfire、Statistica 和 Alpine Data,并將它們整合到統(tǒng)一的平臺中。Gartner 很欣賞 TIBCO 的這一點(diǎn):提供端到端工作流程集成以及物聯(lián)網(wǎng)功能,尤其是流式分析的整合。它潛在的問題包括性能和穩(wěn)定性、數(shù)據(jù)管理及操作方面的問題。

 

 

SAS 是這份名單上的多年競爭者。實(shí)際上它有多個經(jīng)過評估的平臺。它的 Enterprise Miner 產(chǎn)品在一系列指標(biāo)中提供了強(qiáng)大可靠的性能,而可視化數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)(Visual Data Mining and Machine Learning,VDMML)在數(shù)據(jù)準(zhǔn)備和擴(kuò)充方面得分很高。很高的客戶滿意度和強(qiáng)大的市場占有率鞏固了 SAS 作為領(lǐng)導(dǎo)者的地位。但 Gartner 也指出了 SAS 存在的一些缺點(diǎn),特別是在定價和產(chǎn)品一致性方面,SAS EM 的用戶體驗(yàn)并沒有達(dá)到公眾的預(yù)期,而且 SAS 的開源方式對 Gartner 來說是個問號。

挑戰(zhàn)者象限

挑戰(zhàn)者象限相當(dāng)空蕩,在這一象限中只有兩家供應(yīng)商: Alteryx 和 Dataiku。

 

 

Alteryx 通過保持其 “執(zhí)行能力”(Y 軸),但卻失去了一些 “視覺完整性”(X 軸),從而跌出了領(lǐng)導(dǎo)者象限。Gartner 在端到端管道中提及了加州 Irvin 公司的民間數(shù)據(jù)科學(xué)能力,分析師小組表示,盡管 Alteryx 有這種能力,但市場認(rèn)為 Alteryx 只是一種數(shù)據(jù)準(zhǔn)備工具,這一觀點(diǎn)掩蓋了它真正的價值。

 

 

Dataiku 的數(shù)據(jù)科學(xué)工作室(Data Science Studio,DSS)因其促進(jìn)不同利益相關(guān)者(從數(shù)據(jù)工程師到科學(xué)家)之間合作的方式而獲得好評。Gartner 還喜歡它為機(jī)器學(xué)習(xí)工作流程帶來的自動化,以及模型投產(chǎn)后的管理和監(jiān)控。報告稱,Dataiku 存在的一些問題包括可擴(kuò)展性、定價以及對流式分析和物聯(lián)網(wǎng)用例的支持。

有遠(yuǎn)見者象限

有遠(yuǎn)見者象限如此擁擠不堪,只有不到七家新的供應(yīng)商在這一象限里爭奪位置。

 

 

Databricks 于 2 月 5 日獲得了 2.5 億美元的風(fēng)投。Databricks 對整個分析生命周期的支持、對混合云戰(zhàn)略的支持以及支持各種用戶的能力,給 Gartner 留下了深刻的印象。用戶對基于 Spark 的產(chǎn)品給予了高度評價,據(jù) Gartner 稱,文檔是 Databricks 的加分項(xiàng)之一。然而,定價、合同談判及監(jiān)視、管理和故障排除與調(diào)試的潛在問題都是 Databricks 的潛在弱點(diǎn)。

 

 

Gartner 表示,這是 DataRobot 在有遠(yuǎn)見者象限中首次亮相,這要?dú)w功于它 “為增強(qiáng)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)設(shè)定了標(biāo)準(zhǔn)”,客戶因此有了強(qiáng)大的體驗(yàn),這有助于公司在已有忠實(shí)客戶群上獲得吸引力。銷售執(zhí)行、定價、可擴(kuò)展性問題以及 “增強(qiáng)分析” 空間可能的商品化都是共同關(guān)注的問題。

 

 

H2O.ai 在 2 月 5 日召開了 H2O 世界大會,由于市場競爭激烈,以及客戶對其能力的一些擔(dān)憂,H2O.ai 從領(lǐng)導(dǎo)者象限跌落到有遠(yuǎn)見者象限中。但,其核心開源機(jī)器學(xué)習(xí)組件的性能仍然是 H2O.ai 的強(qiáng)項(xiàng),它基于 GPU 的深度學(xué)習(xí)和無人駕駛?cè)斯ぶ悄艿淖詣訖C(jī)器學(xué)習(xí)能力令 Gartner 印象深刻。但是,對于非開發(fā)人員來說,學(xué)習(xí)曲線過于陡峭,而且缺乏管理能力,數(shù)據(jù)訪問和數(shù)據(jù)準(zhǔn)備的能力也欠缺,這些都是令人擔(dān)憂的問題。

 

 

據(jù) Gartner 的說法,Mathworks 在滿足以資產(chǎn)為中心的行業(yè)客戶的需求方面有著 “驚人的力量”(該公司在制造商和工程組織中有著多年的經(jīng)驗(yàn))。因此,MathWorks 從挑戰(zhàn)者象限向有遠(yuǎn)見者象限邁出了巨大的一步。它提供的 MATLAB 因其 “民間工程師” 能力而廣受贊譽(yù),而實(shí)時流媒體、深度學(xué)習(xí)和仿真的集成數(shù)據(jù)準(zhǔn)備和支持,給人們留下了深刻的印象。Dings 很難被非工程師使用,而且不支持 Google Cloud Platform,缺乏自動機(jī)器學(xué)習(xí)能力也是其不利因素。

 

 

Microsoft 憑借基于云端的產(chǎn)品取得了不錯的成績,包括 Azure Machine Learning、Azure Data Factory、Azure HDInsight、Power BI。Microsoft 與第三方合作的方式,尤其是 Databricks 的 Spark 產(chǎn)品,對各種數(shù)據(jù)角色(包括入門級的機(jī)器學(xué)習(xí)愛好者)的支持也是一個加分項(xiàng)。機(jī)器學(xué)習(xí)過程中的自動化是一個問題,所有不同工具的一致性也是如此。缺乏本地化能力也限制了它的適用性。

 

 

盡管 IBM 在 2019 年仍然留在有遠(yuǎn)見者象限,但它已經(jīng)失去了優(yōu)勢。IBM Watson Studio 產(chǎn)品的全面性得到了 Gartner 的稱贊,該產(chǎn)品為專家和民間數(shù)據(jù)科學(xué)家提供服務(wù)。將 SPSS 建模器集成到 Watson Studio 中也得到了稱贊。但是,IBM 重塑產(chǎn)品和轉(zhuǎn)變戰(zhàn)略的頻率是 Gartner 關(guān)注的問題,因?yàn)楂@得完整的端到端功能還需要多個產(chǎn)品的許可授權(quán)。

 

 

Google 在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺排名方面表現(xiàn)相當(dāng)不錯,很大程度上這要?dú)w功于 Google 的云端上廣泛的可用工具。它的核心數(shù)據(jù)科學(xué)平臺包括 Cloud ML Engine、Cloud AutoML、TensorFlow 和 BigQuery ML。但是 Google 也提供了獨(dú)特的硬件,包括 Tensor 處理單元(Tensor Processing Unit,TPU)、Kaggle 眾包以及一系列其他產(chǎn)品。對 Google 來說,可擴(kuò)展性和速度是 Google 的優(yōu)勢。但是,這些工具之間缺乏端到端的一致性是個問題,而且也缺乏可用性。另外,缺少本地化產(chǎn)品也是個問題。

特定領(lǐng)域者象限

特定領(lǐng)域者象限有四家供應(yīng)商。

 

 

SAP 的 Predictive Analytics(PA)產(chǎn)品與 HANA 緊密集成,使其適合 SAP HANA 客戶。處理大型 HANA 數(shù)據(jù)集和江模型部署到 SAP 應(yīng)用的能力是強(qiáng)項(xiàng)。SAP 對統(tǒng)一機(jī)器學(xué)習(xí)架構(gòu)的愿景也是如此,它與 Leonardo 機(jī)器學(xué)習(xí)基金會相關(guān)。然而,產(chǎn)品的一致性、不斷變化的人工智能戰(zhàn)略以及客戶體驗(yàn),都是對這家德國巨頭不利的標(biāo)志。

 

 

Domino Data Lab 從有遠(yuǎn)見者象限降級,這主要反映了其感知執(zhí)行能力的下降。Gartner 很欣賞 Domino 的產(chǎn)品戰(zhàn)略,尤其是它專注于協(xié)作和構(gòu)建端到端解決方案。它與開源和專有產(chǎn)品的整合能力是額外的優(yōu)勢,它的可擴(kuò)展性也是如此。但是,根據(jù) Gartner 的調(diào)查,Domino 側(cè)重于專家數(shù)據(jù)科學(xué)家,這讓民間數(shù)據(jù)科學(xué)家感到不滿,而且它還缺乏一些數(shù)據(jù)準(zhǔn)備、自動化和增強(qiáng)功能。

 

 

Anaconda 仍然屬于特定領(lǐng)域者類別。Anaconda 產(chǎn)品的主要優(yōu)勢在于它能夠接觸開源 Python 社區(qū),該社區(qū)繼續(xù)推動數(shù)據(jù)科學(xué)的創(chuàng)新。它擴(kuò)展開源 Python 的能力也是個優(yōu)勢。但是根據(jù) Gartner 的說法,成功使用 Anaconda 平臺所需的專業(yè)知識是一個警示,Python “叢林” 的復(fù)雜性也是一個問題。對開源社區(qū)的依賴也使客戶在需要某些特定內(nèi)容時處于劣勢(Gartner 使用了模型操作化的示例),整體的一致性水平也是缺點(diǎn)之一。

 

 

Datawatch 是魔力象限的新成員,于 2018 年 1 月收購了 Angoss,Angoss 在該領(lǐng)域擁有超過 20 年的經(jīng)驗(yàn)。Datawatch 產(chǎn)品的一致性和易用性得到了 Gartner 的稱贊,其文本分析和優(yōu)化引擎組件被標(biāo)記為高于平均水平?蛻糁С忠彩且粋加分項(xiàng),但,數(shù)據(jù)準(zhǔn)備能力的缺乏,以及產(chǎn)品的總體前景和收購帶來的不確定性拉低了 Datawatch 的成績。

原文鏈接:

https://www.datanami.com/2019/02/08/the-big-bang-of-data-science-and-ml-tools/

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據(jù)清理的終極指南

下一篇:為什么每個數(shù)據(jù)科學(xué)家都要讀一讀Judea Pearl的《The Book of Why》