中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)與AI主要發(fā)展趨勢:基礎(chǔ)設(shè)施、分析層面及應(yīng)用層面

2019-08-27    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

技術(shù)的進步推動著經(jīng)濟和生活的全面數(shù)字化,對數(shù)據(jù)的重視提到了前所未有的高度,“數(shù)據(jù)是資產(chǎn)”已經(jīng)被廣泛認可。正如《大數(shù)據(jù)時代》作者舍恩伯格所說,“雖然數(shù)據(jù)還沒有被列入企業(yè)的資產(chǎn)負債表,但這只是一個時間問題”。

在過去幾年,我們已經(jīng)開始通過數(shù)據(jù)科學、機器學習和人工智能讓部分應(yīng)用場景的數(shù)據(jù)產(chǎn)生價值。這些技術(shù)也逐步從最初的早期采用者(BAT和初創(chuàng)公司)擴展到更廣泛的經(jīng)濟。如何存儲數(shù)據(jù)、管理數(shù)據(jù)并深挖數(shù)據(jù)的價值已經(jīng)變成了幾乎所有的企業(yè)都需要思考的問題。

我們正處在通往數(shù)據(jù)驅(qū)動的智能世界(智能交通工具、智能企業(yè)、智能產(chǎn)品)的快車道上。在終局到來之前,技術(shù)發(fā)展都在顛覆與被顛覆,這是初創(chuàng)企業(yè)的用武之地。我們持續(xù)關(guān)注數(shù)據(jù)智能鏈條上的初創(chuàng)企業(yè),也在持續(xù)關(guān)注數(shù)據(jù)與AI發(fā)展當前處在什么階段,未來會有什么變化。

以下是Matt Turck(美國早期基金FirstMark合伙人)總結(jié)的2019年大數(shù)據(jù)及AI領(lǐng)域的主要發(fā)展趨勢。他從基礎(chǔ)設(shè)施、分析以及應(yīng)用層面分別闡述了主要發(fā)展趨勢,希望能給大家?guī)硭伎肌?/p>

原標題:Major Trends in the 2019 Data & AI Landscape

作者: Matt Turck 譯者:諶普江

 

大數(shù)據(jù)與AI主要發(fā)展趨勢:基礎(chǔ)設(shè)施、分析層面及應(yīng)用層面

 

圖片來源:pixabay

基礎(chǔ)設(shè)施層面的趨勢

第三波浪潮?從Hadoop到云服務(wù)再到Kubernetes
數(shù)據(jù)治理、數(shù)據(jù)編目、數(shù)據(jù)沿襲:數(shù)據(jù)管理的重要性與日俱增
專用于AI的基礎(chǔ)設(shè)施的崛起

數(shù)據(jù)基礎(chǔ)設(shè)施一直保持快速進化狀態(tài)。這個速度保持了很多年,近期有加速進化的趨勢,主要經(jīng)歷三個階段:從Hadoop到云服務(wù)再到Kubernetes環(huán)境。

誕生于2003年10月的Hadoop可以算得上大數(shù)據(jù)領(lǐng)域的“鼻祖”。Hadoop是一個使用計算機網(wǎng)絡(luò)對大量數(shù)據(jù)進行分布式存儲和處理框架,在數(shù)據(jù)生態(tài)系統(tǒng)的爆炸式發(fā)展中發(fā)揮了絕對核心的作用。

然而,在過去的幾年里,宣布Hadoop死亡已經(jīng)成為行業(yè)觀察家們的常態(tài)。隨著Hadoop供應(yīng)商遇到各種各樣的麻煩,這一趨勢今年進一步加速。在撰寫本文時,MapR已經(jīng)處于關(guān)閉的邊緣,也有可能已經(jīng)找到了買家。最近剛剛完成52億美元合并的Cloudera和Hortonworks在6月份經(jīng)歷了艱難的一天,由于令人失望的季度收益,股價暴跌了40%。Cloudera已經(jīng)發(fā)布了多款云計算和混合產(chǎn)品,但目前還沒有正式對外售賣。

由于來自云平臺的競爭,Hadoop正面臨越來越大的阻力。Hadoop是在云沒那么完備的時候開發(fā)的,大多數(shù)數(shù)據(jù)是在本地的,那時網(wǎng)絡(luò)延遲是瓶頸,將數(shù)據(jù)和計算放在一起很有意義。但這一切已經(jīng)改變了。

然而,Hadoop不太可能很快消失。它的發(fā)展可能會放緩,但它在企業(yè)間的部署規(guī)模之大,將使其在未來幾年保持慣性和生命力。

無論如何,向云的轉(zhuǎn)變顯然正在加速。有趣的是,在我們與《財富》1000強企業(yè)高管的交談中,2019年似乎是一個真正的轉(zhuǎn)變。在過去的幾年里,討論云的很多,但真正的行動都是本地部署,尤其是在受監(jiān)管的行業(yè),F(xiàn)在《財富》雜志1000強企業(yè)的許多高管都在積極轉(zhuǎn)向云計算,其中有一部分活動涉及從傳統(tǒng)的微軟商店轉(zhuǎn)向Azure。

因此,盡管云提供商的規(guī)模已經(jīng)非常龐大,但它們?nèi)栽诶^續(xù)快速增長。2018年,AWS實現(xiàn)收入257億美元,比2017年175億美元增長46.9%。微軟Azure的收入沒有單獨披露,但在截至2019年3月的季度中同比增長了73%。雖然這不是一個完美的對比,但是AWS的收入在同季度同比增長了41%。

隨著云計算應(yīng)用的深入,客戶開始對成本望而卻步。在世界各地的董事會會議室里,高管們突然注意到一個曾經(jīng)很小的賬目:他們的云賬單。云計算確實提供了敏捷性,但它通常會帶來很高的成本,尤其是當客戶的注意力離開計價器或者無法準確預測他們的計算需求時。像Adobe和Capital One等AWS客戶,他們的云賬單在2017年至2018年的短短一年里增長了60%以上,達到了2億美元以上。

成本,以及對供應(yīng)商鎖定的擔憂,加速了向混合方法的發(fā)展,包括公共云、私有云和本地部署的組合。面對眾多的選擇,企業(yè)將越來越多地選擇最適合自己的工具來優(yōu)化績效和經(jīng)濟效益。隨著云提供商更加積極地實現(xiàn)差異化,企業(yè)開始采用多云策略,利用每個云提供商最擅長的領(lǐng)域。在某些情況下,為了優(yōu)化經(jīng)濟效益,最好的方法是將一些工作負載保留(甚至是調(diào)回)在本地,特別是對于非動態(tài)工作負載。

有趣的是,云提供商正在適應(yīng)企業(yè)計算能力向混合環(huán)境發(fā)展的現(xiàn)實,像AWS會提供類似于AWS前哨的工具,允許客戶進行本地計算和存儲的同時,還能將本地負載與AWS云上其他程序無縫集成。

在這個新的多云和混合云時代,Kubernetes無疑是冉冉升起的巨星。Kubernetes是谷歌于2014年推出的一個用于管理容器化工作負載和服務(wù)的開源項目,它正經(jīng)歷著與Hadoop幾年前同樣的熱情,有8000名與會者參加了KubeCon活動,還有源源不斷的博客文章和播客。許多分析師認為,RedHat在Kubernetes世界的重要地位,在很大程度上促成了IBM以340億美元的大規(guī)模收購。Kubernetes的前景是幫助企業(yè)實現(xiàn)跨環(huán)境運行工作負載,企業(yè)的混合環(huán)境會包括數(shù)據(jù)中心、私有云以及一個或多個公共云。

Kubernetes作為一個特別適合管理復雜、混合環(huán)境的編制框架,也越來越成為機器學習的有吸引力的選項。Kubernetes使用相同的基礎(chǔ)設(shè)施服務(wù)于多個用戶,使得數(shù)據(jù)科學家不必成為基礎(chǔ)設(shè)施專家,就能夠靈活地選擇他們喜歡的任何語言、機器學習庫或框架,并訓練和擴展模型,允許相對快速的迭代和強大的重現(xiàn)性。Kubeflow是為Kubernetes開發(fā)的機器學習工具包,它的發(fā)展勢頭迅猛。

Kubernetes相對來說還處于起步階段,但有趣的是,因為數(shù)據(jù)科學家可能更喜歡Kubernetes的整體靈活性和可控性,上述情況可能標志著一種遠離云機器學習服務(wù)的進化。我們可能正在進入數(shù)據(jù)科學和機器學習基礎(chǔ)設(shè)施的第三個范式轉(zhuǎn)變,從Hadoop(直到2017年)到數(shù)據(jù)云服務(wù)(2017-2019),再到一個由Kubernetes和下一代數(shù)據(jù)倉庫(比如Snowflake)主導的世界。

這種演變的另一面是復雜性的增加。當然,這里會有一個綜合平臺的機會。平臺會抽象并簡化對大量云底層基礎(chǔ)設(shè)施的操控,讓更廣泛的數(shù)據(jù)科學家和分析師群體更容易訪問這個美麗的新世界。

盡管角度不同,Serverless模式就是這種簡化的一種嘗試。這種執(zhí)行模型允許用戶編寫和部署代碼,而無需擔心底層基礎(chǔ)設(shè)施。云提供商處理所有后端服務(wù),客戶根據(jù)實際使用情況的付費。在過去的幾年里,Serverless模式無疑是一個重要的新興主題,這也是我們在今年的Data&AI領(lǐng)域中增加的新品類。然而,將Serverless模式應(yīng)用于機器學習和數(shù)據(jù)科學仍有較多工作要做,像Algorithmia和Iguazio/Nuclio這樣的公司是早期進入者。

數(shù)據(jù)環(huán)境日益混合的另一個后果是,企業(yè)需要加大努力來獲得對數(shù)據(jù)的控制。

目前的數(shù)據(jù)環(huán)境非常復雜,有些位于數(shù)據(jù)倉庫、有些位于數(shù)據(jù)湖、有些位于各種其他數(shù)據(jù)源,跨越本地部署、私有云和公共云,那應(yīng)該如何查找、管理、控制和跟蹤數(shù)據(jù)?這包含各種相關(guān)的形式和名稱,包括數(shù)據(jù)查詢、數(shù)據(jù)治理、數(shù)據(jù)編目和數(shù)據(jù)沿襲,所有這些都越來越重要和突出。

在混合環(huán)境中查詢數(shù)據(jù)本身就是一個挑戰(zhàn),其解決方案要符合存儲和計算分離的總體趨勢。

數(shù)據(jù)治理是另一個迅速成為企業(yè)首要考慮的領(lǐng)域。數(shù)據(jù)治理的一般思想是管理數(shù)據(jù),并確保整個數(shù)據(jù)生命周期(涉及數(shù)據(jù)有效性、完整性、可用性、一致性和安全性)的高質(zhì)量性。值得注意的是,在2019年初,Collibra進行了一輪1億美元的融資,估值超過10億美元。

數(shù)據(jù)編目是數(shù)據(jù)管理的另一種日益重要的手段。有效的數(shù)據(jù)編目是綜合企業(yè)各種數(shù)據(jù)資產(chǎn)的字典。它們幫助用戶(包括數(shù)據(jù)科學家、數(shù)據(jù)分析師、開發(fā)人員和業(yè)務(wù)用戶)能夠自助發(fā)現(xiàn)和使用數(shù)據(jù)。

最后,數(shù)據(jù)沿襲可能是最新出現(xiàn)的數(shù)據(jù)管理類別。數(shù)據(jù)沿襲的目的是捕獲跨企業(yè)的“數(shù)據(jù)之旅”。它幫助公司弄清楚數(shù)據(jù)在其生命周期中是如何被收集、如何被修改以及如何被分享的。許多因素推動了這一領(lǐng)域的增長,包括合規(guī)、隱私和倫理的重要性日益增加,也包括對機器學習管道和模型的可重復性和透明度的需求。

今年一直在加速發(fā)展的最后一個關(guān)鍵趨勢,是AI專用基礎(chǔ)設(shè)施的不斷涌現(xiàn)。

管理人工智能管道和模型的需求導致了MLOps(或AIOps)領(lǐng)域的快速增長。為了呼應(yīng)這種新趨勢,今年的Landscape里面,我們添加了兩個新的框,一個名為基礎(chǔ)設(shè)施(各種早期創(chuàng)業(yè)公司包括Algorithmia、Spell、 Weights&Biases等等),一個名為開放源碼(各種各樣的項目,通常相當早,包括Pachyderm、Seldon、Snorkel、MLeap等等)。

ML工程師需要能夠運行實驗并快速迭代,在需要時訪問如GPU等資源。在我們的Data Driven NYC活動中,我們介紹了一些早期初創(chuàng)公司,它們提供了諸如Spell、Comet、Paperspace等基礎(chǔ)設(shè)施。

隨著GPU數(shù)據(jù)庫的崛起和新一代人工智能芯片(Graphcore、Cerebras等)的誕生,人工智能對基礎(chǔ)設(shè)施產(chǎn)生了深遠的影響。人工智能正迫使我們重新思考計算的本質(zhì)。

分析層面發(fā)展趨勢

商業(yè)智能(BI)正在整合

企業(yè)AI平臺是一個趨勢

橫向人工智能仍然非常活躍

在商業(yè)智能領(lǐng)域, 正如前面提到的,過去幾個月的明顯趨勢是大量整合,包括Tableau、Looker、Zoomdata和Clearstory的收購,以及SiSense和Periscope的合并。因為數(shù)據(jù)可視化和自助分析服務(wù)有大量的供應(yīng)商,BI中的整合在某種程度上是不可避免的。每個供應(yīng)商,無論大小,都面臨著多樣化和擴展能力的壓力。對于云收購商來說,這些新產(chǎn)品線肯定會增加收入,但更重要的是,它們擁有附加功能,能夠幫助云收購商的核心平臺產(chǎn)生更多收入。

BI未來會有更多的整合嗎?微軟在Power BI方面擁有強大的地位,但當整個細分市場整合并且每家公司都有效參與時,并購市場可能會有自己的動態(tài)。AWS就可能需要更強的產(chǎn)品,考慮到它的QuickSight BI通常被認為有點落后。

隨著BI的整合,數(shù)據(jù)科學和機器學習平臺領(lǐng)域的熱度持續(xù)上升。在企業(yè)中部署ML/AI是一種巨大的趨勢,這個趨勢目前還處于早期階段,各種參與者都在爭先恐后地構(gòu)建平臺。

對于該領(lǐng)域的大多數(shù)公司來說,明確的目標是促進ML/AI的民主化,也就是讓更大的用戶群體和更多的公司獲利于ML/AI。目前人才短缺仍然是ML/AI廣泛采用的主要瓶頸。然而,不同的玩家有不同的策略。

一種方法是AutoML。它涉及到自動化機器學習的整個生命周期,包括一些最乏味的部分。根據(jù)產(chǎn)品的不同,AutoML將處理包括特征生成和工程,算法選擇,模型訓練、部署和監(jiān)視等各種任務(wù)。DataRobot是AutoML專家,自2018年以來,該公司已籌集了1億美元的D輪融資(據(jù)稱自那以后還籌集了更多)。

該領(lǐng)域的其他公司,如Dataiku、H20和RapidMiner,提供具有AutoML功能的平臺,但也提供更廣泛的功能。以Dataiku為例, 自2018年以來,成功融了C輪1.01億美元。它的整體思路是賦能整個數(shù)據(jù)團隊(包括數(shù)據(jù)科學家和數(shù)據(jù)分析師),使得整個生命周期的數(shù)據(jù)處理簡單而有趣。

云提供商當然很活躍,包括微軟的Learning Studio、谷歌的cloud AutoML和AWS Sagemaker。盡管云提供商很強大,但這些產(chǎn)品的定位比較窄——通常很難使用,而且主要針對技術(shù)含量很高的高級用戶。它們還處于萌芽階段。據(jù)報道,亞馬遜的云機器學習平臺Sagemaker在2018年開局緩慢,僅向商業(yè)領(lǐng)域銷售了1100萬美元。一些云提供商正積極與該領(lǐng)域的專業(yè)第三方合作,微軟參與了Databricks的2.5億美元的E輪投資,這或許是未來收購的前奏。

除了企業(yè)人工智能平臺,橫向人工智能領(lǐng)域(包括計算機視覺、NLP、語音等)繼續(xù)令人難以置信地充滿活力。主要趨勢如下:

NLP領(lǐng)域的重大改進,特別是通過轉(zhuǎn)移學習的應(yīng)用(其中包括基于大量的數(shù)據(jù)訓練模型,將其模型通過移植和微調(diào)的方式用于解決某個特定的問題),讓它使用較少的數(shù)據(jù)就能工作:例如ELMO,ULMFit,最重要的還有谷歌的BERT。

業(yè)界為了用更少的數(shù)據(jù)實現(xiàn)人工智能做出了更多努力,包括單樣本學習(one-shot learning)。

深度學習與強化學習相結(jié)合。

生成式對抗網(wǎng)絡(luò)(GAN)的持續(xù)進展。

應(yīng)用層面發(fā)展趨勢

企業(yè)部署ML/AI的階段已來

企業(yè)自動化和RPA的興起

在這個階段,我們可能需要3到4年的時間來嘗試為企業(yè)構(gòu)建ML/AI應(yīng)用。

當然已經(jīng)有過一些遠遠早于現(xiàn)實的尷尬產(chǎn)品嘗試(第一代聊天機器人)和一些重大的營銷聲明,特別是一些公司試圖改造現(xiàn)有產(chǎn)品實現(xiàn)ML/AI。

但是,我們已經(jīng)逐步進入了ML/AI在企業(yè)中的部署階段,從好奇和實驗到實際的生產(chǎn)使用。未來幾年的趨勢似乎很明顯:以一個給定的問題為例,看看ML/AI(通常是深度學習,或其變體)是否會產(chǎn)生影響,如果是的話,構(gòu)建一個AI應(yīng)用程序來更有效地解決問題。

此部署階段將以多種方式進行。一些產(chǎn)品將由內(nèi)部團隊使用上面提到的企業(yè)AI平臺來構(gòu)建和部署。其他的將是由不同的供應(yīng)商提供內(nèi)嵌人工智能能力的全棧產(chǎn)品,其中的人工智能部分可能在很大程度上對客戶是不可見的。還有一些將由提供混合產(chǎn)品和服務(wù)的供應(yīng)商提供。

當然,現(xiàn)在還為時尚早。內(nèi)部團隊通常從處理一個用例(例如客戶流失預測)開始,并開始擴展到其他問題。許多構(gòu)建ML/AI應(yīng)用的初創(chuàng)企業(yè)仍在學習克服從研發(fā)到完全規(guī);\營的挑戰(zhàn)。

然而,成熟正在到來。在過去的幾年里,對于任何希望在實際應(yīng)用中部署ML/AI的人來說,都需要大量的學習,關(guān)于技術(shù)可以做什么和不能做什么,我們開始更好地理解機器和人之間任務(wù)的正確分配。人們從第一代人工智能應(yīng)用獲得不少經(jīng)驗教訓。例如,從用戶角度出發(fā),下一代客戶服務(wù)聊天機器人在ML/AI與可配置性和透明性之間提供了更智能的組合。

展望未來,隨著ML/AI在高性能數(shù)據(jù)棧的支持下逐漸普及,我們是否看到了完全自動化企業(yè)的曙光?

自從信息技術(shù)出現(xiàn)以來,企業(yè)就被信息孤島所困擾,各種系統(tǒng)和數(shù)據(jù)分散到各個部門,彼此之間無法溝通(這導致了大規(guī)模的系統(tǒng)集成服務(wù)行業(yè)),而人類充當了兩者之間的“粘合劑”。當前數(shù)據(jù)和系統(tǒng)日益集成、ML/AI有能力逐步將人類從某些功能中移除,企業(yè)完全有可能以一種日益自動化、系統(tǒng)化的方式運作。

例如,假設(shè)一個自動化企業(yè),需求的增加(ML預測出來的)自動觸發(fā)供應(yīng)商訂單的增加,這將自動記錄在財務(wù)系統(tǒng)中(財務(wù)系統(tǒng)可以自動計算和支付補償津貼等);或者預期的需求下降會自動觸發(fā)相應(yīng)的營銷支出的增加等等。

在未來的世界里,企業(yè)不僅會成為完全自動化的組織,最終還會成為自我修復和自治的組織。

然而,我們離那個階段還很遠,今天的現(xiàn)實主要集中在RPA上。這是一個非常熱門的領(lǐng)域,像UI Path和Automation Anywhere這樣的領(lǐng)先者增長得非?,并且籌集了大量資金。

RPA是機器人過程自動化的簡稱(盡管可能令人失望的是,它沒有利用任何實際的機器人),涉及到通常非常簡單的工作流,通常是手工的(由人類執(zhí)行)和重復的,并由軟件替代它們。許多RPA發(fā)生在后臺辦公室功能中(例如,發(fā)票處理)。

RPA是由企業(yè)數(shù)字轉(zhuǎn)型的浪潮推動的,尤其是在過去幾年里,數(shù)字轉(zhuǎn)型一直在加速。一些RPA的領(lǐng)先企業(yè)已經(jīng)存在多年了(UiPath成立于2005年),但是當數(shù)字轉(zhuǎn)換成為日常話題時,突然受到了歡迎。RPA還提供了一個強大的ROI,因為它的實現(xiàn)可以直接與人類執(zhí)行相同任務(wù)的成本進行比較。RPA對技術(shù)服務(wù)巨頭也非常有吸引力,因為它涉及大量的實現(xiàn)服務(wù)(需要實現(xiàn)無數(shù)不同的工作流配置);因此,RPA初創(chuàng)公司從與這些大型服務(wù)公司的強大合作關(guān)系中獲益。

也許有理由懷疑RPA。一些人認為這在很大程度上是不明智的“創(chuàng)可貼”,或者是某種權(quán)宜之計——采用由人類執(zhí)行的低效工作流,讓機器來完成。從這個角度來看,RPA可能只是在創(chuàng)建下一層技術(shù)債。隨著周圍環(huán)境的變化,除了導致需要更多的RPA將舊任務(wù)重新配置到新環(huán)境之外,自動化的RPA功能會發(fā)生什么變化還不清楚。至少在這個階段,RPA更多的是關(guān)于自動化而不是智能,更多的是基于規(guī)則的解決方案而不是人工智能(盡管一些RPA供應(yīng)商在營銷材料中加強了他們的人工智能能力)。

RPA應(yīng)該與智能自動化區(qū)分開來,智能自動化是以ML/AI為核心的新興領(lǐng)域。智能自動化也以企業(yè)流程和工作流為目標,但是它更以數(shù)據(jù)為中心,而不是以流程為中心,并且最終能夠?qū)W習、改進和治愈。

智能自動化的一個例子是智能文檔處理(ADP),這是一個可以利用ML/AI來理解文檔(表單、發(fā)票、合同等)的類別,其水平與人類相當或更好。

在未來幾年觀察這些領(lǐng)域?qū)⑻貏e有趣,RPA和智能自動化有可能通過并購或推出新的本土產(chǎn)品進行合并,除非后者的進展如此之快,限制了對前者的需求。

標簽: 大數(shù)據(jù) AI

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:從韓國的大數(shù)據(jù)之殤,看技術(shù)的產(chǎn)業(yè)價值與功能價值

下一篇:銀行數(shù)字化轉(zhuǎn)型的過程與挑戰(zhàn)