中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

高達(dá)62億美元!大數(shù)據(jù)初創(chuàng)公司 Databricks 再獲4億融資

2019-10-25    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

來源:InfoQ  作者:蔡芳芳 

美國時間 10 月 22 日凌晨,由 Apache Spark 創(chuàng)始成員成立的大數(shù)據(jù)初創(chuàng)公司 Databricks 宣布完成 4 億美元 F 輪融資,本輪融資由美國私人風(fēng)投公司 Andreessen Horowitz 領(lǐng)投,微軟、Alkeon Capital Management、BlackRock 等跟投。本輪融資后,Databricks 最新估值高達(dá) 62 億美元,與今年 2 月份完成 E 輪融資時的估值相比已經(jīng)翻了不止一倍!

除了大數(shù)據(jù)領(lǐng)域赫赫有名的開源項目 Spark,Databricks 在 2018 年 6 月、2019 年 4 月先后又開源了全流程機(jī)器學(xué)習(xí)平臺 MLflow 和存儲層 Delta Lake,均在業(yè)內(nèi)引起熱烈反響。在過去一年中,Databricks 的年度經(jīng)常性收入(ARR)增長了 2.5 倍以上,在本輪融資前,Databricks 剛剛宣布其 2019 年第三季度營收達(dá)到 2 億美元,而四年前他們幾乎還沒有任何收入。

Market Research Future 的一份報告指出,到 2023 年,大數(shù)據(jù)分析市場規(guī)模將達(dá)到 2750 億美元。與此同時,Gartner 最近預(yù)測,到 2022 年,人工智能衍生的業(yè)務(wù)收入將達(dá)到 3.9 萬億美元。面對這么大一塊蛋糕,難怪投資人紛紛在大數(shù)據(jù)分析市場投下重金。據(jù)報道,數(shù)據(jù)分析服務(wù)提供商 Fractal Analytics 在一月份籌集到了2 億美元;在那之后不久,端到端數(shù)據(jù)運(yùn)營平臺提供商Unravel 又獲得了 3500 萬美元的 C 輪融資;業(yè)務(wù)分析初創(chuàng)公司 Sisense 則在去年 9 月籌集了 8000 萬美元,以擴(kuò)大產(chǎn)品范圍。同樣在今年 6 月,谷歌豪擲 26 億美元收購數(shù)據(jù)分析公司 Looker,成為谷歌近五年最大手筆的一次收購。

外媒 VentureBeat 這樣評價 Databricks 的這次融資:“自 2013 年創(chuàng)立以來,Databricks 就一直不愁吸引不到客戶。但這周可能會將該公司不斷向市場支配地位進(jìn)軍之勢推向高潮。”

宣布融資消息的同時,Databricks 還宣布聘請 Dave Conte 為公司首席財務(wù)官,Dave Conte 曾擔(dān)任 Splunk 首席財務(wù)官長達(dá)八年,未來他將領(lǐng)導(dǎo) Databricks 的所有財務(wù)和運(yùn)營職能,并直接向 CEO Ali Ghodsi 匯報。

現(xiàn)在, Databricks 的客戶包括 Hotels.com 、Viacom、HP、殼牌能源、Expedia,以及來自廣告、技術(shù)、能源、政府、金融服務(wù)、醫(yī)療保健、游戲、生命科學(xué)、媒體和零售等領(lǐng)域的眾多企業(yè)。Ghodsi 表示,目前總共有超過 5000 個組織的數(shù)據(jù)團(tuán)隊正在使用 Databricks 的數(shù)據(jù)分析平臺,這相當(dāng)于 2019 年初 Databricks 公布的組織數(shù)量(2000 個)的兩倍以上。

“ (我們)是有史以來增長最快的企業(yè)級軟件云廠商之一。我們在海量數(shù)據(jù)處理、機(jī)器學(xué)習(xí)、開源和向云端遷移的賭注都在市場上發(fā)揮了巨大作用,并為我們帶來了海量且快速增長的全球客戶需求。” Ghodsi 補(bǔ)充道。

本輪融資將用于幫助公司擴(kuò)大研發(fā)規(guī)模并繼續(xù)進(jìn)行快速的全球擴(kuò)張。具體來說,Databricks 將:

在未來三年內(nèi),向其最近在阿姆斯特丹成立的歐洲研發(fā)中心投資 1 億歐元。據(jù)稱,該研發(fā)中心在過去兩年中已經(jīng)增長了 3 倍。

建立專門的工程團(tuán)隊,以推進(jìn)其最近推出的多項開源項目的技術(shù)研發(fā),這些項目主要用于數(shù)據(jù)管理和機(jī)器學(xué)習(xí),包括:Delta Lake、MLflow 和 Koalas。

推動和加速公司在全球的業(yè)務(wù)擴(kuò)張,包括歐洲、中東、非洲、亞太地區(qū)和拉丁美洲。

本輪融資領(lǐng)投方 Andreessen Horowitz 的聯(lián)合創(chuàng)始人兼總合伙人 Ben Horowitz 表示:“沒有其他公司像 Databricks 一樣如此成功地將開源軟件商業(yè)化。我們都見證了 Apache Spark 作為大數(shù)據(jù)處理標(biāo)準(zhǔn)的強(qiáng)勢發(fā)展。毫不意外,我們將繼續(xù)看到該團(tuán)隊在開源上做出更多創(chuàng)新,包括 Delta Lake、MLflow 和 Koalas。”

關(guān)于 Databricks

Databricks 由 Apache Spark 的創(chuàng)始成員創(chuàng)立,而 Apache Spark 是由加州大學(xué)伯克利分校 AMPLab 基于 Scala 開發(fā)的一個開源分布式通用集群計算框架,從 2014 年左右開始得到廣泛關(guān)注,經(jīng)過幾年發(fā)展逐漸成為大數(shù)據(jù)處理的事實標(biāo)準(zhǔn)。雖然 Spark 仍然是 Databricks 的一個關(guān)鍵產(chǎn)品,但現(xiàn)在只是 Databricks 所做的眾多事情中的一小部分。如今 Databricks 已將重點轉(zhuǎn)向機(jī)器學(xué)習(xí)。

開源 MLflow

MLflow 是一個能夠覆蓋機(jī)器學(xué)習(xí)全流程(從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練到最終部署)的開源新平臺,旨在為數(shù)據(jù)科學(xué)家構(gòu)建、測試和部署機(jī)器學(xué)習(xí)模型的復(fù)雜過程做一些簡化工作。有了 MLflow,數(shù)據(jù)科學(xué)家就可以在本地(筆記本電腦)或遠(yuǎn)程(云端)跟蹤和共享機(jī)器學(xué)習(xí)實驗、跨框架打包和共享模型,并幾乎可以在任何地方部署模型。

作為一家大數(shù)據(jù)解決方案公司,Databricks 與數(shù)百家使用機(jī)器學(xué)習(xí)的公司合作,所以能夠清楚地了解他們的痛點,比如工具太過復(fù)雜、難以跟蹤實驗、難以重現(xiàn)結(jié)果、難以部署模型。由于這些挑戰(zhàn)的存在,機(jī)器學(xué)習(xí)開發(fā)必須變得與傳統(tǒng)軟件開發(fā)一樣強(qiáng)大、可預(yù)測和普及。為此,很多企業(yè)已經(jīng)開始構(gòu)建內(nèi)部機(jī)器學(xué)習(xí)平臺來管理機(jī)器學(xué)習(xí)生命周期。例如,F(xiàn)acebook、谷歌和優(yōu)步分別構(gòu)建了 FBLearner Flow、TFX 和 Michelangelo 來進(jìn)行數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和部署。但這些內(nèi)部平臺存在一定的局限性:典型的機(jī)器學(xué)習(xí)平臺只支持一小部分內(nèi)置算法或單個機(jī)器學(xué)習(xí)庫,并且被綁定在公司內(nèi)部的基礎(chǔ)設(shè)施上。用戶無法輕易地使用新的機(jī)器學(xué)習(xí)庫,或與社區(qū)分享他們的工作成果。

Databricks 認(rèn)為應(yīng)該使用一種更好的方式來管理機(jī)器學(xué)習(xí)生命周期,于是他們推出了 MLflow。MLflow 主要包含了三個組件:

 

 

跟蹤組件支持記錄和查詢實驗數(shù)據(jù),如評估度量指標(biāo)和參數(shù);項目組件提供可重復(fù)運(yùn)行的簡單包裝格式;而模型組件則提供用于管理和部署模型的工具。

自一年前發(fā)布第一個版本以來,MLflow 已經(jīng)被數(shù)千個組織所采用。它被用于管理機(jī)器學(xué)習(xí)工作負(fù)載,一些服務(wù)平臺(如 Databricks)還提供了 MLflow 服務(wù)。MLflow 社區(qū)已經(jīng)有 100 多名貢獻(xiàn)者,MLflow PyPI 包的下載頻率已接近每月 60 萬次。MLflow 1.0 已于今年 6 月正式發(fā)布,這一版本不僅標(biāo)志著 API 的成熟和穩(wěn)定,還增加了很多新特性和改進(jìn)。

開源 Delta Lake

Delta Lake 由 Databricks 在今年年初開源,該項目旨在與社區(qū)共同打造一個開放標(biāo)準(zhǔn),以管理數(shù)據(jù)湖中的大量數(shù)據(jù),并不斷提高數(shù)據(jù)湖的可靠性、質(zhì)量和性能。 Delta Lake 為 Apache Spark 和其他大數(shù)據(jù)引擎提供可伸縮的 ACID 事務(wù),讓用戶可以基于 HDFS 和云存儲構(gòu)建可靠的數(shù)據(jù)湖。此外,Delta Lake 還提供了內(nèi)置的數(shù)據(jù)版本控制,可以方便地回滾以及重新生成報告。目前 Delta Lake 已經(jīng)被成千上萬的組織采用,包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其開源生態(tài)一員。

近日,在荷蘭阿姆斯特丹舉行的 Spark+AI 歐洲峰會上,DataBricks 和 Linux 基金會聯(lián)合宣布,開源項目 Delta Lake 正式成為 Linux 基金會的托管項目。

 

 

Delta Lake 提供的主要功能包括:

ACID 事務(wù):Delta Lake 提供多個寫操作之間的 ACID 事務(wù)。每個寫操作都是一個事務(wù),事務(wù)日志中記錄的寫操作有一個串行順序。事務(wù)日志會跟蹤文件級的寫操作,并使用樂觀并發(fā)控制,這非常適合數(shù)據(jù)湖,因為嘗試修改相同文件的多個寫操作并不經(jīng)常發(fā)生。在存在沖突的場景中,Delta Lake 會拋出一個并發(fā)修改異常,以便用戶處理它們并重試它們的作業(yè)。Delta Lake 還提供了強(qiáng)大的序列化隔離級別,允許工程師不斷地對目錄或表進(jìn)行寫操作,而用戶可以不斷地從相同的目錄或表中讀取數(shù)據(jù)。讀取者將看到讀操作開始時存在的最新快照。

模式管理:Delta Lake 會自動驗證正在寫入的 DataFrame 模式是否與表的模式兼容。表中存在但 DataFrame 中不存在的列會被設(shè)置為 null。如果 DataFrame 中有額外的列在表中不存在,那么該操作將拋出異常。Delta Lake 具有可以顯式添加新列的 DDL 和自動更新模式的能力。

可伸縮的元數(shù)據(jù)處理:Delta Lake 將表或目錄的元數(shù)據(jù)信息存儲在事務(wù)日志中,而不是存儲在元存儲(metastore)中。這使得 Delta Lake 能夠在固定的時間內(nèi)列出大型目錄中的文件,并且在讀取數(shù)據(jù)時非常高效。

數(shù)據(jù)版本控制和時間旅行:Delta Lake 允許用戶讀取表或目錄先前的快照。當(dāng)文件在寫期間被修改時,Delta Lake 將創(chuàng)建文件的新版本并保存舊版本。當(dāng)用戶希望讀取表或目錄的舊版本時,他們可以向 Apache Spark 的讀操作 API 提供一個時間戳或版本號,Delta Lake 根據(jù)事務(wù)日志中的信息構(gòu)建該時間戳或版本的完整快照。這使得用戶可以重新進(jìn)行試驗并生成報告,如果需要,還可以將表還原為舊版本。

統(tǒng)一的批處理和流接收(streaming sink):除了批處理寫之外,Delta Lake 還可以使用 Apache Spark 的結(jié)構(gòu)化流作為高效的流接收。再結(jié)合 ACID 事務(wù)和可伸縮的元數(shù)據(jù)處理,高效的流接收現(xiàn)在支持許多接近實時的分析用例,而且無需維護(hù)復(fù)雜的流和批處理管道。

記錄更新和刪除(即將到來):Delta Lake 將支持合并、更新和刪除 DML 命令。這使得工程師可以輕松地維護(hù)和刪除數(shù)據(jù)湖中的記錄,并簡化他們的變更數(shù)據(jù)捕獲和 GDPR 用例。由于 Delta Lake 在文件粒度上跟蹤和修改數(shù)據(jù),因此,比讀取和覆寫整個分區(qū)或表要高效得多。

數(shù)據(jù)期望(即將到來):Delta Lake 還將支持一個新的 API,用于設(shè)置表或目錄的數(shù)據(jù)期望。工程師將能夠通過指定布爾條件及調(diào)整嚴(yán)重程度來處理數(shù)據(jù)期望。當(dāng) Apache Spark 作業(yè)寫入表或目錄時,Delta Lake 將自動驗證記錄,當(dāng)出現(xiàn)違規(guī)時,它將根據(jù)所預(yù)置的嚴(yán)重程度處理記錄。

原文:https://www.infoq.cn/article/zuExwMq5KjQMLLObJqIL

標(biāo)簽: 大數(shù)據(jù)初創(chuàng)公司 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:AI人才稀缺:全面解讀數(shù)據(jù)科學(xué)家成長的4個階段

下一篇:傳統(tǒng)數(shù)據(jù)庫架構(gòu)已經(jīng)不適合新興世界了?