中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

后Hadoop世界中的大數(shù)據(jù)

2019-08-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Alex Woodie 譯者:劉志勇

導(dǎo)讀:

國內(nèi)外都紛紛唱衰 Hadoop,認(rèn)為它沒有未來。 曾發(fā)布的《誰在“謀殺”Hadoop?》、《 Hadoop 不再權(quán)威,開源大數(shù)據(jù)的未來何去何從?》、《 Hadoop 衰落,數(shù)據(jù)湖項目開始失敗,我們該如何應(yīng)對?》等多篇文章,都對 Hadoop 的未來表示擔(dān)憂。今天我們帶來了 Alex Woodie 撰寫的文章,分享了他對后 Hadoop 世界的大數(shù)據(jù)的看法和預(yù)測。

在大數(shù)據(jù)爭奪架構(gòu)霸權(quán)之戰(zhàn)中,云計算顯然是贏家,而 Hadoop 明顯落敗了。現(xiàn)在客戶已經(jīng)不愿在單一的 Hadoop 集群上進(jìn)行投資,轉(zhuǎn)而青睞更靈活(如果不是更便宜的話)的云計算平臺。雖然 Hadoop 上的泡沫已經(jīng)明顯破裂,但在構(gòu)建大數(shù)據(jù)方面,組織仍然面臨許多問題。

HPE 在 8 月 5 日收購了 MapR ,這可以說是 Hadoop 走在消亡路上的一個標(biāo)志。人們曾將 Hadoop 視為未來的前沿平臺,但現(xiàn)在,它看起來就像是另一個已經(jīng)過時的遺留平臺。曾經(jīng)將 Hadoop 視為推動其大數(shù)據(jù)戰(zhàn)略的核心技術(shù)的客戶,現(xiàn)在正尋求轉(zhuǎn)型,采用云平臺來實現(xiàn)這些數(shù)據(jù)戰(zhàn)略。

無論是在技術(shù)層面還是在市場層面,這種轉(zhuǎn)變帶來的影響都是深遠(yuǎn)的。在技術(shù)層面上,Hadoop 將計算和存儲結(jié)合在一起——這是分布式架構(gòu)的標(biāo)志之一,直到社區(qū)修改 HDFS 以支持平淡無奇的 Hadoop 3.0 的抹除碼(erasure code)時,它就已經(jīng)失寵了。為取代 HDFS,我們用大規(guī)模的基于云的對象存儲,構(gòu)建在 AWS S3 模型上,并且能夠根據(jù)需要啟動計算,使用類似 Kubernetes 的虛擬化技術(shù),而不是 YARN。

各組織不再花費大量資金雇傭工程師團(tuán)隊來運行復(fù)雜的本地 Hadoop 集群,他們發(fā)現(xiàn),使用由 AWS、 Microsoft Azure 或 Google Cloud Platform 開發(fā)的預(yù)構(gòu)建分布式計算服務(wù),并將運營控制權(quán)交給云供應(yīng)商更為經(jīng)濟(jì)。

這些云平臺與 Hadoop 非常相似,包括了 Hadoop 世界中出現(xiàn)的所有計算引擎:Spark、Hive、HBase,甚至還包括 MapReduce。但是,運營復(fù)雜性的沉重負(fù)擔(dān)卻落在云供應(yīng)商身上,而不是客戶身上。

阻抗失配

Splice Machine 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Monte Zweben 表示,Hadoop 的操作復(fù)雜性就是一名殺手。Splice Machine 為 Hadoop 和其他平臺開發(fā)了一個關(guān)系數(shù)據(jù)庫。

他稱,“當(dāng)我們想把自己運送到另一個地方,需要一輛車時,我們就會去買一輛車。但我們并不會這樣做:去買懸掛系統(tǒng)、燃料噴射裝置,還有一堆車軸,然后把所有的東西都放在一起?梢赃@么說,我們是不會去拿材料清單的。”

“如果你看一下 Hadoop 和經(jīng)銷商的商業(yè)模式,你就會明白,這些就是你需要組裝產(chǎn)品的材料清單。”Zweben 繼續(xù)說道,“它們非常有效,也非常強大,而且還非常復(fù)雜。它們的目標(biāo)是世界上構(gòu)建軟件的工程組織。它們被賣給世界各地的 IT 組織,這些組織擁有更多的操作技能,能夠?qū)崿F(xiàn)平臺,并使其保持 7x24 的運行狀態(tài)。”

阻抗失配(Impedance Mismatch)正是 Hadoop 消亡的核心,并對 Hadoop 商業(yè)模式造成了損害。面對來自云計算的猛攻,Hadoop 訂購?fù)磺,最終導(dǎo)致了 MapR 和 Cloudrea 的斗爭公開化。 HPE 為 MapR 的減價出售做好了準(zhǔn)備,并在此過程中拯救了財富 500 強(Fortune 500 )和全球 2000 強(Global 2000 )中的許多客戶,使他們免受因運行不受支持的企業(yè)數(shù)據(jù)平臺版本而蒙受恥辱。在前首席執(zhí)行官 Tom Reilly 和其聯(lián)合創(chuàng)始人之一、首席戰(zhàn)略官 Mike Olson 辭職后,Cloudrea 仍然沒有任命常任首席執(zhí)行官。

死而不僵的大象

那么,我們該會走向何處呢? Enterprise Strategy Group 高級分析師 Mike Leone 表示,Hadoop 背后的勢頭已經(jīng)明顯減弱,但尚未完全放棄這頭“黃色大象”。

譯注: Hadoop 的吉祥物是一頭黃色大象。Hadoop 這個名稱,并不代表任何英文詞匯或縮寫詞,只是一個無中生有創(chuàng)造出來的名稱。當(dāng)初原始開發(fā)者 Doug Cutting 在為這個新技術(shù)命名時,他想選一個容易拼寫和發(fā)音、便于溝通,且沒有在其他地方使用過的名字,于是神來一筆地借用兒子黃色毛絨填充大象玩偶的名字,而黃色大象后來也變成了 Hadoop 的官方吉祥物,如圖:

 

 

Leone 告訴 Datanami,“用‘死亡’這個詞,真的有點過了,但市場肯定是在萎縮而不是增長。我們的研究表明,大約有 12% 的組織仍然利用 Hadoop 作為他們分析計劃的一部分。從商業(yè)角度來看,Hadoop 有著驚人的承諾,但在交付方面卻不盡如人意了。”

組織對利用大數(shù)據(jù)有很大的期望,雖然 Hadoop 可能不是將組織帶到大數(shù)據(jù)福地的工具,但這些期望仍然存在。

“現(xiàn)在,隨著主要云供應(yīng)商提供的服務(wù)數(shù)量的不斷增加,有許多不同的方法可以實現(xiàn) Hadoop 承諾的商業(yè)效益。”Leone 說,“對于那些對云不感興趣的行業(yè),主要的云供應(yīng)商希望通過 AWS Outposts 和 Google Cloud 的 Anthos 等技術(shù),使組織能夠?qū)⑺鼈兊拇髷?shù)據(jù)和分析服務(wù)帶到本地環(huán)境中。”

在過去的十年里,由于在 Hadoop 上已經(jīng)投資了數(shù)十億美元,因此企業(yè)不愿意關(guān)閉它們的服務(wù)器集群。相反,大多數(shù)專家都希望 Hadoop 棧能夠堅持一段時間,運行客戶在其上構(gòu)建的定制應(yīng)用。它只是全球 2000 強企業(yè)數(shù)據(jù)中心中的又一項遺留技術(shù),這些數(shù)據(jù)中心仍然運行著 IBM 大型機、AS/400,甚至是偶爾運行的 VAX 系統(tǒng)。

嶄新的云架構(gòu)

云供應(yīng)商戰(zhàn)勝企業(yè)中的 Hadoop 的一個副作用是,云計算的功能正在被移植到企業(yè)內(nèi)部部署的系統(tǒng)中。

基于云的大數(shù)據(jù)系統(tǒng)提供商 Qubole 的首席執(zhí)行官 Ashish Thusoo 稱:“云架構(gòu)正在逐步向本地數(shù)據(jù)中心發(fā)展。云架構(gòu)意味著什么?這意味著所有的基礎(chǔ)設(shè)施都是作為一種服務(wù)提供的,而不是作為整體產(chǎn)品提供的。”

基于 S3 模型構(gòu)建的對象存儲和基于 Kubernetes 的編排框架(允許計算快速啟動和停止),是云計算功能進(jìn)入內(nèi)部部署的數(shù)據(jù)中心最明顯的例子。

“人們普遍認(rèn)為,具有計算、存儲和短暫的計算分離的云架構(gòu)具有很強的自動化能力,可以創(chuàng)建集群,而且作為服務(wù)的所有一切都可以在任何地方實現(xiàn),無處不在。”Thusoo 表示,“它目前還處于發(fā)展的早期階段。它遠(yuǎn)非主流或類似的東西。但這正是我們所看到的這些公用云供應(yīng)商試圖做的事情。”

Hadoop 經(jīng)驗教訓(xùn)

盡管有些人可能會認(rèn)為 Hadoop 市場的瓦解是一個失敗,但其他人會認(rèn)為它是信息技術(shù)歷史上的一個必要篇章。

Hadoop 模仿 Google 開發(fā)的技術(shù),并在 Yahoo 投入使用,最終被其他科技巨頭采用,如 Facebook、Twitter 和 Uber 等,他們都為開源貢獻(xiàn)了自己的創(chuàng)意。Hadoop 方法代表了構(gòu)建分布式系統(tǒng)的一種方法。全球 2000 強企業(yè)首次采用了這種方法。這種方法對于一些公司來說,它的效果很明顯,但對其他公司來說卻不太有效。隨著世界的發(fā)展,其他許多人認(rèn)為更好的架構(gòu)理念出現(xiàn)了,因此我們嘗試了一些新的事物,諸如此類。

Leone 預(yù)測,Hadoop 的教訓(xùn)不會被忽視。他說,“我認(rèn)為,Hadoop 為一種新的做事方式提供了很好的介紹。對于那些等待采用大數(shù)據(jù)處理技術(shù)的組織來說,現(xiàn)在有更好的方法來實現(xiàn)這一點,即 Spark 或利用 Google Cloud Platform 的 Dataproc 或 AWS EMR 之類的云服務(wù)。”

Cloudera 將嘗試與混合數(shù)據(jù)平臺競爭,消除云計算供應(yīng)商帶來的“廠商鎖定”困境(盡管云計算供應(yīng)商顯然將廠商鎖定視為其商業(yè)模式的一個特征,而不是什么 bug)。但根據(jù) Leone 的說法,云計算供應(yīng)商完全淘汰剩下的 Hadoop 供應(yīng)商只是一個時間問題。

“雖然組織仍然可以在他們選擇的云上利用他們首選的 Hadoop 供應(yīng)商技術(shù),但是云計算供應(yīng)商已經(jīng)創(chuàng)建了托管服務(wù),降低與 Hadoop 相關(guān)的所有復(fù)雜性,比如持續(xù)集成、管理和維護(hù)。”Leone 解釋道,“如果組織已經(jīng)投資數(shù)十萬美元來建立為組織創(chuàng)造價值的流程,那么他們將很難改變這些工作流。將這些流程提升并將其轉(zhuǎn)移到云計算供應(yīng)商管理的更高效的基礎(chǔ)架構(gòu)中更有吸引力。對云計算供應(yīng)商來說,最槽糕的情況是組織在他們的基礎(chǔ)架構(gòu)上運行。對于云計算供應(yīng)商來說,最好的情況是放棄 Hadoop 供應(yīng)商,使用他們提供的托管服務(wù)。”

如果 Zweben 能夠做到這一點,那么新的云架構(gòu)的采用者將永遠(yuǎn)不會重復(fù)他認(rèn)為 Hadoop 最槽糕的功能之一:讀取模式(schema on read)。

“在第一代 Hadoop 中,每個人都只是專注于將數(shù)據(jù)放到平臺上。關(guān)于讀取模式有很多討論。這對社區(qū)里的每個人來說,這意味著什么,無須擔(dān)心!只需將數(shù)據(jù)放在 Hadoop 上,人們就會以他們需要的方式來消費數(shù)據(jù)。”

“這是一個可悲的錯誤。”他繼續(xù)道,“它導(dǎo)致了數(shù)據(jù)沼澤。如果你將 Hadoop 的復(fù)雜性、數(shù)據(jù)沼澤的現(xiàn)狀和公用云的成功結(jié)合起來,你會發(fā)現(xiàn)這對 Hadoop 發(fā)行公司來說是一個非常大的問題。”

有人可能會爭辯說,Cloudera、Hortonworks 和 MapR 都錯過了公用云,現(xiàn)在,他們的午餐被 AWS、Azure 和 GCP 給瓜分了。Zweben 說,“這就是事實啊。”但這并不意味著客戶可以繼續(xù)使用他們的新的云架構(gòu),就像他們?yōu)E用 Hadoop 那樣。

他說:“你可以在 S3 或 Azure 數(shù)據(jù)湖上轉(zhuǎn)儲你所有想要的數(shù)據(jù),然后不假思索地這么做,最終你就會跟 Cloudera、Hortonworks 和 MapR 的第一代采用者一樣最終到達(dá)同一個地方,這是錯誤的思維方式。”

在 Zweben 看來,考慮大數(shù)據(jù)的正確方式是,首先弄清楚你希望實現(xiàn)什么樣的業(yè)務(wù)結(jié)果,然后從那里開始著手構(gòu)建。只有在了解業(yè)務(wù)挑戰(zhàn)之后,才能確保自己正在手機正確的數(shù)據(jù),并以正確的方式應(yīng)用機器學(xué)習(xí)。

Zweben 建議說:“首先要考慮要實現(xiàn)現(xiàn)代化的應(yīng)用程序,然后找到你需要的數(shù)據(jù)和你需要注入的模型,以便實現(xiàn)應(yīng)用程序的現(xiàn)代化。這種思維的倒置將徹底改變整個市場。”

原文鏈接:Re-Imagining Big Data in a Post-Hadoop World

標(biāo)簽: Hadoop 大數(shù)據(jù)技術(shù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:機器學(xué)習(xí)并不“萬能”

下一篇:城市大腦:阿里騰訊的新戰(zhàn)局