中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

后Hadoop世界中的大數(shù)據(jù)

2019-08-21    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作者:Alex Woodie 譯者:劉志勇

導(dǎo)讀:

國(guó)內(nèi)外都紛紛唱衰 Hadoop,認(rèn)為它沒(méi)有未來(lái)。 曾發(fā)布的《誰(shuí)在“謀殺”Hadoop?》、《 Hadoop 不再權(quán)威,開源大數(shù)據(jù)的未來(lái)何去何從?》、《 Hadoop 衰落,數(shù)據(jù)湖項(xiàng)目開始失敗,我們?cè)撊绾螒?yīng)對(duì)?》等多篇文章,都對(duì) Hadoop 的未來(lái)表示擔(dān)憂。今天我們帶來(lái)了 Alex Woodie 撰寫的文章,分享了他對(duì)后 Hadoop 世界的大數(shù)據(jù)的看法和預(yù)測(cè)。

在大數(shù)據(jù)爭(zhēng)奪架構(gòu)霸權(quán)之戰(zhàn)中,云計(jì)算顯然是贏家,而 Hadoop 明顯落敗了。現(xiàn)在客戶已經(jīng)不愿在單一的 Hadoop 集群上進(jìn)行投資,轉(zhuǎn)而青睞更靈活(如果不是更便宜的話)的云計(jì)算平臺(tái)。雖然 Hadoop 上的泡沫已經(jīng)明顯破裂,但在構(gòu)建大數(shù)據(jù)方面,組織仍然面臨許多問(wèn)題。

HPE 在 8 月 5 日收購(gòu)了 MapR ,這可以說(shuō)是 Hadoop 走在消亡路上的一個(gè)標(biāo)志。人們?cè)鴮?Hadoop 視為未來(lái)的前沿平臺(tái),但現(xiàn)在,它看起來(lái)就像是另一個(gè)已經(jīng)過(guò)時(shí)的遺留平臺(tái)。曾經(jīng)將 Hadoop 視為推動(dòng)其大數(shù)據(jù)戰(zhàn)略的核心技術(shù)的客戶,現(xiàn)在正尋求轉(zhuǎn)型,采用云平臺(tái)來(lái)實(shí)現(xiàn)這些數(shù)據(jù)戰(zhàn)略。

無(wú)論是在技術(shù)層面還是在市場(chǎng)層面,這種轉(zhuǎn)變帶來(lái)的影響都是深遠(yuǎn)的。在技術(shù)層面上,Hadoop 將計(jì)算和存儲(chǔ)結(jié)合在一起——這是分布式架構(gòu)的標(biāo)志之一,直到社區(qū)修改 HDFS 以支持平淡無(wú)奇的 Hadoop 3.0 的抹除碼(erasure code)時(shí),它就已經(jīng)失寵了。為取代 HDFS,我們用大規(guī)模的基于云的對(duì)象存儲(chǔ),構(gòu)建在 AWS S3 模型上,并且能夠根據(jù)需要啟動(dòng)計(jì)算,使用類似 Kubernetes 的虛擬化技術(shù),而不是 YARN。

各組織不再花費(fèi)大量資金雇傭工程師團(tuán)隊(duì)來(lái)運(yùn)行復(fù)雜的本地 Hadoop 集群,他們發(fā)現(xiàn),使用由 AWS、 Microsoft Azure 或 Google Cloud Platform 開發(fā)的預(yù)構(gòu)建分布式計(jì)算服務(wù),并將運(yùn)營(yíng)控制權(quán)交給云供應(yīng)商更為經(jīng)濟(jì)。

這些云平臺(tái)與 Hadoop 非常相似,包括了 Hadoop 世界中出現(xiàn)的所有計(jì)算引擎:Spark、Hive、HBase,甚至還包括 MapReduce。但是,運(yùn)營(yíng)復(fù)雜性的沉重負(fù)擔(dān)卻落在云供應(yīng)商身上,而不是客戶身上。

阻抗失配

Splice Machine 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Monte Zweben 表示,Hadoop 的操作復(fù)雜性就是一名殺手。Splice Machine 為 Hadoop 和其他平臺(tái)開發(fā)了一個(gè)關(guān)系數(shù)據(jù)庫(kù)。

他稱,“當(dāng)我們想把自己運(yùn)送到另一個(gè)地方,需要一輛車時(shí),我們就會(huì)去買一輛車。但我們并不會(huì)這樣做:去買懸掛系統(tǒng)、燃料噴射裝置,還有一堆車軸,然后把所有的東西都放在一起。可以這么說(shuō),我們是不會(huì)去拿材料清單的。”

“如果你看一下 Hadoop 和經(jīng)銷商的商業(yè)模式,你就會(huì)明白,這些就是你需要組裝產(chǎn)品的材料清單。”Zweben 繼續(xù)說(shuō)道,“它們非常有效,也非常強(qiáng)大,而且還非常復(fù)雜。它們的目標(biāo)是世界上構(gòu)建軟件的工程組織。它們被賣給世界各地的 IT 組織,這些組織擁有更多的操作技能,能夠?qū)崿F(xiàn)平臺(tái),并使其保持 7x24 的運(yùn)行狀態(tài)。”

阻抗失配(Impedance Mismatch)正是 Hadoop 消亡的核心,并對(duì) Hadoop 商業(yè)模式造成了損害。面對(duì)來(lái)自云計(jì)算的猛攻,Hadoop 訂購(gòu)?fù)磺,最終導(dǎo)致了 MapR 和 Cloudrea 的斗爭(zhēng)公開化。 HPE 為 MapR 的減價(jià)出售做好了準(zhǔn)備,并在此過(guò)程中拯救了財(cái)富 500 強(qiáng)(Fortune 500 )和全球 2000 強(qiáng)(Global 2000 )中的許多客戶,使他們免受因運(yùn)行不受支持的企業(yè)數(shù)據(jù)平臺(tái)版本而蒙受恥辱。在前首席執(zhí)行官 Tom Reilly 和其聯(lián)合創(chuàng)始人之一、首席戰(zhàn)略官 Mike Olson 辭職后,Cloudrea 仍然沒(méi)有任命常任首席執(zhí)行官。

死而不僵的大象

那么,我們?cè)摃?huì)走向何處呢? Enterprise Strategy Group 高級(jí)分析師 Mike Leone 表示,Hadoop 背后的勢(shì)頭已經(jīng)明顯減弱,但尚未完全放棄這頭“黃色大象”。

譯注: Hadoop 的吉祥物是一頭黃色大象。Hadoop 這個(gè)名稱,并不代表任何英文詞匯或縮寫詞,只是一個(gè)無(wú)中生有創(chuàng)造出來(lái)的名稱。當(dāng)初原始開發(fā)者 Doug Cutting 在為這個(gè)新技術(shù)命名時(shí),他想選一個(gè)容易拼寫和發(fā)音、便于溝通,且沒(méi)有在其他地方使用過(guò)的名字,于是神來(lái)一筆地借用兒子黃色毛絨填充大象玩偶的名字,而黃色大象后來(lái)也變成了 Hadoop 的官方吉祥物,如圖:

 

 

Leone 告訴 Datanami,“用‘死亡’這個(gè)詞,真的有點(diǎn)過(guò)了,但市場(chǎng)肯定是在萎縮而不是增長(zhǎng)。我們的研究表明,大約有 12% 的組織仍然利用 Hadoop 作為他們分析計(jì)劃的一部分。從商業(yè)角度來(lái)看,Hadoop 有著驚人的承諾,但在交付方面卻不盡如人意了。”

組織對(duì)利用大數(shù)據(jù)有很大的期望,雖然 Hadoop 可能不是將組織帶到大數(shù)據(jù)福地的工具,但這些期望仍然存在。

“現(xiàn)在,隨著主要云供應(yīng)商提供的服務(wù)數(shù)量的不斷增加,有許多不同的方法可以實(shí)現(xiàn) Hadoop 承諾的商業(yè)效益。”Leone 說(shuō),“對(duì)于那些對(duì)云不感興趣的行業(yè),主要的云供應(yīng)商希望通過(guò) AWS Outposts 和 Google Cloud 的 Anthos 等技術(shù),使組織能夠?qū)⑺鼈兊拇髷?shù)據(jù)和分析服務(wù)帶到本地環(huán)境中。”

在過(guò)去的十年里,由于在 Hadoop 上已經(jīng)投資了數(shù)十億美元,因此企業(yè)不愿意關(guān)閉它們的服務(wù)器集群。相反,大多數(shù)專家都希望 Hadoop 棧能夠堅(jiān)持一段時(shí)間,運(yùn)行客戶在其上構(gòu)建的定制應(yīng)用。它只是全球 2000 強(qiáng)企業(yè)數(shù)據(jù)中心中的又一項(xiàng)遺留技術(shù),這些數(shù)據(jù)中心仍然運(yùn)行著 IBM 大型機(jī)、AS/400,甚至是偶爾運(yùn)行的 VAX 系統(tǒng)。

嶄新的云架構(gòu)

云供應(yīng)商戰(zhàn)勝企業(yè)中的 Hadoop 的一個(gè)副作用是,云計(jì)算的功能正在被移植到企業(yè)內(nèi)部部署的系統(tǒng)中。

基于云的大數(shù)據(jù)系統(tǒng)提供商 Qubole 的首席執(zhí)行官 Ashish Thusoo 稱:“云架構(gòu)正在逐步向本地?cái)?shù)據(jù)中心發(fā)展。云架構(gòu)意味著什么?這意味著所有的基礎(chǔ)設(shè)施都是作為一種服務(wù)提供的,而不是作為整體產(chǎn)品提供的。”

基于 S3 模型構(gòu)建的對(duì)象存儲(chǔ)和基于 Kubernetes 的編排框架(允許計(jì)算快速啟動(dòng)和停止),是云計(jì)算功能進(jìn)入內(nèi)部部署的數(shù)據(jù)中心最明顯的例子。

“人們普遍認(rèn)為,具有計(jì)算、存儲(chǔ)和短暫的計(jì)算分離的云架構(gòu)具有很強(qiáng)的自動(dòng)化能力,可以創(chuàng)建集群,而且作為服務(wù)的所有一切都可以在任何地方實(shí)現(xiàn),無(wú)處不在。”Thusoo 表示,“它目前還處于發(fā)展的早期階段。它遠(yuǎn)非主流或類似的東西。但這正是我們所看到的這些公用云供應(yīng)商試圖做的事情。”

Hadoop 經(jīng)驗(yàn)教訓(xùn)

盡管有些人可能會(huì)認(rèn)為 Hadoop 市場(chǎng)的瓦解是一個(gè)失敗,但其他人會(huì)認(rèn)為它是信息技術(shù)歷史上的一個(gè)必要篇章。

Hadoop 模仿 Google 開發(fā)的技術(shù),并在 Yahoo 投入使用,最終被其他科技巨頭采用,如 Facebook、Twitter 和 Uber 等,他們都為開源貢獻(xiàn)了自己的創(chuàng)意。Hadoop 方法代表了構(gòu)建分布式系統(tǒng)的一種方法。全球 2000 強(qiáng)企業(yè)首次采用了這種方法。這種方法對(duì)于一些公司來(lái)說(shuō),它的效果很明顯,但對(duì)其他公司來(lái)說(shuō)卻不太有效。隨著世界的發(fā)展,其他許多人認(rèn)為更好的架構(gòu)理念出現(xiàn)了,因此我們嘗試了一些新的事物,諸如此類。

Leone 預(yù)測(cè),Hadoop 的教訓(xùn)不會(huì)被忽視。他說(shuō),“我認(rèn)為,Hadoop 為一種新的做事方式提供了很好的介紹。對(duì)于那些等待采用大數(shù)據(jù)處理技術(shù)的組織來(lái)說(shuō),現(xiàn)在有更好的方法來(lái)實(shí)現(xiàn)這一點(diǎn),即 Spark 或利用 Google Cloud Platform 的 Dataproc 或 AWS EMR 之類的云服務(wù)。”

Cloudera 將嘗試與混合數(shù)據(jù)平臺(tái)競(jìng)爭(zhēng),消除云計(jì)算供應(yīng)商帶來(lái)的“廠商鎖定”困境(盡管云計(jì)算供應(yīng)商顯然將廠商鎖定視為其商業(yè)模式的一個(gè)特征,而不是什么 bug)。但根據(jù) Leone 的說(shuō)法,云計(jì)算供應(yīng)商完全淘汰剩下的 Hadoop 供應(yīng)商只是一個(gè)時(shí)間問(wèn)題。

“雖然組織仍然可以在他們選擇的云上利用他們首選的 Hadoop 供應(yīng)商技術(shù),但是云計(jì)算供應(yīng)商已經(jīng)創(chuàng)建了托管服務(wù),降低與 Hadoop 相關(guān)的所有復(fù)雜性,比如持續(xù)集成、管理和維護(hù)。”Leone 解釋道,“如果組織已經(jīng)投資數(shù)十萬(wàn)美元來(lái)建立為組織創(chuàng)造價(jià)值的流程,那么他們將很難改變這些工作流。將這些流程提升并將其轉(zhuǎn)移到云計(jì)算供應(yīng)商管理的更高效的基礎(chǔ)架構(gòu)中更有吸引力。對(duì)云計(jì)算供應(yīng)商來(lái)說(shuō),最槽糕的情況是組織在他們的基礎(chǔ)架構(gòu)上運(yùn)行。對(duì)于云計(jì)算供應(yīng)商來(lái)說(shuō),最好的情況是放棄 Hadoop 供應(yīng)商,使用他們提供的托管服務(wù)。”

如果 Zweben 能夠做到這一點(diǎn),那么新的云架構(gòu)的采用者將永遠(yuǎn)不會(huì)重復(fù)他認(rèn)為 Hadoop 最槽糕的功能之一:讀取模式(schema on read)。

“在第一代 Hadoop 中,每個(gè)人都只是專注于將數(shù)據(jù)放到平臺(tái)上。關(guān)于讀取模式有很多討論。這對(duì)社區(qū)里的每個(gè)人來(lái)說(shuō),這意味著什么,無(wú)須擔(dān)心!只需將數(shù)據(jù)放在 Hadoop 上,人們就會(huì)以他們需要的方式來(lái)消費(fèi)數(shù)據(jù)。”

“這是一個(gè)可悲的錯(cuò)誤。”他繼續(xù)道,“它導(dǎo)致了數(shù)據(jù)沼澤。如果你將 Hadoop 的復(fù)雜性、數(shù)據(jù)沼澤的現(xiàn)狀和公用云的成功結(jié)合起來(lái),你會(huì)發(fā)現(xiàn)這對(duì) Hadoop 發(fā)行公司來(lái)說(shuō)是一個(gè)非常大的問(wèn)題。”

有人可能會(huì)爭(zhēng)辯說(shuō),Cloudera、Hortonworks 和 MapR 都錯(cuò)過(guò)了公用云,現(xiàn)在,他們的午餐被 AWS、Azure 和 GCP 給瓜分了。Zweben 說(shuō),“這就是事實(shí)啊。”但這并不意味著客戶可以繼續(xù)使用他們的新的云架構(gòu),就像他們?yōu)E用 Hadoop 那樣。

他說(shuō):“你可以在 S3 或 Azure 數(shù)據(jù)湖上轉(zhuǎn)儲(chǔ)你所有想要的數(shù)據(jù),然后不假思索地這么做,最終你就會(huì)跟 Cloudera、Hortonworks 和 MapR 的第一代采用者一樣最終到達(dá)同一個(gè)地方,這是錯(cuò)誤的思維方式。”

在 Zweben 看來(lái),考慮大數(shù)據(jù)的正確方式是,首先弄清楚你希望實(shí)現(xiàn)什么樣的業(yè)務(wù)結(jié)果,然后從那里開始著手構(gòu)建。只有在了解業(yè)務(wù)挑戰(zhàn)之后,才能確保自己正在手機(jī)正確的數(shù)據(jù),并以正確的方式應(yīng)用機(jī)器學(xué)習(xí)。

Zweben 建議說(shuō):“首先要考慮要實(shí)現(xiàn)現(xiàn)代化的應(yīng)用程序,然后找到你需要的數(shù)據(jù)和你需要注入的模型,以便實(shí)現(xiàn)應(yīng)用程序的現(xiàn)代化。這種思維的倒置將徹底改變整個(gè)市場(chǎng)。”

原文鏈接:Re-Imagining Big Data in a Post-Hadoop World

標(biāo)簽: Hadoop 大數(shù)據(jù)技術(shù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:機(jī)器學(xué)習(xí)并不“萬(wàn)能”

下一篇:城市大腦:阿里騰訊的新戰(zhàn)局