中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Hadoop 已死,Hadoop 萬歲

2019-10-10    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

本文作者是 Arun C Murthy,Cloudera 現(xiàn)任 CPO,原 Hortonworks 聯(lián)合創(chuàng)始人與 CPO。自 2006 年 Hadoop 誕生就大量參與數(shù)據(jù)工作。老的體育靈魂,牧羊犬工程師。

最近又有很多關(guān)于“Hadoop 已死”的論調(diào),似乎每隔一段時間就會有一些類似的文章或聲音。幾年前 Cloudera 就已經(jīng)停止了以 Hadoop 來營銷自己,而是一家企業(yè)數(shù)據(jù)公司。如今,Cloudera 也已進入企業(yè)數(shù)據(jù)云市場:混合 / 多云和多功能分析,具有通用的安全和治理,所有這些都由開源提供支持。

話雖如此,但要挑戰(zhàn)如潮水般“Hadoop 已死”的負面消息,還是有難度的。我的看法是 Hadoop 代表的是數(shù)據(jù)領(lǐng)域的開源社區(qū),這個社區(qū)本就是由我們共同創(chuàng)造和維護的,這一點在 13 多年的時間里,我從未改變。

什么是 Hadoop

讓我們從基礎(chǔ)開始 - Hadoop 作為 Apache 軟件基金會的一個開源項目開始,使用 HDFS 和 MapReduce 實現(xiàn)批量應(yīng)用,但很快就擴展成為一個廣泛、豐富和開放的生態(tài)系統(tǒng)。今天 Cloudera 的“Hadoop 發(fā)行版”(CDH/HDP/CDP)包含 30 多個開源項目,涉及存儲,計算平臺 (比如 YARN 和未來的 Kubernetes),批量 / 實時計算框架 (Spark,F(xiàn)link 等),編排,SQL,NoSQL,ML,安全 / 治理等等。

所以,如果你認為 Hadoop 僅僅就是 MapReduce,那么是的,我同意 - MapReduce 正在沒落。但這與 Spark,F(xiàn)link 以及其它所有我們所接受的創(chuàng)新都沒有關(guān)系,這些新特性或創(chuàng)新令我們的客戶也非常滿意。這就是這個平臺的美麗與強大之處 - 它可以演變?yōu)閾肀碌姆独?/p>

那么,如果 Hadoop 不是“項目”或一組項目,它是什么?

就個人而言,“Hadoop”是一門哲學 - 向管理和分析數(shù)據(jù)現(xiàn)代架構(gòu)的轉(zhuǎn)變。

呃,再說一次?

“Hadoop 哲學”

Hadoop 哲學一直遵循以下原則:

1. 向每個層(存儲,計算平臺,批處理 / 實時 /SQL 等計算框架)分解軟件棧的轉(zhuǎn)變,構(gòu)建為可組合的樂高積木,遠離單一且不靈活的軟件棧(例如具有自定義存儲格式,解析器以及執(zhí)行引擎等垂直整合的數(shù)據(jù)庫)。

a) 特別是,這有助于建立一個開放元數(shù)據(jù),安全和治理的平臺,以讓分解的軟件棧和諧相處。

2. 利用商用硬件構(gòu)建大規(guī)模分布式系統(tǒng)并遠離專有 / 單一硬件與軟件的轉(zhuǎn)變。

a) 在經(jīng)濟理論中,商品被定義為具有充分或?qū)嵸|(zhì)可替代性且具有廣泛可用性的物品或服務(wù),這通常導致較小的利潤率并且減少除價格之外的因素(例如品牌名稱)的重要性。

b) 請參閱下文,了解如何從架構(gòu)上做出很好的轉(zhuǎn)變,以應(yīng)對公有云的出現(xiàn)。

3. 利用開放數(shù)據(jù)標準和開源技術(shù),遠離專有供應(yīng)商控制技術(shù)的轉(zhuǎn)變。它不僅僅是開放標準,標準是實現(xiàn)而不僅僅是“規(guī)范”。

4. 向靈活且不斷變化的技術(shù)生態(tài)系統(tǒng)(MRv1 -> YARN -> K8s,MapReduce -> Spark/Flink 等)的轉(zhuǎn)變,遠離使用單一技術(shù)棧滿足所有需求,從而在每個層面都實現(xiàn)創(chuàng)新。

在某些方面,“Hadoop 哲學”是數(shù)據(jù)架構(gòu),Ken Thompson 著名的 Unix Philosophy 是軟件開發(fā)。Eric Raymond 在著名的 Art of Unix Programming 一書中闡述的 17 條 Unix 規(guī)則,許多也適用于這個領(lǐng)域:

Unix Philosophy

https://en.wikipedia.org/wiki/Unix_philosophy

Art of Unix Programming

https://en.wikipedia.org/wiki/Unix_philosophy#cite_note-11

17 Rules for Unix

https://en.wikipedia.org/wiki/Unix_philosophy#Eric_Raymond’s_17_Unix_Rules

1. 模塊化原則 (Rule of Modularity):寫簡單的,能夠用清晰的接口連接的代碼。

HDFS,YARN/K8s,Spark,Hive 等可以組合并相互依賴。

……

3. 組件化原則 (Rule of Composition): 設(shè)計可以互相關(guān)聯(lián)(拆分)的程序。

Impala,Hive 和 Spark 等都是高度可組合的,用于端到端的解決方案。

……

4. 分離原則 (Rule of Separation):策略和機制分離,接口和引擎分離。

HDFS 既是文件系統(tǒng)接口,也是文件系統(tǒng)實現(xiàn)。這就是 Spark 通過 Hadoop 兼容文件系統(tǒng)“API”可以與 S3 對話的原因。

……

6. 小巧原則 (Rule of Parsimony):不要寫大的程序(模塊、方法)。除非很明顯的,沒有別的辦法可以完成。

我們避免“大”/“胖”層,而是使用依賴于另一個的模塊化層。比如 Phoenix 和 HBase。

……

7. 透明原則 (Rule of Transparency):為可見性設(shè)計,使檢查和調(diào)試更容易。

開源 For The Win(FTW)

……

16. 多樣性原則 (Rule of Diversity):決不相信所謂 " 不二法門 " 或 " 銀彈 " 的斷言。

我們的生態(tài)系統(tǒng)提供了多種工具,因為它們對于不同的場景有不同的優(yōu)勢 (通過 Spark 或 Hive 進行 ETL,通過 Hive/Tez/LLAP 或 Impala 或 Spark SQL 進行 SQL 查詢)

17. 可擴展性規(guī)則(Rule of Extensibility):設(shè)計著眼未來, 未來總比預想來得快。

2005-2006 年初,我們無法預測 HBase,Hive,Impala,Spark,F(xiàn)link,Kafka 等的出現(xiàn),13 年來我們做了很多工作來使它們成為一流的關(guān)鍵組件。

關(guān)于云

現(xiàn)在公有云 (以及私有云) 顯然已經(jīng)成為企業(yè)部署架構(gòu)的組成部分。

公有云基本上是企業(yè)硬件基礎(chǔ)設(shè)施(服務(wù)器,網(wǎng)絡(luò),數(shù)據(jù)中心等)的商品化。因此,它完全符合“Hadoop 哲學”的原則 - 專注于商品硬件。此外,整個 Hadoop 生態(tài)系統(tǒng)一直是為了“變形 (shape-shift)”并吸收新的變化而建立的 - Tom White 于 2006 年編寫了第一個 S3-Hadoop connector,亞馬遜在 2009 年推出了 EMR。

Tom White wrote the first S3-Hadoop connector in 2006

https://issues.apache.org/jira/browse/HADOOP-574

與此相比,傳統(tǒng)數(shù)據(jù)庫供應(yīng)商分解單一和高度工程化 / 融合的硬件 / 軟件棧使其能“原生”的在公有云中運行,可想而知會有多難。

不幸的是,作為一個行業(yè),我們在幫助市場(特別是金融市場)了解“Hadoop”與傳統(tǒng)技術(shù)在擁抱公有云的能力方面的區(qū)別不是太給力。有些事值得我們?nèi)ニ伎家约叭ソ鉀Q。

AWS EMR,Azure HDInsight 和 Google Dataproc 是 Hadoop 如何在公有云中為客戶大規(guī)模推動價值和業(yè)務(wù)的絕佳例子。

關(guān)于 Cloudera

Cloudera 是一家數(shù)據(jù)公司。我們使人們能夠?qū)?shù)據(jù)轉(zhuǎn)化為清晰且可操作的洞察力。我們通過擁抱“Hadoop 哲學”來實現(xiàn)這一目標。我們建立了這個市場 - 我們?yōu)檫^去感到自豪,但不會被它蒙蔽。我們采用新的主流技術(shù) (公有云,Kubernetes 等),因為這么做是有意義的,使我們的客戶受益,并且與我們的使命一致。

我喜歡貝索斯的哲學:專注于不改變的事物。從現(xiàn)在起一百年后,企業(yè)仍然希望將數(shù)據(jù)轉(zhuǎn)化為洞察力。這就是我們的工作,并將繼續(xù)這樣做。

Focus on things that don’t change

https://www.inc.com/jeff-haden/20-years-ago-jeff-bezos-said-this-1-thing-separates-people-who-achieve-lasting-success-from-those-who-dont.html

對我們來說,有些事情已經(jīng)發(fā)生了變化,我們需要注意到。五年前,當我們成為“it”技術(shù)時,我們獲得了一個大廳通行證 (hall pass)。所有很酷的孩子都想跟我們綁在一起,給我們帶來了他們能找到的所有用例,并將我們展示給他們的朋友。在某種程度上,“答案是 Hadoop - 問題是什么?”是普遍存在的情況。這導致了一些不合理的期望,這些期望在產(chǎn)品生命周期中是不現(xiàn)實的,或者過早。

現(xiàn)在我們必須更努力地說服客戶使用我們帶入市場的東西,但我們帶給他們的價值和理念是毋庸置疑的。我們還需要說服客戶使用我們這些技術(shù),如 CDP。今天他們依舊與我們合作,正如他們在我們的平臺上運行的數(shù)千 PB 數(shù)據(jù)和數(shù)百萬分析應(yīng)用程序所證明的那樣!

從本質(zhì)上講,我們將通過參與用戶和企業(yè)想要存儲 / 管理 / 保護 / 管理 / 分析數(shù)據(jù)的用例來繼續(xù)蓬勃發(fā)展。我們愿意被誤解一段時間,因為這些負面消息會重復出現(xiàn),然后會慢慢消退,因為我們用結(jié)果來證明一切。所有偉大的公司會不時被誤解,但經(jīng)久不衰的公司會堅忍不拔。

我前幾天在社交媒體上看到了這個評論:

“如果我在 Kubernetes 上使用 CDP 運行 Spark 來分析 S3 中的數(shù)據(jù),那么 Hadoop 在哪里?”

我其實笑得很開心,并且想:

只要您使用 CDP 服務(wù)… :-)

Gartner 分析師 Merv Adrian 喜歡講述一個類似的故事,一個客戶稱他“最喜歡的 Hadoop 應(yīng)用程序”是使用 Spark 運行 TensorFlow 分析 S3 中的數(shù)據(jù)。Merv 問他為什么那是 Hadoop,他回答說:“它是“Hadoop”,因為 Hadoop 團隊建立了它”。此外,使用的 Spark 確實來自 Hadoop 發(fā)行版。因此 Merv 指出:“情人眼里出 Hadoop”。

CDP 的基本目標是作為一個云服務(wù),讓企業(yè)不用面對大量復雜的技術(shù),而能夠更簡單的從平臺獲取價值。特別是我們在 CDP 中為數(shù)據(jù)倉庫和機器學習提供原生的 SAAS 服務(wù),使業(yè)務(wù)用戶可以輕松的對云對象存儲中的數(shù)據(jù)進行分析。此外,SDX 使用 ABAC 和存儲在對象存儲和本地 HDFS 中的數(shù)據(jù)的細粒度策略建立完全安全的數(shù)據(jù)湖,以及治理和加密(包括存儲加密和傳輸加密)。我們在這方面取得的進展非常非常令人興奮 - 正如我們從許多企業(yè)客戶提供的反饋中看到的那樣!

所以,Hadoop 已死?

你所認為的傳統(tǒng)的 Hadoop 已經(jīng)死了,確實如此。但 Hadoop 作為一門哲學,推動不斷發(fā)展的開源技術(shù)生態(tài)系統(tǒng)和開放數(shù)據(jù)標準,使人們能夠?qū)?shù)據(jù)轉(zhuǎn)化為洞察力,這門哲學是充滿活力和持久的。

只要有數(shù)據(jù),就會有“Hadoop”。

Hadoop 已死,“Hadoop”萬歲。

Apache Hadoop,Apache Spark,Apache Flink,Apache Hadoop HDFS,Apache HBase 等都是 Apache Software Foundation 的商標。

原文地址:

https://medium.com/@acmurthy/hadoop-is-dead-long-live-hadoop-f22069b264ac

本文來源:Cloudera 中國

標簽: Hadoop

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:新興企業(yè)的大數(shù)據(jù)測試視角

下一篇:科技部33項「新一代人工智能重大項目」公示,這些高校項目入選