中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Hadoop老矣,為什么騰訊還要花精力在其開源發(fā)布上?

2018-07-12    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
前些日子,騰訊主導(dǎo)開源大數(shù)據(jù)平臺(tái) Apache Hadoop 2.8.4 新版本發(fā)布的新聞引起了筆者的注意。自 Hadoop 從雅虎誕生之日起,已經(jīng)走過(guò)了 10 來(lái)個(gè)年頭,這期間,尤其是近年來(lái),由華人作為 Release Manager 主導(dǎo)新版本發(fā)布已經(jīng)有過(guò)不少先例,不過(guò)背后的公司不外乎雅虎、微軟、Hortonworks、Cloudera 等美國(guó)公司。而這次的新版本是首次由中國(guó)公司主導(dǎo)發(fā)布,這對(duì)于國(guó)內(nèi)的開源社區(qū)當(dāng)然是一個(gè)重要的鼓勵(lì),說(shuō)明中國(guó)的開發(fā)者和開發(fā)組織完全有能力突破障礙,來(lái)勝任熱門開源社區(qū)中的更有影響力的角色;另一方面,這也意味著騰訊長(zhǎng)期以來(lái)支持和擁抱開源以及開源社區(qū)的舉動(dòng)有了回報(bào),開始收獲開源社區(qū)影響力了。

對(duì)于筆者來(lái)說(shuō),更加好奇的卻是另外一個(gè)問(wèn)題,在國(guó)內(nèi)外紛紛唱衰 Hadoop 的論調(diào)中,為什么騰訊還要花費(fèi)這么大精力去主導(dǎo) Hadoop 的開源版本發(fā)布?

Hadoop 最早誕生于 2006 年,并在 2008 年成為 Apache 頂級(jí)項(xiàng)目。雖然在誕生之初,只有國(guó)內(nèi)外幾家巨頭嘗試使用 Hadoop 技術(shù),但沒過(guò)多久,Hadoop 就成為了互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)計(jì)算的標(biāo)準(zhǔn)配置,Hadoop 也快速成為 Apache 軟件基金會(huì)的金牌項(xiàng)目之一。不僅如此,它還孕育了包括 HBase、Hive、ZooKeeper 等一系列知名 Apache 頂級(jí)項(xiàng)目,而這些項(xiàng)目一開始都是以 Apache Hadoop 子項(xiàng)目的形式在社區(qū)運(yùn)作并為開發(fā)者熟知的。

至今,Hadoop 已經(jīng)走過(guò)了 12 個(gè)年頭,這對(duì)于任何軟件來(lái)說(shuō)生命周期都不可謂不長(zhǎng)。而從 2016 年開始,國(guó)內(nèi)外就開始出現(xiàn)唱衰 Hadoop 的聲音。雖然對(duì)于國(guó)內(nèi)外很多企業(yè)來(lái)說(shuō),Hadoop 依然是大數(shù)據(jù)計(jì)算不可缺少的配置,但對(duì)于 Hadoop 未來(lái)的發(fā)展,很多人都并不看好,“談不上會(huì)有好的發(fā)展”。Hadoop 背后最大的平臺(tái)提供商 Hortonworks 也開始往以云計(jì)算為中心的世界靠攏。

 

 

去年 9 月,Gartner 將 Hadoop 發(fā)行版從數(shù)據(jù)管理的技術(shù)成熟度曲線中淘汰出局,原因是由于整個(gè) Hadoop 堆棧的復(fù)雜性和可用性問(wèn)題,許多組織已經(jīng)開始重新考慮其在信息基礎(chǔ)架構(gòu)中的角色。而今年 KDnuggets 發(fā)布的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工具調(diào)查報(bào)告則顯示 Hadoop 的使用率也下降了,這讓“Hadoop 老矣”的說(shuō)法又再度流傳起來(lái)。

 

 

2018 年數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工具調(diào)查報(bào)告顯示 Hadoop 使用率下降 35%

在這個(gè)時(shí)候,為什么騰訊要花費(fèi)大力氣去主導(dǎo) Hadoop 開源版本的發(fā)布?

負(fù)責(zé)主導(dǎo)本次開源版本發(fā)布的騰訊云專家研究員堵俊平告訴我們,真正“老矣”的是 Hadoop 商業(yè)發(fā)行版而非 Hadoop 技術(shù)本身, 不論在國(guó)內(nèi)還是國(guó)外,Hadoop 技術(shù)都保持著大數(shù)據(jù)平臺(tái)的核心和事實(shí)標(biāo)準(zhǔn)地位。需要變革的是 Hadoop 技術(shù)的使用和發(fā)行方式,未來(lái)越來(lái)越多的用戶從使用線下 Hadoop 發(fā)行版向云上的數(shù)據(jù)湖(對(duì)象存儲(chǔ) +Hadoop)遷移可能會(huì)成為一種趨勢(shì)。

騰訊選用 Hadoop:兼顧平臺(tái)穩(wěn)定性和技術(shù)先進(jìn)性騰訊的大數(shù)據(jù)平臺(tái)有不少為自身特殊場(chǎng)景優(yōu)化甚至重新自研的產(chǎn)品和組件,但有相當(dāng)大的一部分是基于開源 Hadoop 生態(tài)組件構(gòu)建的。

目前騰訊的大數(shù)據(jù)平臺(tái)用到了非常多的 Hadoop 生態(tài)組件。以騰訊云上開放的彈性 MapReduce 服務(wù)為例,騰訊提供了 Hadoop、HBase、Spark、Hive、Presto、Storm、Flink、Sqoop 等組件服務(wù)。不同組件也發(fā)揮了不同的用處:數(shù)據(jù)存儲(chǔ)和計(jì)算資源調(diào)度由 Hadoop 來(lái)實(shí)現(xiàn),數(shù)據(jù)的導(dǎo)入可以用 Sqoop,HBase 提供了 NoSQL 數(shù)據(jù)庫(kù)服務(wù),離線數(shù)據(jù)處理由 MapReduce、Spark、Hive 等完成,流式數(shù)據(jù)處理則由 Storm、Spark Streaming 以及 Flink 來(lái)提供等等。

堵俊平表示,對(duì)于 Hadoop 生態(tài)的各類組件的選型,騰訊的總體原則是兼顧平臺(tái)穩(wěn)定性和技術(shù)先進(jìn)性。一方面,需要理解每個(gè)組件所適用的場(chǎng)景以及它們的能力邊界,另一方面,從測(cè)試和運(yùn)維實(shí)踐來(lái)看,要了解每個(gè)組件的穩(wěn)定程度和運(yùn)維復(fù)雜度。以基于 Hadoop 的數(shù)倉(cāng)組件為例,新版的 Hive 增加了 LLAP 組件來(lái)提升交互式查詢的性能和速度,但從當(dāng)前運(yùn)行的實(shí)際效果來(lái)看并不穩(wěn)定,所以騰訊暫緩把這個(gè)組件引入生產(chǎn)系統(tǒng),Hive 更多服務(wù)于離線計(jì)算的場(chǎng)景,而交互式查詢由更為穩(wěn)定的 SparkSQL 和 Presto 來(lái)提供。

騰訊并非個(gè)例,在國(guó)內(nèi)外很多企業(yè)的大數(shù)據(jù)平臺(tái)中,Hadoop 生態(tài)的各類組件都占了相當(dāng)大的比重。誰(shuí)都離不開它,但可能應(yīng)用太普遍,Hadoop 受到的關(guān)注反而變少了。作為 Hadoop 的 PMC,堵俊平表示,Hadoop 作為大數(shù)據(jù)平臺(tái)的核心和事實(shí)標(biāo)準(zhǔn)地位,在國(guó)內(nèi)外并沒有太大的區(qū)別。不過(guò)在各個(gè)行業(yè),Hadoop 應(yīng)用的成熟度卻不盡相同。舉例來(lái)說(shuō),Hadoop 在互聯(lián)網(wǎng)公司應(yīng)用的最早也最為成熟;其次是金融行業(yè),Hadoop 大數(shù)據(jù)平臺(tái)落地的成功案例很多,也相對(duì)比較成熟。當(dāng)前 Hadoop 大數(shù)據(jù)平臺(tái)應(yīng)用的熱點(diǎn)是在政務(wù)和安防領(lǐng)域以及 IOT 工業(yè)互聯(lián)網(wǎng)平臺(tái),這些新的熱點(diǎn)帶來(lái)新的需求也會(huì)促使 Hadoop 技術(shù)和生態(tài)繼續(xù)向前進(jìn)化。

Hadoop 技術(shù)未老,但使用和發(fā)行方式需要變革

對(duì)于 Gartner 將 Hadoop 從技術(shù)成熟度曲線中淘汰出局,堵俊平指出,Gartner 的報(bào)告是針對(duì) Hadoop 商業(yè)發(fā)行版而非 Hadoop 技術(shù)本身。

報(bào)告中所提到的 Hadoop 發(fā)行版的問(wèn)題:比如發(fā)行版的復(fù)雜度高以及包含很多非必要性組件,從用戶的反饋來(lái)看,是真實(shí)存在的。很多商業(yè)發(fā)行版,例如 CDH 或者 HDP,都包含了洋洋灑灑十幾種甚至幾十種組件給用戶使用,在提供靈活性的同時(shí),也給用戶帶來(lái)了很多使用和運(yùn)維上的煩惱。更嚴(yán)重的是,這個(gè)問(wèn)題從近幾年的觀察來(lái)看,不但沒有減輕且有愈演愈烈的趨勢(shì)。所以,Hadoop 技術(shù)的使用和發(fā)行的方式需要變革,未來(lái)越來(lái)越多的用戶從使用線下的 Hadoop 發(fā)行版向云上的數(shù)據(jù)湖(對(duì)象存儲(chǔ) +Hadoop)遷移可能會(huì)成為一種趨勢(shì)。

堵俊平坦言,Hadoop 生態(tài)確實(shí)存在一些不足。Hadoop 的生態(tài)系統(tǒng)非常復(fù)雜,每個(gè)組件都是獨(dú)立的模塊,由單獨(dú)的開源社區(qū)開發(fā)和發(fā)布,我們可以稱之為松耦合。這種松耦合的開發(fā)方式,好處是靈活、適應(yīng)面廣、開發(fā)周期可控,缺點(diǎn)是組件之間配合的成熟度低、版本沖突嚴(yán)重、集成測(cè)試?yán)щy。這也給用戶的使用帶來(lái)了困難,因?yàn)橐粋(gè)場(chǎng)景中需要涉及到很多組件的配置工作。

雖然流計(jì)算對(duì)于大數(shù)據(jù)處理來(lái)說(shuō)越來(lái)越重要,但不支持流計(jì)算卻不會(huì)成為 Hadoop 的致命傷。雖然 Hadoop 自身不提供流計(jì)算服務(wù),不過(guò)主要的流計(jì)算組件,如 Storm、Spark Streaming 以及 Flink 本身就屬于 Hadoop 生態(tài)系統(tǒng)的一部分,因此并不構(gòu)成太大的問(wèn)題。

Hadoop 生態(tài)組件競(jìng)爭(zhēng)激烈,Spark 優(yōu)勢(shì)明顯,MapReduce 已進(jìn)入維護(hù)模式

曾有開發(fā)者表示,Hadoop 主要是被 MapReduce 拖累了,其實(shí) HDFS 和 YARN 都還不錯(cuò)。堵俊平則認(rèn)為 MapReduce 拖累 Hadoop 的說(shuō)法并不準(zhǔn)確,首先MapReduce 還是有應(yīng)用場(chǎng)景,只是越來(lái)越窄,它仍然適合某些超大規(guī)模數(shù)據(jù)處理的批量任務(wù),且任務(wù)運(yùn)行非常穩(wěn)定;其次,Hadoop 社區(qū)對(duì)于 MapReduce 的定位就是進(jìn)入維護(hù)模式, 并不追求任何新的功能或性能演進(jìn),這樣可以讓資源投入到更新的計(jì)算框架,比如 Spark、Tez,促進(jìn)其成熟。

HDFS 和 YARN 目前還是大數(shù)據(jù)領(lǐng)域分布式存儲(chǔ)和資源調(diào)度系統(tǒng)的事實(shí)標(biāo)準(zhǔn),不過(guò)也面臨一些挑戰(zhàn)。對(duì) HDFS 而言,在公有云領(lǐng)域,越來(lái)越多的大數(shù)據(jù)應(yīng)用會(huì)選擇跳過(guò) HDFS 而直接使用云上的對(duì)象存儲(chǔ), 這樣比較方便實(shí)現(xiàn)計(jì)算與存儲(chǔ)分離,增加了資源彈性。YARN 也面臨著來(lái)自 Kubernetes 的強(qiáng)大挑戰(zhàn),尤其是原生的 docker 支持,更好的隔離性以及上面生態(tài)的完整性。不過(guò) K8S 在大數(shù)據(jù)領(lǐng)域還是追趕者,在資源調(diào)度器以及和對(duì)各計(jì)算框架支持上還有很大的進(jìn)步空間。

Spark 在計(jì)算框架方面基本上占據(jù)了主導(dǎo)地位,MapReduce 主要是一些歷史應(yīng)用,而 Tez 更像是 Hive 的專屬執(zhí)行引擎。流處理方面,早期的流處理引擎 Storm 正在退役,而當(dāng)前唱主角的則是 Spark Streaming 和 Flink,這兩個(gè)流處理引擎各有千秋,前者強(qiáng)在生態(tài),后者則在架構(gòu)方面有優(yōu)勢(shì)。一個(gè)有意思的情況是,對(duì)于 Spark Streaming 和 Flink 的應(yīng)用在國(guó)內(nèi)外的情況很不一樣,國(guó)內(nèi)已經(jīng)有大量的公司開始使用 Flink 構(gòu)建自己的流處理平臺(tái),但美國(guó)市場(chǎng) Spark Streaming 還是占絕對(duì)主流的地位。當(dāng)然,還有一些新的流處理框架,例如 Kafka Streams 等等,發(fā)展得也不錯(cuò)。

在大數(shù)據(jù) SQL 引擎方面,四大主流引擎 Hive、SparkSQL、Presto 以及 Impala 仍然各有所長(zhǎng)。

Hive 最早由 Facebook 開源貢獻(xiàn)也是早年應(yīng)用最廣泛的大數(shù)據(jù) SQL 引擎,和 MapReduce 一樣,Hive 在業(yè)界的標(biāo)簽就是慢而穩(wěn)定。其無(wú)私地提供了很多公共組件為其他引擎所使用,堪稱業(yè)界良心,比如元數(shù)據(jù)服務(wù) Hive Metastore、查詢優(yōu)化器 Calcite、列式存儲(chǔ) ORC 等。近年來(lái),Hive 發(fā)展很快,例如查詢優(yōu)化方面采用了 CBO,在執(zhí)行引擎方面用 Tez 來(lái)替換 MapReduce,通過(guò) LLAP 來(lái) cache 查詢結(jié)果做優(yōu)化,以及 ORC 存儲(chǔ)不斷演進(jìn)。不過(guò)相比較而言,這些新技術(shù)從市場(chǎng)應(yīng)用來(lái)說(shuō)還不算成熟穩(wěn)定,Hive 仍然被大量用戶定義為可靠的 ETL 工具而非即時(shí)查詢產(chǎn)品。

SparkSQL 這兩年發(fā)展迅猛,尤其在 Spark 進(jìn)入 2.x 時(shí)代,發(fā)展更是突飛猛進(jìn)。其優(yōu)秀的 SQL 兼容性(唯一全部 pass TPC-DS 全部 99 個(gè) query 的開源大數(shù)據(jù) SQL),卓越的性能、龐大且活躍的社區(qū)、完善的生態(tài)(機(jī)器學(xué)習(xí)、圖計(jì)算、流處理等)都讓 SparkSQL 從這幾個(gè)開源產(chǎn)品中脫穎而出,在國(guó)內(nèi)外市場(chǎng)得到了非常廣泛的應(yīng)用。

Presto 這兩年應(yīng)用也非常廣泛,這款內(nèi)存型 MPP 引擎的特點(diǎn)就是處理小規(guī)模數(shù)據(jù)會(huì)非常快,數(shù)據(jù)量大的時(shí)候會(huì)比較吃力。Impala 的性能也非常優(yōu)異,不過(guò)其發(fā)展路線相對(duì)封閉,社區(qū)生態(tài)進(jìn)展比較緩慢,SQL 兼容性也比較差,用戶群體相對(duì)較小。

Hadoop 生態(tài)必然會(huì)向云發(fā)展,IOT 值得長(zhǎng)期關(guān)注

Hadoop 已經(jīng) 12 歲了,未來(lái) Hadoop 生態(tài)將會(huì)如何發(fā)展?堵俊平表示,未來(lái) Hadoop 的生態(tài)會(huì)向云的方向發(fā)展,簡(jiǎn)化運(yùn)維甚至免運(yùn)維既是用戶的需求也是云廠商的優(yōu)勢(shì)所在。越來(lái)越多的數(shù)據(jù)在云中產(chǎn)生、存儲(chǔ)和消費(fèi),從而形成數(shù)據(jù)生命周期在云端的閉環(huán)——數(shù)據(jù)湖。所以云上的數(shù)據(jù)安全和隱私保護(hù)技術(shù)顯得十分重要。

除此之外,Hadoop 在混合云上的部署和應(yīng)用也會(huì)是一個(gè)重要的趨勢(shì),而這方面的技術(shù)和架構(gòu)還不是非常成熟,需要持續(xù)創(chuàng)新和創(chuàng)造。在這樣的背景下,傳統(tǒng) Hadoop 發(fā)行版廠商的話語(yǔ)權(quán)在技術(shù)和商業(yè)層面會(huì)相對(duì)減少,而云廠商的話語(yǔ)權(quán)則會(huì)增大。 另外一個(gè)趨勢(shì)是Hadoop 生態(tài)會(huì)不斷向數(shù)據(jù)應(yīng)用端生長(zhǎng),強(qiáng)調(diào)從數(shù)據(jù)處理到數(shù)據(jù)治理的轉(zhuǎn)變,更方便的 ETL 工具、元數(shù)據(jù)管理與數(shù)據(jù)治理工具會(huì)逐漸走向成熟與完善。最后,Hadoop 生態(tài)也會(huì)從單純的大數(shù)據(jù)平臺(tái)演化到集數(shù)據(jù)與機(jī)器學(xué)習(xí)平臺(tái)為一體, 未來(lái)可助力很多的 AI 應(yīng)用場(chǎng)景。

未來(lái)大數(shù)據(jù)領(lǐng)域比較重要的發(fā)展方向中,IOT 是一個(gè)值得長(zhǎng)期關(guān)注的領(lǐng)域。在大數(shù)據(jù)發(fā)展歷史上,這部分業(yè)務(wù)發(fā)展周期較短,很多技術(shù)都不是非常成熟,標(biāo)準(zhǔn)也沒有完全統(tǒng)一。除此之外,云上的大數(shù)據(jù)產(chǎn)品還有技術(shù)變革的空間,例如:跨數(shù)據(jù)中心 / 云的解決方案、自動(dòng)化關(guān)鍵數(shù)據(jù)業(yè)務(wù)遷移、數(shù)據(jù)隱私保護(hù)、自動(dòng)機(jī)器學(xué)習(xí)等,未來(lái)一定會(huì)有更加創(chuàng)新的產(chǎn)品來(lái)打動(dòng)和吸引用戶上云。

騰訊云會(huì)聚焦云端大數(shù)據(jù)用戶的核心痛點(diǎn),制定相應(yīng)的技術(shù)和產(chǎn)品路線。對(duì)于大數(shù)據(jù)平臺(tái)的底層平臺(tái)架構(gòu),騰訊云會(huì)更加強(qiáng)調(diào) serverless,注重性能與開銷的平衡,提高資源利用率會(huì)是一個(gè)長(zhǎng)期的方向。而 Hadoop 生態(tài)會(huì)繼續(xù)在其中扮演重要角色,因?yàn)槭袌?chǎng)更為認(rèn)可開放和開源的產(chǎn)品以及解決方案。騰訊云也會(huì)繼續(xù)貢獻(xiàn)和回饋開源社區(qū),和社區(qū)一起創(chuàng)造更好更新的技術(shù)來(lái)滿足未來(lái)的需要。

結(jié)語(yǔ)

Hadoop 花了 12 年從一個(gè)新興開源項(xiàng)目成長(zhǎng)為大數(shù)據(jù)平臺(tái)標(biāo)準(zhǔn)配置,實(shí)屬不易。如今 Hadoop 生態(tài)內(nèi)部面臨著來(lái)自眾多年輕開源組件的競(jìng)爭(zhēng)壓力,優(yōu)勝劣汰也很正常,世上沒有十全十美的開源平臺(tái),憑借已有的優(yōu)勢(shì),Hadoop 生態(tài)的地位依然十分穩(wěn)固,但未來(lái)是否還能煥發(fā)出新的活力,抑或在全面云化的進(jìn)程中逐漸式微,仍是一個(gè)未知數(shù)。

標(biāo)簽: 安全 大數(shù)據(jù) 大數(shù)據(jù)處理 大數(shù)據(jù)發(fā)展 大數(shù)據(jù)平臺(tái) 大數(shù)據(jù)應(yīng)用 工業(yè)互聯(lián)網(wǎng)平臺(tái) 公有云 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)公司 互聯(lián)網(wǎng)平臺(tái) 互聯(lián)網(wǎng)行業(yè) 金融 開發(fā)者 數(shù)據(jù)庫(kù) 行業(yè)大數(shù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:蘋果架構(gòu)調(diào)整:AI、機(jī)器學(xué)習(xí)和Siri合并,由前谷歌AI負(fù)責(zé)人領(lǐng)導(dǎo)

下一篇:大數(shù)據(jù)公司挖掘數(shù)據(jù)價(jià)值的49個(gè)典型案例(下篇 )