Hadoop之殤：沒(méi)有任何單一技術(shù)能重塑整個(gè)企業(yè)IT世界

2019-09-19 來(lái)源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

我曾在 Gigaom 網(wǎng)站上花了很多時(shí)間討論 Hadoop，并長(zhǎng)期關(guān)注 Hadoop 項(xiàng)目及其背后公司的發(fā)展情況。因此，在過(guò)去一年親眼見(jiàn)證項(xiàng)目逐步從人們視野中消失之后，我開(kāi)始思考到底出了怎么狀況。在去年 10 月 Cloudera-Hortonworks 宣布合并時(shí)，我就做出過(guò)思考，但內(nèi)容還不太完善。希望今天的文章能夠真正系統(tǒng)地論述這個(gè)議題。

近十年來(lái)， Hadoop 一直是“大數(shù)據(jù)”領(lǐng)域的典型代表。它新鮮，它開(kāi)源，它催生出整個(gè)產(chǎn)品與供應(yīng)商市場(chǎng)，而它的靈感則來(lái)自技術(shù)培訓(xùn)領(lǐng)域各大最強(qiáng)網(wǎng)站的實(shí)際運(yùn)營(yíng)狀況。然而，現(xiàn)在回顧起來(lái)，Hadoop 似乎永遠(yuǎn)無(wú)法達(dá)成其崇高的發(fā)展愿景。雖然 Hadoop 項(xiàng)目仍然又大又新，但如今的世界已經(jīng)快速轉(zhuǎn)至更重視速度、靈活性、微觀要素甚至是已知數(shù)量的階段。

Hadoop 當(dāng)初選擇了全面普及的道路，并與其它一系列技術(shù)產(chǎn)生了交叉與重合;從長(zhǎng)遠(yuǎn)來(lái)看，這條道路有助于其提高自身影響力，但負(fù)面因素則是導(dǎo)致其逐漸偏離當(dāng)初做出的最具價(jià)值的承諾。Hadoop 的故事可以幫助我們理解為什么現(xiàn)今的數(shù)據(jù)世界會(huì)呈現(xiàn)出這樣的面貌，同時(shí)也能夠給任何打算深入探索企業(yè) IT 發(fā)展趨勢(shì)的朋友們帶來(lái)寶貴教訓(xùn)。下一個(gè)大事件會(huì)是什么?答案也許就在其中。

如今，熱錢(qián)滿天飛，企業(yè)探索技術(shù)并掌握技術(shù)的壓力如此之大(又稱數(shù)字化轉(zhuǎn)型)，人們自然傾向于將每一件新事物都視為有可能產(chǎn)生重大影響的潛在重點(diǎn)。這是一種極高的要求，但組織中的決策者必須得透過(guò)炒作看清這些事物所做出的承諾與其實(shí)際能夠達(dá)成的目標(biāo)之間的界線。以此為基礎(chǔ)，我們才能正確選擇最適合自身發(fā)展需求的技術(shù)方案。

總有更多空間可供挖掘……

誠(chéng)然，每個(gè)人都希望獲取(目前也仍然希望)Hadoop 最初承諾的能力。他們希望從網(wǎng)絡(luò)日志、天氣記錄以及其它相對(duì)新穎的資源當(dāng)中收集大量非結(jié)構(gòu)化數(shù)據(jù)，對(duì)其加以分析并發(fā)現(xiàn)新的趨勢(shì)或者獨(dú)特的業(yè)務(wù)洞察能力。很多高管都希望實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)目標(biāo)，幫助自己擺脫那些討厭的直覺(jué)以及定性證據(jù)的影響。在大數(shù)據(jù)發(fā)展之初，這樣的目標(biāo)甚至可以說(shuō)是整個(gè)新生行業(yè)為自己定下的奮斗原則。

當(dāng)時(shí)有句口號(hào)，叫作發(fā)掘“數(shù)據(jù)不合理性中的價(jià)值”。企業(yè) IT 終于有望從數(shù)據(jù)中汲取養(yǎng)分，這一切終于不再是谷歌公司的專利。

然而，大數(shù)據(jù)世界中發(fā)生的諸多事件一步步侵蝕了 Hadoop 分布式文件系統(tǒng)(HDFS)的基礎(chǔ)，以及用于運(yùn)行 MapReduce(最初的 Hadoop 編程模型)任務(wù)的計(jì)算引擎。好吧，整個(gè)過(guò)程其實(shí)相當(dāng)復(fù)雜，下面我就盡可能精簡(jiǎn)一下：

功能機(jī)發(fā)展為智能機(jī)，并開(kāi)始產(chǎn)生大量實(shí)時(shí)數(shù)據(jù)流。社交網(wǎng)絡(luò)全面起飛并開(kāi)始生成實(shí)時(shí)數(shù)據(jù)流。成本低廉的傳感器與物聯(lián)網(wǎng)迅速發(fā)展，這也成為新的實(shí)時(shí)數(shù)據(jù)來(lái)源。遺憾的是，“MapReduce”與“實(shí)時(shí)”往往扯不上什么關(guān)系。

企業(yè)已經(jīng)在關(guān)系數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)身上投入了數(shù)十億美元，而且這些技術(shù)目前的運(yùn)作效果仍然不錯(cuò)。更重要的是，技術(shù)人員已經(jīng)對(duì) SQL 相當(dāng)熟悉。

以 Apache Spark 為代表的競(jìng)爭(zhēng)性、或者說(shuō)是替代性項(xiàng)目開(kāi)始持續(xù)涌現(xiàn)，這些來(lái)自企業(yè)、大學(xué)以及網(wǎng)絡(luò)公司的新興方案也成功超越了大數(shù)據(jù)整體理念中的種種早期限制。

風(fēng)險(xiǎn)資本流入大數(shù)據(jù)初創(chuàng)企業(yè)。其中包括圍繞 Hadoop 建立自己的初創(chuàng)企業(yè)，也包括各類新興項(xiàng)目與相關(guān)技術(shù)。雖然理論上，參與各方都在朝著同一個(gè)方向邁進(jìn)，但在發(fā)展業(yè)務(wù)的過(guò)程中，具體激勵(lì)因素有時(shí)并不一致。

我完全理解 Hadoop 社區(qū)做出的選擇：他們與盡可能多的技術(shù)進(jìn)行集成，并構(gòu)建起一個(gè)業(yè)務(wù)流程層，以便在大型共享基礎(chǔ)設(shè)施當(dāng)中調(diào)度各類不同部分中的作業(yè)。正因?yàn)槿绱�，我們得�?Pig、Hive、SQL-on-Hadoop 以及 YARN，同時(shí)也迎來(lái)了 Storm、Kafka 以及 Spark 等的加入。盡管 Hadoop 仍然非常復(fù)雜且難以操作，但它還是成功發(fā)展成了一套真正的數(shù)據(jù)平臺(tái)。

技術(shù)無(wú)法在真空中存在

與此同時(shí)，其它一些重要的事件正在發(fā)生;雖然有一些看似與大數(shù)據(jù)領(lǐng)域無(wú)關(guān)人，但卻給 Hadoop 乃至整個(gè)大數(shù)據(jù)社區(qū)帶來(lái)重要影響。從本質(zhì)上講，我們?cè)谌绾潍@取技術(shù)以及如何設(shè)計(jì)應(yīng)用程序這個(gè)問(wèn)題上，經(jīng)歷了幾次重大的集體理解轉(zhuǎn)變：

作為新的企業(yè) IT 主流解決方案，開(kāi)源趨勢(shì)正在全面普及。因此，用戶對(duì)于易用性以及開(kāi)箱即用功能的期望也開(kāi)始增加。各類熱門(mén)項(xiàng)目開(kāi)始在 Apache 軟件基金會(huì)以及其它傳統(tǒng)開(kāi)源社區(qū)之外茁壯成長(zhǎng)。

云計(jì)算統(tǒng)治整個(gè)世界，現(xiàn)在我們不僅能夠輕松構(gòu)建虛擬配置服務(wù)器，還能夠以更低的成本存儲(chǔ)大量數(shù)據(jù)，并使用管理服務(wù)處理特定用例——例如，通過(guò) MapReduce 進(jìn)行數(shù)據(jù)處理。

Docker 與 Kubernetes 的誕生。二者的到來(lái)，共同開(kāi)啟了人們對(duì)于應(yīng)用程序及基礎(chǔ)設(shè)施打包與管理的新思路。更重要的是，二者的模塊化設(shè)計(jì)吸引到各大社區(qū)的高度關(guān)注，意味著用戶們能夠隨意交換不同的部分或者特定功能，同時(shí)保證新功能快速上線。

深度學(xué)習(xí)將人工智能與機(jī)器學(xué)習(xí)牽引至聚光燈下。在基礎(chǔ)設(shè)施之外，圍繞深度學(xué)習(xí)的討論主要集中在如何使模型與算法進(jìn)行復(fù)雜的模式識(shí)別，且確保我們無(wú)需對(duì)其中的參數(shù)或內(nèi)容進(jìn)行手動(dòng)調(diào)整。沒(méi)錯(cuò)，在生產(chǎn)環(huán)境中引入 AI 絕不像“添加數(shù)據(jù)”那么簡(jiǎn)單，但人們更熱衷于談?wù)撈渲械纳虡I(yè)機(jī)會(huì)——畢竟這件事的門(mén)檻至少要比討論集群規(guī)模要低一些，也更有吸引力一些。

微服務(wù)成為現(xiàn)代應(yīng)用程序中的客觀架構(gòu)標(biāo)準(zhǔn)，隨后則出現(xiàn)了“無(wú)服務(wù)器”計(jì)算與函數(shù)。二者的誕生主要是為了支持事件驅(qū)動(dòng)型架構(gòu)這一思路——簡(jiǎn)單來(lái)說(shuō)，就是當(dāng)事情 A 發(fā)生時(shí)，服務(wù) B 自動(dòng)做出響應(yīng)。

現(xiàn)狀：事件、AI 以及“即服務(wù)”

這些因素匯集起來(lái)，共同成就了我們當(dāng)前面對(duì)的客觀現(xiàn)狀。沒(méi)錯(cuò)，Hadoop 仍然存在且不斷發(fā)展，但卻已經(jīng)越來(lái)越不可能成為很多人當(dāng)初預(yù)測(cè)的那種不可或缺的基礎(chǔ)性技術(shù)。相反，大多數(shù)社區(qū)開(kāi)始采用更快、模塊化程度更高且更為簡(jiǎn)單的工具與平臺(tái)集合，并將數(shù)據(jù)作為應(yīng)用程序架構(gòu)中的一種組成部分——而非單純有待分析的素材。

具體來(lái)講，我們現(xiàn)在觀察到了以下趨勢(shì)：

流數(shù)據(jù)與事件驅(qū)動(dòng)型架構(gòu)越來(lái)越受歡迎。雖然其背后的基本思路已經(jīng)擁有一定歷史，但如今的技術(shù)與架構(gòu)進(jìn)步真正將其轉(zhuǎn)化為現(xiàn)實(shí)，包括流處理甚至是基于函數(shù)(又稱「無(wú)服務(wù)器」)計(jì)算。在大多數(shù)情況下，快速處理數(shù)據(jù)的能力要比批量處理數(shù)據(jù)或者對(duì)歷史數(shù)據(jù)進(jìn)行分析等方法更具價(jià)值。

Apache Kafka 正成為越來(lái)越多數(shù)據(jù)架構(gòu)中的神經(jīng)系統(tǒng)。Kafka 不僅能夠提供上述多種功能，同時(shí)爆棚的人氣也使其成為各類項(xiàng)目與技術(shù)供應(yīng)商的優(yōu)先選擇。Kafka 開(kāi)始成為一切其它數(shù)據(jù)功能不可忽視的核心平臺(tái)(只要啟動(dòng)并運(yùn)行 Kafka，它就能夠完成將數(shù)據(jù)導(dǎo)入 Hadoop 及其它批處理系統(tǒng)的工作)。

云計(jì)算已經(jīng)在基礎(chǔ)設(shè)施、存儲(chǔ)、數(shù)據(jù)分析以及 AI 服務(wù)等領(lǐng)域占據(jù)主導(dǎo)地位。Amazon S3 等數(shù)據(jù)存儲(chǔ)服務(wù)在使用感受上，要比管理復(fù)雜的文件系統(tǒng)更輕松也更便宜。云服務(wù)供應(yīng)商帶來(lái)大量能夠?qū)θ繑?shù)據(jù)進(jìn)行分析與建模的現(xiàn)成方法，包括人工智能以及機(jī)器學(xué)習(xí)等功能。對(duì)于相當(dāng)一部分(雖然不是全部)企業(yè)而言，管理自有數(shù)據(jù)基礎(chǔ)設(shè)施與應(yīng)用程序的弊端，已經(jīng)大大超過(guò)收益。

關(guān)系數(shù)據(jù)庫(kù)——包括數(shù)據(jù)倉(cāng)庫(kù)——仍然擁有旺盛的生命力，其它一些數(shù)據(jù)庫(kù)選項(xiàng)(例如 Postgres)也在蓬勃發(fā)展。由云服務(wù)帶來(lái)的操作便捷性(甚至可以說(shuō)是無(wú)需操作)無(wú)疑是這些方案得以復(fù)興的重大因素;此外，眾多受到 Hadoop、NoSQL 以及過(guò)去十年來(lái)各類數(shù)據(jù)技術(shù)影響的新功能也在持續(xù)涌現(xiàn)。

Kubernetes 正成為面向所有內(nèi)容的默認(rèn)業(yè)務(wù)流程層，其中自然包括數(shù)據(jù)系統(tǒng)與 AI。這緩解了市場(chǎng)對(duì)于 Hadoop 類數(shù)據(jù)編排平臺(tái)(例如 YARN)的需求，同時(shí)鼓勵(lì)用戶采用更符合云原生價(jià)值主張的技術(shù)(簡(jiǎn)而言之，就是以微服務(wù)架構(gòu)取代整體式架構(gòu)，以大量小集群取代單一大型共享集群)。

雖然跨越眾多服務(wù)與技術(shù)開(kāi)發(fā)數(shù)據(jù)架構(gòu)仍然相當(dāng)困難，但如今的工具確實(shí)帶來(lái)了諸多優(yōu)勢(shì)——這些優(yōu)勢(shì)，已經(jīng)遠(yuǎn)遠(yuǎn)超越單一、整體式平臺(tái)的供應(yīng)范疇。工程師們可以隨意使用自己熟悉以及喜愛(ài)的工具;隨著更多新生事物的出現(xiàn)，他們也能夠更輕松地進(jìn)行實(shí)驗(yàn)，并非常自信地將它們整合起來(lái)發(fā)揮更大的作用。更重要的是，他們也可以借此讓業(yè)務(wù)需求成為新技術(shù)采用的原動(dòng)力，最終打破技術(shù)決策限制業(yè)務(wù)可行性的陳舊怪圈。

Hadoop 讓人們了解到大數(shù)據(jù)中蘊(yùn)藏的無(wú)限可能，但同時(shí)也提醒人們，沒(méi)有任何單一技術(shù)有能力重塑整個(gè)企業(yè) IT 世界——至少以后不會(huì)再有。

作者：Derrick Harris

譯者：核子可樂(lè)

原文鏈接：https://architecht.io/what-happened-to-hadoop-211aa52a297

標(biāo)簽： Hadoop 大數(shù)據(jù)技術(shù)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:Router-Based HDFS Federation 在滴滴大數(shù)據(jù)的應(yīng)用

下一篇:國(guó)內(nèi)外15大BI數(shù)據(jù)可視化工具

相關(guān)文章

最新資訊

熱門(mén)推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Hadoop之殤：沒(méi)有任何單一技術(shù)能重塑整個(gè)企業(yè)IT世界