Hadoop衰落，數(shù)據(jù)湖項(xiàng)目開始失敗，我們?cè)撊绾螒?yīng)對(duì)？

2019-08-21 來(lái)源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

Apache Hadoop 于 2006 年第一次在 IT 領(lǐng)域亮相，承諾為組織提供以往商用硬件從來(lái)沒(méi)能達(dá)到的強(qiáng)大數(shù)據(jù)存儲(chǔ)能力。這一承諾不僅一舉解決了數(shù)據(jù)集大小的問(wèn)題，同時(shí)也讓我們得以應(yīng)對(duì)更多數(shù)據(jù)類型——包括物聯(lián)網(wǎng)設(shè)備、傳感器、服務(wù)器以及企業(yè)越來(lái)越關(guān)注的社交媒體生成數(shù)據(jù)。這種數(shù)據(jù)量、處理速度以及類型變化的總和，形成了我們當(dāng)下最為熟悉的新概念——大數(shù)據(jù)。

在 Hadoop 的普及當(dāng)中，schema-on-read 起到了至關(guān)重要的作用。企業(yè)發(fā)現(xiàn)，他們不再需要擔(dān)心表內(nèi)數(shù)據(jù)以及表間相互連接的繁瑣定義流程——以往這類工作往往需要耗費(fèi)數(shù)月之久，而且在此期間所有數(shù)據(jù)倉(cāng)庫(kù)都無(wú)法接受正常查詢。在 Hadoop 帶來(lái)的美麗新世界中，企業(yè)能夠盡可能多地存儲(chǔ)數(shù)據(jù)，從基于 Hadoop 的存儲(chǔ)庫(kù)(被稱為數(shù)據(jù)湖)中獲取數(shù)據(jù)，并考慮如何進(jìn)行后續(xù)分析。

自此開始，數(shù)據(jù)湖廣泛出現(xiàn)在企業(yè)運(yùn)營(yíng)環(huán)境當(dāng)中。這些數(shù)據(jù)湖由商業(yè)大數(shù)據(jù)版本支持——一般通過(guò)單一平臺(tái)提供獨(dú)立的開源計(jì)算引擎。該平臺(tái)能夠?yàn)閿?shù)據(jù)湖提供不同的數(shù)據(jù)分析方式。最重要的是，這一切都屬于開源項(xiàng)目，可供企業(yè)免費(fèi)試用!聽起來(lái)前景一片大好啊，怎么會(huì)出問(wèn)題?

問(wèn)題出在 schema-on-read 身上

就像生活中的很多事物一樣，Hadoop 受到廣泛好評(píng)的核心優(yōu)勢(shì)，也逐漸成為其致命的弱點(diǎn)。首先，隨著 schema-on-write 模式限制的解除，數(shù)以 TB 計(jì)的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)快速流入數(shù)據(jù)湖。由于 Hadoop 的數(shù)據(jù)治理框架與功能還沒(méi)有完全成熟，因此企業(yè)發(fā)現(xiàn)其越來(lái)越難以確定數(shù)據(jù)湖內(nèi)容以及數(shù)據(jù)之間的繼承關(guān)系。此外，這些數(shù)據(jù)也沒(méi)有做好接受消費(fèi)的準(zhǔn)備。企業(yè)開始對(duì)數(shù)據(jù)湖中的數(shù)據(jù)失去信心，最終數(shù)據(jù)湖變成了數(shù)據(jù)沼澤，這也意味著 Hadoop 當(dāng)初提出的“構(gòu)建即可消費(fèi)”的架構(gòu)讀取理念遭遇失敗。

Hadoop 復(fù)雜性與零散的計(jì)算引擎

第二，Hadoop 各發(fā)行版提供眾多開源計(jì)算引擎，包括 Apache Hive、Apache Spark 以及 Apache Kafka 等等。但事實(shí)證明，這種豐富性本身也不完全是好事。一套典型的商用 Hadoop 平臺(tái)當(dāng)中可能包含多達(dá) 26 種此類引擎。這些計(jì)算引擎的操作非常復(fù)雜，需要由具備專門技能的人員將其“粘合”在一起�？梢韵胍�(jiàn)，市場(chǎng)上沒(méi)那么多符合要求的人選。

關(guān)注點(diǎn)錯(cuò)誤：數(shù)據(jù)湖還是應(yīng)用

第三點(diǎn)，也是最重要的一點(diǎn)，數(shù)據(jù)湖項(xiàng)目開始失敗，這是因?yàn)槠髽I(yè)原本希望利用數(shù)據(jù)湖將所有企業(yè)數(shù)據(jù)存儲(chǔ)在同一中心位置，以供全部開發(fā)人員隨意使用。換言之，大家也可以將其視為一種超級(jí)數(shù)據(jù)倉(cāng)庫(kù)。但實(shí)際情況是，數(shù)據(jù)會(huì)對(duì)應(yīng)用程序產(chǎn)生直接影響。因此，Hadoop 集群通常會(huì)成為企業(yè)數(shù)據(jù)流水線中的網(wǎng)關(guān)，其負(fù)責(zé)數(shù)據(jù)的過(guò)濾、處理與轉(zhuǎn)換，而后將數(shù)據(jù)導(dǎo)出至其它數(shù)據(jù)庫(kù)及數(shù)據(jù)市場(chǎng)以便傳遞至下游——這意味著預(yù)期應(yīng)用方式與實(shí)際運(yùn)營(yíng)體系發(fā)生了沖突。因此，數(shù)據(jù)湖最終成為另外一組龐大的差異性計(jì)算引擎，其運(yùn)行在不同工作負(fù)載之上，且所有負(fù)載都共享同一套存儲(chǔ)系統(tǒng)。這令管理工作變得無(wú)比艱難，雖然生態(tài)系統(tǒng)中的資源隔離與管理工具確實(shí)在不斷改進(jìn)，但仍有很長(zhǎng)的道路要走。而這一切復(fù)雜性，僅僅只是為了實(shí)現(xiàn)數(shù)據(jù)報(bào)告功能。

在大多數(shù)情況下，企業(yè)不希望把關(guān)注重點(diǎn)從關(guān)鍵任務(wù)應(yīng)用程序那邊，轉(zhuǎn)移至數(shù)據(jù)湖這種本應(yīng)充當(dāng)廉價(jià)數(shù)據(jù)存儲(chǔ)庫(kù)與數(shù)據(jù)轉(zhuǎn)移通道的方案身上。例如，Apache Hive 與 Apache Spark 是 Hadoop 數(shù)據(jù)湖領(lǐng)域使用最廣泛的兩款計(jì)算引擎。這兩款引擎都擁有強(qiáng)大的分析能力——要么負(fù)責(zé)處理類 SQL 查詢(Hive)，要么執(zhí)行類 SQL 數(shù)據(jù)轉(zhuǎn)換并構(gòu)建預(yù)測(cè)模型(Spark)。但很明顯，這些數(shù)據(jù)湖并沒(méi)有充分關(guān)注應(yīng)用程序究竟是如何使用數(shù)據(jù)的。

戰(zhàn)略進(jìn)展

因此，如果您所在的組織關(guān)注 Hadoop 生態(tài)系統(tǒng)的最新進(jìn)展，并且發(fā)現(xiàn)自己很難證明數(shù)據(jù)湖的實(shí)際價(jià)值，那么您應(yīng)該首先關(guān)注運(yùn)營(yíng)應(yīng)用程序，而后再反過(guò)來(lái)審視自己的數(shù)據(jù)。

通過(guò)對(duì)具有數(shù)據(jù)及智能元素的應(yīng)用程序進(jìn)行現(xiàn)代化升級(jí)，您終將能夠利用數(shù)據(jù)預(yù)測(cè)應(yīng)用程序中可能發(fā)生的未來(lái)趨勢(shì)，并根據(jù)經(jīng)驗(yàn)主動(dòng)做出應(yīng)對(duì)決策，最終獲得卓越的業(yè)務(wù)成果。下面來(lái)看應(yīng)用程序現(xiàn)代化戰(zhàn)略中的五大基本要素：

選擇需要進(jìn)行現(xiàn)代化的應(yīng)用程序：我們應(yīng)該首先選擇一個(gè)希望實(shí)現(xiàn)現(xiàn)代化的應(yīng)用程序，而非集中精力關(guān)注數(shù)據(jù)。您可以從眾多定制應(yīng)用程序當(dāng)中選擇其一，這類應(yīng)用往往擁有一大共性——已經(jīng)落后于市場(chǎng)趨勢(shì)，需要提升敏捷水平、智能程度以及實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)性。在確定了能夠?yàn)榻M織帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)的應(yīng)用程序之后，您就可以專注于為該應(yīng)用程序提供必要的數(shù)據(jù)，并判斷是否能夠從數(shù)據(jù)湖中獲取這些數(shù)據(jù)。

使用橫向擴(kuò)展 SQL 實(shí)現(xiàn)應(yīng)用程序現(xiàn)代化：多年以來(lái)，SQL 一直是企業(yè)工作負(fù)載中的主力，組織中一般都存在數(shù)百位非常熟悉 SQL 的開發(fā)人員、業(yè)務(wù)分析師以及 IT 人員。他們能夠輕松將原本的 SQL 應(yīng)用程序重寫為底層 NoSQL API，且由此產(chǎn)生的時(shí)間、費(fèi)用與風(fēng)險(xiǎn)成本都比較低。我們首先選擇一個(gè)平臺(tái)，用以保持熟悉的 SQL 模式以及強(qiáng)大的功能，同時(shí)確保應(yīng)用程序現(xiàn)代化過(guò)程中其架構(gòu)仍然能夠在低成本基礎(chǔ)設(shè)施上實(shí)現(xiàn)彈性擴(kuò)展。橫向擴(kuò)展使得整體集群能夠承載更多計(jì)算負(fù)載，且運(yùn)行速度要遠(yuǎn)超集中式系統(tǒng)上的舊有 SQL 系統(tǒng)。通過(guò)橫向擴(kuò)展，您可以添加更多資源容量，并在工作負(fù)載發(fā)生變化時(shí)隨時(shí)做出調(diào)整。

采用 ACID 平臺(tái)：ACID 合規(guī)是負(fù)責(zé)維護(hù)數(shù)據(jù)庫(kù)內(nèi)事務(wù)完整性，并幫助用戶執(zhí)行提交與回滾等操作的機(jī)制。它也是為應(yīng)用程序操作提供支持的關(guān)鍵性功能，可以確保數(shù)據(jù)庫(kù)在發(fā)出提交請(qǐng)求之前不會(huì)向其他用戶顯示變更后的結(jié)果。大家可以首先在數(shù)據(jù)庫(kù)內(nèi)的單一事務(wù)層級(jí)中引入 ACID 能力，這樣能夠避免將所有一致性分支都交由應(yīng)用程序代碼處理。所有傳統(tǒng) SQL 系統(tǒng)都符合 ACID 標(biāo)準(zhǔn)，數(shù)據(jù)湖也正是因?yàn)殄e(cuò)誤地放棄了這一標(biāo)準(zhǔn)才使得配套應(yīng)用程序變得難于編寫。

統(tǒng)一分析引擎：根據(jù) Gartner 公司發(fā)布的文章，我們?cè)却_實(shí)有充分的理由將 IT 基礎(chǔ)設(shè)施劃分為運(yùn)營(yíng)(OLTP)與分析(OLAP)這兩大類;但如今情況開始發(fā)生變化。ETL 帶來(lái)的延遲會(huì)導(dǎo)致 SLA 得不到保障。過(guò)去，運(yùn)營(yíng)與分析負(fù)載會(huì)相互干擾，所以才不得不進(jìn)行拆分。另外，遺留數(shù)據(jù)平臺(tái)的執(zhí)行往往非常糟糕，我們必須得把運(yùn)營(yíng)模式轉(zhuǎn)換為更適合分析類工作負(fù)載的星形或者雪花模式。由于不再需要 ETL，我們可以在運(yùn)營(yíng)平臺(tái)上以運(yùn)營(yíng)模式執(zhí)行分析任務(wù)。通過(guò)這種方式，我們能夠確保應(yīng)用程序始終運(yùn)行在數(shù)據(jù)移動(dòng)需求量最低的平臺(tái)上，因此不致引發(fā)過(guò)高的應(yīng)用程序延遲。如此一來(lái)，我們還能通過(guò)報(bào)告與儀表板輕松將當(dāng)前數(shù)據(jù)與昨天或者上周的版本進(jìn)行對(duì)比，從而快速獲得洞察見(jiàn)解。

嵌入原生機(jī)器學(xué)習(xí)機(jī)制：之所以有必要推動(dòng)應(yīng)用程序現(xiàn)代化，主要原因之一就是借此將 AI 與 ML 注入其中，以使應(yīng)用程序能夠從經(jīng)濟(jì)當(dāng)中學(xué)習(xí)、以動(dòng)態(tài)方式適應(yīng)變化，同時(shí)做出即時(shí)決策。為了實(shí)現(xiàn)應(yīng)用程序智能化，我們必須選擇一套在數(shù)據(jù)庫(kù)層級(jí)內(nèi)置機(jī)器學(xué)習(xí)方案的平臺(tái)，以確保各模型能夠隨時(shí)利用最新數(shù)據(jù)進(jìn)行實(shí)驗(yàn)、訓(xùn)練與執(zhí)行。

從本質(zhì)層面來(lái)看，如今的使用場(chǎng)景已經(jīng)與當(dāng)初的數(shù)據(jù)湖使用方式完全不同。通過(guò)新方式，能夠利用數(shù)據(jù)湖資源的應(yīng)用程序?qū)⒏鞛闃I(yè)務(wù)線提供真實(shí)可見(jiàn)的商業(yè)價(jià)值。

這種方法除了通過(guò)應(yīng)用程序現(xiàn)代化幫助企業(yè)建立競(jìng)爭(zhēng)優(yōu)勢(shì)之外，還能幫助大家繼續(xù)保留原有數(shù)據(jù)湖投資組合。

最后，感興趣的朋友也可以點(diǎn)擊此處獲取本份白皮書副本，其中詳盡闡述了應(yīng)用程序落后于數(shù)字化轉(zhuǎn)趨勢(shì)的五種跡象以及其它細(xì)節(jié)信息。

原文鏈接：

What Happened to Hadoop? What Should You Do Now?

標(biāo)簽： Hadoop

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:Spark Streaming 調(diào)優(yōu)實(shí)踐

下一篇:讓你的GPU為深度學(xué)習(xí)做好準(zhǔn)備（附代碼）

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Hadoop衰落，數(shù)據(jù)湖項(xiàng)目開始失敗，我們?cè)撊绾螒?yīng)對(duì)？

Hadoop衰落，數(shù)據(jù)湖項(xiàng)目開始失敗，我們?cè)撊绾螒?yīng)對(duì)？