中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Hadoop衰落,數(shù)據(jù)湖項(xiàng)目開始失敗,我們?cè)撊绾螒?yīng)對(duì)?

2019-08-21    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

Apache Hadoop 于 2006 年第一次在 IT 領(lǐng)域亮相,承諾為組織提供以往商用硬件從來(lái)沒(méi)能達(dá)到的強(qiáng)大數(shù)據(jù)存儲(chǔ)能力。這一承諾不僅一舉解決了數(shù)據(jù)集大小的問(wèn)題,同時(shí)也讓我們得以應(yīng)對(duì)更多數(shù)據(jù)類型——包括物聯(lián)網(wǎng)設(shè)備、傳感器、服務(wù)器以及企業(yè)越來(lái)越關(guān)注的社交媒體生成數(shù)據(jù)。這種數(shù)據(jù)量、處理速度以及類型變化的總和,形成了我們當(dāng)下最為熟悉的新概念——大數(shù)據(jù)。

在 Hadoop 的普及當(dāng)中,schema-on-read 起到了至關(guān)重要的作用。企業(yè)發(fā)現(xiàn),他們不再需要擔(dān)心表內(nèi)數(shù)據(jù)以及表間相互連接的繁瑣定義流程——以往這類工作往往需要耗費(fèi)數(shù)月之久,而且在此期間所有數(shù)據(jù)倉(cāng)庫(kù)都無(wú)法接受正常查詢。在 Hadoop 帶來(lái)的美麗新世界中,企業(yè)能夠盡可能多地存儲(chǔ)數(shù)據(jù),從基于 Hadoop 的存儲(chǔ)庫(kù)(被稱為數(shù)據(jù)湖)中獲取數(shù)據(jù),并考慮如何進(jìn)行后續(xù)分析。

自此開始,數(shù)據(jù)湖廣泛出現(xiàn)在企業(yè)運(yùn)營(yíng)環(huán)境當(dāng)中。這些數(shù)據(jù)湖由商業(yè)大數(shù)據(jù)版本支持——一般通過(guò)單一平臺(tái)提供獨(dú)立的開源計(jì)算引擎。該平臺(tái)能夠?yàn)閿?shù)據(jù)湖提供不同的數(shù)據(jù)分析方式。最重要的是,這一切都屬于開源項(xiàng)目,可供企業(yè)免費(fèi)試用!聽起來(lái)前景一片大好啊,怎么會(huì)出問(wèn)題?

問(wèn)題出在 schema-on-read 身上

就像生活中的很多事物一樣,Hadoop 受到廣泛好評(píng)的核心優(yōu)勢(shì),也逐漸成為其致命的弱點(diǎn)。首先,隨著 schema-on-write 模式限制的解除,數(shù)以 TB 計(jì)的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)快速流入數(shù)據(jù)湖。由于 Hadoop 的數(shù)據(jù)治理框架與功能還沒(méi)有完全成熟,因此企業(yè)發(fā)現(xiàn)其越來(lái)越難以確定數(shù)據(jù)湖內(nèi)容以及數(shù)據(jù)之間的繼承關(guān)系。此外,這些數(shù)據(jù)也沒(méi)有做好接受消費(fèi)的準(zhǔn)備。企業(yè)開始對(duì)數(shù)據(jù)湖中的數(shù)據(jù)失去信心,最終數(shù)據(jù)湖變成了數(shù)據(jù)沼澤,這也意味著 Hadoop 當(dāng)初提出的“構(gòu)建即可消費(fèi)”的架構(gòu)讀取理念遭遇失敗。

Hadoop 復(fù)雜性與零散的計(jì)算引擎

 

 

第二,Hadoop 各發(fā)行版提供眾多開源計(jì)算引擎,包括 Apache Hive、Apache Spark 以及 Apache Kafka 等等。但事實(shí)證明,這種豐富性本身也不完全是好事。一套典型的商用 Hadoop 平臺(tái)當(dāng)中可能包含多達(dá) 26 種此類引擎。這些計(jì)算引擎的操作非常復(fù)雜,需要由具備專門技能的人員將其“粘合”在一起?梢韵胍(jiàn),市場(chǎng)上沒(méi)那么多符合要求的人選。

關(guān)注點(diǎn)錯(cuò)誤:數(shù)據(jù)湖還是應(yīng)用

 

 

第三點(diǎn),也是最重要的一點(diǎn),數(shù)據(jù)湖項(xiàng)目開始失敗,這是因?yàn)槠髽I(yè)原本希望利用數(shù)據(jù)湖將所有企業(yè)數(shù)據(jù)存儲(chǔ)在同一中心位置,以供全部開發(fā)人員隨意使用。換言之,大家也可以將其視為一種超級(jí)數(shù)據(jù)倉(cāng)庫(kù)。但實(shí)際情況是,數(shù)據(jù)會(huì)對(duì)應(yīng)用程序產(chǎn)生直接影響。因此,Hadoop 集群通常會(huì)成為企業(yè)數(shù)據(jù)流水線中的網(wǎng)關(guān),其負(fù)責(zé)數(shù)據(jù)的過(guò)濾、處理與轉(zhuǎn)換,而后將數(shù)據(jù)導(dǎo)出至其它數(shù)據(jù)庫(kù)及數(shù)據(jù)市場(chǎng)以便傳遞至下游——這意味著預(yù)期應(yīng)用方式與實(shí)際運(yùn)營(yíng)體系發(fā)生了沖突。因此,數(shù)據(jù)湖最終成為另外一組龐大的差異性計(jì)算引擎,其運(yùn)行在不同工作負(fù)載之上,且所有負(fù)載都共享同一套存儲(chǔ)系統(tǒng)。這令管理工作變得無(wú)比艱難,雖然生態(tài)系統(tǒng)中的資源隔離與管理工具確實(shí)在不斷改進(jìn),但仍有很長(zhǎng)的道路要走。而這一切復(fù)雜性,僅僅只是為了實(shí)現(xiàn)數(shù)據(jù)報(bào)告功能。

在大多數(shù)情況下,企業(yè)不希望把關(guān)注重點(diǎn)從關(guān)鍵任務(wù)應(yīng)用程序那邊,轉(zhuǎn)移至數(shù)據(jù)湖這種本應(yīng)充當(dāng)廉價(jià)數(shù)據(jù)存儲(chǔ)庫(kù)與數(shù)據(jù)轉(zhuǎn)移通道的方案身上。例如,Apache Hive 與 Apache Spark 是 Hadoop 數(shù)據(jù)湖領(lǐng)域使用最廣泛的兩款計(jì)算引擎。這兩款引擎都擁有強(qiáng)大的分析能力——要么負(fù)責(zé)處理類 SQL 查詢(Hive),要么執(zhí)行類 SQL 數(shù)據(jù)轉(zhuǎn)換并構(gòu)建預(yù)測(cè)模型(Spark)。但很明顯,這些數(shù)據(jù)湖并沒(méi)有充分關(guān)注應(yīng)用程序究竟是如何使用數(shù)據(jù)的。

戰(zhàn)略進(jìn)展

因此,如果您所在的組織關(guān)注 Hadoop 生態(tài)系統(tǒng)的最新進(jìn)展,并且發(fā)現(xiàn)自己很難證明數(shù)據(jù)湖的實(shí)際價(jià)值,那么您應(yīng)該首先關(guān)注運(yùn)營(yíng)應(yīng)用程序,而后再反過(guò)來(lái)審視自己的數(shù)據(jù)。

通過(guò)對(duì)具有數(shù)據(jù)及智能元素的應(yīng)用程序進(jìn)行現(xiàn)代化升級(jí),您終將能夠利用數(shù)據(jù)預(yù)測(cè)應(yīng)用程序中可能發(fā)生的未來(lái)趨勢(shì),并根據(jù)經(jīng)驗(yàn)主動(dòng)做出應(yīng)對(duì)決策,最終獲得卓越的業(yè)務(wù)成果。下面來(lái)看應(yīng)用程序現(xiàn)代化戰(zhàn)略中的五大基本要素:

選擇需要進(jìn)行現(xiàn)代化的應(yīng)用程序:我們應(yīng)該首先選擇一個(gè)希望實(shí)現(xiàn)現(xiàn)代化的應(yīng)用程序,而非集中精力關(guān)注數(shù)據(jù)。您可以從眾多定制應(yīng)用程序當(dāng)中選擇其一,這類應(yīng)用往往擁有一大共性——已經(jīng)落后于市場(chǎng)趨勢(shì),需要提升敏捷水平、智能程度以及實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)性。在確定了能夠?yàn)榻M織帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)的應(yīng)用程序之后,您就可以專注于為該應(yīng)用程序提供必要的數(shù)據(jù),并判斷是否能夠從數(shù)據(jù)湖中獲取這些數(shù)據(jù)。

使用橫向擴(kuò)展 SQL 實(shí)現(xiàn)應(yīng)用程序現(xiàn)代化:多年以來(lái),SQL 一直是企業(yè)工作負(fù)載中的主力,組織中一般都存在數(shù)百位非常熟悉 SQL 的開發(fā)人員、業(yè)務(wù)分析師以及 IT 人員。他們能夠輕松將原本的 SQL 應(yīng)用程序重寫為底層 NoSQL API,且由此產(chǎn)生的時(shí)間、費(fèi)用與風(fēng)險(xiǎn)成本都比較低。我們首先選擇一個(gè)平臺(tái),用以保持熟悉的 SQL 模式以及強(qiáng)大的功能,同時(shí)確保應(yīng)用程序現(xiàn)代化過(guò)程中其架構(gòu)仍然能夠在低成本基礎(chǔ)設(shè)施上實(shí)現(xiàn)彈性擴(kuò)展。橫向擴(kuò)展使得整體集群能夠承載更多計(jì)算負(fù)載,且運(yùn)行速度要遠(yuǎn)超集中式系統(tǒng)上的舊有 SQL 系統(tǒng)。通過(guò)橫向擴(kuò)展,您可以添加更多資源容量,并在工作負(fù)載發(fā)生變化時(shí)隨時(shí)做出調(diào)整。

采用 ACID 平臺(tái):ACID 合規(guī)是負(fù)責(zé)維護(hù)數(shù)據(jù)庫(kù)內(nèi)事務(wù)完整性,并幫助用戶執(zhí)行提交與回滾等操作的機(jī)制。它也是為應(yīng)用程序操作提供支持的關(guān)鍵性功能,可以確保數(shù)據(jù)庫(kù)在發(fā)出提交請(qǐng)求之前不會(huì)向其他用戶顯示變更后的結(jié)果。大家可以首先在數(shù)據(jù)庫(kù)內(nèi)的單一事務(wù)層級(jí)中引入 ACID 能力,這樣能夠避免將所有一致性分支都交由應(yīng)用程序代碼處理。所有傳統(tǒng) SQL 系統(tǒng)都符合 ACID 標(biāo)準(zhǔn),數(shù)據(jù)湖也正是因?yàn)殄e(cuò)誤地放棄了這一標(biāo)準(zhǔn)才使得配套應(yīng)用程序變得難于編寫。

統(tǒng)一分析引擎:根據(jù) Gartner 公司發(fā)布的文章,我們?cè)却_實(shí)有充分的理由將 IT 基礎(chǔ)設(shè)施劃分為運(yùn)營(yíng)(OLTP)與分析(OLAP)這兩大類;但如今情況開始發(fā)生變化。ETL 帶來(lái)的延遲會(huì)導(dǎo)致 SLA 得不到保障。過(guò)去,運(yùn)營(yíng)與分析負(fù)載會(huì)相互干擾,所以才不得不進(jìn)行拆分。另外,遺留數(shù)據(jù)平臺(tái)的執(zhí)行往往非常糟糕,我們必須得把運(yùn)營(yíng)模式轉(zhuǎn)換為更適合分析類工作負(fù)載的星形或者雪花模式。由于不再需要 ETL,我們可以在運(yùn)營(yíng)平臺(tái)上以運(yùn)營(yíng)模式執(zhí)行分析任務(wù)。通過(guò)這種方式,我們能夠確保應(yīng)用程序始終運(yùn)行在數(shù)據(jù)移動(dòng)需求量最低的平臺(tái)上,因此不致引發(fā)過(guò)高的應(yīng)用程序延遲。如此一來(lái),我們還能通過(guò)報(bào)告與儀表板輕松將當(dāng)前數(shù)據(jù)與昨天或者上周的版本進(jìn)行對(duì)比,從而快速獲得洞察見(jiàn)解。

嵌入原生機(jī)器學(xué)習(xí)機(jī)制:之所以有必要推動(dòng)應(yīng)用程序現(xiàn)代化,主要原因之一就是借此將 AI 與 ML 注入其中,以使應(yīng)用程序能夠從經(jīng)濟(jì)當(dāng)中學(xué)習(xí)、以動(dòng)態(tài)方式適應(yīng)變化,同時(shí)做出即時(shí)決策。 為了實(shí)現(xiàn)應(yīng)用程序智能化,我們必須選擇一套在數(shù)據(jù)庫(kù)層級(jí)內(nèi)置機(jī)器學(xué)習(xí)方案的平臺(tái),以確保各模型能夠隨時(shí)利用最新數(shù)據(jù)進(jìn)行實(shí)驗(yàn)、訓(xùn)練與執(zhí)行。

從本質(zhì)層面來(lái)看,如今的使用場(chǎng)景已經(jīng)與當(dāng)初的數(shù)據(jù)湖使用方式完全不同。通過(guò)新方式,能夠利用數(shù)據(jù)湖資源的應(yīng)用程序?qū)⒏鞛闃I(yè)務(wù)線提供真實(shí)可見(jiàn)的商業(yè)價(jià)值。

這種方法除了通過(guò)應(yīng)用程序現(xiàn)代化幫助企業(yè)建立競(jìng)爭(zhēng)優(yōu)勢(shì)之外,還能幫助大家繼續(xù)保留原有數(shù)據(jù)湖投資組合。

最后,感興趣的朋友也可以點(diǎn)擊此處獲取本份白皮書副本,其中詳盡闡述了應(yīng)用程序落后于數(shù)字化轉(zhuǎn)趨勢(shì)的五種跡象以及其它細(xì)節(jié)信息。

原文鏈接:

What Happened to Hadoop? What Should You Do Now?

標(biāo)簽: Hadoop

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:Spark Streaming 調(diào)優(yōu)實(shí)踐

下一篇:讓你的GPU為深度學(xué)習(xí)做好準(zhǔn)備(附代碼)