中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Hadoop衰落,數(shù)據(jù)湖項目開始失敗,我們該如何應(yīng)對?

2019-08-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

Apache Hadoop 于 2006 年第一次在 IT 領(lǐng)域亮相,承諾為組織提供以往商用硬件從來沒能達到的強大數(shù)據(jù)存儲能力。這一承諾不僅一舉解決了數(shù)據(jù)集大小的問題,同時也讓我們得以應(yīng)對更多數(shù)據(jù)類型——包括物聯(lián)網(wǎng)設(shè)備、傳感器、服務(wù)器以及企業(yè)越來越關(guān)注的社交媒體生成數(shù)據(jù)。這種數(shù)據(jù)量、處理速度以及類型變化的總和,形成了我們當(dāng)下最為熟悉的新概念——大數(shù)據(jù)。

在 Hadoop 的普及當(dāng)中,schema-on-read 起到了至關(guān)重要的作用。企業(yè)發(fā)現(xiàn),他們不再需要擔(dān)心表內(nèi)數(shù)據(jù)以及表間相互連接的繁瑣定義流程——以往這類工作往往需要耗費數(shù)月之久,而且在此期間所有數(shù)據(jù)倉庫都無法接受正常查詢。在 Hadoop 帶來的美麗新世界中,企業(yè)能夠盡可能多地存儲數(shù)據(jù),從基于 Hadoop 的存儲庫(被稱為數(shù)據(jù)湖)中獲取數(shù)據(jù),并考慮如何進行后續(xù)分析。

自此開始,數(shù)據(jù)湖廣泛出現(xiàn)在企業(yè)運營環(huán)境當(dāng)中。這些數(shù)據(jù)湖由商業(yè)大數(shù)據(jù)版本支持——一般通過單一平臺提供獨立的開源計算引擎。該平臺能夠為數(shù)據(jù)湖提供不同的數(shù)據(jù)分析方式。最重要的是,這一切都屬于開源項目,可供企業(yè)免費試用!聽起來前景一片大好啊,怎么會出問題?

問題出在 schema-on-read 身上

就像生活中的很多事物一樣,Hadoop 受到廣泛好評的核心優(yōu)勢,也逐漸成為其致命的弱點。首先,隨著 schema-on-write 模式限制的解除,數(shù)以 TB 計的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)快速流入數(shù)據(jù)湖。由于 Hadoop 的數(shù)據(jù)治理框架與功能還沒有完全成熟,因此企業(yè)發(fā)現(xiàn)其越來越難以確定數(shù)據(jù)湖內(nèi)容以及數(shù)據(jù)之間的繼承關(guān)系。此外,這些數(shù)據(jù)也沒有做好接受消費的準備。企業(yè)開始對數(shù)據(jù)湖中的數(shù)據(jù)失去信心,最終數(shù)據(jù)湖變成了數(shù)據(jù)沼澤,這也意味著 Hadoop 當(dāng)初提出的“構(gòu)建即可消費”的架構(gòu)讀取理念遭遇失敗。

Hadoop 復(fù)雜性與零散的計算引擎

 

 

第二,Hadoop 各發(fā)行版提供眾多開源計算引擎,包括 Apache Hive、Apache Spark 以及 Apache Kafka 等等。但事實證明,這種豐富性本身也不完全是好事。一套典型的商用 Hadoop 平臺當(dāng)中可能包含多達 26 種此類引擎。這些計算引擎的操作非常復(fù)雜,需要由具備專門技能的人員將其“粘合”在一起。可以想見,市場上沒那么多符合要求的人選。

關(guān)注點錯誤:數(shù)據(jù)湖還是應(yīng)用

 

 

第三點,也是最重要的一點,數(shù)據(jù)湖項目開始失敗,這是因為企業(yè)原本希望利用數(shù)據(jù)湖將所有企業(yè)數(shù)據(jù)存儲在同一中心位置,以供全部開發(fā)人員隨意使用。換言之,大家也可以將其視為一種超級數(shù)據(jù)倉庫。但實際情況是,數(shù)據(jù)會對應(yīng)用程序產(chǎn)生直接影響。因此,Hadoop 集群通常會成為企業(yè)數(shù)據(jù)流水線中的網(wǎng)關(guān),其負責(zé)數(shù)據(jù)的過濾、處理與轉(zhuǎn)換,而后將數(shù)據(jù)導(dǎo)出至其它數(shù)據(jù)庫及數(shù)據(jù)市場以便傳遞至下游——這意味著預(yù)期應(yīng)用方式與實際運營體系發(fā)生了沖突。因此,數(shù)據(jù)湖最終成為另外一組龐大的差異性計算引擎,其運行在不同工作負載之上,且所有負載都共享同一套存儲系統(tǒng)。這令管理工作變得無比艱難,雖然生態(tài)系統(tǒng)中的資源隔離與管理工具確實在不斷改進,但仍有很長的道路要走。而這一切復(fù)雜性,僅僅只是為了實現(xiàn)數(shù)據(jù)報告功能。

在大多數(shù)情況下,企業(yè)不希望把關(guān)注重點從關(guān)鍵任務(wù)應(yīng)用程序那邊,轉(zhuǎn)移至數(shù)據(jù)湖這種本應(yīng)充當(dāng)廉價數(shù)據(jù)存儲庫與數(shù)據(jù)轉(zhuǎn)移通道的方案身上。例如,Apache Hive 與 Apache Spark 是 Hadoop 數(shù)據(jù)湖領(lǐng)域使用最廣泛的兩款計算引擎。這兩款引擎都擁有強大的分析能力——要么負責(zé)處理類 SQL 查詢(Hive),要么執(zhí)行類 SQL 數(shù)據(jù)轉(zhuǎn)換并構(gòu)建預(yù)測模型(Spark)。但很明顯,這些數(shù)據(jù)湖并沒有充分關(guān)注應(yīng)用程序究竟是如何使用數(shù)據(jù)的。

戰(zhàn)略進展

因此,如果您所在的組織關(guān)注 Hadoop 生態(tài)系統(tǒng)的最新進展,并且發(fā)現(xiàn)自己很難證明數(shù)據(jù)湖的實際價值,那么您應(yīng)該首先關(guān)注運營應(yīng)用程序,而后再反過來審視自己的數(shù)據(jù)。

通過對具有數(shù)據(jù)及智能元素的應(yīng)用程序進行現(xiàn)代化升級,您終將能夠利用數(shù)據(jù)預(yù)測應(yīng)用程序中可能發(fā)生的未來趨勢,并根據(jù)經(jīng)驗主動做出應(yīng)對決策,最終獲得卓越的業(yè)務(wù)成果。下面來看應(yīng)用程序現(xiàn)代化戰(zhàn)略中的五大基本要素:

選擇需要進行現(xiàn)代化的應(yīng)用程序:我們應(yīng)該首先選擇一個希望實現(xiàn)現(xiàn)代化的應(yīng)用程序,而非集中精力關(guān)注數(shù)據(jù)。您可以從眾多定制應(yīng)用程序當(dāng)中選擇其一,這類應(yīng)用往往擁有一大共性——已經(jīng)落后于市場趨勢,需要提升敏捷水平、智能程度以及實現(xiàn)數(shù)據(jù)驅(qū)動性。在確定了能夠為組織帶來競爭優(yōu)勢的應(yīng)用程序之后,您就可以專注于為該應(yīng)用程序提供必要的數(shù)據(jù),并判斷是否能夠從數(shù)據(jù)湖中獲取這些數(shù)據(jù)。

使用橫向擴展 SQL 實現(xiàn)應(yīng)用程序現(xiàn)代化:多年以來,SQL 一直是企業(yè)工作負載中的主力,組織中一般都存在數(shù)百位非常熟悉 SQL 的開發(fā)人員、業(yè)務(wù)分析師以及 IT 人員。他們能夠輕松將原本的 SQL 應(yīng)用程序重寫為底層 NoSQL API,且由此產(chǎn)生的時間、費用與風(fēng)險成本都比較低。我們首先選擇一個平臺,用以保持熟悉的 SQL 模式以及強大的功能,同時確保應(yīng)用程序現(xiàn)代化過程中其架構(gòu)仍然能夠在低成本基礎(chǔ)設(shè)施上實現(xiàn)彈性擴展。橫向擴展使得整體集群能夠承載更多計算負載,且運行速度要遠超集中式系統(tǒng)上的舊有 SQL 系統(tǒng)。通過橫向擴展,您可以添加更多資源容量,并在工作負載發(fā)生變化時隨時做出調(diào)整。

采用 ACID 平臺:ACID 合規(guī)是負責(zé)維護數(shù)據(jù)庫內(nèi)事務(wù)完整性,并幫助用戶執(zhí)行提交與回滾等操作的機制。它也是為應(yīng)用程序操作提供支持的關(guān)鍵性功能,可以確保數(shù)據(jù)庫在發(fā)出提交請求之前不會向其他用戶顯示變更后的結(jié)果。大家可以首先在數(shù)據(jù)庫內(nèi)的單一事務(wù)層級中引入 ACID 能力,這樣能夠避免將所有一致性分支都交由應(yīng)用程序代碼處理。所有傳統(tǒng) SQL 系統(tǒng)都符合 ACID 標準,數(shù)據(jù)湖也正是因為錯誤地放棄了這一標準才使得配套應(yīng)用程序變得難于編寫。

統(tǒng)一分析引擎:根據(jù) Gartner 公司發(fā)布的文章,我們原先確實有充分的理由將 IT 基礎(chǔ)設(shè)施劃分為運營(OLTP)與分析(OLAP)這兩大類;但如今情況開始發(fā)生變化。ETL 帶來的延遲會導(dǎo)致 SLA 得不到保障。過去,運營與分析負載會相互干擾,所以才不得不進行拆分。另外,遺留數(shù)據(jù)平臺的執(zhí)行往往非常糟糕,我們必須得把運營模式轉(zhuǎn)換為更適合分析類工作負載的星形或者雪花模式。由于不再需要 ETL,我們可以在運營平臺上以運營模式執(zhí)行分析任務(wù)。通過這種方式,我們能夠確保應(yīng)用程序始終運行在數(shù)據(jù)移動需求量最低的平臺上,因此不致引發(fā)過高的應(yīng)用程序延遲。如此一來,我們還能通過報告與儀表板輕松將當(dāng)前數(shù)據(jù)與昨天或者上周的版本進行對比,從而快速獲得洞察見解。

嵌入原生機器學(xué)習(xí)機制:之所以有必要推動應(yīng)用程序現(xiàn)代化,主要原因之一就是借此將 AI 與 ML 注入其中,以使應(yīng)用程序能夠從經(jīng)濟當(dāng)中學(xué)習(xí)、以動態(tài)方式適應(yīng)變化,同時做出即時決策。 為了實現(xiàn)應(yīng)用程序智能化,我們必須選擇一套在數(shù)據(jù)庫層級內(nèi)置機器學(xué)習(xí)方案的平臺,以確保各模型能夠隨時利用最新數(shù)據(jù)進行實驗、訓(xùn)練與執(zhí)行。

從本質(zhì)層面來看,如今的使用場景已經(jīng)與當(dāng)初的數(shù)據(jù)湖使用方式完全不同。通過新方式,能夠利用數(shù)據(jù)湖資源的應(yīng)用程序?qū)⒏鞛闃I(yè)務(wù)線提供真實可見的商業(yè)價值。

這種方法除了通過應(yīng)用程序現(xiàn)代化幫助企業(yè)建立競爭優(yōu)勢之外,還能幫助大家繼續(xù)保留原有數(shù)據(jù)湖投資組合。

最后,感興趣的朋友也可以點擊此處獲取本份白皮書副本,其中詳盡闡述了應(yīng)用程序落后于數(shù)字化轉(zhuǎn)趨勢的五種跡象以及其它細節(jié)信息。

原文鏈接:

What Happened to Hadoop? What Should You Do Now?

標簽: Hadoop

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Spark Streaming 調(diào)優(yōu)實踐

下一篇:讓你的GPU為深度學(xué)習(xí)做好準備(附代碼)