中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

初探:企業(yè)數(shù)據(jù)湖治理最佳實(shí)踐!

2018-10-02    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

通常,那些剛接觸大數(shù)據(jù)的人,甚至是精通Hadoop的老手,都會(huì)嘗試使用不同的腳本、工具和第三方供應(yīng)商來組建幾個(gè)集群并拼湊在一起,這既不符合成本效益,也不可持續(xù)。本文,作者將描述數(shù)據(jù)湖與集群拼湊方式相比的優(yōu)勢(shì)是什么,集群如何規(guī)劃和治理才能構(gòu)建有效的數(shù)據(jù)湖。

數(shù)據(jù)湖正在成為一種越來越可行的解決方案,用于企業(yè)從大數(shù)據(jù)中提取價(jià)值,并代表早期大數(shù)據(jù)采用者合乎邏輯的下一步。這一概念是2011年提出來的,最初的數(shù)據(jù)湖是對(duì)數(shù)據(jù)倉庫的一個(gè)補(bǔ)充,主要是為了解決數(shù)據(jù)倉庫開發(fā)周期漫長,開發(fā)和維護(hù)成本較高,細(xì)節(jié)數(shù)據(jù)丟失等問題。數(shù)據(jù)湖大多相對(duì)于傳統(tǒng)的基于RDBMS的數(shù)據(jù)倉庫,在隔離的邏輯區(qū)域中提供結(jié)構(gòu)化、非結(jié)構(gòu)化和歷史數(shù)據(jù)的靈活性,這已經(jīng)和安全性一起為企業(yè)帶來了一系列轉(zhuǎn)型的可能。

然而,許多潛在用戶無法理解可用數(shù)據(jù)湖的定義。通常,那些剛接觸大數(shù)據(jù)的人,甚至是精通Hadoop的老手,都會(huì)嘗試使用不同的腳本、工具和第三方供應(yīng)商來組建幾個(gè)集群并拼湊在一起,這既不符合成本效益,也不可持續(xù)。本文,作者將描述數(shù)據(jù)湖與集群拼湊方式相比的優(yōu)勢(shì)是什么,集群如何規(guī)劃和治理才能構(gòu)建有效的數(shù)據(jù)湖。

區(qū)域

在數(shù)據(jù)湖中,區(qū)域允許數(shù)據(jù)的邏輯或物理分離,從而保護(hù)整體環(huán)境的安全性、有序性和敏捷性。通常,建議企業(yè)使用3或4個(gè)區(qū)域,但可以使用更少或更多區(qū)域。通用的4區(qū)系統(tǒng)可能包括以下內(nèi)容:

Transient Zone(瞬態(tài)區(qū)域)——用于在獲取之前短暫保存數(shù)據(jù),例如臨時(shí)副本,流式spool或其他短期數(shù)據(jù)。

Raw Zone(原始區(qū)域)——存放原始數(shù)據(jù)的區(qū)域,該區(qū)域敏感數(shù)據(jù)必須加密,標(biāo)記化或以其他方式保護(hù)。

Trusted Zone(受信任區(qū)域)——對(duì)原始區(qū)域中的數(shù)據(jù)執(zhí)行數(shù)據(jù)質(zhì)量、驗(yàn)證或其他處理后,它將成為此區(qū)域中下游系統(tǒng)的“真實(shí)數(shù)據(jù)來源”,也就是說其下游系統(tǒng)會(huì)從該區(qū)域獲取數(shù)據(jù)。

Refined Zone(再處理區(qū))——操作和豐富的數(shù)據(jù)保存在此區(qū)域,這用于存儲(chǔ)來自Hive或外部工具等的輸出,這些工具將寫入數(shù)據(jù)湖中。

這種區(qū)域劃分可以根據(jù)需要適應(yīng)企業(yè)的業(yè)務(wù)規(guī)模、成熟度和特殊用例,但將通過專用服務(wù)器或者集群實(shí)現(xiàn)物理隔離,通過故意構(gòu)建目錄和訪問權(quán)限進(jìn)行邏輯分離,或者兩者進(jìn)行特別組合。在視覺上,這種架構(gòu)類似于下面的架構(gòu)。

 

 

建立和維護(hù)定義明確的區(qū)域是創(chuàng)建健康湖泊的重要步驟。同時(shí),了解哪些區(qū)域不提供災(zāi)難恢復(fù)或數(shù)據(jù)冗余策略也是非常重要的。盡管可以在DR中考慮該問題,但仍然需要投資可靠的底層基礎(chǔ)架構(gòu)以確保冗余和恢復(fù)能力。

Lineage

隨著新數(shù)據(jù)源的不斷添加以及現(xiàn)有數(shù)據(jù)源的更新或修改,維護(hù)數(shù)據(jù)集內(nèi)部關(guān)系之間的記錄變得更加重要。這些關(guān)系就像重命名列一樣簡單,也可能像連接不同源的多個(gè)表一樣復(fù)雜,每個(gè)表本身可能有多個(gè)上游轉(zhuǎn)換。在此上下文中,lineage有助于提供跟蹤性以了解字段或數(shù)據(jù)集的來源以及審計(jì)跟蹤,并了解更改的位置、時(shí)間和原因。聽起來簡單,但是當(dāng)數(shù)據(jù)在湖中移動(dòng)時(shí)捕獲有關(guān)數(shù)據(jù)的細(xì)節(jié)非常困難,即使今天部署了一些專門的軟件。跟蹤的整個(gè)過程涉及事務(wù)級(jí)別(訪問數(shù)據(jù)和做了什么?)以及結(jié)構(gòu)或文件系統(tǒng)級(jí)別(數(shù)據(jù)集和字段之間的關(guān)系是什么?)等問題。數(shù)據(jù)湖中包括數(shù)據(jù)的批和流處理工具(例如MapReduce和Spark),以及可能操縱數(shù)據(jù)的任何外部系統(tǒng),例如RDBMS系統(tǒng)。lineage可填補(bǔ)傳統(tǒng)系統(tǒng)的部分空白,特別是隨著GDPR等新法規(guī)的出現(xiàn)——靈活性和可擴(kuò)展性是未來管理的關(guān)鍵。

數(shù)據(jù)質(zhì)量

在數(shù)據(jù)湖中,并非所有數(shù)據(jù)都相同。因此,定義數(shù)據(jù)源以及管理和使用數(shù)據(jù)至關(guān)重要。通過清理來自各種物聯(lián)網(wǎng)設(shè)備或社交媒體的數(shù)據(jù),可以獲得很多價(jià)值。企業(yè)還可以考慮在消費(fèi)方而不是采購方應(yīng)用數(shù)據(jù)質(zhì)量檢查。因?yàn)椋瑔蝹(gè)數(shù)據(jù)質(zhì)量體系結(jié)構(gòu)可能不適用于所有類型的數(shù)據(jù)。必須注意的是,如果數(shù)據(jù)被“清理”,用于分析的結(jié)果可能會(huì)產(chǎn)生影響。修復(fù)數(shù)據(jù)集中值的字段級(jí)數(shù)據(jù)質(zhì)量規(guī)則可以影響預(yù)測(cè)模型結(jié)果,因?yàn)檫@些修復(fù)可以影響異常值。通過比較“數(shù)據(jù)集的預(yù)期與接收大小”或“空值閾值”來衡量數(shù)據(jù)質(zhì)量規(guī)則是否可用可能更適合此類情況。通常,所需驗(yàn)證的級(jí)別受傳統(tǒng)限制或已經(jīng)存在的內(nèi)部流程影響,在設(shè)置新規(guī)則之前評(píng)估公司的現(xiàn)有流程是必須的。

隱私與安全

健康數(shù)據(jù)湖的關(guān)鍵組成部分是隱私和安全性,包括基于角色的訪問控制、身份驗(yàn)證、授權(quán)以及靜態(tài)和動(dòng)態(tài)數(shù)據(jù)加密等。從純數(shù)據(jù)湖和數(shù)據(jù)管理的角度來看,最重要的往往是數(shù)據(jù)混淆,包括標(biāo)記化和數(shù)據(jù)屏蔽。應(yīng)該使用這兩個(gè)概念來幫助數(shù)據(jù)遵守最小特權(quán)的安全概念。限制數(shù)據(jù)訪問也對(duì)許多希望遵守法規(guī)的企業(yè)具有意義。限制訪問有幾種形式,最明顯的是存儲(chǔ)層中區(qū)域的大量使用。簡而言之,可以配置存儲(chǔ)層中的權(quán)限,使得以最原始格式訪問數(shù)據(jù)非常有限。由于該數(shù)據(jù)隨后通過標(biāo)記化和掩蔽(即隱藏PII數(shù)據(jù))進(jìn)行轉(zhuǎn)換,因此可以將對(duì)后續(xù)區(qū)域中的數(shù)據(jù)訪問擴(kuò)展到更大的用戶組。

DLM

企業(yè)必須努力發(fā)展其數(shù)據(jù)管理戰(zhàn)略,以更有效地保護(hù)和服務(wù)其數(shù)字資產(chǎn)。這涉及投入時(shí)間和資源來完全創(chuàng)建生命周期管理策略,并確定是使用扁平結(jié)構(gòu)還是利用分層保護(hù)。數(shù)據(jù)生命周期管理的前提是基于數(shù)據(jù)創(chuàng)建、使用和存檔這一事實(shí)。如今,這個(gè)前提可能適用于某些交易數(shù)據(jù)。企業(yè)應(yīng)該了解信息、數(shù)據(jù)和存儲(chǔ)介質(zhì)的相同點(diǎn)和差異,并能夠最大限度地利用不同存儲(chǔ)層消除復(fù)雜性和成本并釋放價(jià)值。

結(jié)論

就像處于初期階段的關(guān)系數(shù)據(jù)庫一樣,近年來Hadoop的應(yīng)用因缺乏最佳實(shí)踐而受到影響。企業(yè)在考慮將Hadoop用作數(shù)據(jù)湖時(shí),需要參考盡可能多的最佳實(shí)踐。利用區(qū)域和適當(dāng)?shù)氖跈?quán)作為數(shù)據(jù)工作流框架的一部分,為數(shù)據(jù)轉(zhuǎn)換提供高度可擴(kuò)展的并行系統(tǒng)。

標(biāo)簽: 安全 大數(shù)據(jù) 服務(wù)器 腳本 媒體 權(quán)限 數(shù)據(jù)庫 轉(zhuǎn)型

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)面試建議與技巧之危險(xiǎn)信號(hào)

下一篇:國慶旅游,看看大數(shù)據(jù)再出發(fā)