中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

將數(shù)據(jù)遷移到云:回到未來?

2018-06-23    來源:

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

如果你深入了解了要遷移到云的數(shù)據(jù)以及用來管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。

我在最近的“賭場之夜”活動中,在21點上押上了所有籌碼,并在最后一手牌大獲全勝。同事對我的勇氣大加贊賞,我還贏得了獎勵(我們不是為了錢而賭博),他們問我為什么冒險下注,我回答說:“沒有什么危險的!

規(guī)劃云遷移的大型企業(yè)也是如此。按需容量,低成本存儲以及豐富的開源和商業(yè)工具生態(tài)系統(tǒng)的前景十分激動人心。但是風險是真實存在的,特別是在數(shù)據(jù)遷移方面。數(shù)百家公司現(xiàn)在已經證明,單一數(shù)據(jù)泄露可能會造成長期的經濟,法律和品牌上的損失。除了數(shù)據(jù)保護之外,僅僅管理云中的數(shù)據(jù)是不同的,如果做法不當,成本,復雜性和風險會使一切毀于一旦。

將數(shù)據(jù)倉庫或數(shù)據(jù)湖泊簡單地“提升并轉移”到云中將不會產生成本節(jié)省來證明這其中付出的合理性。對總擁有成本(TCO)和規(guī)模都有顯著影響的云技術是低成本的對象存儲(例如Amazon S3,ADLS)和彈性數(shù)據(jù)處理(EMR,Spark)。事實上,利用這些措施來建立一個彈性的(而不是固定的)數(shù)據(jù)管理云環(huán)境,這可以將總擁有成本降低85%之多。

管理云中的數(shù)據(jù)需要多少成本?

需要注意的是,降低數(shù)據(jù)存儲成本的技術提供的數(shù)據(jù)管理功能要少得多。Hadoop比Teradata便宜很多,但它不提供成熟的RDBMS(Relational Database Management System,關系數(shù)據(jù)庫管理系統(tǒng))所具備的數(shù)據(jù)完整性控制、負載平衡和自動化。同樣,S3比Hadoop數(shù)據(jù)節(jié)點上的存儲更便宜,但它只是一個文件系統(tǒng)。沒有表,字段或數(shù)據(jù)類型。如果你要在S3上查詢或處理數(shù)據(jù),你需要使用商業(yè)或開源工具(例如AWS Glue、EMR)或編寫自定義程序。為了管理和更新S3中的數(shù)據(jù),你需要一個數(shù)據(jù)管理工具(Redshift、Snowflake、Podium)。數(shù)據(jù)保護僅限于加密文件——當你想要分析在某些字段中具有PII的數(shù)據(jù)集時,數(shù)據(jù)保護功能不是很有用。盡管對象存儲可擴展,價格低廉且靈活,但它使數(shù)據(jù)管理倒退了幾十年。

與很多不成熟的技術一樣,對象存儲的局限性也被鼓吹為功能特性。它們“允許”程序員處理任意大小,形狀或質量的數(shù)據(jù),并解釋其結構和內容。這種“讀取模式(schema on read)”方法適于處理非結構化數(shù)據(jù)或頻繁更改結構的數(shù)據(jù)。但它妨礙了自動化、標準化和規(guī);,這對于協(xié)作和重用來說至關重要,因為數(shù)據(jù)的含義隱藏在代碼中。這聽起來是不是很熟悉?是的。關系數(shù)據(jù)庫的口號就是要使數(shù)據(jù)的結構和含義成為聲明式的,而不是嵌入在COBOL重定義中(你可以去查)。

根據(jù)目錄優(yōu)先策略建立的紐帶

高度結構化的數(shù)據(jù)庫和“為所欲為”的對象存儲之間的紐帶是數(shù)據(jù)目錄。目錄是一個共享數(shù)據(jù)庫,為對象庫中的數(shù)據(jù)提供結構和含義。Hadoop目錄包括HIVE、Atlas和Navigator,它們定義了HDFS文件如何構成表和字段。通過API,程序可以查詢目錄來查找邏輯數(shù)據(jù)對象的結構,其技術和業(yè)務屬性,訪問權限以及數(shù)據(jù)文件的位置。然后這些程序可以將洞察和結果推回到目錄中以豐富它。

但是,很多云目錄都是被動的——它們掃描文件和日志,在數(shù)據(jù)得到處理后推斷數(shù)據(jù)的結構和使用。然而,數(shù)據(jù)管理必須是主動的,以確保敏感數(shù)據(jù)不會暴露,重要的數(shù)據(jù)標準得到了遵守,圖謀不軌者不會實施不牢靠的計劃。所有云遷移都應采用以目錄為中心的策略:

所有共享和敏感數(shù)據(jù)都在一個通用目錄中注冊

所有程序都將通過目錄訪問數(shù)據(jù)并記錄其活動

這使得公司可以提供支持各種快速發(fā)展的技術的基本數(shù)據(jù)管理。S3上的數(shù)據(jù)湖泊可以支持Hadoop處理、自定義PySpark代碼、R分析,Amazon Glue等,同時維護(并豐富)共享數(shù)據(jù)資產。此外,人們還可以制定一個如何存儲,更新和檢查數(shù)據(jù)質量的標準,從而實現(xiàn)這些任務的自動化。

目錄還支持彈性,這對云經濟至關重要。目錄可以在一臺服務器上全天候提供使用,它支持業(yè)務用戶購買數(shù)據(jù),開發(fā)人員設計新數(shù)據(jù)產品,管理員檢查質量并添加業(yè)務定義。只有數(shù)據(jù)處理任務(如數(shù)據(jù)加載、刷新、準備和分析)需要并行處理能力。關系數(shù)據(jù)庫和Hadoop習慣上將存儲,處理和目錄結合在一個固定的系統(tǒng)中,隨著數(shù)據(jù)的增長,成本會全線上升。在新的世界里,目錄又是處理能力和廉價存儲之間的橋梁。大量的數(shù)據(jù)可以通過目錄進行合理管理,并且可以控制處理成本。實際上,如果目錄具有分析統(tǒng)計信息(例如基數(shù)、最小值、最大值),那么它就可以優(yōu)化數(shù)據(jù)的處理。

以目錄為中心的另一個好處是可移植性。云供應商迫切希望你注冊他們的集成的專有工具。這就是他們的策略——一旦他們的應用程序中擁有你的數(shù)據(jù)和代碼,他們就掌握了你。目錄為你提供了選擇——我們確實在一個周末將一個客戶從一家云供應商遷移到另一家供應商,因為另一家供應商是由目錄驅動并自動化的。

在防火墻后面,目錄優(yōu)先策略是最好的,它使你對以目錄為中心的戰(zhàn)略做好準備。自動編目工具可以使你在幾周內洞悉所有的數(shù)據(jù)資產(關系型、大型機、Hadoop、文件),并為你提供遷移劇本(playbook)。

我們應該遷移什么資源?

GDPR和PII數(shù)據(jù)在哪里?

我們應該將哪些重復的和相關的數(shù)據(jù)合理化?

什么是各個字段的配置文件,內容和質量?

人們的目標就是通過可驗證的審計跟蹤(audit trail)來創(chuàng)建云就緒(cloud-ready)數(shù)據(jù),以證明其來源、血緣和質量。此外,目錄通過對廣泛用戶群體的安全,自助訪問為敏捷性和擴展性提供了基礎。如果你深入了解了要遷移到云的數(shù)據(jù)以及用來管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。

標簽: 安全 代碼 防火墻 服務器 權限 數(shù)據(jù)庫

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:科技反噬論:人類蝸居“云端”,算法蠶食世界

下一篇:中國電信、華為、浪潮中標2018中央云計算服務協(xié)議采購項目