中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)湖:下一代企業(yè)數(shù)據(jù)倉(cāng)庫(kù)

2020-12-04    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

 

時(shí)過境遷,曾經(jīng)如日中天的數(shù)據(jù)倉(cāng)庫(kù)現(xiàn)在怎么樣了?是大勢(shì)不減還是已經(jīng)奄奄一息、茍延殘喘?如果你對(duì)這個(gè)問題感到困惑,那也是情有可原的。一方面,數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展勢(shì)頭強(qiáng)勁。作為一個(gè)行業(yè)的長(zhǎng)期觀察者,我目睹了這個(gè)行業(yè)不斷涌現(xiàn)的創(chuàng)新活動(dòng)。

這種趨勢(shì)是從 10 年前“Applicance Form Factor”成為數(shù)據(jù)倉(cāng)庫(kù)主流開始。幾年前,隨著市場(chǎng)轉(zhuǎn)向新一代的云數(shù)據(jù)倉(cāng)庫(kù),這種勢(shì)頭進(jìn)一步獲得了新的動(dòng)力。在過去幾年,云數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商 Snowflake 在市場(chǎng)上備受矚目。

數(shù)據(jù)倉(cāng)庫(kù)黯然失色

另一方面,數(shù)據(jù)倉(cāng)庫(kù)的市場(chǎng)份額被其他技術(shù)蠶食,比如大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能。這種趨勢(shì)給我們?cè)斐闪艘环N印象,即數(shù)據(jù)倉(cāng)庫(kù)在企業(yè) IT 中的優(yōu)先級(jí)地位正在下降。但實(shí)際上,大多數(shù)企業(yè)現(xiàn)在仍然至少需要一個(gè)(甚至多個(gè))數(shù)據(jù)倉(cāng)庫(kù)來為下游的應(yīng)用程序提供服務(wù)。

數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)的核心工作負(fù)載,這也就是為什么幾年前我就開始思考為什么數(shù)據(jù)倉(cāng)庫(kù)離“死”還很遙遠(yuǎn);蛟S,這也解釋了為什么其他觀察者認(rèn)為他們必須重新定義數(shù)據(jù)倉(cāng)庫(kù)的概念,讓它能夠在數(shù)據(jù)湖和云計(jì)算時(shí)代繼續(xù)存在下去。

實(shí)際上,數(shù)據(jù)倉(cāng)庫(kù)不僅在蓬勃發(fā)展,而且被認(rèn)為是云計(jì)算時(shí)代的一個(gè)核心的增長(zhǎng)前沿。如果你的眼球只盯著像 Snowflake 這樣的平臺(tái),可能會(huì)錯(cuò)過很多東西。

數(shù)據(jù)湖的崛起

人們所說的“數(shù)據(jù)湖”正在迅速演變成為下一代數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)湖是指一種包含多結(jié)構(gòu)數(shù)據(jù)的系統(tǒng)或倉(cāng)庫(kù),這些數(shù)據(jù)按照各自的格式和模式進(jìn)行保存,比如大對(duì)象、文件等。

數(shù)據(jù)湖通常被作為整個(gè)企業(yè)的存儲(chǔ)中心,包括原數(shù)據(jù)系統(tǒng)的原始數(shù)據(jù)和轉(zhuǎn)化過的用于報(bào)表、可視化、分析和機(jī)器學(xué)習(xí)的數(shù)據(jù)。它們包含了分布式文件或?qū)ο蟠鎯?chǔ)、機(jī)器學(xué)習(xí)模型庫(kù)、高度并行化處理集群和存儲(chǔ)資源。數(shù)據(jù)庫(kù)不強(qiáng)制使用通用的 schema 和語義,而是在讀取數(shù)據(jù)時(shí)使用 schema 和統(tǒng)計(jì)模型來抽取有意義的模式。

所有這些都不違背 Inmon 和 Kimball 有關(guān)數(shù)據(jù)倉(cāng)庫(kù)的核心概念。從根本上說,數(shù)據(jù)倉(cāng)庫(kù)的存在是為了聚合、保留和管理“單一版本的事實(shí)來源”數(shù)據(jù)。這個(gè)概念與使用數(shù)據(jù)的特定應(yīng)用程序或用例無關(guān)。

如果你對(duì)這個(gè)說法存有疑惑,可以看一下有關(guān) Bill Inmon 對(duì)數(shù)據(jù)倉(cāng)庫(kù)定義的討論( http://www.b-eye-network.com/view/16066 ),以及 Inmon 和 Ralph Kimball 兩個(gè)框架之間的比較( https://www.computerweekly.com/tip/Inmon-or-Kimball-Which-approach-is-suitable-for-your-data-warehouse )。數(shù)據(jù)倉(cāng)庫(kù)是關(guān)于基于數(shù)據(jù)驅(qū)動(dòng)的決策支持,可以擴(kuò)展到基于人工智能的推理。

下一代數(shù)據(jù)倉(cāng)庫(kù)

在過去的一年里,行業(yè)里出現(xiàn)的一些東西表明數(shù)據(jù)倉(cāng)庫(kù)的角色已經(jīng)發(fā)生了轉(zhuǎn)變。盡管決策支持仍然是大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)的核心應(yīng)用場(chǎng)景,但我們也看到了決策自動(dòng)化正在發(fā)生穩(wěn)步的轉(zhuǎn)變。換句話說,數(shù)據(jù)倉(cāng)庫(kù)現(xiàn)在正在為構(gòu)建基于數(shù)據(jù)驅(qū)動(dòng)的推理的機(jī)器學(xué)習(xí)應(yīng)用程序提供支持。

新一代數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上就是數(shù)據(jù)湖,其首要設(shè)計(jì)目標(biāo)是用來管理用于構(gòu)建和訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)。例如,在去年秋季的亞馬遜 re:Invent 大會(huì)上,AWS 發(fā)布了 AWS Lake Formation。這個(gè)服務(wù)旨在簡(jiǎn)化和加快數(shù)據(jù)湖的構(gòu)建過程。AWS Lake Formation 具備了云數(shù)據(jù)倉(cāng)庫(kù)的所有特征,盡管 AWS 沒有把它叫做數(shù)據(jù)倉(cāng)庫(kù)。實(shí)際上,該服務(wù)提供了一個(gè)經(jīng)典的數(shù)據(jù)倉(cāng)庫(kù)亞馬遜 Redshift,主要面向決策支持應(yīng)用程序。

AWS Lake Formation 的行為看起來很像是數(shù)據(jù)倉(cāng)庫(kù)。事實(shí)上,AWS 對(duì)它的描述很容易讓我們將其與數(shù)據(jù)倉(cāng)庫(kù)做對(duì)比:“數(shù)據(jù)湖是一個(gè)集中式的安全數(shù)據(jù)庫(kù),它存儲(chǔ)所有數(shù)據(jù),包括原始數(shù)據(jù)和轉(zhuǎn)換過的數(shù)據(jù)。數(shù)據(jù)湖可以幫你打破數(shù)據(jù)孤島,將不同類型的分析結(jié)合起來,從中獲得洞見和更好的商業(yè)決策指導(dǎo)。

事實(shí)上,AWS 將 AWS Lake Formation 描述為一種用于決策支持和人工智能決策自動(dòng)化的超級(jí)數(shù)據(jù)倉(cāng)庫(kù)。AWS 還特別強(qiáng)調(diào),該服務(wù)旨在管理數(shù)據(jù),“然后用戶就可以選擇他們的分析和機(jī)器學(xué)習(xí)服務(wù),如 Amazon EMR for Spark、Amazon Redshift、Amazon Athena、Amazon SageMaker 和 Amazon QuickSight”。

值得一提的是,Databricks 最近發(fā)布了 Delta Lake 開源項(xiàng)目。Delta Lake 的目標(biāo)與 AWS Lake Formation 類似:聚合、清理和管理數(shù)據(jù)湖中的數(shù)據(jù)集,以便更好地為機(jī)器學(xué)習(xí)提供支持。

Delta Lake 位于數(shù)據(jù)中心或云平臺(tái)的數(shù)據(jù)存儲(chǔ)平臺(tái)之上,比如 HDFS、Amazon S3 或微軟 Azure 大對(duì)象存儲(chǔ),這些數(shù)據(jù)存儲(chǔ)都可以被 Spark 訪問。Delta Lake 使用 Parquet 格式來存儲(chǔ)數(shù)據(jù),Databricks 將其稱為“事務(wù)存儲(chǔ)層”。Parquet 是一種開源的列式存儲(chǔ)格式,Hadoop 生態(tài)系統(tǒng)中的每一個(gè)項(xiàng)目都支持這種格式,不管使用的是哪一種處理框架。它通過樂觀并發(fā)序列化、快照隔離、數(shù)據(jù)版本、回滾和強(qiáng)制 schema 來支持 ACID 事務(wù)。

Delta Lake 和 AWS Lake Formation 之間的一個(gè)關(guān)鍵區(qū)別是 Delta Lake 可以支持批次數(shù)據(jù)和流式數(shù)據(jù)。另外,Delta Lake 支持 ACID 事務(wù),可以支持?jǐn)?shù)百個(gè)應(yīng)用程序的并發(fā)寫入和讀取。開發(fā)者還可以訪問早期版本的數(shù)據(jù)湖,進(jìn)行審計(jì)和回滾,或者重現(xiàn) MLFlow 機(jī)器學(xué)習(xí)的結(jié)果。

從廣泛的層面來看,Delta Lake 似乎要與已經(jīng)被廣泛采用的 Hive 展開競(jìng)爭(zhēng)。Hive 極度依賴基于 HDFS 的存儲(chǔ),而且直到最近才開始支持 ACID 事務(wù)。一年前,Hive 3 將 ACID 事務(wù)支持帶到了基于 Hadoop 的數(shù)據(jù)倉(cāng)庫(kù)上。Hive 3 可以為 CRUD 操作提供原子性和快照隔離。

基于人工智能驅(qū)動(dòng)的決策自動(dòng)化基石

行業(yè)最近發(fā)布的這些東西——AWS Lake Formation、Delta Lake 和 Hive 3——預(yù)示著數(shù)據(jù)湖將成為所有決策支持和決策自動(dòng)化應(yīng)用程序和所有事務(wù)數(shù)據(jù)應(yīng)用程序的治理中心。要加快這種趨勢(shì),Hive 3 和 Delta Lake 等開源項(xiàng)目需要進(jìn)一步吸引供應(yīng)商和用戶的眼球。

“數(shù)據(jù)倉(cāng)庫(kù)”一詞的定義可能會(huì)發(fā)生變化,主要指用于管理商業(yè)智能多結(jié)構(gòu)數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)。不過,底層的數(shù)據(jù)平臺(tái)會(huì)繼續(xù)演化,為基于云的人工智能管道提供數(shù)據(jù)管理基礎(chǔ)。

人工智能,而不是商業(yè)智能,正在推動(dòng)著企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的演變。

作者:James Kobielus

譯者:阿拉丁

英文原文: https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html

標(biāo)簽: 數(shù)據(jù)湖 數(shù)據(jù)倉(cāng) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:拯救數(shù)據(jù)科學(xué)的“半貝葉斯人”

下一篇:10種免費(fèi)的工具讓你快速的、高效的使用數(shù)據(jù)可視化