中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

辨析BI、數據倉庫、數據湖和數據中臺內涵及差異點

2019-11-01    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

前言

隨著大數據技術的不斷更新和迭代,數據管理工具得到了飛速的發(fā)展,相關概念如雨后春筍一般應運而生,如從最初決策支持系統(tǒng)(DSS)到商業(yè)智能(BI)、數據倉庫、數據湖、數據中臺等,這些概念特別容易混淆,本文對這些名詞術語及內涵進行系統(tǒng)的解析,便于讀者對數據平臺相關的概念有全面的認識。

一、數據倉庫

數據倉庫平臺逐步從 BI 報表為主到分析為主、到預測為主、再到操作智能為目標。

 

 

數據倉庫發(fā)展階段劃分

商務智能(BI,Business Intelligence)是一種以提供決策分析性的運營數據為目的而建立的信息系統(tǒng)。是屬于在線分析處理:On Line Analytical Processing (OLAP),將預先計算完成的匯總數據,儲存于魔方數據庫(Cube) 之中,針對復雜的分析查詢,提供快速的響應。在前 10 年,BI 報表項目比較多,是數據倉庫項目的前期預熱項目(主要分析為主的階段,是數據倉庫的初級階段),制作一些可視化報表展現給管理者。

它利用信息科技,將分散于企業(yè)內、外部各種數據加以整合并轉換成知識,并依據某些特定的主題需求,進行決策分析和運算;

用戶則通過報表、圖表、多維度分析的方式,尋找解決業(yè)務問題所需要的方案;

這些結果將呈報給決策者,以支持策略性的決策和定義組織績效,或者融入智能知識庫自動向客戶推送。

1. 1 數據倉庫基本定義

數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合,用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統(tǒng)之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統(tǒng)的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,并進而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)之創(chuàng)建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環(huán)境變動,幫助建構商業(yè)智能(BI)。

所謂主題:是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,而不是像業(yè)務支撐系統(tǒng)那樣是按照業(yè)務功能進行組織的。

所謂集成:是指數據倉庫中的信息不是從各個業(yè)務系統(tǒng)中簡單抽取出來的,而是經過一系列加工、整理和匯總的過程,因此數據倉庫中的信息是關于整個企業(yè)的一致的全局信息。

所謂隨時間變化:是指數據倉庫內的信息并不只是反映企業(yè)當前的狀態(tài),而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。

 

 

數據倉庫邏輯架構

1. 2 數據倉庫系統(tǒng)作用和定位

數據倉庫系統(tǒng)的作用能實現跨業(yè)務條線、跨系統(tǒng)的數據整合,為管理分析和業(yè)務決策提供統(tǒng)一的數據支持。數據倉庫能夠從根本上幫助你把公司的運營數據轉化成為高價值的可以獲取的信息(或知識),并且在恰當的時候通過恰當的方式把恰當的信息傳遞給恰當的人。

 

 

數據倉庫的作用

是面向企業(yè)中、高級管理進行業(yè)務分析和績效考核的數據整合、分析和展現的工具;

是主要用于歷史性、綜合性和深層次數據分析;

數據來源是 ERP(例:SAP)系統(tǒng)或其他業(yè)務系統(tǒng);

能夠提供靈活、直觀、簡潔和易于操作的多維查詢分析;

不是日常交易操作系統(tǒng),不能直接產生交易數據;

數據倉庫針對實時數據處理,非結構化數據處理能力較弱,以及在業(yè)務在預警預測方面應用相對有限。

1. 3 數據倉庫能提供什么

 

 

數據倉庫提供價值

1. 4 數據倉庫系統(tǒng)構成

數據倉庫系統(tǒng)除了包含分析產品本身之外,還包含數據集成、數據存儲、數據計算、門戶展現、平臺管理等其它一系列的產品。

 

 

數據倉庫產品構成

 

 

數據倉庫產品構成

二、數據湖

數據湖(Data Lake)是 Pentaho 的 CTO James Dixon 提出來的(Pentaho 作為一家 BI 公司在理念上是挺先進的),是一種數據存儲理念——即在系統(tǒng)或存儲庫中以自然格式存儲數據的方法。

2. 1 維基百科對數據湖的定義

數據湖(Data Lake)是一個存儲企業(yè)的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖是以其自然格式存儲的數據的系統(tǒng)或存儲庫,通常是對象 blob 或文件。數據湖通常是企業(yè)所有數據的單一存儲,包括源系統(tǒng)數據的原始副本,以及用于報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關系數據庫(行和列)的結構化數據,半結構化數據(CSV,日志,XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像,音頻,視頻)。來源:維基百科。

目前,Hadoop 是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是 Hadoop 集群。數據湖是一個概念,而 Hadoop 是用于實現這個概念的技術。

 

 

數據湖的處理架構

 

 

數據湖示意圖

2. 2 數據湖能給企業(yè)帶來多種能力

數據湖能給企業(yè)帶來多種能力,例如,能實現數據的集中式管理,在此之上,企業(yè)能挖掘出很多之前所不具備的能力。另外,數據湖結合先進的數據科學與機器學習技術,能幫助企業(yè)構建更多優(yōu)化后的運營模型,也能為企業(yè)提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。數據湖能從以下方面幫助到企業(yè):

實現數據治理(data governance)。

通過應用機器學習與人工智能技術實現商業(yè)智能。

預測分析,如領域特定的推薦引擎。

信息追蹤與一致性保障。

根據對歷史的分析生成新的數據維度。

有一個集中式的能存儲所有企業(yè)數據的數據中心,有利于實現一個針對數據傳輸優(yōu)化的數據服務。

幫助組織或企業(yè)做出更多靈活的關于企業(yè)增長的決策。

2. 3 數據倉庫與數據湖差異

在儲存方面上,數據湖中數據為非結構化的,所有數據都保持原始形式。存儲所有數據,并且僅在分析時再進行轉換。數據倉庫就是數據通常從事務系統(tǒng)中提取。

在將數據加載到數據倉庫之前,會對數據進行清理與轉換。在數據抓取中數據湖就是捕獲半結構化和非結構化數據。而數據倉庫則是捕獲結構化數據并將其按模式組織。

數據湖的目的就是數據湖非常適合深入分析的非結構化數據。數據科學家可能會用具有預測建模和統(tǒng)計分析等功能的高級分析工具。而數據倉庫就是數據倉庫非常適用于月度報告等操作用途,因為它具有高度結構化。

在架構中數據湖通常,在存儲數據之后定義架構。使用較少的初始工作并提供更大的靈活性。在數據倉庫中存儲數據之前定義架構。

表 1. 數據倉庫、數據湖和數據湖的區(qū)別如下:

 

 

三、數據中臺

3. 1 產生的背景

企業(yè)在過去信息化的歷程中形成了大量生產經營及專業(yè)業(yè)務應用成果,同時也累積了大量的企業(yè)數據資產。限于傳統(tǒng)的數據倉庫技術手段,數據管理和分析能力成為信息化工作中的短板。企業(yè)信息系統(tǒng)眾多,系統(tǒng)管理獨立,數據存儲分散,橫向的數據共享和分析應用僅由具體業(yè)務驅動,難以對全局數據開展價值挖掘,從規(guī)模上和效果上都無法真正體現集團龐大數據資產的價值。市場競爭和產業(yè)鏈日益全球化,企業(yè)不只滿足于內部數據的分析,更要通過互聯網、微信、APP 等新技術手段結合外部市場數據進行整體分析。

(1)傳統(tǒng)的數據倉庫不能滿足數據分析需求。

企業(yè)在數據分析應用方面呈現“五大轉變”(從統(tǒng)計分析向預測分析轉變、從單領域分析向跨領域轉變、從被動分析向主動分析轉變、從非實時向實時分析轉變、從結構化數據向多元化轉變),并且對統(tǒng)一的數據中臺平臺訴求強烈,對數據中臺的運算能力、核心算法、及數據全面性提出了更高的要求。

(2)數據中臺的處理架構發(fā)生了變化。

一是以 Hadoop、Spark 等分布式技術和組件為核心的“計算&存儲混搭”的數據處理架構,能夠支持批量和實時的數據加載以及靈活的業(yè)務需求。二是數據的預處理流程正在從傳統(tǒng)的 ETL 結構向 ELT 轉變。傳統(tǒng)的數據倉庫集成處理架構是 ETL 結構,這是構建數據倉庫的重要一環(huán),即用戶從數據源抽取出所需的數據,經過數據清洗,將數據加載到數據倉庫中去。而大數據背景下的架構體系是 ELT 結構,其根據上層的應用需求,隨時從數據中臺中抽取想要的原始數據進行建模分析。

3. 2 數據中臺建設是數字化轉型的關鍵支撐

數據中臺成為熱點,“中臺”這個概念,是相對于前臺和后臺而生,是前臺和后臺的鏈接點,將業(yè)務共同的工具和技術予以沉淀。數據中臺是指數據采集交換、共享融合、組織處理、建模分析、管理治理和服務應用于一體的綜合性數據能力平臺,在大數據生態(tài)中處于承上啟下的功能,提供面向數據應用支撐的底座能力。

廣義上來給數據中臺一個企業(yè)級的定義:“聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業(yè)務價值的邏輯概念”。

 

 

數據中臺建設是數字化轉型的關鍵支撐

中臺戰(zhàn)略核心是數據服務的共享。中臺戰(zhàn)略并不是搭建一個數據平臺,但是中臺的大部分服務都是圍繞數據而生,數據中臺是圍繞向上層應用提供數據服務構建的,中臺戰(zhàn)略讓數據在數據平臺和業(yè)務系統(tǒng)之間形成了一個良性的閉環(huán),也就是實現應用與數據之間解藕,并實現緊密交互。

敏捷前臺:一線作戰(zhàn)單元,強調敏捷交互及穩(wěn)定交付的組織能力建設。

業(yè)務中臺:能力固化與賦能,固化通用能力,賦能前線部隊,提升配置效率,加快前線響應,產品化業(yè)務化,開辟全新生態(tài)。

數據中臺:資產整合與共享,整合多維數據,統(tǒng)一資產管理,連通數據孤島,共享數據資源,深入挖掘數據,盤活資產價值。

穩(wěn)定后臺:以共享中心建設為核心,為前中臺提供專業(yè)的內部服務支撐。

3. 3 數據中臺定義及處理架構

數據中臺是指通過企業(yè)內外部多源異構的數據采集、治理、建模、分析,應用,使數據對內優(yōu)化管理提高業(yè)務,對外可以數據合作價值釋放,成為企業(yè)數據資產管理中樞。數據中臺建立后,會形成數據 API,為企業(yè)和客戶提供高效各種數據服務。

 

 

數據中臺架構圖

數據中臺整體技術架構上采用云計算架構模式,將數據資源、計算資源、存儲資源充分云化,并通過多租戶技術進行資源打包整合,并進行開放,為用戶提供“一站式”數據服務。

利用大數據技術,對海量數據進行統(tǒng)一采集、計算、存儲,并使用統(tǒng)一的數據規(guī)范進行管理,將企業(yè)內部所有數據統(tǒng)一處理形成標準化數據,挖掘出對企業(yè)最有價值的數據,構建企業(yè)數據資產庫,提供一致的、高可用大 數據服務。

數據中臺不是一套軟件,也不是一個信息系統(tǒng),而是一系列數據組件的集合,企業(yè)基于自身的信息化建設基礎、數據基礎以及業(yè)務特點對數據中臺的能力進行定義,基于能力定義利用數據組件搭建自己的數據中臺。

3. 4 數據中臺帶來價值

數據中臺對一個企業(yè)的數字化轉型和可持續(xù)發(fā)展起著至關重要的作用。數據中臺為解耦而生,企業(yè)建設數據中臺的最大意義就是應用與數據解藕。這樣企業(yè)就可以不受限制地按需構建滿足業(yè)務需求的數據應用。

構建了開放、靈活、可擴展的企業(yè)級統(tǒng)一數據管理和分析平臺, 將企業(yè)內、外部數據隨需關聯,打破了數據的系統(tǒng)界限。

利用大數據智能分析、數據可視化等技術,實現了數據共享、日常報表自動生成、快速和智能分析,滿足集團總部和各分子公司各級數據分析應用需求。

深度挖掘數據價值,助力企業(yè)數字化轉型落地。實現了數據的目錄、模型、標準、認責、安全、可視化、共享等管理,實現數據集中存儲、處理、分類與管理,建立大數據分析工具庫、算法服務庫,實現報表生成自動化、數據分析敏捷化、數據挖掘可視化,實現數據質量評估、落地管理流程。

四、傳統(tǒng)數據倉庫與數據中臺的差異點

 

 

數據中臺與傳統(tǒng)數據倉庫比較

 

 

技術路線對比表

作為工業(yè)企業(yè),一般采用混搭架構

 

 

技術路線選型比較表

結論

本文對數據倉庫、數據湖、數據中臺等內涵作了詳細說明,便于讀者更好的理解和掌握數據領域相關概念。

最后總結一點:數據中臺更好的支撐數據預測分析、跨領域分析、主動分析、實時分析、多元化結構化數據分析,數據中臺建設是我們企業(yè)數據服務和共享奠定重要的基礎,可以加速從數據到價值的過程,打造相應業(yè)務能力。

標簽: 數據倉 

版權申明:本站文章部分自網絡,如有侵權,請聯系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯系。

上一篇:數據科學的專業(yè)認證越來越重要

下一篇:阿里高級安全專家自述:阿里如何實現數據“可用不可見”