中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一文盤點(diǎn)數(shù)據(jù)集市和數(shù)據(jù)倉庫的差異(附鏈接)

2018-11-16    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

當(dāng)一家企業(yè)開始應(yīng)用商業(yè)智能(Business Intelligence,BI)的戰(zhàn)略和技術(shù)時(shí),首先需要明確數(shù)據(jù)集市和數(shù)據(jù)倉庫的區(qū)別。理解這種差異將決定你采用何種BI架構(gòu)和數(shù)據(jù)驅(qū)動(dòng)決策。

商業(yè)智能的目標(biāo)是運(yùn)用技術(shù)將數(shù)據(jù)轉(zhuǎn)化為可執(zhí)行的想法,并幫助終端用戶在信息更完備的情況下做出商業(yè)決定,不論是理論戰(zhàn)略還是實(shí)際戰(zhàn)略。在闡述各自的實(shí)例和結(jié)構(gòu)特點(diǎn)前,本文將先對各自的重要概念進(jìn)行定義。

數(shù)據(jù)集市定義

數(shù)據(jù)集市是一個(gè)面向主題的數(shù)據(jù)存儲庫,其服務(wù)于特定的業(yè)務(wù)領(lǐng)域,如金融或銷售。以下是數(shù)據(jù)集市的一些重要的典型特征。

● 僅包含與特定業(yè)務(wù)或功能單元相關(guān)的源數(shù)據(jù)。

● 數(shù)據(jù)集市的規(guī)模通常是幾十GB的數(shù)量級。

● 通常只保存匯總數(shù)據(jù),一些數(shù)據(jù)集市可能會包含完整的細(xì)節(jié)。

● 數(shù)據(jù)集市的搭建要花費(fèi)不少于一萬美元,以及3-6個(gè)月的時(shí)間。

● 基于數(shù)據(jù)集市工具得到的決策是影響特定部門運(yùn)營方式的戰(zhàn)術(shù)決策。

數(shù)據(jù)倉庫定義

數(shù)據(jù)倉庫是用于一個(gè)企業(yè)內(nèi)的存儲庫,包含來自不同業(yè)務(wù)、系統(tǒng)和部門的集成數(shù)據(jù)。關(guān)于數(shù)據(jù)倉庫類型,請參照如下文章。

附鏈接:

https://blog.panoply.io/i-choose-you-criteria-for-selecting-a-data-warehouse-platform

以下是數(shù)據(jù)倉庫的特征:

● 包含來自業(yè)務(wù)中的多個(gè)單元/主題區(qū)域的數(shù)據(jù)。

● 數(shù)據(jù)倉庫的大小通常為TB量級,至少也要超過100GB。

● 存儲的詳細(xì)信息級別很高,包括原始數(shù)據(jù)、匯總數(shù)據(jù)和元數(shù)據(jù)。

● 然而,搭建內(nèi)部系統(tǒng)的成本通常要超過10萬美元,而隨著數(shù)據(jù)倉庫服務(wù)的普及,云計(jì)算模式降低了成本。

● 特定工具的業(yè)務(wù)用戶想通過數(shù)據(jù)倉庫信息來做出更明智的戰(zhàn)略業(yè)務(wù)決策,這會影響整個(gè)公司。

經(jīng)典的Inmon 和 Kimball爭論

區(qū)分?jǐn)?shù)據(jù)集市和數(shù)據(jù)倉庫是非常重要的,這源于數(shù)據(jù)倉庫先驅(qū)Bill Inmon和Ralph Kimball提出的兩種截然不同的數(shù)據(jù)建模方法之間的爭論。

Ralph Kimball認(rèn)為,最好的方法是從最重要的業(yè)務(wù)方面或部門入手,從這些方面可以產(chǎn)生面向特定業(yè)務(wù)線的數(shù)據(jù)集市。隨著時(shí)間的推移,企業(yè)可以根據(jù)需要合并其數(shù)據(jù)集市以形成數(shù)據(jù)倉庫。Kimball的方法被稱為自下而上(bottom-up)。

Bill Inmon認(rèn)為僅僅將數(shù)據(jù)集市結(jié)合起來是不夠的。他提倡創(chuàng)建數(shù)據(jù)倉庫,作為企業(yè)數(shù)據(jù)模型的物理表示,可以根據(jù)需要為特定的業(yè)務(wù)單元?jiǎng)?chuàng)建數(shù)據(jù)集市。

每種方法都有各自的優(yōu)點(diǎn),許多因素會影響你的決定。應(yīng)該從數(shù)據(jù)集市入手,還是從數(shù)據(jù)倉庫入手,要基于你從事的行業(yè)考慮。

例如,保險(xiǎn)公司顯然需要從一開始就有一個(gè)高層次的概述,包括所有影響其業(yè)務(wù)模型和戰(zhàn)略選擇的因素,包括人口統(tǒng)計(jì)數(shù)據(jù)、股票市場趨勢、索賠歷史、統(tǒng)計(jì)概率等,因此采用Inmon方法并從數(shù)據(jù)倉庫開始是最有意義的。

對于中小型營銷企業(yè)來說,從數(shù)據(jù)集市入手更合適。如果該業(yè)務(wù)擴(kuò)展,未來會包括多個(gè)子部門和業(yè)務(wù)線,可以在以后將每個(gè)業(yè)務(wù)線的數(shù)據(jù)集市合并到數(shù)據(jù)倉庫中,就像Kimball方法一樣。

結(jié)構(gòu)化細(xì)節(jié)

大多數(shù)數(shù)據(jù)庫都是規(guī)范化的,這樣優(yōu)化可以使事務(wù)處理的速度更快,比如添加或刪除數(shù)據(jù)。規(guī)范化的工作方式是重新組織數(shù)據(jù),使其不包含冗余數(shù)據(jù),并將相關(guān)數(shù)據(jù)分離到表中,在指定關(guān)系的表之間使用連接。

數(shù)據(jù)倉庫/市場通常使用非規(guī)范化的數(shù)據(jù)結(jié)構(gòu),其中管理員通過向規(guī)范化數(shù)據(jù)添加冗余數(shù)據(jù)來減少分析查詢的運(yùn)行時(shí)間,從而提高查詢性能。

一個(gè)重要的概念是提取、轉(zhuǎn)換和加載(ETL)。ETL從多個(gè)數(shù)據(jù)源提取數(shù)據(jù),基于特定的規(guī)則對數(shù)據(jù)進(jìn)行轉(zhuǎn)換以滿足業(yè)務(wù)需求,最后將數(shù)據(jù)加載(寫入)到目標(biāo)系統(tǒng)中。

如果從數(shù)據(jù)倉庫入手,通常使用ETL將數(shù)據(jù)直接從源系統(tǒng)獲取到數(shù)據(jù)倉庫,然后根據(jù)需要從數(shù)據(jù)倉庫獲取到數(shù)據(jù)集市。如果采用Kimball方法并從數(shù)據(jù)集市入手,只需將相關(guān)源系統(tǒng)中的數(shù)據(jù)寫入適當(dāng)?shù)臄?shù)據(jù)集市,然后再執(zhí)行ETL過程,以便從數(shù)據(jù)集市創(chuàng)建數(shù)據(jù)倉庫。

小結(jié)

由于時(shí)間限制和資源限制,除了最成熟的企業(yè)之外,所有企業(yè)都應(yīng)該從數(shù)據(jù)集市開始,并隨著時(shí)間的推移逐步開發(fā)數(shù)據(jù)倉庫。然而,云計(jì)算縮短了時(shí)間并降低了構(gòu)建企業(yè)數(shù)據(jù)倉庫的成本,企業(yè)數(shù)據(jù)倉庫可以提供對組織數(shù)據(jù)的單一視圖的訪問。

標(biāo)簽: 金融 數(shù)據(jù)庫 云計(jì)算

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Python數(shù)據(jù)科學(xué)“冷門”庫

下一篇:沒有數(shù)學(xué)和編程基礎(chǔ),這幾個(gè)數(shù)據(jù)科學(xué)項(xiàng)目了解一