中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

蘇寧數(shù)據(jù)倉(cāng)庫(kù)應(yīng)對(duì)數(shù)據(jù)爆發(fā)式增長(zhǎng)的技術(shù)演進(jìn)

2018-11-09    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

為什么需要數(shù)據(jù)倉(cāng)庫(kù)

隨著公司業(yè)務(wù)不斷發(fā)展,數(shù)據(jù)種類(lèi)和存儲(chǔ)呈現(xiàn)爆發(fā)式增長(zhǎng),繁多的業(yè)務(wù)數(shù)據(jù)如何被各業(yè)務(wù)中心分析和使用,如何有效組織和管理大量業(yè)務(wù)數(shù)據(jù),減少大數(shù)據(jù)平臺(tái)相近邏輯重復(fù)計(jì)算、相近數(shù)據(jù)重復(fù)存儲(chǔ),都將面臨巨大挑戰(zhàn)。

數(shù)據(jù)倉(cāng)庫(kù)層次架構(gòu)

數(shù)據(jù)倉(cāng)庫(kù)層次整體劃分為三層:近源數(shù)據(jù)層、整合數(shù)據(jù)層和應(yīng)用數(shù)據(jù)層,如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

近源數(shù)據(jù)層

近源層是數(shù)據(jù)倉(cāng)庫(kù)拷貝源數(shù)據(jù)提供整合的數(shù)據(jù)存儲(chǔ)區(qū)域,粒度、結(jié)構(gòu)和源系統(tǒng)保持相同

緩沖區(qū):保存源系統(tǒng)每天的增量數(shù)據(jù),可根據(jù)應(yīng)用需要保留適當(dāng)歷史周期的數(shù)據(jù),不長(zhǎng)期保存數(shù)據(jù)

操作區(qū):存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)最細(xì)節(jié)數(shù)據(jù),按照業(yè)務(wù)源系統(tǒng)分類(lèi)劃分;對(duì)數(shù)據(jù)做結(jié)構(gòu)化處理,完整保留所有細(xì)節(jié)數(shù)據(jù)。

近源層是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量最大的部分。

整合數(shù)據(jù)層

明細(xì)區(qū):采用維度建模方法,整合近源層數(shù)據(jù),進(jìn)行適度的反范式設(shè)計(jì)明細(xì)事實(shí)數(shù)據(jù)表。

匯總區(qū):根據(jù)應(yīng)用層和其他下游系統(tǒng)取數(shù)需要,對(duì)明細(xì)事實(shí)數(shù)據(jù)進(jìn)行適度匯總,提升取數(shù)性能。

維度區(qū):數(shù)倉(cāng)統(tǒng)一維度數(shù)據(jù)模型。

應(yīng)用數(shù)據(jù)層

應(yīng)用數(shù)據(jù)層為個(gè)性化匯總層,針對(duì)不是很通用統(tǒng)計(jì)維度、指標(biāo)存放在此層中,本層計(jì)算通常只有自身業(yè)務(wù)關(guān)注的維度和指標(biāo),和其他業(yè)務(wù)線一般無(wú)交集 。

數(shù)據(jù)建模

數(shù)據(jù)建模是數(shù)據(jù)倉(cāng)庫(kù)中的核心工作,蘇寧數(shù)據(jù)建模主要采用的kimball維度建模方法,建模主要分兩塊,維度表設(shè)計(jì)和事實(shí)表設(shè)計(jì)。

維度表設(shè)計(jì)

維度是數(shù)據(jù)倉(cāng)庫(kù)的核心,他提供了數(shù)據(jù)分析的視角和標(biāo)準(zhǔn),大部分的維度表數(shù)據(jù)量都相對(duì)較小,但是他是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心,整個(gè)的數(shù)據(jù)建模都是圍繞著維度來(lái)建設(shè)。

維度表主鍵

維度表在數(shù)據(jù)倉(cāng)庫(kù)中有不可替代的重要地位,因此維度表主鍵的確認(rèn)也尤其重要,維度表的主鍵用于和事實(shí)表做關(guān)聯(lián)使用,所以維度表主鍵也為事實(shí)表的外鍵,維表主鍵可由有業(yè)務(wù)含義的自然鍵組成;也可由無(wú)意義的代理建組成,比如使用流水號(hào)、自然鍵+日期等方式。

維表相對(duì)靜態(tài)、不隨時(shí)間變化直接使用自然鍵作為主鍵,比如:業(yè)務(wù)狀態(tài)碼、性別、城市省份等不會(huì)隨著時(shí)間改變而改變主鍵對(duì)應(yīng)業(yè)務(wù)含義,一般直接使用業(yè)務(wù)自然鍵作為主鍵;維表隨著時(shí)間的變化而產(chǎn)生變化需要考慮使用代理鍵作為主鍵。蘇寧門(mén)店代碼,會(huì)因?yàn)榻M織法人等信息變更,生門(mén)店代碼會(huì)發(fā)生變化,對(duì)應(yīng)主鍵的業(yè)務(wù)含義會(huì)隨著時(shí)間的變化而改變,使用一個(gè)代理鍵和業(yè)務(wù)門(mén)店代碼映射,可以識(shí)別歷史和當(dāng)前不通的門(mén)店代碼為一個(gè)門(mén)店。

實(shí)際使用過(guò)程中,由于在大數(shù)據(jù)平臺(tái)中生成穩(wěn)定代理鍵和自然鍵關(guān)系比較復(fù)雜,一般使用流水號(hào)代理鍵使用非常少。

維度反規(guī)范化處理

在OLTP系統(tǒng)中,一般表設(shè)計(jì)都遵循3NF等規(guī)范化要求要求建立數(shù)據(jù)模型,這個(gè)可以有效避免數(shù)據(jù)冗余以及數(shù)據(jù)不一致性,如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

然而在OLAP系統(tǒng)中,使用規(guī)范化,會(huì)導(dǎo)致數(shù)據(jù)表關(guān)聯(lián)操作多、性能差,在OLAP系統(tǒng)中,數(shù)據(jù)是相對(duì)穩(wěn)定的,此時(shí)往往會(huì)采用反規(guī)范化處理,根據(jù)分析需要建立對(duì)應(yīng)維度寬表,降低模型查詢(xún)復(fù)雜度,提升批處理查詢(xún)性能。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

維度的合并和拆分

合并:

相同范圍數(shù)據(jù),對(duì)應(yīng)多張表存儲(chǔ)屬性不同,根據(jù)維度分析需要整合至一張維度表中,整合后減少事實(shí)表和維度表關(guān)聯(lián)次數(shù),方便數(shù)據(jù)分析和加快數(shù)據(jù)統(tǒng)計(jì)計(jì)算。

不同數(shù)據(jù)范圍,對(duì)應(yīng)多張表存儲(chǔ)信息,根據(jù)維度分析需要將相同屬性整合到一張表中,不同表中差異化的數(shù)據(jù)整合到各自數(shù)據(jù)表中。

拆分:

根據(jù)屬性的使用頻率、屬性變化程度、屬性數(shù)據(jù)計(jì)算產(chǎn)生時(shí)間等角度分析多維度屬性做適當(dāng)拆分,常用的信息在一張表中,對(duì)異變、冷門(mén)屬性拆分到另外一張表中,對(duì)出數(shù)比較晚的數(shù)據(jù)也做單獨(dú)拆分,可以盡可能保障主數(shù)據(jù)模型出數(shù)穩(wěn)定和提前出數(shù)時(shí)間。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

根據(jù)業(yè)務(wù)細(xì)分或者業(yè)務(wù)數(shù)據(jù)使用熱度進(jìn)行拆分,例如蘇寧商品目前已經(jīng)到十億+級(jí)別數(shù)據(jù)量,其中很大一部分商品已經(jīng)不在售賣(mài),不會(huì)產(chǎn)生流量和交易,可以將近N月產(chǎn)生流量或交易數(shù)據(jù)分別建立維度表,減少事實(shí)表和維度表關(guān)聯(lián)系統(tǒng)消耗。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

需要結(jié)合業(yè)務(wù)數(shù)據(jù)情況和數(shù)據(jù)分析要求,合理使用合并和拆分方法。

緩慢變化維

緩慢變化主要是解決記錄數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)歷史變化,實(shí)際根據(jù)業(yè)務(wù)需要我們會(huì)有多種處理方式。

以會(huì)員會(huì)員張三舉例,9月1日前公司地址為南京市玄武區(qū)蘇寧大道一號(hào)總部一期;9月2日由原公司地址總部一期變更為總部二期,對(duì)應(yīng)多種處理方式包含覆蓋方式、新增列方式和新增行方式,下面對(duì)每種方式處理方法單獨(dú)介紹。

覆蓋方式:維度屬性的變化,維度舊的屬性總是被新值所覆蓋,不保留歷史狀態(tài)數(shù)據(jù),當(dāng)數(shù)據(jù)不需要保留歷史記錄,不需要執(zhí)行以前的報(bào)表,可以采取此方式。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

新增列方式:新增數(shù)據(jù)列記錄對(duì)應(yīng)列數(shù)據(jù)變化前數(shù)據(jù),可以記錄指定列數(shù)據(jù)變化情況。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

新增行方式:當(dāng)維度數(shù)據(jù)發(fā)生變更,維度表新增一條維度記錄,并且分配新的代理主鍵,通常配合有效開(kāi)始時(shí)間、有效結(jié)束時(shí)間、有效標(biāo)識(shí)使用。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

快照維度表

在實(shí)際大數(shù)據(jù)平臺(tái)開(kāi)發(fā)過(guò)程中,產(chǎn)生唯一代理鍵和生成緩慢變化為拉鏈表是比較困難和復(fù)雜的,在很多實(shí)際的場(chǎng)景中是基于計(jì)算周期,每個(gè)周期生成一份快照表,保留每個(gè)周期的快照數(shù)據(jù),采用快照表方式維護(hù)簡(jiǎn)單使用也比較方便,弊端也很明顯浪費(fèi)存儲(chǔ),在數(shù)據(jù)量不是特別大的情況下使用此方式還是比較合適的。

層次維表

通常維度之間往往存在層次關(guān)系,關(guān)系的層級(jí)可能是固定的,也可能是不固定的

固定深度層級(jí):比如蘇寧采購(gòu)目錄層級(jí)關(guān)系,表現(xiàn)為固定四級(jí)層級(jí)關(guān)系,為提高查詢(xún)性能,將表設(shè)置為固定四層寬表。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

深度輕微差別層級(jí):比如蘇寧銷(xiāo)售目錄關(guān)系,表現(xiàn)為三到五級(jí)層級(jí)關(guān)系,層級(jí)關(guān)系不固定,但層級(jí)深度有限,可以基于最大深度和業(yè)務(wù)規(guī)則建立維度表。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

深度可變層級(jí):對(duì)于深度層級(jí)不確定維表,在建模和使用都相對(duì)較復(fù)雜,可以采用橋接表方式,對(duì)每個(gè)可能的路徑保留一行,確保能遍歷所有層次。還以銷(xiāo)售目錄舉例,如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

由上圖可見(jiàn),橋接表加工處理比較復(fù)雜,且?guī)?lái)雙算的隱患,實(shí)際模型設(shè)計(jì)中,多選擇扁平化模型設(shè)計(jì)方法來(lái)解決業(yè)務(wù)問(wèn)題。

事實(shí)表設(shè)計(jì)

維度模型設(shè)計(jì)過(guò)程

選擇業(yè)務(wù)過(guò)程:業(yè)務(wù)過(guò)程由組織完成的微觀活動(dòng)。例如易購(gòu)交易過(guò)程包含:下單、支付、發(fā)貨、收貨、退貨等,明確了業(yè)務(wù)過(guò)程根據(jù)業(yè)務(wù)需求選擇和建模有關(guān)的業(yè)務(wù)過(guò)程。

申明粒度:確認(rèn)事實(shí)表中每一行數(shù)據(jù)的準(zhǔn)確粒度,以交易過(guò)程舉例,對(duì)應(yīng)粒度為交易時(shí)間、會(huì)員、商家、商品,申請(qǐng)粒度和主鍵(單號(hào))等價(jià),不要以數(shù)據(jù)主鍵來(lái)定義數(shù)據(jù)粒度

確定維度:根據(jù)業(yè)務(wù)需要確認(rèn)需要分析的業(yè)務(wù)維度,包含時(shí)間、地點(diǎn)、人物、環(huán)境等,常見(jiàn)包含日期、會(huì)員、商品、渠道、設(shè)備等

確定事實(shí):事實(shí)也稱(chēng)為度量,根據(jù)業(yè)務(wù)需要和數(shù)據(jù)來(lái)源確認(rèn)度量。

事務(wù)事實(shí)表

事務(wù)可以理解為業(yè)務(wù)操作最基本的動(dòng)作,他可表示特定時(shí)間、空間發(fā)生的一個(gè)事件。如果某個(gè)事務(wù)發(fā)生,將在對(duì)應(yīng)事實(shí)表中建立對(duì)應(yīng)一行記錄,它能實(shí)現(xiàn)對(duì)細(xì)節(jié)行為數(shù)據(jù)的分析。

如下已訂單下單和支付過(guò)程具體,如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

在實(shí)際設(shè)計(jì)過(guò)程中,如果多個(gè)業(yè)務(wù)動(dòng)作的維度和度量都基本相同,可以考慮將多個(gè)業(yè)務(wù)過(guò)程合并為一張事實(shí)表,合并可以減少數(shù)據(jù)開(kāi)發(fā)工作量和方便以后業(yè)務(wù)變更。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

周期快照事實(shí)

如果希望分析某個(gè)業(yè)務(wù)在某個(gè)固定的、可預(yù)測(cè)的事件間隔內(nèi)的累計(jì)性能,可使用周期快照事實(shí)表,利用周期快照可對(duì)一天、一周、一個(gè)月結(jié)束時(shí)建立數(shù)據(jù)快照,存儲(chǔ)到事實(shí)表中,周期快照事實(shí)表可用于記錄事實(shí)每個(gè)周期的變化情況。

例如我們業(yè)務(wù)中通常對(duì)會(huì)員累計(jì)支付金額、積分余額、會(huì)員等級(jí)、商品庫(kù)存等做周期快照,方便分析會(huì)員、商品等屬性對(duì)應(yīng)度量值,而不需要長(zhǎng)期聚集事務(wù)歷史。

累計(jì)快照事實(shí)表

累計(jì)快照表示具有確定的開(kāi)始和結(jié)束時(shí)間以及此期間所有中間過(guò)程的步驟,累計(jì)快照適中會(huì)表示多個(gè)日期外鍵,表示主要時(shí)間或過(guò)程里程碑。

以交易過(guò)程舉例,統(tǒng)計(jì)訂單對(duì)應(yīng)下單到支付時(shí)長(zhǎng)、支付到發(fā)貨時(shí)長(zhǎng)、發(fā)貨到收貨時(shí)長(zhǎng)、支付到收貨時(shí)長(zhǎng)等,事務(wù)事實(shí)表計(jì)算復(fù)雜,性能差,比較適合采用累積快照事實(shí)表。如下圖:

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

數(shù)據(jù)處理常見(jiàn)問(wèn)題

離線數(shù)據(jù)處理

1)表存儲(chǔ)格式

盡可能避免使用textfile存儲(chǔ)格式。數(shù)據(jù)內(nèi)容中時(shí)常會(huì)出現(xiàn)換行、tab等一些特殊字符,使用textfile容易出現(xiàn)數(shù)據(jù)行錯(cuò)位、列錯(cuò)位等情況,如果特殊情況不可避免使用textfile格式,盡量選擇json文件格式,或者多個(gè)特殊分隔符作為行和列分隔符。

2)數(shù)據(jù)壓縮

建議使用orc或rc等壓縮方式存儲(chǔ)表,以cpu換存儲(chǔ)和時(shí)間 ,加快讀寫(xiě)效率。

3)數(shù)據(jù)傾斜

在表數(shù)據(jù)處理過(guò)程中,多種情況會(huì)發(fā)生數(shù)據(jù)傾斜:

1. 大小表關(guān)聯(lián),走common join,由于關(guān)聯(lián)key值在大表中分布不均勻,可以開(kāi)啟mapjoin,將小表加載到內(nèi)存,大表不需要根據(jù)key做hash分布,不會(huì)出現(xiàn)數(shù)據(jù)分布不均情況。

2. 兩大表關(guān)聯(lián),其中表中關(guān)鍵key值存在部分鍵值數(shù)據(jù)非常大,導(dǎo)致數(shù)據(jù)傾斜

個(gè)別鍵值,比如null值數(shù)據(jù)非常大,對(duì)個(gè)別鍵值做rand處理,打散數(shù)據(jù)

非個(gè)別的鍵值數(shù)據(jù)量很多,比如熱銷(xiāo)商品訪問(wèn)數(shù)據(jù)量會(huì)比其他商品數(shù)據(jù)量大,可以首先統(tǒng)計(jì)topN數(shù)據(jù)量Key列表到topN表中,將量大表先和topN表關(guān)鍵,這樣topN數(shù)據(jù)可以先mapjoin,剩下數(shù)據(jù)common join,可以避免數(shù)據(jù)傾斜。

出現(xiàn)數(shù)據(jù)傾斜還是需要先分析key值數(shù)據(jù)分布情況確認(rèn)解決方案。

實(shí)時(shí)數(shù)據(jù)處理

1)數(shù)據(jù)重復(fù)

在實(shí)時(shí)數(shù)據(jù)處理過(guò)程中,不論使用storm、sparkstreaming、flink,因?yàn)樵诒WC大數(shù)據(jù)大吞吐計(jì)算情況下,往往較難保證數(shù)據(jù)事務(wù),在環(huán)境或者計(jì)算出現(xiàn)異常情況下,容易出現(xiàn)某個(gè)批次部分?jǐn)?shù)據(jù)重復(fù)計(jì)算,在很多數(shù)據(jù)業(yè)務(wù)分析往往是無(wú)法接受的,對(duì)需要準(zhǔn)確性統(tǒng)計(jì)的計(jì)算場(chǎng)景,緩存每次計(jì)算結(jié)束的列表,每次計(jì)算前根據(jù)已計(jì)算列表驗(yàn)證當(dāng)前數(shù)據(jù)是否已經(jīng)計(jì)算過(guò),對(duì)計(jì)算過(guò)的數(shù)據(jù)跳過(guò)本次計(jì)算,這樣程序異;蛘咧貑,重新讀取kafka數(shù)據(jù)會(huì)跳過(guò)已經(jīng)計(jì)算完成的數(shù)據(jù)。對(duì)用戶(hù)流量類(lèi)大數(shù)據(jù)量做到精確統(tǒng)計(jì)消耗成本太高,可以根據(jù)實(shí)際業(yè)務(wù)需要選擇對(duì)應(yīng)方案。

2)雙數(shù)據(jù)流關(guān)聯(lián)

多數(shù)情況,在實(shí)時(shí)指標(biāo)分析過(guò)程中,指標(biāo)和維度往往能通過(guò)一個(gè)數(shù)據(jù)源來(lái)分析計(jì)算得出,在某些場(chǎng)景下,指標(biāo)對(duì)應(yīng)維度會(huì)對(duì)應(yīng)不同的數(shù)據(jù)源,這時(shí)候就需要將兩個(gè)數(shù)據(jù)源根據(jù)業(yè)務(wù)ID關(guān)聯(lián)起來(lái),然而兩個(gè)實(shí)時(shí)數(shù)據(jù)流可能會(huì)出現(xiàn)1.兩個(gè)數(shù)據(jù)流數(shù)據(jù)不同步,2.數(shù)據(jù)采集可能存在一定的數(shù)據(jù)丟失,導(dǎo)致可能部分pv再等待另外一個(gè)流永遠(yuǎn)都等不到。

以流量PV指標(biāo)舉例,分析維度包含:城市、頁(yè)面類(lèi)型、供應(yīng)商等,其中流量訪問(wèn)日志里面包含PV_ID、城市、頁(yè)面類(lèi)型等信息,流量庫(kù)存日志包含PV_ID、供應(yīng)商等信息,pv數(shù)指標(biāo)對(duì)應(yīng)維度分表對(duì)應(yīng)兩個(gè)數(shù)據(jù)源中,在離線計(jì)算中join直接解決,在實(shí)時(shí)計(jì)算過(guò)程中又怎么關(guān)聯(lián)呢?

首先需要分析兩個(gè)數(shù)據(jù)流哪個(gè)是主數(shù)據(jù)流,所有的統(tǒng)計(jì)數(shù)據(jù)以主流為基礎(chǔ),保證主流數(shù)據(jù)不丟失,部分場(chǎng)景也可能兩個(gè)流合并作為主數(shù)據(jù)流;

其次需要對(duì)兩個(gè)數(shù)據(jù)流設(shè)定一定的緩存,對(duì)未關(guān)聯(lián)上的數(shù)據(jù)先記錄到緩存中,等待另外數(shù)據(jù)流做關(guān)聯(lián)操作,緩存需要有持久化機(jī)制,保證系統(tǒng)出現(xiàn)問(wèn)題或者程序重啟緩存不會(huì)丟失;

再次設(shè)置緩存時(shí)長(zhǎng),由于包括數(shù)據(jù)丟失等可能情況會(huì)導(dǎo)致數(shù)據(jù)無(wú)法關(guān)聯(lián)情況,此時(shí)需要根據(jù)業(yè)務(wù)定義緩存時(shí)長(zhǎng),對(duì)超過(guò)時(shí)長(zhǎng)還未關(guān)聯(lián)到的數(shù)據(jù)根據(jù)業(yè)務(wù)做對(duì)應(yīng)處理。

在實(shí)際實(shí)時(shí)模型設(shè)計(jì)盡可能減少雙流關(guān)聯(lián)的計(jì)算場(chǎng)景,一方面雙流關(guān)聯(lián)開(kāi)發(fā)較復(fù)雜,另外一方面雙流關(guān)聯(lián)相比單流數(shù)據(jù)準(zhǔn)確性存在下降的可能性,在上舉例中,可以通過(guò)上游采集系統(tǒng)在訪問(wèn)流添加供應(yīng)商等維度,由一個(gè)數(shù)據(jù)流支撐對(duì)應(yīng)指標(biāo)和維度,雙流在采集端容易做業(yè)務(wù)合并的盡可能在采集端做業(yè)務(wù)合并。

大促計(jì)算保障

電商行業(yè),大促業(yè)務(wù)量是日常業(yè)務(wù)量的很多倍,暴增的數(shù)據(jù)量對(duì)計(jì)算平臺(tái)各環(huán)節(jié)都會(huì)帶來(lái)較大的挑戰(zhàn)。

離線計(jì)算,1.數(shù)據(jù)暴增首先帶來(lái)的是底層平臺(tái)HDFS計(jì)算壓力,需要根據(jù)預(yù)估業(yè)務(wù)量擴(kuò)容平臺(tái)計(jì)算能力;2.數(shù)據(jù)暴增容易帶來(lái)數(shù)據(jù)傾斜問(wèn)題,例如大促爆款商品等呈現(xiàn)分化數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)分布嚴(yán)重不均勻,需要打散數(shù)據(jù),有效利用平臺(tái)資源分散計(jì)算,縮短計(jì)算時(shí)間;3.提前分析核心業(yè)務(wù)線,識(shí)別關(guān)鍵路徑,對(duì)關(guān)鍵路徑中慢節(jié)點(diǎn)做拆分優(yōu)化,提高計(jì)算并行能力,縮短關(guān)鍵路徑時(shí)間。在大促保障期間,通過(guò)計(jì)算傾斜的優(yōu)化和關(guān)鍵路徑的拆分優(yōu)化,有效提前整體出數(shù)時(shí)間。

實(shí)時(shí)計(jì)算:1.根據(jù)預(yù)估業(yè)務(wù)量擴(kuò)容實(shí)時(shí)計(jì)算storm、spark streaming、flink等平臺(tái)資源;2.在流處理業(yè)務(wù)中,根據(jù)業(yè)務(wù)數(shù)據(jù)量、業(yè)務(wù)重要程度對(duì)業(yè)務(wù)計(jì)算做拆分,避免集群內(nèi)業(yè)務(wù)互相影響,對(duì)storm需要根據(jù)業(yè)務(wù)做集群拆分,盡可能將數(shù)據(jù)量大非核心業(yè)務(wù)拆分單獨(dú)集群,避免集群內(nèi)非核心業(yè)務(wù)搶占核心業(yè)務(wù)資源3.合理利用數(shù)據(jù)緩存有效提高實(shí)時(shí)計(jì)算能力;4.對(duì)適合在客戶(hù)端采集實(shí)現(xiàn)的業(yè)務(wù),由采集來(lái)實(shí)現(xiàn),減輕大數(shù)據(jù)平臺(tái)計(jì)算壓力,也能通過(guò)數(shù)據(jù)采集優(yōu)化有效避免部分業(yè)務(wù)的雙流關(guān)聯(lián),提高實(shí)時(shí)計(jì)算效率和準(zhǔn)確度。

名詞解釋?zhuān)?/strong>

 

蘇寧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)技術(shù)演進(jìn)

 

作者:彭虎,蘇寧易購(gòu)IT總部大數(shù)據(jù)中心技術(shù)副總監(jiān),12年IT從業(yè)經(jīng)驗(yàn),專(zhuān)長(zhǎng)大數(shù)據(jù)hive、storm、spark等數(shù)據(jù)計(jì)算技術(shù),對(duì)數(shù)據(jù)建模、數(shù)據(jù)計(jì)算、多維分析有著專(zhuān)業(yè)認(rèn)知和研究,致力于數(shù)據(jù)倉(cāng)庫(kù)探索研究、數(shù)據(jù)質(zhì)量分析、數(shù)據(jù)計(jì)算保障。

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)平臺(tái) 大數(shù)據(jù)平臺(tái)開(kāi)發(fā) 大數(shù)據(jù)中心 代碼 電商 電商行業(yè) 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:剛剛、Gartner發(fā)布物聯(lián)網(wǎng)技術(shù)十大戰(zhàn)略和趨勢(shì)

下一篇:沈向洋:數(shù)據(jù)、算法和計(jì)算力是AI發(fā)展三大要素