中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)處理基本過(guò)程

2018-12-10    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

剛接觸大數(shù)據(jù)一個(gè)月,把一些基本知識(shí),總體架構(gòu)記錄一下,感覺(jué)坑很多,要學(xué)習(xí)的東西也很多,先簡(jiǎn)單了解一下基本知識(shí)

什么是大數(shù)據(jù):大數(shù)據(jù)(big data),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

大數(shù)據(jù)的5V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性),百度隨便找找都有。

 

大數(shù)據(jù)處理基本過(guò)程

 

大數(shù)據(jù)處理流程:

 

大數(shù)據(jù)處理基本過(guò)程

 

1.是數(shù)據(jù)采集,搭建數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)采集就是把數(shù)據(jù)通過(guò)前端埋點(diǎn),接口日志調(diào)用流數(shù)據(jù),數(shù)據(jù)庫(kù)抓取,客戶(hù)自己上傳數(shù)據(jù),把這些信息基礎(chǔ)數(shù)據(jù)把各種維度保存起來(lái),感覺(jué)有些數(shù)據(jù)沒(méi)用(剛開(kāi)始做只想著功能,有些數(shù)據(jù)沒(méi)采集, 后來(lái)被老大訓(xùn)了一頓)。

2.數(shù)據(jù)清洗/預(yù)處理:就是把收到數(shù)據(jù)簡(jiǎn)單處理,比如把ip轉(zhuǎn)換成地址,過(guò)濾掉臟數(shù)據(jù)等。

3.有了數(shù)據(jù)之后就可以對(duì)數(shù)據(jù)進(jìn)行加工處理,數(shù)據(jù)處理的方式很多,總體分為離線(xiàn)處理,實(shí)時(shí)處理,離線(xiàn)處理就是每天定時(shí)處理,常用的有阿里的maxComputer,hive,MapReduce,離線(xiàn)處理主要用storm,spark,hadoop,通過(guò)一些數(shù)據(jù)處理框架,可以吧數(shù)據(jù)計(jì)算成各種KPI,在這里需要注意一下,不要只想著功能,主要是把各種數(shù)據(jù)維度建起來(lái),基本數(shù)據(jù)做全,還要可復(fù)用,后期就可以把各種kpi隨意組合展示出來(lái)。

4.數(shù)據(jù)展現(xiàn),數(shù)據(jù)做出來(lái)沒(méi)用,要可視化,做到MVP,就是快速做出來(lái)一個(gè)效果,不合適及時(shí)調(diào)整,這點(diǎn)有點(diǎn)類(lèi)似于Scrum敏捷開(kāi)發(fā),數(shù)據(jù)展示的可以用datav,神策等,前端好的可以忽略,自己來(lái)畫(huà)頁(yè)面。

數(shù)據(jù)采集:

1.批數(shù)據(jù)采集,就是每天定時(shí)去數(shù)據(jù)庫(kù)抓取數(shù)據(jù)快照,我們用的maxComputer,可以根據(jù)需求,設(shè)置每天去數(shù)據(jù)庫(kù)備份一次快照,如何備份,如何設(shè)置數(shù)據(jù)源,如何設(shè)置出錯(cuò),在maxComputer都有文檔介紹,使用maxComputer需要注冊(cè)阿里云服務(wù),https://help.aliyun.com/product/27797.html,鏈接是maxComputer文檔。

2.實(shí)時(shí)接口調(diào)用數(shù)據(jù)采集,可以用logHub,dataHub,流數(shù)據(jù)處理技術(shù),DataHub具有高可用,低延遲,高可擴(kuò)展,高吞吐的特點(diǎn)。

高吞吐:最高支持單主題(Topic)每日T級(jí)別的數(shù)據(jù)量寫(xiě)入,每個(gè)分片(Shard)支持最高每日8000萬(wàn)Record級(jí)別的寫(xiě)入量。

實(shí)時(shí)性:通過(guò)DataHub ,您可以實(shí)時(shí)的收集各種方式生成的數(shù)據(jù)并進(jìn)行實(shí)時(shí)的處理,

設(shè)計(jì)思路:首先寫(xiě)一個(gè)sdk把公司所有后臺(tái)服務(wù)調(diào)用接口調(diào)用情況記錄下來(lái),開(kāi)辟線(xiàn)程池,把記錄下來(lái)的數(shù)據(jù)不停的往dataHub,logHub存儲(chǔ),前提是設(shè)置好接收數(shù)據(jù)的dataHub表結(jié)構(gòu),https://help.aliyun.com/document_detail/47448.html?spm=a2c4g.11186623.3.2.nuizA4,這是dataHub文檔,下圖是數(shù)據(jù)監(jiān)控,會(huì)看到數(shù)據(jù)會(huì)不停流入

 

大數(shù)據(jù)處理基本過(guò)程

 

3.前臺(tái)數(shù)據(jù)埋點(diǎn),這些就要根據(jù)業(yè)務(wù)需求來(lái)設(shè)置了,也是通過(guò)流數(shù)據(jù)傳輸?shù)綌?shù)據(jù)倉(cāng)庫(kù),如上述第二步。

數(shù)據(jù)處理:

數(shù)據(jù)采集完成就可以對(duì)數(shù)據(jù)進(jìn)行加工處理,可分為離線(xiàn)批處理,實(shí)時(shí)處理。

1.離線(xiàn)批處理maxComputer,這是阿里提供的一項(xiàng)大數(shù)據(jù)處理服務(wù),是一種快速,完全托管的TB/PB級(jí)數(shù)據(jù)倉(cāng)庫(kù)解決方案,編寫(xiě)數(shù)據(jù)處理腳本,設(shè)置任務(wù)執(zhí)行時(shí)間,任務(wù)執(zhí)行條件,就可以按照你的要求,每天產(chǎn)生你需要的數(shù)據(jù),https://help.aliyun.com/document_detail/30267.html?spm=a2c4g.11174283.3.2.0aBtdh,鏈接dataworks為文檔。下圖是檢測(cè)任務(wù)實(shí)例運(yùn)行狀態(tài)

 

大數(shù)據(jù)處理基本過(guò)程

 

2.實(shí)時(shí)處理:采用storm/spark,目前接觸的只有storm,strom基本概念網(wǎng)上一大把,在這里講一下大概處理過(guò)程,首先設(shè)置要讀取得數(shù)據(jù)源,只要啟動(dòng)storm就會(huì)不停息的讀取數(shù)據(jù)源。Spout,用來(lái)讀取數(shù)據(jù)。Tuple:一次消息傳遞的基本單元,理解為一組消息就是一個(gè)Tuple。stream,用來(lái)傳輸流,Tuple的集合。Bolt:接受數(shù)據(jù)然后執(zhí)行處理的組件,用戶(hù)可以在其中執(zhí)行自己想要的操作。可以在里邊寫(xiě)業(yè)務(wù)邏輯,storm不會(huì)保存結(jié)果,需要自己寫(xiě)代碼保存,把這些合并起來(lái)就是一個(gè)拓?fù),總體來(lái)說(shuō)就是把拓?fù)涮峤坏椒⻊?wù)器啟動(dòng)后,他會(huì)不停讀取數(shù)據(jù)源,然后通過(guò)stream把數(shù)據(jù)流動(dòng),通過(guò)自己寫(xiě)的Bolt代碼進(jìn)行數(shù)據(jù)處理,然后保存到任意地方,關(guān)于如何安裝部署storm,如何設(shè)置數(shù)據(jù)源,網(wǎng)上都有教程,這里不多說(shuō)。

 

大數(shù)據(jù)處理基本過(guò)程

 

數(shù)據(jù)展現(xiàn):做了上述那么多,終于可以直觀的展示了,由于前端技術(shù)不行,借用了第三方展示平臺(tái)datav,datav支持兩種數(shù)據(jù)讀取模式,第一種,直接讀取數(shù)據(jù)庫(kù),把你計(jì)算好的數(shù)據(jù),通過(guò)sql查出來(lái),需要配置數(shù)據(jù)源,讀取數(shù)據(jù)之后按照給定的格式,進(jìn)行格式化就可以展現(xiàn)出來(lái),https://help.aliyun.com/document_detail/30360.html,鏈接為datav文檔。可以設(shè)置圖標(biāo)的樣式,也可以設(shè)置參數(shù),

 

大數(shù)據(jù)處理基本過(guò)程

 

第二種采用接口的形式,可以直接采用api,在數(shù)據(jù)區(qū)域配置為api,填寫(xiě)接口地址,需要的參數(shù)即可,這里就不多說(shuō)了。

這次先記錄這么多,以后再補(bǔ)充,內(nèi)容為原創(chuàng),若是有不對(duì)的地方還請(qǐng)?jiān)u論糾正。

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)處理 代碼 服務(wù)器 腳本 什么是大數(shù)據(jù) 數(shù)據(jù)庫(kù) 云服務(wù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:實(shí)戰(zhàn):用Python實(shí)現(xiàn)隨機(jī)森林

下一篇:大數(shù)據(jù)可視化及發(fā)展趨勢(shì)