中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

解析業(yè)務(wù)數(shù)據(jù)的特征——《企業(yè)大數(shù)據(jù)實(shí)踐路線》

2019-02-26    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

我們今天的內(nèi)容是解析業(yè)務(wù)數(shù)據(jù)的特征。我們已經(jīng)知道了數(shù)據(jù)從哪里來(lái),也知道有什么數(shù)據(jù),現(xiàn)在我們需要去分析一下這些數(shù)據(jù)的特征是什么,想想能在這些數(shù)據(jù)上做什么文章。

業(yè)務(wù)數(shù)據(jù)的分類

首先我們可以了解一下業(yè)務(wù)數(shù)據(jù)的分類,其實(shí)我們?cè)谥耙呀?jīng)說過了,一個(gè)是交互數(shù)據(jù),一個(gè)是底層數(shù)據(jù),還有一個(gè)是業(yè)務(wù)數(shù)據(jù)。交互數(shù)據(jù)主要是我們?cè)跇I(yè)務(wù)使用過程中出現(xiàn)了一些交互性的數(shù)據(jù),比如說用戶的登錄、注銷、閱讀、點(diǎn)贊這些行為數(shù)據(jù)。那么底層數(shù)據(jù)指的是什么呢?主要是我們服務(wù)器的日志、業(yè)務(wù)代碼的日志、調(diào)試信息等等,這些信息是底層數(shù)據(jù),還包括更硬核一點(diǎn)的就是我們系統(tǒng)的監(jiān)控信息,CPU的占用率,內(nèi)存的占用率,磁盤IO的變化,網(wǎng)絡(luò)流量的變化等等。還有一塊就是我們業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)主要是我們核心數(shù)據(jù),比如說像商品信息、文章信息、交易訂單數(shù)據(jù)、會(huì)員數(shù)據(jù)等等。

 

 

我們要去分析三類數(shù)據(jù)有什么樣的特征。一個(gè)就是底層數(shù)據(jù)大部分是日志數(shù)據(jù),不能講100%吧,講95%以上的底層數(shù)據(jù)都是日志,或者是以日志形式表達(dá)的這樣一些數(shù)據(jù)。所以我們?cè)诶玫讓訑?shù)據(jù)的時(shí)候會(huì)有大量精力需要用在梳理出格式和對(duì)應(yīng)的字段內(nèi)容,更集中化收集下。這是我們?cè)诘讓訑?shù)據(jù)處理遇到的最大問題。一是你以什么樣的合理方式把這些底層數(shù)據(jù)搜集上來(lái),二是說梳理上來(lái)的數(shù)據(jù)需要進(jìn)行數(shù)據(jù)清洗。

 

 

在交互數(shù)據(jù)上我們會(huì)遇到幾個(gè)問題,第一個(gè)就是日志類型和數(shù)據(jù)庫(kù)內(nèi)容混雜,結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)混雜。而且交互數(shù)據(jù)還會(huì)產(chǎn)生一個(gè)問題,它涉及到的關(guān)聯(lián)數(shù)據(jù)非常多,比如說你的一段交互內(nèi)容可能會(huì)有一行日志,但是這個(gè)日志背后有一篇文章,可能有一個(gè)用戶,甚至有一條評(píng)論,可能還有一些其他更深層次的一些關(guān)聯(lián)信息,這些信息的關(guān)聯(lián)就是很麻煩,因?yàn)橄鄬?duì)于說在底層數(shù)據(jù)的處理上,只需要把日志拆開,一個(gè)字段一個(gè)字段去了解它的含義。交互數(shù)據(jù)拆開之后還要思索它的關(guān)聯(lián),然后還會(huì)產(chǎn)生不同業(yè)務(wù)系統(tǒng)的關(guān)聯(lián),這是交互數(shù)據(jù)帶來(lái)的問題。

業(yè)務(wù)數(shù)據(jù)這一塊,通常是跟用戶有非常深度的關(guān)聯(lián)關(guān)系,而且對(duì)安全性的要求非常高。這就給很多企業(yè)數(shù)據(jù)上云帶來(lái)一些問題,企業(yè)甚至?xí)x擇一個(gè)混合云的架構(gòu)或者是私有云的架構(gòu),然后所有的操作全在自己的私有云上去完成,這是它的物理特性。那么它的邏輯特性是什么呢?這些業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián),深度很深,舉個(gè)例子,一個(gè)用戶的消費(fèi)記錄可能只有一行信息,但是這個(gè)消費(fèi)記錄代表的含義可能會(huì)涉及到商品信息,商品信息后面還會(huì)關(guān)聯(lián)到這個(gè)商品當(dāng)時(shí)的營(yíng)銷計(jì)劃,還會(huì)關(guān)聯(lián)這個(gè)用戶賬戶的現(xiàn)金變動(dòng)或者是交互余額的變動(dòng),關(guān)聯(lián)發(fā)貨的清單或者是物流信息流轉(zhuǎn)等等。僅僅只是一個(gè)消費(fèi)記錄單能關(guān)聯(lián)出來(lái)或者是帶出來(lái)的數(shù)據(jù)維度非常之多,所以這是業(yè)務(wù)數(shù)據(jù)一個(gè)表現(xiàn)特性。相對(duì)于交互數(shù)據(jù)的關(guān)聯(lián)來(lái)說,它是層次更深一點(diǎn),交互數(shù)據(jù)它關(guān)聯(lián)的主要是橫向,扁平化的,就是不會(huì)有太深層次的關(guān)聯(lián),而業(yè)務(wù)數(shù)據(jù)會(huì)往下探,下鉆,然后產(chǎn)生更多維度的深層次關(guān)聯(lián)。這是我們業(yè)務(wù)數(shù)據(jù)的特征。

常見的Web應(yīng)用工作流分析

 

 

我們可以通過一個(gè)具體的例子來(lái)解析一下,一個(gè)常見的WEB應(yīng)用的工作流。用戶的流量過來(lái),然后到負(fù)載均衡或者是CDN或者是服務(wù)器前端入口HTTP或者是HTTPS一個(gè)入口。然后這些入口把流量分發(fā)給到WEB服務(wù)器,Nginx或者是別的一些服務(wù)端。然后服務(wù)端后再對(duì)各個(gè)語(yǔ)言的應(yīng)用進(jìn)行工作,把響應(yīng)傳回去,在這個(gè)工作過程中我們還會(huì)涉及到數(shù)據(jù)庫(kù)、中間件、緩存,這些操作又會(huì)關(guān)聯(lián)服務(wù)器底層數(shù)據(jù),這是整個(gè)深層次的過程。

我們可以通過這樣的方式去拆解每個(gè)環(huán)節(jié)對(duì)應(yīng)的數(shù)據(jù)。用戶環(huán)節(jié)我們能拿到的數(shù)據(jù)是瀏覽器,因?yàn)槲疫@個(gè)例子是WEB應(yīng)用,所以他能拿到的是瀏覽器信息,像負(fù)載均衡、CDN、前端入口等等。像我們WEB服務(wù)器可以拿到的日志就是網(wǎng)站的訪問日志。數(shù)據(jù)庫(kù),中間件或者是緩存RDS,能拿到的數(shù)據(jù)是什么呢,一個(gè)是核心服務(wù)的日志或者是監(jiān)控?cái)?shù)據(jù)。像RDS就是能拿到具體的監(jiān)控?cái)?shù)據(jù),中間件是本身自己可能,看這個(gè)是使用什么樣的中間件,常規(guī)的中間件它自己會(huì)有一部分日志會(huì)流轉(zhuǎn)出來(lái),或者也可以定向去采集它都可以的。

最后一部分,我們能在服務(wù)器底層能拿到什么樣的數(shù)據(jù)呢?也就是服務(wù)器的運(yùn)營(yíng)日志,可能是操作系統(tǒng)級(jí)的運(yùn)營(yíng)日志。還能拿到我們服務(wù)器的監(jiān)控?cái)?shù)據(jù),服務(wù)器可以通過給它裝一個(gè)監(jiān)控工具,客戶端,然后可以把這些屬于搜集上報(bào)到工具中去。

這是非常常見的WEB應(yīng)用的工作流,那么這個(gè)工作流背后我們要去思考的是,具體能拿到什么數(shù)據(jù)呢?以案例來(lái)看,能夠拿到服務(wù)器訪問日志、CDN的日志、數(shù)據(jù)庫(kù)的數(shù)據(jù)等,這一塊是我們放在阿里云的SLS也就是日志服務(wù)里面的應(yīng)用日志,也就是我們?cè)陂_發(fā)過程中我們特別埋了一些點(diǎn),取了一些日志,這個(gè)日志我們存在了阿里云的SLS里面。

在大數(shù)據(jù)方面,我個(gè)人有一個(gè)感觸,大數(shù)據(jù)轉(zhuǎn)型一定要有懂業(yè)務(wù)的人來(lái)推動(dòng),由技術(shù)人員推動(dòng)的大數(shù)據(jù)轉(zhuǎn)型往往都不落地。這并不是否定技術(shù)人員的能力,而是說一個(gè)純粹的技術(shù)人員來(lái)推動(dòng)的大數(shù)據(jù),往往找不到合適的場(chǎng)景,就會(huì)把整個(gè)業(yè)務(wù)或者是公司的轉(zhuǎn)型方向帶偏了,可能追求的東西很有技術(shù)價(jià)值但是不一定有商業(yè)價(jià)值,這是一個(gè)很大的忌諱,這是我這幾年的最大感觸。很多公司喊著要做大數(shù)據(jù)轉(zhuǎn)型,但是最后主導(dǎo)都是說找一個(gè)什么大數(shù)據(jù)工程師或者是架構(gòu)師幫你做方案,最后落地完了之后做跟沒做沒兩樣,這也不是我們想達(dá)到的效果。

我舉一個(gè)很有代表性的板塊給大家來(lái)看一下,就是我們的客戶端信息能夠搜集到哪些呢?比如說像我們?yōu)g覽器品牌,像你用的是火狐,Google還是IE還是別的什么品牌的瀏覽器,你是在請(qǐng)求的時(shí)候是可以看出來(lái)的,因?yàn)楝F(xiàn)在瀏覽器都在構(gòu)造請(qǐng)求頭的時(shí)候都會(huì)把自己的品牌加進(jìn)去,這個(gè)是一定會(huì)有的一個(gè)東西,除非黑客,黑客通過TCP直接構(gòu)建請(qǐng)求的,他可以把這些信息抹掉或者是刻意偽造一下,這個(gè)主要是用來(lái)像爬蟲采集,可能會(huì)出現(xiàn)這種情況,但是也都有一定的能識(shí)別出來(lái)的,稍微有一點(diǎn)點(diǎn)經(jīng)驗(yàn)的人都可以看到,哪一些請(qǐng)求是采集,哪一些是正常訪問。然后客戶端另一個(gè)情況是,早期服務(wù)器的訪問日志來(lái)看,能夠看到的信息其實(shí)不多,但是近幾年來(lái)發(fā)現(xiàn)看到的信息越來(lái)越多了,能看到我們的系統(tǒng)版本IOS是幾點(diǎn)零或者是window的什么版本或者安卓什么版本,現(xiàn)在還可以看到我們客戶端是用什么設(shè)備請(qǐng)求的,這個(gè)可能是它直接通過IOS或者是安卓這樣一個(gè)平臺(tái)來(lái)告訴你,我是什么樣類型的一個(gè)設(shè)備,也有可能他把設(shè)備類型直接寫在請(qǐng)求頭里面了。

有一些請(qǐng)求是我們客戶端故意附加給我們的,這個(gè)沒有什么實(shí)際用途,只是說我們?cè)谧鲩_發(fā)的時(shí)候故意這樣去做的,最常見的是什么呢?最常見的是我們?nèi)タ次⑿诺恼?qǐng)求,通過微信請(qǐng)求訪問你自己的頁(yè)面會(huì)給你附加一大堆的其他信息,這些信息可能并不是說對(duì)你完全有用的,但是會(huì)傳給你,具體怎么使用是你自己分辨的一個(gè)問題;蛘哒f我們自己APP里面內(nèi)嵌的混合開發(fā)的H5頁(yè)面,那這些頁(yè)面也可以通過由APP客戶端去注入一些信息到請(qǐng)求頭里面去,這樣也可以把這些信息發(fā)到服務(wù)端,也可以在服務(wù)端進(jìn)行搜集,這是客戶端上面能拿到的信息。

訪問信息能拿到數(shù)據(jù)有幾個(gè)呢?一塊是來(lái)源IP,這個(gè)是最最重要,你一個(gè)請(qǐng)求主要是基于互聯(lián)網(wǎng)請(qǐng)求,你過來(lái)一定會(huì)有來(lái)源IP,這個(gè)跑不掉的,無(wú)論你是通過代理還是不通過代理,你總歸會(huì)有一個(gè)來(lái)路,這個(gè)來(lái)源IP會(huì)幫我們分析很多問題,安全領(lǐng)域也好,大數(shù)據(jù)分析領(lǐng)域也好,它都很重要。第二個(gè)是我們的請(qǐng)求地址,就說這個(gè)IP發(fā)起的一個(gè)請(qǐng)求,請(qǐng)求的是什么樣的一個(gè)UIL,請(qǐng)求的是什么樣的頁(yè)面或者是接口都在訪問信息里面可以看到,還有一個(gè)請(qǐng)求時(shí)間,這個(gè)是也是挺重要的,服務(wù)器會(huì)記錄這個(gè)請(qǐng)求是什么時(shí)候發(fā)過來(lái)的,這主要是為了幫助我們做分析的時(shí)候把這個(gè)請(qǐng)求套路到時(shí)間點(diǎn)里面去。

我們還能拿到用戶信息,我們?cè)趺慈ツ眠@個(gè)用戶信息把它記錄下來(lái)呢?一般來(lái)說就是說我們?cè)趲讉(gè)點(diǎn),一個(gè)我們?yōu)g覽器里面可能會(huì)有一標(biāo)志符等可以記錄用戶的UID信息或者是反查出來(lái)UID信息,或者是通過業(yè)務(wù)應(yīng)用在工作過程中埋點(diǎn),去產(chǎn)生這些東西。有了UID之后我們還可以搜集到更多的,其實(shí)這個(gè)用戶所有的信息其實(shí)都能拿到的像昵稱,性別等等更多信息。那么業(yè)務(wù)信息往往就是我們某一個(gè)請(qǐng)求發(fā)過來(lái)之后,具體對(duì)應(yīng)的是什么業(yè)務(wù)的語(yǔ)言數(shù)據(jù)是可以通過業(yè)務(wù)信息這一塊分析出來(lái)的。比如說我一個(gè)安卓的手機(jī),使用了Google的瀏覽器訪問了我的頁(yè)面,然后這里來(lái)源IP是多少多少,然后請(qǐng)求的地址是什么。請(qǐng)求的地址里面我們可以去拆分一下,在這里面找出我們的新聞標(biāo)識(shí)。這是一種方式通過UIL去分析,這個(gè)就比較硬核一點(diǎn),你需要對(duì)你的業(yè)務(wù)有非常多的了解,如果你的業(yè)務(wù)系統(tǒng)是由不同時(shí)間開發(fā)的,又是不同人開發(fā)的,然后業(yè)務(wù)系統(tǒng)又很復(fù)雜和龐大,這種方式可能就不太適用,因?yàn)槟氵m配每一個(gè)請(qǐng)求地址的時(shí)候,你要寫的增值表達(dá)式或者是清洗的過程會(huì)很長(zhǎng)。

還有一種就是我剛剛說的在應(yīng)用工作過程中埋了點(diǎn),把這個(gè)日志打出來(lái)了,這個(gè)是最簡(jiǎn)單的,有了這個(gè)表示之后我們可以找到標(biāo)題分類,這只是舉例子,如果你是一個(gè)電商可能通商品表示可以找到商品名、商品分類、商品描述等等,這也是我們業(yè)務(wù)信息的梳理。

數(shù)據(jù)開發(fā)的第一步

很多人說我大數(shù)據(jù)要去做開發(fā),要去入門,然后我從哪一步開始,其實(shí)我告訴大家,最簡(jiǎn)單就是你先從梳理數(shù)據(jù)結(jié)構(gòu)開始。你要有看數(shù)據(jù)結(jié)構(gòu)的能力,你要很強(qiáng)的邏輯性和業(yè)務(wù)敏銳度,去把這些信息整合到一起。比如說我們的客戶單信息、訪問信息、用戶信息、業(yè)務(wù)信息這四塊都拉成了一張二維表,比如瀏覽器、設(shè)備、昵稱、性別,通過UIL的分析可以直達(dá)新聞的ID是多少,通過新聞ID可以找到標(biāo)題,分類,內(nèi)容等等這些信息。

這就是我們現(xiàn)在要做的第一步,先把這個(gè)表整出來(lái),這是最重要的。因?yàn)槟阌辛诉@張表之后,你才能去定向各個(gè)數(shù)據(jù)源去抽數(shù)據(jù),然后去拼成這張表,如果你連這張表都沒有,你根本不知道自己下一步怎么去執(zhí)行,這是大數(shù)據(jù)要落地,技術(shù)要去落地的第一步就是數(shù)據(jù)的搜集。

四塊基礎(chǔ)數(shù)據(jù)我們合并拼接成了一塊二維表,就是有點(diǎn)類似于電子表格或者是關(guān)系數(shù)據(jù)庫(kù)里面的一張表。但是這個(gè)是很初級(jí)的一個(gè)過程,你即便把它拼出來(lái)也不代表有什么用,比較淺。它背后還有東西,是什么?

第一個(gè)我們來(lái)看訪問信息,訪問信息里面有來(lái)源IP,有請(qǐng)求時(shí)間和請(qǐng)求地址。請(qǐng)求地址通過簡(jiǎn)單的清洗,就把它分析出來(lái)它請(qǐng)求你是什么ID或者是什么業(yè)務(wù)系統(tǒng)等等信息。請(qǐng)求IP其實(shí)是可以做很多很多事情。比如說一個(gè)IP你可以通過反查知道,這個(gè)IP是屬于什么通訊服務(wù)商,電信移動(dòng)聯(lián)通還是什么別的國(guó)家什么服務(wù)商,那么你還可以通過一個(gè)IP知道這個(gè)人大概的區(qū)屬位置,比如說他是中國(guó)的還是美國(guó)的,當(dāng)然中國(guó)的IP是很全的,就是有商業(yè)版有非商業(yè)版,開源的一些IP地址庫(kù),反正準(zhǔn)確率都還行,如果說你有一些很嚴(yán)格的用途,你可以去找商業(yè)的版本去用。它可以通過IP地址第一能獲取到這個(gè)IP對(duì)應(yīng)的是什么通訊服務(wù)商,比如說我今天給大家直播用的是中國(guó)電信的寬帶,那么中國(guó)電信的寬帶去訪問阿里云的官方網(wǎng)站,那么阿里云的官方網(wǎng)站生成一條日志看到我這個(gè)IP去查一下就知道,這個(gè)用戶的請(qǐng)求是從中國(guó)電信IP那兒過來(lái)的,能知道他的通信服務(wù)商。知道通信服務(wù)商之后,我們還能知道這個(gè)人的國(guó)家,因?yàn)镮P地址是每個(gè)國(guó)家是有每個(gè)國(guó)家同的IP地址的區(qū)劃,這個(gè)大家學(xué)網(wǎng)絡(luò)課的時(shí)候都知道。那么基于這個(gè)國(guó)家之下,可能每個(gè)國(guó)家內(nèi)部針對(duì)各個(gè)IP段還有一些分配,這是一種。

第二種可能就是像BAT去做了一些IP地址的跟蹤識(shí)別。通過域名去把公網(wǎng)IP輸入進(jìn)去能告訴你什么國(guó)家,是什么通信服務(wù)商。然后省市區(qū)縣這一塊可能就需要商業(yè)級(jí)別的數(shù)據(jù)庫(kù)來(lái)支持你。但是我們目前來(lái)看這個(gè)好像是開源免費(fèi)的數(shù)據(jù)庫(kù),你查出來(lái)也挺準(zhǔn)的,至少省市是準(zhǔn)的,但是區(qū)縣不一定是準(zhǔn)的,但是前兩個(gè)一定是準(zhǔn)的。

由此可見,從來(lái)源IP這個(gè)簡(jiǎn)單的字段我們能分析內(nèi)容就很多了。那么我們通過用戶信息和業(yè)務(wù)信息又能分解出來(lái)什么東西呢?

左邊相當(dāng)于是生成自清洗帶來(lái)一個(gè)數(shù)據(jù),就是你的額外數(shù)據(jù)。右邊這張表用戶信息和業(yè)務(wù)信息這兩張表,一個(gè)是用戶標(biāo)識(shí)也就是我們常說的UID,一個(gè)是我們新聞標(biāo)識(shí),也就是我們信息ID。這兩塊ID能夠拼合成什么樣的數(shù)據(jù)或者能幫助我們帶來(lái)什么新的東西呢?

舉個(gè)例子,我可以通過關(guān)聯(lián)下鉆的方式去找到這個(gè)用戶以及這個(gè)ID關(guān)聯(lián)的信息。比如說這個(gè)用戶看在這篇新聞的同時(shí),他發(fā)了評(píng)論,那你就能把他評(píng)論數(shù)據(jù)找出來(lái),發(fā)了評(píng)論之后,他可能還收藏了這篇文章或者是點(diǎn)贊了這篇文章,也可以把收藏和點(diǎn)贊的數(shù)據(jù)關(guān)聯(lián)出來(lái)。這樣過程,前者可以通過一些輔助手段去解析我們字段把他拆解出一些更有用的信息,后者是通過我們業(yè)務(wù)邏輯去通過數(shù)據(jù)下鉆去找到深層次關(guān)聯(lián),這是我們數(shù)據(jù)背后就是兩種處理的方式,就是解析處理的兩種方式。目的是什么?目的是為了把我們的數(shù)據(jù)拆分的更細(xì)致,然后更全面,因?yàn)槲覀円郧白龃髷?shù)據(jù)跟我們業(yè)務(wù)系統(tǒng)開發(fā)是完全不同的兩個(gè)概念。也就是說我們以前做開發(fā)的時(shí)候,涉及到數(shù)據(jù)庫(kù),可能更多是為了讓查詢起來(lái)更快,或者讓它能夠不要爆發(fā)式增長(zhǎng),占用我磁盤IO,不要寫入太多的數(shù)據(jù),盡量能夠精簡(jiǎn),能夠通過一些別的方式關(guān)聯(lián)出來(lái),就行了,也不要求說在我的數(shù)據(jù)庫(kù)里面要知道這個(gè)用戶,能實(shí)時(shí)知道在某一篇文章下的評(píng)論,這個(gè)可能是我們業(yè)務(wù)需要,不是我們的架構(gòu)需要,所以我們?cè)谧黾軜?gòu)的時(shí)候就把這一塊弱化掉了。因?yàn)槲覀冏龃髷?shù)據(jù)的時(shí)候,我們要逆向思維,要把我們?cè)瓉?lái)技術(shù)架構(gòu)精簡(jiǎn)掉的東西全部都找出來(lái),然后推翻掉,然后重新給裝滿。所以我們通過這幾幅圖和背后的關(guān)聯(lián)關(guān)系,可以引申出來(lái)一個(gè)我們現(xiàn)在要說的,我剛剛通過這種方式為我的這張大表增添了幾個(gè)新的鏈,比如說像通信商和地址,就是通過IP地質(zhì)可以查到通信商和國(guó)家的。

因?yàn)镻PT的行數(shù)限制,所以我畫了一個(gè)無(wú)窮大的符號(hào)在那里,就是說可以通過這些數(shù)據(jù)延伸出來(lái)找到更多的信息和數(shù)據(jù),它全部可以排在后面。那么有的同學(xué)可能會(huì)比較好奇,你干嘛一定要把一個(gè)數(shù)據(jù)全部聯(lián)想成一個(gè)扁平的東西。那是因?yàn)槲覀冊(cè)趯?shí)際操作過程中,大數(shù)據(jù)并不意味著一切都要不關(guān)聯(lián),然后全部都放再一個(gè)大表里面,這也不太現(xiàn)實(shí)。但是大數(shù)據(jù)講求的最重要的一個(gè)點(diǎn)是,你在某一個(gè)維度上你要盡量去全面和平衡,不要太去計(jì)較我們什么空間的占用,寫入的速度或者是會(huì)不會(huì)影響到什么索引,你所有的這些數(shù)據(jù)庫(kù)的思維都可以拋棄掉。因?yàn)榇髷?shù)據(jù)分析之間事情本身不像業(yè)務(wù)系統(tǒng),有那么高的實(shí)時(shí)性的要求或者說有那么高的業(yè)務(wù)可靠性上的要求。

我們通過對(duì)數(shù)據(jù)的拆分,多表打平成一張表。我們前面可能時(shí)間瀏覽器和設(shè)備這些都來(lái)源于日志,然后這一部分都是來(lái)源于日志,這兩個(gè)來(lái)源于清洗,昵稱、性別、新聞ID、標(biāo)題分類這些來(lái)源于數(shù)據(jù)庫(kù),這些來(lái)源于關(guān)聯(lián)查詢出來(lái)的一些數(shù)據(jù)等等。就這張表數(shù)據(jù)來(lái)源可以很多,但是最終一定要有一個(gè)結(jié)構(gòu)化的東西去把它存下來(lái),當(dāng)然也有不結(jié)構(gòu)化的數(shù)據(jù),但是因?yàn)槲覀兘裉煺f做大數(shù)據(jù),不是說你已經(jīng)是一個(gè)很成熟的公司在做這個(gè)事情,是我們很多公司是要轉(zhuǎn)型做這個(gè)事情,那你第一步只能從這個(gè)方式去開始。

這是我的一個(gè)感受,大數(shù)據(jù)第一步就是把破鏡圓回去,人家說破鏡重圓,因?yàn)殓R子裂了就沒有辦法再圓回去了,但是我們要做大數(shù)據(jù)規(guī)劃和架構(gòu)的時(shí)候要有逆向思維,這個(gè)逆向思維,逆的是什么,逆的是我們傳統(tǒng)業(yè)務(wù)架構(gòu)。我們要沿著這個(gè)鏡子原有痕跡把它拼回去,你不能說逆著逆著數(shù)據(jù)風(fēng)馬牛不相及了,那也沒什么價(jià)值。所以我們要通過把割裂的數(shù)據(jù)關(guān)聯(lián)起來(lái),數(shù)據(jù)是割裂的,但并不是沒有邏輯的。

很多人說我要去做大數(shù)據(jù)轉(zhuǎn)型了,第一步我先選一個(gè)平臺(tái),云平臺(tái)還是開源平臺(tái),然后再選一堆工具鏈,選完工具鏈之后我一百萬(wàn)找?guī)讉(gè)大數(shù)據(jù)工程師,然后再如何如何。我見過太多的公司是這樣做,但做不成功。我覺得這是大家需要去規(guī)避的一個(gè)坑。大數(shù)據(jù)不是說你先去選一個(gè)平臺(tái),一個(gè)工具,再招一堆人再來(lái)思考怎么去做,一定是先從業(yè)務(wù)出發(fā),把我們已有的這些東西全部思考清楚了,你再去找一個(gè)懂業(yè)務(wù)的人去推動(dòng)它,帶著技術(shù)人員一起去做大數(shù)據(jù)轉(zhuǎn)型,這是我大數(shù)據(jù)從業(yè)這么多年的感受,分享給大家。

作者:阿里云MVP戚俊

標(biāo)簽: Google web服務(wù)器 安全 大數(shù)據(jù) 大數(shù)據(jù)分析 代碼 電商 服務(wù)器 服務(wù)商 互聯(lián)網(wǎng) 數(shù)據(jù)分析 數(shù)據(jù)庫(kù) 通信 網(wǎng)絡(luò) 域名 轉(zhuǎn)型

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:典型技術(shù)架構(gòu)的分析和構(gòu)建——《企業(yè)大數(shù)據(jù)實(shí)踐路線》

下一篇:DeepMind讓AI組隊(duì)踢足球?qū)W會(huì)“合作”,并開源訓(xùn)練環(huán)境