中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

企業(yè)大數(shù)據(jù)的現(xiàn)狀與痛點——《企業(yè)大數(shù)據(jù)實踐路線》之一

2019-02-26    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

內(nèi)容分類:

1、 企業(yè)大數(shù)據(jù)現(xiàn)狀及痛點
2、 大數(shù)據(jù)對企業(yè)的促進作用
3、 解析業(yè)務(wù)數(shù)據(jù)的特征
4、 典型技術(shù)架構(gòu)的分析和構(gòu)建

前三個為鋪墊類,最重要的是第四個。但前三個的重要性也非常高,把目錄調(diào)整下變成目標B,再來看就比較清楚:

 

 

1、 找出問題,才能解決問題;

2、 計算收益,大多數(shù)都是做企業(yè)型的,而非學(xué)術(shù)型,所以收益是企業(yè)必不可少要考慮的,并且也是要痛點痛到不能呼吸時,大多企業(yè)才會花費大量的精力去解決,而不是無關(guān)痛癢的東西也拿來占用大量企業(yè)資源解決,這樣一定情況上會影響業(yè)務(wù)增長與企業(yè)生存,這一點也是非常重要的;

3、 分析病灶,找到瓶勁,制定應(yīng)對措施;

4、 給出解決方案,制定計劃,對癥下藥,解決問題。這一點是最最重要的,涉及到架構(gòu)搭建以及套路化的解決問題方法論。

下面就重點介紹目錄1的所有內(nèi)容:如何發(fā)現(xiàn)問題。

一、大數(shù)據(jù)的概念

很多人都在聽大數(shù)據(jù)如何如何,怎樣怎樣。但大數(shù)據(jù)到底是怎樣的,并不是非常清晰。從表面現(xiàn)象來看,大數(shù)據(jù)是一個海量數(shù)據(jù),但問題在于我們要讓這些海量的數(shù)據(jù)產(chǎn)生價值,就要通過一些挖掘工具來尋找它的價值 ,這是大數(shù)據(jù)尤為重要的方向。

大數(shù)制的標準定義:

1、從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。

2、大數(shù)據(jù)的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,其戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些有意義的數(shù)據(jù)進行專業(yè)化處理。

3、如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過加工實現(xiàn)數(shù)據(jù)的“增值”。

大數(shù)據(jù)和云計算之間的關(guān)系是一體兩面的,沒有云計算就沒有大數(shù)據(jù)。

二、大數(shù)據(jù)的前世今生

無論是大數(shù)據(jù)還是云計算,都有一個非常重要的角度,2004~2007這三年,谷歌發(fā)布了三篇論文,引爆了大數(shù)據(jù)時代的降臨。

這三篇論文是基于分布式數(shù)據(jù)庫、分布式文件系統(tǒng),以及彈性計算,它純屬理論,研究報告。

到了2008年,大數(shù)據(jù)之父”道格 · 卡丁把谷歌的三篇論文從理論變成了穩(wěn)定產(chǎn)品。就是HADOOP生態(tài)逐漸起來。

2012年,聯(lián)合國、中、美等國發(fā)布大數(shù)據(jù)白皮書。阿里巴巴設(shè)立首席數(shù)據(jù)官一職。原來只有CIO,沒有CDO,這也是從2012年之后才開始流行起來,有CDO這個職位。

 

 

三、本期內(nèi)容的重要環(huán)節(jié):企業(yè)數(shù)據(jù)現(xiàn)狀及痛點

數(shù)據(jù)的收集分三類

客戶端數(shù)據(jù)收集
業(yè)務(wù)端數(shù)據(jù)收集
服務(wù)端數(shù)據(jù)收集

 

 

一)客戶端的數(shù)據(jù)收集主要分兩種:瀏覽器信息的收集/網(wǎng)絡(luò)特征信息的收集,能收集到的和已收集到的基本上也就這兩類。

1、瀏覽器信息主要通過瀏覽器請求過來,通過服務(wù)器抓包日志里面的一些信息,包括它使用的什么瀏覽器、請求的參數(shù)、cookie等等,這樣的數(shù)據(jù)都是通過瀏覽傳過來的,這部分信息也是比較容易獲取的。

2、網(wǎng)絡(luò)特征信息,存在CS架構(gòu)程序里面,BS主要是拿瀏覽器信息,而CS主要通過網(wǎng)絡(luò)特征信息把它傳過來,傳到服務(wù)器的同時傳到日志里面去,這就是整個客戶端數(shù)據(jù)收集層面的數(shù)據(jù)。

二)業(yè)務(wù)端數(shù)據(jù)收集,是比較泛的,可以收集到核心業(yè)務(wù)數(shù)據(jù)和業(yè)務(wù)監(jiān)控數(shù)據(jù)以及用戶交互行為信息三部分的數(shù)據(jù)。

這些數(shù)據(jù)如何定義,分別代表什么?

1) 核心業(yè)務(wù)數(shù)據(jù):整個數(shù)據(jù)的業(yè)務(wù)信息,如果你是做電商的,像商品信息、購買信息、訂單信息、用戶信息都是核心業(yè)務(wù)數(shù)據(jù);

2) 業(yè)務(wù)監(jiān)控信息:像流量統(tǒng)計,庫存報警,短信發(fā)送量監(jiān)控、賬號資金池余額監(jiān)控,退換貨等信息;

3) 用戶交互行業(yè)信息:如果一個用戶在你這里查看了一件商品,閱讀了一篇文章等信息,它不是很敏感,也不是很核心的信息,只是用戶在操作中產(chǎn)生的一個交互數(shù)據(jù),這個數(shù)據(jù)可能是有目的性的,比如他是需要買這件商品,所以他會瀏覽,也可能是沒有目的性的,比如他可能是無意中點進來看看就走了。但是我們的交易信息一般都存在庫里面,但也可能是有,你沒有收集落地,但卻可以被收集。

三)服務(wù)端數(shù)據(jù)收集:分為三個部分的數(shù)據(jù):服務(wù)器日志/底層服務(wù)日志/服務(wù)器監(jiān)控信息

1、服務(wù)器日志收集:無論是使用Windows服務(wù)器或是Linux服務(wù)器,服務(wù)器的日志都是非常關(guān)鍵的,同時比較容易收集,但也存在麻煩,它不單純是服務(wù)器有一個什么日志在某個地方,而是有無數(shù)個小服務(wù),無數(shù)個核心服務(wù)組成的一個日志庫,就比較龐雜,會有各種各樣的服務(wù)及應(yīng)用。

2、底層服務(wù)日志:今天在我們的服務(wù)器上運行的一個網(wǎng)站,網(wǎng)站可能是通過我們的Apache去暴露的, 也可能是通過Nginx暴露出去的,Apache和Nginx是一個底層服務(wù),它會產(chǎn)生很多很多的日志,這個日志是我們非常重要的一個分析源,是可以被收集的,也有很我公司收集這些數(shù)據(jù)進行分析。

舉個例子:通過分析Nginx日志了解到哪些頁面的性能是瓶頸,我的業(yè)務(wù)系統(tǒng)里面有200個頁面,其中有15個頁面,響應(yīng)時間是超過2~3秒鐘,這種情況明顯是不正常的,就需要進行性能優(yōu)化處理,這是一種可能性。

第二種可能性:如果系統(tǒng)出現(xiàn)了問題,被攻擊,或入侵等問題,可能通知日志去分析哪些頁面可能成為入侵的一個點,或口子,包括有沒有一些畸形的請求產(chǎn)生,這些都是可以通過服務(wù)日志里面看到的,這些分析也是非常重要的,一切的分析都是離不開日志的。

3、服務(wù)器監(jiān)控信息:現(xiàn)在軟件越來越多了,都具備收集監(jiān)控日志的能力,比如做監(jiān)控開源用的比較多的有Zabbix,還有阿里云的云監(jiān)控,都是相對用的比較多的,它能監(jiān)控我們整個服務(wù)器CPU的使用,磁盤的使用以及內(nèi)存的使用,IO的開銷等等,不一定是日志的方式去落地的,但會有一個程序去收集它,把數(shù)據(jù)發(fā)送到他的服務(wù)端上去。整個服務(wù)端收集到的數(shù)據(jù)都非常的豐富與多元化,也非常龐雜。

那么以上數(shù)據(jù)能收集到的三大塊數(shù)據(jù)里面的8小塊信息又都有怎樣的表現(xiàn)形式呢?

客戶端數(shù)據(jù)樣例:

從下圖中可以看到時間、類型、頁面地址、瀏覽器類型以及版本號、設(shè)備信息等,都是非常重要的信息。

 

 

這些信息通常來源于對瀏覽器信息的采集,信息多為非結(jié)構(gòu)化數(shù)據(jù),而且量特別大。當業(yè)務(wù)表現(xiàn)為WEB形式時,通常拿到的數(shù)據(jù)是瀏覽器的相關(guān)信息,當業(yè)務(wù)表現(xiàn)為混開式APP時,拿到的數(shù)據(jù)會額外得到業(yè)務(wù)APP的其它信息,比如機型、Android或IOS版本號等。

業(yè)務(wù)端的數(shù)據(jù)樣例:

 

 

上圖來源于數(shù)據(jù)庫,Mysql、MongDB 等,有結(jié)構(gòu)化的也有非結(jié)構(gòu)化的數(shù)據(jù),通常在業(yè)務(wù)過程中產(chǎn)生,就如之前講的如果你是做電商平臺的,那這些數(shù)據(jù)就是電商運作過程中產(chǎn)生的數(shù)據(jù)。這些數(shù)據(jù)非常重要,屬于核心數(shù)據(jù),重要性遠遠大于客戶端數(shù)據(jù)和服務(wù)器端數(shù)據(jù)。

可以肯定的說,其它兩個數(shù)據(jù)丟也就丟了,不會給公司造成致命性的傷害,但業(yè)務(wù)數(shù)據(jù)如果丟失了,可能公司都沒了,重要性可想而知。

服務(wù)端的數(shù)據(jù)樣例:

 

 

通常來源于服務(wù)器端的具體服務(wù),一般為文本格式,且多為非結(jié)構(gòu)化數(shù)據(jù),比較枯燥,上圖這個日志就是一個Nginx的訪問日志,這里面也存在一些比較有差異化的地方。當前用的軟件都是比較新的,但有一些存量的業(yè)務(wù)使用的版本偏老,這種情況就會存在同一個業(yè)務(wù)線使用了不同的底層服務(wù),比如說Apache可能使用了2.2的版本,也有可能使用2.4的版本,Nginx有可能使用了1.1的版本,甚至是1.0的版本,這種版本上的差異會帶來如幾個弊端:

1、 配制方式不一樣

2、 日志格式不一致:這種情況就會導(dǎo)致不同時期、不同版本的服務(wù)可能產(chǎn)生格式完全不一致的日志,導(dǎo)致模板無法套用,這是一個需要引起注意的問題。服務(wù)端的數(shù)據(jù)相對說比較單純,多半都是文本形式存在。

以上三大類8小塊的數(shù)據(jù),這些數(shù)據(jù)都有些什么樣的問題?這個是需要我們?nèi)魏我粋人去思考的。

四、數(shù)據(jù)存在的問題

大部分企業(yè)的數(shù)據(jù)現(xiàn)狀,基本上就分如下四個部分,當然也有做好的,可能不存在如下這種情況,但絕大數(shù)據(jù)情況下,都多少會有一些問題。而我們本身就是一個有問題的企業(yè),一步步從有問題到發(fā)現(xiàn)問題、解決問題這樣摸爬滾打過來的。

 

 

1、孤島化:各種各樣的業(yè)務(wù)線、系統(tǒng)、平臺每時每刻都在產(chǎn)生數(shù)據(jù),但是這些數(shù)據(jù)不匯聚,深入點講就是數(shù)據(jù)可能都不在一臺服務(wù)器上,業(yè)務(wù)起來也有先后順序,不一定都集在一套系統(tǒng)里成。最常見的像用Java做的應(yīng)用程序,幾年前開發(fā)的是一個IIS一個版本,Tomcat一個版本,今天開發(fā)的產(chǎn)品用的IIS是一個版本,Tomcat又是一個版本,這種問題理論上說是要優(yōu)先考慮并且要避免的,要對老的版本進行迭代,保持到一個比較新的且穩(wěn)定的版本,但大部分企業(yè)都聚焦在如何把業(yè)務(wù)更快速的迭代好,把產(chǎn)品上線,很多東西就在過程中慢慢孤島化。除了IIS與Tomcat外,像Mysql、日志平臺的差異等,如果不能有效的統(tǒng)一起來,就無法有效的進行數(shù)據(jù)分析,這就是孤島化帶來的最大問題。

2、 多格式:企業(yè)手中的數(shù)據(jù)雜亂無章,格式不統(tǒng)一。不能有效整合成統(tǒng)一格式進行應(yīng)用。如果今天我們要去分析我們的數(shù)據(jù),數(shù)據(jù)要拿來用了,我們都希望數(shù)據(jù)統(tǒng)一,無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化,大不了JS我們打散放到MongDB里面去,變成一個個文檔到后面再去處理,要么就是全部都處理好變成結(jié)構(gòu)化數(shù)據(jù),放到一個Mysql,或者是其它結(jié)構(gòu)化的數(shù)據(jù)里面,再進行統(tǒng)一的分析和處理,但這種狀態(tài)太理想化了,很難實現(xiàn),像返回日志的問題,有1000條PV就會有1000條日志,如果這是1天的量,那一年的量可想而知,這樣的數(shù)據(jù)量放到單一的數(shù)據(jù)庫里面去,也不現(xiàn)實,所以多格式面臨的問題就是不能有效的整合成統(tǒng)一格式進行應(yīng)用。

3、 低價值:除了核心業(yè)務(wù)數(shù)據(jù)擁有很大價值,最大的問題是所有業(yè)務(wù)數(shù)據(jù)的量只占我們所有數(shù)據(jù)量的5%~10%,其他90%都是附加數(shù)據(jù),不能有效的產(chǎn)生價值。所以大數(shù)據(jù)從字面意思理解,他只是一個名詞,是一個海量數(shù)據(jù)的名詞,90%數(shù)據(jù)都不產(chǎn)生價值的話,它只能屬于沉睡數(shù)據(jù)資產(chǎn)。大部分企業(yè)數(shù)據(jù)都存在這個問題就是低價值的問題。

4、 無應(yīng)用:擁有大量的數(shù)據(jù),90%的數(shù)據(jù)又不能被直接應(yīng)用,無法被用戶直接感知,它就是我們經(jīng)常所說的,食之無味,棄之可惜,但又占用空間的無用產(chǎn)物,無應(yīng)用就體現(xiàn)在占用磁盤,應(yīng)用了你大量空間,卻未被轉(zhuǎn)化成客戶可感知、可應(yīng)用的數(shù)據(jù)。

五、內(nèi)容總結(jié)

1、大數(shù)據(jù)的概念
2、大數(shù)據(jù)的前世今生
3、大數(shù)據(jù)的采集方式
4、數(shù)據(jù)的定義
5、數(shù)據(jù)存在的問題

六、問題答疑環(huán)節(jié):

1:大數(shù)據(jù)在高校里面有什么樣的應(yīng)用場景?

答:

1)實驗數(shù)據(jù)少時,用紙記錄;

2) 產(chǎn)生海量數(shù)據(jù)時,找個數(shù)據(jù)庫存下來,會存在幾個比較明顯的問題:

A、 實驗室比較機動,隨機性強,數(shù)據(jù)格式無法定義

B、 數(shù)據(jù)不標準,多數(shù)情況下先收集,再分析

問題2:業(yè)務(wù)數(shù)據(jù)難道不是通過客戶端收集的嗎?

答:

業(yè)務(wù)數(shù)據(jù)不一定是通過客戶端收集的,如果你的產(chǎn)品是通過異步方式處理的,APP端和WEB端只負責(zé)請求丟給消息隊列,由后端服務(wù)去消費消息隊列,再進行后續(xù)的操作,這個過程中你是可以去收集消息隊列中的日志,再進行分析,從而留存用戶行為的效果。

通過客戶端收集會有一個問題,收集日志過程中都有一個原則,如果是通過非侵入式拿到日志,那就一定得通過非侵入式獲取日志,千萬不要通過破壞性的埋點、打空的方式拿日志,埋點打空本身會對我們的業(yè)務(wù)形成一定的破壞性,影響到性能,特別是不能預(yù)期這個場景時,這個性能破壞無限大。比如說當你在做一個秒殺活動的時候,你通過秒殺活動的APP同步參與秒殺,又同時存日志到數(shù)據(jù)池中去,秒殺可能有1秒中有幾十萬次,幾百萬次的請求,服務(wù)器本身壓力已夠大,這種情況下,可能就會導(dǎo)致雪崩,集群有可能就會掛掉。這是一個非常典型的,不應(yīng)該出現(xiàn)的低級錯誤,所以最好是龐路收集。

標簽: linux Mysql 大數(shù)據(jù) 大數(shù)據(jù)和云計算 大數(shù)據(jù)時代 大數(shù)據(jù)現(xiàn)狀 大數(shù)據(jù)與云計算 大數(shù)據(jù)與云計算的關(guān)系 電商 電商平臺 服務(wù)器 服務(wù)器端 谷歌 數(shù)據(jù)分析 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:機器學(xué)習(xí)的七大謠傳,這都是根深蒂固的執(zhí)念吧

下一篇:數(shù)據(jù)科學(xué)新人需要知道的13個雷區(qū)