站長資訊平臺

首頁 > IDC資訊 > IDC新聞

企業(yè)大數(shù)據(jù)的現(xiàn)狀與痛點——《企業(yè)大數(shù)據(jù)實踐路線》之一

2019-02-26 來源：raincent

內(nèi)容分類：

1、企業(yè)大數(shù)據(jù)現(xiàn)狀及痛點
2、大數(shù)據(jù)對企業(yè)的促進作用
3、解析業(yè)務(wù)數(shù)據(jù)的特征
4、典型技術(shù)架構(gòu)的分析和構(gòu)建

前三個為鋪墊類，最重要的是第四個。但前三個的重要性也非常高，把目錄調(diào)整下變成目標B，再來看就比較清楚：

1、找出問題，才能解決問題;

2、計算收益，大多數(shù)都是做企業(yè)型的，而非學術(shù)型，所以收益是企業(yè)必不可少要考慮的，并且也是要痛點痛到不能呼吸時，大多企業(yè)才會花費大量的精力去解決，而不是無關(guān)痛癢的東西也拿來占用大量企業(yè)資源解決，這樣一定情況上會影響業(yè)務(wù)增長與企業(yè)生存，這一點也是非常重要的;

3、分析病灶，找到瓶勁，制定應(yīng)對措施;

4、給出解決方案，制定計劃，對癥下藥，解決問題。這一點是最最重要的，涉及到架構(gòu)搭建以及套路化的解決問題方法論。

下面就重點介紹目錄1的所有內(nèi)容：如何發(fā)現(xiàn)問題。

一、大數(shù)據(jù)的概念

很多人都在聽大數(shù)據(jù)如何如何，怎樣怎樣。但大數(shù)據(jù)到底是怎樣的，并不是非常清晰。從表面現(xiàn)象來看，大數(shù)據(jù)是一個海量數(shù)據(jù)，但問題在于我們要讓這些海量的數(shù)據(jù)產(chǎn)生價值，就要通過一些挖掘工具來尋找它的價值，這是大數(shù)據(jù)尤為重要的方向。

大數(shù)制的標準定義：

1、從技術(shù)上看，大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。

2、大數(shù)據(jù)的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘，其戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息，而在于對這些有意義的數(shù)據(jù)進行專業(yè)化處理。

3、如果把大數(shù)據(jù)比作一種產(chǎn)業(yè)，那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵，在于提高對數(shù)據(jù)的“加工能力”，通過加工實現(xiàn)數(shù)據(jù)的“增值”。

大數(shù)據(jù)和云計算之間的關(guān)系是一體兩面的，沒有云計算就沒有大數(shù)據(jù)。

二、大數(shù)據(jù)的前世今生

無論是大數(shù)據(jù)還是云計算，都有一個非常重要的角度，2004~2007這三年，谷歌發(fā)布了三篇論文，引爆了大數(shù)據(jù)時代的降臨。

這三篇論文是基于分布式數(shù)據(jù)庫、分布式文件系統(tǒng)，以及彈性計算，它純屬理論，研究報告。

到了2008年，大數(shù)據(jù)之父”道格 · 卡丁把谷歌的三篇論文從理論變成了穩(wěn)定產(chǎn)品。就是HADOOP生態(tài)逐漸起來。

2012年，聯(lián)合國、中、美等國發(fā)布大數(shù)據(jù)白皮書。阿里巴巴設(shè)立首席數(shù)據(jù)官一職。原來只有CIO，沒有CDO，這也是從2012年之后才開始流行起來，有CDO這個職位。

三、本期內(nèi)容的重要環(huán)節(jié)：企業(yè)數(shù)據(jù)現(xiàn)狀及痛點

數(shù)據(jù)的收集分三類

客戶端數(shù)據(jù)收集
業(yè)務(wù)端數(shù)據(jù)收集
服務(wù)端數(shù)據(jù)收集

一)客戶端的數(shù)據(jù)收集主要分兩種：瀏覽器信息的收集/網(wǎng)絡(luò)特征信息的收集，能收集到的和已收集到的基本上也就這兩類。

1、瀏覽器信息主要通過瀏覽器請求過來，通過服務(wù)器抓包日志里面的一些信息，包括它使用的什么瀏覽器、請求的參數(shù)、cookie等等，這樣的數(shù)據(jù)都是通過瀏覽傳過來的，這部分信息也是比較容易獲取的。

2、網(wǎng)絡(luò)特征信息，存在CS架構(gòu)程序里面，BS主要是拿瀏覽器信息，而CS主要通過網(wǎng)絡(luò)特征信息把它傳過來，傳到服務(wù)器的同時傳到日志里面去，這就是整個客戶端數(shù)據(jù)收集層面的數(shù)據(jù)。

二)業(yè)務(wù)端數(shù)據(jù)收集，是比較泛的，可以收集到核心業(yè)務(wù)數(shù)據(jù)和業(yè)務(wù)監(jiān)控數(shù)據(jù)以及用戶交互行為信息三部分的數(shù)據(jù)。

這些數(shù)據(jù)如何定義，分別代表什么?

1) 核心業(yè)務(wù)數(shù)據(jù)：整個數(shù)據(jù)的業(yè)務(wù)信息，如果你是做電商的，像商品信息、購買信息、訂單信息、用戶信息都是核心業(yè)務(wù)數(shù)據(jù);

2) 業(yè)務(wù)監(jiān)控信息：像流量統(tǒng)計，庫存報警，短信發(fā)送量監(jiān)控、賬號資金池余額監(jiān)控，退換貨等信息;

3) 用戶交互行業(yè)信息：如果一個用戶在你這里查看了一件商品，閱讀了一篇文章等信息，它不是很敏感，也不是很核心的信息，只是用戶在操作中產(chǎn)生的一個交互數(shù)據(jù)，這個數(shù)據(jù)可能是有目的性的，比如他是需要買這件商品，所以他會瀏覽，也可能是沒有目的性的，比如他可能是無意中點進來看看就走了。但是我們的交易信息一般都存在庫里面，但也可能是有，你沒有收集落地，但卻可以被收集。

三)服務(wù)端數(shù)據(jù)收集：分為三個部分的數(shù)據(jù)：服務(wù)器日志/底層服務(wù)日志/服務(wù)器監(jiān)控信息

1、服務(wù)器日志收集：無論是使用Windows服務(wù)器或是Linux服務(wù)器，服務(wù)器的日志都是非常關(guān)鍵的，同時比較容易收集，但也存在麻煩，它不單純是服務(wù)器有一個什么日志在某個地方，而是有無數(shù)個小服務(wù)，無數(shù)個核心服務(wù)組成的一個日志庫，就比較龐雜，會有各種各樣的服務(wù)及應(yīng)用。

2、底層服務(wù)日志：今天在我們的服務(wù)器上運行的一個網(wǎng)站，網(wǎng)站可能是通過我們的Apache去暴露的，也可能是通過Nginx暴露出去的，Apache和Nginx是一個底層服務(wù)，它會產(chǎn)生很多很多的日志，這個日志是我們非常重要的一個分析源，是可以被收集的，也有很我公司收集這些數(shù)據(jù)進行分析。

舉個例子：通過分析Nginx日志了解到哪些頁面的性能是瓶頸，我的業(yè)務(wù)系統(tǒng)里面有200個頁面，其中有15個頁面，響應(yīng)時間是超過2~3秒鐘，這種情況明顯是不正常的，就需要進行性能優(yōu)化處理，這是一種可能性。

第二種可能性：如果系統(tǒng)出現(xiàn)了問題，被攻擊，或入侵等問題，可能通知日志去分析哪些頁面可能成為入侵的一個點，或口子，包括有沒有一些畸形的請求產(chǎn)生，這些都是可以通過服務(wù)日志里面看到的，這些分析也是非常重要的，一切的分析都是離不開日志的。

3、服務(wù)器監(jiān)控信息：現(xiàn)在軟件越來越多了，都具備收集監(jiān)控日志的能力，比如做監(jiān)控開源用的比較多的有Zabbix，還有阿里云的云監(jiān)控，都是相對用的比較多的，它能監(jiān)控我們整個服務(wù)器CPU的使用，磁盤的使用以及內(nèi)存的使用，IO的開銷等等，不一定是日志的方式去落地的，但會有一個程序去收集它，把數(shù)據(jù)發(fā)送到他的服務(wù)端上去。整個服務(wù)端收集到的數(shù)據(jù)都非常的豐富與多元化，也非常龐雜。

那么以上數(shù)據(jù)能收集到的三大塊數(shù)據(jù)里面的8小塊信息又都有怎樣的表現(xiàn)形式呢?

客戶端數(shù)據(jù)樣例：

從下圖中可以看到時間、類型、頁面地址、瀏覽器類型以及版本號、設(shè)備信息等，都是非常重要的信息。

這些信息通常來源于對瀏覽器信息的采集，信息多為非結(jié)構(gòu)化數(shù)據(jù)，而且量特別大。當業(yè)務(wù)表現(xiàn)為WEB形式時，通常拿到的數(shù)據(jù)是瀏覽器的相關(guān)信息，當業(yè)務(wù)表現(xiàn)為混開式APP時，拿到的數(shù)據(jù)會額外得到業(yè)務(wù)APP的其它信息，比如機型、Android或IOS版本號等。

業(yè)務(wù)端的數(shù)據(jù)樣例：

上圖來源于數(shù)據(jù)庫，Mysql、MongDB 等，有結(jié)構(gòu)化的也有非結(jié)構(gòu)化的數(shù)據(jù)，通常在業(yè)務(wù)過程中產(chǎn)生，就如之前講的如果你是做電商平臺的，那這些數(shù)據(jù)就是電商運作過程中產(chǎn)生的數(shù)據(jù)。這些數(shù)據(jù)非常重要，屬于核心數(shù)據(jù)，重要性遠遠大于客戶端數(shù)據(jù)和服務(wù)器端數(shù)據(jù)。

可以肯定的說，其它兩個數(shù)據(jù)丟也就丟了，不會給公司造成致命性的傷害，但業(yè)務(wù)數(shù)據(jù)如果丟失了，可能公司都沒了,重要性可想而知。

服務(wù)端的數(shù)據(jù)樣例：

通常來源于服務(wù)器端的具體服務(wù)，一般為文本格式，且多為非結(jié)構(gòu)化數(shù)據(jù)，比較枯燥，上圖這個日志就是一個Nginx的訪問日志，這里面也存在一些比較有差異化的地方。當前用的軟件都是比較新的，但有一些存量的業(yè)務(wù)使用的版本偏老，這種情況就會存在同一個業(yè)務(wù)線使用了不同的底層服務(wù)，比如說Apache可能使用了2.2的版本，也有可能使用2.4的版本，Nginx有可能使用了1.1的版本，甚至是1.0的版本，這種版本上的差異會帶來如幾個弊端：

1、配制方式不一樣

2、日志格式不一致：這種情況就會導致不同時期、不同版本的服務(wù)可能產(chǎn)生格式完全不一致的日志，導致模板無法套用，這是一個需要引起注意的問題。服務(wù)端的數(shù)據(jù)相對說比較單純，多半都是文本形式存在。

以上三大類8小塊的數(shù)據(jù)，這些數(shù)據(jù)都有些什么樣的問題?這個是需要我們?nèi)魏我粋€人去思考的。

四、數(shù)據(jù)存在的問題

大部分企業(yè)的數(shù)據(jù)現(xiàn)狀，基本上就分如下四個部分，當然也有做好的，可能不存在如下這種情況，但絕大數(shù)據(jù)情況下，都多少會有一些問題。而我們本身就是一個有問題的企業(yè)，一步步從有問題到發(fā)現(xiàn)問題、解決問題這樣摸爬滾打過來的。

1、孤島化：各種各樣的業(yè)務(wù)線、系統(tǒng)、平臺每時每刻都在產(chǎn)生數(shù)據(jù)，但是這些數(shù)據(jù)不匯聚，深入點講就是數(shù)據(jù)可能都不在一臺服務(wù)器上，業(yè)務(wù)起來也有先后順序，不一定都集在一套系統(tǒng)里成。最常見的像用Java做的應(yīng)用程序，幾年前開發(fā)的是一個IIS一個版本，Tomcat一個版本，今天開發(fā)的產(chǎn)品用的IIS是一個版本，Tomcat又是一個版本，這種問題理論上說是要優(yōu)先考慮并且要避免的，要對老的版本進行迭代，保持到一個比較新的且穩(wěn)定的版本，但大部分企業(yè)都聚焦在如何把業(yè)務(wù)更快速的迭代好，把產(chǎn)品上線，很多東西就在過程中慢慢孤島化。除了IIS與Tomcat外，像Mysql、日志平臺的差異等，如果不能有效的統(tǒng)一起來，就無法有效的進行數(shù)據(jù)分析，這就是孤島化帶來的最大問題。

2、多格式：企業(yè)手中的數(shù)據(jù)雜亂無章，格式不統(tǒng)一。不能有效整合成統(tǒng)一格式進行應(yīng)用。如果今天我們要去分析我們的數(shù)據(jù)，數(shù)據(jù)要拿來用了，我們都希望數(shù)據(jù)統(tǒng)一，無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化，大不了JS我們打散放到MongDB里面去，變成一個個文檔到后面再去處理，要么就是全部都處理好變成結(jié)構(gòu)化數(shù)據(jù)，放到一個Mysql，或者是其它結(jié)構(gòu)化的數(shù)據(jù)里面，再進行統(tǒng)一的分析和處理，但這種狀態(tài)太理想化了，很難實現(xiàn)，像返回日志的問題，有1000條PV就會有1000條日志，如果這是1天的量，那一年的量可想而知，這樣的數(shù)據(jù)量放到單一的數(shù)據(jù)庫里面去，也不現(xiàn)實，所以多格式面臨的問題就是不能有效的整合成統(tǒng)一格式進行應(yīng)用。

3、低價值：除了核心業(yè)務(wù)數(shù)據(jù)擁有很大價值，最大的問題是所有業(yè)務(wù)數(shù)據(jù)的量只占我們所有數(shù)據(jù)量的5%~10%，其他90%都是附加數(shù)據(jù)，不能有效的產(chǎn)生價值。所以大數(shù)據(jù)從字面意思理解，他只是一個名詞，是一個海量數(shù)據(jù)的名詞，90%數(shù)據(jù)都不產(chǎn)生價值的話，它只能屬于沉睡數(shù)據(jù)資產(chǎn)。大部分企業(yè)數(shù)據(jù)都存在這個問題就是低價值的問題。

4、無應(yīng)用：擁有大量的數(shù)據(jù)，90%的數(shù)據(jù)又不能被直接應(yīng)用，無法被用戶直接感知，它就是我們經(jīng)常所說的，食之無味，棄之可惜，但又占用空間的無用產(chǎn)物，無應(yīng)用就體現(xiàn)在占用磁盤，應(yīng)用了你大量空間，卻未被轉(zhuǎn)化成客戶可感知、可應(yīng)用的數(shù)據(jù)。

五、內(nèi)容總結(jié)

1、大數(shù)據(jù)的概念
2、大數(shù)據(jù)的前世今生
3、大數(shù)據(jù)的采集方式
4、數(shù)據(jù)的定義
5、數(shù)據(jù)存在的問題

六、問題答疑環(huán)節(jié)：

1：大數(shù)據(jù)在高校里面有什么樣的應(yīng)用場景?

答：

1)實驗數(shù)據(jù)少時，用紙記錄;

2) 產(chǎn)生海量數(shù)據(jù)時，找個數(shù)據(jù)庫存下來，會存在幾個比較明顯的問題：

A、實驗室比較機動，隨機性強，數(shù)據(jù)格式無法定義

B、數(shù)據(jù)不標準，多數(shù)情況下先收集，再分析

問題2：業(yè)務(wù)數(shù)據(jù)難道不是通過客戶端收集的嗎?

答：

業(yè)務(wù)數(shù)據(jù)不一定是通過客戶端收集的，如果你的產(chǎn)品是通過異步方式處理的，APP端和WEB端只負責請求丟給消息隊列，由后端服務(wù)去消費消息隊列，再進行后續(xù)的操作，這個過程中你是可以去收集消息隊列中的日志，再進行分析，從而留存用戶行為的效果。

通過客戶端收集會有一個問題，收集日志過程中都有一個原則，如果是通過非侵入式拿到日志，那就一定得通過非侵入式獲取日志，千萬不要通過破壞性的埋點、打空的方式拿日志，埋點打空本身會對我們的業(yè)務(wù)形成一定的破壞性，影響到性能，特別是不能預期這個場景時，這個性能破壞無限大。比如說當你在做一個秒殺活動的時候，你通過秒殺活動的APP同步參與秒殺，又同時存日志到數(shù)據(jù)池中去，秒殺可能有1秒中有幾十萬次，幾百萬次的請求，服務(wù)器本身壓力已夠大，這種情況下，可能就會導致雪崩，集群有可能就會掛掉。這是一個非常典型的，不應(yīng)該出現(xiàn)的低級錯誤，所以最好是龐路收集。

標簽： linux Mysql 大數(shù)據(jù) 大數(shù)據(jù)和云計算大數(shù)據(jù)時代大數(shù)據(jù)現(xiàn)狀大數(shù)據(jù)與云計算大數(shù)據(jù)與云計算的關(guān)系電商電商平臺服務(wù)器服務(wù)器端谷歌數(shù)據(jù)分析

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:機器學習的七大謠傳，這都是根深蒂固的執(zhí)念吧

下一篇:數(shù)據(jù)科學新人需要知道的13個雷區(qū)

相關(guān)文章

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

企業(yè)大數(shù)據(jù)的現(xiàn)狀與痛點——《企業(yè)大數(shù)據(jù)實踐路線》之一