中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)行業(yè)發(fā)展存在的問題和機遇

2019-02-26    來源:多智時代

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

    本文先根據(jù)大數(shù)據(jù)的不同處理方式,介紹幾種不同形式大數(shù)據(jù)處理平臺以及他們各自對應(yīng)的幾個典型應(yīng)用,并指出了具有代表性的處理系統(tǒng)。之后對建立于這些系統(tǒng)框架上的大數(shù)據(jù)分析技能應(yīng)用作出場景分析,并對大數(shù)據(jù)行業(yè)發(fā)展存在的問題和機遇進行了詳細的闡述。
  1 引言
  大數(shù)據(jù)在近幾年迅速成為最具有熱點的一個話題,科技、企業(yè)界乃至于各國政府都對其十分關(guān)注,大數(shù)據(jù)帶來的機遇和挑戰(zhàn)已經(jīng)成為了各界的焦點。
  以宏觀的角度來看,大數(shù)據(jù)是物理世界、信息世界和人類世界的紐帶,物理世界通過網(wǎng)絡(luò)將反應(yīng)自身特性的數(shù)據(jù)反映到信息世界中,人類世界憑借界面的交互手段對自己的數(shù)據(jù)向信息世界進行輸入和操作。大數(shù)據(jù)的特征可歸納為5點,即體量大、速度快、模態(tài)多、難辨識和價值大密度低五大特性,數(shù)據(jù)量的龐大并不是目前大數(shù)據(jù)的主要難點,真正的挑戰(zhàn)在于數(shù)據(jù)類型的多樣性、不確定性以及對數(shù)據(jù)處理即時響應(yīng)的要求。
  出于應(yīng)對處理數(shù)據(jù)困難的探索,開源界推出了Hadoop,Spark等應(yīng)對不同應(yīng)用場景的大數(shù)據(jù)處理系統(tǒng),同時相應(yīng)的分析技能如:深度學習、可視化、知識計算等,這些大數(shù)據(jù)系統(tǒng)已經(jīng)逐步得到廣泛的應(yīng)用。
  2 大數(shù)據(jù)處理系統(tǒng)
  2.1 批量式數(shù)據(jù)處理系統(tǒng)
  批量式數(shù)據(jù)有三個主要的特性:
 。1)數(shù)據(jù)量巨大,目前已經(jīng)達到PB級。
 。2)數(shù)據(jù)來源與具體應(yīng)用系統(tǒng),精度相對較高。
 。3)數(shù)據(jù)的價值密度相應(yīng)低下,如視頻數(shù)據(jù),在視頻播放的過程中,有價值的數(shù)據(jù)可能惟有僅僅幾秒,而這也需要專用的算法對有價值的數(shù)據(jù)進行提取,同時提取數(shù)據(jù)的行為將會消耗一定的時間,所以存在諸多限制,通常會造成處理結(jié)果不甚理想。
  綜合以上三點特性,批量式數(shù)據(jù)的處理需要相對對照成熟的技能和作業(yè)手段。
  批量式數(shù)據(jù)的應(yīng)用:
 。1)搜索引擎:互聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源,知名的搜索引擎如美國的Google,我國的baidu等大型互聯(lián)網(wǎng)搜索引擎,通過與廣告相關(guān)數(shù)據(jù)的批量處理,來準時改變廣告投放的策略,根據(jù)分析用戶的喜好,更改廣告的分布以提高用戶的點擊量。
  (2)社交網(wǎng)絡(luò):目前的社交網(wǎng)絡(luò)和各大社交app每天都將產(chǎn)生巨大的數(shù)據(jù)量,新浪微博、微信等用戶眾多的社交網(wǎng)絡(luò)每時每刻都在產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù)(視頻、圖片、文本),針對這些數(shù)據(jù)進行批量式處理,能夠幫助分析方發(fā)現(xiàn)社交網(wǎng)絡(luò)中人際之間的潛在關(guān)系和他們的共同網(wǎng)絡(luò),根據(jù)這一共同特性進行更新升級,能夠進一步提升用戶的使用體驗。
  (3)電子商務(wù):在淘寶、京東、亞馬遜等電商網(wǎng)站上,產(chǎn)生大量的商品瀏覽記錄、購買記錄和批評記錄,批量處理這些數(shù)據(jù),商鋪能夠針對用戶的熱度對商品進行重新排布,app能夠根據(jù)每個用戶的喜好為其進行個性化推送,生產(chǎn)公司能夠用處理結(jié)果對每個不同地區(qū)的市場方針進行部署。
 。4)網(wǎng)絡(luò)平安:在金融服務(wù)和情報機構(gòu)中,能夠通過對批量數(shù)據(jù)的處理來檢測客戶交易等操作是否存在異常,由此對潛在的欺詐行為進行預(yù)防預(yù)警。
  代表性的處理系統(tǒng):
  2003年Google發(fā)布了GFS(Google File System),2004年發(fā)布MapReduce編程模型,掀起了大數(shù)據(jù)開發(fā)的高潮,在學術(shù)界和家當界產(chǎn)生了強烈反饋。作為MapReduce及GFS的開源版本,Nutch項目Hadoop在2006年發(fā)布了HDFS和MapReduce,MapReduce成為數(shù)據(jù)標準的數(shù)據(jù)處理模型。HDFS是分布式文件系統(tǒng),負責數(shù)據(jù)存儲,MapReduce是大數(shù)據(jù)編程模型,負責批量大數(shù)據(jù)運算。Hadoop已經(jīng)變成了生態(tài)圈,其子項目有Hive,HBase,Pig等。
  2.2 流式數(shù)據(jù)處理系統(tǒng)
  流式數(shù)據(jù)還有以下幾點共同特性:
 。1)流式數(shù)據(jù)的每個單元都帶有標志時間的標簽和相關(guān)屬性,所以處理流式數(shù)據(jù)常常是按照時間順序來進行的。
  (2)流式數(shù)據(jù)能夠由無結(jié)構(gòu)、半結(jié)構(gòu)、結(jié)構(gòu)化數(shù)據(jù)組成,故其處理流程復(fù)雜、數(shù)據(jù)純度不高。
 。3)流式數(shù)據(jù)具有活動性。
  典型應(yīng)用:
  (1)金融銀行業(yè):金融銀行行業(yè)的運營數(shù)據(jù),具有短時效性,數(shù)據(jù)結(jié)構(gòu)也混雜,對這些流式數(shù)據(jù)進行處理,能夠幫助銀行發(fā)現(xiàn)其內(nèi)在特征,幫助銀行做出實時決策。
  (2)數(shù)據(jù)采集:隨著物聯(lián)網(wǎng)的興起,NBIoT的廣泛應(yīng)用,終端設(shè)備產(chǎn)生海量實時數(shù)據(jù)。當前主要有傳感器數(shù)據(jù)采集、日志采集、Web操作日志采集,使用流式系統(tǒng)獲取實時數(shù)據(jù)信息,達到動態(tài)預(yù)警及通知功能。
  2.3 代表性的處理系統(tǒng)
  2.3.1 Storm系統(tǒng)
  Storm誕生于BackType公司,隨著BackType被Twitter收購,Storm轉(zhuǎn)為開源并在GitHub上公布。在2014年9月正式成為Apache旗下的頂級項目。
  Storm是實時的Hadoop,在實時數(shù)據(jù)處理領(lǐng)域扮演Hadoop之與批量數(shù)據(jù)處理領(lǐng)域的角色。Storm解決了Hadoop在處理實時數(shù)據(jù)面臨的瓶頸,選取分而治之理念的Hadoop在處理實時性要求高的場景顯得老態(tài)龍鐘。
  Storm選取Master/Slave體系結(jié)構(gòu),與Hadoop主從架構(gòu)一樣,Nimbus是整個集群的抑制節(jié)點,負責指令的分發(fā)和系統(tǒng)的監(jiān)控。Supervisor是從節(jié)點,負責具體任務(wù)執(zhí)行。
  2.3.2 Samza系統(tǒng)
  Linkedin開源了消息隊列Kafka,得到業(yè)界廣泛應(yīng)用,非常局部流式數(shù)據(jù)處理系統(tǒng)都使用KafKa作為分布式消息處理模塊。Linkedin于2013年基于YARN和Kafka開發(fā)了一套流式處理框架―Samza。     Kafka(數(shù)據(jù)層)、YARN(執(zhí)行層)、Samza API(處理層)構(gòu)成了Samza系統(tǒng)的總體架構(gòu)。 
  Samza的主要特點是依賴YARN和Kafka。
  3 對大數(shù)據(jù)領(lǐng)域的思索及歸納
  開源大數(shù)據(jù)解決方案日新月異,各有使用場景,整體來說歸納出幾種發(fā)展趨勢:
  (1)平臺適應(yīng)多樣華,Hadoop成為大數(shù)據(jù)平臺真相上的標準,適用于批處理數(shù)據(jù)分析應(yīng)用場景。利用內(nèi)存實現(xiàn)加速的Spark在實時性要求高的場景中有更好的適配性。在大數(shù)據(jù)平臺家族中,出現(xiàn)了Spark,TEZ,Drill,Storm,F(xiàn)lume,Scribe等新技能,其并不是要取代Hadoop,而是要促進大數(shù)據(jù)生態(tài)環(huán)境的完整化發(fā)展。
 。2)數(shù)據(jù)處理實時性:在物聯(lián)網(wǎng)、大數(shù)據(jù)蓬勃發(fā)展的基礎(chǔ)上,將海量數(shù)據(jù)(PB級別)處理時間縮短到幾秒級別的實時計算需求越發(fā)強烈。
  (3)專業(yè)化:專業(yè)化是提高效率的必經(jīng)之道,業(yè)界多通過定制化的軟硬一體解決方案實現(xiàn)低成本、高并發(fā)的解決方案。
  

在不久的將來,云計算一定會徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏云計算,及時獲取人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識,讓我們一起攜手,引領(lǐng)人工智能的未來!

標簽: Google 大數(shù)據(jù) 大數(shù)據(jù)處理 大數(shù)據(jù)分析 大數(shù)據(jù)開發(fā) 大數(shù)據(jù)平臺 大數(shù)據(jù)系統(tǒng) 大數(shù)據(jù)行業(yè) 電商 電商網(wǎng) 電商網(wǎng)站 電子商務(wù) 互聯(lián)網(wǎng) 金融 數(shù)據(jù)分析 搜索 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:云網(wǎng)絡(luò)應(yīng)用認知:真實還是幻想?

下一篇:企業(yè)級云安全公司科力斯發(fā)行價12美元 今晚IPO