中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)行業(yè)發(fā)展存在的問題和機(jī)遇

2019-02-26    來源:多智時(shí)代

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

    本文先根據(jù)大數(shù)據(jù)的不同處理方式,介紹幾種不同形式大數(shù)據(jù)處理平臺(tái)以及他們各自對應(yīng)的幾個(gè)典型應(yīng)用,并指出了具有代表性的處理系統(tǒng)。之后對建立于這些系統(tǒng)框架上的大數(shù)據(jù)分析技能應(yīng)用作出場景分析,并對大數(shù)據(jù)行業(yè)發(fā)展存在的問題和機(jī)遇進(jìn)行了詳細(xì)的闡述。
  1 引言
  大數(shù)據(jù)在近幾年迅速成為最具有熱點(diǎn)的一個(gè)話題,科技、企業(yè)界乃至于各國政府都對其十分關(guān)注,大數(shù)據(jù)帶來的機(jī)遇和挑戰(zhàn)已經(jīng)成為了各界的焦點(diǎn)。
  以宏觀的角度來看,大數(shù)據(jù)是物理世界、信息世界和人類世界的紐帶,物理世界通過網(wǎng)絡(luò)將反應(yīng)自身特性的數(shù)據(jù)反映到信息世界中,人類世界憑借界面的交互手段對自己的數(shù)據(jù)向信息世界進(jìn)行輸入和操作。大數(shù)據(jù)的特征可歸納為5點(diǎn),即體量大、速度快、模態(tài)多、難辨識(shí)和價(jià)值大密度低五大特性,數(shù)據(jù)量的龐大并不是目前大數(shù)據(jù)的主要難點(diǎn),真正的挑戰(zhàn)在于數(shù)據(jù)類型的多樣性、不確定性以及對數(shù)據(jù)處理即時(shí)響應(yīng)的要求。
  出于應(yīng)對處理數(shù)據(jù)困難的探索,開源界推出了Hadoop,Spark等應(yīng)對不同應(yīng)用場景的大數(shù)據(jù)處理系統(tǒng),同時(shí)相應(yīng)的分析技能如:深度學(xué)習(xí)、可視化、知識(shí)計(jì)算等,這些大數(shù)據(jù)系統(tǒng)已經(jīng)逐步得到廣泛的應(yīng)用。
  2 大數(shù)據(jù)處理系統(tǒng)
  2.1 批量式數(shù)據(jù)處理系統(tǒng)
  批量式數(shù)據(jù)有三個(gè)主要的特性:
 。1)數(shù)據(jù)量巨大,目前已經(jīng)達(dá)到PB級(jí)。
 。2)數(shù)據(jù)來源與具體應(yīng)用系統(tǒng),精度相對較高。
 。3)數(shù)據(jù)的價(jià)值密度相應(yīng)低下,如視頻數(shù)據(jù),在視頻播放的過程中,有價(jià)值的數(shù)據(jù)可能惟有僅僅幾秒,而這也需要專用的算法對有價(jià)值的數(shù)據(jù)進(jìn)行提取,同時(shí)提取數(shù)據(jù)的行為將會(huì)消耗一定的時(shí)間,所以存在諸多限制,通常會(huì)造成處理結(jié)果不甚理想。
  綜合以上三點(diǎn)特性,批量式數(shù)據(jù)的處理需要相對對照成熟的技能和作業(yè)手段。
  批量式數(shù)據(jù)的應(yīng)用:
 。1)搜索引擎:互聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源,知名的搜索引擎如美國的Google,我國的baidu等大型互聯(lián)網(wǎng)搜索引擎,通過與廣告相關(guān)數(shù)據(jù)的批量處理,來準(zhǔn)時(shí)改變廣告投放的策略,根據(jù)分析用戶的喜好,更改廣告的分布以提高用戶的點(diǎn)擊量。
 。2)社交網(wǎng)絡(luò):目前的社交網(wǎng)絡(luò)和各大社交app每天都將產(chǎn)生巨大的數(shù)據(jù)量,新浪微博、微信等用戶眾多的社交網(wǎng)絡(luò)每時(shí)每刻都在產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù)(視頻、圖片、文本),針對這些數(shù)據(jù)進(jìn)行批量式處理,能夠幫助分析方發(fā)現(xiàn)社交網(wǎng)絡(luò)中人際之間的潛在關(guān)系和他們的共同網(wǎng)絡(luò),根據(jù)這一共同特性進(jìn)行更新升級(jí),能夠進(jìn)一步提升用戶的使用體驗(yàn)。
 。3)電子商務(wù):在淘寶、京東、亞馬遜等電商網(wǎng)站上,產(chǎn)生大量的商品瀏覽記錄、購買記錄和批評(píng)記錄,批量處理這些數(shù)據(jù),商鋪能夠針對用戶的熱度對商品進(jìn)行重新排布,app能夠根據(jù)每個(gè)用戶的喜好為其進(jìn)行個(gè)性化推送,生產(chǎn)公司能夠用處理結(jié)果對每個(gè)不同地區(qū)的市場方針進(jìn)行部署。
 。4)網(wǎng)絡(luò)平安:在金融服務(wù)和情報(bào)機(jī)構(gòu)中,能夠通過對批量數(shù)據(jù)的處理來檢測客戶交易等操作是否存在異常,由此對潛在的欺詐行為進(jìn)行預(yù)防預(yù)警。
  代表性的處理系統(tǒng):
  2003年Google發(fā)布了GFS(Google File System),2004年發(fā)布MapReduce編程模型,掀起了大數(shù)據(jù)開發(fā)的高潮,在學(xué)術(shù)界和家當(dāng)界產(chǎn)生了強(qiáng)烈反饋。作為MapReduce及GFS的開源版本,Nutch項(xiàng)目Hadoop在2006年發(fā)布了HDFS和MapReduce,MapReduce成為數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)處理模型。HDFS是分布式文件系統(tǒng),負(fù)責(zé)數(shù)據(jù)存儲(chǔ),MapReduce是大數(shù)據(jù)編程模型,負(fù)責(zé)批量大數(shù)據(jù)運(yùn)算。Hadoop已經(jīng)變成了生態(tài)圈,其子項(xiàng)目有Hive,HBase,Pig等。
  2.2 流式數(shù)據(jù)處理系統(tǒng)
  流式數(shù)據(jù)還有以下幾點(diǎn)共同特性:
 。1)流式數(shù)據(jù)的每個(gè)單元都帶有標(biāo)志時(shí)間的標(biāo)簽和相關(guān)屬性,所以處理流式數(shù)據(jù)常常是按照時(shí)間順序來進(jìn)行的。
 。2)流式數(shù)據(jù)能夠由無結(jié)構(gòu)、半結(jié)構(gòu)、結(jié)構(gòu)化數(shù)據(jù)組成,故其處理流程復(fù)雜、數(shù)據(jù)純度不高。
 。3)流式數(shù)據(jù)具有活動(dòng)性。
  典型應(yīng)用:
 。1)金融銀行業(yè):金融銀行行業(yè)的運(yùn)營數(shù)據(jù),具有短時(shí)效性,數(shù)據(jù)結(jié)構(gòu)也混雜,對這些流式數(shù)據(jù)進(jìn)行處理,能夠幫助銀行發(fā)現(xiàn)其內(nèi)在特征,幫助銀行做出實(shí)時(shí)決策。
  (2)數(shù)據(jù)采集:隨著物聯(lián)網(wǎng)的興起,NBIoT的廣泛應(yīng)用,終端設(shè)備產(chǎn)生海量實(shí)時(shí)數(shù)據(jù)。當(dāng)前主要有傳感器數(shù)據(jù)采集、日志采集、Web操作日志采集,使用流式系統(tǒng)獲取實(shí)時(shí)數(shù)據(jù)信息,達(dá)到動(dòng)態(tài)預(yù)警及通知功能。
  2.3 代表性的處理系統(tǒng)
  2.3.1 Storm系統(tǒng)
  Storm誕生于BackType公司,隨著BackType被Twitter收購,Storm轉(zhuǎn)為開源并在GitHub上公布。在2014年9月正式成為Apache旗下的頂級(jí)項(xiàng)目。
  Storm是實(shí)時(shí)的Hadoop,在實(shí)時(shí)數(shù)據(jù)處理領(lǐng)域扮演Hadoop之與批量數(shù)據(jù)處理領(lǐng)域的角色。Storm解決了Hadoop在處理實(shí)時(shí)數(shù)據(jù)面臨的瓶頸,選取分而治之理念的Hadoop在處理實(shí)時(shí)性要求高的場景顯得老態(tài)龍鐘。
  Storm選取Master/Slave體系結(jié)構(gòu),與Hadoop主從架構(gòu)一樣,Nimbus是整個(gè)集群的抑制節(jié)點(diǎn),負(fù)責(zé)指令的分發(fā)和系統(tǒng)的監(jiān)控。Supervisor是從節(jié)點(diǎn),負(fù)責(zé)具體任務(wù)執(zhí)行。
  2.3.2 Samza系統(tǒng)
  Linkedin開源了消息隊(duì)列Kafka,得到業(yè)界廣泛應(yīng)用,非常局部流式數(shù)據(jù)處理系統(tǒng)都使用KafKa作為分布式消息處理模塊。Linkedin于2013年基于YARN和Kafka開發(fā)了一套流式處理框架―Samza。     Kafka(數(shù)據(jù)層)、YARN(執(zhí)行層)、Samza API(處理層)構(gòu)成了Samza系統(tǒng)的總體架構(gòu)。 
  Samza的主要特點(diǎn)是依賴YARN和Kafka。
  3 對大數(shù)據(jù)領(lǐng)域的思索及歸納
  開源大數(shù)據(jù)解決方案日新月異,各有使用場景,整體來說歸納出幾種發(fā)展趨勢:
  (1)平臺(tái)適應(yīng)多樣華,Hadoop成為大數(shù)據(jù)平臺(tái)真相上的標(biāo)準(zhǔn),適用于批處理數(shù)據(jù)分析應(yīng)用場景。利用內(nèi)存實(shí)現(xiàn)加速的Spark在實(shí)時(shí)性要求高的場景中有更好的適配性。在大數(shù)據(jù)平臺(tái)家族中,出現(xiàn)了Spark,TEZ,Drill,Storm,F(xiàn)lume,Scribe等新技能,其并不是要取代Hadoop,而是要促進(jìn)大數(shù)據(jù)生態(tài)環(huán)境的完整化發(fā)展。
  (2)數(shù)據(jù)處理實(shí)時(shí)性:在物聯(lián)網(wǎng)、大數(shù)據(jù)蓬勃發(fā)展的基礎(chǔ)上,將海量數(shù)據(jù)(PB級(jí)別)處理時(shí)間縮短到幾秒級(jí)別的實(shí)時(shí)計(jì)算需求越發(fā)強(qiáng)烈。
 。3)專業(yè)化:專業(yè)化是提高效率的必經(jīng)之道,業(yè)界多通過定制化的軟硬一體解決方案實(shí)現(xiàn)低成本、高并發(fā)的解決方案。
  

在不久的將來,云計(jì)算一定會(huì)徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏云計(jì)算,及時(shí)獲取人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識(shí),讓我們一起攜手,引領(lǐng)人工智能的未來!

標(biāo)簽: Google 大數(shù)據(jù) 大數(shù)據(jù)處理 大數(shù)據(jù)分析 大數(shù)據(jù)開發(fā) 大數(shù)據(jù)平臺(tái) 大數(shù)據(jù)系統(tǒng) 大數(shù)據(jù)行業(yè) 電商 電商網(wǎng) 電商網(wǎng)站 電子商務(wù) 互聯(lián)網(wǎng) 金融 數(shù)據(jù)分析 搜索 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:云網(wǎng)絡(luò)應(yīng)用認(rèn)知:真實(shí)還是幻想?

下一篇:企業(yè)級(jí)云安全公司科力斯發(fā)行價(jià)12美元 今晚IPO