中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

面對(duì)80%的非結(jié)構(gòu)化數(shù)據(jù),如何成為20%的數(shù)據(jù)分析專家

2019-12-05    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:賈凱強(qiáng) 來源:InfoQ

二八定律,一個(gè)普適與眾多領(lǐng)域的定律,在開發(fā)行業(yè)中一樣適用。

據(jù) IDC 預(yù)測(cè),2018 年到 2025 年之間,全球產(chǎn)生的數(shù)據(jù)量將會(huì)從 33 ZB 增長(zhǎng)到 175 ZB, 復(fù)合增長(zhǎng)率達(dá)到 27%,其中超過 80% 的數(shù)據(jù)都會(huì)是處理難度較大的非結(jié)構(gòu)化數(shù)據(jù)。但開發(fā)者的數(shù)量是有限的,處理數(shù)據(jù)的能力也一樣是有限的,更何況,全球能夠真正能稱為“數(shù)據(jù)處理專家”的開發(fā)者,也只有那 20% 的精英而已。

以人處理數(shù)據(jù),數(shù)據(jù)量一旦爆發(fā)就必然面臨能力跟不上發(fā)展速度的瓶頸。因此,技術(shù)迭代和數(shù)據(jù)智能化幾乎是所有開發(fā)者必須要走的一條路。數(shù)據(jù)處理技術(shù)的發(fā)展迭代速度很快,從存儲(chǔ)到實(shí)時(shí)處理再到智能化升級(jí),無一不是必修課。那么如何在數(shù)據(jù)處理的大道上走的更快更穩(wěn)呢?11 月 25 日,在 T11 2019 數(shù)據(jù)智能峰會(huì)上,InfoQ 采訪到了在大數(shù)據(jù)領(lǐng)域有著豐富經(jīng)驗(yàn)的兩位 TalkingData 技術(shù)專家,來看他們?nèi)绾慰串?dāng)下大數(shù)據(jù)發(fā)展風(fēng)云。

實(shí)時(shí)非結(jié)構(gòu)化數(shù)據(jù)需求,催生數(shù)據(jù)湖之爭(zhēng)

數(shù)據(jù)與 AI 技術(shù)的發(fā)展一脈相承。尤其是在當(dāng)下,在數(shù)字化程度較高的行業(yè)中 AI 技術(shù)正在迅速擴(kuò)張,進(jìn)而發(fā)展到整個(gè)價(jià)值鏈中。據(jù)分析,到 2030 年的時(shí)候,AI 技術(shù)將會(huì)帶來 26% 的 GDP 增長(zhǎng),同時(shí)會(huì)成為越來越多企業(yè)提高生產(chǎn)力的首要戰(zhàn)略。與之相對(duì)應(yīng)的則是企業(yè)對(duì)數(shù)據(jù)的需求逐步增加,尤其是實(shí)時(shí)數(shù)據(jù)方面,其所占比例將會(huì)從 17% 增長(zhǎng)至 30%。

 

 

而在這種情況下,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)所存在的一些問題將會(huì)進(jìn)一步的暴露出來。傳統(tǒng)意義上,數(shù)據(jù)倉(cāng)庫(kù)主要是用來存儲(chǔ)有限的一部分經(jīng)過加工并精心抽取剝離出來的數(shù)據(jù)。但是由于抽取剝離過程的存在,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)很難做到實(shí)時(shí)可見,數(shù)據(jù)產(chǎn)生后要經(jīng)過較高的時(shí)延才能從數(shù)據(jù)倉(cāng)庫(kù)中利用起來。

TalkingData 研發(fā)副總裁閻志濤回顧了數(shù)據(jù)倉(cāng)庫(kù)誕生的初期。數(shù)據(jù)倉(cāng)庫(kù)本身是從甲骨文的結(jié)構(gòu)化數(shù)據(jù)庫(kù)發(fā)展而來的。相比之下,數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù)量較少,可以對(duì)少量的數(shù)據(jù)記錄進(jìn)行查詢、修改;而數(shù)據(jù)倉(cāng)庫(kù)則可以支撐企業(yè)所有級(jí)別的決策制定過程,是依照分析需求、分析維度和分析指標(biāo)來設(shè)計(jì)的,可以用于數(shù)據(jù)挖掘和數(shù)據(jù)分析。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)從原有分散的數(shù)據(jù)庫(kù)中的數(shù)據(jù)抽取而來的,主要面向特定主題的商業(yè)環(huán)境。但是,數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)修改的支持度很低,而且當(dāng)主題不一致時(shí),面向數(shù)據(jù)的完整性和統(tǒng)一性就無法獲得保障。只不過在當(dāng)時(shí)固定流程條件下、應(yīng)用在穩(wěn)定型的商務(wù)場(chǎng)景中,數(shù)據(jù)倉(cāng)庫(kù)確實(shí)能起到很大的作用。

而隨著數(shù)據(jù)量的增加及數(shù)據(jù)類型的變化,傳統(tǒng)的關(guān)系型、結(jié)構(gòu)化數(shù)據(jù)已經(jīng)不再是主流,很多非結(jié)構(gòu)化的數(shù)據(jù),比如視頻和語音等占據(jù)數(shù)據(jù)總量的比例越來越多。原來的數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)很難繼續(xù)支撐,因此越來越多的企業(yè)希望把原始數(shù)據(jù)以真實(shí)的初始狀態(tài)保留下來。在這種需求的推動(dòng)下,數(shù)據(jù)湖的理念便開始成形,其可以把數(shù)據(jù)保存在原始狀態(tài),以便于企業(yè)從多個(gè)維度進(jìn)行更多洞察。

在 TalkingData 看來,數(shù)據(jù)湖的理念是技術(shù)發(fā)展的選擇。但這一技術(shù)在操作落地時(shí)有很大的難度,因?yàn)橐环矫嬉M(jìn)行具體的數(shù)據(jù)分析操作,同時(shí)還要進(jìn)行原始數(shù)據(jù)的洞察,甚至還會(huì)要求快速的計(jì)算其他正在分析的目標(biāo)……這些難點(diǎn)并不容易突破,數(shù)據(jù)湖未來的路還很長(zhǎng),其形態(tài)也將會(huì)有很多變化。

三大問題困擾,導(dǎo)致數(shù)據(jù)湖落地艱難

既然數(shù)據(jù)湖的理念很有價(jià)值,就一定會(huì)有前沿探索者進(jìn)行落地實(shí)踐,那么在落地過程中會(huì)面臨哪些實(shí)際難題呢?

TalkingData 首席架構(gòu)師黃洋成對(duì)此頗有心得。他提到,數(shù)據(jù)湖的概念早在 2011 年就作為數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充而被提出,在近些年的探索之中逐步明晰的。數(shù)據(jù)湖本身是一個(gè)中心化的存儲(chǔ),能夠存儲(chǔ)任意規(guī)模的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖相比數(shù)據(jù)倉(cāng)庫(kù)有很多的優(yōu)勢(shì),但大多是在理想狀態(tài)下的,一旦執(zhí)行起來還有很多技術(shù)挑戰(zhàn)。

第一,數(shù)據(jù)湖的數(shù)據(jù)可能并不會(huì)真正做到實(shí)時(shí)。在業(yè)務(wù)環(huán)境下,如果把所有數(shù)據(jù)都放到數(shù)據(jù)湖里,那么從數(shù)據(jù)湖直接調(diào)用數(shù)據(jù)的過程可能比原來數(shù)據(jù)倉(cāng)庫(kù)更慢,因?yàn)閺臄?shù)據(jù)湖中提取出來的數(shù)據(jù),依然要經(jīng)過清洗實(shí)現(xiàn)標(biāo)準(zhǔn)化后才能更好的利用。具體能否達(dá)到需求的低時(shí)延效果,還要根據(jù)具體應(yīng)用場(chǎng)景來進(jìn)行判斷。

第二,把所有的原始數(shù)據(jù)都放到數(shù)據(jù)湖,可能會(huì)提升數(shù)據(jù)的使用難度。對(duì)于大型企業(yè)而言,業(yè)務(wù)內(nèi)容豐富,操作系統(tǒng)繁雜。數(shù)據(jù)使用者往往期望所有的數(shù)據(jù)都能平民化,就像數(shù)據(jù)倉(cāng)庫(kù)提供的那種經(jīng)過了精心處理的數(shù)據(jù),能夠輕松調(diào)度和使用來實(shí)現(xiàn)對(duì)業(yè)務(wù)的指導(dǎo)。如果是數(shù)據(jù)湖提供的原始化數(shù)據(jù),其本身是很復(fù)雜的,數(shù)據(jù)專家進(jìn)行理解和處理時(shí)或許難度適中,但大多數(shù)的平民用戶能否消化、理解并利用這些數(shù)據(jù),將會(huì)是一個(gè)巨大的疑問。

閻志濤還提出了第三個(gè)挑戰(zhàn):數(shù)據(jù)治理問題。數(shù)據(jù)倉(cāng)庫(kù)里的數(shù)據(jù)是經(jīng)過過整理、清晰易懂的。但數(shù)據(jù)湖的概念是不經(jīng)處理直接進(jìn)行堆砌,那么數(shù)據(jù)湖就有可能會(huì)變成“數(shù)據(jù)沼澤”,篩選難度會(huì)變大。當(dāng)然,數(shù)據(jù)湖的優(yōu)勢(shì)就是數(shù)據(jù)可以先作為資產(chǎn)存放起來,問題就在于如何把這些數(shù)據(jù)在業(yè)務(wù)中利用起來。當(dāng)部署了數(shù)據(jù)湖之后,數(shù)據(jù)治理問題將會(huì)接踵而至,比如從數(shù)據(jù)湖到數(shù)據(jù)池塘,如何將數(shù)據(jù)進(jìn)行分流、池塘的數(shù)據(jù)如何進(jìn)行整理等。

總體來看,數(shù)據(jù)在變,大家對(duì)數(shù)據(jù)的認(rèn)知也在變化。在數(shù)據(jù)倉(cāng)庫(kù)時(shí)期,數(shù)據(jù)是經(jīng)過加工的副產(chǎn)品;而數(shù)據(jù)湖時(shí)期,數(shù)據(jù)就是對(duì)企業(yè)非常關(guān)鍵的資產(chǎn),這份資產(chǎn)帶來的挑戰(zhàn)是將來要如何更好發(fā)揮數(shù)據(jù)的價(jià)值,大部分公司都奔跑在從數(shù)據(jù)里挖掘商業(yè)價(jià)值這條路上。

流計(jì)算發(fā)展引入 Flink 業(yè)務(wù)實(shí)踐

數(shù)據(jù)湖的這些弊端并非完全無解。存儲(chǔ)技術(shù)在迭代,計(jì)算方式也在不斷變化中。隨著非結(jié)構(gòu)化數(shù)據(jù)的增加,企業(yè)對(duì)數(shù)據(jù)處理實(shí)時(shí)性要求越來越高,計(jì)算方式也從以 Hadoop 為核心的離線計(jì)算轉(zhuǎn)向到以 Spark、Storm、Flink 為核心的實(shí)時(shí)計(jì)算,這些技術(shù)也可以使數(shù)據(jù)湖能夠?qū)崟r(shí)接入和處理業(yè)務(wù)數(shù)據(jù)。

閻志濤表示實(shí)時(shí)計(jì)算確實(shí)是最近幾年發(fā)展的焦點(diǎn)。以 Flink 為例,TalkingData 在 2015 年左右就開始了解和嘗試使用 Flink。但在最初的兩年里,F(xiàn)link 整體發(fā)展并不快,落地的過程中,也遇到了維護(hù)以及擴(kuò)充能力的成本不斷增高的考驗(yàn)。2016 年,閻志濤前往美國(guó)參加大會(huì)時(shí)與跟 Flink 的 CTO 進(jìn)行過一次深入會(huì)談,在那次談話中他感受到 Flink 整體成熟度在逐步提高,也堅(jiān)定了繼續(xù)發(fā)展的信念,因此也決定在更深入的調(diào)研后將其引入到 TalkingData 的平臺(tái)業(yè)務(wù)中。

2017 年,TalkingData 將 Flink 應(yīng)用到自研的線上的分析平臺(tái)的流式處理過程,實(shí)現(xiàn)了真正的落地應(yīng)用。而在那之后,F(xiàn)link 的應(yīng)用場(chǎng)景也越來越多,截止到目前,TalkingData 線上的分析平臺(tái)里已經(jīng)實(shí)現(xiàn)了多方面的 Flink 落地,包括游戲分析、應(yīng)用統(tǒng)計(jì)分析、移動(dòng)廣告監(jiān)測(cè)產(chǎn)品中的流式處理過程等都是使用 Flink 來做的。當(dāng)然,大規(guī)模的落地也離不開開源社區(qū)的幫助,在執(zhí)行的過程中遇到一些問題時(shí),與社區(qū)密切進(jìn)行問題的反饋會(huì)讓落地過程事半功倍。

以平臺(tái)建設(shè)拉通大數(shù)據(jù)與 AI 鏈路

提升大數(shù)據(jù)處理效率,AI 技術(shù)是必不可少的重要手段,而提升 AI 模型的精準(zhǔn)度,大數(shù)據(jù)又是賴以生存的必要條件。二者如同雞生蛋、蛋生雞一般密不可分,但二者又畢竟都是各自獨(dú)立的單獨(dú)個(gè)體。那么,在大數(shù)據(jù)與 AI 技術(shù)之間有哪些異同呢?二者之間的技術(shù)鏈路又當(dāng)如何打通呢?

黃洋成首先解讀了 AI 和大數(shù)據(jù)之間的關(guān)系。他認(rèn)為可以將 AI 看作是一種大數(shù)據(jù)處理方式,只不過 AI 的技術(shù)模式和傳統(tǒng)數(shù)據(jù)處理模式有一定差異,尤其是在計(jì)算密集性層面,與傳統(tǒng)的大數(shù)據(jù)處理和分析應(yīng)用有著本質(zhì)的不同。

其次,計(jì)算量和工作量的分布不同。技術(shù)應(yīng)用流程一般會(huì)分成訓(xùn)練和生產(chǎn)上線這兩個(gè)階段。傳統(tǒng)的大數(shù)據(jù)支持流程,本身的開發(fā)相對(duì)屬于輕量,但生產(chǎn)上線消耗的資源會(huì)更多。而 AI 的開發(fā)難度較大,需要探索各種各樣不同的工程以及各類建模方法并進(jìn)行模型的參數(shù)調(diào)整。但上線以后總體來說它的運(yùn)行會(huì)更輕量一些。

第三是對(duì)底層計(jì)算資源需求不同。以深度學(xué)習(xí)為例,其不只在圖像和語音場(chǎng)景下廣泛使用,在傳統(tǒng)的推薦廣告、營(yíng)銷優(yōu)化等場(chǎng)景下,深度學(xué)習(xí)技術(shù)也被用來增強(qiáng)傳統(tǒng)機(jī)器學(xué)習(xí)能力。而深度學(xué)習(xí)在訓(xùn)練和上線時(shí)會(huì)依賴于 GPU 或者 FPGA 等新型計(jì)算硬件資源支撐;大數(shù)據(jù)則是以 CPU 為主。這就使得整體計(jì)算資源在管理和分配上也存在一定的不同。

二者打通的解決方案目前有很多的嘗試,主要思路是引入 Docker、Kubernetes 等容器技術(shù)來進(jìn)行資源分配,并基于 Kubernetes 來做資源的調(diào)度和優(yōu)化,根據(jù)底層的每一個(gè)容器或者計(jì)算任務(wù),針對(duì)性的將計(jì)算資源動(dòng)態(tài)分配到合適的機(jī)器節(jié)點(diǎn)上。

閻志濤也對(duì)大數(shù)據(jù)和 AI 這兩大技術(shù)鏈路進(jìn)行了全面解析。他認(rèn)為這兩個(gè)鏈路本身都是完整的,從解決業(yè)務(wù)問題的角度而言是非常類似的。但是從技術(shù)角度來看,無論是模型的訓(xùn)練、數(shù)據(jù)科學(xué)家的介入、模型版本的控制、傳統(tǒng)的大數(shù)據(jù)分析還是新增的 AI 任務(wù)等,都會(huì)看起來有些不同甚至沖突。但如果從解決問題的角度來看,二者最終的產(chǎn)出都是在業(yè)務(wù)線上做大規(guī)模的部署,進(jìn)行密集性計(jì)算,最終的商務(wù)分析、業(yè)務(wù)結(jié)合、自動(dòng)化運(yùn)營(yíng)中以及數(shù)據(jù)分析等產(chǎn)出的角度也是一致的。

從人員方面來看,AI 人才主要是數(shù)據(jù)科學(xué)家的團(tuán)隊(duì),主要使用的是 Python、R 等語言和數(shù)據(jù)科學(xué)家的技術(shù)能力以及思維方式。TalkingData 以往主要是面向大數(shù)據(jù)技術(shù)域,大數(shù)據(jù)行業(yè)習(xí)慣以工程落地為主,與 AI 產(chǎn)業(yè)通常需要緊密合作。好在技術(shù)和平臺(tái)不斷演進(jìn),TalkingData 也在不斷的投入 AI 方面的平臺(tái)建設(shè),包括對(duì)數(shù)據(jù)科學(xué)家的支持等,讓數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)之間距離越來越近。讓 AI 與大數(shù)據(jù)更好的結(jié)合,為未來的數(shù)據(jù)智能化發(fā)展鋪平道路。

標(biāo)簽: 數(shù)據(jù)分析專家 處理數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:Google,Uber和Facebook為數(shù)據(jù)科學(xué)和AI開發(fā)的開源項(xiàng)目

下一篇:Splunk擬收購(gòu)云監(jiān)控領(lǐng)先企業(yè)SignalFx