中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)中臺演進的四個階段

2019-08-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

未來服務線下企業(yè)的數(shù)據(jù)中臺一定是「AI 驅動的數(shù)據(jù)中臺」,這個中臺的能力要包括「計算平臺 + 算法模型 + 智能硬件」

2009 年,阿里云開啟了中國的云時代。

十年市場教育,中國的公有云市場也已經(jīng)從無到有,邁過了 300 億元大關,預計到 2021 年更是能達到 900 億元的規(guī)模。

「數(shù)據(jù)中臺」已經(jīng)從一個技術詞匯,慢慢轉變成為企業(yè)界的共識:如果想要在信息商業(yè)中擁有一席之地,就必須要借助云計算和數(shù)據(jù)的力量,完成企業(yè)的數(shù)字化轉型。

只是,數(shù)據(jù)到底在轉型中扮演什么樣的角色,要如何利用好數(shù)據(jù),數(shù)據(jù)上云后如何支持業(yè)務,企業(yè)需要哪些核心能力?這些問題,對于大多數(shù)的非技術業(yè)者而言,仍然是知其然不知其所以然。

一般而言,「數(shù)據(jù)上云」更多強調的是數(shù)據(jù)的存儲和計算,而要讓數(shù)據(jù)能夠賦能業(yè)務,則更需要「數(shù)據(jù)中臺」來進行數(shù)據(jù)處理,進而支持業(yè)務決策和優(yōu)化運營。

這是「數(shù)據(jù)中臺」和「數(shù)據(jù)上云」最大的不同。

數(shù)據(jù)中臺最終要幫助企業(yè)降本增效

作為數(shù)據(jù)業(yè)務領域的先行者,阿里云總裁張建鋒,在最新的演講中,把數(shù)據(jù)智能作為數(shù)據(jù)處理的核心能力:

今天處理數(shù)據(jù)絕大部分都不是單純靠算力,算力是基礎,而主要是靠上面的智能化的算法,算法跟各行各業(yè)的業(yè)務有密切相關,所以阿里巴巴通過與各行各業(yè)合作,沉淀了一個完整的智能化平臺。我們認為在基礎設施的云化、核心技術的互聯(lián)網(wǎng)化以及在之上疊加大數(shù)據(jù) + 智能化的平臺和能力,完整地組成了阿里云智能的整體能力框架。這是我們核心的能力。

這里面?zhèn)鬟_出了幾個核心信息:

1. 云計算為數(shù)據(jù)智能提供了基礎算力;

2. 行業(yè)(經(jīng)驗轉化而來的)算法是智能處理數(shù)據(jù)的主要工具;

3. 數(shù)據(jù) + 智能的平臺和能力,前提是基礎設施的云化和核心技術的互聯(lián)網(wǎng)化;

這是阿里云所認為的數(shù)據(jù)處理的能力框架,而在目前的市場上,我們通常把這種能力框架稱為「數(shù)據(jù)中臺」。

輿論往往會更強調技術的作用,強調技術對業(yè)務的推動作用,但事實上,在商業(yè)領域,更多的時候,技術發(fā)展都是跟著業(yè)務走,技術的發(fā)展常常來自于業(yè)務需求和業(yè)務場景的倒逼。

例如,隨著越來越多的企業(yè)把業(yè)務流程上云,日益增長的數(shù)據(jù)存儲和仍然稀缺的數(shù)據(jù)應用就成為了企業(yè)的主要矛盾之一,而且,這種矛盾不是一天就能夠解決,需要從業(yè)務、技術、組織幾個不同的領域一起來探尋數(shù)據(jù)的解決方案。

簡單來說,「數(shù)據(jù)中臺」就是這一系列解決方案的基礎設施。

數(shù)據(jù)中臺不是一套軟件系統(tǒng),也不是一個標準化產(chǎn)品,站在企業(yè)的角度上,數(shù)據(jù)中臺更多地指向企業(yè)的業(yè)務目標,也即幫助企業(yè)沉淀業(yè)務能力,提升業(yè)務效率,最終完成數(shù)字化轉型。直白點說,中臺只講技術,不講業(yè)務,都是大忽悠。

這么多年來,互聯(lián)網(wǎng)的發(fā)展都建立在更低成本、更高效率的連接之上,線下也一定會復制線上的發(fā)展邏輯,用更多連接帶來更多的數(shù)據(jù)。

比如,通過攝像頭,我們就可以低成本建立顧客的 Face ID 檔案,從而豐富人和店鋪的關系數(shù)據(jù),店鋪進而可以根據(jù)數(shù)據(jù)分析結果,給顧客提供更有針對性的服務項目。

更多連接,更低成本,更高效率——所有跟流通相關的線下生意,數(shù)據(jù)中臺的意義就在于降本增效,別無其他。

數(shù)據(jù)中臺發(fā)展經(jīng)歷了四個階段

在數(shù)據(jù)史上,2015 年是一個重要的關口:2015 年全年產(chǎn)生的數(shù)據(jù)量等于歷史上所有人類產(chǎn)生數(shù)據(jù)的總和,這是數(shù)據(jù)從乘數(shù)型增長全面轉向了指數(shù)型增長的方向標,海量數(shù)據(jù)處理成為全人類的挑戰(zhàn)。

同一時間,阿里巴巴向外發(fā)布了 DT 時代的提法,用 Data Technology(DT,數(shù)據(jù)技術)替代了 Information Technology(IT,信息科技),強調數(shù)據(jù)技術將成為未來商業(yè)的驅動力。

一個標志性的事件是:阿里巴巴用幾百人的運營團隊支撐了幾萬億的 GMV,其中 60%-70% 來源于數(shù)據(jù)支持的機器決策,機器智能賦能業(yè)務,用更低的成本,更高的效率去服務顧客,提供千人干面的個性化體驗。

未來學家認為,機器智能最終會超越人的智慧,而這兩者的臨界點就被稱為「奇點」。從這點來說,我們可以認為,阿里巴巴已經(jīng)跨越了奇點,真正成為一家數(shù)據(jù)公司。

下面我們從數(shù)據(jù)的角度來梳理下這個過程。

阿里巴巴的數(shù)據(jù)處理經(jīng)歷了四個階段,分別是:

一、數(shù)據(jù)庫階段,主要是 OLTP(聯(lián)機事務處理)的需求;

二、數(shù)據(jù)倉庫階段,OLAP(聯(lián)機分析處理)成為主要需求;

三、數(shù)據(jù)平臺階段,主要解決 BI 和報表需求的技術問題;

四、數(shù)據(jù)中臺階段,通過系統(tǒng)來對接 OLTP(事務處理)和 OLAP(報表分析)的需求,強調數(shù)據(jù)業(yè)務化的能力。

 

 

數(shù)據(jù)中臺演進的四個階段

第一個階段是數(shù)據(jù)庫階段。

淘寶還只是一個簡單的網(wǎng)站,淘寶的整個結構就是前端的一些頁面,加上后端的 DB(DataBase,數(shù)據(jù)庫),只是個簡單的 OLTP 系統(tǒng),主要就是交易的事務處理。

這個階段,互聯(lián)網(wǎng)黃頁才剛剛出現(xiàn),數(shù)據(jù)來源大部分還是傳統(tǒng)商業(yè)的 ERP/CRM 的結構化數(shù)據(jù),數(shù)據(jù)量并不大,也就是 GB 的級別。簡單的 DB 就能滿足需求。

這里要說明的是,OLTP 的交易場景和 OLAP 的分析場景區(qū)別在于,前者強調高并發(fā)、單條數(shù)據(jù)簡單提取和展示(增刪改查),后者對并發(fā)的要求不高,但是需要打通不同的數(shù)據(jù)庫,比如 ERP、CRM、行為數(shù)據(jù)等等,并且能夠進行批量的數(shù)據(jù)處理,也就是通常說的低并發(fā),大批量(批處理)、面向分析(query+ 計算,用于制作報表)。

隨著淘寶用戶超過 100 萬,分析需求的比重就越來越大。淘寶需要知道它的交易來自于哪些地區(qū),來自于哪些人,誰在買淘寶的東西等等,于是,就進入了數(shù)據(jù)處理的第二個階段。

第二個階段是數(shù)據(jù)倉庫階段。

正如前文所述,OLTP 和 OLAP 對數(shù)據(jù)存儲和計算的需求非常不一樣,前者處理的是結構化的交易數(shù)據(jù),而 OLAP 對應的是互聯(lián)網(wǎng)數(shù)據(jù),而互聯(lián)網(wǎng)里面數(shù)據(jù)量最大的是網(wǎng)頁日志,90% 以上的數(shù)據(jù)都是點擊(log)什么的非結構化的數(shù)據(jù),而且數(shù)據(jù)量已經(jīng)達到了 TB 的級別。

針對分析需求,就誕生了數(shù)據(jù)倉庫(DW,DataWarehouse),我 2004 年加入阿里,用 Oracle RAC 搭建了阿里巴巴第一個 DW,解決大量數(shù)據(jù)的存儲和計算需求,也就是去把非結構化的數(shù)據(jù)轉化成結構化數(shù)據(jù),存儲下來。

這個階段,DW 支持的主要就是 BI 和報表需求。

順帶提一下,數(shù)據(jù)庫(DB)這時也在從傳統(tǒng) DB 轉向分布式 DB。主要原因是以前交易穩(wěn)定,并發(fā)可控,傳統(tǒng) DB 能滿足需求,但是后來隨著交易量的增長,并發(fā)越來越不可控,對分布式 DB 的需求也就出來了。

隨著數(shù)據(jù)量越來越大,從 TB 進入了 PB 級別,原來的技術架構越來越不能支持海量數(shù)據(jù)處理,這時候就進入了第三個階段。

第三個階段是數(shù)據(jù)平臺階段,這個階段解決的還是 BI 和報表需求,但是主要是在解決底層的技術問題,也就是數(shù)據(jù)庫架構設計的問題。

這在數(shù)據(jù)庫技術領域被概括為「Shared Everything、Shared Nothing、或 Shared Disk」,說的就是數(shù)據(jù)庫架構設計本身的不同技術思路之爭。

Shared Everything 一般是針對單個主機,完全透明共享 CPU/MEMORY/IO,并行處理能力是最差的,典型的代表 SQLServer。

Shared Disk 的代表是 Oracle RAC,用戶訪問 RAC 就像訪問一個數(shù)據(jù)庫,但是這背后是一個集群,RAC 來保證這個集群的數(shù)據(jù)一致性。

問題在于,Oracle RAC 是基于 IOE 架構的,所有數(shù)據(jù)用同一個 EMC 存儲。在海量數(shù)據(jù)處理上,IOE 架構有天然的限制,不適合未來的發(fā)展。阿里巴巴的第一個數(shù)據(jù)倉庫就是建立在 Oracle RAC 上,由于數(shù)據(jù)量增長太快,所以很快就到達 20 個節(jié)點,當時是全亞洲最大的 Oracle RAC 集群,但阿里巴巴早年算過一筆賬,如果仍然沿用 IOE 架構,那么幾年后,阿里的預計營收還遠遠趕不上服務器的支出費用,就是說,如果不去 IOE,阿里會破產(chǎn)。

Shared Nothing 的代表就是 Hadoop。Hadoop 的各個處理單元都有自己私有的存儲單元和處理單元,各處理單元之間通過協(xié)議通信,并行處理和擴展能力更好。中間有一個分布式調度系統(tǒng),會把表從物理存儲上水平分割,分配給多臺服務器。

Hadoop 的好處是要增加數(shù)據(jù)處理的能力和容量,只需要增加服務器就好,成本不高,在海量數(shù)據(jù)處理和大規(guī)模并行處理上有很大優(yōu)勢。

綜上,用一個關鍵詞來概括第三階段就是「去 IOE」,建立 Shared Nothing 的海量數(shù)據(jù)處理平臺來解決數(shù)據(jù)存儲成本增長過快的問題。在阿里巴巴,前期是 Hadoop,后期轉向自研的 ODPS。

第四階段是數(shù)據(jù)中臺階段。

這個階段的特征是數(shù)據(jù)量的指數(shù)級增長,從 PB 邁向了 EB 級別,未來會到什么量級,我也說不清楚。

主要是因為,2015 年之后,IOT(物聯(lián)網(wǎng))發(fā)展起來,帶動了視圖聲(視頻、圖像、聲音)數(shù)據(jù)的增長,未來 90% 的數(shù)據(jù)可能都來自于視圖聲的非結構化數(shù)據(jù),這些數(shù)據(jù)需要視覺計算技術、圖像解析的引擎 + 視頻解析的引擎 + 音頻解析的引擎來轉換成結構化數(shù)據(jù)。5G 技術的發(fā)展,可能會進一步放大視圖聲數(shù)據(jù)的重要性。

線下要想和線上一樣,通過數(shù)據(jù)來改善業(yè)務,就要和線上一樣能做到行為可監(jiān)測,數(shù)據(jù)可收集,這是前提。線下最大量的就是視圖聲數(shù)據(jù),而這些數(shù)據(jù)靠人來手工收集,肯定是不靠譜的,依靠 IOT 技術和算法的進步,最終會通過智能端來自動化獲取數(shù)據(jù)。

要使用這些數(shù)據(jù),光有視覺算法和智能端也不行,要有云來存儲和處理這些數(shù)據(jù),以及打通其他領域的數(shù)據(jù)。

另一方面,從業(yè)務來看,數(shù)據(jù)也好,數(shù)據(jù)分析也好,最終都是要為業(yè)務服務的。也就是說,要在系統(tǒng)層面能把 OLAP 和 OLTP 去做對接,這個對接不能靠人來完成,要靠智能算法。

目前的數(shù)據(jù)中臺,最底下的數(shù)據(jù)平臺還是偏技術的,是中臺技術方案的其中一個組件,主要解決數(shù)據(jù)存儲和計算的問題;在上面就是一層數(shù)據(jù)服務層,數(shù)據(jù)服務層通過服務化 API 能夠把數(shù)據(jù)平臺和前臺的業(yè)務層對接;數(shù)據(jù)中臺里面就沒有人的事情,直接系統(tǒng)去做對接,通過智能算法,能把前臺的分析需求和交易需求去做對接,最終賦能業(yè)務。

綜合上述兩個方面,我認為未來要做好數(shù)據(jù)中臺,只做云或者只做端都不靠譜,需要把兩者合起來做。智能端負責數(shù)據(jù)的收集,云負責數(shù)據(jù)的存儲、計算、賦能。端能夠豐富云,云能夠賦能端。

未來的數(shù)據(jù)中臺,一定是「AI 驅動的數(shù)據(jù)中臺」,這個中臺包括「計算平臺 + 算法模型 + 智能硬件」,不僅要在端上具備視覺數(shù)據(jù)的收集和分析能力,而且還要能通過 Face ID,幫助企業(yè)去打通業(yè)務數(shù)據(jù),最終建立線上線下觸達和服務消費者的能力。

真正做到「一切業(yè)務數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務化」。

數(shù)據(jù)中臺需要具備三大能力

那么,數(shù)據(jù)中臺是怎么來賦能業(yè)務使用數(shù)據(jù)的呢?這里舉一個 TCIF 的例子。

現(xiàn)在大家可能都認識到了統(tǒng)一消費者數(shù)據(jù)的必要性,但是在幾年前,哪怕是在阿里巴巴,消費者的信息也分散在各個業(yè)務中,碎片化、散點化,而業(yè)務當時需要把這些分散的人的數(shù)據(jù)集中起來,進行人群畫像。道理很明白,人群畫像越清晰,服務就會越精準。

怎么統(tǒng)一消費者數(shù)據(jù)?

首先,定義埋點規(guī)范,同一個人就用同一個標識,ID 打通,也就是所謂的 One ID;

其次,還會碰上一家人使用一個登錄帳號的問題,那么就需要建立同人的數(shù)據(jù)模型,通過一些方式,比如,IP 網(wǎng)段是不是一樣,來分辨出具體的那個人,建立 AID(Alibaba ID);

再次,每個人還有各種網(wǎng)絡行為,要如何把這些行為結構化,裝到各種框架里面?這個特別難,我們當時主要是跟人類學家合作,一起把行為的分類樹做出來。這個分類樹非常細,甚至能夠把一個人的發(fā)質都結構化了。

最后,就需要通過算法模型,把所有的標簽都貼回到人上面,當時 TCIF 用上述方式生產(chǎn)出了 3000 多個消費者標簽。

這些標簽被阿里巴巴的其他產(chǎn)品所使用,比如阿里媽媽的達摩盤就把這些標簽提供給廣告主,讓廣告主能夠通過標簽去建立人群畫像,進行人群細分,以及建立投放用的人群包。

從 TCIF 的例子來看,數(shù)據(jù)中臺未來一定需要具備三種能力。

第一是數(shù)據(jù)模型能力。

在業(yè)務層面,業(yè)務抽象能夠解決 80% 的共性問題,開放的系統(tǒng)架構來解決 20% 的個性問題,但同時又要把平臺上的業(yè)務邏輯分開,因為不同的業(yè)務邏輯之間可能有沖突。

這在數(shù)據(jù)中臺就表現(xiàn)為數(shù)據(jù)的中心化,也就是數(shù)據(jù)的高內(nèi)聚、低耦合,需要對共性問題抽象出業(yè)務的規(guī)則,建立數(shù)據(jù)模型,一個好的內(nèi)聚模塊能夠解決一個事情,同時又要降低模塊和模塊之間的耦合度,讓模塊具有良好的可讀性和可維護性。

這里的前提是要有真正懂業(yè)務能沉淀經(jīng)驗的人,以及要在企業(yè)層面開展數(shù)據(jù)治理,讓數(shù)據(jù)能夠準確、適度共享、安全地被使用。

第二是 AI 算法模型能力。

要實現(xiàn)數(shù)據(jù)業(yè)務化,前提是做到數(shù)據(jù)的資產(chǎn)化。要能夠從數(shù)據(jù)原油里面,去提煉出可以使用的汽油。

比如說數(shù)據(jù)的標簽化,背后就有投入產(chǎn)出比的考量:通過標簽,廣告主可以非常方便快捷地去建立自己的人群包,實現(xiàn)精準營銷,同時投放的 ROI 也是可見的、透明的,廣告主可以自己去評估數(shù)據(jù)資產(chǎn)的使用情況。

第三是行業(yè)的應用能力,也就是我們通常說的數(shù)據(jù)業(yè)務化能力。

和數(shù)據(jù)中心化類似,數(shù)據(jù)業(yè)務化也需要很強的行業(yè)經(jīng)驗來指導,建立合適的業(yè)務場景,在場景里面去使用數(shù)據(jù),從而體現(xiàn)數(shù)據(jù)的價值,來大大擴展數(shù)據(jù)在行業(yè)中的應用能力。

在奇點云和某酒類客戶的合作過程中,我們最大的收獲不是幫助客戶完成了數(shù)據(jù)中臺的搭建,而是通過理解客戶的業(yè)務,把其經(jīng)驗沉淀到數(shù)據(jù)中臺,從而賦能客戶更多的端上的創(chuàng)新業(yè)務,帶來了生意的增量。

最后總結一下,未來的數(shù)據(jù)中臺最重要的不單是數(shù)據(jù)的存儲和計算能力,而是要能從「存、通、用」的角度和業(yè)務結合,幫助企業(yè)從數(shù)據(jù)中獲取價值,沉淀數(shù)據(jù)資產(chǎn),最終用數(shù)據(jù)賺錢。

作者介紹

口述者:行在(張金銀),奇點云 CEO,阿里巴巴第一個數(shù)據(jù)倉庫的創(chuàng)建者,阿里巴巴第一個消費者數(shù)據(jù)平臺 TCIF 的創(chuàng)建者,阿里云數(shù)據(jù)智能平臺數(shù)加的創(chuàng)始人,2004 年以數(shù)據(jù)技術專家身份加入阿里巴巴以來,12 年來一直投身于大數(shù)據(jù)事業(yè)。2016 年離開阿里巴巴,創(chuàng)立奇點云,旨在用「AI 驅動的數(shù)據(jù)中臺」賦能線下,讓商業(yè)更智能。

標簽: 數(shù)據(jù)中臺 數(shù)據(jù)驅動

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)千個 Amazon EBS 被暴露,大量敏感數(shù)據(jù)可能外泄

下一篇:常見的Hadoop十大應用誤解