中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)的過去、現(xiàn)在和未來:解讀《大數(shù)據(jù)四十二條》

2020-01-15    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:傅一平   來源:與數(shù)據(jù)同行

它山之石可以攻玉,何寶宏博士就是一個吧。

何所思(ID:gh_9820d1a2e9ef)是一個非常有特點的公眾號,它的主人叫何寶宏,這個公眾號這樣介紹自己:一個從事互聯(lián)網(wǎng)研究 20 余年的老兵,對技術(shù)和產(chǎn)業(yè)的思考。

然后網(wǎng)上搜索了下:中國信息通信研究院云計算與大數(shù)據(jù)研究所所長。最近他還出了本書:《風(fēng)向》。

自己不認識何寶宏,偶然看到他的這篇《大數(shù)據(jù)四十二條》文章,覺得有趣有料,本來想轉(zhuǎn)載的,可惜找不到聯(lián)系方式。

由于沒有轉(zhuǎn)載權(quán)限,我只得在這篇文章的基礎(chǔ)上擴展出我的理解,直到繞過騰訊原創(chuàng)的檢測,沒想到一擴展就成為了萬字長文。

《大數(shù)據(jù)四十二條》是何博士關(guān)于大數(shù)據(jù)本質(zhì)的一些總結(jié)和思考,每一條都是簡單的一句話,共 42 句,但每一句似乎都意味無窮。

這讓我想起中國古代哲學(xué)的一個特點,就是“言有盡而意不窮“。語言的作用不在于它的固定含義,而在于它的暗示,引發(fā)人去領(lǐng)悟道。

現(xiàn)在我這個登徒子就要去破這個道了,在嘗試解釋的過程中,筆者發(fā)現(xiàn)自己對于大數(shù)據(jù)的過去,現(xiàn)在和未來竟然多了些體會,下面我們就開始吧。

第一條:每個時代的人,都會認為自己所面對的數(shù)據(jù)太大了

第二條:每個時代對大的理解都不同,古漢語中“三”就很大了,后來是“九”

這兩條其實要表現(xiàn)類似的思想,筆者就一起解釋了。

從人類誕生以來, 人類社會至少已經(jīng)經(jīng)歷了四次意義重大的信息傳播革命,每次革命的起因都是因為信息量的海量增長導(dǎo)致需要用新的技術(shù)去處理它,每一次信息傳播革命都把人類文明推向一個新的發(fā)展階段。

第一次信息傳播革命是語言傳播的誕生:提高了人類信息傳播的質(zhì)量、速度與效率。

第二次信息傳播革命是文字傳播的誕生:使得人類的信息傳播革命第一次突破時間、空間的限制, 得以廣泛流傳和長期保存。

第三次信息傳播革命是印刷傳播的誕生. 報紙、雜志、書籍等印刷品大眾媒介迅速普及. 第四次信息傳播革命是模擬式電子傳播的誕生

特別是 20 世紀以來,伴隨著信息化、互聯(lián)網(wǎng)、移動互聯(lián)、物聯(lián)網(wǎng)的發(fā)展,生成數(shù)據(jù)的基礎(chǔ)設(shè)施、采集數(shù)據(jù)的基礎(chǔ)設(shè)施,連接數(shù)據(jù)的基礎(chǔ)設(shè)施大幅增加,產(chǎn)生了超過以往歷史總和的海量的數(shù)據(jù),為了更好的從數(shù)據(jù)中獲得知識,這個時代發(fā)明了各種大數(shù)據(jù)技術(shù) + 人工智能算法來處理這么龐大的數(shù)據(jù)。

從筆者個人的經(jīng)歷也可以很明顯看出來,讀中學(xué)的時候覺得幾 K 就很大,讀大學(xué)的時候覺得幾 M 的軟盤很大,大學(xué)畢業(yè)了覺得上 G 的光盤好大,工作幾年覺得幾百 G 的數(shù)據(jù)倉庫好大,工作 10 年幾十 T 的數(shù)據(jù)覺得傳統(tǒng)的數(shù)據(jù)倉庫已經(jīng)撐不住了,現(xiàn)在面對的是幾十上百 P 的數(shù)據(jù),你突然發(fā)現(xiàn)還是太大了。

第三條:所謂大數(shù)據(jù),就是一個如何將數(shù)據(jù)變小的過程

大數(shù)據(jù)的一個特點就是價值密度低,需要從海量的大數(shù)據(jù)中獲取你需要的東西,就是一個從數(shù)據(jù)到信息到知識再到智慧的讓數(shù)據(jù)不斷變小的過程,比如數(shù)據(jù)倉庫的分層設(shè)計就是這樣,數(shù)據(jù)越偏向應(yīng)用,最后留存的數(shù)據(jù)就越小,基于越小的數(shù)據(jù)才能歸因業(yè)務(wù)做決策。

我們從海量的 1T 的數(shù)據(jù)中挖掘到的知識最后往往只要用 1bit 就可以表示,即 1 或者 0。

第四條:2019 年,大數(shù)據(jù)的“大”已不再是核心問題,核心是如何更快,比如流計算

大數(shù)據(jù)的四個特點中,處理速度快正在成為核心,為什么?

一個當(dāng)然是人工智能時代深度學(xué)習(xí)等算法需要更強的算力,傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)很難滿足,另一個是數(shù)據(jù)在時效性上的價值越來越大,筆者在很多文章中都提到了實時數(shù)據(jù)中臺的建設(shè),流處理已經(jīng)不僅僅是個獨立應(yīng)用的問題,而是海量的實時應(yīng)用如何快速開發(fā)部署的問題,當(dāng)然這個快還包括了分析查詢的快,即時計算的快等等,這些都需要諸如麒麟、易鯨節(jié)等引擎的支持等等。

信通院在 2019 年的《大數(shù)據(jù)白皮書》中提到大數(shù)據(jù)技術(shù)的一個關(guān)鍵詞是融合,融合的目的就是適應(yīng)各種場景的快,包括:

(1)算力融合:多樣性算力提升整體效率,如 GPU、FPGA、ASIC 等等

(2)流批融合:平衡計算性價比的最優(yōu)解,如 Flink

(3)TA 融合:混合事務(wù) / 分析支撐即時決策,如 OLAP 與 OLTP 的整合

(4)模塊融合:一站式數(shù)據(jù)能力復(fù)用平臺,阿里叫作大數(shù)據(jù)產(chǎn)品全鏈路化,比如浙江移動的 DM 平臺,貫通了從數(shù)據(jù)采集到應(yīng)用的全過程

(5)云數(shù)融合:云化趨勢降低技術(shù)使用門檻,大數(shù)據(jù)基礎(chǔ)設(shè)施云上遷移勢不可擋,如我們的 PaaS 都是云上集成,業(yè)界比如阿里的數(shù)加等等

(6)數(shù)智融合:數(shù)據(jù)與智能多方位深度整合,如我們的敏捷挖掘平臺,不再需要在數(shù)據(jù)和 AI 兩種平臺之間搬數(shù)據(jù)

第五條:數(shù)據(jù)大了價值不一定就高,價值更可能被大噪音淹沒掉

其實反過來說也一樣,而且更具韻味,數(shù)據(jù)量越大,數(shù)據(jù)的價值密度不一定就越低,兩者之間并沒有必然的關(guān)系,這個結(jié)論有以下的一些解釋:

(1)從采集的角度來看,傳統(tǒng)數(shù)據(jù)基本都是結(jié)構(gòu)化數(shù)據(jù),每個字段都是有用的,價值密度非常高。大數(shù)據(jù)時代,由于存儲的價格越來越低,越來越多的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都可以隨便存儲,這些數(shù)據(jù)在采集的時候很多時候都沒想清楚有什么用,相對來說就成了干擾價值數(shù)據(jù)的噪聲。比如網(wǎng)站訪問日志,里面大量內(nèi)容都是沒價值的,雖然數(shù)據(jù)量比以前大了 N 倍

(2)從挖掘的角度來看,從更多的數(shù)據(jù)中挖掘出規(guī)律,顯然面臨著更大噪聲的挑戰(zhàn),因為數(shù)據(jù)越多可能形成的模式就越多,意味著訓(xùn)練的時候?qū)ふ移ヅ淠P偷拇鷥r就越高,因為噪聲增加了。

第六條:主張讓大數(shù)據(jù)放棄追求因果關(guān)系,就是要讓我們回退到巫術(shù)時代

這句話我是認同的,《大數(shù)據(jù)時代》這本書提到要追求相關(guān)關(guān)系,其實是大數(shù)據(jù)以用為上的特定階段的功利性表現(xiàn)。

從短期來講,由于技術(shù)上的便利性使得追求相關(guān)關(guān)系可以獲得當(dāng)前較高的經(jīng)濟性價比,但從長期來講,理解因果關(guān)系始終是提升效率的最高辦法,因果關(guān)系是本質(zhì),相關(guān)關(guān)系是表象,理解了因果你就可以有更正確的做事邏輯,可以進行大量的遷移學(xué)習(xí),而相關(guān)關(guān)系只能在一種特定的場景中使用。

萬有引力定律也是模型,首先是有相關(guān)關(guān)系,然后還挖掘出了更深層次的因果關(guān)系,否則牛頓也許只能將這個相關(guān)關(guān)系應(yīng)用在蘋果落地的場景,而根本不可能衍生到萬事萬物。

只能理解相關(guān)關(guān)系一定程度是業(yè)務(wù)能力不夠的表現(xiàn),比如業(yè)務(wù)的解釋,理解了啤酒與尿布的業(yè)務(wù)本質(zhì)可以讓我們移情換位,起碼你能推測出英國男人也許還需要順帶購買些奶粉。

商業(yè)領(lǐng)域,科技領(lǐng)域,科學(xué)領(lǐng)域與哲學(xué)領(lǐng)域?qū)τ诖髷?shù)據(jù)的要求是不一樣的,比如追求因果是科學(xué)領(lǐng)域始終的夢想和要求,從來不會改變。

第七條:主張大數(shù)據(jù)不再采樣而是全集,只是技術(shù)外行的 YY 而已

一方面受限于我們的能力,我們采集的任何數(shù)據(jù)都是有限的,而且數(shù)據(jù)能否采集全到最后其實是個哲學(xué)問題,比如首先要解決這個世界到底是連續(xù)的還是離散的問題,其次要解決我們能否具備完備的采集條件問題,最后還要解決采集設(shè)備的能力問題,因此當(dāng)前其實所有的采集都是采樣,只是程度不同而已,我們只能說利用新的傳感器采集的數(shù)據(jù)維度多了,粒度細了,而不能說是全集。

第二方面是大數(shù)據(jù)機器學(xué)習(xí)的基礎(chǔ)是統(tǒng)計學(xué)、概率論,你還是在基于采樣的基礎(chǔ)理論來進行實際的數(shù)據(jù)分析工作。

第八條:大數(shù)據(jù)主張用數(shù)據(jù)說話,但數(shù)據(jù)也會說謊,而人類更喜歡聽故事

面對同樣的數(shù)據(jù)分析,可以給出不同的結(jié)論,關(guān)鍵點除了數(shù)據(jù),還在于做數(shù)據(jù)分析的這個人和使用數(shù)據(jù)的那個人,學(xué)霸和學(xué)渣的區(qū)別大多時候可不在于看得東西不一樣,而主要在于思考的能力,在社會上,當(dāng)然還包括道德水平。

關(guān)于人類更喜歡聽故事是因為基因的設(shè)定,理性的一本正經(jīng)的闡述和聲情并茂的具有畫面感的闡述顯然后者更容易吸引人,即使邏輯不堪一擊。因此我們要努力跟基因的設(shè)定進行多抗。

有大量的書在闡述這個道理,比如《統(tǒng)計數(shù)據(jù)會說謊》,可惜我們還是會不自覺的陷入這種困境。筆者就不太信任這類媒體,時常用不標注數(shù)據(jù)來源和統(tǒng)計方法的方式來給出一個嘩眾取寵的結(jié)論。

第九條:數(shù)據(jù)的內(nèi)涵在不斷豐富中:數(shù)據(jù)是信息,數(shù)據(jù)是資產(chǎn),數(shù)據(jù)是隱私,數(shù)據(jù)是可回收垃圾 (如大數(shù)據(jù)),數(shù)據(jù)是有害垃圾 (如 DDOS 攻擊、垃圾郵件) 等

數(shù)據(jù)是信息是因為數(shù)據(jù)管理體系會為裸奔的數(shù)據(jù)賦予業(yè)務(wù)含義,數(shù)據(jù)是資產(chǎn)是因為當(dāng)前數(shù)據(jù)已經(jīng)具備了資產(chǎn)的三個特征或接近這三個特征:企業(yè)擁有和控制;能夠用貨幣來衡量;能為企業(yè)帶來經(jīng)濟利益。

當(dāng)然企業(yè)擁有和控制還面臨數(shù)據(jù)確權(quán)的問題,用貨幣對這些數(shù)據(jù)進行衡量也是個復(fù)雜的問題,但基本上,數(shù)據(jù)列入企業(yè)的資產(chǎn)負債表可能只是時間問題。

數(shù)據(jù)是可回收的垃圾是因為用過的數(shù)據(jù)還是能迅速回來繼續(xù)創(chuàng)造價值,其回收的速度相對于一般的實體真是快太多了,數(shù)據(jù)是有害垃圾是因為人的原因,跟數(shù)據(jù)本身沒有關(guān)系。

第十條:數(shù)據(jù)的內(nèi)涵日益豐富,將導(dǎo)致管理技術(shù)必然走向碎片化、層級化或分布式

這里僅僅從技術(shù)的角度去理解內(nèi)涵。

數(shù)據(jù)技術(shù)的碎片化是因為數(shù)據(jù)的使用場景太豐富了,為了滿足特定場景需要采用不同的數(shù)據(jù)技術(shù)引擎,無論是離線的還是流處理的,是在線計算還是在線查詢的等等。

數(shù)據(jù)技術(shù)的層級化是為了滿足不同層次的業(yè)務(wù)需要,比如數(shù)據(jù)倉庫的基礎(chǔ)層標準化是為了書同文車同軌,保留最大的細節(jié)和支撐的可能性,融合模型層是為了靈活快速的滿足前端應(yīng)用的需要,應(yīng)用模型層是為了直接滿足應(yīng)用的需要。

數(shù)據(jù)技術(shù)棧的日益復(fù)雜和增多使得層級化的管理方式越加必要,比如數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)服務(wù)、數(shù)據(jù)查詢、數(shù)據(jù)應(yīng)用等等,合理層級劃分的目的是為了管理簡單,提升最終效率,比如是否要拆分出服務(wù),數(shù)據(jù)存儲和數(shù)據(jù)處理是否要合并等等。

現(xiàn)在如火如何的數(shù)據(jù)中臺就是希望用層級化的切分方式最高效率的為前端賦能,現(xiàn)在到處可以聽到“前店后廠”,“大中臺,小前臺”,“前臺,中臺,后臺”的概念,都是層級化思維的體現(xiàn)。

數(shù)據(jù)技術(shù)的分布式是主流了,現(xiàn)在沒有分布式能力的技術(shù)引擎越來越難看到了。

第十一條:數(shù)據(jù)管理技術(shù)正在:1)底層數(shù)據(jù)模型,2)業(yè)務(wù)方向,3)架構(gòu)方式和 4)處理時效性,從四個維度四散開來

底層數(shù)據(jù)模型強調(diào)數(shù)據(jù)標準,構(gòu)建一套完整的數(shù)據(jù)標準體系是開展數(shù)據(jù)標準管理工作的良好基礎(chǔ),有利于打通數(shù)據(jù)底層的互通性,提升數(shù)據(jù)的可用性,近期筆者參與的《數(shù)據(jù)標準管理實踐白皮書 》就力圖做些指導(dǎo)。

業(yè)務(wù)方向很容易理解,現(xiàn)在大數(shù)據(jù)早從 Garner 曲線消失了,說明其已經(jīng)從一個時髦的技術(shù)概念演進到了應(yīng)用階段,你公司建設(shè)完大數(shù)據(jù)平臺的第一天,就要考慮大數(shù)據(jù)創(chuàng)造價值的問題,這可比建一個大數(shù)據(jù)平臺難多了。

架構(gòu)和處理時效性前面已經(jīng)說了,這里不再累述。

第十二條:分布式的浪潮最早發(fā)生在分析型和非關(guān)系型領(lǐng)域 (即傳統(tǒng)大數(shù)據(jù)),現(xiàn)在殺了個回馬槍,回到事務(wù)型和關(guān)系型了

傳統(tǒng)的業(yè)務(wù)應(yīng)用在做技術(shù)選型時,會根據(jù)使用場景的不同選擇對應(yīng)的數(shù)據(jù)庫技術(shù),當(dāng)應(yīng)用需要對高并發(fā)的用戶操作做快速響應(yīng)時,一般會選擇面向事務(wù)的 OLTP 數(shù)據(jù)庫;當(dāng)應(yīng)用需要對大量數(shù)據(jù)進行多維分析時,一般會選擇面向分析的 OLAP 數(shù)據(jù)庫。

隨著數(shù)據(jù)越來越大,傳統(tǒng)的數(shù)據(jù)倉庫已經(jīng)難以有效應(yīng)對數(shù)據(jù)處理和分析的挑戰(zhàn),以 hadoop(NoSQL)為代表的分布式計算框架應(yīng)運而生,它們能有效解決海量的離線分析的需求,這就是所謂的傳統(tǒng)大數(shù)據(jù)的分布式浪潮。

但在數(shù)據(jù)驅(qū)動精細化運營的今天,海量實時的數(shù)據(jù)分析需求已經(jīng)提升日程,無論是實時營銷或是實時風(fēng)控,都需要 OLTP 系統(tǒng)具備對于海量數(shù)據(jù)的實時分析能力,即事務(wù)和分析一體化,離線的分布式大數(shù)據(jù)框架在時效性上已經(jīng)難以達到生產(chǎn)的要求。

混合事務(wù) / 分析處理(HTAP)是 Gartner 提出的一個架構(gòu),它的設(shè)計理念是為了打破事務(wù)和分析之間的那堵“墻”,實現(xiàn)在單一的數(shù)據(jù)源上不加區(qū)分的處理事務(wù)和分析任務(wù)。

這種融合的架構(gòu)具有明顯的優(yōu)勢,可以避免頻繁的數(shù)據(jù)搬運操作給系統(tǒng)帶來的額外負擔(dān),減少數(shù)據(jù)重復(fù)存儲帶來的成本,從而及時高效地對最新業(yè)務(wù)操作產(chǎn)生的數(shù)據(jù)進行分析,比如行列數(shù)據(jù)庫的優(yōu)化等等。

不知道我的解釋是否切題?

第十三條:數(shù)據(jù)分析技術(shù)的幾個發(fā)展趨勢:向上與 AI 融合,向下與云和異構(gòu)計算結(jié)合,中間正流批結(jié)合、分析事務(wù)融合和一體化等

從分析方法的角度看,大致有三個層次:統(tǒng)計分析(對比 / 分組 / 趨勢 / 結(jié)構(gòu))、數(shù)據(jù)分析(相關(guān) / 方差 / 驗證 / 回歸 / 時序)、數(shù)據(jù)挖掘(分類 / 聚類 / 關(guān)聯(lián) / 異常),可以預(yù)見,未來的數(shù)據(jù)分析對于算法的依賴會越來越高,在數(shù)據(jù)挖掘中大量的引入 AI 是顯然的。

從處理能力的角度看,云化趨勢降低數(shù)據(jù)使用門檻、多場景要求多樣的分析引擎、OLAP 與 OLTP 緊密融合滿足在生產(chǎn)流程中實時的業(yè)務(wù)分析要求也是大勢所趨,這個在前面也已經(jīng)提到過。

第十四條:大數(shù)據(jù)是因為數(shù)據(jù)大,區(qū)塊鏈是因為數(shù)據(jù)貴

“大”是大數(shù)據(jù)的一個明顯特征,當(dāng)然大也是相對的。區(qū)塊鏈為了解決數(shù)據(jù)可信分布式賬本問題,本質(zhì)上就是個緩慢、昂貴的數(shù)據(jù)庫,你去看看區(qū)塊鏈處理數(shù)據(jù)的成本就能理解為什么區(qū)塊鏈上的數(shù)據(jù)這么貴:

(1)開發(fā)更嚴格、更緩慢:創(chuàng)建一個可證明一致性的系統(tǒng)并非易事,所有這類系統(tǒng)一開始設(shè)計時就確保一致性。區(qū)塊鏈中沒有“快速行動,打破陳規(guī)”(move fast and break things)一說。如果你打破了陳規(guī),就喪失了一致性,區(qū)塊鏈就會損壞,毫無價值。你可能會想,為什么就不能修正數(shù)據(jù)庫或重新開始、繼續(xù)前進?這在集中式系統(tǒng)中很容易實現(xiàn),但在去中心化系統(tǒng)中很難實現(xiàn)。你需要共識,即系統(tǒng)中所有參與者達成一致,那樣才能更改數(shù)據(jù)庫。

(2)獎勵結(jié)構(gòu)很難設(shè)計:增設(shè)正確的激勵結(jié)構(gòu),并確保系統(tǒng)中的所有參與者無法濫用或破壞數(shù)據(jù)庫,這同樣是需要考慮的一個重大因素,為了一次記幾個 BIT 數(shù)據(jù)的賬,你去看看我們?yōu)榱送诘V耗用了多少計算資源就知道了。

(3)維護成本非常高:傳統(tǒng)的集中式數(shù)據(jù)庫只需要寫入一次,區(qū)塊鏈需要寫入數(shù)千次。傳統(tǒng)的集中式數(shù)據(jù)庫只需要核查一次數(shù)據(jù),區(qū)塊鏈需要核查數(shù)千次數(shù)據(jù)。傳統(tǒng)的集中式數(shù)據(jù)庫只需要傳輸一次數(shù)據(jù)以便存儲,區(qū)塊鏈需要傳輸數(shù)千次數(shù)據(jù)。

(4)擴展起來確實很難:擴展起來其難度比傳統(tǒng)的集中式系統(tǒng)至少高出幾個數(shù)量級。原因很明顯。同樣的數(shù)據(jù)要放在成百上千個地方,而不是放在一個地方。傳輸、驗證和存儲的開銷很大,因為數(shù)據(jù)庫的每個副本都要承擔(dān)這筆開銷,而不是在傳統(tǒng)的集中式數(shù)據(jù)庫中只要支付一次那些成本。

比特幣這個應(yīng)用能流行是因為不需要太多升級改變,傳輸?shù)臄?shù)據(jù)又很少,區(qū)塊鏈中如果你要讓海量的數(shù)據(jù)上鏈,基本上屬于天方夜譚。

第十五條:數(shù)據(jù)可視化是因為機器看懂了但人看不懂,AI 是因為人看懂了機器看不懂

機器對數(shù)據(jù)是很敏感的,而人對數(shù)字天生不敏感,需要用畫面感來刺激大腦關(guān)注,因此何博說了這是做數(shù)據(jù)可視化的原因。

而人工智能反過來,比如人對于貓能快速的識別而機器就不行,它需要訓(xùn)練。當(dāng)然這里就存在不公平性,其實人出生的時候也不認識貓,只是訓(xùn)練后了才認識的,而且人出生的時候基因天然就帶了粗糙的認知框架,比如嬰兒看到蛇天生就會還害怕,這顯然不是后天訓(xùn)練出來的。

但考慮到認知,意識等能力到現(xiàn)在為止人工智能還搞不定,因此這句話還是沒錯。

第十六條:開源已經(jīng)壟斷了大數(shù)據(jù)生態(tài)

我們原來沒多少原創(chuàng)是公認的事實,其實也蠻好,師夷長技以制夷嘛,當(dāng)然這句話放到現(xiàn)在的確有點絕對化,換個詞:開源和閉源并駕齊驅(qū)。

第十七條:云計算的優(yōu)點主要被城里的數(shù)據(jù)享受了,環(huán)境破壞的代價卻留給了村里的數(shù)據(jù),于是就有了邊緣計算

云計算對于帶寬,時延有非常高的要求,距離云比較近的數(shù)據(jù)可以享受著云計算帶來的各種便利,但處在遠方的數(shù)據(jù)由于昂貴的帶寬和時延導(dǎo)致無法有效享受這個紅利,因此它們考慮就近利用一些本地的設(shè)備來做些數(shù)據(jù)的加工(顯然這對本地的設(shè)備要做大量的改造),然后將加工后的極小的數(shù)據(jù)傳送到云端去做處理,這樣帶寬和時延就都能滿足,所謂邊緣計算。

第十八條:大數(shù)據(jù)被夾在兩座大山中,一邊是隱私要保護,一邊是資產(chǎn)要流通

第十九條:一年來,GDPR 帶來了全球隱私保護立法的熱潮

第二十條:你不能在擁有 100% 安全的情況下,同時擁有 100% 的隱私和 100% 便利性

這三句話都很好理解,隱私和變現(xiàn)是雙刃劍,但誰能走好這根鋼絲?立法的平衡點在哪里?

第二十一條:現(xiàn)在,每個人的數(shù)字化身都是數(shù)字奴隸,沒有歸宿的靈魂在數(shù)字世界里飄蕩

第二十二條:現(xiàn)在電話號碼是隱私,而 30 年前,會公開刊登在郵局的黃頁上

第二十三條:你沒有隱私, 忘記這事吧

第二十四條:1993 年,”在互聯(lián)網(wǎng)上,沒有人知道你是一條狗”。而在大數(shù)據(jù)時代,沒有人不知道你是一條狗

第二十五條:現(xiàn)在,人與人見面打招呼“你還記得我啊”,是一種幸福。將來,打招呼時說“我還記得你啊”,是一種威脅

這五句話也在講隱私,只是從多個角度去看隱私的變遷,考慮到你的私人數(shù)據(jù)都是記錄在別人的電腦里,你竟然在法律上還無法確認這個權(quán)利,只能任由你的數(shù)字孿生被別人開采蹂躪,而且還可以通過這個數(shù)字孿生對你這個本體產(chǎn)生影響,似乎有點匪夷所思。

而過去由于號碼清單的商業(yè)價值不大,比如量很小,打電話又很昂貴,獲得的收益肯定還沒電話費多,因此即使是隱私也沒人會用,都是利益驅(qū)動造的孽。

第二十六條:數(shù)據(jù)資產(chǎn)化,資產(chǎn)數(shù)據(jù)化,數(shù)據(jù)托管化 (云)

數(shù)據(jù)幫企業(yè)賺取利潤的過程就是數(shù)據(jù)逐步資產(chǎn)化過程,資產(chǎn)數(shù)據(jù)化大概就是指數(shù)字化貨幣吧,比如比特幣,資產(chǎn)你不需要實體,只要擁有一個靠得住的大家都認可的一個數(shù)據(jù)就可以了,數(shù)據(jù)托管化就是你自己的數(shù)據(jù)以后不用存在自己電腦上,也不需要買,統(tǒng)統(tǒng)上云讓別人幫你保管,啥服務(wù)都有,而且比你自己買的成本還低。

第二十七條:2019 年,業(yè)界從關(guān)注數(shù)據(jù)技術(shù),轉(zhuǎn)向了關(guān)注數(shù)據(jù)資產(chǎn)

大數(shù)據(jù)技術(shù)早就從 Garner 消失了,現(xiàn)在大家都希望找到大數(shù)據(jù)應(yīng)用的場景,直接創(chuàng)造經(jīng)濟效益,加速數(shù)據(jù)資產(chǎn)化的過程,現(xiàn)在說得最多的就是數(shù)字化轉(zhuǎn)型和產(chǎn)業(yè)互聯(lián)網(wǎng)。

第二十八條:以前數(shù)據(jù)更多的是信息,現(xiàn)在數(shù)據(jù)更多的是資產(chǎn)

信息是數(shù)據(jù)經(jīng)過加工處理后得到的另一種形式的數(shù)據(jù),這種數(shù)據(jù)在某種程度上影響接收者的行為,具有客觀性、主觀性和有用性,信息是數(shù)據(jù)的含義,數(shù)據(jù)是信息的載體,現(xiàn)在數(shù)據(jù)轉(zhuǎn)化為信息已經(jīng)不夠了,懂含義可能沒啥用,大家能希望將數(shù)據(jù)轉(zhuǎn)化成知識或智慧從而產(chǎn)生經(jīng)濟價值。

第二十九條:傳統(tǒng)的三大數(shù)據(jù)管理框架,都假設(shè)數(shù)據(jù)是信息,而不是資產(chǎn)

三大管理框架是 dama、cmmi-dmm、dcmm,不知道對不對?

第三十條:就像河伯還沒遇見大海時,任何企業(yè)所擁有的大數(shù)據(jù)其實都是小數(shù)據(jù)

企業(yè)必然是屬于某個行業(yè),而這個行業(yè)的經(jīng)營業(yè)務(wù)范圍決定了其擁有的數(shù)據(jù)邊界,阿里帝國無論如何膨脹,最多把數(shù)據(jù)粒度做的更細,而無法做到無限寬。

第三十一條:數(shù)據(jù)流通,還處于男耕女織的時代

第三十四條:亟需數(shù)據(jù)流通的經(jīng)濟理論突破,這個問題是諾獎層級的,當(dāng)然也可能是圖靈獎的

在數(shù)據(jù)的歸屬問題未解決前,在數(shù)據(jù)的標準化未建立之前,在數(shù)據(jù)的價值未有效衡量之前,在數(shù)據(jù)的壁壘未有效打破之前,在數(shù)據(jù)的道德規(guī)范未建立之前,圍繞這些問題相關(guān)的法律法規(guī)未制定之前,數(shù)據(jù)流動只能采用小作坊的探索方式,風(fēng)險也是很高的,誰能解決這個問題當(dāng)然是牛逼的很。

第三十二條:比特是計量數(shù)據(jù)規(guī)模的基本單位,不應(yīng)作為計量數(shù)據(jù)流通價值的基本單位

筆者寫過一篇文章《數(shù)據(jù)的價值到底如何評估》來衡量數(shù)據(jù)價值,即用供需來判斷這個數(shù)據(jù)的價值,當(dāng)然還有很多方法,包括周期、頻度、成本等等,但數(shù)據(jù)的可復(fù)制性決定了不可能按量計費。

第三十三條:經(jīng)濟學(xué)是建立在工業(yè)經(jīng)濟的假設(shè)上的,而現(xiàn)在已經(jīng)是數(shù)字經(jīng)濟了

生產(chǎn)要素是人們從事商品和勞務(wù)生產(chǎn)所必備的基本資源,是一個歷史范疇。英國著名經(jīng)濟學(xué)家威廉·配第曾指出:“土地為財富之母,而勞動則為財富之父和能動的要素。”這恰如其分的闡明了農(nóng)業(yè)時代的生產(chǎn)要素——土地和勞動。

18 世紀 60 年代,以“機械化”為基本特征的第一次工業(yè)革命爆發(fā),人類社會進入工業(yè)時代,機器設(shè)備這一物質(zhì)資本成為決定經(jīng)濟社會發(fā)展的第一生產(chǎn)要素。

19 世紀下半葉,以“電氣化”為基本特征的第二次工業(yè)革命爆發(fā)。隨著社會化大生產(chǎn)的發(fā)展,資本的作用進一步強化。同時,資本所有權(quán)與經(jīng)營權(quán)日益分離,企業(yè)家從勞動大軍中脫穎而出,成為一個新的群體。企業(yè)家才能開始成為獨立的生產(chǎn)要素。

上世紀 80 年代開始,信息通信技術(shù)蓬勃發(fā)展,數(shù)字革命開始興起。特別是當(dāng)前以云計算、移動物聯(lián)網(wǎng)、人工智能為代表的新一輪科技革命席卷全球,信息技術(shù)與經(jīng)濟社會以前所未有的廣度和深度交匯融合,人類社會正在被網(wǎng)絡(luò)化連接、數(shù)據(jù)化描繪、融合化發(fā)展。

知識和信息的充分挖掘和有效利用,推動了諸多領(lǐng)域重大而深刻的變革,極大改變了人們的生產(chǎn)、生活和消費模式,對經(jīng)濟發(fā)展、社會生活和國家治理產(chǎn)生著越來越重要的作用。數(shù)字化的知識和信息作為關(guān)鍵生產(chǎn)要素,推動人類社會進入全新的數(shù)字經(jīng)濟時代。下表顯示了生產(chǎn)要素的變遷規(guī)程:

 

 

第三十五條:信息技術(shù)革命前人類是信息的餓漢,就像工業(yè)革命前人類是食品的餓漢

這個很好理解。

第三十六條:擁有知識的不一定是知識分子,也可能只是個知識的吃貨

引用何博的自己以前文章的解釋:

其實就是在講信息革命前由于傳播困難,很多知識分子利用信息不對稱占盡優(yōu)勢,但信息革命后,吃再多知識的胖子,也沒有互聯(lián)網(wǎng)知道的多,因為知識富足后人類需要的是智慧,大腦的 CPU 快燒掉了,神經(jīng)網(wǎng)絡(luò)快堵住了,內(nèi)存快失效了,消化不了這么多知識了,出現(xiàn)了信息焦慮,連接恐懼。

遍地都是知識的吃貨,知識的胖子,卻越來越缺乏獨立思考和智慧。為給知識胖子減肥,減少垃圾知識的攝入,需要提高知識的消化能力,是當(dāng)務(wù)之急。

第三十七條:數(shù)據(jù)是 21 世紀的石油,但別忘了 20 世紀前石油不是戰(zhàn)略資源

第三十八條:石油應(yīng)用也曾經(jīng)歷過至暗時期:當(dāng)洛克菲勒讓石油 (煤油) 主要用于照明時,愛迪生發(fā)明了電燈。石油的主要用途轉(zhuǎn)向動力,是因為汽車的發(fā)明和亨利福特將其平民化

這兩句話隱含的含義是數(shù)據(jù)如果沒有應(yīng)用的極大普及,就沒有戰(zhàn)略價值,正如動力應(yīng)用讓石油成為了戰(zhàn)略資源一樣,但現(xiàn)在廣告和金融已經(jīng)讓數(shù)據(jù)先飛起來了。

第三十九條:記憶是例外,忘記是常態(tài),于是我們發(fā)明了文字、書籍和大數(shù)據(jù)來當(dāng)人腦的外設(shè)。人類社會的諸多規(guī)則和習(xí)慣,是建立在人人都有健忘癥的假設(shè)上的,但這個假設(shè)正在被大數(shù)據(jù)連根拔掉

有了數(shù)字孿生,你所有的信息都被自動記錄,因此未來靠記憶獲取的任何優(yōu)勢都將灰飛煙滅,比如讓孩子練習(xí)心算純粹是浪費時間,以前的這些規(guī)則和習(xí)慣也許逐步會成為一種藝術(shù)展示,陶冶情操而已,現(xiàn)在你提筆忘字有很大問題嗎?

第四十條:算法是數(shù)字世界的運行規(guī)則

算法是處理信息的本質(zhì),因為程序本質(zhì)上是一個算法來告訴計算機確切的步驟來執(zhí)行一個指定的任務(wù),是一系列解決問題的清晰指令。

算法代表著用系統(tǒng)的方法描述解決問題的策略機制。在數(shù)字世界中,算法就是權(quán)力,是虛擬世界中的法律和制度。

事實上,整個世界的運行規(guī)則都是由算法決定的,不同的學(xué)者從不同的角度也對算法進行了詮釋。

《未來簡史》中,提到了生物是算法,并從生物的生存和繁衍兩個角度進行論證。

《原則》中,作者認為自己能取得成功的原因并不是自己知道了多少,而是自己在無知的情況下,知道如何做。作者在生活和工作中對遇到的問題進行不斷地總結(jié)反思,從而形成做事情的一系列步驟,而這些原則推動了作者取得了今天的成功。

人生腳本中,提出人的命運也是有腳本的,形成于童年時期,他有開始、展開、高潮、結(jié)束和尾聲。我們后期的人生中,會根據(jù)人生腳本不斷進行重復(fù)。

第四十一條:算法沒有偏見,只有人才會有

加納裔科學(xué)家 Joy Buolamwini 一次偶然發(fā)現(xiàn),人臉識別軟件竟無法識別她的存在,除非帶上一張白色面具。有感于此,Joy 發(fā)起了 Gender Shades 研究,發(fā)現(xiàn) IBM、微軟和曠視 Face++ 三家的人臉識別產(chǎn)品,均存在不同程度的女性和深色人種“歧視”(即女性和深色人種的識別正確率均顯著低于男性和淺色人種),最大差距可達 34.3%。

今日頭條創(chuàng)始人張一鳴所信奉那句“算法沒有價值觀“,但今日頭條很多算法的結(jié)果卻引來了爭議,筆者的文章《數(shù)據(jù)分析師的算法推薦是否會陷入“真實的謊言”?》、《談?wù)劥髷?shù)據(jù)時代的別被算法困在“信息繭房”》也討論過這個問題。

那么,算大到底有沒有偏見?

我的理解是這樣:雖然算法并不會生而歧視,工程師也很少刻意將偏見教給算法,但算法的制作過程不可避免摻雜了偏見,比如數(shù)據(jù)集的構(gòu)建缺乏代表性,數(shù)據(jù)特征的選擇有偏頗、人工打標帶入的主觀性等等,在從人到機的遷移中,偏見習(xí)得了某種“隱匿性”與“合法性”,并被不斷實踐和放大。

因此,機器從未獨立創(chuàng)造偏見,但只要有人的參與,偏見就不可避免,從結(jié)果來看就是這樣。

第四十二條:電磁介質(zhì)的普遍壽命是 5-30 年,1000 年后“它們”如何考古呢?

這個我倒不怎么擔(dān)心,定期備份更新唄,比如我 5 年換一次機器,硬盤也順便搗鼓一次,新的硬盤裝新老數(shù)據(jù),只要你的新硬盤容量足夠大。

恭喜你看到這里,我通過解讀,你通過閱讀,我們都經(jīng)歷了一次大數(shù)據(jù)的洗禮,希望你能給出自己更深刻的見解。

本文轉(zhuǎn)載自公眾號與數(shù)據(jù)同行(ID:ysjtx_fyp)。

原文鏈接:https://mp.weixin.qq.com/s/QUOHU5yAvwIIf0KlQCKkdg

標簽: 大數(shù)據(jù) 大數(shù)據(jù)技術(shù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據(jù)湖和SQL并不矛盾

下一篇:2020年不可不知的十大大數(shù)據(jù)技術(shù)