中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從二戰(zhàn)轟炸機的故事,談一談大數(shù)據(jù)智能的三個層次

2019-02-22    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在統(tǒng)計學(xué)、MBA、大數(shù)據(jù)智能圈子里,“轟炸機機身中彈統(tǒng)計”是一個很有名的關(guān)于幸存者偏差(Survivorship Bias)的雞湯故事。本文將以這個故事為例,和大家探討一下大數(shù)據(jù)智能的三個層次:大數(shù)據(jù)簡單統(tǒng)計、大數(shù)據(jù)商業(yè)智能、大數(shù)據(jù)數(shù)據(jù)科學(xué)。

 

 

大數(shù)據(jù)簡單統(tǒng)計版:

話說二戰(zhàn)時盟軍決定給轟炸機做裝甲改裝。于是他們首先對戰(zhàn)斗結(jié)束飛回來的受損飛機做了彈孔著點統(tǒng)計(數(shù)據(jù)意識還是很強的),發(fā)現(xiàn)主要受損部位集中在機翼而機腹最少。所以,指揮部根據(jù)此分析得出結(jié)論:應(yīng)當(dāng)加強機翼的裝甲而減少機腹的裝甲。

評論:采集和歸總數(shù)據(jù),然后通過簡單的數(shù)據(jù)分析,給出報告和相關(guān)行動建議,這是當(dāng)下很多大數(shù)據(jù)工作者做的事情。在很多情況下,這樣的做法比一點不看數(shù)據(jù)是有進步的。 但是從下面一個例子也可以看出其危險不小。

 

 

大數(shù)據(jù)商業(yè)智能版:

(接上版)話說在這“加強機翼”彌天大錯就要釀成的關(guān)鍵時刻,一位聰明的工程師(到底是工程師還是將軍這里有不同版本,咱們就不深究了)站出來說“等等,不對,咱們統(tǒng)計的都是能返航的飛機,那些被擊落沒有返航的飛機呢?死人不會說話”。據(jù)此推論,“一架飛機某個部位彈孔多還能飛回來恰恰說明那個地方不需要加強,我們應(yīng)該加強沒有彈孔或者彈孔少的部位,因為那些部位彈孔多的都被擊落了沒有飛回來。”

評論:這個版本是大多數(shù)人聽到的完整故事。這個版本本身已經(jīng)夠轉(zhuǎn)折,很好理解又需要腦筋轉(zhuǎn)彎,所以傳播很廣。這個版本實際上可以說是一個“BI版本”。為啥說這是“BI版” 呢?因為這個工程師能夠在表面數(shù)據(jù)統(tǒng)計基礎(chǔ)上,再結(jié)合業(yè)務(wù)場景思考,提出業(yè)務(wù)場景和數(shù)據(jù)相結(jié)合的思路。這是大多數(shù)好BI的標(biāo)準(zhǔn)。同時,因為BI同學(xué)多傾向于用可獲得的數(shù)據(jù)快速輸出結(jié)論給業(yè)務(wù),他們一般不太愿意從數(shù)據(jù)源等更科學(xué)的角度來思考結(jié)論的正確性。所以,這個工程師可以說是個合格的BI。

但為啥這還不是數(shù)據(jù)科學(xué)呢?因為這里的結(jié)論只是一個基于經(jīng)驗的推論和假設(shè),如果盟軍真是就靠這個直覺假設(shè)改了最初的決定,那也很危險。

值得注意的是,日常的業(yè)務(wù)中是允許發(fā)生這樣的猜想并試錯的。我們可以不停地試錯迭代,實踐出真知。但對一些試錯成本很高或者不能試錯的關(guān)鍵戰(zhàn)略問題呢?我們就必須尋找更可靠的方法。這就引向了我的最后一個話題:數(shù)據(jù)科學(xué)的版本是啥樣的?

大數(shù)據(jù)數(shù)據(jù)科學(xué)版:

(接上版):實際上,在聰明的工程師意識到他們統(tǒng)計的數(shù)據(jù)只是返航飛機的時候,這僅僅是該重大項目的開始而不是結(jié)束。他們并不是靠這個簡單的猜想就做出了可能關(guān)系到整個戰(zhàn)爭勝負(fù)的結(jié)論。他們得出的階段性結(jié)論是:我們的數(shù)據(jù)有問題,缺乏被擊落的飛機的數(shù)據(jù)。而這些數(shù)據(jù)研發(fā)工程師和BI也想不出好辦法解決這個問題,于是他們找到了數(shù)據(jù)科學(xué)的開山祖師之一——美國哥倫比亞大學(xué)統(tǒng)計學(xué)沃德教授(Abraham Wald)。

 

 

為了解決這個數(shù)據(jù)難題,沃德教授做了大量的研究,研究方法包括對收集到的歷史數(shù)據(jù)進行分析,虛擬數(shù)據(jù)仿真建模,甚至用真的戰(zhàn)斗機掃射靶機做實驗,建立一套飛機每個部位中彈后的墜毀概率模型等。

其基本思路就是通過大量統(tǒng)計分析,推理出飛機的致命要害部位與彈孔分布密度的關(guān)系,絕不僅僅是簡單的看彈孔分布密度。比如他發(fā)現(xiàn)發(fā)動機是最要命的地方,被擊中一彈就有39%概率徹底墜毀,所以在返航的飛機上發(fā)動機處彈孔很稀疏。具體模型有興趣的同學(xué)可以讀沃德的這篇經(jīng)典論文“A Method of Estimating Plane Vulnerability Based on Damage of Survivors”。

 

 

評論:首先,這是一個最好的闡述數(shù)據(jù)科學(xué)和BI差別的例子。BI大多數(shù)時候是在現(xiàn)有數(shù)據(jù)基礎(chǔ)上比較快地給出業(yè)務(wù)需要的答案。數(shù)據(jù)科學(xué)在方法和結(jié)論的科學(xué)可驗證性上要嚴(yán)謹(jǐn)?shù)枚。它的?yōu)勢是能解決很多對業(yè)務(wù)至關(guān)重要而又不能低成本試錯的場景。它的缺點是對數(shù)據(jù)有更嚴(yán)格的要求且更耗時,要比一般的分析復(fù)雜得多,相應(yīng)地需要消耗更多的資源。

類似的幸存者偏差數(shù)據(jù)問題在我們?nèi)粘4髷?shù)據(jù)工作中無處不在。

比如一個閱讀App,它只能收集分析到現(xiàn)有活躍用戶的閱讀偏好數(shù)據(jù),而缺乏對新用戶及全網(wǎng)用戶的閱讀偏好及變化趨勢的了解;比如某品牌App的數(shù)據(jù)平臺,它大多數(shù)時候只能采集到購買了該品牌產(chǎn)品的用戶的相關(guān)數(shù)據(jù),而沒有全市場的數(shù)據(jù)和類似客戶產(chǎn)品使用的相關(guān)數(shù)據(jù)。數(shù)據(jù)問題對很多關(guān)鍵數(shù)據(jù)任務(wù),如公司戰(zhàn)略數(shù)據(jù)分析、標(biāo)簽畫像產(chǎn)出、產(chǎn)品創(chuàng)新、品類規(guī)劃等都會產(chǎn)生很大影響。據(jù)了解,目前市場上大多數(shù)的數(shù)據(jù)科學(xué)或者算法都很少系統(tǒng)地研究并解決這類關(guān)鍵數(shù)據(jù)問題!

這個短故事今天就講到這里,下面有時間我們再結(jié)合友盟+的數(shù)據(jù)科學(xué)研究,分享我們打算怎么樣在保證數(shù)據(jù)安全的前提下,幫開發(fā)者避免幸存者偏差問題。

參考文獻

l Wald, Abraham. (1943). A Method of Estimating Plane Vulnerability Based on Damage of Survivors. Statistical Research Group, Columbia University. CRC 432 — reprint from July 1980. Center for Naval Analyses.

標(biāo)簽: 安全 大數(shù)據(jù) 開發(fā)者 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據(jù)到文本生成的近期優(yōu)質(zhì)論文,我們?yōu)槟闾暨x了這六篇

下一篇:數(shù)據(jù)清洗&預(yù)處理入門完整指南