中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

拯救數(shù)據(jù)科學的“半貝葉斯人”

2019-12-27    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關(guān)系而不是概率關(guān)系組織的,而概率微積分的語法并不足以描述這些關(guān)系......正因如此,我認為自己只是半個貝葉斯人"。

 

 

或許一場關(guān)于自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現(xiàn)代語言學之父”Noam Chomsky、身為谷歌研發(fā)總監(jiān)的Peter Norvig。他們分別是自然語言處理領(lǐng)域的舊派和新派代表。

當談到該領(lǐng)域的發(fā)展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系并轉(zhuǎn)而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發(fā)生的事情錄制成無數(shù)錄像帶,然后將這數(shù)十億字節(jié)的數(shù)據(jù)輸入最大、最快的計算機,并進行復雜的統(tǒng)計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發(fā)生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多。“如果‘成功’被定義為對大量混亂的未分析數(shù)據(jù)的合理近似,那么這樣做的結(jié)果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力于達到的那種理解水平 - 你所得到的只是對正在發(fā)生的事情的近似。”

Chomsky在許多其他場合也強調(diào)了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 并不科學。將“一些巨大的語料庫”投入到“復雜的機器”,僅僅是“未分析數(shù)據(jù)的近似處理”簡直就像撞大運,并不能使我們“真正理解”語言。

他認為,科學的首要目標是發(fā)現(xiàn)關(guān)于系統(tǒng)實際運作的“解釋性原理”,而實現(xiàn)目標的“正確方法”則是“讓理論引導數(shù)據(jù)”:通過精心設計的實驗抽離掉“不相關(guān)干擾”,以此來研究系統(tǒng)的基本性質(zhì) - 就像自伽利略以來的現(xiàn)代科學研究方法一樣。簡而言之:“只處理待分析的混亂數(shù)據(jù)不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨后以一篇長文回應了Chomsky的主張,這篇文章挑戰(zhàn)了Chomsky在科學上的‘成功’的觀念,并為使用概率模型象征人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領(lǐng)域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基于理論/邏輯規(guī)則的舊工具表現(xiàn)得更好。

他認為,Chomsky關(guān)于科學上的“成功”的標準 - 強調(diào)找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創(chuàng)造數(shù)萬億美元的收入,而Chomsky理論的產(chǎn)物幾億美元都不到。” (注:數(shù)據(jù)來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自于Leo Breiman所描述的統(tǒng)計模型中兩種文化之間的分裂。

1)數(shù)據(jù)建模文化,它假設自然是一個內(nèi)部變量隨機聯(lián)系的黑箱,建模者的任務就是確定最符合這些聯(lián)系的模型;

2)算法建模文化,它假設黑箱中的關(guān)聯(lián)太復雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內(nèi)變量真正的潛在聯(lián)系可以被理解。

Norvig認為Chomsky可能對概率模型(數(shù)據(jù)建模文化)本身并沒有什么意見,他只是針對具有“億萬參數(shù)”且難以解釋的算法模型,因為它根本無法解決“為什么”的問題。

Norvig屬于2號陣營,他們認為像語言這樣的系統(tǒng)過于復雜、隨機,很難用一小組參數(shù)來表示;抽離出復雜性就類似于制造一個實際上不存在的、“完全符合永恒領(lǐng)域的神秘設施”,因此“忽略了語言是什么以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應該停止以創(chuàng)造完美理論為目的的行為。我們應當擁抱系統(tǒng)復雜性、并接受數(shù)據(jù)就是有用的這一特點。”。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網(wǎng)頁數(shù)據(jù)的機器學習應用中,例如基于數(shù)百萬計具體特征的n-gram統(tǒng)計模型或線性分類器的這些簡單模型,比試圖發(fā)現(xiàn)普遍規(guī)律的精美模型表現(xiàn)更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統(tǒng)計學習方法分析大量數(shù)據(jù)往往會產(chǎn)生比試圖給變量之間的關(guān)系建模更好的預測效果。

而且我們也并非唯一被這一現(xiàn)象困擾的人:那些被訪談過許多的具有數(shù)學科學背景的人也認為這是違反直覺的 - 最符合事物基本結(jié)構(gòu)關(guān)系的方法難道不應該也是預測得最為準確的嗎?我們怎么能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經(jīng)濟學和其它社會科學等學術(shù)領(lǐng)域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構(gòu)建最佳預測模型的方法與構(gòu)建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權(quán)衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統(tǒng)計學習導引)中一段關(guān)于預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

 

 

其中ƒ是由X提供的關(guān)于Y的系統(tǒng)信息,當給定X時,它給出結(jié)果?(Y的預測)。只要能準確地預測Y,ƒ的確切函數(shù)形式通常是不重要的,它被視為“黑箱”。

這種模型的準確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

 

 

為了提高模型的預測準確性,模型主要目標是通過使用最合適的統(tǒng)計學習技術(shù)來使可減少的誤差最小,從而估計ƒ。

推理建模

當我們的目標是理解X和Y之間的關(guān)系,比如Y是如何作為X的函數(shù)而變化時,ƒ不能被視為“黑箱”,因為我們無法在不知道函數(shù)形式的情況下理解X對Y的影響ƒ。

幾乎總是如此,在推理建模時,使用參數(shù)化方法來估計ƒ。參數(shù)化是指通過假設參數(shù)形式的ƒ并通過假設的參數(shù)來簡化對ƒ的估計的方法。這種方法有兩個一般步驟:

假設ƒ的函數(shù)形式。最常見的假設是ƒ是關(guān)于X的線性函數(shù):

 

 

使用數(shù)據(jù)擬合模型,也即找到參數(shù)值β0、β1、...、βp,使得:

 

 

最常用的擬合模型的方法是普通最小二乘法(OLS)。

靈活性/可解釋性的權(quán)衡

你可能已經(jīng)在想:我們怎么知道ƒ是否具有線性形式?因為ƒ的真實形式是未知的,我們也不知道,如果我們選擇的模型與真實的ƒ相差太遠,那么估計就會有偏差。那為什么我們要先做出如此肯定的假設呢?這是因為模型的靈活性和可解釋性之間存在內(nèi)在的權(quán)衡。靈活性是指模型可以生成的用以適應ƒ的多種不同的可能函數(shù)形式的形狀范圍,因此模型越靈活,它產(chǎn)生的形狀就能符合得越好,預測精度就越高。但是更靈活的模型通常更復雜并且需要更多參數(shù)來擬合,并且ƒ的估計通常變得太復雜以至于任何預測因子的關(guān)聯(lián)都難以解釋。另一方面,線性模型中的參數(shù)相對簡單且可解釋,即使它在準確預測方面做得不是很好。這是ISL中的一張圖表,它說明了不同統(tǒng)計學習模型中的這種靈活性-可解釋性之間的權(quán)衡:

 

 

正如你所看到的,具有更好預測精度、同時也更靈活的機器學習模型(例如支持向量機和Boosting方法)的可解釋性非常低。對ƒ的函數(shù)形式進行較肯定的假設使模型更具解釋性,推理建模在這個過程中也放棄了對預測準確性的追求。

因果識別/反事實推理

但是,請等一等!即使用了能很好符合并且高度可解釋的模型,你仍然不能將這些統(tǒng)計數(shù)據(jù)用作證明因果關(guān)系的獨立證據(jù)。這是因為,“相關(guān)性不是因果關(guān)系”啊!這里有一個簡單的例子:假設你有一百個旗桿及其陰影的長度和太陽位置的數(shù)據(jù)。你知道陰影的長度是由桿的長度和太陽的位置決定的,但是即便你將桿的長度設置為因變量而把陰影長度作為自變量,你的模型仍然會十分符合統(tǒng)計顯著性系數(shù)。顯然,你不能說桿子的長度受陰影長度影響。這就是為什么我們不能僅通過統(tǒng)計模型進行因果推理,我們還需要背景知識和理論來證明我們的結(jié)論。因此,因果推理的數(shù)據(jù)分析和統(tǒng)計建模通常要受到理論模型的嚴格指導。

即使你確實有一個堅實的理論依據(jù)說X導致Y,確定因果關(guān)系仍然非常棘手。這是因為,評估因果效應涉及要識別在沒有發(fā)生X的“反事實世界“里會發(fā)生什么,這顯然是你觀察不到的。這還有另一個簡單的例子:設想一下你要確定維生素C對健康的影響。你有某人是否服用維生素的數(shù)據(jù)(如果他們這樣做則X = 1;否則為0),以及一些二元化的健康狀況(如果他們健康則Y = 1;否則為0),如下所示:

 

 

Y1代表服用維生素C的人的健康狀況,Y0代表那些不服用維生素C的人的健康狀況。為了確定維生素C對健康的影響,我們要估計平均治療效果:

標簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:是德科技1分錢投標移動5G項目失敗

下一篇:采用第二代AMD EPYC的PowerEdge服務器在戴爾科技峰會