中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

拯救數(shù)據(jù)科學(xué)的“半貝葉斯人”

2020-12-04    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

一位科學(xué)家在他的論文中寫道:"人類知識(shí)的大部分是圍繞因果關(guān)系而不是概率關(guān)系組織的,而概率微積分的語法并不足以描述這些關(guān)系......正因如此,我認(rèn)為自己只是半個(gè)貝葉斯人"。

 

 

或許一場(chǎng)關(guān)于自然語言處理的精彩辯論可以告訴我們何謂“半個(gè)貝葉斯人”,讓我們把時(shí)光撥回到幾年前。

一場(chǎng)精彩的辯論

辯論的雙方分別是:號(hào)稱“現(xiàn)代語言學(xué)之父”Noam Chomsky、身為谷歌研發(fā)總監(jiān)的Peter Norvig。他們分別是自然語言處理領(lǐng)域的舊派和新派代表。

當(dāng)談到該領(lǐng)域的發(fā)展方向時(shí),Chomsky說到:

“想象一下,有人說他想要消滅物理系并轉(zhuǎn)而使用‘正確’的方式。所謂‘正確’的方式是將真實(shí)世界發(fā)生的事情錄制成無數(shù)錄像帶,然后將這數(shù)十億字節(jié)的數(shù)據(jù)輸入最大、最快的計(jì)算機(jī),并進(jìn)行復(fù)雜的統(tǒng)計(jì)分析 - 你知道的,對(duì)所有東西都用一下貝葉斯方法 - 你就能對(duì)接下來會(huì)發(fā)生的事情做一些預(yù)測(cè)。事實(shí)上,你做的預(yù)測(cè)會(huì)比物理學(xué)家能給出的好得多。“如果‘成功’被定義為對(duì)大量混亂的未分析數(shù)據(jù)的合理近似,那么這樣做的結(jié)果比物理學(xué)家的更接近‘成功’。顯而易見,這樣一來,諸如絕對(duì)光滑平面之類的思想實(shí)驗(yàn)就不復(fù)存在了。但這樣做,你將不會(huì)得到科學(xué)所一直致力于達(dá)到的那種理解水平 - 你所得到的只是對(duì)正在發(fā)生的事情的近似。”

Chomsky在許多其他場(chǎng)合也強(qiáng)調(diào)了這種觀點(diǎn):當(dāng)前對(duì)‘成功’自然語言處理的定義 —— 即預(yù)測(cè)準(zhǔn)確性 —— 并不科學(xué)。將“一些巨大的語料庫”投入到“復(fù)雜的機(jī)器”,僅僅是“未分析數(shù)據(jù)的近似處理”簡(jiǎn)直就像撞大運(yùn),并不能使我們“真正理解”語言。

他認(rèn)為,科學(xué)的首要目標(biāo)是發(fā)現(xiàn)關(guān)于系統(tǒng)實(shí)際運(yùn)作的“解釋性原理”,而實(shí)現(xiàn)目標(biāo)的“正確方法”則是“讓理論引導(dǎo)數(shù)據(jù)”:通過精心設(shè)計(jì)的實(shí)驗(yàn)抽離掉“不相關(guān)干擾”,以此來研究系統(tǒng)的基本性質(zhì) - 就像自伽利略以來的現(xiàn)代科學(xué)研究方法一樣。簡(jiǎn)而言之:“只處理待分析的混亂數(shù)據(jù)不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨后以一篇長文回應(yīng)了Chomsky的主張,這篇文章挑戰(zhàn)了Chomsky在科學(xué)上的‘成功’的觀念,并為使用概率模型象征人類語言處理進(jìn)行了辯護(hù)。Norvig指出,語言處理中幾乎所有主要的應(yīng)用領(lǐng)域 - 搜索引擎、語音識(shí)別、機(jī)器翻譯和問答 - 都是由訓(xùn)練有素的概率模型主導(dǎo),因?yàn)樗鼈儽然诶碚?邏輯規(guī)則的舊工具表現(xiàn)得更好。

他認(rèn)為,Chomsky關(guān)于科學(xué)上的“成功”的標(biāo)準(zhǔn) - 強(qiáng)調(diào)找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學(xué)可以進(jìn)步;但沒有事實(shí),我們寸步難行。”

說起來其實(shí)還挺low的,Norvig順帶提了一句 - 概率模型“每年創(chuàng)造數(shù)萬億美元的收入,而Chomsky理論的產(chǎn)物幾億美元都不到。” (注:數(shù)據(jù)來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測(cè),Chomsky對(duì)“對(duì)一切應(yīng)用貝葉斯方法”的蔑視實(shí)際上來自于Leo Breiman所描述的統(tǒng)計(jì)模型中兩種文化之間的分裂。

1)數(shù)據(jù)建模文化,它假設(shè)自然是一個(gè)內(nèi)部變量隨機(jī)聯(lián)系的黑箱,建模者的任務(wù)就是確定最符合這些聯(lián)系的模型;

2)算法建模文化,它假設(shè)黑箱中的關(guān)聯(lián)太復(fù)雜而不能用簡(jiǎn)單模型來描述,此時(shí)建模者的任務(wù)就是使用能最好地用輸入量估計(jì)輸出量的算法,而不再期望黑箱內(nèi)變量真正的潛在聯(lián)系可以被理解。

Norvig認(rèn)為Chomsky可能對(duì)概率模型(數(shù)據(jù)建模文化)本身并沒有什么意見,他只是針對(duì)具有“億萬參數(shù)”且難以解釋的算法模型,因?yàn)樗緹o法解決“為什么”的問題。

Norvig屬于2號(hào)陣營,他們認(rèn)為像語言這樣的系統(tǒng)過于復(fù)雜、隨機(jī),很難用一小組參數(shù)來表示;抽離出復(fù)雜性就類似于制造一個(gè)實(shí)際上不存在的、“完全符合永恒領(lǐng)域的神秘設(shè)施”,因此“忽略了語言是什么以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應(yīng)該停止以創(chuàng)造完美理論為目的的行為。我們應(yīng)當(dāng)擁抱系統(tǒng)復(fù)雜性、并接受數(shù)據(jù)就是有用的這一特點(diǎn)。”。他指出,在語音識(shí)別、機(jī)器翻譯甚至是幾乎所有使用網(wǎng)頁數(shù)據(jù)的機(jī)器學(xué)習(xí)應(yīng)用中,例如基于數(shù)百萬計(jì)具體特征的n-gram統(tǒng)計(jì)模型或線性分類器的這些簡(jiǎn)單模型,比試圖發(fā)現(xiàn)普遍規(guī)律的精美模型表現(xiàn)更好。

這次辯論最讓人們受觸動(dòng)的不是Chomsky和Norvig的分歧,而是他們的共識(shí):他們都同意,不試圖去理解變量就用統(tǒng)計(jì)學(xué)習(xí)方法分析大量數(shù)據(jù)往往會(huì)產(chǎn)生比試圖給變量之間的關(guān)系建模更好的預(yù)測(cè)效果。

而且我們也并非唯一被這一現(xiàn)象困擾的人:那些被訪談過許多的具有數(shù)學(xué)科學(xué)背景的人也認(rèn)為這是違反直覺的 - 最符合事物基本結(jié)構(gòu)關(guān)系的方法難道不應(yīng)該也是預(yù)測(cè)得最為準(zhǔn)確的嗎?我們?cè)趺茨茉诓恢朗挛锶绾螌?shí)際運(yùn)作的情況下做精準(zhǔn)的預(yù)測(cè)呢?

預(yù)測(cè)與因果推論

即使在經(jīng)濟(jì)學(xué)和其它社會(huì)科學(xué)等學(xué)術(shù)領(lǐng)域,預(yù)測(cè)能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認(rèn)為是具有高度預(yù)測(cè)性的。但是,構(gòu)建最佳預(yù)測(cè)模型的方法與構(gòu)建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個(gè)目標(biāo)之間的權(quán)衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統(tǒng)計(jì)學(xué)習(xí)導(dǎo)引)中一段關(guān)于預(yù)測(cè)和推理建模的簡(jiǎn)短摘要。

預(yù)測(cè)建模

預(yù)測(cè)模型的基本原理相對(duì)簡(jiǎn)單,使用一組已知的輸入X來估計(jì)Y。如果X的誤差項(xiàng)平均為零,則可以使用以下方法預(yù)測(cè)Y:

 

 

其中ƒ是由X提供的關(guān)于Y的系統(tǒng)信息,當(dāng)給定X時(shí),它給出結(jié)果?(Y的預(yù)測(cè))。只要能準(zhǔn)確地預(yù)測(cè)Y,ƒ的確切函數(shù)形式通常是不重要的,它被視為“黑箱”。

這種模型的準(zhǔn)確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

 

 

為了提高模型的預(yù)測(cè)準(zhǔn)確性,模型主要目標(biāo)是通過使用最合適的統(tǒng)計(jì)學(xué)習(xí)技術(shù)來使可減少的誤差最小,從而估計(jì)ƒ。

推理建模

當(dāng)我們的目標(biāo)是理解X和Y之間的關(guān)系,比如Y是如何作為X的函數(shù)而變化時(shí),ƒ不能被視為“黑箱”,因?yàn)槲覀儫o法在不知道函數(shù)形式的情況下理解X對(duì)Y的影響ƒ。

幾乎總是如此,在推理建模時(shí),使用參數(shù)化方法來估計(jì)ƒ。參數(shù)化是指通過假設(shè)參數(shù)形式的ƒ并通過假設(shè)的參數(shù)來簡(jiǎn)化對(duì)ƒ的估計(jì)的方法。這種方法有兩個(gè)一般步驟:

假設(shè)ƒ的函數(shù)形式。最常見的假設(shè)是ƒ是關(guān)于X的線性函數(shù):

 

 

使用數(shù)據(jù)擬合模型,也即找到參數(shù)值β0、β1、...、βp,使得:

 

 

最常用的擬合模型的方法是普通最小二乘法(OLS)。

靈活性/可解釋性的權(quán)衡

你可能已經(jīng)在想:我們?cè)趺粗?fnof;是否具有線性形式?因?yàn)?fnof;的真實(shí)形式是未知的,我們也不知道,如果我們選擇的模型與真實(shí)的ƒ相差太遠(yuǎn),那么估計(jì)就會(huì)有偏差。那為什么我們要先做出如此肯定的假設(shè)呢?這是因?yàn)槟P偷撵`活性和可解釋性之間存在內(nèi)在的權(quán)衡。靈活性是指模型可以生成的用以適應(yīng)ƒ的多種不同的可能函數(shù)形式的形狀范圍,因此模型越靈活,它產(chǎn)生的形狀就能符合得越好,預(yù)測(cè)精度就越高。但是更靈活的模型通常更復(fù)雜并且需要更多參數(shù)來擬合,并且ƒ的估計(jì)通常變得太復(fù)雜以至于任何預(yù)測(cè)因子的關(guān)聯(lián)都難以解釋。另一方面,線性模型中的參數(shù)相對(duì)簡(jiǎn)單且可解釋,即使它在準(zhǔn)確預(yù)測(cè)方面做得不是很好。這是ISL中的一張圖表,它說明了不同統(tǒng)計(jì)學(xué)習(xí)模型中的這種靈活性-可解釋性之間的權(quán)衡:

 

 

正如你所看到的,具有更好預(yù)測(cè)精度、同時(shí)也更靈活的機(jī)器學(xué)習(xí)模型(例如支持向量機(jī)和Boosting方法)的可解釋性非常低。對(duì)ƒ的函數(shù)形式進(jìn)行較肯定的假設(shè)使模型更具解釋性,推理建模在這個(gè)過程中也放棄了對(duì)預(yù)測(cè)準(zhǔn)確性的追求。

因果識(shí)別/反事實(shí)推理

但是,請(qǐng)等一等!即使用了能很好符合并且高度可解釋的模型,你仍然不能將這些統(tǒng)計(jì)數(shù)據(jù)用作證明因果關(guān)系的獨(dú)立證據(jù)。這是因?yàn)椋?ldquo;相關(guān)性不是因果關(guān)系”啊!這里有一個(gè)簡(jiǎn)單的例子:假設(shè)你有一百個(gè)旗桿及其陰影的長度和太陽位置的數(shù)據(jù)。你知道陰影的長度是由桿的長度和太陽的位置決定的,但是即便你將桿的長度設(shè)置為因變量而把陰影長度作為自變量,你的模型仍然會(huì)十分符合統(tǒng)計(jì)顯著性系數(shù)。顯然,你不能說桿子的長度受陰影長度影響。這就是為什么我們不能僅通過統(tǒng)計(jì)模型進(jìn)行因果推理,我們還需要背景知識(shí)和理論來證明我們的結(jié)論。因此,因果推理的數(shù)據(jù)分析和統(tǒng)計(jì)建模通常要受到理論模型的嚴(yán)格指導(dǎo)。

即使你確實(shí)有一個(gè)堅(jiān)實(shí)的理論依據(jù)說X導(dǎo)致Y,確定因果關(guān)系仍然非常棘手。這是因?yàn),評(píng)估因果效應(yīng)涉及要識(shí)別在沒有發(fā)生X的“反事實(shí)世界“里會(huì)發(fā)生什么,這顯然是你觀察不到的。這還有另一個(gè)簡(jiǎn)單的例子:設(shè)想一下你要確定維生素C對(duì)健康的影響。你有某人是否服用維生素的數(shù)據(jù)(如果他們這樣做則X = 1;否則為0),以及一些二元化的健康狀況(如果他們健康則Y = 1;否則為0),如下所示:

 

 

Y1代表服用維生素C的人的健康狀況,Y0代表那些不服用維生素C的人的健康狀況。為了確定維生素C對(duì)健康的影響,我們要估計(jì)平均治療效果:

標(biāo)簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:你應(yīng)該知道的10種可視化技術(shù)

下一篇:數(shù)據(jù)湖:下一代企業(yè)數(shù)據(jù)倉庫