中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一文讀懂機(jī)器學(xué)習(xí)中的貝葉斯統(tǒng)計學(xué)

2019-05-06    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

你有沒有問過自己,以前從未發(fā)生過的事件發(fā)生的概率是多少?

在本文中,我們將深入探討貝葉斯統(tǒng)計的神秘世界以及它的一些原則,Bernstein-von Mises定理和Cromwell規(guī)則,以及用它們分析現(xiàn)實世界的機(jī)器學(xué)習(xí)問題。

“貝葉斯統(tǒng)計之所以困難,是因為思考是困難的”

- Don Berry

 

 

如果你想深入了解貝葉斯統(tǒng)計背后的數(shù)學(xué)原理,那么這篇文章不是你要找的(盡管未來我將發(fā)表關(guān)于這個的文章)。本文主要是給剛剛接觸這個概念的人介紹貝葉斯方法。

想象一下,你正在設(shè)計一座核電站。你的任務(wù)是使用數(shù)據(jù)來確定工廠是否正常運轉(zhuǎn)。這看起來似乎是一個相對簡單的任務(wù),直到你意識到你實際上沒有任何關(guān)于核電站發(fā)生核泄露時的數(shù)據(jù)。你怎么能預(yù)測這樣的事情呢?

如果你是一個精明的機(jī)器學(xué)習(xí)專家,你可能會提出某種無監(jiān)督的方法,如(受限制的)波耳茲曼機(jī),它能夠了解“正常”的發(fā)電廠是什么樣的,從而知道什么時候發(fā)生了錯誤(事實上,這是正人們預(yù)測核電廠正常運行情況的一種方式)。

然而,如果我們從更廣泛的意義上考慮這個問題,當(dāng)我們沒有什么負(fù)面例子可以比較時,我們該怎么辦?出現(xiàn)這種情況有幾個原因:

低概率情景:該事件發(fā)生的概率如此之低,以至于在(有限的)樣本數(shù)據(jù)中根本沒有觀察到該事件的發(fā)生。

數(shù)據(jù)稀疏情景:觀察已經(jīng)發(fā)生,但很少。

災(zāi)難情景:失敗的結(jié)果將是災(zāi)難性的,它只能發(fā)生一次,例如,太陽的毀滅。

傳統(tǒng)的統(tǒng)計方法不適用于這類問題,我們需要不同的方法。

一個更普遍的問題是,我們?nèi)绾翁幚順O低(但嚴(yán)格非零)或極高(接近1但嚴(yán)格非1)的概率?讓我們首先看一下由數(shù)學(xué)家Pierre-Simon Laplace提出的為研究著名問題而制定的一些規(guī)則。

日出問題

想象一下,有一天早上你醒來,太陽決定休息一天。這不僅(最有可能地)會毀了你的一天,打亂你的生物鐘,還會直接改變你對太陽的感覺。你可能會更有可能預(yù)測也許第二天太陽也不會升起。或者,如果太陽剛剛度過了糟糕的一天,然后第二天又回來了,那么你對太陽會再休息一天的期望就會比之前高很多。

這里發(fā)生了什么?基于新的證據(jù),我們改變了對事件發(fā)生概率的看法。這是所有貝葉斯統(tǒng)計的關(guān)鍵,并使用一個稱為貝葉斯規(guī)則的方程來正式描述。

貝葉斯規(guī)則

貝葉斯規(guī)則告訴我們,我們必須從某一事件發(fā)生的固有概率開始(事前)。我們稱之為先驗概率。逐漸地,當(dāng)我們獲得新的觀察結(jié)果和證據(jù)時,我們會在這些證據(jù)和判斷我們當(dāng)前情況的可能性的基礎(chǔ)上更新我們的信念。這種更新的信念被稱為后驗概率(事后)。

回到我們的日出問題,每天我們都觀察到太陽升起,并且每一次太陽升起的時候,我們都更確定它會在第二天再次升起。然而,如果有一天我們發(fā)現(xiàn)太陽沒有升起,這將極大地影響我們基于新證據(jù)的后驗概率。

這可以用下面的數(shù)學(xué)形式來表示,乍一看令人生畏,但可以抽象出來:我們更新的信念是基于我們最初的信念和基于我們當(dāng)前的信念(可能性)的新證據(jù)?赡苄允侵肝覔碛械男伦C據(jù),我的信念正確的可能性有多大?如果我相信明天太陽不升起的概率是一百萬分之一,然后它發(fā)生了,我的信念(我的模型)是錯的可能性會非常高,然后后驗概率將被更新來預(yù)測它更有可能會再次發(fā)生。

 

 

貝葉斯理論

這是一個非常棒的想法,它存在于許多不同的地方,尤其是涉及到人類和他們的信仰時。例如,假設(shè)你的朋友告訴你,你最喜歡的一位名人去世了。一開始,你可能會感到沮喪,并且有點懷疑。隨著你的一天,你讀報紙,它告訴你,這位名人去世了,這種信念將進(jìn)一步加強。也許你會在電視上看到他們家人哀悼的新聞,你的信念會更加堅定。然而,如果你看到電視上被采訪的人說他死亡的謠言正在被擴(kuò)散,你對朋友告訴你的話的可信度就會被降低。

這是科學(xué)的一個重要方面,理論通過實驗和模擬得到證實,做這些實驗和驗證這些理論的人越多,這些理論就越強大和可信。然而,比如有宗教信仰的人可能認(rèn)為他們不需要經(jīng)驗證據(jù)(至少是同類的)來相信某些東西,我們稱之為信仰。

有趣的是,在我們?nèi)粘I钪腥绱似毡榈氖虑閷y(tǒng)計學(xué)和機(jī)器學(xué)習(xí)如此重要,但它確實如此,我們將討論原因。然而,首先我們需要研究一些貝葉斯定理中出現(xiàn)的概率非常低的問題。

Cromwell 規(guī)則

Oliver Cromwell是英國歷史上的一位杰出人物,1658年在蘇格蘭國教大會上他曾說過一句名言:

“我懇求你,在基督的內(nèi)心中,認(rèn)為你可能會被誤解。“

這個句子的使用導(dǎo)致了Dennis Lindley 定義的Cromwell規(guī)則,該規(guī)則提出了這樣的想法:如果一個人由等于零(我知道這些事件不是真的)或一(我知道這些事件是正確的)的先驗概率開始,那無論向你展示什么證據(jù),你的信念將不會被動搖。

這向我們展示了在觀察可以以經(jīng)驗觀察的事物時絕對主義觀點的危險性。如果我堅信自己是正確的,那么任何人說的或做的都不能使我信服。這是無知的高度,而不是我們想要融入機(jī)器學(xué)習(xí)模型的東西。如果我們回頭看貝葉斯定理我們就能明白為什么會這樣,如果先驗概率是0,那么乘以任何數(shù)之后后驗概率仍然是0。

原則上(見Cromwell規(guī)則),任何可能性都不應(yīng)將其概率設(shè)為零,因為在現(xiàn)實世界中,任何事情都不應(yīng)被嚴(yán)格假定為不可能(盡管它可能是不可能的)——即使與所有觀察結(jié)果和當(dāng)前理論相悖。

神經(jīng)網(wǎng)絡(luò)就是一個理想的例子。當(dāng)你初始化一個神經(jīng)網(wǎng)絡(luò)時,你的節(jié)點以一些固有值開始。如果將這些節(jié)點的權(quán)值都賦值為零,則節(jié)點將無法自行更新,因為梯度下降算法的所有迭代都將乘以零。相反,執(zhí)行隨機(jī)初始化(通常對用戶不可見)通常可以防止出現(xiàn)這樣的問題。

貝葉斯定理的另一個有趣的性質(zhì)是源自當(dāng)我們觀察無窮次觀察之后會發(fā)生什么,通常被稱為Bernstein-von Mises定理。

Bernstein-von Mises定理

簡而言之,Bernstein-von Mises定理告訴我們,當(dāng)我們獲得更多的數(shù)據(jù)時,我們的后驗估計將漸進(jìn)地獨立于我們最初(先前)的信念——當(dāng)然,前提是它遵循Cromwell規(guī)則。這在某種程度上類似于頻率統(tǒng)計中的律數(shù)定律,它告訴我們,當(dāng)我們獲得越來越多的數(shù)據(jù)時,樣本的均值最終將等于總體的均值。

那么貝葉斯統(tǒng)計與普通統(tǒng)計之間的最大區(qū)別是什么?為什么機(jī)器學(xué)習(xí)專家和數(shù)據(jù)科學(xué)家需要貝葉斯統(tǒng)計?

貝葉斯統(tǒng)計與頻率統(tǒng)計

對于那些不知道貝葉斯和頻率論是什么的人,讓我詳細(xì)說明一下。頻率論方法是從頻率的角度看數(shù)據(jù)。例如,假設(shè)我有一枚兩面都是正面的偏置硬幣。我拋10次硬幣,得到10次正面。如果我取所有拋硬幣的平均結(jié)果,得到1,表示下一次拋硬幣正面的概率是100%,反面的概率是0%,這是一種頻率論的思維方式。

現(xiàn)在用貝葉斯的觀點。一開始我的先驗概率是0.5,因為我假設(shè)硬幣是均勻的。但是,不同的是我如何選擇更新我的概率的方式。每次拋完硬幣后,我都會看看我的下一個觀察結(jié)果在我目前的信念(我有一枚均勻的硬幣)下出現(xiàn)的可能性有多大。漸進(jìn)的,當(dāng)我拋到更多的正面,我的概率會趨向于1,但它永遠(yuǎn)不會明確地等于1。

貝葉斯方法和頻率方法的根本區(qū)別在于隨機(jī)性存在的位置。在頻率論領(lǐng)域內(nèi),數(shù)據(jù)被認(rèn)為是隨機(jī)的,參數(shù)(如均值、方差)是固定的。在貝葉斯領(lǐng)域中,參數(shù)是隨機(jī)的,數(shù)據(jù)是固定的。

我現(xiàn)在非常想強調(diào)一點。

它不被稱為貝葉斯(Bayesian),因為你使用的是貝葉斯定理(這在頻率論的觀點中也很常用)。

它被稱為貝葉斯(Bayesian),因為方程中的項有不同的潛在含義。從理論的差異來講,最終你會得到一個非常有意義的實際區(qū)別:雖然之前僅有一個參數(shù)作為估計器的結(jié)果(數(shù)據(jù)是隨機(jī)的,參數(shù)是固定的),現(xiàn)在你有一個分布參數(shù)(參數(shù)是隨機(jī)的,數(shù)據(jù)是固定的),所以你需要集成它們以獲得在數(shù)據(jù)上的分布。這是貝葉斯統(tǒng)計背后的數(shù)學(xué)變得比普通統(tǒng)計更混亂的原因之一,我們必須使用馬爾可夫鏈Monte Carlo方法對分布進(jìn)行抽樣,以估計難以處理的積分的值。其他巧妙的技巧,如無意識統(tǒng)計學(xué)家定律(多么偉大的名字,對吧?)又名LOTUS,可以在數(shù)學(xué)方面提供幫助。

那么哪種方法更好呢?

這些方法本質(zhì)上是同一枚硬幣的兩面(雙關(guān)語),它們通常會給出相同的結(jié)果,但實現(xiàn)方法略有不同。不是一個比另一個好。事實上,我在哈佛的課堂上甚至有教授經(jīng)常爭論哪個更好。普遍的共識是,“這取決于問題本身”,如果你能把它當(dāng)成一個共識的話。就我個人而言,我發(fā)現(xiàn)貝葉斯方法更直觀,但其背后的數(shù)學(xué)要比傳統(tǒng)的頻率方法復(fù)雜得多。

現(xiàn)在你(希望)已經(jīng)理解了其中的區(qū)別,也許下面的笑話會讓你發(fā)笑。

 

貝葉斯與頻率論的笑話

 

什么時候應(yīng)該使用貝葉斯統(tǒng)計?

貝葉斯統(tǒng)計包含了一類可以用于機(jī)器學(xué)習(xí)的特定模型。通常,人們基于一個或多個原因使用貝葉斯模型,例如:

擁有相對較少的數(shù)據(jù)點
對事物如何運作有強烈的直覺(來自已有的觀察/模型)
具有高度不確定性,或強烈需要量化特定模型或模型比較的不確定性水平
想要聲明關(guān)于替代假設(shè)的可能性,而不是簡單地接受或拒絕零假設(shè)

看了這個清單,你可能會認(rèn)為人們總是想在機(jī)器學(xué)習(xí)中使用貝葉斯方法。然而,事實并非如此,我懷疑貝葉斯機(jī)器學(xué)習(xí)方法的相對薄弱是因為:

大多數(shù)機(jī)器學(xué)習(xí)都是在“大數(shù)據(jù)”的背景下完成的,而貝葉斯模型的特征——先驗——實際上并沒有發(fā)揮多大作用。

在貝葉斯模型中采樣后驗分布計算量大且速度慢。

我們可以清楚地看到,頻率分析和貝葉斯方法之間存在著許多協(xié)同作用,尤其是在當(dāng)今世界,大數(shù)據(jù)和預(yù)測分析已經(jīng)變得如此突出。我們?yōu)楦鞣N系統(tǒng)提供了大量的數(shù)據(jù),我們可以不斷地對系統(tǒng)進(jìn)行數(shù)據(jù)驅(qū)動的推斷,并隨著越來越多的數(shù)據(jù)可用而不斷更新它們。由于貝葉斯統(tǒng)計為“知識”的更新提供了一個框架,實際上它在機(jī)器學(xué)習(xí)中被大量使用。

一些機(jī)器學(xué)習(xí)技術(shù),如高斯過程和簡單線性回歸,都有貝葉斯和非貝葉斯版本。也有純頻率的算法(如支持向量機(jī)、隨機(jī)森林)和純貝葉斯的算法(如變分推理、期望最大化)。學(xué)習(xí)什么時候使用這些工具,以及為什么使用這些工具,可以讓你成為一名真正的數(shù)據(jù)科學(xué)家。

你是貝葉斯主義者還是頻率方法主義者?

就我個人而言,我并不屬于任一陣營,這是因為有時我在一個擁有數(shù)千個特性的數(shù)據(jù)集上使用統(tǒng)計數(shù)據(jù)/機(jī)器學(xué)習(xí),而我對這些特性一無所知。因此,我沒有先驗的信念,貝葉斯推理似乎是不合適的。然而,有時我處理很少的特征并且我對它們很了解,我想把它加入我的模型-在這種情況下,貝葉斯方法將給我更多我相信的確定的區(qū)間/結(jié)果。

我應(yīng)該去哪里學(xué)習(xí)更多關(guān)于貝葉斯統(tǒng)計的知識?

有幾個很棒的在線課程深入研究機(jī)器學(xué)習(xí)的貝葉斯統(tǒng)計。我推薦的最好的資源是我在哈佛上的AM207課程:高級科學(xué)計算(隨機(jī)優(yōu)化方法,用于推理和數(shù)據(jù)分析的蒙特卡羅方法)。你可以在這里找到所有的課程資源,筆記,甚至Jupyter筆記。

這里還有一個很棒的視頻,講的是貝葉斯域和頻率之間的轉(zhuǎn)換(在視頻的11分鐘處)。

視頻鏈接:

https://www.youtube.com/watch?time_continue=674&v=kLmzxmRcUTo

如果你想成為一名真正偉大的數(shù)據(jù)科學(xué)家,我建議你牢牢掌握貝葉斯統(tǒng)計以及它如何被用來解決問題。這是一個艱難的過程,也是一個陡峭的學(xué)習(xí)曲線,但這是一個讓你從其他數(shù)據(jù)科學(xué)家中脫穎而出的好方法。在與同事進(jìn)行數(shù)據(jù)科學(xué)訪談的討論中,貝葉斯建模經(jīng)常出現(xiàn),所以請記住這一點!

原文標(biāo)題:

Will the Sun Rise Tomorrow? Introduction to Bayesian Statistics for Machine Learning

原文鏈接:

https://towardsdatascience.com/will-the-sun-rise-tomorrow-introduction-to-bayesian-statistics-for-machine-learning-6324dfceac2e

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)之殤:我們的數(shù)據(jù),被誰拿走了?

下一篇:《經(jīng)濟(jì)學(xué)人》數(shù)據(jù)可視化編輯:錯誤的圖表,我們也畫了很多