中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

頻率視角下的機(jī)器學(xué)習(xí)

2018-06-13    來源:

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用
在“人工智能基礎(chǔ)課”中我曾提到,“概率”(probability)這個(gè)基本概念存在著兩種解讀方式,它們分別對(duì)應(yīng)著概率的頻率學(xué)派(Frequentist)和貝葉斯學(xué)派(Bayesian)。而解讀方式上的差異也延伸到了以概率為基礎(chǔ)的其他學(xué)科,尤其是機(jī)器學(xué)習(xí)之中。

根據(jù)機(jī)器學(xué)習(xí)領(lǐng)域的元老湯姆·米切爾(Tom M. Mitchell)的定義,機(jī)器學(xué)習(xí)(machine learning)是一門研究通過計(jì)算的手段利用經(jīng)驗(yàn)來改善系統(tǒng)自身性能的學(xué)科,F(xiàn)如今,幾乎所有的經(jīng)驗(yàn)都以數(shù)據(jù)的形式出現(xiàn),因而機(jī)器學(xué)習(xí)的任務(wù)也就變成了基于已知數(shù)據(jù)構(gòu)造概率模型,反過來再運(yùn)用概率模型對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析。如此一來,關(guān)于概率的不同認(rèn)識(shí)無疑會(huì)影響到對(duì)模型的構(gòu)建與解釋。

可在概率的應(yīng)用上,頻率學(xué)派和貝葉斯學(xué)派的思路呈現(xiàn)出天壤之別,這種思維上的差異也讓兩派的擁護(hù)者勢(shì)同水火,都視另一方為異端邪說。正因如此,在這個(gè)專欄的前兩篇文章中,我將首先和你理清頻率學(xué)派與貝葉斯學(xué)派對(duì)概率的不同觀點(diǎn),為接下來從不同的角度理解機(jī)器學(xué)習(xí)的各種算法打下扎實(shí)的基礎(chǔ)。

下面這個(gè)流傳已久的笑話,不經(jīng)意間對(duì)頻率學(xué)派和貝葉斯學(xué)派的區(qū)別給出了形象的解釋:有個(gè)病人找醫(yī)生看病,醫(yī)生檢查之后對(duì)他說:“你這病說得上是九死一生,但多虧到我這里來看了。不瞞你說,在你之前我已經(jīng)看了九個(gè)得一同樣病的患者,結(jié)果他們都死了,那你這第十個(gè)就一定能看得好啦,妥妥的!”

如果病人腦子沒事,肯定就從這個(gè)糊涂醫(yī)生那里跑了。顯然,醫(yī)生在看待概率時(shí)秉持的是頻率主義的觀點(diǎn),但卻是個(gè)蹩腳的頻率主義者。之所以說他是頻率主義者,是因?yàn)樗麑?duì)九死一生的理解就是十次手術(shù)九次失敗一次成功;說他蹩腳則是因?yàn)樗欢l率學(xué)派的基礎(chǔ),區(qū)區(qū)九個(gè)病人就讓他自以為掌握了生死的密碼。

歸根到底,頻率學(xué)派口中的概率表示的是事件發(fā)生頻率的極限值,它只有在無限次的獨(dú)立重復(fù)試驗(yàn)之下才有絕對(duì)的精確意義。在上面的例子中,如果非要從頻率的角度解釋“九死一生”的話,這個(gè)10%的概率只有在樣本容量為無窮大時(shí)才有意義。因此即使“九死一生”的概率的確存在,它也不能確保第十個(gè)病人的康復(fù)。

在頻率學(xué)派眼中,當(dāng)重復(fù)試驗(yàn)的次數(shù)趨近于無窮大時(shí),事件發(fā)生的頻率會(huì)收斂到真實(shí)的概率之上。這種觀點(diǎn)背后暗含了一個(gè)前提,那就是概率是一個(gè)確定的值,并不會(huì)受單次觀察結(jié)果的影響。

將一枚均勻的硬幣拋擲10次,結(jié)果可能是10次都是正面,也可能10次都是反面,寫成頻率的話就對(duì)應(yīng)著0%和100%這兩個(gè)極端,代表著最大范圍的波動(dòng)?扇绻麑仈S次數(shù)增加到100次,出現(xiàn)正面的次數(shù)依然會(huì)發(fā)生變化,但波動(dòng)的范圍更可能會(huì)收縮到40%到60%之間。再將拋擲次數(shù)增加到1000,10000的話,頻率波動(dòng)的現(xiàn)象不會(huì)消失,但波動(dòng)的范圍會(huì)進(jìn)一步收縮到越來越小的區(qū)間之內(nèi)。

基于以上的邏輯,把根據(jù)頻率計(jì)算概率的過程反轉(zhuǎn)過來,就是頻率統(tǒng)計(jì)估計(jì)參數(shù)的過程。頻率統(tǒng)計(jì)理論的核心在于認(rèn)定待估計(jì)的參數(shù)是固定不變的常量,討論參數(shù)的概率分布是沒有意義的;而用來估計(jì)參數(shù)的數(shù)據(jù)是隨機(jī)的變量,每個(gè)數(shù)據(jù)都是參數(shù)支配下一次獨(dú)立重復(fù)試驗(yàn)的結(jié)果。由于參數(shù)本身是確定的,那頻率的波動(dòng)就并非來源于參數(shù)本身的不確定性,而是由有限次觀察造成的干擾而導(dǎo)致。這可以從兩個(gè)角度來解釋:一方面,根據(jù)這些不精確的數(shù)據(jù)就可以對(duì)未知參數(shù)的精確取值做出有效的推斷;另一方面,數(shù)據(jù)中包含的只是關(guān)于參數(shù)不完全的信息,所以從樣本估計(jì)整體就必然會(huì)產(chǎn)生誤差。

統(tǒng)計(jì)學(xué)的核?任務(wù)之一是根據(jù)從總體中抽取出的樣本,也就是數(shù)據(jù)來估計(jì)未知的總體參數(shù)。參數(shù)的最優(yōu)估計(jì)可以通過樣本數(shù)據(jù)的分布,也就是采樣分布(sampling distribution)來求解,由于頻率統(tǒng)計(jì)將數(shù)據(jù)看作隨機(jī)變量,所以計(jì)算采樣分布是沒有問題的。確定采樣分布之后,參數(shù)估計(jì)可以等效成一個(gè)最優(yōu)化的問題,而頻率統(tǒng)計(jì)最常使用的最優(yōu)化方法,就是最大似然估計(jì)(maximum likelihood estimation)。

回憶一下最大似然估計(jì),它的目標(biāo)是讓似然概率最大化,也就是固定參數(shù)的前提之下,數(shù)據(jù)出現(xiàn)的條件概率最大化。這是頻率學(xué)派估計(jì)參數(shù)的基本出發(fā)點(diǎn):一組數(shù)據(jù)之所以能夠在單次試驗(yàn)中出現(xiàn),是因?yàn)樗霈F(xiàn)的可能性最大。而參數(shù)估計(jì)的過程就是賦予觀測(cè)數(shù)據(jù)最大似然概率的過程。這可以通過下面這個(gè)簡單的例子來說明:

“如果觀測(cè)到的數(shù)據(jù)是真實(shí)值θ 和方差為,但形式未知的噪聲 的疊加,那么如何得出θ 的最優(yōu)估計(jì)值?”

 

要用最大似然估計(jì)解決這個(gè)問題,首先就要對(duì)似然概率進(jìn)行建模,建模中的一個(gè)重要假設(shè)是假定未知形式的噪聲滿足高斯分布。這不僅在統(tǒng)計(jì)學(xué)中,在其他學(xué)科里也是一個(gè)常用的假設(shè)。

從理論上說,在功率有限的條件下,高斯噪聲的信源熵最大,因而帶來的不確定性也就越大,換句話說,這是最惡劣的噪聲;從實(shí)踐上說,真實(shí)的噪聲通常來源于多個(gè)獨(dú)立的物理過程,都具有不同的概率分布,中心極限定理告訴我們,當(dāng)噪聲源的數(shù)目越來越多時(shí),它們的疊加就趨近于高斯分布,因而高斯噪聲就是對(duì)真實(shí)情況的一個(gè)合理的模擬。

在高斯噪聲的假設(shè)下,每個(gè)觀測(cè)數(shù)據(jù)所滿足的概率分布就可以寫成

 

 

 

這實(shí)際上就是采樣分布。計(jì)算所有數(shù)據(jù)的概率分布的乘積,得到的就是似然函數(shù)(likelihood function)

 

 

求解似然函數(shù)的對(duì)數(shù),就可以將乘法運(yùn)算轉(zhuǎn)換為加法運(yùn)算

 

 

令對(duì)數(shù)似然函數(shù)的導(dǎo)數(shù)為0,就求出了使似然概率最大的最優(yōu)估計(jì)

 

 

不知道你有沒有在上面的公式中發(fā)現(xiàn)一個(gè)問題:雖然真實(shí)值θ 是個(gè)固定值,但估計(jì)值θ^ 卻是數(shù)據(jù)的函數(shù),因而也是個(gè)隨機(jī)變量。

這一點(diǎn)其實(shí)很好理解,因?yàn)楣烙?jì)值本質(zhì)上是利用數(shù)據(jù)構(gòu)造出來的函數(shù),既然數(shù)據(jù)是隨機(jī)分布的,估計(jì)值肯定也是隨機(jī)的。這意味著如果每次估計(jì)使用的數(shù)據(jù)不同,得到的估計(jì)值也不會(huì)相同。那么如何來度量作為隨機(jī)變量的估計(jì)值和作為客觀常量的真實(shí)值之間的偏差呢?置信區(qū)間(confidence interval)就是頻率學(xué)派給出的答案。

置信區(qū)間的意義在于劃定了真值的取值范圍,真實(shí)的參數(shù)會(huì)以一定的概率α α 落入根據(jù)樣本計(jì)算出的置信區(qū)間之內(nèi)。當(dāng)然,這里的概率還是要從頻率的角度來解讀:從同一個(gè)總體中進(jìn)行100次采樣可以得到100個(gè)不同的樣本,根據(jù)這100個(gè)不同的樣本又可以計(jì)算出100個(gè)不同的置信區(qū)間。在這么多個(gè)置信區(qū)間之中,包含真值的有多少個(gè)呢?100×α 個(gè),剩下的100×(1−α) 個(gè)置信區(qū)間就把真值漏掉了。這有點(diǎn)像亂槍打鳥:每一槍都亂打一梭子,打了100槍之后統(tǒng)計(jì)戰(zhàn)果,發(fā)現(xiàn)打下來 100×α 只鳥。如果把參數(shù)的真實(shí)值比喻成鳥,那么每一槍轟出的一梭子子彈就是置信區(qū)間。顯然,置信區(qū)間的上下界和估計(jì)值一樣,也是隨機(jī)變量。

總結(jié)起來,頻率主義解決統(tǒng)計(jì)問題的基本思路如下:參數(shù)是確定的,數(shù)據(jù)是隨機(jī)的,利用隨機(jī)的數(shù)據(jù)推斷確定的參數(shù),得到的結(jié)果也是隨機(jī)的。

這種思路直接把可能的參數(shù)空間壓縮成為一個(gè)點(diǎn):參數(shù)本身可能滿足這樣或者那樣的概率分布,但一旦試驗(yàn)的條件確定,參數(shù)表現(xiàn)出來的就是一個(gè)固定的取值,讓所有的概率分布都失去了意義。這就像說即使上帝真的擲骰子,但從骰子脫手那一刻起,它的點(diǎn)數(shù)就不再受上帝的控制,也就變成了確定不變的取值。頻率主義者關(guān)注的就是這個(gè)真實(shí)存在的唯一參數(shù),通過計(jì)算它對(duì)數(shù)據(jù)的影響來實(shí)現(xiàn)估計(jì)。

將頻率主義“參數(shù)確定,數(shù)據(jù)隨機(jī)”的思路應(yīng)用在機(jī)器學(xué)習(xí)當(dāng)中,得到的就是統(tǒng)計(jì)機(jī)器學(xué)習(xí)(statistical learning)。統(tǒng)計(jì)機(jī)器學(xué)習(xí)的做法是通過對(duì)給定的指標(biāo)(比如似然函數(shù)或者均方誤差)進(jìn)行最優(yōu)化,來估計(jì)模型中參數(shù)的取值,估計(jì)時(shí)并不考慮參數(shù)的不確定性,也就是不考慮未知參數(shù)的先驗(yàn)分布。和參數(shù)相關(guān)的信息全部來源于數(shù)據(jù),輸出的則是未知參數(shù)唯一的估計(jì)結(jié)果,這是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的核心特征。

受噪聲和干擾的影響,觀測(cè)數(shù)據(jù)并不是未知參數(shù)的準(zhǔn)確反映,因此如何衡量估計(jì)結(jié)果的精確程度就成為統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的一個(gè)關(guān)鍵問題。損失函數(shù)(loss function)直接定義了模型性能的度量方式,其數(shù)學(xué)期望被稱為風(fēng)險(xiǎn)(risk),風(fēng)險(xiǎn)最小化就是參數(shù)估計(jì)的依據(jù)和準(zhǔn)則。但風(fēng)險(xiǎn)的計(jì)算并不能一蹴而就:估計(jì)最優(yōu)參數(shù)需要計(jì)算風(fēng)險(xiǎn),計(jì)算風(fēng)險(xiǎn)時(shí)需要在數(shù)據(jù)的概率分布上對(duì)損失函數(shù)進(jìn)行積分,可表示數(shù)據(jù)的分布又需要依賴未知參數(shù)的精確取值。這就給頻率主義出了一個(gè)無解的問題:風(fēng)險(xiǎn)函數(shù)是沒有辦法精確求解的。

為了解決這個(gè)問題,統(tǒng)計(jì)機(jī)器學(xué)習(xí)引入了經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk),用訓(xùn)練數(shù)據(jù)的經(jīng)驗(yàn)分布替換掉原始表達(dá)式中數(shù)據(jù)的真實(shí)分布,借此將風(fēng)險(xiǎn)函數(shù)轉(zhuǎn)化成了可計(jì)算的數(shù)值。在真實(shí)的學(xué)習(xí)算法中,無論是分類問題中的誤分類率,還是回歸問題的中的均方誤差,都是經(jīng)驗(yàn)風(fēng)險(xiǎn)的實(shí)例,而所謂的最優(yōu)模型也就是使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization)的那個(gè)模型。

今天我和你分享了頻率學(xué)派對(duì)概率、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的認(rèn)識(shí)方式,其要點(diǎn)如下:

頻率學(xué)派認(rèn)為概率是隨機(jī)事件發(fā)生頻率的極限值;
頻率學(xué)派執(zhí)行參數(shù)估計(jì)時(shí),視參數(shù)為確定取值,視數(shù)據(jù)為隨機(jī)變量;
頻率學(xué)派主要使用最大似然估計(jì)法,讓數(shù)據(jù)在給定參數(shù)下的似然概率最大化;
頻率學(xué)派對(duì)應(yīng)機(jī)器學(xué)習(xí)中的統(tǒng)計(jì)學(xué)習(xí),以經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化作為模型選擇的準(zhǔn)則。

有了這些理論之后,如何在實(shí)際問題中應(yīng)用頻率主義的統(tǒng)計(jì)學(xué)呢?這里有一個(gè)非常好的例子,來源于Nature Biotechnology第22卷第9期上的論文《什么是貝葉斯統(tǒng)計(jì)學(xué)》(What is Bayesian statistics)。

在這個(gè)例子中,Alice和Bob在進(jìn)行一場(chǎng)賭局,先得到6分者獲勝。判斷得分的方式有一些特別:在賭局開始之前,荷官在賭桌上扔一個(gè)小球,在這個(gè)球停止的位置做個(gè)標(biāo)記。顯然,這個(gè)標(biāo)記的位置是隨機(jī)的。賭局開始后,荷官繼續(xù)扔球,如果球停到標(biāo)記的左側(cè),則Alice得分;反之停到標(biāo)記右側(cè),則Bob得分,這就是賭局的計(jì)分規(guī)則。那么問題來了:在這樣的規(guī)則下,Alice現(xiàn)在以5:3領(lǐng)先Bob,那么Bob反敗為勝的概率是多大呢?

要計(jì)算Bob獲勝的概率,必須要借助一個(gè)參數(shù),那就是Alice得分的概率,不妨將它設(shè)為p p ,那么Bob得分的概率就是1−p 1−p 。概率p p 取決于標(biāo)記在賭桌上的位置,由于位置本身是隨機(jī)的,p p 也就在[0, 1]上滿足均勻分布。按照頻率主義的觀點(diǎn),在這一場(chǎng)賭局中,p p 有固定的取值,并可以通過已有的得分結(jié)果來估計(jì)。估計(jì)出p p 后就可以進(jìn)一步計(jì)算Bob獲勝的概率。這個(gè)問題就作為今天的思考題目,你可以計(jì)算一下。

但是,這個(gè)問題并沒有到此為止。如果跳出頻率主義的限制,把p p 的概率分布引入到計(jì)算之中,又會(huì)得到什么樣的結(jié)果呢?

你可以加以思考。

標(biāo)簽: 選擇

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:機(jī)器學(xué)習(xí)博士生的基本素養(yǎng):除了硬技能,還要學(xué)會(huì)與導(dǎo)師相處

下一篇:谷歌、Facebook已成數(shù)據(jù)寡頭,去中心化數(shù)據(jù)交換打破壟斷