中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

隨機過程在數(shù)據(jù)科學(xué)和深度學(xué)習(xí)中有哪些應(yīng)用?

2020-04-20    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

“The only simple truth is that there is nothing simple in this complex universe. Everything relates. Everything connects”

— Johnny Rich, The Human Script

介紹

機器學(xué)習(xí)的主要應(yīng)用之一是對隨機過程建模。機器學(xué)習(xí)中一些隨機過程的例子如下:

泊松過程:用于處理等待時間以及隊列。

隨機漫步和布朗運動過程:用于交易算法。

馬爾可夫決策過程:常用于計算生物學(xué)和強化學(xué)習(xí)。

高斯過程:用于回歸和優(yōu)化問題(如,超參數(shù)調(diào)優(yōu)和自動機器學(xué)習(xí))。

自回歸和移動平均過程:用于時間序列分析(如,ARIMA模型)。

在本文中,我將簡要地向你介紹這些隨機過程。

歷史背景

隨機過程是我們?nèi)粘I畹囊徊糠帧kS機過程之所以如此特殊,是因為隨機過程依賴于模型的初始條件。在上個世紀(jì),許多數(shù)學(xué)家,如龐加萊,洛倫茲和圖靈都被這個話題所吸引。

如今,這種行為被稱為確定性混沌,它與真正的隨機性有著截然不同的范圍界限。

由于愛德華·諾頓·洛倫茲的貢獻,混沌系統(tǒng)的研究在1963年取得了突破性進展。當(dāng)時,洛倫茲正在研究如何改進天氣預(yù)報。洛倫茲在他的分析中注意到,即使是大氣中的微小擾動也能引起氣候變化。

洛倫茲用來描述這種狀態(tài)的一個著名的短語是:

“A butterfly flapping its wings in Brazil can produce a tornado in Texas”

(在巴西,一只蝴蝶扇動翅膀就能在德克薩斯州制造龍卷風(fēng) )— Edward Norton Lorenz

(愛德華·諾頓·洛倫茲)

這就是為什么今天的混沌理論有時被稱為“蝴蝶效應(yīng)”。

分形學(xué)

一個簡單的混沌系統(tǒng)的例子是分形(如圖所示)。分形是在不同尺度上不斷重復(fù)的一種模式。由于分形的縮放方式,分形不同于其他類型的幾何圖形。

分形是遞歸驅(qū)動系統(tǒng),能夠捕獲混沌行為。在現(xiàn)實生活中,分形的例子有:樹、河、云、貝殼等。

 

 

圖1:MC. Escher, Smaller and Smaller [1]

在藝術(shù)領(lǐng)域有很多自相似的圖形。毫無疑問, MC. Escher是最著名的藝術(shù)家之一,他的作品靈感來自數(shù)學(xué)。事實上,在他的畫中反復(fù)出現(xiàn)各種不可能的物體,如彭羅斯三角形和莫比烏斯帶。在"Smaller and Smaller"中,他也反復(fù)使用了自相似性(圖1)。除了蜥蜴的外環(huán),畫中的內(nèi)部圖案也是自相似性的。每重復(fù)一次,它就包含一個有一半尺度的復(fù)制圖案。

確定性和隨機性過程

有兩種主要的隨機過程:確定性和隨機性。

在確定性過程中,如果我們知道一系列事件的初始條件(起始點),我們就可以預(yù)測該序列的下一步。相反,在隨機過程中,如果我們知道初始條件,我們不能完全確定接下來的步驟是什么。這是因為這個過程可能會以許多不同的方式演化。

在確定性過程中,所有后續(xù)步驟的概率都為1。另一方面,隨機性隨機過程的情況則不然。

任何完全隨機的東西對我們都沒有任何用處,除非我們能識別出其中的模式。在隨機過程中,每個單獨的事件都是隨機的,盡管可以識別出連接這些事件的隱藏模式。這樣,我們的隨機過程就被揭開了神秘的面紗,我們就能夠?qū)ξ磥淼氖录龀鰷?zhǔn)確的預(yù)測。

為了用統(tǒng)計學(xué)的術(shù)語來描述隨機過程,我們可以給出以下定義:

觀測值:一次試驗的結(jié)果。
總體:所有可能的觀測值,可以記為一個試驗。
樣本: 從獨立試驗中收集的一組結(jié)果。

例如,拋一枚均勻硬幣是一個隨機過程,但由于大數(shù)定律,我們知道,如果進行大量的試驗,我們將得到大約相同數(shù)量的正面和反面。

大數(shù)定律指出:

“隨著樣本規(guī)模的增大,樣本的均值將更接近總體的均值或期望值。因此,當(dāng)樣本容量趨于無窮時,樣本均值收斂于總體均值。重要的一點是樣本中的觀測必須是相互獨立的。”

--Jason Brownlee

隨機過程的例子有股票市場和醫(yī)學(xué)數(shù)據(jù),如血壓和腦電圖分析。

泊松過程

泊松過程用于對一系列離散事件建模,在這些事件中,我們知道不同事件發(fā)生的平均時間,但我們不知道這些事件確切在何時發(fā)生。

如果一個隨機過程能夠滿足以下條件,則可以認為它屬于泊松過程:

事件彼此獨立(如果一個事件發(fā)生,并不會影響另一個事件發(fā)生的概率)。
兩個事件不能同時發(fā)生。
事件的平均發(fā)生比率是恒定的。

讓我們以停電為例。電力供應(yīng)商可能會宣傳平均每10個月就會斷電一次,但我們不能準(zhǔn)確地說出下一次斷電的時間。例如,如果發(fā)生了嚴(yán)重問題,可能會連續(xù)停電2-3天(如,讓公司需要對電源供應(yīng)做一些調(diào)整),以便在接下來的兩天繼續(xù)使用。

因此,對于這種類型的隨機過程,我們可以相當(dāng)確定事件之間的平均時間,但它們是在隨機的間隔時間內(nèi)發(fā)生的。

由泊松過程,我們可以得到一個泊松分布,它可以用來推導(dǎo)出不同事件發(fā)生之間的等待時間的概率,或者一個時間段內(nèi)可能發(fā)生事件的數(shù)量。

泊松分布可以使用下面的公式來建模(圖2),其中k表示一個時期內(nèi)可能發(fā)生的事件的預(yù)期數(shù)量。

 

 

圖2:泊松分布公式[3]

一些可以使用泊松過程模擬的現(xiàn)象的例子是原子的放射性衰變和股票市場分析。

隨機漫步和布朗運動過程

隨機漫步是可以在隨機方向上移動的任意離散步的序列(長度總是相同)(圖3)。隨機漫步可以發(fā)生在任何維度空間中(如:1D,2D,nD)。

 

 

圖3:高維空間[4]中的隨機漫步

現(xiàn)在我將用一維空間(數(shù)軸)向您介紹隨機漫步,這里解釋的這些概念也適用于更高維度。

我們假設(shè)我們在一個公園里,我們看到一只狗在尋找食物。它目前在數(shù)軸上的位置為0,它向左或向右移動找到食物的概率相等(圖4)。

 

 

圖4:數(shù)軸[5]

現(xiàn)在,如果我們想知道在N步之后狗的位置是多少,我們可以再次利用大數(shù)定律。利用這個定律,我們會發(fā)現(xiàn)當(dāng)N趨于無窮時,我們的狗可能會回到它的起點。無論如何,此時這種情況并沒有多大用處。

因此,我們可以嘗試使用均方根(RMS)作為距離度量(首先對所有值求平方,然后計算它們的平均值,最后對結(jié)果求平方根)。這樣,所有的負數(shù)都變成正數(shù),平均值不再等于零。

在這個例子中,使用RMS我們會發(fā)現(xiàn),如果我們的狗走了100步,它平均會從原點移動10步(√100 = 10)。

如前面所述,隨機漫步用于描述離散時間過程。相反,布朗運動可以用來描述連續(xù)時間的隨機漫步。

隱馬爾科夫模型

隱馬爾可夫模型都是關(guān)于認識序列信號的。它們在數(shù)據(jù)科學(xué)領(lǐng)域有大量應(yīng)用,例如:

計算生物學(xué)(https://towardsdatascience.com/computational-biology-fca101e20412)。
寫作/語音識別。
自然語言處理(NLP)。
強化學(xué)習(xí)

HMMs是一種概率圖形模型,用于從一組可觀察狀態(tài)預(yù)測隱藏(未知)狀態(tài)序列。

這類模型遵循馬爾可夫過程假設(shè):

“鑒于我們知道現(xiàn)在,所以未來是獨立于過去的"

因此,在處理隱馬爾可夫模型時,我們只需要知道我們的當(dāng)前狀態(tài),以便預(yù)測下一個狀態(tài)(我們不需要任何關(guān)于前一個狀態(tài)的信息)。

要使用HMMs進行預(yù)測,我們只需要計算隱藏狀態(tài)的聯(lián)合概率,然后選擇產(chǎn)生最高概率(最有可能發(fā)生)的序列。

為了計算聯(lián)合概率,我們需要以下三種信息:

初始狀態(tài):任意一個隱藏狀態(tài)下開始序列的初始概率。
轉(zhuǎn)移概率:從一個隱藏狀態(tài)轉(zhuǎn)移到另一個隱藏狀態(tài)的概率。
發(fā)射概率:從隱藏狀態(tài)移動到觀測狀態(tài)的概率

舉個簡單的例子,假設(shè)我們正試圖根據(jù)一群人的穿著來預(yù)測明天的天氣是什么(圖5)。

在這種例子中,不同類型的天氣將成為我們的隱藏狀態(tài)。晴天,刮風(fēng)和下雨)和穿的衣服類型將是我們可以觀察到的狀態(tài)(如,t恤,長褲和夾克)。初始狀態(tài)是這個序列的起點。轉(zhuǎn)換概率,表示的是從一種天氣轉(zhuǎn)換到另一種天氣的可能性。最后,發(fā)射概率是根據(jù)前一天的天氣,某人穿某件衣服的概率。

 

 

圖5:隱馬爾可夫模型示例[6]

使用隱馬爾可夫模型的一個主要問題是,隨著狀態(tài)數(shù)的增加,概率和可能狀態(tài)的數(shù)量呈指數(shù)增長。為了解決這個問題,可以使用維特比算法。

如果您對使用HMMs和生物學(xué)中的Viterbi算法的實際代碼示例感興趣,可以在我的Github代碼庫中找到它。

從機器學(xué)習(xí)的角度來看,觀察值組成了我們的訓(xùn)練數(shù)據(jù),隱藏狀態(tài)的數(shù)量組成了我們要調(diào)優(yōu)的超參數(shù)。

機器學(xué)習(xí)中HMMs最常見的應(yīng)用之一是agent-based情景,如強化學(xué)習(xí)(圖6)。

 

 

圖6:強化學(xué)習(xí)[7]中的HMMs

高斯過程

高斯過程是一類完全依賴自協(xié)方差函數(shù)的平穩(wěn)零均值隨機過程。這類模型可用于回歸和分類任務(wù)。

高斯過程最大的優(yōu)點之一是,它們可以提供關(guān)于不確定性的估計,例如,給我們一個算法確定某個項是否屬于某個類的確定性估計。

為了處理嵌入一定程度上的不確定性的情況,通常使用概率分布。

一個離散概率分布的簡單例子是擲骰子。

想象一下,現(xiàn)在你的一個朋友挑戰(zhàn)你擲骰子,你擲了50個trows。在擲骰子公平的情況下,我們期望6個面中每個面出現(xiàn)的概率相同(各為1/6)。如圖7所示。

 

 

圖7:擲骰子公平的概率分布

無論如何,你玩得越多,你就越可以看到到骰子總是落在相同的面上。此時,您開始考慮骰子可能是不公平的,因此您改變了關(guān)于概率分布的最初信念(圖8)。

 

 

圖8:不公平骰子的概率分布

這個過程被稱為貝葉斯推理。

貝葉斯推理是我們在獲得新證據(jù)的基礎(chǔ)上更新自己對世界的認知的過程。

我們從一個先前的信念開始,一旦我們用全新的信息更新它,我們就構(gòu)建了一個后驗信念。這種推理同樣適用于離散分布和連續(xù)分布。

因此,高斯過程允許我們描述概率分布,一旦我們收集到新的訓(xùn)練數(shù)據(jù),我們就可以使用貝葉斯法則(圖9)更新分布。

 

 

圖9:貝葉斯法則[8]

自回歸移動平均過程

自回歸移動平均(ARMA)過程是一類非常重要的分析時間序列的隨機過程。ARMA模型的特點是它們的自協(xié)方差函數(shù)只依賴于有限數(shù)量的未知參數(shù)(對于高斯過程是不可能的)。

縮略詞ARMA可以分為兩個主要部分:

自回歸=模型利用了預(yù)先定義的滯后觀測值與當(dāng)前滯后觀測值之間的聯(lián)系。
移動平均=模型利用了殘差與觀測值之間的關(guān)系。

ARMA模型利用兩個主要參數(shù)(p, q),分別為:

p = 滯后觀測次數(shù)。
q = 移動平均窗口的大小。

ARMA過程假設(shè)一個時間序列在一個常數(shù)均值附近均勻波動。如果我們試圖分析一個不遵循這種模式的時間序列,那么這個序列將需要被差分,直到分割后的序列具有平穩(wěn)性。

這可以通過使用一個ARIMA模型來實現(xiàn),如果你有興趣了解更多,我寫了一篇關(guān)于使用ARIMA進行股票市場分析的文章。

“The only simple truth is that there is nothing simple in this complex universe. Everything relates. Everything connects”

— Johnny Rich, The Human Script

介紹

機器學(xué)習(xí)的主要應(yīng)用之一是對隨機過程建模。機器學(xué)習(xí)中一些隨機過程的例子如下:

泊松過程:用于處理等待時間以及隊列。

隨機漫步和布朗運動過程:用于交易算法。

馬爾可夫決策過程:常用于計算生物學(xué)和強化學(xué)習(xí)。

高斯過程:用于回歸和優(yōu)化問題(如,超參數(shù)調(diào)優(yōu)和自動機器學(xué)習(xí))。

自回歸和移動平均過程:用于時間序列分析(如,ARIMA模型)。

在本文中,我將簡要地向你介紹這些隨機過程。

歷史背景

隨機過程是我們?nèi)粘I畹囊徊糠。隨機過程之所以如此特殊,是因為隨機過程依賴于模型的初始條件。在上個世紀(jì),許多數(shù)學(xué)家,如龐加萊,洛倫茲和圖靈都被這個話題所吸引。

如今,這種行為被稱為確定性混沌,它與真正的隨機性有著截然不同的范圍界限。

由于愛德華·諾頓·洛倫茲的貢獻,混沌系統(tǒng)的研究在1963年取得了突破性進展。當(dāng)時,洛倫茲正在研究如何改進天氣預(yù)報。洛倫茲在他的分析中注意到,即使是大氣中的微小擾動也能引起氣候變化。

洛倫茲用來描述這種狀態(tài)的一個著名的短語是:

“A butterfly flapping its wings in Brazil can produce a tornado in Texas”

(在巴西,一只蝴蝶扇動翅膀就能在德克薩斯州制造龍卷風(fēng) )— Edward Norton Lorenz

(愛德華·諾頓·洛倫茲)

這就是為什么今天的混沌理論有時被稱為“蝴蝶效應(yīng)”。

分形學(xué)

一個簡單的混沌系統(tǒng)的例子是分形(如圖所示)。分形是在不同尺度上不斷重復(fù)的一種模式。由于分形的縮放方式,分形不同于其他類型的幾何圖形。

分形是遞歸驅(qū)動系統(tǒng),能夠捕獲混沌行為。在現(xiàn)實生活中,分形的例子有:樹、河、云、貝殼等。

 

 

圖1:MC. Escher, Smaller and Smaller [1]

在藝術(shù)領(lǐng)域有很多自相似的圖形。毫無疑問, MC. Escher是最著名的藝術(shù)家之一,他的作品靈感來自數(shù)學(xué)。事實上,在他的畫中反復(fù)出現(xiàn)各種不可能的物體,如彭羅斯三角形和莫比烏斯帶。在"Smaller and Smaller"中,他也反復(fù)使用了自相似性(圖1)。除了蜥蜴的外環(huán),畫中的內(nèi)部圖案也是自相似性的。每重復(fù)一次,它就包含一個有一半尺度的復(fù)制圖案。

確定性和隨機性過程

有兩種主要的隨機過程:確定性和隨機性。

在確定性過程中,如果我們知道一系列事件的初始條件(起始點),我們就可以預(yù)測該序列的下一步。相反,在隨機過程中,如果我們知道初始條件,我們不能完全確定接下來的步驟是什么。這是因為這個過程可能會以許多不同的方式演化。

在確定性過程中,所有后續(xù)步驟的概率都為1。另一方面,隨機性隨機過程的情況則不然。

任何完全隨機的東西對我們都沒有任何用處,除非我們能識別出其中的模式。在隨機過程中,每個單獨的事件都是隨機的,盡管可以識別出連接這些事件的隱藏模式。這樣,我們的隨機過程就被揭開了神秘的面紗,我們就能夠?qū)ξ磥淼氖录龀鰷?zhǔn)確的預(yù)測。

為了用統(tǒng)計學(xué)的術(shù)語來描述隨機過程,我們可以給出以下定義:

觀測值:一次試驗的結(jié)果。
總體:所有可能的觀測值,可以記為一個試驗。
樣本: 從獨立試驗中收集的一組結(jié)果。

例如,拋一枚均勻硬幣是一個隨機過程,但由于大數(shù)定律,我們知道,如果進行大量的試驗,我們將得到大約相同數(shù)量的正面和反面。

大數(shù)定律指出:

“隨著樣本規(guī)模的增大,樣本的均值將更接近總體的均值或期望值。因此,當(dāng)樣本容量趨于無窮時,樣本均值收斂于總體均值。重要的一點是樣本中的觀測必須是相互獨立的。”

--Jason Brownlee

隨機過程的例子有股票市場和醫(yī)學(xué)數(shù)據(jù),如血壓和腦電圖分析。

泊松過程

泊松過程用于對一系列離散事件建模,在這些事件中,我們知道不同事件發(fā)生的平均時間,但我們不知道這些事件確切在何時發(fā)生。

如果一個隨機過程能夠滿足以下條件,則可以認為它屬于泊松過程:

事件彼此獨立(如果一個事件發(fā)生,并不會影響另一個事件發(fā)生的概率)。
兩個事件不能同時發(fā)生。
事件的平均發(fā)生比率是恒定的。

讓我們以停電為例。電力供應(yīng)商可能會宣傳平均每10個月就會斷電一次,但我們不能準(zhǔn)確地說出下一次斷電的時間。例如,如果發(fā)生了嚴(yán)重問題,可能會連續(xù)停電2-3天(如,讓公司需要對電源供應(yīng)做一些調(diào)整),以便在接下來的兩天繼續(xù)使用。

因此,對于這種類型的隨機過程,我們可以相當(dāng)確定事件之間的平均時間,但它們是在隨機的間隔時間內(nèi)發(fā)生的。

由泊松過程,我們可以得到一個泊松分布,它可以用來推導(dǎo)出不同事件發(fā)生之間的等待時間的概率,或者一個時間段內(nèi)可能發(fā)生事件的數(shù)量。

泊松分布可以使用下面的公式來建模(圖2),其中k表示一個時期內(nèi)可能發(fā)生的事件的預(yù)期數(shù)量。

 

 

圖2:泊松分布公式[3]

一些可以使用泊松過程模擬的現(xiàn)象的例子是原子的放射性衰變和股票市場分析。

隨機漫步和布朗運動過程

隨機漫步是可以在隨機方向上移動的任意離散步的序列(長度總是相同)(圖3)。隨機漫步可以發(fā)生在任何維度空間中(如:1D,2D,nD)。

 

 

圖3:高維空間[4]中的隨機漫步

現(xiàn)在我將用一維空間(數(shù)軸)向您介紹隨機漫步,這里解釋的這些概念也適用于更高維度。

我們假設(shè)我們在一個公園里,我們看到一只狗在尋找食物。它目前在數(shù)軸上的位置為0,它向左或向右移動找到食物的概率相等(圖4)。

 

 

圖4:數(shù)軸[5]

現(xiàn)在,如果我們想知道在N步之后狗的位置是多少,我們可以再次利用大數(shù)定律。利用這個定律,我們會發(fā)現(xiàn)當(dāng)N趨于無窮時,我們的狗可能會回到它的起點。無論如何,此時這種情況并沒有多大用處。

因此,我們可以嘗試使用均方根(RMS)作為距離度量(首先對所有值求平方,然后計算它們的平均值,最后對結(jié)果求平方根)。這樣,所有的負數(shù)都變成正數(shù),平均值不再等于零。

在這個例子中,使用RMS我們會發(fā)現(xiàn),如果我們的狗走了100步,它平均會從原點移動10步(√100 = 10)。

如前面所述,隨機漫步用于描述離散時間過程。相反,布朗運動可以用來描述連續(xù)時間的隨機漫步。

隱馬爾科夫模型

隱馬爾可夫模型都是關(guān)于認識序列信號的。它們在數(shù)據(jù)科學(xué)領(lǐng)域有大量應(yīng)用,例如:

計算生物學(xué)(https://towardsdatascience.com/computational-biology-fca101e20412)。
寫作/語音識別。
自然語言處理(NLP)。
強化學(xué)習(xí)

HMMs是一種概率圖形模型,用于從一組可觀察狀態(tài)預(yù)測隱藏(未知)狀態(tài)序列。

這類模型遵循馬爾可夫過程假設(shè):

“鑒于我們知道現(xiàn)在,所以未來是獨立于過去的"

因此,在處理隱馬爾可夫模型時,我們只需要知道我們的當(dāng)前狀態(tài),以便預(yù)測下一個狀態(tài)(我們不需要任何關(guān)于前一個狀態(tài)的信息)。

要使用HMMs進行預(yù)測,我們只需要計算隱藏狀態(tài)的聯(lián)合概率,然后選擇產(chǎn)生最高概率(最有可能發(fā)生)的序列。

為了計算聯(lián)合概率,我們需要以下三種信息:

初始狀態(tài):任意一個隱藏狀態(tài)下開始序列的初始概率。
轉(zhuǎn)移概率:從一個隱藏狀態(tài)轉(zhuǎn)移到另一個隱藏狀態(tài)的概率。
發(fā)射概率:從隱藏狀態(tài)移動到觀測狀態(tài)的概率

舉個簡單的例子,假設(shè)我們正試圖根據(jù)一群人的穿著來預(yù)測明天的天氣是什么(圖5)。

在這種例子中,不同類型的天氣將成為我們的隱藏狀態(tài)。晴天,刮風(fēng)和下雨)和穿的衣服類型將是我們可以觀察到的狀態(tài)(如,t恤,長褲和夾克)。初始狀態(tài)是這個序列的起點。轉(zhuǎn)換概率,表示的是從一種天氣轉(zhuǎn)換到另一種天氣的可能性。最后,發(fā)射概率是根據(jù)前一天的天氣,某人穿某件衣服的概率。

 

 

圖5:隱馬爾可夫模型示例[6]

使用隱馬爾可夫模型的一個主要問題是,隨著狀態(tài)數(shù)的增加,概率和可能狀態(tài)的數(shù)量呈指數(shù)增長。為了解決這個問題,可以使用維特比算法。

如果您對使用HMMs和生物學(xué)中的Viterbi算法的實際代碼示例感興趣,可以在我的Github代碼庫中找到它。

從機器學(xué)習(xí)的角度來看,觀察值組成了我們的訓(xùn)練數(shù)據(jù),隱藏狀態(tài)的數(shù)量組成了我們要調(diào)優(yōu)的超參數(shù)。

機器學(xué)習(xí)中HMMs最常見的應(yīng)用之一是agent-based情景,如強化學(xué)習(xí)(圖6)。

 

 

圖6:強化學(xué)習(xí)[7]中的HMMs

高斯過程

高斯過程是一類完全依賴自協(xié)方差函數(shù)的平穩(wěn)零均值隨機過程。這類模型可用于回歸和分類任務(wù)。

高斯過程最大的優(yōu)點之一是,它們可以提供關(guān)于不確定性的估計,例如,給我們一個算法確定某個項是否屬于某個類的確定性估計。

為了處理嵌入一定程度上的不確定性的情況,通常使用概率分布。

一個離散概率分布的簡單例子是擲骰子。

想象一下,現(xiàn)在你的一個朋友挑戰(zhàn)你擲骰子,你擲了50個trows。在擲骰子公平的情況下,我們期望6個面中每個面出現(xiàn)的概率相同(各為1/6)。如圖7所示。

 

 

圖7:擲骰子公平的概率分布

無論如何,你玩得越多,你就越可以看到到骰子總是落在相同的面上。此時,您開始考慮骰子可能是不公平的,因此您改變了關(guān)于概率分布的最初信念(圖8)。

 

 

圖8:不公平骰子的概率分布

這個過程被稱為貝葉斯推理。

貝葉斯推理是我們在獲得新證據(jù)的基礎(chǔ)上更新自己對世界的認知的過程。

我們從一個先前的信念開始,一旦我們用全新的信息更新它,我們就構(gòu)建了一個后驗信念。這種推理同樣適用于離散分布和連續(xù)分布。

因此,高斯過程允許我們描述概率分布,一旦我們收集到新的訓(xùn)練數(shù)據(jù),我們就可以使用貝葉斯法則(圖9)更新分布。

 

 

圖9:貝葉斯法則[8]

自回歸移動平均過程

自回歸移動平均(ARMA)過程是一類非常重要的分析時間序列的隨機過程。ARMA模型的特點是它們的自協(xié)方差函數(shù)只依賴于有限數(shù)量的未知參數(shù)(對于高斯過程是不可能的)。

縮略詞ARMA可以分為兩個主要部分:

自回歸=模型利用了預(yù)先定義的滯后觀測值與當(dāng)前滯后觀測值之間的聯(lián)系。
移動平均=模型利用了殘差與觀測值之間的關(guān)系。

ARMA模型利用兩個主要參數(shù)(p, q),分別為:

p = 滯后觀測次數(shù)。
q = 移動平均窗口的大小。

ARMA過程假設(shè)一個時間序列在一個常數(shù)均值附近均勻波動。如果我們試圖分析一個不遵循這種模式的時間序列,那么這個序列將需要被差分,直到分割后的序列具有平穩(wěn)性。

這可以通過使用一個ARIMA模型來實現(xiàn),如果你有興趣了解更多,我寫了一篇關(guān)于使用ARIMA進行股票市場分析的文章。

謝謝閱讀!

參考文獻

[1] M C Escher, “Smaller and Smaller” — 1956

[2] 機器學(xué)習(xí)中大數(shù)定律的簡要介紹。Machine Learning Mastery, Jason Brownlee.

[3] 正態(tài)分布,二項分布,泊松分布 , Make Me Analyst.

[4] 通用維基百科. Accessed at:

[5] 數(shù)軸是什么?Mathematics Monste.

[6] 機器學(xué)習(xí)算法: SD (σ)- 貝葉斯算法. Sagi Shaier, Medium.

[7] DeepMind的人工智能正在自學(xué)跑酷,結(jié)果非常令人驚訝。The Verge, James Vincent.

[8] 為數(shù)據(jù)科學(xué)專業(yè)人員寫的強大的貝葉斯定理介紹。KHYATI MAHENDRU, Analytics Vidhya. Accessed

https://towardsdatascience.com/stochastic-processes-analysis-f0a116999e4

今日資源推薦:AI入門、大數(shù)據(jù)、機器學(xué)習(xí)免費教程

35本世界頂級原本教程限時開放,這類書單由知名數(shù)據(jù)科學(xué)網(wǎng)站 KDnuggets 的副主編,同時也是資深的數(shù)據(jù)科學(xué)家、深度學(xué)習(xí)技術(shù)愛好者的Matthew Mayo推薦,他在機器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域具有豐富的科研和從業(yè)經(jīng)驗。

標(biāo)簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:這些年,我們一起追過的緩存數(shù)據(jù)庫

下一篇:是什么讓數(shù)據(jù)科學(xué)家從優(yōu)秀變得偉大?