中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何在機(jī)器學(xué)習(xí)項(xiàng)目中使用統(tǒng)計(jì)方法的示例

2018-07-25    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)是兩個(gè)密切相關(guān)的領(lǐng)域。兩者的界限有時(shí)非常模糊,例如有一些明顯屬于統(tǒng)計(jì)學(xué)領(lǐng)域的方法可以很好地處理機(jī)器學(xué)習(xí)項(xiàng)目中的問(wèn)題。事實(shí)上,機(jī)器學(xué)習(xí)預(yù)測(cè)建模項(xiàng)目必須通過(guò)統(tǒng)計(jì)學(xué)方法才能有效的進(jìn)行。

在本文中,我們將通過(guò)實(shí)例介紹一些在預(yù)測(cè)建模問(wèn)題中起關(guān)鍵作用的統(tǒng)計(jì)學(xué)方法。這將證明,統(tǒng)計(jì)學(xué)的有效知識(shí)對(duì)解決預(yù)測(cè)建模問(wèn)題是必不可少的。

 

10-Examples-of-Where-to-Use-Statistical-

 

1、問(wèn)題框架

在預(yù)測(cè)建模問(wèn)題中,影響最大的可能就是問(wèn)題框架了。它要對(duì)問(wèn)題類(lèi)型做不同的選擇,例如選擇回歸或分類(lèi),以及問(wèn)題的輸入輸出的結(jié)構(gòu)和類(lèi)型。

問(wèn)題框架并不總是顯而易見(jiàn)的。對(duì)于該領(lǐng)域的初入門(mén)者,需要對(duì)領(lǐng)域的觀察發(fā)現(xiàn)結(jié)果進(jìn)行深入研究。而對(duì)于那些總是從傳統(tǒng)角度看待問(wèn)題的領(lǐng)域?qū)<襾?lái)說(shuō),則需要從多角度考慮數(shù)據(jù)。

在構(gòu)思問(wèn)題框架時(shí)統(tǒng)計(jì)學(xué)方法能夠幫助探索數(shù)據(jù),包括:

·探索性數(shù)據(jù)分析:通過(guò)總結(jié)和可視化探索數(shù)據(jù)的ad hoc視圖。

·數(shù)據(jù)挖掘:自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)化關(guān)系和模式。

2、數(shù)據(jù)理解

數(shù)據(jù)理解意味著要對(duì)變量的分布和變量之間的關(guān)系有一個(gè)深入的了解。這些知識(shí)有些來(lái)自領(lǐng)域的專(zhuān)業(yè)知識(shí),或者需要專(zhuān)業(yè)知識(shí)來(lái)解釋。然而,不論是領(lǐng)域?qū)<疫是新手都是從這個(gè)領(lǐng)域的觀察資料中獲益。

統(tǒng)計(jì)方法的兩大分支可用于幫助理解數(shù)據(jù):

·匯總統(tǒng)計(jì):該方法使用統(tǒng)計(jì)量總結(jié)變量之間的分布和關(guān)系。

·數(shù)據(jù)可視化:該方法使用可視化方法(如圖解、散點(diǎn)圖、曲線圖)來(lái)總結(jié)變量之間的分布和關(guān)系。

3、數(shù)據(jù)清理

通過(guò)直接觀察發(fā)現(xiàn)的成果,往往不能作為最原始的數(shù)據(jù)。因?yàn)楸M管數(shù)據(jù)是數(shù)字化的,它還是會(huì)受到進(jìn)程的影響損害數(shù)據(jù)保真度,并且反過(guò)來(lái)這些數(shù)據(jù)還會(huì)對(duì)下游進(jìn)程或模型造成影響。

一些例子包括:

·數(shù)據(jù)損壞。
·數(shù)據(jù)錯(cuò)誤。
·數(shù)據(jù)丟失。

識(shí)別和修復(fù)數(shù)據(jù)問(wèn)題的過(guò)程被稱(chēng)為數(shù)據(jù)清理。

統(tǒng)計(jì)學(xué)中有些方法可用來(lái)進(jìn)行數(shù)據(jù)清理,例如:

·異常點(diǎn)檢測(cè):識(shí)別分布中遠(yuǎn)離預(yù)期值的異常值。

·歸責(zé):修復(fù)或填充觀察結(jié)果中的損壞值或缺失值。

4、數(shù)據(jù)選擇

在建模時(shí),并非所有的觀察值或所有的變量都是相關(guān)的。

將數(shù)據(jù)范圍不斷縮小,直到剩余元素對(duì)預(yù)測(cè)結(jié)果最有效的過(guò)程稱(chēng)為數(shù)據(jù)選擇。

用于數(shù)據(jù)選擇的兩種統(tǒng)計(jì)方法為:

·數(shù)據(jù)樣本:系統(tǒng)地從較大數(shù)據(jù)集中創(chuàng)建小的具有代表性的樣本。

·特征選擇:自動(dòng)識(shí)別與輸出結(jié)果最相關(guān)的變量。

5、數(shù)據(jù)準(zhǔn)備

通常數(shù)據(jù)是不能直接用于建模的。所以為了匹配已選好的問(wèn)題框架或?qū)W習(xí)算法,要對(duì)數(shù)據(jù)進(jìn)行一些轉(zhuǎn)換來(lái)改變數(shù)據(jù)的形狀或結(jié)構(gòu)。

可使用以下統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)準(zhǔn)備:

·擴(kuò)展:如標(biāo)準(zhǔn)化、規(guī)范化等方法。

·編碼:類(lèi)似整數(shù)編碼和熱編碼的方法。

·變換:類(lèi)似Box-Cox方法那樣的功率轉(zhuǎn)換方法。

6、模型評(píng)估

預(yù)測(cè)建模問(wèn)題的關(guān)鍵是評(píng)估學(xué)習(xí)方法,當(dāng)在訓(xùn)練模型中對(duì)沒(méi)見(jiàn)過(guò)的數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),需要對(duì)模型的技能進(jìn)行評(píng)估。這種訓(xùn)練和評(píng)估預(yù)測(cè)模型的過(guò)程稱(chēng)為實(shí)驗(yàn)設(shè)計(jì)。

·實(shí)驗(yàn)設(shè)計(jì):該方法能夠通過(guò)設(shè)計(jì)系統(tǒng)實(shí)驗(yàn)來(lái)比較獨(dú)立變量對(duì)輸出結(jié)果的影響,如機(jī)器學(xué)習(xí)算法的選擇對(duì)預(yù)測(cè)精度的影響。

有些實(shí)驗(yàn)設(shè)計(jì)的方法可以重新采樣數(shù)據(jù)集,從而更經(jīng)濟(jì)的使用數(shù)據(jù)來(lái)預(yù)估模型技能。

·重采樣方法:為了訓(xùn)練和評(píng)估預(yù)測(cè)模型,系統(tǒng)地將數(shù)據(jù)集分成子集的方法。

7、模型配置

一個(gè)給定的機(jī)器學(xué)習(xí)算法通常具有一套超參數(shù),通過(guò)超參數(shù)實(shí)現(xiàn)對(duì)特定問(wèn)題量身定制學(xué)習(xí)方法。超參數(shù)的配置本質(zhì)上是經(jīng)驗(yàn)性的而不是分析性的,所以需要大量實(shí)驗(yàn)來(lái)評(píng)估不同超參數(shù)值對(duì)模型技能的影響。

使用統(tǒng)計(jì)的兩個(gè)子領(lǐng)域之一對(duì)不同超參數(shù)配置之間的結(jié)果進(jìn)行解釋和比較,即:

·統(tǒng)計(jì)假設(shè)檢驗(yàn):該方法能在給定結(jié)果的假設(shè)或預(yù)期的情況下,量化觀察結(jié)果的可能性。

·估算統(tǒng)計(jì):能夠用置信區(qū)間量化結(jié)果的不確定性。

8、模型選擇

眾多機(jī)器學(xué)習(xí)算法中的某一個(gè)也許剛好適用于給定的預(yù)測(cè)建模問(wèn)題。所以,選擇一種方法作為解決方案的過(guò)程稱(chēng)為模型選擇。這可能會(huì)涉及到一套標(biāo)準(zhǔn),不僅要考慮項(xiàng)目利益相關(guān)方,還有對(duì)問(wèn)題評(píng)估方法預(yù)測(cè)技巧的要求。

可以使用與模型配置一樣的兩類(lèi)統(tǒng)計(jì)方法來(lái)解釋不同模型的估算技能,即:統(tǒng)計(jì)假設(shè)檢驗(yàn)和估算統(tǒng)計(jì)方法,從而實(shí)現(xiàn)模型選擇。

9、模型表示

一旦最終模型得到訓(xùn)練,那它基于真實(shí)數(shù)據(jù)部署后就可以進(jìn)行實(shí)際預(yù)測(cè),并呈現(xiàn)出最終結(jié)果。

最終,模型表示的一部分包括展示模型的評(píng)估技能。

估計(jì)統(tǒng)計(jì)領(lǐng)域的一些方法可以通過(guò)使用容忍區(qū)間和置信區(qū)間,達(dá)到量化機(jī)器學(xué)習(xí)模型評(píng)估技能的不確定性。

·估計(jì)統(tǒng)計(jì)。該方法通過(guò)置信區(qū)間量化模型技能的不確定性。

10、模型的預(yù)測(cè)

最后,是時(shí)候使用最終模型對(duì)我們不知道的真實(shí)結(jié)果預(yù)測(cè)新數(shù)據(jù)了。預(yù)測(cè)中非常重要的一部分是量化預(yù)測(cè)的可信度。

我們可以使用與模型表示一樣的估計(jì)統(tǒng)計(jì)方法來(lái)量化這種不確定性。

總結(jié)

通過(guò)本文,你應(yīng)該了解到了統(tǒng)計(jì)方法在整個(gè)預(yù)測(cè)建模項(xiàng)目過(guò)程中的重要性。

文章原標(biāo)題《10 Examples of How to Use Statistical Methods in a Machine Learning Project》

作者:Jason Brownlee

譯者:奧特曼

標(biāo)簽: 大數(shù)據(jù) 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:李飛飛親自宣布:Google 第三代 Cloud TPU 要來(lái)了

下一篇:英雄聯(lián)盟如何指揮團(tuán)戰(zhàn)?AI幫你做決策