中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

先有雞or先有蛋?淺談數(shù)據(jù)拆分與特征縮放的順序問題

2018-08-31    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

數(shù)據(jù)挖掘環(huán)節(jié)中重要的兩個(gè)環(huán)節(jié),數(shù)據(jù)拆分與特征縮放,關(guān)于他們兩個(gè)的先后順序問題,我將在下文進(jìn)行闡述

前些天在 100-Days-Of-ML-Code 上回答了一個(gè)關(guān)于數(shù)據(jù)拆分與特征縮放的順序先后的一個(gè)issue,感覺挺有爭議性的,故單獨(dú)拎出來做下筆記說明。我的觀點(diǎn)是:機(jī)器學(xué)習(xí)工程中,應(yīng)該先進(jìn)行數(shù)據(jù)劃分,再進(jìn)行特征縮放。出于嚴(yán)謹(jǐn)性,本篇文章是從機(jī)器學(xué)習(xí)-數(shù)據(jù)挖掘方面進(jìn)行數(shù)據(jù)拆分與特征縮放的順序問題闡述,同時(shí)也歡迎大家一起討論這個(gè)問題。

問題闡述

關(guān)于數(shù)據(jù)拆分與特征縮放的順序先后問題,一般會(huì)在工程中遇到,具體表現(xiàn)為:

先數(shù)據(jù)拆分再特征縮放

 

 

先數(shù)據(jù)縮放再數(shù)據(jù)拆分

 

 

論點(diǎn)闡述

首先先來看下我們常用的兩種 sklearn 上的特征縮放:StandardScaler()與MinMaxScaler()

 

 

從圖中可以看出StandardScalar涉及到了均值μ與標(biāo)準(zhǔn)差σ,而MinMaxScaler則涉及到了最大值max與最小值min。這些參數(shù)的取值都得考慮到全局樣本的,什么意思呢?我們來看下兩者的輸出結(jié)果:

先數(shù)據(jù)拆分再特征縮放

 

 

先數(shù)據(jù)縮放再數(shù)據(jù)拆分

 

 

可以很明顯看出,兩種不同的操作順序輸出的數(shù)據(jù)是完全不同的,也就是說樣本的分布是完全不同的(很重要!后面闡述要用到),那這種差異性在現(xiàn)實(shí)工程中會(huì)有什么影響?要解答這個(gè)問題,首先我們首先需要了解fit_transform()方法,fit_transform()你可以理解為fit()方法和transform()方法的pipeline,進(jìn)行特征縮放時(shí)我們的順序是

• 先fit獲得相應(yīng)的參數(shù)值(可以理解為獲得特征縮放規(guī)則)

• 再用transform進(jìn)行轉(zhuǎn)換

fit_transform方法就是先執(zhí)行fit()方法再執(zhí)行transform()方法,所以每執(zhí)行一次就會(huì)采用新的特征縮放規(guī)則,我們可以將訓(xùn)練集的特征縮放規(guī)則應(yīng)用到測(cè)試集上,可以將測(cè)試集的特征縮放規(guī)則應(yīng)用到訓(xùn)練集上(不過一般很少這么做),但是通過全部數(shù)據(jù)集(訓(xùn)練集+測(cè)試集)fit到的的特征縮放規(guī)則是沒有模型訓(xùn)練意義的。

這里我們舉一個(gè)例子:假設(shè)農(nóng)業(yè)部要求我們用LR模型來對(duì)花類型進(jìn)行分類,我們經(jīng)過學(xué)習(xí)得到了一個(gè)LR模型,模型上線后,現(xiàn)在需要對(duì)新的花數(shù)據(jù)進(jìn)行預(yù)測(cè)分類(此時(shí)我們可以把舊花數(shù)據(jù)看做訓(xùn)練集,新花數(shù)據(jù)看做測(cè)試集):

•   按照先數(shù)據(jù)拆分再特征縮放的做法是:先將舊花數(shù)據(jù)fit出特征縮放規(guī)則,接著將其transform到新花數(shù)據(jù)上,接著對(duì)應(yīng)用舊花數(shù)據(jù)特征縮放規(guī)則的新花數(shù)據(jù)進(jìn)行預(yù)測(cè)分類;

•   按照先數(shù)據(jù)縮放再數(shù)據(jù)拆分的做法是:將新舊花數(shù)據(jù)合并為一個(gè)總數(shù)據(jù)集,接著對(duì)總數(shù)據(jù)集進(jìn)行fit_transform操作,最后再把新花數(shù)據(jù)切分出來進(jìn)行預(yù)測(cè)分類;

重點(diǎn)!!!

這時(shí)候問題來了,“我們經(jīng)過學(xué)習(xí)得到了一個(gè)LR模型”,請(qǐng)問我們學(xué)習(xí)的數(shù)據(jù)是什么?舊花數(shù)據(jù) OR 新舊花合并數(shù)據(jù)?答案肯定是舊花數(shù)據(jù)啊,更為詳細(xì)地講,是應(yīng)用舊花數(shù)據(jù)特征縮放規(guī)則的舊花數(shù)據(jù),這時(shí)候第二種做法的問題就出來了,我們這個(gè)LR模型是根據(jù)應(yīng)用舊花數(shù)據(jù)特征縮放規(guī)則的舊花數(shù)據(jù)的分布學(xué)習(xí)到的這條分類線

 

 

而此時(shí)你卻將這條分類線去應(yīng)用在應(yīng)用新舊花數(shù)據(jù)特征縮放規(guī)則的新花數(shù)據(jù)上,根據(jù)上方我們得到的論點(diǎn)“兩種不同的操作順序輸出的樣本的分布是完全不同”,兩種完全不同的分布,你用根據(jù)其中一種分布學(xué)習(xí)得到分類線對(duì)另一種分布來說是完全沒有使用意義的,因?yàn)閮烧吒究梢哉f是根據(jù)不同的數(shù)據(jù)學(xué)習(xí)而來的,所以有些時(shí)候第二種做法效果可能會(huì)很好也可能會(huì)很糟糕,這就像你拿牛數(shù)據(jù)學(xué)習(xí)的LR模型去預(yù)測(cè)花的分類一樣。而機(jī)器學(xué)習(xí)的前身就是統(tǒng)計(jì)學(xué),而統(tǒng)計(jì)學(xué)的一個(gè)樣本基本原則就是樣本同質(zhì)性(homogenetic)。

總結(jié)

 

 

這里我貼的是sklearn的一段官方demo代碼,可以看出sklearn的演示代碼也是遵從先數(shù)據(jù)拆分再特征縮放的順序進(jìn)行的操作,先fit到X_train的特征縮放規(guī)則,再將其應(yīng)用在X_test上,這也從一個(gè)小方面驗(yàn)證了我的觀點(diǎn)吧(雖然我也不喜歡不嚴(yán)謹(jǐn)?shù)呐e例論證方法)。所以綜上所述,我的觀點(diǎn)是在進(jìn)行數(shù)據(jù)挖掘方面的工作時(shí),面對(duì)特征縮放環(huán)節(jié),應(yīng)該先進(jìn)行數(shù)據(jù)拆分再進(jìn)行特征縮放。

標(biāo)簽: 代碼

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:KDD Cup2018 冠軍first floor to eat latiao:想要得第一,傳揚(yáng)中華美食

下一篇:機(jī)器學(xué)習(xí)=「新瓶裝舊酒」的數(shù)據(jù)統(tǒng)計(jì)?No!