中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

ML:教你聚類并構(gòu)建學(xué)習(xí)模型處理數(shù)據(jù)(附數(shù)據(jù)集)

2018-08-10    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
本文將根據(jù)41個(gè)描述性分類特征的維度,運(yùn)用無監(jiān)督主成分分析(PCA)和層次聚類方法對(duì)觀測進(jìn)行分組。將數(shù)據(jù)聚類可以更好地用簡單的多元線性模型描述數(shù)據(jù)或者識(shí)別更適合其他模型的異常組。此方法被編寫在python類中,以便將來能實(shí)現(xiàn)類似網(wǎng)格搜索的參數(shù)優(yōu)化。

 

 

結(jié)果與討論

本項(xiàng)目中,我們將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于Ames住房數(shù)據(jù)集,用79個(gè)解釋變量來預(yù)測房屋的銷售價(jià)格,其中包括41個(gè)分類變量(分類型變量),38個(gè)連續(xù)數(shù)值變量(連續(xù)型變量)。在最初探索性數(shù)據(jù)分析(EDA)和特征選擇的過程中,為了更好地理解數(shù)據(jù),我們僅用兩個(gè)連續(xù)變量來擬合數(shù)據(jù),以便通過三維散點(diǎn)圖反映數(shù)據(jù)和模型。通過列舉38個(gè)連續(xù)數(shù)值變量的所有雙變量排列組合并分別擬合線性回歸模型,我們選出了兩個(gè)對(duì)銷售價(jià)格預(yù)測能力最強(qiáng)的變量。在考慮整個(gè)訓(xùn)練集時(shí),地上居住面積和整體質(zhì)量參數(shù)是最佳的預(yù)測指標(biāo),但這只解釋了房屋銷售價(jià)73.9%的方差。通過使用41個(gè)分類特征來識(shí)別數(shù)據(jù)集內(nèi)的組群,我們可以將數(shù)據(jù)集分解為方差更小的子集,并找到更好地描述每個(gè)特定房屋子集的模型。

附Ames housing數(shù)據(jù)集:

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

 

 

一個(gè)簡單的線性回歸模型可以體現(xiàn)地上居住面積和整體質(zhì)量對(duì)住宅銷售價(jià)格的影響,它解釋了74%的房價(jià)變動(dòng)

由于分類變量較多,并且對(duì)Ames房屋市場的專業(yè)知識(shí)有限,我們使用無監(jiān)督的聚類方法找到變量里的模式并在此基礎(chǔ)上分組。首先通過PCA對(duì)數(shù)據(jù)集進(jìn)行降維,以避免大量分類變量造成的“維度災(zāi)難”效應(yīng)。PCA還有其他的好處,它能把對(duì)總體方差沒有貢獻(xiàn)的變量數(shù)量降到最低,并且將維度降低到三維以便我們直觀地改進(jìn)聚類算法的圖形表示(并且將維度降低至三維,給了我們一個(gè)圖形化的分類效果展示,以便做出直觀地改進(jìn))。下圖展示了由PCA將分類變量降到3維的圖形:

 

 

由41個(gè)分類變量濃縮后的三維PCA空間數(shù)據(jù)表示

通過對(duì)此圖的初步觀察,數(shù)據(jù)大部分的差異體現(xiàn)在新的Y(垂直)維度。在X(寬度)和Z(深度)維度中,差異來源于設(shè)定的類別,進(jìn)而導(dǎo)致數(shù)據(jù)形成垂直方向的條紋。由于群集的各向異性,我們利用有k-nearest neighbor connector參數(shù)的層次聚類算法來定義組,這樣就不會(huì)將條帶分割成多個(gè)部分。(我們利用層次聚類算法中的k鄰近算法,在不把豎狀條紋割開的基礎(chǔ)上重新定義各個(gè)組。)(在Python的sklearn庫中,AgglomerativeClustering方法可以用于聚類。本案例中,基于Ward linkage標(biāo)準(zhǔn)把類的數(shù)量設(shè)置為6,以及由kneighbors_graph包生成連接數(shù)組,其中參數(shù)n_neighbors設(shè)置為20)。

 

 

層次聚類分組的PCA空間表示

 

 

基于鄰近地區(qū)著色和PCA降維的觀測有助于發(fā)現(xiàn)影響降維及聚類的因素

由PCA 、聚類方法生成的群集非常好地區(qū)別了分組中的垂直“條紋”。為了找到無監(jiān)督聚類和其所對(duì)應(yīng)的房屋特征之間的相似點(diǎn),這些群集也基于每個(gè)分類變量著色。其中一些彩色的散點(diǎn)圖類似于無監(jiān)督聚類,表明這些特定的房子特征在確定每個(gè)數(shù)據(jù)點(diǎn)的最終PCA向量時(shí)起較大的作用。特別注意的是,基于鄰近區(qū)域(neighborhood)著色突出了與無監(jiān)督方法相似的垂直分組,這表明鄰近區(qū)域是影響分解子集的一個(gè)重要因素。為了此類應(yīng)用,我們需要設(shè)計(jì)更精確的方法來確定每個(gè)因素對(duì)最終PCA維度的整體“貢獻(xiàn)”。

為了確定每個(gè)組中哪兩大因素是銷售價(jià)格最好的預(yù)測因素,我們用這6個(gè)集群把連續(xù)數(shù)值數(shù)據(jù)分為子集,并假設(shè)一個(gè)簡單的二元線性回歸模型

 

雖然有些節(jié)點(diǎn)比其他節(jié)點(diǎn)更適合線性回歸,但相比于將數(shù)據(jù)作為整體來處理,用模型擬合這些群集在精度上沒有累積差異。然而,這只是概念驗(yàn)證的初始迭代,還沒有優(yōu)化關(guān)鍵參數(shù),如n_nodes、(節(jié)點(diǎn)數(shù)量),PCA dimensions(PCA維度)和KNN connectivity parameters(KNN連通度)。將這些方法編碼到一個(gè)python類中,它可以協(xié)助使用類似于網(wǎng)格搜索的優(yōu)化過程來確定最佳的集群參數(shù),從而最大化簡單線性回歸模型的準(zhǔn)確性。請(qǐng)參考下列GitHub鏈接中的"MC_regressor_Code.ipynb":

https://github.com/dgoldman916/housing-ml。

未來工作

此時(shí),“概念驗(yàn)證”的關(guān)鍵缺失是對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練和分類的能力。在引入測試集時(shí),要先基于訓(xùn)練得到的參數(shù)將新數(shù)據(jù)被分為有標(biāo)記的組。這就需要一個(gè)有監(jiān)督的聚類方法,比如決策樹或支持向量機(jī)(SVM)。在添加此類函數(shù)之后,可以將其應(yīng)用到組的其他工作流程中。我們可以通過預(yù)期的最終迭代在擬合穿過節(jié)點(diǎn)的更復(fù)雜的模型,并將這些模型的結(jié)果集中在一起。

標(biāo)簽: 數(shù)據(jù)分析 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:想當(dāng)數(shù)據(jù)科學(xué)家的你這13個(gè)錯(cuò)誤可別犯

下一篇:從數(shù)據(jù)治理看醫(yī)療大數(shù)據(jù)的發(fā)展