中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

處理不平衡數(shù)據(jù)的技巧總結(jié)!

2018-07-28    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
概念

類別數(shù)據(jù)不均衡是分類任務(wù)中一個(gè)典型的存在的問(wèn)題。簡(jiǎn)而言之,即數(shù)據(jù)集中,每個(gè)類別下的樣本數(shù)目相差很大。例如,在一個(gè)二分類問(wèn)題中,共有100個(gè)樣本(100行數(shù)據(jù),每一行數(shù)據(jù)為一個(gè)樣本的表征),其中80個(gè)樣本屬于class 1,其余的20個(gè)樣本屬于class 2,class 1:class2=80:20=4:1,這便屬于類別不均衡。當(dāng)然,類別不均衡問(wèn)同樣會(huì)發(fā)生在多分類任務(wù)中。它們的解決方法是一樣的。

現(xiàn)實(shí)中有很多類別不均衡問(wèn)題,它是常見(jiàn)的,并且也是合理的,符合人們期望的。如,在欺詐交易識(shí)別中,屬于欺詐交易的應(yīng)該是很少部分,即絕大部分交易是正常的,只有極少部分的交易屬于欺詐交易。這就是一個(gè)正常的類別不均衡問(wèn)題。又如,在客戶流失的數(shù)據(jù)集中,絕大部分的客戶是會(huì)繼續(xù)享受其服務(wù)的(非流失對(duì)象),只有極少數(shù)部分的客戶不會(huì)再繼續(xù)享受其服務(wù)(流失對(duì)象)。一般而已,如果類別不平衡比例超過(guò)4:1,那么其分類器會(huì)大大地因?yàn)閿?shù)據(jù)不平衡性而無(wú)法滿足分類要求的。因此在構(gòu)建分類模型之前,需要對(duì)分類不均衡性問(wèn)題進(jìn)行處理。

解決方案

迄今為止 , 解決不平衡分類問(wèn)題的策略可以分 為兩大類 .一類是從訓(xùn)練集入手 , 通過(guò)改變訓(xùn)練集樣本分布 ,降低不平衡程度 .另一類是從學(xué)習(xí)算法入手 , 根據(jù)算法在解決不平衡問(wèn)題時(shí)的缺陷 , 適當(dāng)?shù)匦薷乃惴ㄊ怪m應(yīng)不平衡分類問(wèn)題 .平衡訓(xùn)練集的方法主要有訓(xùn)練集重采樣 (re-sampling)方法和訓(xùn)練集劃分方法 .學(xué)習(xí)算法層面的策略包括分類器集成 、代價(jià)敏感學(xué)習(xí)和特征選擇方法等 .

一、數(shù)據(jù)層面

1、重采樣

重采樣方法是通過(guò)增加稀有類訓(xùn)練樣本數(shù)的上采樣 (up-sampling)和減少大類樣本數(shù)的下采樣(down-samplings)使不平衡的樣本分布變得比較平衡,從而提高分類器對(duì)稀有類的識(shí)別率 .

上采樣

最原始的上采樣方法是復(fù)制稀有類的樣本 , 但是這樣做容易導(dǎo)致過(guò)學(xué)習(xí), 并且對(duì)提高稀有類識(shí) 別率沒(méi)有太大幫助 .較高級(jí)的上采樣方法則采用一些啟發(fā)式技巧 , 有選擇地復(fù)制稀有類樣本 , 或者生成新的稀有類樣本。Chawla等人提出的SMOTE算法是一種簡(jiǎn)單有效的上采樣方法,該方法首先為每個(gè)稀有類樣本隨機(jī)選出幾個(gè)鄰近樣本,并且在該樣本與這些鄰近的樣本的連線上隨機(jī)取點(diǎn),生成無(wú)重復(fù)的新的稀有類樣本。還有一些其他的方法,如添加隨機(jī)噪聲,還有一些其他的研究,具體可以看相關(guān)論文。

這里有SMOTE算法的多個(gè)不同語(yǔ)言的實(shí)現(xiàn)版本:

* Python: UnbalancedDataset模塊提供了SMOTE算法的多種不同實(shí)現(xiàn)版本,以及多種重采樣算法。

* R: DMwR package。

* Weka: SMOTE supervised filter。

下采樣

下采樣通過(guò)舍棄部分大類樣本的方法 , 降低不平衡程度 .Kubat和MatwinAddressing the Curse of Imbalanced Training Sets: One-Sided Selection采用單邊采樣方式,去除大類中的噪音樣本 、邊界樣本和冗余樣本 .Chen等人Pruning support vectors for imbalanced data classification則通過(guò)修剪大類的支持向量,達(dá)到平衡支持向量個(gè)數(shù)的目的,從而提高稀有類的識(shí)別率 .Raskutti和KowalczykRaskutti B, Kowalczyk A. Extreme Re-balancing for SVMs: A Case Study. 同時(shí)考慮上采樣和下采樣 , 并且擴(kuò)展到一類學(xué)習(xí) , 即只采用一類的樣本作為訓(xùn)練集 , 因此不存在不平衡分類問(wèn)題 .Estabroks和JapkowicA Mixture-of-Experts Framework for Learning from Imbalanced Data Sets同時(shí)采用上采樣和下采樣以及不同的采樣率,獲得大量的子分類器 , 并使用混合專家

(mixture-of-experts)學(xué)習(xí)框架將這些子分類器集成 . 他們的結(jié)果顯示,這種方法比普通的 AdaBost有更好的分類效果 , 但并不清楚到底是上采樣還是下采樣更有效 , 也不清楚哪種采樣率最合適 .

雖然重采樣在一些數(shù)據(jù)集上取得了不錯(cuò)的效果 , 但是這類方法也存在一些缺陷 .上采樣方法并不增加任何新的數(shù)據(jù) , 只是重復(fù)一些樣本或增加一些 人工生成的稀有類樣本 , 增加了訓(xùn)練時(shí)間 .更危險(xiǎn)的是 ,上采樣復(fù)制某些稀有類樣本 , 或者在它周圍生成新的稀有類樣本,使得分類器過(guò)分注重這些樣本,導(dǎo)致過(guò)學(xué)習(xí).上采樣不能從本質(zhì)上解決稀有類樣 本的稀缺性和數(shù)據(jù)表示的不充分性 , 因此有人指出它的性能不如下采樣.下采樣在去除大類樣本的時(shí)候 , 容易去除重要的樣本信息 .雖然有些啟發(fā)式的下采樣方法 , 只是去除冗余樣本和噪聲樣本,但是多數(shù)情況下這類樣本只是小部分 ,因此這種方法能夠調(diào)整的不平衡度相當(dāng)有限 .

2、訓(xùn)練集劃分方法

對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行劃分 , 是另一種有效的訓(xùn)練

集平衡方法 .Chan 和 StolfoToward Scalable Learning with Non-uniform Class and Cost Distributions: A Case Study in Credit Card Fraud Detection

首先根據(jù)代價(jià)敏感學(xué)習(xí)的需要 ,學(xué)習(xí)一個(gè)合理的類別樣本分布比例 .然后將大類樣本隨機(jī)劃分成一系列不相交子集 .這些子 集的大小由稀有類樣本集的數(shù)量和預(yù)先學(xué)習(xí)的樣本 分布比例決定 .接下來(lái)分別將這些不相交子集跟稀 有類樣本結(jié)合 , 組成一系列平衡的分類子問(wèn)題 , 單獨(dú)訓(xùn)練成子分類器.最后通過(guò)元學(xué)習(xí) (meta learning) 將這些子分類器的輸出進(jìn)一步學(xué)習(xí)成組合分類器 . 這種方法在信用卡非法使用檢測(cè)問(wèn)題上大大降低了總代價(jià).

二、算法層面

1、 分類器集成方法

Chen等 提出了平衡隨機(jī)森林的方法 ,該方法對(duì)正類和反類分別進(jìn)行重采樣, 重采樣多次后采用多數(shù)投票的方法進(jìn)行集成學(xué)習(xí).Chawla等人將boosting算法與 SMOTE算

法結(jié)合成SMOTEBoost算法 , 該算法每次迭代使用SMOTE生成新的樣本 ,取代原有 AdaBoost算法中對(duì)樣本權(quán)值的調(diào)整, 使得Boosting算法專注于正類中的難分樣本

2、 代價(jià)敏感方法

在大部分不平衡分類問(wèn)題中 , 稀有類是分類的重點(diǎn) .在這種情況下 , 正確識(shí)別出稀有類的樣本比識(shí) 別大類的樣本更有價(jià)值 .反過(guò)來(lái)說(shuō) , 錯(cuò)分稀有類的樣 本需要付出更大的代價(jià) .代價(jià)敏感學(xué)習(xí)賦予各個(gè)類別不同的錯(cuò)分代價(jià) , 它能很好地解決不平衡分類 問(wèn)題 .以兩類問(wèn)題為例 , 假設(shè)正類是稀有類 , 并具有 更高的錯(cuò)分代價(jià) , 則分類器在訓(xùn)練時(shí) , 會(huì)對(duì)錯(cuò)分正類 樣本做更大的懲罰 , 迫使最終分類器對(duì)正類樣本有更高的識(shí)別率 .如Metacost和Adacost等算法。

代價(jià)敏感學(xué)習(xí)能有效地提高稀有類的識(shí)別率 . 但問(wèn)題是 , 一方面 , 在多數(shù)情況下 , 真實(shí)的錯(cuò)分代價(jià) 很難被準(zhǔn)確地估計(jì).另一方面,雖然許多分類器 可以直接引入代價(jià)敏感學(xué)習(xí)機(jī)制 , 如支持向量機(jī)和 決策樹(shù) , 但是也有一些分類器不能直接使用代價(jià)敏感學(xué)習(xí) , 只能通過(guò)調(diào)整正負(fù)樣本比例或者決策閾值間接的實(shí)現(xiàn)代價(jià)敏感學(xué)習(xí),這樣不能保證代價(jià)敏感學(xué)習(xí)的效果。

3、 特征選擇方法

特征選擇方法對(duì)于不平衡分類問(wèn)題同樣具有重要意義 .樣本數(shù)量分布很不平衡時(shí),特征的分布同樣會(huì)不平衡.尤其在文本分類問(wèn)題中,在大類中經(jīng)常出現(xiàn)的特征,也許在稀有類中根本不出現(xiàn) .因此 ,根據(jù)不平衡分類問(wèn)題的特點(diǎn) , 選取最具有區(qū)分能力的特征 ,有利于提高稀有類的識(shí)別率 .

通過(guò)采用特征選擇來(lái)解決不平衡分類問(wèn)題主要

集中于自然語(yǔ)言處理領(lǐng)域 .Cardie和 HoweOptimally combining positive and negative features for text categorization

以基于事例學(xué)習(xí) (casebasedlearning)的框架為基礎(chǔ),提出了一種與測(cè)試樣本相關(guān)的動(dòng)態(tài)特征加權(quán)方法 .該方法首先利用訓(xùn)練集得到一棵決策樹(shù), 然后計(jì)算每個(gè)測(cè)試樣本在測(cè)試路徑上的信息收益, 并以此計(jì)算每個(gè)特征的權(quán)值, 最后 , 從訓(xùn)練集中挑選 k個(gè)與測(cè)試樣本最接近的樣本 ,并對(duì)他們測(cè)試類別進(jìn)行投票 .該方法在提高正類樣本準(zhǔn)確率的同時(shí)確保了總的準(zhǔn)確率不下降

4、其他算法

Wu和 Chang KBA: kernel boundary alignment considering imbalanced data distribution

提出了一種修改支持向量機(jī)核

函數(shù)矩陣 (kernelmatrix)方法 , 該方法通過(guò)將核函數(shù) 矩陣進(jìn)行保角變換(conformaltransformation), 擴(kuò)大 稀有類特征向量處的邊界 , 從而增加正負(fù)類樣本的 分離度 , 減少大類的支持向量數(shù)目 , 起到降低不平衡 度的效果 .理論分析和仿真試驗(yàn)結(jié)果表明 , 該方法在 一些不平衡數(shù)據(jù)集上有比較好的效果 .

一 類 學(xué) 習(xí) (one-clas slearning)Estimating the support of a high-dimensional distribution也 被 用 于 處 理 不平衡問(wèn)題 .當(dāng)樣本數(shù)量不平衡時(shí) , 并且當(dāng)特征空間 中混雜有大量噪音特征時(shí) , 基于學(xué)習(xí)單一稀有類樣本的產(chǎn)生式模型 , 相比于學(xué)習(xí)兩類問(wèn)題的判別式模型具有更好的性能.

分類器評(píng)價(jià)指標(biāo)

在評(píng)估分類器的性能和指導(dǎo)分類器建模方面,評(píng)估標(biāo)準(zhǔn)發(fā)揮了關(guān)鍵作用。 在傳統(tǒng)的分類方法中,準(zhǔn)確率是常用的指標(biāo)。 然而在不平衡數(shù)據(jù)分類中,準(zhǔn)確率不再是恰當(dāng)?shù)闹笜?biāo)。 在兩類問(wèn)題中,正例數(shù)目很少但具有很高的識(shí)別重要性,另一類為負(fù)例。

 

 

從該表我們可以得到下列度量指標(biāo):

真陽(yáng)性率:TPrate= TP/(TP+FN)
真陰性率:TNrate=TN/(TN+FP)
假陽(yáng)性率:FPrate=FP/(TN+FP)
假陰性率:FNrate=FN/(TP+FN)
陽(yáng)性預(yù)測(cè)值:PPvalue=TP/(TP+FP)
假性預(yù)測(cè)值:NPvalue=TN/(TN+FN)

上述度量指標(biāo)都不能很好的評(píng)估不平衡數(shù)據(jù)分類, 針對(duì)不平衡數(shù)據(jù)分類我們用幾個(gè)新的度量指標(biāo)如下:

(1)F-measure

在信息檢索領(lǐng)域,真陽(yáng)性率被稱為 recall,

陽(yáng)性預(yù)測(cè)值被稱為精確率分別定義如下:

Recall =TPrate =TP/(TP+FN),
Precision =PPvalue = TP/(TP+FP)
F-measure=2×Recall×Precision/(Recall+Precision)

F-measure是 Precision 和 Recall 的調(diào)和平均值。 兩個(gè)數(shù)值的調(diào)和平均更加接近兩個(gè)數(shù)當(dāng)中較小的那 個(gè), 因此如果要使得 F-measure 很高的話那么 Recall 和 Precision 都必須很高。

(2)G-mean

當(dāng)兩個(gè)類別的性能都需要考慮時(shí),TPrate 和 TNrate 需要同時(shí)高,Kubat 等人提出了 G-mean。

 

 

G-mean 評(píng)估一個(gè)學(xué)習(xí)算法的綜合性能。 根據(jù)之前 的研究, 為了能夠獲得盡可能多的關(guān)于每個(gè)類別對(duì)最 終性能的貢獻(xiàn)大小信息,并且考慮到數(shù)據(jù)的不平衡率, 很多研究者試圖在不平衡領(lǐng)域提出新的度量指標(biāo)。 如調(diào)整G-mean,提出了 Adjusted G-mean

(3)ROC 曲線以及 AUC

ROC 曲線指受試者工作特征曲線(receiver operating characteristic curve), 是反映敏感性和特異性連續(xù) 變量的綜合指標(biāo),用構(gòu)圖法揭示敏感性和特異性的相互 關(guān)系。 在分類中每個(gè)樣本屬于不同類別對(duì)應(yīng)的有概率 值,最終類別預(yù)測(cè)根據(jù)設(shè)置的不同概率閾值,類別也會(huì) 變化。 每一個(gè)閾值對(duì)應(yīng)的有一組衡量指標(biāo)(FPrate, TPrate),將 FPrate 為 x 軸,TPrate 為 y 軸,在坐標(biāo)軸上繪 制圖形。 即可得到 ROC 曲線,曲線下方形成的面積即為 AUC。 AUC 從總體上度量了分類器的性能,一 般來(lái)說(shuō)面積越大,算法性能越好。 下圖 是一個(gè) ROC 曲 線的例子。

 

標(biāo)簽:

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:百度成立深度學(xué)習(xí)技術(shù)平臺(tái)部,加大投入專研PaddlePaddle

下一篇:一份幫助你更好地理解深度學(xué)習(xí)的資源清單