中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度學(xué)習(xí)中不均衡數(shù)據(jù)集的處理

2018-12-21    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

在深度學(xué)習(xí)中,數(shù)據(jù)是非常重要的。但是我們拿到的數(shù)據(jù)往往可能由大部分無(wú)關(guān)數(shù)據(jù)和少部分我們所關(guān)心的數(shù)據(jù)組成。那么,如何對(duì)這些數(shù)據(jù)集進(jìn)行處理,才能得到我們所需要結(jié)果呢?工程師 George Seif 認(rèn)為,可以通過(guò)權(quán)重平衡法和采樣法來(lái)解決這個(gè)問(wèn)題。下面是他的觀點(diǎn),雷鋒網(wǎng) AI 科技評(píng)論整理。

 

 

像薩諾斯一樣給你的數(shù)據(jù)集帶來(lái)平衡

并非所有的數(shù)據(jù)都是完美的。事實(shí)上,如果你得到一個(gè)完全平衡的真實(shí)世界的數(shù)據(jù)集,你將是非常幸運(yùn)的。在大多數(shù)情況下,您的數(shù)據(jù)將具有一定程度的類不平衡,即每個(gè)類具有不同數(shù)量的樣本。

為什么我們希望我們的數(shù)據(jù)集是平衡數(shù)據(jù)集?

在深度學(xué)習(xí)項(xiàng)目中,在投入時(shí)間到任何可能需要花費(fèi)很長(zhǎng)時(shí)間的任務(wù)之前,很重要的一點(diǎn)是要理解我們?yōu)槭裁磻?yīng)該這么做,以確保它是一項(xiàng)有價(jià)值的研究。當(dāng)我們真正關(guān)心少數(shù)種類數(shù)據(jù)時(shí),類平衡技術(shù)才是真正必要的。

例如,假設(shè)我們?cè)噲D根據(jù)市場(chǎng)現(xiàn)狀、房子屬性和我們的預(yù)算來(lái)預(yù)測(cè)我們是否應(yīng)該買房。在這種情況下,我們做出正確的購(gòu)買決定是非常重要的,因?yàn)樗且豁?xiàng)如此巨大的投資。同時(shí),在我們本該買的時(shí)候,模型告訴我們不要買,這并不是什么大事。如果我們錯(cuò)過(guò)一棟房子,總會(huì)有其他房子可以買,但是在如此巨大的資產(chǎn)上做出錯(cuò)誤的投資是非常糟糕的。

在這個(gè)例子中,我們絕對(duì)需要產(chǎn)生購(gòu)買行為的少數(shù)類的數(shù)據(jù)非常精確,而那些不產(chǎn)生購(gòu)買行為的類的數(shù)據(jù),就沒(méi)什么大不了的。然而在當(dāng)我們觀察實(shí)際數(shù)據(jù)的時(shí)候,「購(gòu)買」類數(shù)據(jù)比「不購(gòu)買」類數(shù)據(jù)少得多,我們的模型傾向于將「不購(gòu)買」類數(shù)據(jù)學(xué)習(xí)的非常好,因?yàn)樗鼡碛凶疃嗟臄?shù)據(jù),但在對(duì)「購(gòu)買」類數(shù)據(jù)的學(xué)習(xí)上表現(xiàn)不佳。這就需要平衡我們的數(shù)據(jù),以便我們能夠?qū)Α纲?gòu)買」的預(yù)測(cè)更加重視。

那么如果我們真的不關(guān)心少數(shù)類數(shù)據(jù)呢?例如,假設(shè)我們正在進(jìn)行圖像分類,并且您的類分布類似于:

 

 

乍一看,似乎平衡我們的數(shù)據(jù)是有幫助的。但是我們可能對(duì)那些少數(shù)類并不感興趣。也許我們的主要目標(biāo)是獲得盡可能高的準(zhǔn)確率。在這種情況下,做任何平衡都沒(méi)有意義,因?yàn)槲覀兊拇蟛糠譁?zhǔn)確率都來(lái)自于具有更多訓(xùn)練示例的類。其次,即使數(shù)據(jù)集不平衡,當(dāng)目標(biāo)達(dá)到最高百分比準(zhǔn)確率時(shí),分類交叉熵?fù)p失也往往表現(xiàn)得很好?傊,我們的少數(shù)類對(duì)我們的目標(biāo)影響不大,因此平衡不是必須的。

在所有這些情況下,當(dāng)我們遇到一個(gè)我們想要平衡數(shù)據(jù)的案例時(shí),有兩種技術(shù)可以用來(lái)幫助我們。

(1)權(quán)重平衡法

權(quán)重平衡法通過(guò)改變每個(gè)訓(xùn)練樣本在計(jì)算損失時(shí)的權(quán)重來(lái)平衡我們的數(shù)據(jù)。通常,我們的損失函數(shù)中的每個(gè)樣本和類具有相同的權(quán)重,即 1.0。但是有時(shí)候,我們可能希望某些更重要的特定類別或特定訓(xùn)練實(shí)例擁有更大的權(quán)重。再次參照我們買房的例子,既然「購(gòu)買」類的準(zhǔn)確率對(duì)我們來(lái)說(shuō)是最重要的,那么該類中的訓(xùn)練示例應(yīng)該對(duì)損失函數(shù)有顯著的影響。

我們可以簡(jiǎn)單地通過(guò)將每個(gè)示例的損失乘以取決于它們的類的某個(gè)因子來(lái)給類賦權(quán)。在 Keras,我們可以做這樣的事情:

 

 

我們創(chuàng)建了一本字典,基本上說(shuō)我們的「購(gòu)買」類應(yīng)該占了損失函數(shù)重量的 75%,因?yàn)楦匾氖恰覆毁?gòu)買」類,我們相應(yīng)地設(shè)置為 25%。當(dāng)然,這些值可以很容易地進(jìn)行調(diào)整,以找到應(yīng)用場(chǎng)景中的最佳設(shè)置。如果其中一個(gè)類的樣本明顯多于另一個(gè)類,我們也可以使用這種方法進(jìn)行平衡。我們可以嘗試使用權(quán)重平衡法來(lái)使所有的類都對(duì)我們的損失函數(shù)產(chǎn)生一樣大的影響,而不必花費(fèi)時(shí)間和資源去收集更多的少數(shù)類實(shí)例。

另一個(gè)我們可以用來(lái)平衡訓(xùn)練實(shí)例權(quán)重的方法是如下所示的焦距損失法。它的主要思想是:在我們的數(shù)據(jù)集中,總會(huì)有一些比其他示例更容易分類的訓(xùn)練示例。在訓(xùn)練期間,這些例子將被有 99% 的分類準(zhǔn)確率,而其它更具挑戰(zhàn)性的示例可能表現(xiàn)不佳。問(wèn)題在于,那些容易分類的訓(xùn)練示例仍會(huì)引起損失。當(dāng)存在其他更具挑戰(zhàn)性的數(shù)據(jù)點(diǎn)時(shí),如果正確分類,那么這些數(shù)據(jù)點(diǎn)能夠?qū)ξ覀兊目傮w準(zhǔn)確性做出更大的貢獻(xiàn),為什么我們?nèi)匀唤o予它們相同的權(quán)重?

 

 

這正是焦距損失法可以解決的問(wèn)題!焦距損失不是對(duì)所有訓(xùn)練實(shí)例賦予同等的權(quán)重,而是對(duì)分類良好的實(shí)例進(jìn)行降權(quán)。這樣做的直接效果是將更多的訓(xùn)練重點(diǎn)放在那些難以分類的數(shù)據(jù)上!在存在數(shù)據(jù)不平衡的實(shí)際環(huán)境中,大多數(shù)類將很快被很好地分類,因?yàn)槲覀冇懈嗟挠?xùn)練樣本數(shù)據(jù)。因此,為了保證我們對(duì)少數(shù)類的訓(xùn)練也達(dá)到較高的準(zhǔn)確度,我們可以利用焦距損失在訓(xùn)練中給那些少數(shù)類更大的相對(duì)權(quán)重。焦距損失在 Keras 中可以很容易地實(shí)現(xiàn)為自定義損失函數(shù):

 

 

(2)過(guò)采樣和欠采樣

選擇合適的類權(quán)重有時(shí)是很復(fù)雜的事情。做簡(jiǎn)單的反向頻率處理并不總是有用的。焦距損失法是有用的,但是即便這樣,也還是會(huì)減少相同程度地減少每個(gè)類里面分類良好的示例的權(quán)重。因此,另一種平衡數(shù)據(jù)的方法是直接通過(guò)采樣來(lái)實(shí)現(xiàn)。下圖就是一個(gè)例子。

 

 

在上面的圖像的左側(cè)和右側(cè),我們的藍(lán)色類比橙色類有更多的樣本。在這種情況下,我們有兩個(gè)預(yù)處理選項(xiàng),它們可以幫助訓(xùn)練我們的機(jī)器學(xué)習(xí)模型。

欠采樣意味著我們將只從多數(shù)類中選擇其中一些數(shù)據(jù),而使用少數(shù)類所具有的示例數(shù)據(jù)。這個(gè)選擇可以用來(lái)保持類的概率分布。這是很容易的!我們僅僅靠減少示例樣本就平衡了我們的數(shù)據(jù)!

過(guò)采樣意味著我們將給少數(shù)類創(chuàng)建數(shù)個(gè)副本,以便少數(shù)類和多數(shù)類相同的示例數(shù)量。副本的數(shù)量要達(dá)到使少數(shù)類對(duì)準(zhǔn)確率的影響可以一直維持。我們只是在沒(méi)有獲得更多數(shù)據(jù)的情況下整理了我們的數(shù)據(jù)集!如果發(fā)現(xiàn)很難有效地設(shè)置類權(quán)重,那么抽樣可以替代類平衡。

via:George Seif's blog

標(biāo)簽:

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:2018年十大數(shù)據(jù)泄露事件盤(pán)點(diǎn):8700萬(wàn)Facebook用戶數(shù)據(jù)泄露

下一篇:通過(guò)調(diào)研開(kāi)源基準(zhǔn)測(cè)試集,解讀大數(shù)據(jù)的應(yīng)用現(xiàn)狀和開(kāi)源未來(lái)