中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一文解讀合成數(shù)據(jù)在機(jī)器學(xué)習(xí)技術(shù)下的表現(xiàn)

2018-08-22    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

本文將通過介紹兩個(gè)分布模型,并運(yùn)用它們到合成數(shù)據(jù)過程中,來分析合成數(shù)據(jù)在不同機(jī)器學(xué)習(xí)技術(shù)下的表現(xiàn)。

想法

相比于數(shù)量有限的“有機(jī)”數(shù)據(jù),我將分析、測評(píng)合成數(shù)據(jù)是否能實(shí)現(xiàn)改進(jìn)。

動(dòng)機(jī)

我對合成數(shù)據(jù)的有效性持懷疑態(tài)度——預(yù)測模型只能與用于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集一樣好。這種懷疑論點(diǎn)燃了我內(nèi)心的想法,即通過客觀調(diào)查來研究這些直覺。

需具備的知識(shí)

本文的讀者應(yīng)該處于對機(jī)器學(xué)習(xí)相關(guān)理論理解的中間水平,并且應(yīng)該已經(jīng)熟悉以下主題以便充分理解本文:

• 基本統(tǒng)計(jì)知識(shí),例如“標(biāo)準(zhǔn)差”一詞的含義

• 熟悉神經(jīng)網(wǎng)絡(luò),SVM和決策樹(如果您只熟悉其中的一個(gè)或兩個(gè),那可能就行了)

• 了解基本的機(jī)器學(xué)習(xí)術(shù)語,例如“訓(xùn)練/測試/驗(yàn)證集”的含義

合成數(shù)據(jù)的背景

生成合成數(shù)據(jù)的兩種常用方法是:

• 根據(jù)某些分布或分布集合繪制值

• 個(gè)體為本模型的建模

在這項(xiàng)研究中,我們將檢查第一類。為了鞏固這個(gè)想法,讓我們從一個(gè)例子開始吧!

想象一下,在只考慮大小和體重的情況下,你試圖確定一只動(dòng)物是老鼠,青蛙還是鴿子。但你只有一個(gè)數(shù)據(jù)集,每種動(dòng)物只有兩個(gè)數(shù)據(jù)。因此不幸的是,我們無法用如此小的數(shù)據(jù)集訓(xùn)練出好的模型!

這個(gè)問題的答案是通過估計(jì)這些特征的分布來合成更多數(shù)據(jù)。讓我們從青蛙的例子開始

參考這篇維基百科的文章:

https://en.wikipedia.org/wiki/Common_frog ,只考慮成年青蛙。

第一個(gè)特征,即它們的平均長度(7.5cm±1.5cm),可以通過從正態(tài)分布中繪制平均值為7.5且標(biāo)準(zhǔn)偏差為1.5的值來生成。類似的技術(shù)可用于預(yù)測它們的重量。然而,我們所掌握的信息并不包括其體重的典型范圍,只知道平均值為22.7克。一個(gè)想法是使用10%(2.27g)的任意標(biāo)準(zhǔn)偏差。不幸的是,這只是純粹猜測的結(jié)果,因此很可能不準(zhǔn)確。

鑒于與其特征相關(guān)信息的可獲得性,和基于這些特征來區(qū)分物種的容易程度,這可能足以培養(yǎng)良好的模型。但是,當(dāng)您遷移到具有更多特征和區(qū)別更細(xì)微的陌生系統(tǒng)時(shí),合成有用的數(shù)據(jù)變得更加困難。

數(shù)據(jù)

該分析使用與上面討論的類比相同的想法。我們將創(chuàng)建一些具有10個(gè)特征的數(shù)據(jù)集。這些數(shù)據(jù)集將包含兩個(gè)不同的分類類別,每個(gè)類別的樣本數(shù)相同。

“有機(jī)”數(shù)據(jù)

每個(gè)類別將遵循其中每個(gè)特征的某種正態(tài)分布。例如,對于第一種特征:第一個(gè)類別樣本的平均值為1500,標(biāo)準(zhǔn)差為360;第二個(gè)類別樣本的平均值為1300,標(biāo)準(zhǔn)差為290。其余特征的分布如下:

 

該表非常密集,但可以總結(jié)為:

 

• 有四個(gè)特征在兩類之間幾乎無法區(qū)分,

• 有四個(gè)特征具有明顯的重疊,但在某些情況下應(yīng)該可以區(qū)分,并且

• 有兩個(gè)特征只有一些重疊,通常是可區(qū)分的。

創(chuàng)建兩個(gè)這樣的數(shù)據(jù)集,一個(gè)1000樣本的數(shù)據(jù)集將保留為驗(yàn)證集,另一個(gè)1000樣本的數(shù)據(jù)集可用于訓(xùn)練/測試。

這會(huì)創(chuàng)建一個(gè)數(shù)據(jù)集,使分類變得足夠強(qiáng)大。

合成數(shù)據(jù)

現(xiàn)在事情開始變得有趣了!合成數(shù)據(jù)將遵循兩個(gè)自定義分布中的其中一個(gè)。第一個(gè)我稱之為“ Spikes Distribution”。此分布僅允許合成特征采用少數(shù)具有每個(gè)值的特定概率的離散值。例如,如果原始分布的平均值為3且標(biāo)準(zhǔn)差為1,則尖峰(spike)可能出現(xiàn)在2(27%),3(46%)和4(27%)。

第二個(gè)自定義分布我稱之為“ Plateaus Distribution”。這種分布只是分段均勻分布。使用平臺(tái)中心的正態(tài)分布概率推導(dǎo)出平穩(wěn)點(diǎn)的概率。您可以使用任意數(shù)量的尖峰或平臺(tái),當(dāng)添加更多時(shí),分布將更接近正態(tài)分布。

為了清楚說明這兩個(gè)分布,可以參考下圖:

 

 

>

在這個(gè)問題中,合成數(shù)據(jù)的過程將成為一個(gè)非常重要的假設(shè),它有利于使合成數(shù)據(jù)更接近于“有機(jī)”數(shù)據(jù)。該假設(shè)是每個(gè)特征/類別對的真實(shí)平均值和標(biāo)準(zhǔn)差是已知的。實(shí)際上,如果合成數(shù)據(jù)與這些值相差太遠(yuǎn),則會(huì)嚴(yán)重影響訓(xùn)練模型的準(zhǔn)確性。

好的,但為什么要使用這些分布?他們?nèi)绾畏从超F(xiàn)實(shí)?

我很高興你問這個(gè)問題!在有限的數(shù)據(jù)集中,您可能會(huì)注意到,對于某個(gè)類別,某個(gè)特征只會(huì)占用少量值。想象一下這些值是:

(50,75,54,49,24,58,49,64,43,36)

或者如果我們可以對這列進(jìn)行排序:

(24,36,43,49,49,50,54,58,64,75)

為了生成此特征的數(shù)據(jù),您可以將其拆分為三個(gè)部分,其中第一部分將是最小的20%,中間的60%將是第二部分,第三部分將是最大的20%。然后使用這三個(gè)部分,您可以計(jì)算它們的平均值和標(biāo)準(zhǔn)差:分別為(30,6.0),(50.5,4.6)和(69.5,5.5)。如果標(biāo)準(zhǔn)差相當(dāng)?shù),比如大約為相應(yīng)均值的10%或更小,則可以將該均值視為該部分的尖峰值。否則,您可以將該部分視為一個(gè)平臺(tái),其寬度是該部分標(biāo)準(zhǔn)差的兩倍,并以該部分的平均值作為中心。

或者,換句話說,他們在模擬不完美的數(shù)據(jù)合成方面做得不錯(cuò)。

我將使用這些分布創(chuàng)建兩個(gè)800樣本數(shù)據(jù)集 - 一個(gè)使用尖峰,另一個(gè)使用平臺(tái)。四個(gè)不同的數(shù)據(jù)集將用于訓(xùn)練模型,以便比較每個(gè)數(shù)據(jù)集的有用性:

• 完整 (Full) - 完整的1000個(gè)樣本有機(jī)數(shù)據(jù)集(用于了解上限)

• 真實(shí) (Real) - 只有20%的樣本有機(jī)數(shù)據(jù)集(模擬情況而不添加合成數(shù)據(jù))

• 尖峰(Spike) - “真實(shí)”數(shù)據(jù)集與尖峰數(shù)據(jù)集相結(jié)合(1000個(gè)樣本)

• 平臺(tái)(Plateaus) - “真實(shí)”數(shù)據(jù)集與平臺(tái)數(shù)據(jù)集相結(jié)合(1000個(gè)樣本)

現(xiàn)在開始令人興奮的部分!

訓(xùn)練

為了測試每個(gè)數(shù)據(jù)集的強(qiáng)度,我將采用三種不同的機(jī)器學(xué)習(xí)技術(shù):多層感知器(MLP),支持向量機(jī)(SVM)和決策樹(Decision Trees)。為了幫助訓(xùn)練,由于某些特征的幅度比其他特征大得多,因此利用特征縮放來規(guī)范化數(shù)據(jù)。使用網(wǎng)格搜索調(diào)整各種模型的超參數(shù),以最大化到達(dá)最好的超參數(shù)集的概率。

總之,我在8個(gè)不同的數(shù)據(jù)集上訓(xùn)練了24種不同的模型,以便了解合成數(shù)據(jù)對學(xué)習(xí)效果的影響。

相關(guān)代碼在這里:https://github.com/EricLeFort/DataGen

結(jié)果

經(jīng)過幾個(gè)小時(shí)調(diào)整超參數(shù)并記錄下精度測量結(jié)果后,出現(xiàn)了一些反直覺的結(jié)果!完整的結(jié)果集可以在下表中找到:

多層感知器(MLP)

 

支持向量機(jī)(SVM)

 

 

 

決策樹(Decision Trees)

 

在這些表中,“Spike 9”或“Plateau 9”是指分布和使用的尖峰/平臺(tái)的數(shù)量。單元格中的值是使用相應(yīng)的訓(xùn)練/測試數(shù)據(jù)對模型進(jìn)行訓(xùn)練/測試,并用驗(yàn)證集驗(yàn)證后的的最終精度。還要記住,“完整”(Full)類別應(yīng)該是準(zhǔn)確性的理論上限,“真實(shí)”(Rea;)類別是我們在沒有合成數(shù)據(jù)的情況下可以實(shí)現(xiàn)的基線。

 

一個(gè)重要的注意事項(xiàng)是,(幾乎)每次試驗(yàn)的訓(xùn)練/測試準(zhǔn)確度都明顯高于驗(yàn)證準(zhǔn)確度。例如,盡管MLP在Spike-5上得分為97.7%,但在同一試驗(yàn)的訓(xùn)練/測試數(shù)據(jù)上分別得分為100%和99%。當(dāng)在現(xiàn)實(shí)世界中使用時(shí),這可能導(dǎo)致模型有效性的過高估計(jì)。

完整的這些測量可以在GitHub找到:

https://github.com/EricLeFort/DataGen

讓我們仔細(xì)看看這些結(jié)果。

首先,讓我們看一下模型間的趨勢(即在所有機(jī)器學(xué)習(xí)技術(shù)類型中的合成數(shù)據(jù)集類型的影響)。似乎增加更多尖峰/平臺(tái)并不一定有助于學(xué)習(xí)。你可以看到在3對 5時(shí)尖峰/平臺(tái)之間的一般改善,但是當(dāng)看到5對9時(shí),則要么變平或稍微傾斜。

對我來說,這似乎是違反直覺的。隨著更多尖峰/平臺(tái)的增加,我預(yù)計(jì)會(huì)看到幾乎持續(xù)的改善,因?yàn)檫@會(huì)導(dǎo)致分布更類似于用于合成數(shù)據(jù)的正態(tài)分布。

現(xiàn)在,讓我們看一下模型內(nèi)的趨勢(即各種合成數(shù)據(jù)集對特定機(jī)器學(xué)習(xí)技術(shù)的影響)。對于MLP來說,尖峰或平臺(tái)是否會(huì)帶來更好的性能似乎缺少規(guī)律。對于SVM,尖峰和平臺(tái)似乎表現(xiàn)得同樣好。然而,對于決策樹而言,平臺(tái)是一個(gè)明顯的贏家。

總的來說,在使用合成數(shù)據(jù)集時(shí),始終能觀察到明顯的改進(jìn)!

以后的工作

需要注意的一個(gè)重要因素是,本文的結(jié)果雖然在某些方面有用,但仍然具有相當(dāng)?shù)耐茰y性。因此,仍需要多角度的分析以便安全地做出任何明確的結(jié)論。

這里所做的一個(gè)假設(shè)是每個(gè)類別只有一個(gè)“類型”,但在現(xiàn)實(shí)世界中并不總是如此。例如,杜賓犬和吉娃娃都是狗,但它們的重量分布看起來非常不同。

此外,這基本上只是一種類型的數(shù)據(jù)集。應(yīng)該考慮的另一個(gè)方面是嘗試類似的實(shí)驗(yàn),除了具有不同維度的特征空間的數(shù)據(jù)集。這可能意味著有15個(gè)特征而不是10個(gè)或模擬圖像的數(shù)據(jù)集。

標(biāo)簽: 安全 代碼 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:科技巨頭數(shù)據(jù)中心冷卻揭秘:谷歌有AI 微軟玩潛水

下一篇:數(shù)據(jù)科學(xué),數(shù)據(jù)分析和機(jī)器學(xué)習(xí)之間的差異