中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

當(dāng)前最好的非深度遷移學(xué)習(xí)方法:流形空間下的分布對(duì)齊

2018-08-01    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
本文即將發(fā)表在國(guó)際頂級(jí)會(huì)議 ACM Multimedia conference 2018 上,被評(píng)為 ORAL,而且是 Top 10 Paper。論文提出了一個(gè)叫 MEDA (Manifold Embedded Distribution Alignment) 的方法進(jìn)行遷移學(xué)習(xí),取得了對(duì)比當(dāng)前眾多最新的深度和非深度方法的最好結(jié)果。

我們系統(tǒng)性地解決了如何定量估計(jì)邊緣分布和條件分布在遷移學(xué)習(xí)中的重要性的問(wèn)題,這也是當(dāng)前所有文章沒(méi)有考慮過(guò)的。我們的方法是首次完成這個(gè)估計(jì)。

■ 論文 | Visual Domain Adaptation with Manifold Embedded Distribution Alignment

■ 鏈接 | https://www.paperweekly.site/papers/2123

■ 源碼 | http://transferlearning.xyz/

主要思路

我們提出通過(guò)自適應(yīng)的分布適配的方式,來(lái)減小流形空間中的特征之間的距離,最終構(gòu)建一個(gè)分類器 f。現(xiàn)有的工作通常都只是在原始的數(shù)據(jù)空間中學(xué)習(xí)此分類器 f,然而由于原始空間下的特征往往存在扭曲,因而會(huì)使得學(xué)習(xí)結(jié)果出現(xiàn)欠適配。根據(jù)流形假設(shè),嵌入在流形空間中的點(diǎn)和它們的鄰居通常都有著相似的性質(zhì)。因此,我們提出流形特征變換,以此來(lái)減小域之間的數(shù)據(jù)漂移;然后進(jìn)行自適應(yīng)的分布適配,最后學(xué)習(xí)分類器 f。

流形特征變換之后,我們?cè)诮Y(jié)構(gòu)風(fēng)險(xiǎn)最小化的框架下,通過(guò)自適應(yīng)的分布適配來(lái)學(xué)習(xí)分類器 f?紤]到 Ds 和 Dt 之間不同的數(shù)據(jù)分布,即

,我們需要適配此二者的分布,以此來(lái)確保在 Ds 上學(xué)習(xí)到的知識(shí)能夠成功地被遷移到 Dt 上。特別地,我們提出動(dòng)態(tài)衡量邊緣分布和條件分布重要性,以此來(lái)進(jìn)行自適應(yīng)的分布適配。最后,分類器 f 可以被很好地學(xué)習(xí)到。

 

可以用下面的圖進(jìn)行表示。

 

 

流形特征變換

由于在流形空間中的特征通常都有著很好的幾何性質(zhì),可以避免特征扭曲,因此我們首先將原始空間下的特征變換到流形空間中。在眾多已知的流形中,Grassmann 流形 G (d) 可以通過(guò)將原始的 d 維子空間(特征向量)看作它基礎(chǔ)的元素,從而可以幫助學(xué)習(xí)分類器。

在 Grassmann 流形中,特征變換和分布適配通常都有著有效的數(shù)值形式,因此在遷移學(xué)習(xí)問(wèn)題中可以被很高效地表示和求解。因此,利用Grassmann流形空間中來(lái)進(jìn)行分類器 f 的學(xué)習(xí)是可行的。

現(xiàn)存有很多方法可以將原始特征變換到流形空間,在現(xiàn)存的這些方法中,我們選擇測(cè)地線流式核方法(Geodesic Flow Kernel, GFK)來(lái)集成進(jìn)MEDA 方法中,完成流形特征變換,因?yàn)?GFK 有著很好的計(jì)算高效性。GFK 的細(xì)節(jié)可以在它的原始文獻(xiàn)中找到,我們下面介紹它的基本思想。

在學(xué)習(xí)流形特征變換時(shí),MEDA 試圖用 d 維子空間來(lái)對(duì)數(shù)據(jù)領(lǐng)域進(jìn)行建模,然后將這些子空間嵌入到流形 G 中。用 Ss 和 St 分別表示源域和目標(biāo)域經(jīng)過(guò)主成分分析(PCA)之后的子空間,則 G 可以視為所有的 d 維子空間的集合。每一個(gè) d 維的原始子空間都可以被看作 G 上的一個(gè)點(diǎn)。因此,在兩點(diǎn)之間的測(cè)地線 {Φ(t):0≤t≤1} 可以在兩個(gè)子空間之間構(gòu)成一條路徑。

如果我們令 Ss=Φ(0) ,St=Φ(1) ,則尋找一條從 Φ(0) 到 Φ(1) 的測(cè)地線就等同于將原始的特征變換到一個(gè)無(wú)窮維度的空間中,最終減小域之間的漂移現(xiàn)象。這種方法可以被看作是一種從 Φ(0) 到 Φ(1) 的增量式"行走"方法。特別地,流形空間中的特征可以被表示為 z=Φ(t)Tx 。從文獻(xiàn)中可以知道,變換后的特征 zi 和 zj 的內(nèi)積定義了一個(gè)半正定(positive semidefinite)的測(cè)地線流式核(GFK)。

 

 

因此,通過(guò),在原始空間中的特征就可以被變換到 Grassmann 流形空間中。核 G 可以通過(guò)矩陣奇異值分解來(lái)有效地計(jì)算。然后,我們將會(huì)進(jìn)行自適應(yīng)分布適配,最終在 Grassmann 流形空間中學(xué)習(xí)一個(gè)域不變的分類器 f,以此來(lái)極大地減小域之間的漂移。

動(dòng)態(tài)分布對(duì)齊

現(xiàn)存的分布適配方法通常假定邊緣分布 (P) 和條件分布 (Q) 是同等重要的。然而,這種假設(shè)并不成立。例如,當(dāng)源域和目標(biāo)域數(shù)據(jù)本身存在較大的差異性時(shí),邊緣分布適配更重要;當(dāng)源域和目標(biāo)域數(shù)據(jù)集有較高的相似性時(shí),條件概率分布適配更加重要。

因此,我們需要能夠動(dòng)態(tài)衡量 P 和 Q 的不同作用,而不是簡(jiǎn)單地對(duì)它們以同樣的權(quán)重相加。為了達(dá)到這個(gè)目的,我們引入一個(gè)自適應(yīng)因子來(lái)自適應(yīng)地條件這兩種分布的重要性。用形式化的語(yǔ)言來(lái)講,自適應(yīng)的分布適配可以被表示為:

 

 

其中,μ∈[0,1] 表示自適應(yīng)因子,c∈{1,?,C} 是類別指示。Df(Ps,Pt) 表示邊緣分布適配,表示對(duì)類別 c 的條件分布適配。

當(dāng) μ→0,這表示源域和目標(biāo)域數(shù)據(jù)本身存在較大的差異性,因此,邊緣分布適配更重要;當(dāng) μ→1 時(shí),這表示源域和目標(biāo)域數(shù)據(jù)集有較高的相似性,因此,條件概率分布適配更加重要。當(dāng) μ=0.5 時(shí),表示將邊緣分布和條件分布適配同等看待,這也是目前流行的方法的核心工作。因此,這些現(xiàn)有方法可能被看作是 MEDA 方法的特例。通過(guò)學(xué)習(xí)最優(yōu)的自適應(yīng)因子,MEDA 可以被應(yīng)用于不同的遷移學(xué)習(xí)任務(wù)中。

另外,由于目標(biāo)域數(shù)據(jù) Dt 沒(méi)有標(biāo)簽,直接評(píng)價(jià)目標(biāo)域的條件概率分布 Qt=Qt(yt|zt) 是不可行的。所以我們用類條件概率 Qt(zt|yt) 秋近似 Qt,因?yàn)楫?dāng)樣本個(gè)數(shù)足夠大時(shí),Qt(zt|yt) 和 Qt 有著很好的相似性。

為了近似 Qt(zt|yt),我們?cè)谠从?Ds 上訓(xùn)練一個(gè)弱分類器,然后用此弱分類器到 Dt 上進(jìn)行預(yù)測(cè),得到目標(biāo)域的偽標(biāo)記。這些偽標(biāo)記的置信度可能不高,因此我們迭代式地修正預(yù)測(cè)結(jié)果。注意到,我們僅僅在第一輪的迭代中使用了分類器。在第一輪之后,MEDA 使用它先前的結(jié)果,自動(dòng)地修正目標(biāo)域 Dt 的標(biāo)簽。

我們用最大均值差異(Maximum Mean Discrepancy, MMD)來(lái)計(jì)算兩個(gè)概率分布之間的差異性。MMD 是一種非參數(shù)化的分布估計(jì)方法,已經(jīng)被廣泛地應(yīng)用于多種遷移學(xué)習(xí)方法。

兩個(gè)概率分布 p 和 q 之間的 MMD 距離被定義為

,其中 HK 是由特征映射 ?(⋅) 所張成的再生核希爾伯特空間(reproducing kernel Hilbert space, RKHS), E[⋅] 表示嵌入樣本的均值。

為了使得 MMD 與分類器 f 保持一致性,我們采用映射的 MMD 距離(projected MMD),對(duì)我們問(wèn)題中的邊緣分布差異按如下方式計(jì)算:

 

 

同理,條件分布差異可以被表示為:

 

 

然后,自適應(yīng)分布適配可以被表示為:

 

 

值得注意的是,從技術(shù)角度上說(shuō),自適應(yīng)因子 μ 并不是一個(gè)自由參數(shù),它必須根據(jù)數(shù)據(jù)的分布來(lái)進(jìn)行設(shè)定。我們?cè)谶@里提供一個(gè)簡(jiǎn)單的思路和近似地估計(jì) μ。

我們采用 A-distance 來(lái)估計(jì)不同分布之間的距離。A-distance 被定義為建立一個(gè)線性分類器來(lái)區(qū)分兩個(gè)數(shù)據(jù)領(lǐng)域的 hinge 損失(也就是進(jìn)行二類分類的 hinge 損失)。

對(duì)于邊緣分布差異,我們直接計(jì)算 Ds,Dt 之間的 A-distance,將得到的結(jié)果記為 AM;對(duì)于條件分布差異,我們首先對(duì)目標(biāo)域聚類成 C 個(gè)類,然后,對(duì)于兩個(gè)域中來(lái)自同一個(gè)類別的數(shù)據(jù),我們計(jì)算它們的 A-distance。我們記 AC 為所有類別之間 A-distance的 平均值。然后,自適應(yīng)因子 μ 可以被估計(jì)為。

這是首次對(duì)兩種分布的精確估計(jì)!

學(xué)習(xí) f 的過(guò)程不再贅述。看 paper 即可。

實(shí)驗(yàn)

精度

我們的方法在 Office31、Office+Caltech10、MNIST、USPS、ImageNet、VOC2007 上都取得了當(dāng)前最好的效果。我們的對(duì)比方法包括了傳統(tǒng)方法,一直到 CVPR 2017、PAMI 2017、AAAI 2018; 深度方法包括 DDC、DAN、RevGrad 等流行方法。具體實(shí)驗(yàn)步驟可以看文章。下面是實(shí)驗(yàn)結(jié)果:

 

 

對(duì)μ的估計(jì)

我們的方法是首次成功估計(jì) μ 的!為了對(duì)比估計(jì)的精度,我們對(duì) μ 進(jìn)行了從 0 到 1,間隔 0.1 的遍歷,以此為近似的最優(yōu)的 μ。下面是我們的估計(jì)結(jié)果

和遍歷結(jié)果對(duì)比?梢郧宄乜吹,我們估計(jì)的 μ 整體上和遍歷結(jié)果并沒(méi)有太大差異,并且還可能在精度上超過(guò)它!因?yàn)楸闅v的結(jié)果只是 0.1 為區(qū)間,我們可以精確地進(jìn)行計(jì)算。

 

 

 

這個(gè)方法具有劃時(shí)代意義,因?yàn)槲覀儸F(xiàn)在可以精確地知道哪部分分布更重要!

標(biāo)簽:

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:數(shù)據(jù)科學(xué)領(lǐng)域你不容錯(cuò)過(guò)的 TOP 15 個(gè)社區(qū)

下一篇:經(jīng)濟(jì)學(xué)人:Python為什么是編程語(yǔ)言中最skr的?