李飛飛團(tuán)隊(duì)新作:一種補(bǔ)全視覺信息庫(kù)的半監(jiān)督方法
2019-05-14 來(lái)源:raincent

視覺信息庫(kù),例如 Visual Genome 數(shù)據(jù)庫(kù),在計(jì)算機(jī)視覺方面驅(qū)動(dòng)了著大量的應(yīng)用發(fā)展,包括視覺問答和圖像標(biāo)注等。但同時(shí),視覺知識(shí)庫(kù)也具有稀疏、欠完備等缺點(diǎn)。使用人工標(biāo)注是非常昂貴的,而基于紋理知識(shí)的補(bǔ)全方法則無(wú)法與視覺數(shù)據(jù)兼容。斯坦福大學(xué)李飛飛團(tuán)隊(duì)提出了一種半監(jiān)督方法,使用少量標(biāo)注樣本預(yù)測(cè)無(wú)標(biāo)注樣本概率學(xué)標(biāo)簽的方法。
基于對(duì)視覺關(guān)系的分析,該方法啟發(fā)式地將兩種圖像無(wú)關(guān)特征進(jìn)行使用基于圖的生成模型進(jìn)行累計(jì)。在使用了少量標(biāo)注樣本的關(guān)系樣本情況下,生成數(shù)據(jù)可以用于訓(xùn)練現(xiàn)有的最好的場(chǎng)景圖模型。作者認(rèn)為本文的方法是一種具有實(shí)際意義的使用有限的標(biāo)簽進(jìn)行訓(xùn)練的方法(the de-facto approach)。實(shí)驗(yàn)結(jié)果表明,該方法在解決場(chǎng)景圖預(yù)測(cè)數(shù)據(jù)標(biāo)簽缺失方面具有優(yōu)越的性能。

1 什么是場(chǎng)景圖預(yù)測(cè)?
為了使圖像表征形式化,Visual Genome 定義了場(chǎng)景圖(Scene Graph)。場(chǎng)景圖是一種結(jié)構(gòu)化的形式,它與廣泛用于知識(shí)庫(kù)的表示方法具有相似的形式。場(chǎng)景圖將多個(gè)目標(biāo)(例如:狗,飛盤)編碼為節(jié)點(diǎn),這些節(jié)點(diǎn)之間通過成對(duì)的關(guān)系作為邊相連接(例如:在玩)。這種形式化的表達(dá)促進(jìn)了圖像標(biāo)注、圖像檢索、視覺問答、關(guān)系模型和圖像生成等方面的發(fā)展。然而,對(duì)于沒有充分標(biāo)注的實(shí)例,目前為止所有的場(chǎng)景圖模型都忽略了超過 98% 的關(guān)系類別(圖 1),這些模型主要側(cè)重于解決具有上千個(gè)標(biāo)注信息的實(shí)例的關(guān)系。

圖 1:視覺關(guān)系的統(tǒng)計(jì)表示,目前大多數(shù)模型主要集中于解決 Visual Genome 數(shù)據(jù)集中的前五十種關(guān)系,這些關(guān)系包含上千個(gè)已標(biāo)記的實(shí)例。這導(dǎo)致超 98% 種僅包含少量標(biāo)注實(shí)例的視覺關(guān)系被忽略了。
為了對(duì)人工標(biāo)注進(jìn)行補(bǔ)充,通過使用半監(jiān)督學(xué)習(xí)或弱監(jiān)督(遠(yuǎn)監(jiān)督)學(xué)習(xí)方法,許多基于文本知識(shí)補(bǔ)全的算法應(yīng)運(yùn)而生。但這類方法對(duì)于視覺關(guān)系不具有良好的泛化能力,這使得針對(duì)視覺知識(shí)的特殊方法成為急需解決的問題。
本文提出了一種自動(dòng)化生成缺失關(guān)系類標(biāo)的方法,該方法使用少量的標(biāo)注數(shù)據(jù)集自動(dòng)化地生成類標(biāo)用來(lái)訓(xùn)練下游的場(chǎng)景圖模型(圖 2)

圖 2:本文提出的半監(jiān)督方法可以生成無(wú)標(biāo)簽數(shù)據(jù)的概率標(biāo)簽然后用于訓(xùn)練下游的場(chǎng)景圖模型
本文的作者首先從如何定義圖像無(wú)關(guān)特征(2.2 部分)對(duì)圖像中的實(shí)例關(guān)系展開探索。例如,“吃”這一行為通常由一個(gè)正在吃東西的目標(biāo)和另一個(gè)比前者小的被吃的物體組成。再比如說看這個(gè)動(dòng)作,該實(shí)例關(guān)系中通常包含手機(jī)、筆記本和窗口(圖 3)。在視覺關(guān)系中,這些規(guī)則不需要原始的像素值并且可由圖像無(wú)關(guān)特征推斷而來(lái),如物體類別、空間關(guān)系。盡管這些規(guī)則簡(jiǎn)單明確,但它們對(duì)于尋找丟失的視覺關(guān)系中的潛力尚未被挖掘。


圖 3:視覺關(guān)系,如“飛”、“吃”和“坐”可以有效地被形象化表示為他們的類別(圖中 s 和 o 分別表示主體和客體)或空間特征。改圖表示這些空間和類別特征對(duì)某一視覺關(guān)系的重要性。
從上圖中可以看出,圖像無(wú)關(guān)特征可以在一些復(fù)雜視覺關(guān)系中捕獲變化,這些視覺關(guān)系由于實(shí)例間的相互差異很難直接被刻畫為某種表示。因此,為了量化我們的圖像無(wú)關(guān)特征的重要性,本文的作者定義了“子類型”用來(lái)測(cè)量空間和類別的變化。
2 視覺關(guān)系分析
2.1 相關(guān)術(shù)語(yǔ)

2.2 圖像無(wú)關(guān)特征

為了說明空間和類別特征可以很好的描述不同的視覺關(guān)系,作者對(duì)于每一種視覺關(guān)系都訓(xùn)練了一個(gè)決策樹模型。在圖 3 中畫出了 4 中視覺關(guān)系中最重要的幾個(gè)空間和類別特征,例如,“飛”跟主體還有客體的 y- 軸左邊有很大的關(guān)系,“看”主要取決于物體類別(例如,手機(jī)、筆記本、窗戶)而不依賴于任何空間方向。
2.3 視覺關(guān)系的變化
為了系統(tǒng)的研究視覺關(guān)系的變化,作者將每個(gè)視覺關(guān)系定義為具有一定數(shù)量子類型的組合。例如,在圖 4 中,“騎”包含了一個(gè)類別子類型 < 人 - 騎 - 自行車 > 和另一個(gè)類別子類型 < 狗 - 騎 - 沖浪板 >。類似的,一個(gè)人可能會(huì)以多種不同的空間方式“拿”一個(gè)物體(例如,在頭上,在身側(cè))。為了找到所有的空間子類,作者使用均值漂移聚類對(duì) Visual Genome 中的所有視覺關(guān)系提取空間特征。為了找到類別子類,作者對(duì)一個(gè)視覺關(guān)系中的所有物體類別進(jìn)行了數(shù)量統(tǒng)計(jì)。

圖 4:同一視覺關(guān)系的不同子類,上半部分均為“騎”,下半部分均為“拿”。
3 方法
對(duì)于無(wú)標(biāo)注的數(shù)據(jù)集 Du,作者使用了三步來(lái)獲得其概率標(biāo)簽:(1)作者提取了已標(biāo)注數(shù)據(jù)集 Dp 的圖像不變特征,同時(shí)結(jié)合目標(biāo)檢測(cè)算法提取 Du 中候選物體的圖像不變特征;(2)對(duì)圖像不變特征使用啟發(fā)式生成算法;(3)使用基于因子圖的生成模型對(duì)概率標(biāo)簽進(jìn)行聚合并賦給 Du 中的未標(biāo)注物體對(duì)。具體算法在論文原文的 Algorithm1 中有詳細(xì)敘述,整個(gè)系統(tǒng)的端到端框架如圖 5 所示。

圖 5:本文提出算法的整體框架圖,圖中以“拿”這一關(guān)系作為示例進(jìn)行展示。
3.1 特征提取
提取圖像無(wú)關(guān)特征需要用到現(xiàn)有的目標(biāo)檢測(cè)算法,這里作者使用了 Mask-RCNN 來(lái)生成無(wú)標(biāo)簽數(shù)據(jù)物體候選框,然后使用使用第三部分所述的圖像無(wú)關(guān)特征的定義計(jì)算無(wú)標(biāo)注數(shù)據(jù)的圖像無(wú)關(guān)特征。對(duì)于已標(biāo)注的數(shù)據(jù),則直接利用其標(biāo)注的候選框計(jì)算圖像無(wú)關(guān)特征。
3.2 啟發(fā)式生成
作者使用已標(biāo)注的視覺關(guān)系中的空間和類別特征訓(xùn)練了一個(gè)決策樹。同時(shí),作者對(duì)這些啟發(fā)式算法的復(fù)雜度進(jìn)行了約束以防止模型過擬合。這里作者使用了淺層的決策樹網(wǎng)絡(luò),對(duì)于每一個(gè)特征集使用不同的深度約束,這樣就產(chǎn)生了 J 個(gè)不同的決策樹。隨后作者使用了這些啟發(fā)式算法預(yù)測(cè)無(wú)標(biāo)簽數(shù)據(jù)集的標(biāo)簽,得到所有無(wú)標(biāo)簽關(guān)系的預(yù)測(cè)矩陣。

圖 6:視覺關(guān)系的一個(gè)子集,空間和類別子類決定了不同程度的復(fù)雜度。
為了更進(jìn)一步的防止過擬合,作者通過設(shè)置一個(gè)置信度閾值對(duì)Λ進(jìn)行調(diào)整。最終的啟發(fā)式算法如圖 5 中的示例所示,當(dāng)一個(gè)主體在客體上方時(shí)候,則會(huì)對(duì)謂語(yǔ)部分的拿這一動(dòng)作的類標(biāo)賦予正值。
3.3 生成模型

3.4 訓(xùn)練場(chǎng)景圖模型
最終,這些概率類標(biāo)被用于訓(xùn)練任何一種場(chǎng)景圖模型。場(chǎng)景圖模型通常使用交叉熵?fù)p失進(jìn)行訓(xùn)練,作者對(duì)該函數(shù)進(jìn)行了調(diào)整,這是為了將生成模型的標(biāo)注錯(cuò)誤也考慮進(jìn)去。最終,作者使用了一種噪聲感知經(jīng)驗(yàn)誤差函數(shù)來(lái)優(yōu)化場(chǎng)景圖模型:

其中θ是需要學(xué)習(xí)的參數(shù),Π表示使用生成模型學(xué)到的分布,Y 是真實(shí)類標(biāo),V 是使用任意場(chǎng)景圖預(yù)測(cè)模型提取的視覺相關(guān)特征。
4 實(shí)驗(yàn)
作者首先在 VRD 數(shù)據(jù)集上對(duì)生成模型的標(biāo)注能力進(jìn)行了測(cè)試,以驗(yàn)證生成模型是否具有尋找丟失的視覺關(guān)系的能力。然后,作者使用生成的類標(biāo)訓(xùn)練了目前最好的場(chǎng)景圖模型。作者將生成的標(biāo)簽與 Visual Genome 數(shù)據(jù)集的類標(biāo)進(jìn)行了比較。最后,作者將本文的方法與遷移學(xué)習(xí)方法進(jìn)行了對(duì)比。VRD 和 Visual Genome 模型都是視覺關(guān)系預(yù)測(cè)和場(chǎng)景圖識(shí)別方向的兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集。由于 Visual Genome 數(shù)據(jù)庫(kù)規(guī)模太大(108K 張圖像),每個(gè)場(chǎng)景圖的標(biāo)簽都不完整,因此作者僅在 VRD 數(shù)據(jù)集上對(duì)半監(jiān)督算法的進(jìn)行了驗(yàn)證。
作者為了驗(yàn)證他們提出的半監(jiān)督方法能夠很好地標(biāo)注丟失的視覺關(guān)系,作者在 VRD 數(shù)據(jù)集的測(cè)試集上計(jì)算了精確度和召回率。實(shí)驗(yàn)結(jié)果如下表所示:

為了展示概率標(biāo)簽的效果,作調(diào)整了現(xiàn)有的場(chǎng)景圖模型并使用了三種標(biāo)準(zhǔn)評(píng)價(jià)模式:1)場(chǎng)景圖檢測(cè)(SGDET),該模式輸入圖像,預(yù)測(cè)出其邊界框、物體類別和謂語(yǔ)類標(biāo)。2)場(chǎng)景圖分類(SGCLS),該模式輸入真實(shí)邊界框,預(yù)測(cè)出圖像的物體類別和謂語(yǔ)類標(biāo)。3)謂語(yǔ)分類(PREDCLS),該模式輸入邊界框的真實(shí)集合和物體類別,預(yù)測(cè)圖像的謂語(yǔ)類標(biāo)。關(guān)于這三種任務(wù)的詳細(xì)介紹作者推薦了文章 [1] 供讀者們參考。本文的方法在這三個(gè)任務(wù)上的實(shí)驗(yàn)結(jié)果如下表所示:

該表中,作者采用 ORACLE 作為模型性能的上邊界,因?yàn)檫@個(gè)方法的實(shí)驗(yàn)結(jié)果是在整個(gè) VIsual Genome 上訓(xùn)練得到的,作者希望提出的方法能夠盡量與 ORACLE 達(dá)到相同的效果。表格的上半部分是一些基線方法,其中 DECISION TREE 是一種提取圖像無(wú)關(guān)特征的單決策樹方法,LABEL PROPAGATION 是一種應(yīng)用廣泛的半監(jiān)督方法,TRANFER LEARNING 則使用了一種通用的遷移學(xué)習(xí)方法進(jìn)行訓(xùn)練。
表格的下半部分是消融實(shí)驗(yàn)結(jié)果,即對(duì)作者提出方法的每個(gè)部分進(jìn)行有效性驗(yàn)證。(CATEG.)表示僅使用類別特征,(SPAT.)表示僅使用空間特征,(DEEP)表示僅使用 ResNet50 提取的深度特征,(CATEG.+SPAT.)表示使用級(jí)聯(lián)的類別和空間特征,(CATEG.+SPAT.+DEEP)表示三者結(jié)合。(MAJORITY VOTE)則是使用類別和空間特征,同時(shí)使用簡(jiǎn)單的多數(shù)投票方法而不是使用生成模型來(lái)聚合啟發(fā)式函數(shù)的輸出的方法?梢钥闯霰疚奶岢龅姆椒ㄔ诙鄠(gè)模式下都體現(xiàn)出卓越的效果。
作者繪制了本文提出方法的類標(biāo)賦值情況,與圖 3 中相關(guān)的圖像無(wú)關(guān)特征進(jìn)行了比較,類標(biāo)可視化結(jié)果如下圖:

在 (a) 中,本文的模型預(yù)測(cè)出了“飛”這個(gè)位于,因?yàn)樗鼘W(xué)習(xí)到了“飛”這個(gè)動(dòng)作表示兩個(gè)物體在 y 軸上的存在巨大差異。在(c)中,本文提出的模型則做出了錯(cuò)誤的預(yù)測(cè),將“掛”理解為了“坐”,這是因?yàn)槟P瓦^度的依賴于類別特征中“椅子”和“坐”密不可分的關(guān)系。
5 結(jié)論
本文的作者首次提出了一種補(bǔ)全視覺信息庫(kù)的半監(jiān)督方法,該方法利用圖像無(wú)關(guān)特征盡可能地用少于 10 個(gè)標(biāo)注實(shí)例來(lái)刻畫每一種視覺關(guān)系。然后通過對(duì)這些特征進(jìn)行啟發(fā)式學(xué)習(xí)訓(xùn)練,最后使用生成模型為無(wú)標(biāo)注圖像分配概率標(biāo)簽。作者在 VRD 數(shù)據(jù)集上進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明本文提出的模型性能在標(biāo)注方面比標(biāo)準(zhǔn)的半監(jiān)督方法(例如標(biāo)簽傳播)高出了 11.84 點(diǎn),F(xiàn)1 分?jǐn)?shù)達(dá)到了 57.66。
為了進(jìn)一步驗(yàn)證生成類標(biāo)的作用,作者對(duì)目前最好的場(chǎng)景圖模型進(jìn)行微調(diào)從而使其可以使用生成的概率標(biāo)簽進(jìn)行訓(xùn)練。使用概率標(biāo)簽訓(xùn)練后的模型在 Visual Genome 數(shù)據(jù)庫(kù)上達(dá)到了 46.53recall@100(召回率 100 時(shí)的識(shí)別準(zhǔn)確率),與僅使用有標(biāo)注實(shí)例訓(xùn)練后的模型相比提升了 40.97 個(gè)點(diǎn)。同時(shí),作者還與其他遷移學(xué)習(xí)方法進(jìn)行了對(duì)比。在召回率為 100 時(shí),本文提出的方法比其他遷移學(xué)習(xí)方法高出 5.16 個(gè)百分點(diǎn),這是因?yàn)閷?duì)于未標(biāo)注的子類本文提出的方法具有更好的泛化能力,尤其是具有高復(fù)雜度的視覺關(guān)系。
英文論文原文:https://arxiv.org/abs/1904.11622
標(biāo)簽: [db:TAGG]
版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。