中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

DeepMind無監(jiān)督表示學(xué)習(xí)重大突破:語音、圖像、文本、強化學(xué)習(xí)全能冠軍!

2018-07-13    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

來源:DeepMind

DeepMind的最新研究提出一種新的表示學(xué)習(xí)方法——對比預(yù)測編碼。研究人員在多個領(lǐng)域進行實驗:音頻、圖像、自然語言和強化學(xué)習(xí),證明了相同的機制能夠在所有這些領(lǐng)域中學(xué)習(xí)到有意義的高級信息,并且優(yōu)于其他方法。

論文地址:https://arxiv.org/pdf/1807.03748.pdf

 

 

2013年,Bengio等人發(fā)表了關(guān)于表示學(xué)習(xí)( representation learning)的綜述,將表示學(xué)習(xí)定義為“學(xué)習(xí)數(shù)據(jù)的表征,以便在構(gòu)建分類器或其他預(yù)測器時更容易提取有用的信息”,并將無監(jiān)督特征學(xué)習(xí)和深度學(xué)習(xí)的諸多進展納入表示學(xué)習(xí)的范疇。

今天,DeepMind在最新論文Representation Learning with Contrastive Predictive Coding中,提出一種新的表示學(xué)習(xí)方法——對比預(yù)測編碼(Contrastive Predictive Coding, CPC),將其應(yīng)用于各種不同的數(shù)據(jù)模態(tài)、圖像、語音、自然語言和強化學(xué)習(xí),證明了相同的機制能夠在所有這些領(lǐng)域中學(xué)習(xí)到有意義的高級信息,并且優(yōu)于其他方法。

 

 

預(yù)測編碼思想

使用分層的可微模型以端到端的方式從標(biāo)記數(shù)據(jù)中學(xué)習(xí)高級表示,這是人工智能迄今為止最大的成功之一。這些技術(shù)使得人工指定的特性在很大程度上變得多余,并且在一些真實世界的應(yīng)用中極大地改進了當(dāng)前最優(yōu)的技術(shù)。但是,這些技術(shù)仍存在許多挑戰(zhàn),例如數(shù)據(jù)效率、穩(wěn)健性或泛化能力。

改進表示學(xué)習(xí)需要一些不是專門解決單一監(jiān)督任務(wù)的特征。例如,當(dāng)預(yù)訓(xùn)練一個模型以進行圖像分類時,特征可以相當(dāng)好地轉(zhuǎn)移到其他圖像分類域,但也缺少某些信息,例如顏色或計數(shù)的能力,因為這些信息與分類無關(guān),但可能與其他任務(wù)相關(guān),例如圖像描述生成(image captioning)。類似地,用于轉(zhuǎn)錄人類語音的特征可能不太適合于說話者識別或音樂類型預(yù)測。因此,無監(jiān)督學(xué)習(xí)是實現(xiàn)強健的、通用的表示學(xué)習(xí)的重要基石。

盡管無監(jiān)督學(xué)習(xí)很重要,但無監(jiān)督學(xué)習(xí)尚未得到類似監(jiān)督學(xué)習(xí)的突破:從原始觀察中建模高級表示仍然難以實現(xiàn)。此外,并不總是很清楚理想的表示是什么,以及是否可以在沒有對特定的數(shù)據(jù)模態(tài)進行額外的監(jiān)督學(xué)習(xí)或?qū)iT化的情況下學(xué)習(xí)這樣的表示。

無監(jiān)督學(xué)習(xí)最常見的策略之一是預(yù)測未來、缺失信息或上下文信息。這種預(yù)測編碼(predictive coding)的思想是數(shù)據(jù)壓縮信號處理中最古老的技術(shù)之一。在神經(jīng)科學(xué)中,預(yù)測編碼理論表明,大腦可以預(yù)測不同抽象層次的觀察。

最近在無監(jiān)督學(xué)習(xí)方面的一些工作已經(jīng)成功地利用這些概念,通過預(yù)測鄰近的單詞來學(xué)習(xí)單詞表示。對于圖像來說,從灰度或image patches的相對位置來預(yù)測顏色,也被證明是有用的。我們假設(shè)這些方法卓有成效,部分原因是我們預(yù)測相關(guān)值的上下文通常是有條件地依賴于相同的共享高級潛在信息之上。通過將其作為一個預(yù)測問題,我們可以自動推斷出這些特征與表示學(xué)習(xí)相關(guān)。

本文有以下貢獻:

首先,我們將高維數(shù)據(jù)壓縮成一個更緊湊的潛在嵌入空間,在這個空間中,條件預(yù)測更容易建模。

其次,我們在這個潛在空間中使用強大的自回歸模型來預(yù)測未來。

最后,我們依賴噪聲對比估計(Noise-Contrastive Estimation)損失函數(shù),與在自然語言模型中學(xué)習(xí)詞嵌入的方法類似,允許對整個模型進行端到端的訓(xùn)練。

對比預(yù)測編碼

 

 

4個不同領(lǐng)域的實驗:語音、圖像、NLP和強化學(xué)習(xí)

我們提出四個不同應(yīng)用領(lǐng)域的benchmark:語音、圖像、自然語言和強化學(xué)習(xí)。對于每個領(lǐng)域,我們訓(xùn)練CPC模型,并通過線性分類任務(wù)或定性評估來探討“表示”(representations)所包含的內(nèi)容;在強化學(xué)習(xí)中,我們測量了輔助的CPC loss如何加速agent的學(xué)習(xí)。

語音(Audio)

對于語音,我們使用了公開的LibriSpeech數(shù)據(jù)集中100小時的子數(shù)據(jù)集。雖然數(shù)據(jù)集不提供原始文本以外的標(biāo)簽,但我們使用Kaldi工具包獲得了強制對齊的通話序列,并在Librispeech上預(yù)訓(xùn)練模型。該數(shù)據(jù)集包含來自251個不同說話者的語音。

 

 

圖2:10個說話者子集的音頻表示的t-SNE可視化。每種顏色代表不同的說話者。

 

 

圖3:在語音波形中預(yù)測未來1到20個潛在步驟的對比損失,正樣本預(yù)測的平均精度。該模型最多預(yù)測未來200 ms,因為每一步包含10ms的音頻。

圖像(Vision)

在視覺表示實驗中,我們使用ImageNet數(shù)據(jù)集。我們使用ResNet v2 101架構(gòu)作為圖像編碼器

來提取CPC表示(該編碼器沒有經(jīng)過預(yù)訓(xùn)練)。在無監(jiān)督訓(xùn)練后,訓(xùn)練一個線性層以測量ImageNet標(biāo)簽的分類精度。

 

 

 

圖4:圖像實驗中對比預(yù)測編碼的可視化

 

 

圖5:每一行都顯示了激活CPC架構(gòu)的某個神經(jīng)元的image patches

 

 

表3:ImageNet top-1無監(jiān)督分類結(jié)果。

 

 

表4:ImageNet top-5無監(jiān)督分類結(jié)果。

表3和表4顯示了與state-of-the-art相比,CPC模型在ImageNet top-1和top-5的分類精度。盡管相對領(lǐng)域不可知,但CPC模型在top-1相比當(dāng)前最優(yōu)模型的精度提高了9%,在top-5的精度提高了4%。

自然語言

在自然語言實驗中,我們首先在BookCorpus 數(shù)據(jù)集上學(xué)習(xí)我們的無監(jiān)督模型,并通過對一組分類任務(wù)使用CPC表示來評估模型作為通用特征提取器的能力。

對于分類任務(wù),我們使用了以下數(shù)據(jù)集:我們使用以下數(shù)據(jù)集:電影評論情緒(MR),客戶產(chǎn)品評論(CR),主觀性/客觀性,意見極性(MPQA)和問題類型分類 (TREC)。

 

 

表5:五種常見NLP基準的分類精度。

評估任務(wù)的結(jié)果如表5所示。

強化學(xué)習(xí)

最后,我們評估了DeepMind Lab 在3D環(huán)境下的五種強化學(xué)習(xí)的無監(jiān)督學(xué)習(xí)方法:rooms_watermaze,explore_goal_locations_small,seekavoid_arena_01,lasertag_three_opponents_small和rooms_keys_doors_puzzle。

在這里,我們采用標(biāo)準的batched A2C agent作為基本模型,并添加CPC作為輔助損失。 學(xué)習(xí)的表示對其未來觀察的分布進行編碼。

 

 

圖6:五個DeepMind Lab任務(wù)的強化學(xué)習(xí)結(jié)果。黑色:batched A2C基線,紅色:添加輔助對比損失

如圖6所示,在10億幀的訓(xùn)練后,對于5個游戲中的4個,agent的表現(xiàn)有明顯提高。

結(jié)論

在本文中,我們提出了對比預(yù)測編碼(CPC),這是一種用于提取緊湊潛在表示以對未來觀測進行編碼的框架。CPC將自回歸建模和噪聲對比估計與預(yù)測編碼的直覺相結(jié)合,以一種無監(jiān)督的方式學(xué)習(xí)抽象表示。

我們在多個領(lǐng)域測試了這些表現(xiàn)形式:音頻、圖像、自然語言和強化學(xué)習(xí),并在用作獨立特征時實現(xiàn)了強大的或最優(yōu)的性能。訓(xùn)練模型的簡單性和低計算要求,以及在強化學(xué)習(xí)領(lǐng)域與主要損失一起使用時令人鼓舞的結(jié)果,都展現(xiàn)了無監(jiān)督學(xué)習(xí)令人興奮的發(fā)展,并且這種學(xué)習(xí)普遍適用于更多數(shù)據(jù)模態(tài)。

標(biāo)簽: isp

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)保險會影響社會公平嗎?

下一篇:回顧 | 2018上半年十大數(shù)據(jù)泄露事件