中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

使用Transformer與無監(jiān)督學(xué)習(xí),OpenAI提出可遷移至多種NLP任務(wù)的通用模型

2018-06-13    來源:

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
OpenAI 最近通過一個(gè)與任務(wù)無關(guān)的可擴(kuò)展系統(tǒng)在一系列語言任務(wù)中獲得了當(dāng)前最優(yōu)的性能,目前他們已經(jīng)發(fā)布了該系統(tǒng)。OpenAI 表示他們的方法主要結(jié)合了兩個(gè)已存的研究,即 Transformer 和無監(jiān)督預(yù)訓(xùn)練。實(shí)驗(yàn)結(jié)果提供了非常令人信服的證據(jù),其表明聯(lián)合監(jiān)督學(xué)習(xí)方法和無監(jiān)督預(yù)訓(xùn)練能夠得到非常好的性能。這其實(shí)是很多研究者過去探索過的領(lǐng)域,OpenAI 也希望他們這次的實(shí)驗(yàn)結(jié)果能激發(fā)更加深入的研究,并在更大和更多的數(shù)據(jù)集上測試聯(lián)合監(jiān)督學(xué)習(xí)與無監(jiān)督預(yù)訓(xùn)練的性能。

 

 

OpenAI 的系統(tǒng)分為兩階段,首先研究者以無監(jiān)督的方式在大型數(shù)據(jù)集上訓(xùn)練一個(gè) Transformer,即使用語言建模作為訓(xùn)練信號(hào),然后研究者在小得多的有監(jiān)督數(shù)據(jù)集上精調(diào)模型以解決具體任務(wù)。研究者開發(fā)的這種方式借鑒了他們關(guān)于 Sentiment Neuron(https://blog.openai.com/unsupervised-sentiment-neuron/)方面的研究成果,他們發(fā)現(xiàn)無監(jiān)督學(xué)習(xí)技術(shù)在足夠多的數(shù)據(jù)集上訓(xùn)練能產(chǎn)生令人驚訝的可區(qū)分特征。因此研究者希望更進(jìn)一步探索這一概念:我們能開發(fā)一個(gè)在大量數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),并精調(diào)后就能在很多不同任務(wù)上實(shí)現(xiàn)很好性能的模型嗎?研究結(jié)果表明這種方法可能有非常好的性能,相同的核心模型可以針對(duì)不同的任務(wù)進(jìn)行少量適應(yīng)和精調(diào)就能實(shí)現(xiàn)非常不錯(cuò)的性能。

這一項(xiàng)研究任務(wù)建立在《Semi-supervised Sequence Learning》論文中所提出的方法,該方法展示了如何通過無監(jiān)督預(yù)訓(xùn)練的 LSTM 與有監(jiān)督的精調(diào)提升文本分類性能。這一項(xiàng)研究還擴(kuò)展了論文《Universal Language Model Fine-tuning for Text Classification》所提出的 ULMFiT 方法,它展示了單個(gè)與數(shù)據(jù)集無關(guān)的 LSTM 語言模型如何進(jìn)行精調(diào)以在各種文本分類數(shù)據(jù)集上獲得當(dāng)前最優(yōu)的性能。OpenAI 的研究工作展示了如何使用基于 Transformer 的模型,并在精調(diào)后能適應(yīng)于除文本分類外其它更多的任務(wù),例如常識(shí)推理、語義相似性和閱讀理解。該方法與 ELMo 相似但更加通用,ELMo 同樣也結(jié)合了預(yù)訓(xùn)練,但使用為任務(wù)定制的架構(gòu)以在各種任務(wù)中取得當(dāng)前頂尖的性能。

OpenAI 只需要很少的調(diào)整就能實(shí)現(xiàn)最后的結(jié)果。所有數(shù)據(jù)集都使用單一的前向語言模型,且不使用任何集成方法,超參配置也與大多數(shù)研究成果相同。

OpenAI 特別興奮這一方法在三個(gè)數(shù)據(jù)集上得到的性能,即 COPA、RACE 和 ROCStories,它們都是旨在為常識(shí)推理和閱讀理解設(shè)計(jì)的測試集。OpenAI 的模型在這些數(shù)據(jù)集上都獲得了新的最佳性能,且有較大的提升。這些數(shù)據(jù)集通常被認(rèn)為需要多句子推理和顯著的世界知識(shí)來幫助解決問題,這表明研究者的模型通過無監(jiān)督學(xué)習(xí)主要提升了這些技能。這同樣表明我們可以通過無監(jiān)督學(xué)習(xí)技術(shù)開發(fā)復(fù)雜的語言理解能力。

為什么使用無監(jiān)督學(xué)習(xí)?

監(jiān)督學(xué)習(xí)是近期大部分機(jī)器學(xué)習(xí)成功方法的關(guān)鍵,但是,它需要大型、經(jīng)過仔細(xì)清洗的數(shù)據(jù)集才能表現(xiàn)良好,這需要很高的成本。無監(jiān)督學(xué)習(xí)因其解決這些缺陷的潛力而具備極大吸引力。由于無監(jiān)督學(xué)習(xí)解決了人工標(biāo)注數(shù)據(jù)的瓶頸,它在計(jì)算能力不斷增強(qiáng)、可獲取原始數(shù)據(jù)增多的當(dāng)前趨勢下,仍然能夠?qū)崿F(xiàn)很好的擴(kuò)展。無監(jiān)督學(xué)習(xí)是非;钴S的研究領(lǐng)域,但是它在實(shí)際應(yīng)用中仍然受到限制。

近期出現(xiàn)了利用無監(jiān)督學(xué)習(xí)方法通過大量無標(biāo)注數(shù)據(jù)來增強(qiáng)系統(tǒng)的熱潮;使用無監(jiān)督技術(shù)訓(xùn)練的詞表征可以使用包含 TB 級(jí)信息的大型數(shù)據(jù)集,而且無監(jiān)督方法與監(jiān)督學(xué)習(xí)技術(shù)相結(jié)合能夠在大量 NLP 任務(wù)上提高性能。直到最近,這些用于 NLP 任務(wù)的無監(jiān)督技術(shù)(如 GLoVe 和 word2vec)使用簡單的模型(詞向量)和訓(xùn)練過的信號(hào)(局部詞共現(xiàn))。Skip-Thought 向量是對(duì)復(fù)雜方法才能實(shí)現(xiàn)的改進(jìn)的較早呈現(xiàn)。但是現(xiàn)在新技術(shù)用于進(jìn)一步提升性能,包括預(yù)訓(xùn)練句子表征模型、語境化詞向量(ELMo 和 CoVE)的使用,以及使用自定義架構(gòu)來結(jié)合無監(jiān)督預(yù)訓(xùn)練和監(jiān)督式精調(diào)的方法,比如本文中 OpenAI 的方法。

 

 

在大型文本語料庫上對(duì)模型進(jìn)行預(yù)訓(xùn)練可以極大地改善其在較難的自然語言處理任務(wù)(如 Winograd Schema Resolution)上的性能。

OpenAI 還注意到他們能夠使用底層語言模型開始執(zhí)行任務(wù),無需訓(xùn)練。例如,在選擇正確答案等任務(wù)中的性能隨著底層語言模型的改進(jìn)而得到改善。盡管這些方法的絕對(duì)性能與當(dāng)前最優(yōu)的監(jiān)督方法相比仍然較低(在問答任務(wù)中,非監(jiān)督方法的性能仍然不如簡單的滑動(dòng)窗口監(jiān)督式基線模型),但是這些方法在大量任務(wù)上具備魯棒性,這令人鼓舞。不包含任何任務(wù)和世界相關(guān)信息的隨機(jī)初始化網(wǎng)絡(luò),其性能不比使用這些啟發(fā)式方法的隨機(jī)初始化網(wǎng)絡(luò)好。這為生成性預(yù)訓(xùn)練為什么能夠提高下游任務(wù)上的性能提供了一些洞見。

OpenAI 還使用模型中的現(xiàn)有語言功能來執(zhí)行情感分析。研究人員使用了 Stanford Sentiment Treebank 數(shù)據(jù)集,該數(shù)據(jù)集包含積極和消極的電影評(píng)論句子,研究人員可以使用語言模型通過在一個(gè)評(píng)論句子后輸入單詞「very」,并查看該模型預(yù)測該單詞是「積極」或「消極」的概率,來猜測這條評(píng)論是積極還是消極的。這種方法無需將模型針對(duì)特定任務(wù)進(jìn)行調(diào)整,它與經(jīng)典基線模型的性能持平——大約 80% 的準(zhǔn)確率。

該研究也是對(duì) Transformer 架構(gòu)的魯棒性和實(shí)用性的驗(yàn)證,表明無需針對(duì)特定任務(wù)進(jìn)行復(fù)雜的定制化或調(diào)參,也可以在大量任務(wù)上達(dá)到當(dāng)前最優(yōu)的結(jié)果。

缺點(diǎn)

該項(xiàng)目也有幾個(gè)突出的問題值得注意:

計(jì)算需求:很多之前的解決 NLP 任務(wù)的方法可以在單塊 GPU 上從零開始訓(xùn)練相對(duì)較小的模型。OpenAI 的方法在預(yù)訓(xùn)練步驟中需要很高的成本——在 8 塊 GPU 上訓(xùn)練 1 個(gè)月。幸運(yùn)的是,這僅需要做一次,OpenAI 會(huì)發(fā)布他們的模型,從而其他人可以避免這一步。它也是一個(gè)很大的模型(相比于之前的工作),因而需要更多的計(jì)算和內(nèi)存。OpenAI 使用了一個(gè) 37 層(12 個(gè)模塊)的 Tranformer 架構(gòu),并且在達(dá)到 512 個(gè) token 的序列上訓(xùn)練。多數(shù)實(shí)驗(yàn)都是在 4 和 8 塊 GPU 的系統(tǒng)上構(gòu)建的。該模型確實(shí)能很快速地精調(diào)到新的任務(wù)上,這緩解了額外的資源需求。

通過文本學(xué)習(xí)而導(dǎo)致的對(duì)世界理解的局限和偏差:在互聯(lián)網(wǎng)上可用的書籍和文本并沒有囊括關(guān)于世界的完整甚至是準(zhǔn)確的信息。近期的研究表明特定類型的信息很難僅通過文本學(xué)習(xí)到,其它研究表明模型會(huì)從數(shù)據(jù)分布中學(xué)習(xí)和利用偏差。

泛化能力仍然很脆弱:雖然 OpenAI 的方法在多種任務(wù)中提高了性能,目前的深度學(xué)習(xí) NLP 模型仍然展現(xiàn)出令人吃驚的和反直覺的行為,特別是當(dāng)在系統(tǒng)化、對(duì)抗性或超出數(shù)據(jù)分布的方式進(jìn)行評(píng)估的時(shí)候。OpenAI 的方法相比于之前的純神經(jīng)網(wǎng)絡(luò)的方法在文本蘊(yùn)涵任務(wù)上展示了提升的詞法魯棒性。在 Glockner 等人的論文《Breaking NLI Systems with Sentences that Require Simple Lexical Inferences》引入的數(shù)據(jù)集中,他們的模型達(dá)到了 83.75% 的準(zhǔn)確率,和 KIM(Knowledge-based Inference Model,來自《NATURAL LANGUAGE INFERENCE WITH EXTERNAL KNOWLEDGE》)的性能相近(通過 WordNet 整合了外部知識(shí))。

未來方向

擴(kuò)展該方法:研究者觀察到語言模型性能的提高和下游任務(wù)的提高有很大關(guān)聯(lián)。他們目前使用的是商用 GPU(單個(gè) 8GPU 機(jī)器)以及僅包含數(shù)千本書籍的訓(xùn)練數(shù)據(jù)集(約 5GB 的文本)。這意味著如果使用驗(yàn)證效果好的方法以及更多的計(jì)算資源和數(shù)據(jù),該模型還有很大的提升空間。

改善精調(diào)過程:研究者的方法目前還很簡單。有可能使用更復(fù)雜的適應(yīng)和遷移技術(shù)例如在 ULMFiT 中所探索的方法,可以讓該模型獲得顯著的提升。

更好地理解生成式預(yù)訓(xùn)練的有效性:雖然本文中片面地討論了一些思想,更多的目標(biāo)指向的實(shí)驗(yàn)和研究將幫助分辨不同的解釋。例如,實(shí)驗(yàn)中觀察到的性能增益有多少是由于處理更廣泛上下文的能力的提高,有多少是由于世界知識(shí)的提高。

附錄:數(shù)據(jù)集示例

 

 

論文:Improving Language Understanding by Generative Pre-Training

 

 

論文地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

項(xiàng)目地址:https://github.com/openai/finetune-transformer-lm

摘要:自然語言理解包括很廣泛的任務(wù)類型,例如文本蘊(yùn)涵、問答、語義相似性評(píng)估以及文本分類。雖然存在大量的未標(biāo)記文本語料庫,但是為學(xué)習(xí)這些特定任務(wù)而標(biāo)注的數(shù)據(jù)是較匱乏的,從而令有區(qū)別地訓(xùn)練表現(xiàn)足夠好的模型變得很有挑戰(zhàn)性。我們在本研究中表明通過在多個(gè)未標(biāo)記文本語料庫上對(duì)語言模型進(jìn)行生成式預(yù)訓(xùn)練,然后有區(qū)別地對(duì)每個(gè)特定任務(wù)進(jìn)行精調(diào),可以在這些任務(wù)上取得很大的增益。相比于之前的方法,我們在精調(diào)以獲得有效遷移的過程中利用了任務(wù)相關(guān)的輸入轉(zhuǎn)換,同時(shí)僅需要對(duì)模型架構(gòu)做極小的改變。結(jié)果表明我們的方法在自然語言理解的很廣泛的基準(zhǔn)上具備有效性。我們不基于任務(wù)的模型超越了那些為每個(gè)任務(wù)特別設(shè)計(jì)架構(gòu)而分別進(jìn)行訓(xùn)練的模型,在研究的 12 項(xiàng)任務(wù)的 9 項(xiàng)中顯著提高了當(dāng)前最佳結(jié)果。例如,我們在常識(shí)推理(Stories Cloze Test)、問答(RACE)、文本蘊(yùn)涵(MultiNLI)中分別達(dá)到了 8.9%、5.7%、1.5% 的絕對(duì)提高。

原文鏈接:https://blog.openai.com/language-unsupervised/

標(biāo)簽: https 互聯(lián)網(wǎng) 網(wǎng)絡(luò) 選擇

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:谷歌的AI拒絕了五角大樓 但亞馬遜選擇敞開懷抱!

下一篇:2018年AI專業(yè)報(bào)考指南:這些AI學(xué)院招本科 考慮嗎