中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

最佳短論文SQuAD 2.0:斯坦福大學(xué)發(fā)布的機器閱讀理解問答數(shù)據(jù)集

2018-06-14    來源:

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
近日,ACL 2018 公布最佳論文名單,《Know What You Don't Know: Unanswerable Questions for SQuAD》榮獲這次大會的最佳短論文,Percy Liang等研究者介紹了機器閱讀理解問答數(shù)據(jù)集 SQuAD 的新版本 SQuAD 2.0,其引入了與 SQuAD 1.1 中可回答問題類似的不可回答問題,難度高于 SQuAD 1.1。

代碼、數(shù)據(jù)、實驗地址:https://worksheets.codalab.org/worksheets/0x9a15a170809f4e2cb7940e1f256dee55/

機器閱讀理解已成為自然語言理解的中心任務(wù),這得益于大量大規(guī)模數(shù)據(jù)集的創(chuàng)建(Hermann 等,2015;Hewlett 等,2016;Rajpurkar 等,2016;Nguyen 等,2016;trischler 等,2017;Joshi 等,2017)。反過來,這些數(shù)據(jù)集又促進各種模型架構(gòu)的改進(Seo 等,2016;Hu 等,2017;Wang 等,2017;Clark 和 Gardner,2017;Huang 等,2018)。近期研究甚至在斯坦福問答數(shù)據(jù)集(SQuAD)上產(chǎn)生了超越人類水平精確匹配準確率的系統(tǒng),SQuAD 是應(yīng)用最廣泛的閱讀理解基準數(shù)據(jù)集之一(Rajpurkar 等,2016)。

盡管如此,這些系統(tǒng)還遠沒有真正地理解語言。最近的分析顯示,通過學(xué)習(xí)語境和類型匹配啟發(fā)式方法,模型可以在 SQuAD 數(shù)據(jù)集上實現(xiàn)良好的性能,而在 SQuAD 上的成功并不能保證模型在分散句子(distracting sentence)上的穩(wěn)健性(Jia 和 Liang,2017)。造成這些問題的一個根本原因是 SQuAD 的重點是確保在語境文檔中有正確答案的問題。因此,模型只需要選擇與問題最相關(guān)的文本范圍,而不需要檢查答案是否實際蘊涵在文本中。

在本論文研究中,研究者構(gòu)建了一個新的數(shù)據(jù)集 SQuAD 2.0,它將以前版本的 SQuAD(SQuAD 1.1)上可回答的問題與 53775 個關(guān)于相同段落的、無法回答的新問題相結(jié)合。眾包工作人員精心設(shè)計這些問題,以便它們與段落相關(guān),并且段落包含一個貌似合理的答案——與問題所要求的類型相同。圖 1 展示了兩個這樣的例子。

 

圖 1:兩個無法回答問題的示例,與貌似合理(但并不正確)的答案。藍色字是關(guān)聯(lián)性關(guān)鍵詞。研究者證實 SQuAD 2.0 既有挑戰(zhàn)性又有高質(zhì)量。一個當(dāng)前最優(yōu)的模型在 SQuAD 2.0 上訓(xùn)練和測試時只獲得 66.3% 的 F1 得分,而人的準確率是 89.5% F1,高出整整 23.2 個百分點。同樣的模型在 SQuAD 1.1 上訓(xùn)練時得到 85.8% F1,僅比人類低 5.4 個百分點。研究者還證明,無法回答的問題比通過遠程監(jiān)督(Clark 和 Gardner,2017)或基于規(guī)則的方法(Jia 和 Liang,2017)自動生成的問題更具挑戰(zhàn)性。研究者公開發(fā)布 SQuAD 數(shù)據(jù)集新版本 SQuAD 2.0,并使之成為 SQuAD 排行榜的主要基準。他們樂觀地認為,這個新數(shù)據(jù)集將鼓勵開發(fā)閱讀理解系統(tǒng),以了解其不知道的內(nèi)容。

 

4 SQuAD 2.0

4.1 創(chuàng)建數(shù)據(jù)集

研究者在 Daemo 眾包平臺招募眾包工作者來寫無法回答的問題。每個任務(wù)包括 SQuAD 1.1 中的一整篇文章。對于文章中的每個段落,眾包工作者需要提出五個僅僅基于該段落不可能回答的問題,同時這些問題要引用該段落中的實體,且確保有一個貌似合理的答案。研究者還展示了 SQuAD 1.1 中每個段落的問題,這進一步鼓勵眾包工作者寫出與可回答問題看起來類似的不可回答問題。要求眾包工作者在每個段落上費時 7 分鐘,他們的時薪是 10.5 美元。

若工作者在一篇文章上只寫出 25 個或者更少問題,研究者將刪除這些問題,以去除不理解任務(wù)、并在完成整篇文章前就已經(jīng)放棄的工作者所產(chǎn)生的噪聲。研究者將這一過濾機制應(yīng)用于新數(shù)據(jù)和 SQuAD 1.1 中的已有可回答問題。為了生成訓(xùn)練、開發(fā)和測試集,研究者使用和 SQuAD 1.1 相同的文章分割方法,并在每次分割時都結(jié)合已有數(shù)據(jù)和新數(shù)據(jù)。對于 SQuAD 2.0 開發(fā)集和測試集,研究者刪除了沒有收集到無法回答問題的文章。這導(dǎo)致在開發(fā)集和測試集分割中產(chǎn)生的可回答問題和不可回答問題的比例大致為 1:1,而訓(xùn)練數(shù)據(jù)中可回答問題與不可回答問題的比例大致為 2:1。SQuAD 2.0 數(shù)據(jù)統(tǒng)計結(jié)果見表 2:

 

表 2:SQuAD 2.0 的數(shù)據(jù)集統(tǒng)計結(jié)果及其與 SQuAD 1.1 的對比。5 實驗

 

 

表 3:在 SQuAD 1.1 和 2.0 上的精確匹配(EM)和 F1 得分。人類與最優(yōu)模型的表現(xiàn)在 SQuAD 2.0 上差距更大,這表明該模型有很大改進空間。
表 4:在 SQuAD 2.0 開發(fā)集上的精確匹配(EM)和 F1 得分,及其與在具備兩種自動生成負樣本的 SQuAD 1.1 上的 EM 和 F1 得分對比。對于當(dāng)前模型來說,SQuAD 2.0 更具挑戰(zhàn)性。論文:Know What You Don't Know: Unanswerable Questions for SQuAD

 

 

 

論文鏈接:https://arxiv.org/pdf/1806.03822.pdf

摘要:提取式閱讀理解系統(tǒng)(Extractive reading comprehension system)通常在語境文檔中定位問題的正確答案,但是它們可能會對正確答案不在語境文檔內(nèi)的問題進行不可靠的猜測,F(xiàn)有數(shù)據(jù)集要么只關(guān)注可回答的問題,要么使用自動生成的無法回答的問題,這些問題很容易識別。為了解決這些問題,我們創(chuàng)建了 SQuAD 2.0——斯坦福問答數(shù)據(jù)集(SQuAD)的最新版本。SQuAD 2.0 將已有的 SQuAD 數(shù)據(jù)和超過 5 萬個對抗性的無法回答的問題結(jié)合起來,后者是通過眾包工作者根據(jù)與可回答問題類似的方式寫成的。為了在 SQuAD 2.0 上實現(xiàn)良好的性能,系統(tǒng)不僅必須回答問題,還要確定何時語境段落中沒有答案、可以放棄回答問題。SQuAD 2.0 對現(xiàn)有模型來說是一個很有難度的自然語言處理任務(wù):一個在 SQuAD 1.1 上得到 86% 的 F1 得分的強大神經(jīng)系統(tǒng)在 SQuAD 2.0 上僅得到 66% 的 F1 得分。

標簽: https seo 代碼 選擇

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:知乎:源自社區(qū)又服務(wù)于社區(qū)的AI技術(shù)

下一篇:什么是模塊化數(shù)據(jù)中心,模塊化數(shù)據(jù)中心有什么