站長資訊平臺

讓AI學(xué)會刨根問底和放飛自我，斯坦福最新問答數(shù)據(jù)集CoQA

2018-09-11 來源：raincent

以往的對話問答數(shù)據(jù)集，大多把答案限定在了給定段落的范圍內(nèi)，這種答案有時候不僅不自然，而且還要依賴問題與段落之間的詞匯相似性。導(dǎo)致機(jī)器有時答非所問，顯得有點笨拙。本文提出的一種新型對話數(shù)據(jù)集 CoQA，囊括來自 7 個不同領(lǐng)域的文本段落里 8000 個對話中的 127,000 輪問答，內(nèi)容豐富。而且該問答系統(tǒng)支持自由形式的答案，使機(jī)器回答問題不再那么一板一眼，而是靈活多樣。

我們通常以提問的方式來向別人求解或測試對方。然后根據(jù)對方的回答，我們會繼續(xù)提問，然后他們又基于之前的討論來回答。這種循序漸進(jìn)的方式使對話變得簡潔明了。無法建立和維持這種問答方式是虛擬助手無法成為可靠對話伙伴的部分原因。本文提出了 CoQA，一個衡量機(jī)器參與問答式對話能力的對話問答數(shù)據(jù)集。在 CoQA 中，機(jī)器必須理解文本段落并回答對話中出現(xiàn)的一系列問題。研究人員開發(fā) CoQA 時主要考慮了三個主要目標(biāo)。

圖 1：CoQA 數(shù)據(jù)集中的一個對話。每個回合都包含一個問題(Qi)，一個答案(Ai)和支持答案的理由(Ri)。

首先要考慮的是人類對話中問題的性質(zhì)。圖 1 顯示了正在閱讀文章的兩個人之間的對話，其中一個為提問者，另一個為回答者。在此次對話中，第一個問題之后的每個問題都是基于之前的對話。例如，Q5(Who?)只有一個單詞，如果不知道之前的對話是不可能回答的。提出簡短的問題對人類來說是一種有效的溝通方式，但對機(jī)器來說卻是一種痛苦。眾所周知，即使是最先進(jìn)的模型在很大程度上也要依賴于問題與段落之間的詞匯相似性(Chen et al., 2016; Weissenborn et al., 2017)。而目前，包含基于對話歷史的問題的大規(guī)模閱讀理解數(shù)據(jù)集(見表 1)仍未出現(xiàn)，而這正是 CoQA 的主要開發(fā)目的。

表 1：CoQA 與現(xiàn)有大型閱讀理解數(shù)據(jù)集的比較(約 10 萬多個問題)。

CoQA 的第二個目標(biāo)是確保對話中答案的自然性。很多現(xiàn)有的 QA 數(shù)據(jù)集把答案限制在給定段落的連續(xù)范圍內(nèi)，也被稱之為可提取答案(表 1)。這樣的答案有時候不是很自然，例如，圖 1 中 Q4(How many?)就沒有可提取答案。在 CoQA 中，答案可以是自由形式的文本(抽象答案)，而提取跨度則作為實際答案的參照。因此，Q4 的答案雖然只是簡單的『Three』，但卻是參照多句話所得出的結(jié)論。

CoQA 的第三個目標(biāo)是構(gòu)建跨域穩(wěn)定執(zhí)行的 QA 系統(tǒng)。當(dāng)前的 QA 數(shù)據(jù)集主要集中在單個域上，所以難以測試現(xiàn)有模型的泛化能力。因此，研究人員從七個不同的領(lǐng)域收集數(shù)據(jù)集——兒童故事、文學(xué)、中學(xué)和高中英語考試、新聞、維基百科、科學(xué)和 Reddit。最后兩個用于域外評估。

總而言之，CoQA 具有以下主要特征：

通過文本段落從 8000 個對話中收集了 127，000 輪問答(每段約一個對話)。平均會話長度為 15 回合，每回合包含一個問題和一個答案。

自由形式的答案。每個答案都有一個提取理由，在段落中突出顯示。

文本段落來自七個不同的領(lǐng)域——五個用于域內(nèi)評估，兩個用于域外評估。

幾乎有一半的 CoQA 問題使用共指關(guān)系回溯到會話歷史，并且很大一部分需要語用推理，這導(dǎo)致僅依賴詞匯線索的模型更具挑戰(zhàn)性。研究人員對生成抽象答案和可提取答案(第 5 節(jié))的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了基準(zhǔn)測試。表現(xiàn)最佳的系統(tǒng)是一種可以預(yù)測提取原理，并將原理進(jìn)一步輸入生成最終答案的序列到序列模型中的閱讀理解模型，該閱讀理解模型獲得 65.1%的 F1 分?jǐn)?shù)。相比之下，人類實現(xiàn)了 88.8%的 F1，比模型高出了 23.7%，這表明它有很大的提升空間。此外，人類的強(qiáng)勁表現(xiàn)表明，與閑聊對話(它支持更可靠的自動評估)相比，CoQA 的回答空間要小得多(Ritter et al., 2011; Vinyals and Le, 2015; Sordoni et al., 2015)。

論文：CoQA: A Conversational Question Answering Challenge

論文地址：https://arxiv.org/abs/1808.07042

摘要：人類通過參與一系列問題和答案相互關(guān)聯(lián)的對話來收集信息。因此協(xié)助我們收集信息的機(jī)器，也必須能夠回答對話問題。我們介紹了一個用于構(gòu)建對話問答系統(tǒng)的新數(shù)據(jù)集 CoQA。該數(shù)據(jù)集包含來自 7 個不同領(lǐng)域的文本段落里 8000 個對話中的 127,000 輪問答。問題是會話形式，而答案是自由形式的文本，并在段落中突出顯示相應(yīng)的依據(jù)。我們深入分析了 CoQA，發(fā)現(xiàn)會話問題具有現(xiàn)有閱讀理解數(shù)據(jù)集所沒有的挑戰(zhàn)性現(xiàn)象，例如共指關(guān)系和實用推理。我們在 CoQA 上評估強(qiáng)大的對話和閱讀理解模型。表現(xiàn)最佳的系統(tǒng)獲得了 65.1%的 F1 分?jǐn)?shù)，與人類相比低了 23.7%，這表明它有很大的改善空間。作為一種挑戰(zhàn)，我們在http://stanfordnlp.github.io/coqa/ 社區(qū)上推出了 CoQA。

任務(wù)定義

對于圖 2 中的示例，對話從問題 Q1 開始。我們根據(jù)段落中的依據(jù) R1 用 A1 回答 Q1。在這個例子中，回答者只寫了 Governor 作為答案，但選擇了很長的依據(jù)——「The Virginia governor’s race」。

下面來看 Q2(Where?)，我們必須回顧對話歷史，否則它的答案可能是 Virginia 或 Richmond 或其它。在我們的任務(wù)中，回答很多問題都需要對話歷史。我們使用對話歷史 Q1 和 A1，基于依據(jù) R2 用 A2 回答 Q2。按公式來講，回答問題 Qn 要根據(jù)對話歷史 Q1，A1 ……Qn-1，An-1。對于一個無法回答的問題，我們將未知作為最終答案，并且不選擇任何理由。

在這個例子中，我們觀察到焦點實體(entity of focus)隨著對話的進(jìn)行而改變。提問者使用 his 指代 Q4 中的 Terry，he 指代 Q5 中的 Ken。如果這些問題得不到解決，我們最終將會得到錯誤答案。問題的對話性質(zhì)要求我們根據(jù)多個句子(當(dāng)前問題和之前的問題或答案，以及段落中的句子)來推理。通常，單個問題的參照可能會跨越多個句子(例如，圖 1 中的 Q1，Q4 和 Q5)。我們在第 4 節(jié)中描述了其它問答類型。

圖 2：用不同的顏色表示共指關(guān)系鏈的對話。焦點實體在 Q4，Q5，Q6 中發(fā)生變化。

表 2：CoQA 中域的分布

數(shù)據(jù)集分析

圖 3：SQUAD 和 CoQA 里問題中前三個詞的分布情況。

表 3：SQUAD 和 CoQA 中段落、問題和答案的平均單詞數(shù)。

表 4：SQuAD 和 CoQA 中答案類型的分布。

表 5：CoQA 問題中的語言現(xiàn)象。

表 6：模型和人類在開發(fā)數(shù)據(jù)和測試數(shù)據(jù)上的表現(xiàn)(F1 得分)。

表 6 列出了模型在開發(fā)數(shù)據(jù)和測試數(shù)據(jù)上的結(jié)果。根據(jù)測試集上的結(jié)果，seq2seq 模型表現(xiàn)最差，有些答案不管有沒有出現(xiàn)在段落中，都會頻繁出現(xiàn)，這是一種眾所周知的對話模型行為(Li et al., 2016)。PGNet 通過關(guān)注文章中的詞匯來緩解反應(yīng)頻繁的問題，優(yōu)于 seq2seq 17.8 個百分點。然而，它仍然落后于 DrQA 8.5 個百分點。原因可能是 PGNet 在回答問題之前必須記住整個段落，而 DrQA 避免了這項巨大開銷。但 DrQA 在回復(fù)自由形式答案的問題時不理想(參見表 7 中的 Abstractive 行)。當(dāng) DrQA 被輸入 PGNet 時，我們授權(quán) DrQA 和 PGNet - DrQA 生成自由形式的答案; PGNet 專注于參照而不是段落。這種組合比經(jīng)典 PGNet 和 DrQA 模型分別要強(qiáng) 21.0% 和 12.5%。

結(jié)論

在本文中，我們介紹了 CoQA，一個用于構(gòu)建對話問答系統(tǒng)的大型數(shù)據(jù)集。與現(xiàn)有的閱讀理解數(shù)據(jù)集不同，CoQA 包含對話問題，自然答案，作為參照的提取跨度，以及來自不同領(lǐng)域的文本段落。我們的實驗表明，現(xiàn)有的對話和閱讀理解模型在 CoQA 上的表現(xiàn)不如人類。我們希望這項工作能夠激發(fā)更多有關(guān)會話建模的研究，這是實現(xiàn)人機(jī)自然交互的關(guān)鍵因素。

標(biāo)簽：網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:從數(shù)據(jù)中心無人化趨勢看資產(chǎn)管理的發(fā)展和實踐

下一篇:數(shù)據(jù)科學(xué)究竟是什么？

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗 IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

讓AI學(xué)會刨根問底和放飛自我，斯坦福最新問答數(shù)據(jù)集CoQA

讓AI學(xué)會刨根問底和放飛自我，斯坦福最新問答數(shù)據(jù)集CoQA