中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌發(fā)布自然問答數(shù)據(jù)集 Natural Questions

2019-01-30    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

中國Google 發(fā)布用于訓(xùn)練和評估開放領(lǐng)域(Open-domain)問答系統(tǒng)的大型語料庫 Natural Questions(NQ)。該數(shù)據(jù)集包含了 30 萬個自然產(chǎn)生的問題和對應(yīng)的回答注釋,每個回答都是人工從維基百科頁面找到的答案。另外,Google 還舉辦了挑戰(zhàn)活動,以 NQ 數(shù)據(jù)集訓(xùn)練的模型性能來生成挑戰(zhàn)者的排行榜。

 

 

開放式域名問答(QA)是自然語言理解(NLU)中的一項基準任務(wù),旨在模仿人們?nèi)绾尾檎倚畔ⅲㄟ^對問題的閱讀和理解找到問題的答案。例如,用自然語言表達的問題(“為什么天是藍色的?”),QA 系統(tǒng)應(yīng)該能夠閱讀網(wǎng)頁(比如這個維基百科頁面 Diffuse sky radiation)并返回正確的答案,雖然答案有點復(fù)雜和冗長。

然而,目前并沒有大量公開可用的自然產(chǎn)生問題(即尋求信息的人提出的問題)和可用于訓(xùn)練評估 QA 模型的答案。原因是匯集用于問答的高質(zhì)量數(shù)據(jù)集,需要大量的實際問題來源以及尋找問題答案的大量人力。

而現(xiàn)在谷歌發(fā)布的自然問答數(shù)據(jù)集 Natural Questions 可以說是填補了這部分資料的空白。簡單來說,就是 Google 收集自家搜尋引擎真實的問題查詢,搭配維基百科的資料,為問答系統(tǒng)提供訓(xùn)練資料集。這個過程中,進行匿名查詢的注釋者需要閱讀整個維基百科頁面,來尋找答案并提供兩種答案注釋,包括涵蓋所有資訊的長答案和簡潔的短答案。

 

 

目前,該數(shù)據(jù)集收集了 30 萬個自然產(chǎn)生的問題與答案,注釋的品質(zhì)精準度達 90%,另外,Natural Questions 還包括 1.6 萬個范例,每個問題的答案由 5 個不同的注釋者提供。Google表示,這種資料可以用來評估問答系統(tǒng)的性能。

作者:段段段落 來源:開源

標簽: Google 谷歌 域名

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:開放的一天,吳恩達、谷歌、Facebook紛紛開源數(shù)據(jù)集

下一篇:利用大數(shù)據(jù)提升政府治理能力