中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)趨勢(shì)預(yù)測(cè)靠譜嗎?德國(guó)研究者用1.7萬(wàn)篇arXiv論文預(yù)測(cè)機(jī)器學(xué)習(xí)和NLP研究趨勢(shì)

2019-03-21    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

大量研究者在預(yù)印本網(wǎng)站 arXiv 上發(fā)表前沿研究,那么基于 arXiv 判斷研究趨勢(shì)是否可行呢?近日,來(lái)自德國(guó)達(dá)姆施塔特工業(yè)大學(xué)和法蘭克福金融管理學(xué)院的研究者在 arXiv 上發(fā)表論文,試圖基于兩個(gè) arXiv 論文數(shù)據(jù)集預(yù)測(cè)相關(guān)領(lǐng)域的研究趨勢(shì)。

研究者使用的數(shù)據(jù)集來(lái)自 arXiv 上機(jī)器學(xué)習(xí) (cs.LG) 和自然語(yǔ)言處理 (cs.CL) 兩個(gè)類別,他們采用自下而上的方法基于這兩個(gè)數(shù)據(jù)集檢測(cè)研究趨勢(shì):首先按論文的引用量(經(jīng)過(guò)標(biāo)準(zhǔn)化)對(duì)論文進(jìn)行排序,然后按照論文任務(wù)和使用方法將排序靠前的論文分為不同類別,再對(duì)得到的主題進(jìn)行分析。研究者發(fā)現(xiàn) cs.CL 領(lǐng)域中的主導(dǎo)范式是自然語(yǔ)言生成問(wèn)題,cs.LG 領(lǐng)域的主導(dǎo)研究方向是強(qiáng)化學(xué)習(xí)和對(duì)抗學(xué)習(xí)。研究者通過(guò)外推法(extrapolation),預(yù)測(cè)這些話題在中短期內(nèi)仍將是各自領(lǐng)域中的主要問(wèn)題/方法。

下面展示了前沿研究的任務(wù)、方法和目標(biāo)分布情況。

 

 

圖 1:cs.CL 領(lǐng)域 top-100 論文的任務(wù)分布情況。我們可以從中觀察到自然語(yǔ)言生成任務(wù)是其中的主導(dǎo)任務(wù)。

 

 

圖 2:cs.LG 領(lǐng)域 top-100 論文的方法分布情況。我們可以從中看到強(qiáng)化學(xué)習(xí)和對(duì)抗學(xué)習(xí)是這些論文中使用最廣泛的方法。

 

 

圖 3:cs.CL 領(lǐng)域 top-100 論文的目標(biāo)分布情況。我們可以從中看到超半數(shù)研究的目標(biāo)是提高準(zhǔn)確率。

預(yù)測(cè)研究趨勢(shì)一直是科學(xué)家的夢(mèng)想。關(guān)于流行研究課題的項(xiàng)目往往能夠比較輕松地被大會(huì)和期刊接收,同時(shí)也更容易得到研究經(jīng)費(fèi)批準(zhǔn)。此外,了解未來(lái)研究趨勢(shì)有益于整個(gè)社會(huì),因?yàn)檫@些趨勢(shì)很可能直接影響勞動(dòng)市場(chǎng)、技術(shù)方向、消費(fèi)者和產(chǎn)品,以及人類認(rèn)同性的文化隱喻和定義,對(duì)人工智能等領(lǐng)域來(lái)說(shuō)更是如此。但是,隨著研究者發(fā)布的論文數(shù)量逐年攀升,消化這么多信息并從中人工識(shí)別出可能具備長(zhǎng)期科學(xué)影響的話題更加困難。本文介紹的研究開(kāi)發(fā)了一種自動(dòng)化系統(tǒng),旨在發(fā)現(xiàn)重要的研究趨勢(shì),從而幫助研究者更好地規(guī)劃自己的學(xué)術(shù)活動(dòng)。

這個(gè)系統(tǒng)從 arXiv 的機(jī)器學(xué)習(xí) (cs.LG) 和自然語(yǔ)言處理 (cs.CL) 類別中抓取論文及其引用信息,來(lái)構(gòu)建數(shù)據(jù)集。然后,研究者根據(jù)論文引用量(經(jīng)過(guò)標(biāo)準(zhǔn)化處理)判斷數(shù)據(jù)集中有潛力的論文,然后通過(guò)人工和自動(dòng)的方式將這些論文分類。研究者使用 arXiv 論文的原因在于,arXiv 是非常流行的科研成果預(yù)印本(及后印本)平臺(tái),且近年來(lái)影響力逐漸上升。

數(shù)據(jù)和標(biāo)注

數(shù)據(jù)

研究者創(chuàng)建了兩個(gè)數(shù)據(jù)集,分別包括來(lái)自 arXiv 機(jī)器學(xué)習(xí) (cs.LG) 和自然語(yǔ)言處理(cs.CL) 類別的論文。選擇這兩個(gè)人工智能子領(lǐng)域的原因是,它們動(dòng)態(tài)變化大,每年都會(huì)發(fā)生很大的變化和性能改進(jìn)。收集的數(shù)據(jù)包括論文標(biāo)題、摘要和作者,研究者還從 Semantic Scholar 網(wǎng)站抓取了這些論文的引用量信息。數(shù)據(jù)集中的論文發(fā)表于 2017 年 6 月至 2018 年 12 月,包括 4800 篇 cs.CL 領(lǐng)域論文和 12400 篇 cs.LG 論文。

標(biāo)注

該研究的作者之一手動(dòng)標(biāo)注了這兩個(gè)領(lǐng)域 top-100 論文的摘要,主要標(biāo)注了三個(gè)屬性:任務(wù)、方法和目標(biāo)/成果。這些屬性回答了論文研究什么、如何研究、為什么研究這幾個(gè)問(wèn)題。研究者為 cs.CL 領(lǐng)域論文設(shè)置了 15 個(gè)任務(wù)類別、28 個(gè)方法類別和 7 個(gè)目標(biāo)類別,為 cs.LG 設(shè)置了 13 個(gè)任務(wù)類別、15 個(gè)方法類別和 13 個(gè)目標(biāo)類別。

 

 

表 1:根據(jù)標(biāo)準(zhǔn)化后的引用量得到的 cs.CL 領(lǐng)域 Top-3 論文,及其任務(wù)、方法和目標(biāo)。括號(hào)中的數(shù)字表示截至 2018 年 12 月時(shí)的引用量絕對(duì)值和標(biāo)準(zhǔn)化后的值。

 

 

表 2:cs.CL 和 cs.LG 領(lǐng)域各自的任務(wù)和方法標(biāo)簽。

對(duì)引用量進(jìn)行標(biāo)準(zhǔn)化處理

論文影響力最簡(jiǎn)單的衡量方式是引用量,但研究領(lǐng)域和論文發(fā)布日期會(huì)影響引用量數(shù)字的絕對(duì)值。因此,研究者對(duì)比同一研究領(lǐng)域的論文,并按論文發(fā)表時(shí)長(zhǎng)調(diào)整引用量分?jǐn)?shù),從而對(duì)引用量進(jìn)行標(biāo)準(zhǔn)化處理。這即是 Newman [8,9] 提出的 z-score 方法:根據(jù)引用量絕對(duì)值的均值和標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。

研究者以 ±10 天作為時(shí)間窗口,對(duì)數(shù)據(jù)集中的所有論文執(zhí)行 z-score 標(biāo)準(zhǔn)化(忽略引用量少于 4 的論文)。

論文:Predicting Research Trends From Arxiv

 

 

論文鏈接:https://arxiv.org/pdf/1903.02831v1.pdf

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:區(qū)塊鏈與大數(shù)據(jù)的整合,未來(lái)必然趨勢(shì)

下一篇:2019 年,人工智能領(lǐng)域有哪些突破值得期待?