中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

在印度展開全球文獻(xiàn)數(shù)據(jù)挖掘,美國專家的大膽做法登上Nature

2019-07-23    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

最新一期的《Nature》介紹了一位美國專家在印度展開的宏偉項(xiàng)目,他利用從 1847 年至今的 7300 萬份文獻(xiàn)中提取的文本和圖像創(chuàng)建了一個(gè)數(shù)據(jù)庫,并計(jì)劃對其進(jìn)行數(shù)據(jù)挖掘,其中也包含未經(jīng)授權(quán)的文本。這一做法對多個(gè)學(xué)科的發(fā)展都有所幫助,但其合法性目前尚不明確。

 

 

Carl Malamud 站在服務(wù)器前,他的團(tuán)隊(duì)準(zhǔn)備對 7300 萬篇論文進(jìn)行數(shù)據(jù)挖掘。

Carl Malamud 正努力解放付費(fèi)論文背后的信息,他的這一行動(dòng)獲得了非常多的支持。

Malamud 曾花費(fèi)數(shù)十年時(shí)間發(fā)布受版權(quán)保護(hù)的法律文件(從建筑規(guī)范到法庭記錄),并堅(jiān)持認(rèn)為這些文件代表了公共領(lǐng)域的法律,應(yīng)該向所有公民開放。但現(xiàn)在,這位 60 歲的美國技術(shù)專家正轉(zhuǎn)向一個(gè)新目標(biāo):解放付費(fèi)的科學(xué)文獻(xiàn),他認(rèn)為這可以通過合法的方式做到。

在過去的一年中,Malamud 與印度的研究者合作,構(gòu)建了一個(gè)巨大的文本和圖像庫,它們是從 1847 年至今的 7300 萬份文獻(xiàn)中提取的。

這一項(xiàng)目的緩存設(shè)備坐落于新德里尼赫魯大學(xué)(JNU),目前仍在構(gòu)建,它的存儲(chǔ)量達(dá)到了 576TB。

Malamud 和她在 JNU 的合作伙伴將這一項(xiàng)目命名為 JNU 數(shù)據(jù)庫(JNU data depot),他表示:「JNU 數(shù)據(jù)庫并不會(huì)收集歷史上所有期刊的所有文章,但數(shù)量確實(shí)很多。它的大小相當(dāng)于 Web of Science 數(shù)據(jù)集的核心資源!

JUN 數(shù)據(jù)庫并不允許任何人從它里面讀取或下載文獻(xiàn),因?yàn)檫@會(huì)破壞發(fā)行商的權(quán)利。因此,Malamud 設(shè)想研究者可以通過計(jì)算機(jī)軟件爬取文本和數(shù)據(jù),通過掃描全世界的科學(xué)文獻(xiàn)來抽取核心信息,這樣就避免了對文本的實(shí)際閱讀。

這個(gè)前所未有的項(xiàng)目很快引起了許多人的興趣,因?yàn)樗状未蜷_了付費(fèi)文獻(xiàn)的快速計(jì)算分析之路。目前數(shù)十個(gè)研究團(tuán)隊(duì)已經(jīng)在挖掘論文以建立基因和化學(xué)相關(guān)的數(shù)據(jù)庫,并繪制疾病和蛋白質(zhì)之間的關(guān)聯(lián)以生成有用的科學(xué)假設(shè)。

但出版商的控制經(jīng)常會(huì)限制該項(xiàng)目的進(jìn)展與推廣,因?yàn)樗麄兂3V辉试S訪問摘要而不是全文。印度、美國和英國的研究者已經(jīng)計(jì)劃使用 JNU 儲(chǔ)存,很多教授也都對該項(xiàng)目非常感興趣。

然而,目前這種庫的法律地位尚不明確。Malamud 在創(chuàng)建這一項(xiàng)目之前咨詢過幾位知識(shí)版權(quán)律師,希望能避免訴訟!肝覀冋J(rèn)為自己做的事情是合法的」,他表示。此刻,他正小心翼翼地推進(jìn)項(xiàng)目:JNU 數(shù)據(jù)庫是隔絕的,也就是說,沒有人能從網(wǎng)上對其進(jìn)行訪問。用戶必須采取物理訪問的方式,目前只有不以盈利為目的進(jìn)行數(shù)據(jù)挖掘的研究者才能獲得訪問權(quán)限。Malamud 表示,他的團(tuán)隊(duì)計(jì)劃開放遠(yuǎn)程訪問權(quán)限,而且是逐步推進(jìn)。

數(shù)據(jù)挖掘的力量

加州大學(xué)圣克魯茲分校生物信息學(xué)研究者 Max Häussler 表示,JNU 數(shù)據(jù)存儲(chǔ)可以掃清阻止科學(xué)家使用軟件分析研究論文的障礙。他表示,「目前對學(xué)術(shù)論文進(jìn)行文本挖掘幾乎是不可能的」,即使像他這樣能夠獲取付費(fèi)文章的人來說也是不可能的。

在德國柏林 QUEST Center for Transforming Biomedical Research 兼職工作的統(tǒng)計(jì)學(xué)家 Chris Hartgerink 表示,他現(xiàn)在只能對開放獲取出版商的文章進(jìn)行文本挖掘,因?yàn)椤笇Ψ忾]式出版商的文章進(jìn)行此類操作會(huì)帶來諸多麻煩」。幾年前,Hartgerink 還在荷蘭讀博時(shí),三家出版商在他嘗試下載文章進(jìn)行文本挖掘后,禁止他訪問它們的期刊。

一些國家修改了法律,允許非商業(yè)項(xiàng)目研究者不用經(jīng)版權(quán)所有者允許,即可對其合法獲取的文章進(jìn)行文本挖掘。英國在 2014 年已經(jīng)通過此類法律,歐盟今年也表決通過了一項(xiàng)類似法規(guī)。

然而,大學(xué)學(xué)者仍然受限于挖掘數(shù)據(jù)庫中的文章摘要,畢竟摘要能提供的信息遠(yuǎn)遠(yuǎn)少于文章全文。

 

 

Carl Malamud 和 Andrew Lynn 檢查尼赫魯大學(xué)(JNU)項(xiàng)目,該項(xiàng)目旨在從 7300 萬論文中提取文本和圖像。

如果想要對研究文章進(jìn)行文本挖掘,科學(xué)家還需要克服技術(shù)障礙。出版商使用的版式多種多樣,因此提取文本并不容易,這也是 JNU 團(tuán)隊(duì)目前致力于解決的問題。PDF 轉(zhuǎn)文本的工具通常無法明確地區(qū)分段落、腳注和圖像。然而,一旦 JNU 團(tuán)隊(duì)解決了這些問題,其他人就可以節(jié)省自己的時(shí)間和精力。Malamud 表示,JNU 團(tuán)隊(duì)即將完成對 7300 萬論文的第一輪提取(盡管仍需要檢查錯(cuò)誤),因此他預(yù)計(jì)數(shù)據(jù)庫準(zhǔn)備將在今年底完成。

惠及多個(gè)領(lǐng)域

早期的愛好者已經(jīng)準(zhǔn)備好使用 JNU 數(shù)據(jù)庫了,其中著名的一位是印度德里國家植物基因組研究所(NIPGR)的計(jì)算生物學(xué)家兼英國劍橋大學(xué)講師 Gitanjali Yadav。2006 年,Yadav 在 NIPGR 建立了一個(gè)有關(guān)植物分泌化學(xué)物質(zhì)的數(shù)據(jù)集 EssOilDB,F(xiàn)在,藥品研發(fā)團(tuán)體和香水制造商將 EssOilDB 數(shù)據(jù)集視為自身尋求指導(dǎo)的來源。Yadav 認(rèn)為「Carl 提供的 compendium」可以給她的數(shù)據(jù)集帶來幫助。

數(shù)據(jù)集的建立從來都不是容易的事情。在建立 EssOilDB 數(shù)據(jù)集的過程中,Yadav 的團(tuán)隊(duì)必須從 PubMed 和 Google Scholar 數(shù)據(jù)庫中爬取相關(guān)論文,從他們能找到的完整文本中提取數(shù)據(jù),并且親自進(jìn)入相關(guān)數(shù)據(jù)庫以拷貝稀有期刊的表格內(nèi)容。Yadav 表示 JNU 數(shù)據(jù)庫可以加速以上收集數(shù)據(jù)的過程,目前她的團(tuán)隊(duì)正在編寫用于提取數(shù)據(jù)的查詢程序。

印度德里基因組學(xué)和綜合生物學(xué)研究所(IGIB)的生物信息學(xué)研究者 Srinivasan Ramachandran 也受到了 Malamud 計(jì)劃的鼓舞。他的團(tuán)隊(duì)運(yùn)行了一個(gè)有關(guān)糖尿病 II 型基因的數(shù)據(jù)集,他們一直從 PubMed 數(shù)據(jù)庫中爬取相關(guān)論文摘要。現(xiàn)在,他希望 JNU 數(shù)據(jù)庫可以擴(kuò)展其數(shù)據(jù)挖掘的范圍。

MIT 的 Knowledge Futures Group 團(tuán)隊(duì)表示希望繼續(xù)挖掘 JNU 數(shù)據(jù)庫,從而獲得學(xué)術(shù)出版的演變過程。該團(tuán)隊(duì)成員之一、MIT Media Lab 博士生 James Weis 表示,團(tuán)隊(duì)希望這個(gè)數(shù)據(jù)庫可以預(yù)測新興研究領(lǐng)域,并且能夠找出其他方法來替代當(dāng)前衡量學(xué)術(shù)影響力的常規(guī)度量指標(biāo)。

做法是否合法?

Malamud 表示,他采用的那些文章從哪兒來并不重要,「數(shù)據(jù)挖掘」并不是消耗性的,也就是說,數(shù)據(jù)挖掘研究者并不會(huì)閱讀或呈現(xiàn)他們所分析文章的大部分內(nèi)容。「你并不能輸入一個(gè) DOI(文章識(shí)別符)來獲取那篇文章,」他說道。Malamud 還認(rèn)為,對有版權(quán)的內(nèi)容進(jìn)行文本挖掘在美國等國家是合法的。2015 年,Google Books 也做了和 JNU 類似的事情,他們在未購買的情況下對數(shù)千份受版權(quán)保護(hù)的書進(jìn)行了掃描,而且在搜索服務(wù)中對這些書的片段進(jìn)行了展示,盡管他們并不允許全本下載或閱讀。然而,美國法院卻判定谷歌全書掃描不構(gòu)成侵權(quán)。

谷歌的代理律師 Joseph Gratz 表示,Google Books 的例子是對判斷非消耗性數(shù)據(jù)挖掘是否合法的一種試驗(yàn)。盡管谷歌會(huì)展示圖書的片段內(nèi)容,但法院認(rèn)為,由于被展示的文本篇幅有限,因此不足以構(gòu)成侵權(quán)。此前,谷歌也在掃描經(jīng)過授權(quán)的書籍(很多情況下來自圖書館),盡管并未征求作者許可。Gratz 表示,版權(quán)所有者可能認(rèn)為,Sci-Hub 或其他未經(jīng)授權(quán)的內(nèi)容提供給 JNU 庫的情況可能不同于谷歌的做法。然而,這種涉及未授權(quán)資源的案子還沒有在美國法庭討論過,因此很難預(yù)測判決結(jié)果。「有充分的理由證明資源的來源無關(guān)緊要,但也有人認(rèn)為來源很重要!

當(dāng)然,這一做法在美國是否合法似乎并沒有那么大的意義,因?yàn)轫?xiàng)目建在印度,印度法律怎么規(guī)定才是重點(diǎn),美利堅(jiān)大學(xué)的一位教授表示。

印度的版權(quán)法可能對 Malamud 的做法有所幫助,這也是他將項(xiàng)目建在新德里的另一個(gè)原因。德里國家法律大學(xué)的助理教授 Arul George Scaria 表示,如果根據(jù)印度法律第 52 條中的研究豁免權(quán),谷歌的掃描會(huì)被認(rèn)定為對受版權(quán)保護(hù)內(nèi)容的合理利用。

當(dāng)然,并非每個(gè)人都同意這種說法。新德里維迪法律政策中心的一位法律研究員 T. Prashant Reddy 表示,第 52 條允許研究人員復(fù)印期刊文章供個(gè)人使用,但并不一定允許如 JNU 庫那樣對期刊內(nèi)容進(jìn)行全文復(fù)制。Reddy 說道,不與用戶共享整篇文章的確有助于解決版權(quán)問題,但為了創(chuàng)建數(shù)據(jù)庫而對文本進(jìn)行批量復(fù)制的做法仍然游走在「灰色地帶」。

存在風(fēng)險(xiǎn)的計(jì)劃

當(dāng)《自然》雜志和 15 家出版商交流 JNU 數(shù)據(jù)庫計(jì)劃時(shí),其中 6 家出版商表示他們之前從未聽說過這一項(xiàng)目,在沒有進(jìn)一步信息之前他們對其合法性不予置評(píng)。但是這 6 家出版商(愛思唯爾、BMJ、美國化學(xué)學(xué)會(huì)、Springer Nature、美國科學(xué)促進(jìn)會(huì)、美國國家科學(xué)院)都表示,研究者要想挖掘其論文必須首先取得授權(quán)。

Malamud 承認(rèn)該項(xiàng)目存在風(fēng)險(xiǎn)。但是他認(rèn)為這具備道德重要性,尤其是在印度。印度大學(xué)和政府實(shí)驗(yàn)室花費(fèi)大量資金訂閱期刊,但仍然未能訂閱所有需要的刊物。Sci-Hub 發(fā)布的數(shù)據(jù)表明,印度人是其網(wǎng)站的最大用戶群體,這說明大學(xué)許可證并未走得足夠遠(yuǎn)。歐洲和美國的開放獲取運(yùn)動(dòng)非常珍貴,而印度也需要解放對科學(xué)知識(shí)的獲取權(quán)利,Malamud 表示,「我認(rèn)為我們不能等待歐洲和美國解決這個(gè)問題,因?yàn)闀r(shí)間緊迫。」

原文鏈接:https://www.nature.com/articles/d41586-019-02142-1

標(biāo)簽: 數(shù)據(jù)挖掘 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:IDC:預(yù)計(jì)2023年中國智慧城市市場規(guī)模達(dá)到389.2億美元

下一篇:Gartner:預(yù)計(jì)2020年企業(yè)機(jī)構(gòu)人工智能項(xiàng)目將增加一倍