中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌的Dataset Search開放至今,為什么還搜不到我的數(shù)據(jù)集?

2018-09-28    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

本月早些時候,谷歌推出了數(shù)據(jù)集搜索專用引擎 Dataset Search,這是一個建立在元數(shù)據(jù)上的搜索引擎,可以對網(wǎng)絡(luò)上數(shù)千個存儲庫中的數(shù)百萬個數(shù)據(jù)集進(jìn)行搜索。谷歌團(tuán)隊稱其為「Google Scholar for data」。本文將介紹構(gòu)建 Dataset Search 的一些技術(shù)細(xì)節(jié),概述有助于開發(fā)開放數(shù)據(jù)生態(tài)系統(tǒng)的內(nèi)容。此外,谷歌還解決了自 Dataset Search 啟動以來反饋?zhàn)疃嗟膯栴}——「為什么我的數(shù)據(jù)集沒有出現(xiàn)在谷歌 Dataset Search 中?」

概述

谷歌 Dataset Search 高度依賴大大小小的數(shù)據(jù)集提供者,利用開放 schema.org/Dataset 標(biāo)準(zhǔn)在自己的站點(diǎn)上添加結(jié)構(gòu)化的元數(shù)據(jù)。元數(shù)據(jù)指定了每個數(shù)據(jù)集的顯著屬性:名稱和描述、空間和時間覆蓋、出處信息等。Dataset Search 利用這一元信息,將其與谷歌上的其他可用資源連接,并為這個豐富的元數(shù)據(jù)語料庫建立索引。建好索引之后就可以開始響應(yīng)用戶檢索,并找出最符合檢索的結(jié)果。

 

 

谷歌 Dataset Search 技術(shù)概覽

利用來自數(shù)據(jù)集提供者的結(jié)構(gòu)化元數(shù)據(jù)

當(dāng)谷歌的搜索引擎處理帶有 schema.org/Dataset 標(biāo)記的網(wǎng)頁時,它知道那里有數(shù)據(jù)集元數(shù)據(jù),并處理那個結(jié)構(gòu)化元數(shù)據(jù)以創(chuàng)建描述頁面上每個標(biāo)注數(shù)據(jù)集的「記錄」。schema.org 的使用允許開發(fā)人員將這種結(jié)構(gòu)化信息嵌入到 HTML 中,而不影響頁面的外觀,同時使信息的語義對所有搜索引擎可見。

然而,無論 schema.org 定義或指引有多么精確,一些元數(shù)據(jù)將不可避免地不完整、錯誤或完全缺失。此外,某些字段之間的區(qū)別可能很模糊:數(shù)據(jù)集存儲庫屬于數(shù)據(jù)集的發(fā)布者還是提供者?如何區(qū)分引用描述數(shù)據(jù)集創(chuàng)建的科學(xué)論文和描述數(shù)據(jù)集使用的論文?事實(shí)上,許多這樣的問題都會激發(fā)熱烈的學(xué)術(shù)討論。

盡管存在這些問題,Dataset Search 必須在前端提供統(tǒng)一、可預(yù)測的用戶體驗(yàn)。因此,在某些情況下,我們用更通用的字段名(如「provided by」)來顯示來自多個其他字段(如「publisher」、「creator」等)的值。在其他情況下,我們根本無法使用某些字段:如果數(shù)據(jù)集提供者在闡釋某個特定字段時出現(xiàn)了各種各樣的錯誤,谷歌就暫時繞過該字段,并與社區(qū)一起理清指引。每一項決策中都有一個特定的問題用于解決困難——「最有助于數(shù)據(jù)發(fā)現(xiàn)的因素是什么?」這種對正在處理的任務(wù)的關(guān)注使得一些問題比最初看起來容易。

連接重復(fù)數(shù)據(jù)集

對于流行的數(shù)據(jù)集,在多個資源庫中重復(fù)出現(xiàn)是很常見的事情。谷歌使用了多種信號來確定兩個數(shù)據(jù)集是否重復(fù)。例如,schema.org 可以通過(schema.org/sameAs)中指出的某種方法明確兩個數(shù)據(jù)集之間的聯(lián)系,即利用明確指示條目標(biāo)識的參考網(wǎng)頁的 URL(例如,條目的維基百科頁面、維基數(shù)據(jù)條目或官方網(wǎng)站的 URL)。這是將不同重復(fù)數(shù)據(jù)集連接起來并指向規(guī)范數(shù)據(jù)集來源的最好方法。其它信號還包括兩個數(shù)據(jù)集的描述指向相同的規(guī)范頁面,具有相同 DOI,共享數(shù)據(jù)集下載鏈接,或者在其它元數(shù)據(jù)字段中有大量重疊。這些信號都不是完全獨(dú)立的,因此谷歌將它們結(jié)合起來以得到數(shù)據(jù)集重復(fù)的最強(qiáng)可能標(biāo)示。

用谷歌知識圖譜進(jìn)行協(xié)調(diào)

谷歌的知識圖譜是一個很強(qiáng)大的平臺,描述和連接了很多實(shí)體之間關(guān)系的信息,包括出現(xiàn)在數(shù)據(jù)集元數(shù)據(jù)中的信息:提供數(shù)據(jù)集的機(jī)構(gòu)、數(shù)據(jù)集覆蓋范圍的位置 、贊助機(jī)構(gòu)等等。因此,谷歌嘗試用知識圖譜中的條目來協(xié)調(diào)元數(shù)據(jù)字段中提到的信息;趦蓚原因,谷歌能以很高的精度實(shí)現(xiàn)這種協(xié)調(diào)。首先,我們知道知識圖譜中的條目類型和元數(shù)據(jù)字段中的大致期望實(shí)體類型。因此,我們可以限制知識圖譜中用于匹配特定元數(shù)據(jù)字段值的實(shí)體類型。例如,一個數(shù)據(jù)集的提供者應(yīng)該匹配知識圖譜中的一個機(jī)構(gòu)實(shí)體,而不是匹配覆蓋范圍的位置。其次,網(wǎng)頁信息的語境可以幫助減少選擇的數(shù)量,這對于分辨擁有相同縮略詞的機(jī)構(gòu)尤其有用。例如,縮略詞 CAMRA 可以代表「Chilbolton Advanced Meteorological Radar」,或者「Campaign for Real Ale」。如果我們使用了網(wǎng)頁上的條目,當(dāng)在網(wǎng)頁上出現(xiàn)諸如「云」、「蒸汽」和「水」等關(guān)鍵詞時,我們可以更容易地確定 CAMRA 實(shí)際上是 Chilbolton Radar(Chilbolton 雷達(dá))。

這種協(xié)調(diào)提供了許多提升用戶搜索體驗(yàn)的可能性。例如,Dataset Search 可以通過用與頁面其余部分相同的語言顯示元數(shù)據(jù)的協(xié)調(diào)值來定位結(jié)果。此外,它可以使用同義詞,校正拼寫錯誤,擴(kuò)展縮略詞,或使用知識圖譜中的其它關(guān)系進(jìn)行查詢擴(kuò)展。

連接到其它谷歌資源

谷歌擁有很多其它可增強(qiáng)數(shù)據(jù)集元數(shù)據(jù)的數(shù)據(jù)資源,例如 Google Scholar。知道哪個數(shù)據(jù)集被參考和引用可以實(shí)現(xiàn)兩個目的:

提供有關(guān)數(shù)據(jù)集重要性和顯著性的有價值信息;

為數(shù)據(jù)集作者提供查看引用和獲得榮譽(yù)的簡便方式。

實(shí)際上,谷歌希望的是,強(qiáng)調(diào)使用數(shù)據(jù)的出版物可以帶來更加健康的數(shù)據(jù)引用生態(tài)。目前,由于缺少描述人們?nèi)绾我脭?shù)據(jù)的模型,從 Dataset Search 到 Google Scholar 的鏈接還是相當(dāng)近似的。谷歌嘗試使用 DOI 以外的信息以提供更好的覆蓋范圍預(yù)測,但引用一個數(shù)據(jù)集的文章數(shù)量因而變得很不準(zhǔn)確。谷歌希望在這個問題上取得更多進(jìn)展,以得到更高的預(yù)測精度。

搜索和結(jié)果的排序

當(dāng)用戶進(jìn)行一次查詢時,谷歌進(jìn)行數(shù)據(jù)集語料庫的搜索,其工作方式和 Google Search 搜索網(wǎng)頁的方式?jīng)]多大區(qū)別。對于任意一次搜索,我們需要確定一個文檔是否和查詢相關(guān)聯(lián),然后對相關(guān)文檔進(jìn)行排序。由于對用戶如何搜索數(shù)據(jù)集并沒有相應(yīng)的大規(guī)模研究,作為首個近似方案,其利用了谷歌網(wǎng)頁排序方法。然而,數(shù)據(jù)集排序和網(wǎng)頁排序是不同的,因此谷歌添加了一些涉及元數(shù)據(jù)質(zhì)量、引用等的額外信息。隨著 Dataset Search 被用戶更頻繁地使用,谷歌將能更好地理解用戶的數(shù)據(jù)集搜索行為,從而顯著提升排序質(zhì)量。

更好的開放數(shù)據(jù)生態(tài)

谷歌構(gòu)建 Dataset Search 的目的是為數(shù)據(jù)發(fā)現(xiàn)帶來積極的影響。該搜索引擎的標(biāo)記決策依賴于開放的標(biāo)準(zhǔn)(schema.org、W3C DCAT、JSON-LD),因?yàn)?Dataset Search 僅能做到和其支持的開放數(shù)據(jù)生態(tài)一樣好的程度。因此,谷歌的 Dataset Search 希望支持一個強(qiáng)大的開放數(shù)據(jù)生態(tài),通過鼓勵:

廣泛支持描述發(fā)布數(shù)據(jù)的開放元數(shù)據(jù)格式;

進(jìn)一步發(fā)展描述更多數(shù)據(jù)類型和更多細(xì)節(jié)的開放元數(shù)據(jù)格式;

發(fā)展類似引用研究文獻(xiàn)的引用數(shù)據(jù)文化,為創(chuàng)建和發(fā)布數(shù)據(jù)的作者提供應(yīng)有的榮譽(yù);

發(fā)展利用該元數(shù)據(jù)的工具,以實(shí)現(xiàn)數(shù)據(jù)的更好發(fā)現(xiàn)和利用。

開放元數(shù)據(jù)標(biāo)準(zhǔn)的采用與數(shù)據(jù)集搜索的持續(xù)發(fā)展相結(jié)合,可促進(jìn)更健康的開放數(shù)據(jù)生態(tài)系統(tǒng)。在這個生態(tài)系統(tǒng)中,數(shù)據(jù)是研究的「一等公民」。

那么你的數(shù)據(jù)集為什么搜不到呢?

現(xiàn)在大致理清了一個思路,即 Dataset Search 的質(zhì)量與網(wǎng)頁上元數(shù)據(jù)的質(zhì)量息息相關(guān)。對于「為什么某些數(shù)據(jù)集沒有出現(xiàn)在谷歌的搜索結(jié)果中」這一問題,最常見的答案是:該數(shù)據(jù)集沒有任何標(biāo)記。只要將該頁面彈出到結(jié)構(gòu)化數(shù)據(jù)測試工具中,就可以看到標(biāo)記是否存在。如果沒有看到任何標(biāo)記,并且你有該頁面的修改權(quán)限,那么你可以添加標(biāo)記,如果沒有頁面的修改權(quán)限,你可以讓有權(quán)限的人執(zhí)行這一步驟,這將使他們的頁面更容易被每個人發(fā)現(xiàn)。

谷歌希望 Dataset Search 對社區(qū)有所幫助,幫助用戶有所發(fā)現(xiàn)從而節(jié)省時間,幫助科學(xué)研究人員節(jié)省數(shù)據(jù)檢索時間,從而讓他們有更多的時間去利用數(shù)據(jù)。

原文鏈接:https://ai.googleblog.com/2018/09/building-google-dataset-search-and.html

標(biāo)簽: Google 谷歌 權(quán)限 搜索 搜索網(wǎng)頁 搜索引擎 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:南京大學(xué)發(fā)布WebCaricature漫畫人臉識別數(shù)據(jù)集

下一篇:即將發(fā)布的 Apache Spark 2.4 都有哪些新功能