中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌的Dataset Search開(kāi)放至今,為什么還搜不到我的數(shù)據(jù)集?

2018-09-28    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

本月早些時(shí)候,谷歌推出了數(shù)據(jù)集搜索專用引擎 Dataset Search,這是一個(gè)建立在元數(shù)據(jù)上的搜索引擎,可以對(duì)網(wǎng)絡(luò)上數(shù)千個(gè)存儲(chǔ)庫(kù)中的數(shù)百萬(wàn)個(gè)數(shù)據(jù)集進(jìn)行搜索。谷歌團(tuán)隊(duì)稱其為「Google Scholar for data」。本文將介紹構(gòu)建 Dataset Search 的一些技術(shù)細(xì)節(jié),概述有助于開(kāi)發(fā)開(kāi)放數(shù)據(jù)生態(tài)系統(tǒng)的內(nèi)容。此外,谷歌還解決了自 Dataset Search 啟動(dòng)以來(lái)反饋?zhàn)疃嗟膯?wèn)題——「為什么我的數(shù)據(jù)集沒(méi)有出現(xiàn)在谷歌 Dataset Search 中?」

概述

谷歌 Dataset Search 高度依賴大大小小的數(shù)據(jù)集提供者,利用開(kāi)放 schema.org/Dataset 標(biāo)準(zhǔn)在自己的站點(diǎn)上添加結(jié)構(gòu)化的元數(shù)據(jù)。元數(shù)據(jù)指定了每個(gè)數(shù)據(jù)集的顯著屬性:名稱和描述、空間和時(shí)間覆蓋、出處信息等。Dataset Search 利用這一元信息,將其與谷歌上的其他可用資源連接,并為這個(gè)豐富的元數(shù)據(jù)語(yǔ)料庫(kù)建立索引。建好索引之后就可以開(kāi)始響應(yīng)用戶檢索,并找出最符合檢索的結(jié)果。

 

 

谷歌 Dataset Search 技術(shù)概覽

利用來(lái)自數(shù)據(jù)集提供者的結(jié)構(gòu)化元數(shù)據(jù)

當(dāng)谷歌的搜索引擎處理帶有 schema.org/Dataset 標(biāo)記的網(wǎng)頁(yè)時(shí),它知道那里有數(shù)據(jù)集元數(shù)據(jù),并處理那個(gè)結(jié)構(gòu)化元數(shù)據(jù)以創(chuàng)建描述頁(yè)面上每個(gè)標(biāo)注數(shù)據(jù)集的「記錄」。schema.org 的使用允許開(kāi)發(fā)人員將這種結(jié)構(gòu)化信息嵌入到 HTML 中,而不影響頁(yè)面的外觀,同時(shí)使信息的語(yǔ)義對(duì)所有搜索引擎可見(jiàn)。

然而,無(wú)論 schema.org 定義或指引有多么精確,一些元數(shù)據(jù)將不可避免地不完整、錯(cuò)誤或完全缺失。此外,某些字段之間的區(qū)別可能很模糊:數(shù)據(jù)集存儲(chǔ)庫(kù)屬于數(shù)據(jù)集的發(fā)布者還是提供者?如何區(qū)分引用描述數(shù)據(jù)集創(chuàng)建的科學(xué)論文和描述數(shù)據(jù)集使用的論文?事實(shí)上,許多這樣的問(wèn)題都會(huì)激發(fā)熱烈的學(xué)術(shù)討論。

盡管存在這些問(wèn)題,Dataset Search 必須在前端提供統(tǒng)一、可預(yù)測(cè)的用戶體驗(yàn)。因此,在某些情況下,我們用更通用的字段名(如「provided by」)來(lái)顯示來(lái)自多個(gè)其他字段(如「publisher」、「creator」等)的值。在其他情況下,我們根本無(wú)法使用某些字段:如果數(shù)據(jù)集提供者在闡釋某個(gè)特定字段時(shí)出現(xiàn)了各種各樣的錯(cuò)誤,谷歌就暫時(shí)繞過(guò)該字段,并與社區(qū)一起理清指引。每一項(xiàng)決策中都有一個(gè)特定的問(wèn)題用于解決困難——「最有助于數(shù)據(jù)發(fā)現(xiàn)的因素是什么?」這種對(duì)正在處理的任務(wù)的關(guān)注使得一些問(wèn)題比最初看起來(lái)容易。

連接重復(fù)數(shù)據(jù)集

對(duì)于流行的數(shù)據(jù)集,在多個(gè)資源庫(kù)中重復(fù)出現(xiàn)是很常見(jiàn)的事情。谷歌使用了多種信號(hào)來(lái)確定兩個(gè)數(shù)據(jù)集是否重復(fù)。例如,schema.org 可以通過(guò)(schema.org/sameAs)中指出的某種方法明確兩個(gè)數(shù)據(jù)集之間的聯(lián)系,即利用明確指示條目標(biāo)識(shí)的參考網(wǎng)頁(yè)的 URL(例如,條目的維基百科頁(yè)面、維基數(shù)據(jù)條目或官方網(wǎng)站的 URL)。這是將不同重復(fù)數(shù)據(jù)集連接起來(lái)并指向規(guī)范數(shù)據(jù)集來(lái)源的最好方法。其它信號(hào)還包括兩個(gè)數(shù)據(jù)集的描述指向相同的規(guī)范頁(yè)面,具有相同 DOI,共享數(shù)據(jù)集下載鏈接,或者在其它元數(shù)據(jù)字段中有大量重疊。這些信號(hào)都不是完全獨(dú)立的,因此谷歌將它們結(jié)合起來(lái)以得到數(shù)據(jù)集重復(fù)的最強(qiáng)可能標(biāo)示。

用谷歌知識(shí)圖譜進(jìn)行協(xié)調(diào)

谷歌的知識(shí)圖譜是一個(gè)很強(qiáng)大的平臺(tái),描述和連接了很多實(shí)體之間關(guān)系的信息,包括出現(xiàn)在數(shù)據(jù)集元數(shù)據(jù)中的信息:提供數(shù)據(jù)集的機(jī)構(gòu)、數(shù)據(jù)集覆蓋范圍的位置 、贊助機(jī)構(gòu)等等。因此,谷歌嘗試用知識(shí)圖譜中的條目來(lái)協(xié)調(diào)元數(shù)據(jù)字段中提到的信息;趦蓚(gè)原因,谷歌能以很高的精度實(shí)現(xiàn)這種協(xié)調(diào)。首先,我們知道知識(shí)圖譜中的條目類型和元數(shù)據(jù)字段中的大致期望實(shí)體類型。因此,我們可以限制知識(shí)圖譜中用于匹配特定元數(shù)據(jù)字段值的實(shí)體類型。例如,一個(gè)數(shù)據(jù)集的提供者應(yīng)該匹配知識(shí)圖譜中的一個(gè)機(jī)構(gòu)實(shí)體,而不是匹配覆蓋范圍的位置。其次,網(wǎng)頁(yè)信息的語(yǔ)境可以幫助減少選擇的數(shù)量,這對(duì)于分辨擁有相同縮略詞的機(jī)構(gòu)尤其有用。例如,縮略詞 CAMRA 可以代表「Chilbolton Advanced Meteorological Radar」,或者「Campaign for Real Ale」。如果我們使用了網(wǎng)頁(yè)上的條目,當(dāng)在網(wǎng)頁(yè)上出現(xiàn)諸如「云」、「蒸汽」和「水」等關(guān)鍵詞時(shí),我們可以更容易地確定 CAMRA 實(shí)際上是 Chilbolton Radar(Chilbolton 雷達(dá))。

這種協(xié)調(diào)提供了許多提升用戶搜索體驗(yàn)的可能性。例如,Dataset Search 可以通過(guò)用與頁(yè)面其余部分相同的語(yǔ)言顯示元數(shù)據(jù)的協(xié)調(diào)值來(lái)定位結(jié)果。此外,它可以使用同義詞,校正拼寫錯(cuò)誤,擴(kuò)展縮略詞,或使用知識(shí)圖譜中的其它關(guān)系進(jìn)行查詢擴(kuò)展。

連接到其它谷歌資源

谷歌擁有很多其它可增強(qiáng)數(shù)據(jù)集元數(shù)據(jù)的數(shù)據(jù)資源,例如 Google Scholar。知道哪個(gè)數(shù)據(jù)集被參考和引用可以實(shí)現(xiàn)兩個(gè)目的:

提供有關(guān)數(shù)據(jù)集重要性和顯著性的有價(jià)值信息;

為數(shù)據(jù)集作者提供查看引用和獲得榮譽(yù)的簡(jiǎn)便方式。

實(shí)際上,谷歌希望的是,強(qiáng)調(diào)使用數(shù)據(jù)的出版物可以帶來(lái)更加健康的數(shù)據(jù)引用生態(tài)。目前,由于缺少描述人們?nèi)绾我脭?shù)據(jù)的模型,從 Dataset Search 到 Google Scholar 的鏈接還是相當(dāng)近似的。谷歌嘗試使用 DOI 以外的信息以提供更好的覆蓋范圍預(yù)測(cè),但引用一個(gè)數(shù)據(jù)集的文章數(shù)量因而變得很不準(zhǔn)確。谷歌希望在這個(gè)問(wèn)題上取得更多進(jìn)展,以得到更高的預(yù)測(cè)精度。

搜索和結(jié)果的排序

當(dāng)用戶進(jìn)行一次查詢時(shí),谷歌進(jìn)行數(shù)據(jù)集語(yǔ)料庫(kù)的搜索,其工作方式和 Google Search 搜索網(wǎng)頁(yè)的方式?jīng)]多大區(qū)別。對(duì)于任意一次搜索,我們需要確定一個(gè)文檔是否和查詢相關(guān)聯(lián),然后對(duì)相關(guān)文檔進(jìn)行排序。由于對(duì)用戶如何搜索數(shù)據(jù)集并沒(méi)有相應(yīng)的大規(guī)模研究,作為首個(gè)近似方案,其利用了谷歌網(wǎng)頁(yè)排序方法。然而,數(shù)據(jù)集排序和網(wǎng)頁(yè)排序是不同的,因此谷歌添加了一些涉及元數(shù)據(jù)質(zhì)量、引用等的額外信息。隨著 Dataset Search 被用戶更頻繁地使用,谷歌將能更好地理解用戶的數(shù)據(jù)集搜索行為,從而顯著提升排序質(zhì)量。

更好的開(kāi)放數(shù)據(jù)生態(tài)

谷歌構(gòu)建 Dataset Search 的目的是為數(shù)據(jù)發(fā)現(xiàn)帶來(lái)積極的影響。該搜索引擎的標(biāo)記決策依賴于開(kāi)放的標(biāo)準(zhǔn)(schema.org、W3C DCAT、JSON-LD),因?yàn)?Dataset Search 僅能做到和其支持的開(kāi)放數(shù)據(jù)生態(tài)一樣好的程度。因此,谷歌的 Dataset Search 希望支持一個(gè)強(qiáng)大的開(kāi)放數(shù)據(jù)生態(tài),通過(guò)鼓勵(lì):

廣泛支持描述發(fā)布數(shù)據(jù)的開(kāi)放元數(shù)據(jù)格式;

進(jìn)一步發(fā)展描述更多數(shù)據(jù)類型和更多細(xì)節(jié)的開(kāi)放元數(shù)據(jù)格式;

發(fā)展類似引用研究文獻(xiàn)的引用數(shù)據(jù)文化,為創(chuàng)建和發(fā)布數(shù)據(jù)的作者提供應(yīng)有的榮譽(yù);

發(fā)展利用該元數(shù)據(jù)的工具,以實(shí)現(xiàn)數(shù)據(jù)的更好發(fā)現(xiàn)和利用。

開(kāi)放元數(shù)據(jù)標(biāo)準(zhǔn)的采用與數(shù)據(jù)集搜索的持續(xù)發(fā)展相結(jié)合,可促進(jìn)更健康的開(kāi)放數(shù)據(jù)生態(tài)系統(tǒng)。在這個(gè)生態(tài)系統(tǒng)中,數(shù)據(jù)是研究的「一等公民」。

那么你的數(shù)據(jù)集為什么搜不到呢?

現(xiàn)在大致理清了一個(gè)思路,即 Dataset Search 的質(zhì)量與網(wǎng)頁(yè)上元數(shù)據(jù)的質(zhì)量息息相關(guān)。對(duì)于「為什么某些數(shù)據(jù)集沒(méi)有出現(xiàn)在谷歌的搜索結(jié)果中」這一問(wèn)題,最常見(jiàn)的答案是:該數(shù)據(jù)集沒(méi)有任何標(biāo)記。只要將該頁(yè)面彈出到結(jié)構(gòu)化數(shù)據(jù)測(cè)試工具中,就可以看到標(biāo)記是否存在。如果沒(méi)有看到任何標(biāo)記,并且你有該頁(yè)面的修改權(quán)限,那么你可以添加標(biāo)記,如果沒(méi)有頁(yè)面的修改權(quán)限,你可以讓有權(quán)限的人執(zhí)行這一步驟,這將使他們的頁(yè)面更容易被每個(gè)人發(fā)現(xiàn)。

谷歌希望 Dataset Search 對(duì)社區(qū)有所幫助,幫助用戶有所發(fā)現(xiàn)從而節(jié)省時(shí)間,幫助科學(xué)研究人員節(jié)省數(shù)據(jù)檢索時(shí)間,從而讓他們有更多的時(shí)間去利用數(shù)據(jù)。

原文鏈接:https://ai.googleblog.com/2018/09/building-google-dataset-search-and.html

標(biāo)簽: Google 谷歌 權(quán)限 搜索 搜索網(wǎng)頁(yè) 搜索引擎 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:南京大學(xué)發(fā)布WebCaricature漫畫人臉識(shí)別數(shù)據(jù)集

下一篇:即將發(fā)布的 Apache Spark 2.4 都有哪些新功能