站長資訊平臺

谷歌的Dataset Search開放至今，為什么還搜不到我的數(shù)據(jù)集？

2018-09-28 來源：raincent

本月早些時候，谷歌推出了數(shù)據(jù)集搜索專用引擎 Dataset Search，這是一個建立在元數(shù)據(jù)上的搜索引擎，可以對網(wǎng)絡(luò)上數(shù)千個存儲庫中的數(shù)百萬個數(shù)據(jù)集進(jìn)行搜索。谷歌團(tuán)隊稱其為「Google Scholar for data」。本文將介紹構(gòu)建 Dataset Search 的一些技術(shù)細(xì)節(jié)，概述有助于開發(fā)開放數(shù)據(jù)生態(tài)系統(tǒng)的內(nèi)容。此外，谷歌還解決了自 Dataset Search 啟動以來反饋?zhàn)疃嗟膯栴}——「為什么我的數(shù)據(jù)集沒有出現(xiàn)在谷歌 Dataset Search 中?」

概述

谷歌 Dataset Search 高度依賴大大小小的數(shù)據(jù)集提供者，利用開放 schema.org/Dataset 標(biāo)準(zhǔn)在自己的站點(diǎn)上添加結(jié)構(gòu)化的元數(shù)據(jù)。元數(shù)據(jù)指定了每個數(shù)據(jù)集的顯著屬性：名稱和描述、空間和時間覆蓋、出處信息等。Dataset Search 利用這一元信息，將其與谷歌上的其他可用資源連接，并為這個豐富的元數(shù)據(jù)語料庫建立索引。建好索引之后就可以開始響應(yīng)用戶檢索，并找出最符合檢索的結(jié)果。

谷歌 Dataset Search 技術(shù)概覽

利用來自數(shù)據(jù)集提供者的結(jié)構(gòu)化元數(shù)據(jù)

當(dāng)谷歌的搜索引擎處理帶有 schema.org/Dataset 標(biāo)記的網(wǎng)頁時，它知道那里有數(shù)據(jù)集元數(shù)據(jù)，并處理那個結(jié)構(gòu)化元數(shù)據(jù)以創(chuàng)建描述頁面上每個標(biāo)注數(shù)據(jù)集的「記錄」。schema.org 的使用允許開發(fā)人員將這種結(jié)構(gòu)化信息嵌入到 HTML 中，而不影響頁面的外觀，同時使信息的語義對所有搜索引擎可見。

然而，無論 schema.org 定義或指引有多么精確，一些元數(shù)據(jù)將不可避免地不完整、錯誤或完全缺失。此外，某些字段之間的區(qū)別可能很模糊：數(shù)據(jù)集存儲庫屬于數(shù)據(jù)集的發(fā)布者還是提供者?如何區(qū)分引用描述數(shù)據(jù)集創(chuàng)建的科學(xué)論文和描述數(shù)據(jù)集使用的論文?事實(shí)上，許多這樣的問題都會激發(fā)熱烈的學(xué)術(shù)討論。

盡管存在這些問題，Dataset Search 必須在前端提供統(tǒng)一、可預(yù)測的用戶體驗(yàn)。因此，在某些情況下，我們用更通用的字段名(如「provided by」)來顯示來自多個其他字段(如「publisher」、「creator」等)的值。在其他情況下，我們根本無法使用某些字段：如果數(shù)據(jù)集提供者在闡釋某個特定字段時出現(xiàn)了各種各樣的錯誤，谷歌就暫時繞過該字段，并與社區(qū)一起理清指引。每一項決策中都有一個特定的問題用于解決困難——「最有助于數(shù)據(jù)發(fā)現(xiàn)的因素是什么?」這種對正在處理的任務(wù)的關(guān)注使得一些問題比最初看起來容易。

連接重復(fù)數(shù)據(jù)集

對于流行的數(shù)據(jù)集，在多個資源庫中重復(fù)出現(xiàn)是很常見的事情。谷歌使用了多種信號來確定兩個數(shù)據(jù)集是否重復(fù)。例如，schema.org 可以通過(schema.org/sameAs)中指出的某種方法明確兩個數(shù)據(jù)集之間的聯(lián)系，即利用明確指示條目標(biāo)識的參考網(wǎng)頁的 URL(例如，條目的維基百科頁面、維基數(shù)據(jù)條目或官方網(wǎng)站的 URL)。這是將不同重復(fù)數(shù)據(jù)集連接起來并指向規(guī)范數(shù)據(jù)集來源的最好方法。其它信號還包括兩個數(shù)據(jù)集的描述指向相同的規(guī)范頁面，具有相同 DOI，共享數(shù)據(jù)集下載鏈接，或者在其它元數(shù)據(jù)字段中有大量重疊。這些信號都不是完全獨(dú)立的，因此谷歌將它們結(jié)合起來以得到數(shù)據(jù)集重復(fù)的最強(qiáng)可能標(biāo)示。

用谷歌知識圖譜進(jìn)行協(xié)調(diào)

谷歌的知識圖譜是一個很強(qiáng)大的平臺，描述和連接了很多實(shí)體之間關(guān)系的信息，包括出現(xiàn)在數(shù)據(jù)集元數(shù)據(jù)中的信息：提供數(shù)據(jù)集的機(jī)構(gòu)、數(shù)據(jù)集覆蓋范圍的位置、贊助機(jī)構(gòu)等等。因此，谷歌嘗試用知識圖譜中的條目來協(xié)調(diào)元數(shù)據(jù)字段中提到的信息�；趦蓚€原因，谷歌能以很高的精度實(shí)現(xiàn)這種協(xié)調(diào)。首先，我們知道知識圖譜中的條目類型和元數(shù)據(jù)字段中的大致期望實(shí)體類型。因此，我們可以限制知識圖譜中用于匹配特定元數(shù)據(jù)字段值的實(shí)體類型。例如，一個數(shù)據(jù)集的提供者應(yīng)該匹配知識圖譜中的一個機(jī)構(gòu)實(shí)體，而不是匹配覆蓋范圍的位置。其次，網(wǎng)頁信息的語境可以幫助減少選擇的數(shù)量，這對于分辨擁有相同縮略詞的機(jī)構(gòu)尤其有用。例如，縮略詞 CAMRA 可以代表「Chilbolton Advanced Meteorological Radar」，或者「Campaign for Real Ale」。如果我們使用了網(wǎng)頁上的條目，當(dāng)在網(wǎng)頁上出現(xiàn)諸如「云」、「蒸汽」和「水」等關(guān)鍵詞時，我們可以更容易地確定 CAMRA 實(shí)際上是 Chilbolton Radar(Chilbolton 雷達(dá))。

這種協(xié)調(diào)提供了許多提升用戶搜索體驗(yàn)的可能性。例如，Dataset Search 可以通過用與頁面其余部分相同的語言顯示元數(shù)據(jù)的協(xié)調(diào)值來定位結(jié)果。此外，它可以使用同義詞，校正拼寫錯誤，擴(kuò)展縮略詞，或使用知識圖譜中的其它關(guān)系進(jìn)行查詢擴(kuò)展。

連接到其它谷歌資源

谷歌擁有很多其它可增強(qiáng)數(shù)據(jù)集元數(shù)據(jù)的數(shù)據(jù)資源，例如 Google Scholar。知道哪個數(shù)據(jù)集被參考和引用可以實(shí)現(xiàn)兩個目的：

提供有關(guān)數(shù)據(jù)集重要性和顯著性的有價值信息;

為數(shù)據(jù)集作者提供查看引用和獲得榮譽(yù)的簡便方式。

實(shí)際上，谷歌希望的是，強(qiáng)調(diào)使用數(shù)據(jù)的出版物可以帶來更加健康的數(shù)據(jù)引用生態(tài)。目前，由于缺少描述人們?nèi)绾我脭?shù)據(jù)的模型，從 Dataset Search 到 Google Scholar 的鏈接還是相當(dāng)近似的。谷歌嘗試使用 DOI 以外的信息以提供更好的覆蓋范圍預(yù)測，但引用一個數(shù)據(jù)集的文章數(shù)量因而變得很不準(zhǔn)確。谷歌希望在這個問題上取得更多進(jìn)展，以得到更高的預(yù)測精度。

搜索和結(jié)果的排序

當(dāng)用戶進(jìn)行一次查詢時，谷歌進(jìn)行數(shù)據(jù)集語料庫的搜索，其工作方式和 Google Search 搜索網(wǎng)頁的方式?jīng)]多大區(qū)別。對于任意一次搜索，我們需要確定一個文檔是否和查詢相關(guān)聯(lián)，然后對相關(guān)文檔進(jìn)行排序。由于對用戶如何搜索數(shù)據(jù)集并沒有相應(yīng)的大規(guī)模研究，作為首個近似方案，其利用了谷歌網(wǎng)頁排序方法。然而，數(shù)據(jù)集排序和網(wǎng)頁排序是不同的，因此谷歌添加了一些涉及元數(shù)據(jù)質(zhì)量、引用等的額外信息。隨著 Dataset Search 被用戶更頻繁地使用，谷歌將能更好地理解用戶的數(shù)據(jù)集搜索行為，從而顯著提升排序質(zhì)量。

更好的開放數(shù)據(jù)生態(tài)

谷歌構(gòu)建 Dataset Search 的目的是為數(shù)據(jù)發(fā)現(xiàn)帶來積極的影響。該搜索引擎的標(biāo)記決策依賴于開放的標(biāo)準(zhǔn)(schema.org、W3C DCAT、JSON-LD)，因?yàn)?Dataset Search 僅能做到和其支持的開放數(shù)據(jù)生態(tài)一樣好的程度。因此，谷歌的 Dataset Search 希望支持一個強(qiáng)大的開放數(shù)據(jù)生態(tài)，通過鼓勵：

廣泛支持描述發(fā)布數(shù)據(jù)的開放元數(shù)據(jù)格式;

進(jìn)一步發(fā)展描述更多數(shù)據(jù)類型和更多細(xì)節(jié)的開放元數(shù)據(jù)格式;

發(fā)展類似引用研究文獻(xiàn)的引用數(shù)據(jù)文化，為創(chuàng)建和發(fā)布數(shù)據(jù)的作者提供應(yīng)有的榮譽(yù);

發(fā)展利用該元數(shù)據(jù)的工具，以實(shí)現(xiàn)數(shù)據(jù)的更好發(fā)現(xiàn)和利用。

開放元數(shù)據(jù)標(biāo)準(zhǔn)的采用與數(shù)據(jù)集搜索的持續(xù)發(fā)展相結(jié)合，可促進(jìn)更健康的開放數(shù)據(jù)生態(tài)系統(tǒng)。在這個生態(tài)系統(tǒng)中，數(shù)據(jù)是研究的「一等公民」。

那么你的數(shù)據(jù)集為什么搜不到呢?

現(xiàn)在大致理清了一個思路，即 Dataset Search 的質(zhì)量與網(wǎng)頁上元數(shù)據(jù)的質(zhì)量息息相關(guān)。對于「為什么某些數(shù)據(jù)集沒有出現(xiàn)在谷歌的搜索結(jié)果中」這一問題，最常見的答案是：該數(shù)據(jù)集沒有任何標(biāo)記。只要將該頁面彈出到結(jié)構(gòu)化數(shù)據(jù)測試工具中，就可以看到標(biāo)記是否存在。如果沒有看到任何標(biāo)記，并且你有該頁面的修改權(quán)限，那么你可以添加標(biāo)記，如果沒有頁面的修改權(quán)限，你可以讓有權(quán)限的人執(zhí)行這一步驟，這將使他們的頁面更容易被每個人發(fā)現(xiàn)。

谷歌希望 Dataset Search 對社區(qū)有所幫助，幫助用戶有所發(fā)現(xiàn)從而節(jié)省時間，幫助科學(xué)研究人員節(jié)省數(shù)據(jù)檢索時間，從而讓他們有更多的時間去利用數(shù)據(jù)。

原文鏈接：https://ai.googleblog.com/2018/09/building-google-dataset-search-and.html

標(biāo)簽： Google 谷歌權(quán)限搜索搜索網(wǎng)頁搜索引擎網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:南京大學(xué)發(fā)布WebCaricature漫畫人臉識別數(shù)據(jù)集

下一篇:即將發(fā)布的 Apache Spark 2.4 都有哪些新功能

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌的Dataset Search開放至今，為什么還搜不到我的數(shù)據(jù)集？

谷歌的Dataset Search開放至今，為什么還搜不到我的數(shù)據(jù)集？