站長資訊平臺

AI研發(fā)者福利！谷歌推出數(shù)據(jù)集搜索專用引擎Dataset Search

2018-09-07 來源：raincent

9 月 5 日，谷歌發(fā)布了一個幫助研究者查找在線數(shù)據(jù)的免費(fèi)搜索引擎 Dataset Search。谷歌表示，該引擎面向「科學(xué)家、數(shù)據(jù)記者、數(shù)據(jù)極客等人群」。該引擎有助于促進(jìn)數(shù)據(jù)的開放利用和重復(fù)利用。

Dataset Search 測試版地址：https://toolbox.google.com/datasetsearch

Dataset Search 與谷歌的其他專用搜索引擎(如用于搜索新聞和圖像的引擎，以及 Google Scholar 和 Google Books)一樣可以免費(fèi)使用，它基于擁有者對文件和數(shù)據(jù)庫的分類方式來查找文件和數(shù)據(jù)集。該引擎讀取文件內(nèi)容的方式與搜索引擎搜索網(wǎng)頁的方式不同。有專家表示，該引擎填補(bǔ)了這一領(lǐng)域的空白，可以極大地促進(jìn)開放數(shù)據(jù)運(yùn)動的發(fā)展，這一運(yùn)動旨在實(shí)現(xiàn)數(shù)據(jù)的開放利用和重復(fù)利用。

政府機(jī)構(gòu)、科學(xué)出版社、研究機(jī)構(gòu)甚至是個人研究者在全世界維護(hù)著成千上萬的開源數(shù)據(jù)資源庫，包含了數(shù)百萬個數(shù)據(jù)集。

但那些想知道哪些類型的數(shù)據(jù)可用，或者那些希望定位已經(jīng)存在的數(shù)據(jù)的研究者，通常依賴于口耳相傳的信息。來自加州山景城的 Google AI 計(jì)算機(jī)科學(xué)家 Natasha Noy 說。

對于那些處于研究生涯早期階段且還沒有建立專業(yè)聯(lián)系網(wǎng)絡(luò)的研究者而言，這個問題尤其嚴(yán)重，Noy 說。這對于那些做交叉學(xué)科研究的人而言也是個嚴(yán)重的缺陷。例如，流行病學(xué)家需要訪問氣候數(shù)據(jù)，其可能與某種病毒的傳播相關(guān)。

分類搜索

2017 年 1 月，Noy 及其谷歌同事 Dan Brickley 在一篇谷歌博客(https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html)中首次介紹了解決該問題的策略。

典型的搜索引擎分兩個階段運(yùn)行。第一個階段是通過在互聯(lián)網(wǎng)上持續(xù)搜索來索引可用網(wǎng)頁。第二個階段是對索引網(wǎng)頁進(jìn)行排序，以使用戶輸入搜索詞時，搜索引擎能夠按相關(guān)度排序來提供搜索結(jié)果。

Noy 和 Brickley 寫道，為了幫助搜索引擎索引現(xiàn)有數(shù)據(jù)集，擁有數(shù)據(jù)集的人應(yīng)該使用一個叫作 Schema.org 的標(biāo)準(zhǔn)化詞匯表來「標(biāo)記」數(shù)據(jù)集，Schema.org 是谷歌和另外三個搜索引擎巨頭(微軟、雅虎和 Yandex)一起發(fā)起的項(xiàng)目，由 Brickley 管理。谷歌團(tuán)隊(duì)還開發(fā)了一種特殊算法來對搜索結(jié)果中的數(shù)據(jù)集進(jìn)行排序。

由于谷歌在網(wǎng)頁搜索中的主導(dǎo)地位，谷歌正在快速轉(zhuǎn)入數(shù)據(jù)生態(tài)系統(tǒng)的消息刺激主要搜索引擎巨頭進(jìn)入該戰(zhàn)場，對元數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，倫敦?cái)?shù)據(jù)共享公司 Figshare CEO Mark Hahnel 說道。(Figshare 由霍爾茨布林克出版集團(tuán)管理，該集團(tuán)也對 Nature 的出版公司持有大量股份。)

「到 11 月，我們接觸的所有大學(xué)的數(shù)據(jù)都已經(jīng)標(biāo)記完成。我認(rèn)為這對學(xué)界的開放數(shù)據(jù)而言是一項(xiàng)重要變革�！笻ahnel 說道。

Hahnel 認(rèn)為，融資機(jī)構(gòu)有時強(qiáng)制要求研究數(shù)據(jù)必須可獲取，而只要信息能夠高效獲取，他們就能達(dá)到其最終目的�！高@使得投資機(jī)構(gòu)一直嘗試做的事合法化�！�

谷歌為用戶提供了能夠同時搜索多個存儲區(qū)的單個界面，希望借此改變用戶發(fā)布和運(yùn)用數(shù)據(jù)的方式。谷歌表示這個項(xiàng)目能夠帶來下列好處：

形成數(shù)據(jù)共享生態(tài)系統(tǒng)，鼓勵數(shù)據(jù)發(fā)布者依照最佳做法來存儲和發(fā)布數(shù)據(jù);

為科學(xué)家提供相應(yīng)平臺，方便大眾引用他們創(chuàng)建的數(shù)據(jù)集，展現(xiàn)他們的研究成果所帶來的影響力。

搜索試驗(yàn)

目前谷歌已經(jīng)正式對外測試開源數(shù)據(jù)集搜索引擎，用戶在鍵入數(shù)據(jù)集名稱或關(guān)鍵信息后，該搜索引擎會給出一系列數(shù)據(jù)源列表，每一個數(shù)據(jù)源都會有簡要的介紹，例如更新日期、作者、版權(quán)和內(nèi)容說明等。值得注意的是，除了數(shù)據(jù)集資源，該搜索引擎還能檢索到很多 Kaggle 上的預(yù)訓(xùn)練模型。在機(jī)器之心的嘗試中，我們分別以 CIFAR-10、Object Detection 和 SQuAD 為關(guān)鍵詞搜索數(shù)據(jù)集，發(fā)現(xiàn)了一些很有意思的結(jié)果。

首先我們檢索了十分常用的圖像分類數(shù)據(jù)集 CIFAR-10，該數(shù)據(jù)集包含 10 個類別共 60000 張 32x32 的彩色圖像，且分為 50000 張訓(xùn)練圖像和 10000 張測試圖像。搜索結(jié)果共給出了 9 項(xiàng)來源，包括數(shù)據(jù)集、預(yù)訓(xùn)練模型和對比結(jié)果。

例如在排名第一的搜索結(jié)果中，數(shù)據(jù)集來自 Kaggle 的 CIFAR-10 Python。在搜索引擎的簡介頁中，除了給出該數(shù)據(jù)集的簡要信息(包括引用此數(shù)據(jù)集的論文)，它甚至還展示了該數(shù)據(jù)集的使用指南。例如，如下展示頁介紹了該數(shù)據(jù)集在 Keras 的使用方法：

點(diǎn)擊第一條數(shù)據(jù)源就能跳轉(zhuǎn)到對應(yīng)的 Kaggle 頁面，下載和額外信息都展示在原頁面中。

在采用關(guān)鍵詞「Object Detection」進(jìn)行搜索的過程中，我們會發(fā)現(xiàn)搜索結(jié)果遠(yuǎn)遠(yuǎn)要比上面多得多，大約會有上百條數(shù)據(jù)來源。依靠關(guān)鍵詞同樣檢索到了非常多流行的開源數(shù)據(jù)集，它們都適用于目標(biāo)檢測這一領(lǐng)域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

從「Object Detection」的搜索結(jié)果來看，來自 Kaggle 的數(shù)據(jù)集占了一小半，它們都會在 Kaggle 上提供下載與使用指南。其實(shí)瀏覽這么多數(shù)據(jù)源，搜索引擎給出的簡介頁面就顯得非常重要了。我們不需要跳轉(zhuǎn)到每一個數(shù)據(jù)集的原地址，僅根據(jù)簡介就能了解該數(shù)據(jù)集的大概應(yīng)用領(lǐng)域與內(nèi)容。如下展示了 COCO 數(shù)據(jù)集的簡介頁面：

最后我們檢索了斯坦福的問答數(shù)據(jù)集「SQuAD」，搜索結(jié)果不僅給出了挑戰(zhàn)賽地址和數(shù)據(jù)集地址，同時還提供了相似數(shù)據(jù)集和挑戰(zhàn)賽的地址。但是在我們檢索「SQuAD 2.0」的時候，并沒有搜索到斯坦福大學(xué)發(fā)布的機(jī)器閱讀理解問答數(shù)據(jù)集 SQuAD 2.0，也可能是該數(shù)據(jù)集太新，還沒有被搜索引擎收錄。

合作機(jī)構(gòu)

谷歌這一嘗試的早期支持者是美國國家海洋和大氣管理局(NOAA)。該機(jī)構(gòu)的職權(quán)范圍從漁業(yè)到日冕，其檔案包含近 7 萬個數(shù)據(jù)集，包括 19 世紀(jì)的船舶日志。這些數(shù)據(jù)的總?cè)萘砍^ 35 PB，相當(dāng)于 35000 個典型硬盤的容量。

谷歌這一工具 Dataset Search 將幫助 NOAA 完成數(shù)據(jù)開放的使命，NOAA 首席數(shù)據(jù)官 Edward Kearns 表示�！肝覀兿胩剿餍碌姆椒ǎ蛊渌艘材苁褂眠@些數(shù)據(jù)。」

與數(shù)據(jù)擁有者展開合作是運(yùn)行 Dataset Search 的關(guān)鍵步驟。盡管這一系統(tǒng)未來可能變得更加復(fù)雜，谷歌目前不打算像處理網(wǎng)頁和圖像那樣讀取或分析數(shù)據(jù)。Noy 表示，「只有數(shù)據(jù)發(fā)布者提供的元數(shù)據(jù)足夠好，這種搜索工具才能夠好�！�

和 Google Scholar 一樣，Dataset Search 目前不提供自動化查詢或應(yīng)用程序編程接口(API)，盡管谷歌表示將來可能會增加這一功能。

Noy 表示當(dāng)研究人員開始使用 Dataset Search 時，谷歌將會觀察他們?nèi)绾闻c其交互，并利用這些信息來改進(jìn)搜索結(jié)果。她還表示，公司尚未打算把該服務(wù)商業(yè)化。

隨著 Dataset Search 的不斷改進(jìn)，未來它也許會跟 Google Scholar 整合，將特定研究領(lǐng)域的搜索結(jié)果關(guān)聯(lián)到相關(guān)數(shù)據(jù)集。

原文鏈接：https://www.nature.com/articles/d41586-018-06201-x

標(biāo)簽： Google 服務(wù)商谷歌互聯(lián)網(wǎng) 排名數(shù)據(jù)庫搜索搜索工具搜索網(wǎng)頁搜索引擎搜索引擎收錄網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:吳恩達(dá)剛剛集中回應(yīng)了被CEO們問過最多的三個問題

下一篇:谷歌強(qiáng)力推出數(shù)據(jù)集搜索！Dataset Search神器重磅來襲

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

AI研發(fā)者福利！谷歌推出數(shù)據(jù)集搜索專用引擎Dataset Search