中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌剛剛發(fā)布了2500萬個免費(fèi)數(shù)據(jù)集,了解一下

2020-03-03    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
注意:谷歌的新數(shù)據(jù)集搜索工具已于2020年1月23日問世。

疫情防控階段,大家的“寒假“越過越長,這么“長”時間的寒假能做些什么呢?

 

 

最近,谷歌發(fā)布了免費(fèi)工具datasetsearch,它可以搜索2500萬個公開可用的數(shù)據(jù)集。

搜索工具包括過濾器,可基于許可證(免費(fèi)或付費(fèi))、格式(csv,圖像等)和更新時間限制結(jié)果。

結(jié)果還包括對數(shù)據(jù)集內(nèi)容的描述以及作者的引用。

谷歌的數(shù)據(jù)集聚合方法不同于其他數(shù)據(jù)集存儲庫(如亞馬遜的開放數(shù)據(jù)注冊表)。與其他自行管理和托管數(shù)據(jù)集的存儲庫不同,谷歌不會直接管理或提供2500萬個數(shù)據(jù)集的訪問權(quán)限。

取而代之的是,谷歌依靠數(shù)據(jù)集發(fā)布者,使用 schema.org的開放標(biāo)準(zhǔn)描述其數(shù)據(jù)集的元數(shù)據(jù)。然后,谷歌索引元數(shù)據(jù),并使其在發(fā)布者之間可搜索。

發(fā)布者仍需自己托管數(shù)據(jù)集,因此符合schema.org標(biāo)準(zhǔn)的營利性發(fā)布者也將使用谷歌為其數(shù)據(jù)集建立索引。根據(jù)以往經(jīng)驗,筆者發(fā)現(xiàn),搜索與市場相關(guān)的數(shù)據(jù)集時,其百分比更高,搜索結(jié)果中約有一半的數(shù)據(jù)集來自營利性聚合器。

該平臺上其他受歡迎的數(shù)據(jù)集發(fā)布者包括政府機(jī)構(gòu)和研究機(jī)構(gòu)。谷歌聲稱,僅美國政府機(jī)構(gòu)就已經(jīng)發(fā)布了超過200萬個數(shù)據(jù)集。

據(jù)谷歌統(tǒng)計,大多數(shù)數(shù)據(jù)集涉及”地球科學(xué)、生物學(xué)和農(nóng)業(yè)領(lǐng)域。”

簡單使用schema.org的開放標(biāo)準(zhǔn)即可發(fā)布自己的數(shù)據(jù)集。越來越多的出版商遵守該標(biāo)準(zhǔn),公開可用的數(shù)據(jù)集的數(shù)量可能會持續(xù)增長。

目前,谷歌未提供用于搜索或下載免費(fèi)數(shù)據(jù)集的API。

網(wǎng)上數(shù)百萬個數(shù)據(jù)集出沒

在網(wǎng)絡(luò)上,用戶感興趣的任何主題,幾乎都有數(shù)百萬個數(shù)據(jù)集。如果想購買一只小狗,可以查找數(shù)據(jù)集來匯總買家的投訴或查找對小狗認(rèn)知度的研究;蛘,如果喜歡滑雪,可以查找有關(guān)滑雪勝地收入或受傷率及受傷人數(shù)的數(shù)據(jù)。Dataset Search 已為其中近2500萬個數(shù)據(jù)集建立了索引,可以在一個地方搜索數(shù)據(jù)集并查找指向數(shù)據(jù)所在位置的鏈接。在過去一年里,人們對其進(jìn)行嘗試并提供了反饋,現(xiàn)在DatasetSearch正式退出測試版。

 

 

查詢“滑雪”的一些搜索結(jié)果,涉及最快滑雪者的速度以及滑雪勝地收入的數(shù)據(jù)集。

Dataset Search有何創(chuàng)新之處?

根據(jù)從DatasetSearch早期試用版中得到的反饋,開發(fā)者添加了新功能,F(xiàn)在,根據(jù)所需的數(shù)據(jù)集類型(例如表格、圖像、文本)或是否可以從提供商處免費(fèi)獲得數(shù)據(jù)集,就可以過濾結(jié)果。如果數(shù)據(jù)集是關(guān)于某個地區(qū)的,可以查看地圖。另外, 該產(chǎn)品現(xiàn)在可以在移動設(shè)備上使用,并且數(shù)據(jù)集描述的質(zhì)量得到了極大改善。然而,一件事情沒有改變:發(fā)布數(shù)據(jù)的任何人都可以使用開放標(biāo)準(zhǔn)(schema.org)在自己的網(wǎng)頁上描述其數(shù)據(jù)集的屬性,從而使人們在搜索中可以發(fā)現(xiàn)數(shù)據(jù)集。

開發(fā)者還了解到有不同類型的人在尋找數(shù)據(jù)。有一些學(xué)術(shù)研究人員正在尋找可以支持其假設(shè)的數(shù)據(jù)(例如:嘗試催產(chǎn)素)、學(xué)生查找表格形式并涵蓋其高級論文主題的免費(fèi)數(shù)據(jù)(例如:嘗試使用相應(yīng)過濾器的監(jiān)禁率)、業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家尋找有關(guān)移動應(yīng)用程序或快餐店等的信息。所有這些都有數(shù)據(jù)!用戶都搜索什么呢?最常見的查詢包括“教育”、“天氣”、“癌癥”,“犯罪”、“足球”和“狗”。

 

 

上圖為查詢“快餐店”的一些搜索結(jié)果。

在Dataset Search里有哪些數(shù)據(jù)集?

Dataset Search還提供了網(wǎng)上數(shù)據(jù)的快照。此處有一些亮點(diǎn)。數(shù)據(jù)集涵蓋的最大主題是地球科學(xué)、生物學(xué)和農(nóng)業(yè)。世界上大多數(shù)國家的政府都會發(fā)布數(shù)據(jù),并使用schema.org對其進(jìn)行描述。美國可用的開放政府?dāng)?shù)據(jù)集超過200萬,在數(shù)量上遙遙領(lǐng)先。最受歡迎的數(shù)據(jù)格式是什么?用戶可以在DatasetSearch中找到超過600萬張表格。

在Dataset Search中找到的數(shù)據(jù)集數(shù)量持續(xù)增加。如果站點(diǎn)上有一個數(shù)據(jù)集,并使用開放標(biāo)準(zhǔn)schema.org對其進(jìn)行了描述,其他人可以在DatasetSearch中找到它。如果知道一個數(shù)據(jù)集存在,但是在DatasetSearch中找不到它,請要求提供者添加schema.org描述,其他人也將了解他們的數(shù)據(jù)集。

未來何去何從?

DatasetSearch已退出測試版,但無論產(chǎn)品是否有“測試版”,改進(jìn)都將繼續(xù)。快下載體驗DatasetSearch吧!

標(biāo)簽: 數(shù)據(jù)集 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:統(tǒng)計數(shù)據(jù)告訴你有關(guān)新型冠狀病毒的醫(yī)學(xué)研究進(jìn)展如何

下一篇:科學(xué)戰(zhàn)“疫”,看大數(shù)據(jù)如何發(fā)揮作用