中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

8種尋找機器學習數(shù)據(jù)集的方法

2019-01-22    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在訓練機器學習模型時,找到合適的數(shù)據(jù)集一直是個棘手的問題。

近日,亞馬遜AWS高級技術(shù)顧問Will Badr介紹了8種尋找機器學習數(shù)據(jù)集的方法。

通過這些方法,不僅能夠找到大量的實驗數(shù)據(jù)集及相關(guān)的描述和使用示例。在某些情況下,還會有用于訓練數(shù)據(jù)集的算法代碼。

以下,就是他介紹的8種方法:

1、Kaggle數(shù)據(jù)集

 

 

Kaggle的數(shù)據(jù)集中,包含了用于各種任務(wù),不同規(guī)模的真實數(shù)據(jù)集,而且有許多不同的格式。此外,你還可以在這里找到與每個數(shù)據(jù)集相關(guān)聯(lián)的交互式筆記本Kernels,這些筆記本能夠在瀏覽器中運行。

在這里,每個數(shù)據(jù)集都是一個小的交流社區(qū),可以討論數(shù)據(jù),尋找一些公開的代碼,或者在Kernels中創(chuàng)建自己的項目。

有許多數(shù)據(jù)科學家從不同的角度對數(shù)據(jù)集進行了分析。有時候,你還可以找到解決特定問題的算法代碼。

傳送門:https://www.kaggle.com/datasets

2、亞馬遜數(shù)據(jù)集

 

 

這里有許多不同領(lǐng)域的數(shù)據(jù)集,比如公共交通、生態(tài)資源、衛(wèi)星圖像等等。

同時也提供了一個搜索框,來幫助你尋找數(shù)據(jù)集。伴隨著數(shù)據(jù)集,也有相關(guān)的描述與用法示例。

數(shù)據(jù)集存儲在AWS中,如果你正在使用AWS訓練機器學習模型,會非常方便,數(shù)據(jù)集的傳輸速度非?臁

傳送門:https://registry.opendata.aws/

3、UCI機器學習數(shù)據(jù)庫

 

 

這個數(shù)據(jù)庫里面有100個數(shù)據(jù)集。來自加州大學信息與計算機科學學院。

數(shù)據(jù)集已經(jīng)按照機器學習問題進行了分類,你可以在這里找到單變量和多變量時間序列數(shù)據(jù)集;分類、回歸或推薦系統(tǒng)的數(shù)據(jù)集。

而且,其中的一些數(shù)據(jù)集已經(jīng)清理完畢,拿走就能使用。

傳送門:https://archive.ics.uci.edu/ml/datasets.html

4、谷歌數(shù)據(jù)集搜索引擎

 

 

2018年9月份,谷歌推出了這項服務(wù),可以按名稱搜索數(shù)據(jù)集。目標是收集起來成千上萬不同的數(shù)據(jù)集存儲庫。

相關(guān)報道:

Google數(shù)據(jù)集搜索神器上線,和搜索論文一樣簡單

傳送門:https://toolbox.google.com/datasetsearch

5、微軟數(shù)據(jù)集

 

 

2018年7月,微軟推出“微軟研究開放數(shù)據(jù)”。涵蓋計算機科學、社會科學、物理學、天文學、生物學、經(jīng)濟學等等多個學科領(lǐng)域

數(shù)據(jù)集存儲在云中,用于推動全球研究團體之間的協(xié)作。收集了一系列已發(fā)表的研究中使用的精確數(shù)據(jù)集。

傳送門:https://msropendata.com/

6、公共數(shù)據(jù)集資源收集

 

 

按照不同的主題對近600個數(shù)據(jù)集進行了分類,一共涉及29個主題,比如生物學、經(jīng)濟學、教育學等等。大多數(shù)數(shù)據(jù)集都是免費的,不過在使用前,還是檢查一下許可要求比較好。

傳送門:https://github.com/awesomedata/awesome-public-datasets

7、政府數(shù)據(jù)集

與政府相關(guān)的數(shù)據(jù)集尋找起來也比較容易,許多國家都會公開各種數(shù)據(jù),以推進政務(wù)的透明化處理。比如:

歐盟開放數(shù)據(jù)集:歐洲政府的數(shù)據(jù)集

https://data.europa.eu/euodp/data/dataset

美國政府數(shù)據(jù)集:(暫時無法使用)

https://www.data.gov/

 

 

中國國家統(tǒng)計局:http://www.stats.gov.cn/

8、計算機視覺數(shù)據(jù)

 

 

里面有各種用于計算機視覺研究數(shù)據(jù)集,可以通過特定的主題去查找數(shù)據(jù)集,比如語義分割、圖像字幕、圖像生成等等。也可以通過應用場景來查找數(shù)據(jù)集,比如自動駕駛汽車數(shù)據(jù)集。

傳送門:https://www.visualdata.io/

標簽: Google 代碼 谷歌 數(shù)據(jù)庫 搜索 搜索引擎 政務(wù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:用可視化解構(gòu)BERT,我們從上億參數(shù)中提取出了6種直觀模式

下一篇:啟用下一代數(shù)據(jù)中心,甲骨文擴展云業(yè)務(wù)