中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

8種尋找機器學習數據集的方法

2019-01-22    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在訓練機器學習模型時,找到合適的數據集一直是個棘手的問題。

近日,亞馬遜AWS高級技術顧問Will Badr介紹了8種尋找機器學習數據集的方法。

通過這些方法,不僅能夠找到大量的實驗數據集及相關的描述和使用示例。在某些情況下,還會有用于訓練數據集的算法代碼。

以下,就是他介紹的8種方法:

1、Kaggle數據集

 

 

Kaggle的數據集中,包含了用于各種任務,不同規(guī)模的真實數據集,而且有許多不同的格式。此外,你還可以在這里找到與每個數據集相關聯(lián)的交互式筆記本Kernels,這些筆記本能夠在瀏覽器中運行。

在這里,每個數據集都是一個小的交流社區(qū),可以討論數據,尋找一些公開的代碼,或者在Kernels中創(chuàng)建自己的項目。

有許多數據科學家從不同的角度對數據集進行了分析。有時候,你還可以找到解決特定問題的算法代碼。

傳送門:https://www.kaggle.com/datasets

2、亞馬遜數據集

 

 

這里有許多不同領域的數據集,比如公共交通、生態(tài)資源、衛(wèi)星圖像等等。

同時也提供了一個搜索框,來幫助你尋找數據集。伴隨著數據集,也有相關的描述與用法示例。

數據集存儲在AWS中,如果你正在使用AWS訓練機器學習模型,會非常方便,數據集的傳輸速度非?臁

傳送門:https://registry.opendata.aws/

3、UCI機器學習數據庫

 

 

這個數據庫里面有100個數據集。來自加州大學信息與計算機科學學院。

數據集已經按照機器學習問題進行了分類,你可以在這里找到單變量和多變量時間序列數據集;分類、回歸或推薦系統(tǒng)的數據集。

而且,其中的一些數據集已經清理完畢,拿走就能使用。

傳送門:https://archive.ics.uci.edu/ml/datasets.html

4、谷歌數據集搜索引擎

 

 

2018年9月份,谷歌推出了這項服務,可以按名稱搜索數據集。目標是收集起來成千上萬不同的數據集存儲庫。

相關報道:

Google數據集搜索神器上線,和搜索論文一樣簡單

傳送門:https://toolbox.google.com/datasetsearch

5、微軟數據集

 

 

2018年7月,微軟推出“微軟研究開放數據”。涵蓋計算機科學、社會科學、物理學、天文學、生物學、經濟學等等多個學科領域

數據集存儲在云中,用于推動全球研究團體之間的協(xié)作。收集了一系列已發(fā)表的研究中使用的精確數據集。

傳送門:https://msropendata.com/

6、公共數據集資源收集

 

 

按照不同的主題對近600個數據集進行了分類,一共涉及29個主題,比如生物學、經濟學、教育學等等。大多數數據集都是免費的,不過在使用前,還是檢查一下許可要求比較好。

傳送門:https://github.com/awesomedata/awesome-public-datasets

7、政府數據集

與政府相關的數據集尋找起來也比較容易,許多國家都會公開各種數據,以推進政務的透明化處理。比如:

歐盟開放數據集:歐洲政府的數據集

https://data.europa.eu/euodp/data/dataset

美國政府數據集:(暫時無法使用)

https://www.data.gov/

 

 

中國國家統(tǒng)計局:http://www.stats.gov.cn/

8、計算機視覺數據

 

 

里面有各種用于計算機視覺研究數據集,可以通過特定的主題去查找數據集,比如語義分割、圖像字幕、圖像生成等等。也可以通過應用場景來查找數據集,比如自動駕駛汽車數據集。

傳送門:https://www.visualdata.io/

標簽: Google 代碼 谷歌 數據庫 搜索 搜索引擎 政務

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:用可視化解構BERT,我們從上億參數中提取出了6種直觀模式

下一篇:啟用下一代數據中心,甲骨文擴展云業(yè)務