中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

19個數(shù)據(jù)科學項目的免費公共數(shù)據(jù)集

2019-12-03    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

順利完成數(shù)據(jù)科學項目對于從事這個行業(yè)者來說很重要,不僅能鍛煉能力,同時可以作為就業(yè)面試時的經(jīng)驗,可以在面試過程中進行討論,從而增加自己的競爭力。

所以找到一個合適、有趣的數(shù)據(jù)集很關(guān)鍵。

本文選擇了不同類型和復(fù)雜程度的數(shù)據(jù)集,這些數(shù)據(jù)集是比較適合于第一個項目。(他們中的一些人也為研究項目工作!)這些數(shù)據(jù)集涵蓋了各種來源:人口數(shù)據(jù)、經(jīng)濟數(shù)據(jù)、文本數(shù)據(jù)和公司數(shù)據(jù)。

免費的學生數(shù)據(jù)集

1、美國人口普查數(shù)據(jù):https://www.census.gov/data.html

美國人口普查局公布了州、市甚至郵政編碼級別的大量人口統(tǒng)計數(shù)據(jù)。對于那些對創(chuàng)建地理數(shù)據(jù)可視化感興趣的學生來說,這是一個非常棒的數(shù)據(jù)集,可以在人口普查局的網(wǎng)站上訪問;蛘,可以通過API訪問數(shù)據(jù)。使用該API的一個方便方法是通過choroplethr?偟膩碚f,這些數(shù)據(jù)非常清晰和全面。

2、FBI犯罪數(shù)據(jù):

https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-1

https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-2

美國聯(lián)邦調(diào)查局犯罪數(shù)據(jù)是有趣的,是這個列表中最有趣的數(shù)據(jù)集之一。如果你對分析時間序列數(shù)據(jù)感興趣,你可以用它來描繪20年間全國犯罪率的變化。或者,您可以從地理位置查看數(shù)據(jù)。

3、美國疾病控制與預(yù)防中心(CDC)死因:https://www.cdc.gov/datastatistics/index.html

疾病控制和預(yù)防中心維護著一個死因數(shù)據(jù)庫 。數(shù)據(jù)幾乎可以通過所有可以想象的方式進行細分:年齡,種族,年份等。

4、Medicare醫(yī)院質(zhì)量:http://seer.cancer.gov/faststats/selections.php?series=cancer

醫(yī)療保險和醫(yī)療補助服務(wù)中心(Centers for Medicare & Medicaid Services)在全美4,000多家經(jīng)醫(yī)療認證的醫(yī)院中維護著一個醫(yī)療質(zhì)量數(shù)據(jù)庫,提供了有趣的比較。

5、SEER癌癥發(fā)病率:http://seer.cancer.gov/faststats/selections.php?series=cancer

美國政府也有關(guān)于癌癥發(fā)病率的數(shù)據(jù),再一次根據(jù)年齡、種族、性別、年份和其他因素進行細分。它來自國家癌癥研究所的監(jiān)測、流行病學和最終結(jié)果項目。

6、美國勞工統(tǒng)計局:http://www.bls.gov/data/

美國許多重要的經(jīng)濟指標(如失業(yè)率和通貨膨脹率)都可以在勞工統(tǒng)計局的網(wǎng)站上找到。大部分數(shù)據(jù)可以按時間和地理位置進行分段。

7、經(jīng)濟分析局:http://www.bea.gov/national/index.htm

經(jīng)濟分析局也有國家和地區(qū)經(jīng)濟數(shù)據(jù),包括國內(nèi)生產(chǎn)總值和匯率。

8、IMF經(jīng)濟數(shù)據(jù):http://data.imf.org/?sk=388DFA60-1D26-4ADE-B505-A05A558D9A42&sId=1479329328660

要獲取全球金融統(tǒng)計數(shù)據(jù)和其他數(shù)據(jù),請訪問國際貨幣基金組織的網(wǎng)站。

9、道瓊斯每周收益:http://archive.ics.uci.edu/ml/datasets/Dow+Jones+Index

預(yù)測股票價格是數(shù)據(jù)分析和機器學習的主要應(yīng)用。加州大學爾灣分校(University of California, Irvine)機器學習與智能系統(tǒng)中心(Center for Machine Learning and Intelligent Systems)提供的道瓊斯指數(shù)(Dow Jones Index)周回報率是需要研究的相關(guān)數(shù)據(jù)之一。

10、英國政府網(wǎng)站data .gov.uk:https://data.gov.uk/

英國政府的官方數(shù)據(jù)門戶網(wǎng)站提供數(shù)以萬計的有關(guān)犯罪、教育、交通和健康等主題的數(shù)據(jù)集。

11、安然電子郵件:http://www.cs.cmu.edu/~enron/

安然公司倒閉后,大約50萬封包含信息文本和元數(shù)據(jù)的免費電子郵件被公布。這個數(shù)據(jù)集現(xiàn)在很出名,為文本相關(guān)的分析提供了一個很好的試驗場。您還可以通過該頁面探索該數(shù)據(jù)集的其他研究用途。

12、Google圖書Ngrams:http://aws.amazon.com/datasets/8172056142375670

:如果您對真正的海量數(shù)據(jù)感興趣,Ngram viewer數(shù)據(jù)集將根據(jù)大量文本源按年計算單詞和短語的頻率。結(jié)果文件為2.2 TB。

13、聯(lián)合國兒童基金會:https://data.unicef.org/

如果有關(guān)世界各地兒童生活的數(shù)據(jù)值得關(guān)注,那么聯(lián)合國兒童基金會是最可靠的來源之一。該組織的公共數(shù)據(jù)集涉及營養(yǎng)、免疫和教育等方面。

14、Reddit評論:https://www.reddit.com/r/datasets/comments/65o7py/updated_reddit_comment_dataset_as_torrents/

Reddit發(fā)布了一個非常有趣的數(shù)據(jù)集,記錄了網(wǎng)站上的每一條評論。它有超過1tb的未壓縮數(shù)據(jù),所以如果你想要一個更小的數(shù)據(jù)集與Kaggle一起工作,可以在Kaggle的網(wǎng)站上看到2015年5月的評論。

15、維基百科:https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia

除了維基媒體基金會的其他項目外,維基百科還提供下載英文文章的說明。

16、Lending Club:https://www.lendingclub.com/info/download-data.action

Lending Club提供它拒絕的貸款申請的數(shù)據(jù),以及它發(fā)放的貸款的表現(xiàn)。自由數(shù)據(jù)集既適用于分類技術(shù)(給定的貸款將會違約),也適用于回歸(給定的貸款將會償還多少)。

17、沃爾瑪:https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/data

沃爾瑪公布了美國各地45家商店的歷史銷售數(shù)據(jù)。

18、Airbnb:http://insideairbnb.com/get-the-data.html

Airbnb提供世界各地數(shù)十個城市Airbnb房源的不同數(shù)據(jù)集。

19、Yelp:https://www.yelp.com/dataset/challenge

Yelp維護一個用于個人、教育和學術(shù)目的的免費數(shù)據(jù)集。它包括了來自10個大都市地區(qū)18.9萬家企業(yè)的600萬條評論。歡迎學生參加Yelp的數(shù)據(jù)集挑戰(zhàn)。

標簽: 數(shù)據(jù) 蒲钅  數(shù)據(jù)集

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:中國大數(shù)據(jù)應(yīng)用市場專題分析

下一篇:國外人工智能領(lǐng)域最新進展