电竞比分网-中国电竞赛事及体育赛事平台

分享

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

 空明苑 2017-01-18

如果要一句話(huà)概括數(shù)據(jù)科學(xué)的本質(zhì),那就是:

“學(xué)習(xí)數(shù)據(jù)科學(xué)最好的方法就是應(yīng)用數(shù)據(jù)科學(xué)?!?/p>

如果你是一個(gè)初學(xué)者,那么這將對(duì)你正在運(yùn)營(yíng)的新項(xiàng)目幫助極大。如果你是一個(gè)有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)專(zhuān)家,那么我想你已經(jīng)懂我在說(shuō)什么了。

然而,當(dāng)我向人們給到此類(lèi)建議時(shí),他們通常會(huì)反問(wèn)我——那我可以在哪里獲取到數(shù)據(jù)集進(jìn)行練習(xí)呢?可能有的同學(xué)們還不太了解,現(xiàn)在有很多數(shù)據(jù)集是開(kāi)放的。

如果你現(xiàn)在也需要大量的數(shù)據(jù)集進(jìn)行練習(xí),那么本文就可以解決你現(xiàn)在的困境,你可以利用這些數(shù)據(jù)進(jìn)行練習(xí),甚至可以利用它們創(chuàng)建自己的項(xiàng)目,甚至是產(chǎn)品。

如何利用這些資源?

對(duì)于數(shù)據(jù)的應(yīng)用來(lái)說(shuō),是無(wú)止境的。如果在這里提供了具體的應(yīng)用方法或者使用方式只會(huì)限制你的創(chuàng)造力。

我想最簡(jiǎn)單的方法就是使用她們來(lái)創(chuàng)建自己的“數(shù)據(jù)故事”,并將其發(fā)布在自己的博客里。這不僅可以提高你的數(shù)據(jù)可視化技能,還可以提高你的結(jié)構(gòu)化思維。

另一方面,如果你正在考慮或者已經(jīng)在運(yùn)營(yíng)一款數(shù)據(jù)產(chǎn)品,本文中的這些數(shù)據(jù)集將可以為你提供額外的新的數(shù)據(jù)源。

在本文中,我將這些數(shù)據(jù)源基于應(yīng)用將其分為不同的類(lèi)別。首先從簡(jiǎn)單通用且容易處理的數(shù)據(jù)集開(kāi)始,然后最后是大量的或行業(yè)相關(guān)的數(shù)據(jù)集。接下來(lái)我們?cè)賮?lái)為特定的需求來(lái)進(jìn)行為本挖掘、圖像分類(lèi)等等。

如果你還想到了其他的數(shù)據(jù)集資源,請(qǐng)?jiān)谠u(píng)論中與我分享哦~

簡(jiǎn)單&通用的數(shù)據(jù)集——for 初學(xué)者

(https://www./)——這是美國(guó)政府公開(kāi)數(shù)據(jù)源的站點(diǎn)。Data.gov提供各種數(shù)據(jù)及標(biāo)準(zhǔn)數(shù)據(jù)接口,方便用戶(hù)下載數(shù)據(jù),參與政府事務(wù),提供反饋意見(jiàn)和建議,消除政府和公眾之間的信息不對(duì)稱(chēng)問(wèn)題。這個(gè)站點(diǎn)上有多種領(lǐng)域的數(shù)據(jù),包括氣候、教育、能源和金融等等。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

.in(https://.in/)該站點(diǎn)為印度政府的公開(kāi)數(shù)據(jù)網(wǎng)站。在該站點(diǎn)上你可以找到各種行業(yè)的數(shù)據(jù),類(lèi)似氣候、健康等等。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

.in

World Bank(http://www./)從該網(wǎng)站上你可以獲取到世界銀行的公開(kāi)數(shù)據(jù)。該站點(diǎn)提供類(lèi)似數(shù)據(jù)目錄、DataBank和微數(shù)據(jù)這樣的數(shù)據(jù)工具可供你在線(xiàn)使用。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

World Bank

RBI(https:///Scripts/Statistics.aspx)該站點(diǎn)為印度央行的公開(kāi)數(shù)據(jù)。你可以在該站點(diǎn)中查看到類(lèi)似貨幣市場(chǎng)業(yè)務(wù)、國(guó)際收支以及一些產(chǎn)品的使用等等。如果你身處印度的BFSI(Banking, Financial services and Insurance)行業(yè),我想這是一個(gè)你必去的網(wǎng)站。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

RBI

Five Thirty Eight Datasets(https://github.com/fivethirtyeight/data),該站點(diǎn)中的每一個(gè)數(shù)據(jù)集中都有大量的數(shù)據(jù),以及一個(gè)對(duì)數(shù)據(jù)進(jìn)行解釋的字典。如果你正在學(xué)習(xí)如何創(chuàng)建數(shù)據(jù)故事,那么。這將是你最好的選擇。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

Five Thirty Eight Datasets

大數(shù)據(jù)集——難度提升!

Amazon Web Services (AWS) datasets(https://aws.amazon.com/datasets/)亞馬遜提供了一些大數(shù)據(jù)集,你可以在他們的平臺(tái)或者本地計(jì)算機(jī)上使用。

Google datasets(https://cloud.google.com/bigquery/public-data/)作為BigQuery的一部分,Google提供了一些大數(shù)據(jù)集,該站點(diǎn)上的數(shù)據(jù)集包括嬰兒名字,GitHub的公開(kāi)數(shù)據(jù)等等。

Youtube labeled Video Dataset(https://research.google.com/youtube8m/)幾個(gè)月前,Google Research Group發(fā)布了Youtube的數(shù)據(jù)集。其中包括800萬(wàn)Youtube視頻ID和相關(guān)標(biāo)簽。

預(yù)測(cè)模型&機(jī)器學(xué)習(xí)數(shù)據(jù)集

UCI Machine Learning Repository(https://archive.ics./ml/datasets.html)UIC機(jī)器學(xué)習(xí)庫(kù)顯然是最著名的數(shù)據(jù)存儲(chǔ)庫(kù)。這通常是你尋找數(shù)據(jù)集相關(guān)的第一個(gè)機(jī)器學(xué)習(xí)庫(kù)。在這里有各種數(shù)據(jù)集,從泰坦尼克相關(guān)數(shù)據(jù)到最近的空氣質(zhì)量和GPS數(shù)據(jù)等。存儲(chǔ)庫(kù)中有超過(guò)350種分類(lèi)。你可以利用這些分類(lèi)過(guò)濾器來(lái)確定自己需要的數(shù)據(jù)集。

Kaggle(https://www./datasets)該站點(diǎn)是一個(gè)可以讓人們捐贈(zèng)自己的數(shù)據(jù)集的地方,同時(shí)其他的成員可以對(duì)其進(jìn)行使用和優(yōu)化。他們有超過(guò)350個(gè)數(shù)據(jù)集。這個(gè)站點(diǎn)的另一個(gè)優(yōu)勢(shì)在于 ,你可以看到其他成員的提問(wèn)和他們寫(xiě)的腳本等信息。

Analytics Vidhya(https://datahack./contest/all/)你可以從該站點(diǎn)下載數(shù)據(jù)集,但是該站點(diǎn)的數(shù)據(jù)量級(jí)相對(duì)較小。

Quandl(https://www./)該站點(diǎn)提供經(jīng)濟(jì)、金融以及其他各種他們通過(guò)自己的網(wǎng)站/API獲取并整合的公開(kāi)數(shù)據(jù)源。在該站點(diǎn)上的數(shù)據(jù)源分為公開(kāi)版和高級(jí)版。你可以免費(fèi)使用公開(kāi)版的數(shù)據(jù)源,但是需要支付一定的費(fèi)用才可以訪問(wèn)高級(jí)版。

Past KDD Cups(http://www./kdd-cup)KDD Cups是ACM Special Interest Group組織的競(jìng)賽,每年舉行一次,有關(guān)發(fā)現(xiàn)和數(shù)據(jù)挖掘。獲獎(jiǎng)?wù)呖梢允褂闷渲械拇蟛糠仲Y源。

Driven Data(https://www./)Driven Data發(fā)現(xiàn)數(shù)據(jù)科學(xué)可以用來(lái)對(duì)社會(huì)產(chǎn)生積極的影響。然后他們通過(guò)運(yùn)行在線(xiàn)建模競(jìng)賽的方式讓數(shù)據(jù)科學(xué)家可以開(kāi)發(fā)最好的模型來(lái)解決這些問(wèn)題。

圖像分類(lèi)數(shù)據(jù)集

The MNIST Database(http://yann./exdb/mnist/)該站點(diǎn)是最受歡迎的手寫(xiě)數(shù)據(jù)圖像識(shí)別數(shù)據(jù)集。這個(gè)站點(diǎn)上有6萬(wàn)個(gè)訓(xùn)練案例和1萬(wàn)組練習(xí)集。這通常會(huì)是新手使用的第一個(gè)圖像識(shí)別訓(xùn)練數(shù)據(jù)集。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

The MNIST Database

Chars74K(http://www.ee./CVSSP/demos/chars74k/)該站點(diǎn)上是圖像識(shí)別的下一個(gè)階段,如果你已經(jīng)掌握了手寫(xiě)圖像數(shù)據(jù),在該站點(diǎn)上你可以得到很多關(guān)于自然圖像識(shí)別的數(shù)據(jù)集。在該站點(diǎn)上包含了74000張圖片。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

Chars74K

Frontal Face Images(http://vasc.ri.//idb/html/face/frontal_images/index.html)如果你已經(jīng)對(duì)前兩個(gè)站點(diǎn)的項(xiàng)目有一定的了解,那么這個(gè)站點(diǎn)就是下一個(gè)挑戰(zhàn)——人臉識(shí)別。圖片是由卡內(nèi)基梅隆大學(xué)和麻省理工大學(xué)整理收集,分別存放在4個(gè)文件夾下。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

Frontal Face Images

ImageNet(http:///)現(xiàn)在要為大家介紹一些通用的資料。圖像數(shù)據(jù)集是根據(jù)WordNet的層級(jí)來(lái)組織的。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

ImageNet

文本分類(lèi)數(shù)據(jù)集

Spam – Non Spam(http://www.esp./jmgomez/smsspamcorpus/)這是一個(gè)對(duì)垃圾信息標(biāo)記收集的研究站點(diǎn)。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

Spam – Non Spam

Twitter Sentiment Analysis(http:///twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)該站點(diǎn)中包含1,578,627個(gè)已經(jīng)分類(lèi)的推特狀態(tài)。每一條都被標(biāo)記了是積極情緒還是消極情緒。數(shù)據(jù)是基于Kaggle和Nick Sanders的調(diào)研結(jié)果。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

Twitter Sentiment Analysis

Movie Review Data(http://www.cs./People/pabo/movie-review-data/)該網(wǎng)站提供了有關(guān)電影評(píng)論的集合文件,用正面或者負(fù)面情緒以及主觀評(píng)級(jí)將其標(biāo)注。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

Movie Review Data

推薦引擎數(shù)據(jù)集

GroupLens(http:///)該站點(diǎn)通過(guò)對(duì)真實(shí)的個(gè)人創(chuàng)建深度分析系統(tǒng),來(lái)改進(jìn)社交計(jì)算的理論和實(shí)踐。同時(shí)在GroupLens Research中,收集了MovieLens中的網(wǎng)站數(shù)據(jù)集,根據(jù)數(shù)據(jù)集的大小,在不同的時(shí)間段收集數(shù)據(jù)。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

GroupLens

Jester(http://www.ieor./~goldberg/jester-data/)這是一個(gè)有關(guān)線(xiàn)上笑話(huà)評(píng)論系統(tǒng)的數(shù)據(jù)集。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

Jester

其他數(shù)據(jù)源網(wǎng)站

KDNuggets(http://www./datasets/index.html)在KNDuggets上的這個(gè)頁(yè)面一直是人們尋找數(shù)據(jù)集的一個(gè)頁(yè)面。但是有一些數(shù)據(jù)源已經(jīng)不再提供數(shù)據(jù)集,所以建議在下載或者使用時(shí)謹(jǐn)慎按需選擇。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

KDNuggets

Awesome Public Datasets(https://github.com/caesar0301/awesome-public-datasets),這是一個(gè)GitHub上的數(shù)據(jù)集分類(lèi)綜合列表。在這個(gè)列表中數(shù)據(jù)集被分為各種種類(lèi)。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

Awesome Public Datasets

Reddit Datasets Subreddit(https://www./r/datasets/)因?yàn)檫@是一個(gè)社區(qū)論壇,可能你會(huì)覺(jué)得這個(gè)網(wǎng)站又短混亂。但是,你可以通過(guò)人氣對(duì)數(shù)據(jù)集排序,來(lái)查看最受的歡迎的數(shù)據(jù)集是哪些。同時(shí)在這個(gè)站點(diǎn)上你可以發(fā)現(xiàn)很多有趣的討論。

25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛(ài)數(shù)據(jù)科學(xué)的你

Reddit Datasets Subreddit

小結(jié):

希望以上資源對(duì)于大家學(xué)習(xí)數(shù)據(jù)科學(xué)有所助益。對(duì)于初學(xué)者來(lái)說(shuō),這絕對(duì)是個(gè)實(shí)戰(zhàn)練習(xí)的絕佳資源。如果你還有其他的數(shù)據(jù)科學(xué)練習(xí)資源,歡迎在評(píng)論區(qū)和大家分享~!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多