機器學習數(shù)據(jù)集匯總

大家好,現(xiàn)在分享10多個非常全面的數(shù)據(jù)集查找平臺,給大家。
Google 數(shù)據(jù)集
谷歌為數(shù)據(jù)集專門開發(fā)的搜索系統(tǒng),20年初就已經(jīng)覆蓋2500萬的數(shù)據(jù)集。界面也非常簡潔,輸入關(guān)鍵詞即可返回相對應的數(shù)據(jù)集描述,如下。
鏈接:https://datasetsearch.research.google.com/


UCI數(shù)據(jù)集
http://archive.ics.uci.edu/ml/index.php

Huggingface數(shù)據(jù)集
NLP界網(wǎng)紅家的數(shù)據(jù)集,主要是自然語言處理方面的數(shù)據(jù)。支持使用python直接調(diào)取,譬如
。
鏈接1:https://github.com/huggingface/datasets
鏈接2:https://huggingface.co/datasets

Kaggle 數(shù)據(jù)集
Kaggle大家再熟悉不過了,比賽平臺自然少不了數(shù)據(jù)啦。
鏈接:https://www.kaggle.com/datasets

Paper With Code 數(shù)據(jù)集
4075個機器學習相關(guān)數(shù)據(jù)集,相比于其他平臺的優(yōu)勢是會將數(shù)據(jù)集和相應領(lǐng)域的paper和benchmark對應在一起。
鏈接:https://www.paperswithcode.com/datasets

reddit 數(shù)據(jù)集
reddit是國外熱門論壇,在dataset板塊,可以搜索數(shù)據(jù)集。相比于其他平臺不同的是,可以與其他人針對數(shù)據(jù)集一起討論。
鏈接:https://www.**********/r/datasets/

CLUE 數(shù)據(jù)集
雖然上述平臺也會涵蓋中文的數(shù)據(jù)集,但是可能并不全面。CLUE組織專門針對中文NLP數(shù)據(jù)搭建了一個平臺,同時開源了許多中文大規(guī)模數(shù)據(jù)和預訓練模型,點贊!!
鏈接:https://www.cluebenchmarks.com/dataSet_search.html

以上幾個數(shù)據(jù)集是我自己平時使用效果比較好的,如果還沒找到你想要的數(shù)據(jù),再提供幾個可以嘗試:
鏈接:https://www.datasetlist.com/
鏈接:https://github.com/awesomedata/awesome-public-datasets
鏈接:https://tinyletter.com/data-is-plural
鏈接:https://jupyter-tutorial.readthedocs.io/en/latest/data/index.html
鏈接:https://www.openml.org/search?type=data
鏈接:https://github.com/InsaneLife/ChineseNLPCorpus
轉(zhuǎn)載https://mp.weixin.qq.com/s/6rvCpebbywU_lxdutgV29w
