NLP開源數(shù)據(jù)集匯總
CASIA手寫數(shù)據(jù)集
數(shù)據(jù)集地址:http://m6z.cn/6pFPtC
CASIA-HWDB-T:一個從中文手寫數(shù)據(jù)庫CASIA-HWDB收集的觸摸字符數(shù)據(jù)庫。所有接觸的字符(或字符串)都用字符類別、接觸點的位置以及字符串高度(LH)和平均筆劃寬度(SW)等輔助值進行注釋。
根據(jù)不同的語言類型,觸摸字符串分為四個子集:2788 個全數(shù)字字符串(HWDB-T-allDigits)、328 個全字母字符串(HWDB-T-allLetters)、50157 個全中文字符串(HWDB-T -allChinese)和 3,196 個混合字符(HWDB-T-other)。

Twitter地理定位信息數(shù)據(jù)集
數(shù)據(jù)集地址:http://m6z.cn/5VFbms
訓練集包含 115,886 個 Twitter 用戶和來自用戶的 3,844,612 個更新。用戶的所有位置都在美國以城市級粒度進行自我標記。測試集包含 5,136 個 Twitter 用戶和來自用戶的 5,156,047 條推文。用戶的所有位置都是從他們的智能手機以“UT:緯度,經(jīng)度”的形式上傳的。
印度新聞頭條數(shù)據(jù)集
數(shù)據(jù)集地址:http://m6z.cn/5O90Vj
該新聞數(shù)據(jù)集是印度從 2001 年初到 2022 年第一季度的重要事件的持久歷史檔案,由印度記者實時記錄。它包含印度時報發(fā)布的大約 360 萬個事件。大部分數(shù)據(jù)集中在印度地方新聞,包括國家、城市和娛樂。由Rohit Kulkarni編寫

專利短語數(shù)據(jù)集
數(shù)據(jù)集地址:http://m6z.cn/6i9CsN
該數(shù)據(jù)集是為美國專利短語匹配競賽提供的。它通過提供context列中每個代碼的含義來添加附加信息。

電影元數(shù)據(jù)
數(shù)據(jù)集地址:http://m6z.cn/6i9Cth
這些文件包含 TMDB 數(shù)據(jù)集中列出的超過 700,000 部電影的元數(shù)據(jù)。數(shù)據(jù)集每天更新以確保更新電影數(shù)據(jù)集。數(shù)據(jù)點包括演員、工作人員、情節(jié)關鍵詞、預算、收入、海報、發(fā)布日期、語言、制作公司、國家、TMDB 投票計數(shù)和投票平均值、評論、推薦。

Twitter 情緒推文數(shù)據(jù)集
數(shù)據(jù)集地址:http://m6z.cn/5zMyu3
每行包含一條推文的文本和一個情緒標簽。在訓練集中,您將獲得一個從推文 (selected_text) 中提取的單詞或短語,它封裝了所提供的情緒。

幸福暢銷書評論數(shù)據(jù)集
數(shù)據(jù)集地址:http://m6z.cn/63boFl
自 2005 年以來,整體幸福感正在下降,而悲傷和憤怒等負面情緒卻在上升。更糟糕的是,越來越多的年輕人患有精神疾病、成癮及其后果。本數(shù)據(jù)集收集了排名前33名的關于幸福的書籍、評論和引用。

Olist電子商務公共數(shù)據(jù)集
數(shù)據(jù)集地址:http://m6z.cn/6aHBQk
這是在Olist Store下訂單的巴西電子商務公共數(shù)據(jù)集。該數(shù)據(jù)集包含 2016 年至 2018 年在巴西多個市場進行的 10 萬份訂單的信息。它的功能允許從多個維度查看訂單:從訂單狀態(tài)、價格、付款和貨運績效到客戶位置、產(chǎn)品屬性,最后是客戶撰寫的評論。這是真實的商業(yè)數(shù)據(jù),已匿名,評論文本中對公司和合作伙伴的引用已替換為《權力的游戲》大家族的名稱。

假新聞和真實新聞數(shù)據(jù)集
數(shù)據(jù)集地址:http://m6z.cn/5zMyx7
本數(shù)據(jù)集匯總了2015年-2018年間的一些真實的新聞和虛假的新聞,包含每篇新聞的主題類型、標題、正文和日期。

Top1000的Github存儲庫數(shù)據(jù)集
數(shù)據(jù)集地址:http://m6z.cn/5VFbZk
關于 Github 上的 1000 個最受歡迎的存儲庫的詳盡數(shù)據(jù)。
