常見NLP數(shù)據(jù)集、LDC語料
LDC(Linguistic Data Consortium,語言數(shù)據(jù)聯(lián)盟)語料庫包括阿拉伯語、漢語和英語新聞文本、布朗語料庫全文、來自交換機(jī)與費(fèi)舍庫(Fisher Collection)數(shù)以百萬計(jì)的英語電話語音以及美國英語口語詞匯。LDC語料,包括ACE2005、TACRED、WSJ0、Ontonotes5.0、NYT(New York Times)、Gigaword、Rich ERE、Conll2003、CTB9.0、TDT5、HKUST、TIMIT、TAC KBP等。





但是中國大陸想注冊(cè)LDC語料庫卻較為麻煩,如果您有科研需要可以分享,主頁視頻多多幫忙一鍵三連。
標(biāo)簽: