自然語言處理 02語料庫與詞匯知識庫
1.語料庫與知識庫定義?
語料庫就是存放語言材料的倉庫(語言數(shù)據(jù)庫)
知識庫是以描述性方法來存儲和管理知識的機構(gòu),由知識和知識處理機構(gòu)行成一個知識域。
2.什么是平行語料庫?什么是平衡語料庫?
平行語料庫有兩種含義,一種是指在同一種語言的語料上平行,例如“國際英語語料庫”涵蓋了不同國家的英語。其平行性表現(xiàn)為語料選取的時間、對象、比例、文本數(shù)、文本長度等幾乎是一致的。建庫的目的是對不同國家的英語進行對比研究。
另一種平行語料庫是指在兩種或多種語言之間的平行采樣和加工,例如,機器翻譯中的雙語對齊語料庫。
平衡語料庫著重考慮語料的代表性與平衡性。語料采集的七項原則:語料的真實性、可靠性、科學(xué)性、代表性、權(quán)威性、分布性和流通性。其中語料的分布性還要考慮語料的科學(xué)領(lǐng)域分布、地域分布、時間分布和語體分布。
3.什么是共時語料庫?什么是歷時語料庫?
共時語料庫 是為了對語言進行共時(同一時段)研究而建立的語料庫。研究大樹的橫斷面所見的細(xì)胞和細(xì)胞關(guān)系,即研究一個共時平面中的元素與元素的關(guān)系。
歷時語料庫 是為了對語言進行歷時研究而建立的語料庫。研究一個歷時切面中元素與元素關(guān)系的演化。
4.什么是熟語料庫?什么是生語料庫?
熟語料 指在自然語言單位上添加人工的標(biāo)簽標(biāo)注,如經(jīng)過分詞、詞性標(biāo)注、命名實體識別、依存句法標(biāo)注形成的語料)。
生語料 指直接收集而未經(jīng)加工形成的語言資源集,如常見的微博語料,新聞?wù)Z料等。
標(biāo)簽: