技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平臺
1. 工具簡介
北京語言大學語料庫中心(BLCU Corpus Center,簡稱BCC)是以漢語為主、兼有英語和法語的在線語料庫,是服務語言本體研究和語言應用研究的在線大數(shù)據系統(tǒng)。BCC語料庫總字數(shù)約 150 億字,包括報刊(20 億)、文學(30 億)、微博(30 億)、科技(30 億)、綜合(10 億)和古漢語(20 億)等多領域語料,是可以全面反映當今社會語言生活的大規(guī)模語料庫。BCC語料庫具有數(shù)據量大、領域廣和檢索便捷等優(yōu)點。目前,已經支持了百余篇論文的發(fā)表。
2. 圖文教程
BCC漢語語料庫網址:

2. 圖文教程
2.1 基本檢索流程
1)在搜索框里輸入要檢索的詞匯或語句,可以選擇“多領域”“文學”“報刊”“對話”“篇章檢索”“古漢語”“歷時檢索”或“自定義”。如輸入“美麗的”。點擊“搜索”鍵,可以在單句范圍內,檢符合檢索式的語言片段。











2.2 歷時檢索
1)點擊“歷時檢索”,輸入“美麗的”,檢索結果可以看到檢索式歷年的出現(xiàn)頻次和頻率,可以切換為柱狀圖、折線圖兩種顯示方式。













2.3 BCC檢索式
1)下圖為一些常見的檢索式示例。



3. 學習心得




1)在首頁下方,還可以看見“新聞”“搜索示例”“下載”選項。



3. 學習心得
BCC漢語語料庫以漢語為主,兼有其他語種的語言大數(shù)據;為語言本體研究提供在線檢索系統(tǒng);為語言本體研究提供建構大數(shù)據的語言應用平臺;支持云服務;通過API調用方式為開展知識抽取、模型構建提供便利。不僅為漢語言愛好者提供便捷專業(yè)的檢索途徑,也對從事中譯外的譯者及對外漢語教師提供了多角度,具有時效性的檢索結果。同時,該檢索工具幫助使用者們掌握更為細化的檢索方式,提高了使用學習者們的搜索技能。綜上,BCC漢語語料庫值得大家研究學習。
參考資料
[1]BCC漢語語料庫官網-幫助欄[2]肖丹、馬路遙BCC語料庫 | 世界語言資源平臺
作者:楊惠鈞
編校:阿之
注:學習作品,僅供參考,歡迎指正。
標簽: