譯技術(shù) | 媒體語言語料庫(MLC):傳媒語言的聚寶盆
2022-10-06 18:49 作者:翻譯技術(shù)點津 | 我要投稿
中國傳媒大學(xué)有聲媒體文本語料庫是一個開放、免費使用的語料庫,由中國傳媒大學(xué)國家語言資源監(jiān)測與研究有聲媒體中心開發(fā)。該語料庫2003年開始建設(shè),2005年上線,其后不斷擴大語料規(guī)模,一直為研究者提供免費服務(wù)。本語料庫包括2008至2013六年的34,039個廣播、電視節(jié)目的轉(zhuǎn)寫文本,總字符數(shù)為241,316,530個,總漢字數(shù)為200,071,896字次。所有文本都進行了分詞和詞性標注,共計135,767,884詞次。為保證語料的典型性和代表性,每年都盡可能選擇那些流通度大、年度間又有一定連續(xù)性的節(jié)目文本;為便于研究者做6年間的歷時語言調(diào)查,各年度的語料規(guī)模盡可能平衡。
官網(wǎng):https://ling.cuc.edu.cn/RawPub/
2. 圖文教程
2.1 常規(guī)檢索
首先打開網(wǎng)址,首頁指向的是常規(guī)檢索頁。語料形式包括生語料與熟語料。檢索結(jié)果的屏幕顯示方式包括按字數(shù)、小句、句子和段落四種。檢索結(jié)果關(guān)鍵字居中,高亮顯示,兩邊的字數(shù)默認各是20,用戶可以根據(jù)自己需要更改,也可以選擇按小句或句子、段落的形式顯示,檢索結(jié)果保存的格式與此相同?!皺z索結(jié)果欄”將給出檢索范圍、語料規(guī)模以及檢索結(jié)果。




2.1.1 生語料檢索
即在生語料中進行關(guān)鍵詞或字符串的簡單檢索。檢索結(jié)果分頁顯示,每頁顯示40條。例如在檢索輸入框中輸入“語言”,選擇檢索范圍為“全部語料”,檢索結(jié)果如下圖所示:
點擊每行記錄后面的“查閱”,可瀏覽該記錄所在的文本以及其單位、欄目、題目和時間。






點擊每行記錄后面的“查閱”,可瀏覽該記錄所在的文本以及其單位、欄目、題目和時間。






2.1.2 熟語料檢索
熟語料是經(jīng)過分詞和詞性標注后的語料,以詞為單位進行檢索,輸入檢索項時,詞與詞之間要加空格,帶詞性檢索時,詞性前面要加“/”。比如要檢索做名詞的“關(guān)系”,需要輸入“關(guān)系/n”。詞與詞性在輸入時可以二選一,也可以都輸入。比如輸入“關(guān)系 /n”表示檢索所有詞性的“關(guān)系”后加名詞的詞串,輸入“關(guān)系/v /n”,則表示檢索動詞“關(guān)系”后面加名詞詞串。以輸入“關(guān)系/v /n”為例,選擇檢索范圍為“中央”,檢索結(jié)果如下圖所示,同樣可以進行查閱和導(dǎo)出。

2.2 高級檢索
高級檢索也包含生語料和熟語料兩個模塊。
2.2.1 生語料檢索
生語料檢索中包括成對字串檢索、重疊檢索和正則表達式檢索,分別舉例說明如下:1)成對字串檢索



























2.2.2 熟語料檢索
熟語料檢索中包括組合檢索、重疊檢索和正則表達式檢索,分別舉例說明如下:1)組合檢索

2)重疊檢索






2)重疊檢索





3. 學(xué)習(xí)心得
通過這次學(xué)習(xí),我知道了媒體語言語料庫(MLC)這一工具及使用方法。該語料庫搜索功能齊全,包含的語料豐富,是一個實用的工具,但搜索用時較長,有時會出現(xiàn)卡頓現(xiàn)象。若要進行精細查找,用戶首先需要學(xué)習(xí)并熟練使用正則表達式,這也是學(xué)習(xí)此工具中的一大難點。在翻譯實踐中,正確使用工具會起到事半功倍的效果。今后如果有媒體類文本的相關(guān)翻譯任務(wù),譯者可以使用該語料庫查找中文特定詞語在上下文語境下的意義,以便翻譯更準確。-END-
本文轉(zhuǎn)載自:翻譯學(xué)習(xí)共同體
作者:孫樂關(guān)注VX公眾號“翻譯技術(shù)教育與研究”、“語言服務(wù)行業(yè)”,了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~