最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

譯技術(shù) | 媒體語言語料庫(MLC):傳媒語言的聚寶盆

2022-10-06 18:49 作者:翻譯技術(shù)點津  | 我要投稿


1. 工具簡介
中國傳媒大學(xué)有聲媒體文本語料庫是一個開放、免費使用的語料庫,由中國傳媒大學(xué)國家語言資源監(jiān)測與研究有聲媒體中心開發(fā)。該語料庫2003年開始建設(shè),2005年上線,其后不斷擴大語料規(guī)模,一直為研究者提供免費服務(wù)。本語料庫包括2008至2013六年的34,039個廣播、電視節(jié)目的轉(zhuǎn)寫文本,總字符數(shù)為241,316,530個,總漢字數(shù)為200,071,896字次。所有文本都進行了分詞和詞性標注,共計135,767,884詞次。為保證語料的典型性和代表性,每年都盡可能選擇那些流通度大、年度間又有一定連續(xù)性的節(jié)目文本;為便于研究者做6年間的歷時語言調(diào)查,各年度的語料規(guī)模盡可能平衡。
官網(wǎng):https://ling.cuc.edu.cn/RawPub/

2. 圖文教程

2.1 常規(guī)檢索
首先打開網(wǎng)址,首頁指向的是常規(guī)檢索頁。語料形式包括生語料與熟語料。檢索結(jié)果的屏幕顯示方式包括按字數(shù)、小句、句子和段落四種。檢索結(jié)果關(guān)鍵字居中,高亮顯示,兩邊的字數(shù)默認各是20,用戶可以根據(jù)自己需要更改,也可以選擇按小句或句子、段落的形式顯示,檢索結(jié)果保存的格式與此相同?!皺z索結(jié)果欄”將給出檢索范圍、語料規(guī)模以及檢索結(jié)果。


本語料庫所有語料都進行了元數(shù)據(jù)標注,既可以利用全部2億字語料進行檢索,也可以根據(jù)研究需要選定檢索范圍。用戶可以在首頁右上角導(dǎo)航中點擊“選擇檢索范圍”,在下拉菜單中選定相應(yīng)的屬性項。本語料庫可進行特定時間段(如2008年度、2010至2013年度)、特定媒體(廣播、電視)、特定單位(如中央電視臺、北京電視臺、中央人民廣播電臺)、特定語言形式(獨白、對話)、特定語體(獨白形式可分為播報、談話、解說、朗讀;對話形式可分為二人談、三人談、多人談)、特定領(lǐng)域(如新聞、經(jīng)濟、軍事)、特定欄目(如《新聞聯(lián)播》《魯豫有約》《新聞與報紙摘要》)、特定主持人(如白巖松、陳魯豫、崔永元)等范圍的關(guān)鍵字檢索。各屬性之間有級聯(lián)關(guān)系,既可以進行單獨屬性鎖定查詢,也可以進行屬性間組合查詢。如果所有的屬性都沒有選擇,那就意味著將在全部2億字次的語料中進行檢索查詢。




2.1.1 生語料檢索
即在生語料中進行關(guān)鍵詞或字符串的簡單檢索。檢索結(jié)果分頁顯示,每頁顯示40條。例如在檢索輸入框中輸入“語言”,選擇檢索范圍為“全部語料”,檢索結(jié)果如下圖所示:



點擊每行記錄后面的“查閱”,可瀏覽該記錄所在的文本以及其單位、欄目、題目和時間。


還可以對檢索結(jié)果進行以關(guān)鍵字為基準的左或右排序,也可以進行二次檢索。二次檢索和排序按鈕在檢索結(jié)果的下方。在二次檢索中,輸入“選舉”,檢索結(jié)果如下:


同樣可以點擊“查閱”來查看具體的語料。


檢索結(jié)果可以用文本保存下來,保存按鈕在檢索結(jié)果的下方:


選擇“保存出處”和“加序號”,會生成一個TXT文本保存在本地,便于進一步研究。




2.1.2 熟語料檢索
熟語料是經(jīng)過分詞和詞性標注后的語料,以詞為單位進行檢索,輸入檢索項時,詞與詞之間要加空格,帶詞性檢索時,詞性前面要加“/”。比如要檢索做名詞的“關(guān)系”,需要輸入“關(guān)系/n”。詞與詞性在輸入時可以二選一,也可以都輸入。比如輸入“關(guān)系 /n”表示檢索所有詞性的“關(guān)系”后加名詞的詞串,輸入“關(guān)系/v /n”,則表示檢索動詞“關(guān)系”后面加名詞詞串。以輸入“關(guān)系/v /n”為例,選擇檢索范圍為“中央”,檢索結(jié)果如下圖所示,同樣可以進行查閱和導(dǎo)出。




2.2 高級檢索
高級檢索也包含生語料和熟語料兩個模塊。

2.2.1 生語料檢索
生語料檢索中包括成對字串檢索、重疊檢索和正則表達式檢索,分別舉例說明如下:1)成對字串檢索


可以檢索“不但……而且”“雖然……但是”這樣成對出現(xiàn)的詞語。中間間隔的字數(shù)可以自由選擇。以“雖然……但是”為例,檢索結(jié)果如下:


同樣可以查其整個語料。


2)重疊形式檢索可以檢索的重疊形式包括AA型(看看、說說)、ABB型(一個個、一點點)、ABAB型(說著說著、特別特別)、AABB型(高高興興、快快樂樂)、帶特定字N的ANA型(“A了A”“A不A”)、N為所有字的ANA型等。


AA型檢索結(jié)果如下:


ABB型中的A需要指定,比如指定A為“一”,則可以檢索“一個個、一件件、一條條”等。檢索結(jié)果如下:


AABB型檢索結(jié)果如下:


ABAB型檢索結(jié)果如下:


在ANA型中可以指定N,也可以搜索所有ANA型。指定N為“一”,搜索結(jié)果如下:


以上搜索結(jié)果都可以進行查閱及導(dǎo)出。3)正則表達式搜索


正則表達式具有較強的檢索功能,可以進行復(fù)雜的匹配,可以參考本網(wǎng)站“幫助”菜單中的常用正則表達式。


通過正則表達式,我們可以實現(xiàn)較為復(fù)雜的檢索,以獲得我們所需要的結(jié)果,再如下面的正則表達式可以較為精確地檢索“兒化詞”:(?<=[^幼少嬰孤生養(yǎng)妻])兒(?=[^童媳女子])“?<=”和“?=”表示檢索條件,一個表示檢索內(nèi)容前的條件,一個表示檢索內(nèi)容后的條件,比如“?<=我”表示檢索內(nèi)容前面必須出現(xiàn)“我”,“(?=我)”則表示檢索內(nèi)容后面必須出現(xiàn)“我”;“[^]”中括號內(nèi)的“^”表示“非”,比如[^的地]表示不是“的”和“地”的其他字符。上面的正則表達式解釋為,檢索“兒”字,但是“兒”字前面不能出現(xiàn)字符“幼、少、嬰、孤、生、養(yǎng)、妻”,后面也不能出現(xiàn)字符“童、媳、女、子”。這樣就能獲得比較好的“兒化詞”檢索結(jié)果。



2.2.2 熟語料檢索

熟語料檢索中包括組合檢索、重疊檢索和正則表達式檢索,分別舉例說明如下:1)組合檢索


熟語料檢索中的組合檢索可以比較精確地檢索離合詞。以檢索“洗 澡”為例,在熟語料中的檢索結(jié)果如下:



2)重疊檢索


熟語料的重疊檢索主要是檢索分詞標注后的重疊形式,包括vv、vyv等。


以檢索vyv為例,檢索結(jié)果如下:


3)正則表達式檢索


熟語料正則表達式檢索,可以比生語料獲得更加理想的檢索結(jié)果,比如正則表達式“一/d[^,。?]+就/d”,表示在不越過“,。?”的情況下檢索“一”和“就”作為副詞時的搭配情況,通過該正則表達式,可以較為精確的檢索“一……就”這種表達式,而在生語料中因為沒有對詞性進行標記,也就不能檢索“一”和“就”作為副詞時的情形,所獲得的語料的質(zhì)量很差。以在句子范圍內(nèi)檢索為例,在熟語料中的檢索結(jié)果如下:


因此,建議對檢索結(jié)果要求比較高的朋友使用熟語料及正則表達式進行檢索。

3. 學(xué)習(xí)心得

通過這次學(xué)習(xí),我知道了媒體語言語料庫(MLC)這一工具及使用方法。該語料庫搜索功能齊全,包含的語料豐富,是一個實用的工具,但搜索用時較長,有時會出現(xiàn)卡頓現(xiàn)象。若要進行精細查找,用戶首先需要學(xué)習(xí)并熟練使用正則表達式,這也是學(xué)習(xí)此工具中的一大難點。在翻譯實踐中,正確使用工具會起到事半功倍的效果。今后如果有媒體類文本的相關(guān)翻譯任務(wù),譯者可以使用該語料庫查找中文特定詞語在上下文語境下的意義,以便翻譯更準確。

-END-

本文轉(zhuǎn)載自:翻譯學(xué)習(xí)共同體
作者:孫樂
關(guān)注VX公眾號“翻譯技術(shù)教育與研究”、“語言服務(wù)行業(yè)”,了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~

譯技術(shù) | 媒體語言語料庫(MLC):傳媒語言的聚寶盆的評論 (共 條)

分享到微博請遵守國家法律
白银市| 桐城市| 南陵县| 富平县| 定边县| 渭南市| 江安县| 南漳县| 华池县| 宁明县| 泸西县| 白河县| 徐闻县| 东源县| 柳江县| 梁平县| 新沂市| 吉木乃县| 隆安县| 鄂伦春自治旗| 林口县| 印江| 顺昌县| 绍兴县| 玉田县| 康马县| 应用必备| 独山县| 本溪市| 临武县| 昌邑市| 汝城县| 温宿县| 拉萨市| 邹平县| 晴隆县| 麻城市| 定日县| 新蔡县| 广丰县| 古丈县|