最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

實踐答疑|翻譯語料庫建設(shè)項目前期需要準(zhǔn)備什么?

2022-08-12 21:51 作者:翻譯技術(shù)點津  | 我要投稿

本文轉(zhuǎn)載自:翻譯技術(shù)沙龍

轉(zhuǎn)載僅供參考,如有侵權(quán)請聯(lián)系刪除。


近年來,翻譯語料庫方面的項目建設(shè)在各高校翻譯專業(yè)得到越來越多的重視,相關(guān)項目陸續(xù)獲批開工,而相應(yīng)的專業(yè)研討會和培訓(xùn)也如雨后春筍般在全國各地開展。不少學(xué)校因而躍躍欲試,想開展這方面的工作。
然而,語料庫建設(shè)并非易事,只有一腔熱情是遠遠不夠的。在項目的前、中、后期會涉及到許多專業(yè)知識、資源、工具、方法,當(dāng)然也包括專家的經(jīng)驗。項目參與人員需要進行系統(tǒng)學(xué)習(xí)和整體規(guī)劃。
本文從以往成功項目經(jīng)驗出發(fā),簡要介紹語料庫建設(shè)前期需要做的考慮和準(zhǔn)備工作,為開展此類項目的申請者和決策者提供參考。




一、項目建設(shè)背景和需求分析
一切項目,源于客觀的需求,成于實現(xiàn)的價值。一個成功的語料庫建設(shè)項目亦是如此。申請者和決策者需要深入思考和明確語料庫建設(shè)的背景和現(xiàn)實發(fā)展的需要。
語料庫建設(shè)項目,通常需要考慮:1. 學(xué)科建設(shè)和發(fā)展的需要。學(xué)校/學(xué)院要提升本專業(yè)的水平,要申辦BTI或MTI,要服務(wù)國家、地方、行業(yè)、跨專業(yè)合作等,這些都要明確下來。
2. 專業(yè)科研的需要。學(xué)校/學(xué)院師生需要依托建成的語料庫來開展相應(yīng)的研究,這個需求要細化分析。不同科研的需求會影響語料庫建設(shè)中所采取的實施細節(jié),例如語料類型、數(shù)量和質(zhì)量、標(biāo)注體系等等。
3. 專業(yè)教學(xué)的需求。建成的語料庫如何用于專業(yè)教學(xué),使用場景和方法,也會影響語料庫建設(shè)的方案。這些都需要提前跟專業(yè)師生溝通清楚,形成詳細的需求報告。




二、項目建設(shè)的目標(biāo)
項目講究“以終為始。一個清晰明確的目標(biāo)對于項目的規(guī)劃和實施具有重要的引領(lǐng)作用。
語料庫建設(shè)的主要目標(biāo)要素包括:1. 語言種類。要建設(shè)單語語料庫、雙語平行語料庫、多語言語料庫、類比語料庫等等;雙語平行語料庫,是否需要支持語言互換,如此種種,都要明確下來。
2. 語料的規(guī)模。很多人對語料規(guī)模暫時還沒有清晰的概念,盡管大家都說“幾十萬”“上百萬”或“數(shù)百萬”,有的是指的字數(shù)/字符數(shù),有的是指的句對數(shù),這就要相差幾十倍了。建多大規(guī)模合適,跟上面的背景和需求緊密相關(guān)。
3. 后續(xù)的語料增長機制。語料庫的建設(shè),很難是一勞永逸的。往往是初期先建好框架和部分數(shù)據(jù),后續(xù)采取長效機制不斷補充語料。這也是在項目規(guī)劃階段需要考慮清楚的。



三、語料的來源和收集
語料從哪里來?這是建設(shè)翻譯語料庫必須要考慮清楚的。
通常有這么幾種來源:1. 自有語料資源。本學(xué)院師生完成的翻譯實踐項目。
2. 外部公開資源。網(wǎng)絡(luò)上公開的、沒有版權(quán)爭議的或者允許以學(xué)習(xí)研究為目的而收集的語料資源。
3. 專門購買資源。從一些機構(gòu)購買或有償使用相應(yīng)的語料。




四、語料加工處理
并不是把語料收集或購買來,就完事大吉了。原始語料只是原材料,在建設(shè)語料庫的過程中,還需要根據(jù)上述需求和目標(biāo),進行專業(yè)化的加工和處理。
這些步驟包括:1. 語料對齊工具和技術(shù)支持。把收集來的語料,按照段落、句子等不同結(jié)構(gòu),對齊成雙語平行語料。當(dāng)語料的規(guī)模比較大時,單靠人工就不行了,需要專業(yè)工具進行自動化和半自動化地處理。
2. 語料對齊與質(zhì)量檢查。對齊之后,還需要對語料對齊質(zhì)量進行檢查和評估,達到一定的正確率之后,才可進入下一道工序。
3. 語料標(biāo)注體系。語料的標(biāo)注,是語料庫建設(shè)中的重中之重。標(biāo)注體系是否專業(yè)合理,是否滿足未來的使用需求。
4. 語料標(biāo)注過程和質(zhì)量控制。標(biāo)注方法是否精確高效,會影響到語料庫的建設(shè)質(zhì)量。



五、語料庫建設(shè)和使用
把語料對齊、形成雙語的 txt或tmx文件,只是完成了語料庫的初步工作。要發(fā)揮語料庫的價值,就要建設(shè)相應(yīng)的語料庫檢索、展示、數(shù)據(jù)管理等平臺。
這方面涉及的工作很多。簡單而言,至少包括:1. 語料庫檢索和展示。用戶如何檢索、查詢、展示和使用語料庫,需要跟用戶做詳細的需求調(diào)研,開發(fā)適用的查詢頁面和交互功能。
2. 語料庫數(shù)據(jù)與后臺管理。語料庫也是數(shù)據(jù)庫,如何進行數(shù)據(jù)庫設(shè)計、數(shù)據(jù)安全管理、人員角色和權(quán)限管理等等,需要專業(yè)處理。




六、小結(jié)
翻譯語料庫的建設(shè)是一項比較復(fù)雜的工程,需要匯聚各方面的專家、資源、工具、技術(shù)、方法和經(jīng)驗。在前期準(zhǔn)備階段對項目整體進行細致全面的規(guī)劃和決策,有助于項目建設(shè)過程順利進行并取得預(yù)期效果。


關(guān)注VX公眾號“翻譯技術(shù)教育與研究”、“語言服務(wù)行業(yè)”,了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~


實踐答疑|翻譯語料庫建設(shè)項目前期需要準(zhǔn)備什么?的評論 (共 條)

分享到微博請遵守國家法律
镇巴县| 永平县| 徐闻县| 灌阳县| 太谷县| 潼关县| 木里| 枣阳市| 遵化市| 齐齐哈尔市| 桓台县| 历史| 简阳市| 永寿县| 兴义市| 苏尼特左旗| 海口市| 秦安县| 衡南县| 长岭县| 罗平县| 钟山县| 邢台县| 东至县| 望奎县| 丰都县| 桂平市| 纳雍县| 柏乡县| 枣强县| 洪江市| 玛曲县| 图木舒克市| 鄯善县| 新干县| 景泰县| 尼木县| 虎林市| 区。| 黔西县| 偏关县|