最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Sketch Engine探索第二彈:自建云端語料庫

2023-07-19 17:12 作者:翻譯技術(shù)點(diǎn)津  | 我要投稿


在上一期對(duì)于 Sketch Engine 的探索中,我們了解了詞匯素描板塊(Word Sketch)的各項(xiàng)具體功能。有興趣的小伙伴可以回顧一下 ??

第一彈入口:技術(shù)應(yīng)用丨Sketch Engine 探索第一彈來襲!

今天我們的探索主題將圍繞 Sketch Engine 平臺(tái)的自建語料庫功能展開,首先需要注意,這個(gè)功能只對(duì)個(gè)人訂閱用戶開放,通過學(xué)校訂購入口是看不到這個(gè)功能的。所以我們可以進(jìn)入個(gè)人注冊(cè)頁面用自己的郵箱建立一個(gè)賬號(hào)來免費(fèi)體驗(yàn)30天,在此之后,我們可以用更換郵箱來注冊(cè)的方式繼續(xù)使用,在此放上注冊(cè)鏈接:


https://auth.sketchengine.eu/#register/form?form=trial01個(gè)人賬戶注冊(cè)頁面(圖1)


1-個(gè)人賬戶注冊(cè)頁面

在輸入基本信息后,平臺(tái)會(huì)向注冊(cè)郵箱發(fā)送一封含有賬戶密碼的郵件,如果沒收到的話請(qǐng)注意查看垃圾郵箱(圖2) ??


2-注冊(cè)成功郵件

02添加語料庫


隨后我們便進(jìn)入到了熟悉的主界面,點(diǎn)擊 MANAGE CORPUS (圖3)進(jìn)入語料庫管理界面:


3-語料庫管理

點(diǎn)擊 New corpus ?? (圖4)


4-創(chuàng)建新語料庫

接下來我們便可以開始創(chuàng)建自己的(單語 / 雙語)語料庫了,此處將以雙語語料庫作為演示(圖5):


5-設(shè)置語料庫基本參數(shù)

03語料對(duì)齊功能選擇建立雙語語料庫后,我們可以看到平臺(tái)還有對(duì)齊語料的功能(圖6):


6-語料對(duì)齊選項(xiàng)

點(diǎn)進(jìn)去之后看到了官方的溫馨提示,似乎在告訴我們不要對(duì)結(jié)果抱有太大希望,隨后選定源語言和目標(biāo)語言,分別上傳未對(duì)齊的文本就可以開始讓它干活啦(圖7):


7-雙語語料上傳界面

在這里我選擇了自己已經(jīng)對(duì)齊好的《三體II:黑暗森林》序章作為實(shí)驗(yàn)對(duì)象,中文約7k字,隨后將中法文本段落合并后分別存入兩個(gè)Word文件進(jìn)行上傳(圖8):


8-實(shí)驗(yàn)文本投喂

接著便可以看到平臺(tái)在努力對(duì)齊ing,文本量不大所以很快就完成了(圖9),來讓我們看看效果如何吧!


9-文本對(duì)齊完畢

之后我們便可以返回主界面,可以看到在語料庫選擇界面已經(jīng)有了剛剛添加的兩個(gè)庫(圖10):


10-建庫成功

無論選擇中文還是法語,都可以在主界面進(jìn)行單語料庫的分析。在進(jìn)行中文語料庫檢索的時(shí)候需要注意,系統(tǒng)已經(jīng)對(duì)中文進(jìn)行自動(dòng)分詞,所以在此處搜索單獨(dú)的字可能是沒有結(jié)果的,例如搜索“蟻”顯示0結(jié)果,但是搜索“褐蟻”則有27個(gè)結(jié)果(圖11)。



11-針對(duì)“蟻”和“褐蟻”的搜索結(jié)果

而如果想要查看它的對(duì)齊情況則要直接進(jìn)入 Parallel Concordance 板塊進(jìn)行任意搜索即可(圖12):


12-對(duì)齊情況

可以看出,對(duì)齊情況并不理想,所以還是把預(yù)先對(duì)齊好的文本進(jìn)行上傳比較靠譜,我們重來一次,選擇 Aligned documents 進(jìn)行上傳,可以看到已對(duì)齊的文本支持的上傳格式有.tmx, .xliff 2.0+, .xIf 2.0+, .xls, .xlsx,其中比較熟悉的是 .tmx 和 表格格式,在此以表格做示范:


13-上傳界面

我們只需要保證源語和譯語句句對(duì)齊就可以直接上傳了(圖14):


14-雙語語語料庫(已對(duì)齊)上傳過程

隨后按照同樣步驟進(jìn)行檢索,此處以“他”為檢索詞的結(jié)果如下(圖15):


15-語對(duì)齊文本呈現(xiàn)

可以看見文本整齊地呈現(xiàn)了出來并且譯文對(duì)應(yīng)詞還通過高亮被突出。接下來便可以按照自己的研究方向?qū)φZ料庫進(jìn)行檢索分析啦。

通過上面的語料庫導(dǎo)入探索,我們可以總結(jié)一下關(guān)于 Sketch Engine這個(gè)平臺(tái)在儲(chǔ)存語料上面的優(yōu)缺點(diǎn):




優(yōu)點(diǎn):

l云端語料庫,上傳后可以隨時(shí)隨地在登陸賬戶后進(jìn)行查詢,擺脫軟件以及操作平臺(tái)限制;

l自己上傳的語料庫也可以享受全平臺(tái)分析功能。

缺點(diǎn):

l平臺(tái)自動(dòng)對(duì)中文語料進(jìn)行分詞,但又無法自定義詞表,也無法對(duì)于分詞有誤的地方進(jìn)行修正,導(dǎo)致檢索受限。

l平臺(tái)的雙語文本對(duì)齊功能并不理想。


大家還有什么關(guān)于此平臺(tái)的相關(guān)經(jīng)驗(yàn)或者對(duì)于下一彈的內(nèi)容建議,可以在評(píng)論區(qū)交流~

特別說明:本文僅供學(xué)習(xí)交流,如有不妥歡迎后臺(tái)聯(lián)系小編。

- END -原文作者:周琳


推文編輯:周琳

Sketch Engine探索第二彈:自建云端語料庫的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
彭州市| 河北区| 荣昌县| 年辖:市辖区| 武隆县| 安仁县| 兴安盟| 麻城市| 吉林市| 永春县| 同德县| 建平县| 永修县| 德钦县| 沾益县| 陇川县| 普陀区| 浏阳市| 类乌齐县| 开阳县| 原阳县| 临夏县| 衡水市| 呼图壁县| 盱眙县| 蓬安县| 无为县| 丰城市| 昔阳县| 三穗县| 遂川县| 西乌珠穆沁旗| 澄城县| 青州市| 萨迦县| 萨嘎县| 扎赉特旗| 饶平县| 白银市| 永昌县| 伊宁县|