Sketch Engine探索第二彈:自建云端語料庫
在上一期對(duì)于 Sketch Engine 的探索中,我們了解了詞匯素描板塊(Word Sketch)的各項(xiàng)具體功能。有興趣的小伙伴可以回顧一下 ??
第一彈入口:技術(shù)應(yīng)用丨Sketch Engine 探索第一彈來襲!
今天我們的探索主題將圍繞 Sketch Engine 平臺(tái)的自建語料庫功能展開,首先需要注意,這個(gè)功能只對(duì)個(gè)人訂閱用戶開放,通過學(xué)校訂購入口是看不到這個(gè)功能的。所以我們可以進(jìn)入個(gè)人注冊(cè)頁面用自己的郵箱建立一個(gè)賬號(hào)來免費(fèi)體驗(yàn)30天,在此之后,我們可以用更換郵箱來注冊(cè)的方式繼續(xù)使用,在此放上注冊(cè)鏈接:
https://auth.sketchengine.eu/#register/form?form=trial01個(gè)人賬戶注冊(cè)頁面(圖1)
在輸入基本信息后,平臺(tái)會(huì)向注冊(cè)郵箱發(fā)送一封含有賬戶密碼的郵件,如果沒收到的話請(qǐng)注意查看垃圾郵箱(圖2) ??
02添加語料庫
隨后我們便進(jìn)入到了熟悉的主界面,點(diǎn)擊 MANAGE CORPUS (圖3)進(jìn)入語料庫管理界面:
點(diǎn)擊 New corpus ?? (圖4)
接下來我們便可以開始創(chuàng)建自己的(單語 / 雙語)語料庫了,此處將以雙語語料庫作為演示(圖5):
03語料對(duì)齊功能選擇建立雙語語料庫后,我們可以看到平臺(tái)還有對(duì)齊語料的功能(圖6):
點(diǎn)進(jìn)去之后看到了官方的溫馨提示,似乎在告訴我們不要對(duì)結(jié)果抱有太大希望,隨后選定源語言和目標(biāo)語言,分別上傳未對(duì)齊的文本就可以開始讓它干活啦(圖7):
在這里我選擇了自己已經(jīng)對(duì)齊好的《三體II:黑暗森林》序章作為實(shí)驗(yàn)對(duì)象,中文約7k字,隨后將中法文本段落合并后分別存入兩個(gè)Word文件進(jìn)行上傳(圖8):
接著便可以看到平臺(tái)在努力對(duì)齊ing,文本量不大所以很快就完成了(圖9),來讓我們看看效果如何吧!
之后我們便可以返回主界面,可以看到在語料庫選擇界面已經(jīng)有了剛剛添加的兩個(gè)庫(圖10):
無論選擇中文還是法語,都可以在主界面進(jìn)行單語料庫的分析。在進(jìn)行中文語料庫檢索的時(shí)候需要注意,系統(tǒng)已經(jīng)對(duì)中文進(jìn)行自動(dòng)分詞,所以在此處搜索單獨(dú)的字可能是沒有結(jié)果的,例如搜索“蟻”顯示0結(jié)果,但是搜索“褐蟻”則有27個(gè)結(jié)果(圖11)。
而如果想要查看它的對(duì)齊情況則要直接進(jìn)入 Parallel Concordance 板塊進(jìn)行任意搜索即可(圖12):
可以看出,對(duì)齊情況并不理想,所以還是把預(yù)先對(duì)齊好的文本進(jìn)行上傳比較靠譜,我們重來一次,選擇 Aligned documents 進(jìn)行上傳,可以看到已對(duì)齊的文本支持的上傳格式有.tmx, .xliff 2.0+, .xIf 2.0+, .xls, .xlsx,其中比較熟悉的是 .tmx 和 表格格式,在此以表格做示范:
我們只需要保證源語和譯語句句對(duì)齊就可以直接上傳了(圖14):
隨后按照同樣步驟進(jìn)行檢索,此處以“他”為檢索詞的結(jié)果如下(圖15):
可以看見文本整齊地呈現(xiàn)了出來并且譯文對(duì)應(yīng)詞還通過高亮被突出。接下來便可以按照自己的研究方向?qū)φZ料庫進(jìn)行檢索分析啦。
通過上面的語料庫導(dǎo)入探索,我們可以總結(jié)一下關(guān)于 Sketch Engine這個(gè)平臺(tái)在儲(chǔ)存語料上面的優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
l云端語料庫,上傳后可以隨時(shí)隨地在登陸賬戶后進(jìn)行查詢,擺脫軟件以及操作平臺(tái)限制;
l自己上傳的語料庫也可以享受全平臺(tái)分析功能。
缺點(diǎn):
l平臺(tái)自動(dòng)對(duì)中文語料進(jìn)行分詞,但又無法自定義詞表,也無法對(duì)于分詞有誤的地方進(jìn)行修正,導(dǎo)致檢索受限。
l平臺(tái)的雙語文本對(duì)齊功能并不理想。
大家還有什么關(guān)于此平臺(tái)的相關(guān)經(jīng)驗(yàn)或者對(duì)于下一彈的內(nèi)容建議,可以在評(píng)論區(qū)交流~
特別說明:本文僅供學(xué)習(xí)交流,如有不妥歡迎后臺(tái)聯(lián)系小編。
- END -原文作者:周琳
推文編輯:周琳