BiCorpus:一款開源語言資產(chǎn)管理平臺
本文轉(zhuǎn)自:簡言
背景
在《譯者編程入門指南》中我介紹了如何開發(fā)一個線上的翻譯記憶庫,但畢竟是編程入門學(xué)習(xí),所以這個翻譯記憶庫建成后僅可用于非?;镜姆g記憶上傳和查詢。
在疫情爆發(fā)后,很多小伙伴和我一起創(chuàng)建了BiCovid.org這個線上的疫情雙語數(shù)據(jù)分享平臺,具體如下:
BiCovid:新冠肺炎疫情雙語數(shù)據(jù)分享平臺
雖然現(xiàn)在我們已經(jīng)停止上傳數(shù)據(jù)了,但是平均每月都還有1000多人使用這個網(wǎng)站,月平均訪問量是2000次左右:
其實一直我都想讓每一位譯者或小型翻譯團(tuán)隊都能擁有這樣一個網(wǎng)站,用來管理手中的語言資產(chǎn)。但實在是太忙了,尤其是這一年一直都在忙冬奧術(shù)語平臺的事情,連寫代碼的時間都很少。
今天北京下雨了,我決定把這件事兒做了。
一、BiCorpus核心功能
BiCovid.org網(wǎng)站上有不少實驗性的功能,有些徒有其表,不適合放在普適性的BiCorpus版本中,所以BiCorpus的核心功能精簡后大致如下:
首頁
第一次安裝完開始使用時首頁確實如上圖這樣空空如也,因為我們并沒有上傳任何數(shù)據(jù),這個就要留給大家去體驗第一份數(shù)據(jù)上傳之后的喜悅。
登錄
點(diǎn)擊登錄頁面后可以通過輸入用戶名和密碼登錄。
默認(rèn)用戶名密碼是:admin / BiCorpus2021!
需要注意的是:為了方便第一次使用這個平臺的用戶操作,目前所有的密碼是以明文的形式保存的,所有的成員都是由管理員添加,且管理員可以看到所有人的密碼。
登錄后的頁面如下:
上傳數(shù)據(jù)
所有數(shù)據(jù)均需要通過tmx格式上傳,以確保所有數(shù)據(jù)是經(jīng)過對齊軟件處理的。
在后臺的“操作”菜單下選擇“上傳”:
在上傳頁面可以填寫翻譯記憶庫的領(lǐng)域、文件說明,通過點(diǎn)擊“選擇文件”來選擇你的翻譯記憶文件,在“選擇語言對”的下拉菜單中可以根據(jù)翻譯記憶文件的語言對來選擇對應(yīng)的語言對:
選擇語言對:
上傳示例:Demo.tmx
如上示例所示,這個文件的源語言是zh-CN,目標(biāo)語言是en-US,所以在上傳時可以選擇:中英
如果語言對選擇錯誤則會提示“語言對錯誤,請重試”:
所有上傳的文件均會在源代碼的upload文件夾中備份,防止數(shù)據(jù)源丟失。
如果語言對正確,則會看到每行數(shù)據(jù)的檢查結(jié)果:
可以據(jù)此查看是否有錯誤的未能成功上傳的數(shù)據(jù)。
審核數(shù)據(jù)
數(shù)據(jù)上傳后并不會立刻被公開檢索到,管理員需要點(diǎn)擊“操作”下的“審核”,前往審核頁面:
在審核頁面可以點(diǎn)擊“預(yù)覽”來預(yù)覽數(shù)據(jù):
在這個頁面中如何發(fā)現(xiàn)有數(shù)據(jù)錯誤,可以點(diǎn)擊“編輯”來修改具體的翻譯單元:
更新成功后會提示“翻譯單元更新成功”:
如果想刪除某個翻譯單元,可以點(diǎn)擊“刪除”,刪除成功后會有提示:
刪除文件
如果管理員預(yù)覽數(shù)據(jù)后發(fā)現(xiàn)數(shù)據(jù)不值得發(fā)布,可以點(diǎn)擊“刪除”,但此時這個文件并不會從數(shù)據(jù)庫中刪除,而是狀態(tài)修改為“待刪除”,管理員依然可以預(yù)覽其中的數(shù)據(jù)。
審核意見
如果管理員希望告知上傳用戶審核意見,可以點(diǎn)擊最后一欄進(jìn)入審核意見編輯狀態(tài):
發(fā)布后意見展示如下:
發(fā)布數(shù)據(jù)
點(diǎn)擊“發(fā)布”可以發(fā)布數(shù)據(jù):
發(fā)布成功后會顯示“已發(fā)布”:
但如果數(shù)據(jù)有問題,還可以點(diǎn)擊“撤回”:
撤回后數(shù)據(jù)重新進(jìn)入“未發(fā)布”狀態(tài)。
查詢數(shù)據(jù)
已發(fā)布的數(shù)據(jù)就可以在首頁公開查詢了:
下載數(shù)據(jù)
如果覺得某個數(shù)據(jù)非常有價值,想下載下來導(dǎo)入到計算機(jī)輔助翻譯工具中,可以點(diǎn)擊前面的“ID”,進(jìn)入翻譯記憶庫下載頁面:
點(diǎn)擊“下載”即可以將整個文件下載下來。
數(shù)據(jù)查錯
建議每位用戶在上傳數(shù)據(jù)前提前去“操作”下的“檢查TMX”頁面確認(rèn)數(shù)據(jù)文件沒有問題:
假設(shè)我們將測試文件中的一個譯文刪除,再上傳:
此時網(wǎng)站會提示具體哪一行數(shù)據(jù)出現(xiàn)了什么問題。
而且網(wǎng)站還會計算原文和譯文的長度比例,如果比例異常,還會提示狀態(tài)錯誤:
在頁面的最下方會對全部錯誤信息進(jìn)行整合:
數(shù)據(jù)查重
為了確保不上傳重復(fù)的數(shù)據(jù),請前往“操作”下的“查重”:
將文本粘貼進(jìn)去后會點(diǎn)擊“開始查重”:
如果有相似的句子會提示“查看相似”,點(diǎn)擊后查看相似內(nèi)容。
編輯數(shù)據(jù)
數(shù)據(jù)發(fā)布后也是可以繼續(xù)編輯的,點(diǎn)擊“操作”下的“編輯”,進(jìn)入編輯頁面:
在這個頁面中可以通過檢索定位到指定數(shù)據(jù),然后進(jìn)行編輯和刪除操作。
語言門戶
在BiCorpus的首頁可以查詢?nèi)空Z種的數(shù)據(jù),而在菜單欄中可以前往特定語言的語言門戶僅查詢特定語言對的數(shù)據(jù):
BiCorpus支持非常便捷的新增語言對操作,但是需要調(diào)整一部分的代碼,感興趣的用戶可以及時關(guān)注《譯者編程入門指南》讀者群中的討論。
加群請聯(lián)系《譯者編程入門指南》助教的微信:CodeSlator
管理團(tuán)隊
BiCorpus支持管理員添加團(tuán)隊成員,共同上傳數(shù)據(jù)。點(diǎn)擊頂部菜單欄的的“團(tuán)隊”:
在該頁面可以設(shè)置用戶的用戶名、姓名、單位、密碼和用戶類型。
添加團(tuán)隊成員時,用戶名使用英文、姓名使用真實姓名或昵稱、單位填寫成員所屬單位、密碼為大寫數(shù)字標(biāo)點(diǎn)符號構(gòu)成的復(fù)雜密碼、用戶類型填寫數(shù)字“2”。
設(shè)置完成后點(diǎn)擊“創(chuàng)建”:
用戶成功添加后便可以前往主頁登錄。
登錄后的頁面與管理員有一定區(qū)別,主要是:
團(tuán)隊成員可以前往“操作”下的“審核狀態(tài)”中查看自己上傳數(shù)據(jù)的審核狀態(tài)。其余操作與管理員基本一致。
成果展示
所有團(tuán)隊成員的成果在團(tuán)隊內(nèi)部是共享的,團(tuán)隊成員點(diǎn)擊“團(tuán)隊”后可以查看團(tuán)隊的全部成員列表:
點(diǎn)擊“查看”后可以查看該成員上傳的全部數(shù)據(jù):
公開權(quán)限
本次提供的源代碼默認(rèn)全部數(shù)據(jù)都是公開可查的,但是對于有些小型團(tuán)隊而言,他們僅希望在團(tuán)隊內(nèi)部共享數(shù)據(jù),此時需要做的是在源代碼中將index.php頁面的:
include "shared/config.php";
改為:
header("location: login.php");
如下圖:
修改完成后每當(dāng)非登錄用戶訪問網(wǎng)站主頁均會自動跳轉(zhuǎn)至登錄頁面,一旦登錄后便可以正常訪問網(wǎng)站主頁。
二、安裝BiCorpus
第一步:配置環(huán)境
如果您只想在個人電腦上安裝BiCorpus,僅用于在個人電腦上管理翻譯記憶庫,則需要下載XAMPP或MAMP Pro等環(huán)境工具。
建議Windows用戶安裝XAMPP,建議Mac用戶安裝MAMP Pro。
在我的B站中我也介紹如何安裝和啟用XAMPP:
https://www.bilibili.com/video/BV1M7411c7BT?p=8
第二步:下載BiCorpus
BiCorpus的源代碼已經(jīng)全部上傳至Github:
https://github.com/hanlintao/BiCorpus
點(diǎn)擊“Code”下的“Download ZIP”即可打包下載到本地:
第三步:安裝
請關(guān)注“簡言”后續(xù)發(fā)布的文章,我將詳細(xì)介紹如何安裝和配置BiCorpus,超級超級簡單。
如果你希望單獨(dú)購買域名和服務(wù)器或者將BiCorpus安裝自己的服務(wù)器上,也可以提前觀看以下視頻:
https://www.bilibili.com/video/BV1M7411c7BT?p=2
如果你想了解BiCorpus是如何開發(fā)出來的,可以先學(xué)習(xí)《譯者編程入門指南》,然后加入讀者群,與其他讀者一同討論相關(guān)問題。
關(guān)注微信公眾號“語言服務(wù)行業(yè)”,“翻譯技術(shù)教育與研究”,了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~