ApacheCN 校對活動參與手冊
目的
本文檔旨在為一般貢獻者提供社區(qū)校對活動的參與指南。
本手冊充分研究了神經(jīng)翻譯引擎的特點,結(jié)合了社區(qū)成員的先進經(jīng)驗,使單人可在一周內(nèi)校對完五本書,而無需逐字閱讀。
版本信息
版本日期編輯人v1.02022.5.8飛龍
譯后編輯簡介
ApacheCN 是立足于自動化的社區(qū),采用了【神經(jīng)機器翻譯】引擎來做中文文檔和教程的本地化。
https://docs.apachecn.org/
如你所見,這種方法效率出類拔萃的高,已完成了我們的 70% 的工作量。得益于這種方法,大量技術教程得到翻譯,一些技術在中文技術全有了扎根的土壤。
翻譯引擎不會改動原文的邏輯,并且在語句通順程度上可做到 90%。也就是說,一個具有正常讀寫能力但不懂編程技術的人,在不理解部分專業(yè)術語的情況下,可以通讀翻譯的文章。
然而,翻譯引擎由于訓練語料的雜亂,領域不單一,對于專業(yè)術語往往把握不準,需要譯者來把關。由于翻譯引擎是個黑盒,無法在翻譯過程中提供定制,業(yè)界普遍采用【譯后編輯】:https://cn.bing.com/search?q=譯后編輯策略。
這種策略被李笑來老師高度贊揚,見《當翻譯變成了文本編輯》:https://blog.csdn.net/wizardforcel/article/details/122871585,他指出在全職狀態(tài)下,一個熟練的譯者一天就能完成一本書。
翻譯引擎的錯誤是結(jié)構(gòu)性的。換句話說,可以通過編輯器的搜索來將其全部發(fā)現(xiàn)。一部分甚至可以批量替換來改掉。
在我們的校對活動中,如果你沒有時間通讀全文,這樣也是可以接受的。因為,你不是一個人在戰(zhàn)斗,前一個人的疏漏總有后一個人來將其改掉。
校對活動工作流程
在校對活動中,貢獻者需要校對三個方面:(1)格式(2)專業(yè)術語(3)部分語法。
在每個步驟,經(jīng)過我們的多次試驗,最快方式是通過使用正則表達式來找出譯文中的錯誤。然后把它改正,就是這么簡單。
下面列出了所有用到的正則表達式:
格式
鏈接:
(?<!!)\[[^\]]*\]
表格:
^\|
中文間空格:
中文間空格一般是翻譯引擎出錯的地方。
[\u4e00-\u9fff]\s+[\u4e00-\u9fff]
未翻譯段落:
^[a-zA-Z0-9][^\u4e00-\u9fff]+$
^\s*([\+\-\*]\x20{3}|\d+\.\x20{2})[^\u4e00-\u9fff]+$
內(nèi)聯(lián)代碼:
在 Markdown 中,內(nèi)聯(lián)代碼需要用反引號括起來,但一些教程并沒有這樣做。于是,需要檢查中英文邊界,將沒有用反引號括起來的內(nèi)聯(lián)代碼改掉。
[\u2018-\u201d\u3001-\u301c\u4e00-\u9fff\uff01-\uff65]\x20*[A-Za-z0-9]|[A-Za-z0-9]\x20*[\u2018-\u201d\u3001-\u301c\u4e00-\u9fff\uff01-\uff65]
粗體/斜體:
\*\*[^\*]+\*\*|(?<!\*)\*[^\*]+\*(?!\*)
術語
請見我們收集的術語列表。校對過程中可能還有需要補充的新項目,歡迎補充。
https://github.com/apachecn/home/blob/master/docs/translate/trans-table.md
部分語法
標題:
^#+\x20
列表(二十字以內(nèi)):
短的列表由于沒有上下文非常容易出錯。
^\s*([\+\-\*]\x20{3}|\d+\.\x20{2}).{1,20}$