劉世界:ChatGPT輔助的語料數(shù)據(jù)處理與實(shí)踐應(yīng)用
月活過億ChatGPT,到底強(qiáng)在哪里?術(shù)語庫建設(shè)、語料整理、數(shù)據(jù)分析......ChatGPT為何成為翻譯行業(yè)新寵兒?面對AI時(shí)代的到來,身在局中的我們該如何立足?譯者如何利用ChatGPT出一手好牌?語言學(xué)習(xí)者如何使用AI技術(shù),走上學(xué)術(shù)研究前沿?
5月31日,“ChatGPT時(shí)代語料庫與術(shù)語庫建設(shè)與應(yīng)用工作坊”第一講開講啦!本次課程邀請到了上海海事大學(xué)劉世界博士為我們分享ChatGPT輔助的語料數(shù)據(jù)處理與實(shí)踐應(yīng)用。接下來跟隨小編一起回顧一下本節(jié)課的精彩內(nèi)容吧!
本講的主要內(nèi)容包括:
1. ChatGPT技術(shù)概況與翻譯研究
2. ChatGPT輔助下的語料數(shù)據(jù)加工處理流程
3. 國內(nèi)外主流語料檢索工具實(shí)操與技巧分享
4. ChatGPT輔助下的語料庫建設(shè)與文本挖掘
嚴(yán)重聲明:
在運(yùn)用自動(dòng)化采集算法或工具進(jìn)行數(shù)據(jù)采集時(shí),請大家嚴(yán)格遵守《中華人民共和國計(jì)算機(jī)信息系統(tǒng)安全保護(hù)條例》(1994)、《中華人民共和國網(wǎng)絡(luò)安全法》(2016)、《中華人民共和國數(shù)據(jù)安全法》(2021)等有關(guān)網(wǎng)絡(luò)數(shù)據(jù)采集行為、路徑的法律法規(guī),同時(shí)嚴(yán)格遵守科學(xué)研究倫理。
一、ChatGPT技術(shù)概況與翻譯研究
首先世界博士介紹了ChatGPT的技術(shù)概況、核心能力、在教育中的應(yīng)用潛能、在翻譯研究中的應(yīng)用等知識。世界博士通過實(shí)際案例分析了ChatGPT目前在翻譯研究過程中可以發(fā)揮哪些作用?事實(shí)證明ChatGPT在輔助翻譯質(zhì)量評估、輔助編程及代碼解析、輔助語料庫及術(shù)語庫建設(shè)、輔助文獻(xiàn)閱讀、論文寫作、規(guī)范調(diào)整及投稿、輔助語料批量處理與文本挖掘、輔助整理翻譯實(shí)證研究數(shù)據(jù)等方面可以發(fā)揮卓越的作用,極大提高了翻譯研究效率。
二、ChatGPT輔助下的語料數(shù)據(jù)加工處理流程
第二部分,世界博士按照語料采集、加工、檢索應(yīng)用的順序?yàn)榇蠹医榻B了語料數(shù)據(jù)加工處理流程。首先語料采集部分分為自動(dòng)化采集和人工采集,世界博士為大家分享了許多親測好用自動(dòng)化語料采集器,例如:八爪魚采集器、火車頭采集器、后裔采集器,TextForever等。人工采集語料也可以通過一些工具來協(xié)助我們做到批量文本處理與轉(zhuǎn)換,例如文本處理可以使用ABBY FineReader、天若文字識別等OCR軟件;格式轉(zhuǎn)換可以使用Convertio、iLovePDF等做到不同格式間無痛切換。接下來,世界博士從語料清洗,語料對齊,格式轉(zhuǎn)換,分詞賦碼四個(gè)方面介紹了語料加工流程,大家一定還要抽空自己探索喲~
三、國內(nèi)外主流語料檢索工具實(shí)操與技巧分享
世界博士為大家演示了幾款國內(nèi)外主流語料檢索工具的操作步驟與技巧,例如在Lancsbox中如何進(jìn)行智慧檢索、多語料庫對比以及什么是95%confidence limit;AntConc中,根據(jù)likelihood和effect統(tǒng)計(jì)出來的搭配詞有何區(qū)別?在AntConc中,生成Keyword list時(shí)keyness如何解讀?這些問題世界博士都一一為我們做出了詳細(xì)的解答;接下來,世界博士還演示了wordSmith Tools的操作方法,相信看完這些詳細(xì)的演示再進(jìn)行復(fù)盤之后,大家一定能輕松上手這幾款主流語料檢索工具。
四、ChatGPT輔助下的語料庫建設(shè)與文本挖掘
這一部分,世界博士主要著墨于如何在ChatGPT輔助下的語料庫建設(shè)與文本挖掘,世界博士提到,我們可以借助ChatGPT生成合適的代碼(適合代碼小白)、實(shí)現(xiàn)對語料庫文本的深度挖掘等。接下來世界學(xué)長使用python和R以垂直領(lǐng)域文本進(jìn)行了案例演示,演示功能包括中文文本分詞、詞性賦碼、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、情感分析等。