精彩回顧|上海交大管新潮:Python與語料庫如何深度結(jié)合
10月23日晚,翻譯技術(shù)名師課堂專題講座“語料庫與術(shù)語庫技術(shù)工作坊”第二期如約而至。在大家熱切期盼中,上海交通大學(xué)管新潮老師接續(xù)主講本次講座。管老師由淺入深,從語料庫基本概念入手,通過豐富實例和專業(yè)分析,向大家展現(xiàn)了Python與語料庫如何深度結(jié)合,打造個性化工具來解決翻譯實踐和學(xué)術(shù)研究中的具體問題。
管新潮老師深諳Python與語料庫融合之道,此前曾出版《語料庫與Python應(yīng)用》《Python語言數(shù)據(jù)分析》《基于Python的語料庫翻譯》等三部著作,系統(tǒng)概述了Python在語料庫研究、翻譯實踐和數(shù)據(jù)分析等方面的實踐應(yīng)用,廣受讀者喜愛。
管新潮老師是上海交通大學(xué)外國語學(xué)院副教授,MTI導(dǎo)師。主持國家級項目3個,發(fā)表論文20多篇,出版專著5部、譯著10部,擁有專利2項、軟件著作權(quán)2項。長期從事德英漢翻譯實踐,至今已累計翻譯和審校德英漢字?jǐn)?shù)達(dá)3000萬(包括審校);主要翻譯領(lǐng)域涉及海洋工程與船舶制造(英語)、醫(yī)學(xué)(英語)、法律(德語+英語)、機電(德語)等;建有各類相關(guān)語料庫,如英漢醫(yī)學(xué)平行語料、英漢海洋工程平行語料庫、英漢法律平行語料庫等。
本期講座主要內(nèi)容包括:
1. 多語平行語料庫之構(gòu)建;
2. Python語言基礎(chǔ)性代碼;
3. Python語料庫文本處理;
4. Python語料數(shù)據(jù)可視化;
5. Python語料庫科研應(yīng)用;
一、多語平行語料庫之構(gòu)建
作為語言學(xué)研究和翻譯實踐等領(lǐng)域必不可少的工具,語料庫內(nèi)涵豐富、種類繁多。管老師從翻譯學(xué)和語言學(xué)角度分別闡釋語料庫概念,繼而引出WordSmith 、 AntConc 、 Python等研究工具。相比于專業(yè)工具,在平行語料庫建設(shè)過程中Python能實現(xiàn)同樣功能,而且過程透明,個性化程度更高。管老師還為大家推薦了自己研發(fā)的AntConc with Python, Version 1.0小工具。
獲取鏈接:
https://mp.weixin.qq.com/s/vlEr8-FSPOIijzWfpa5ZFQ
二、Python語言基礎(chǔ)性代碼
語言專業(yè)出身、編程技術(shù)小白如何掌握高深莫測的Python代碼?其實只需一套三層次學(xué)習(xí)體系!從基礎(chǔ)入手,活學(xué)活用,用簡單代碼解決復(fù)雜問題。無需死記硬背,借助Python豐富代碼庫,即可提取術(shù)語、分析語篇特征。
三、Python語料庫文本處理
語言數(shù)據(jù)的千變?nèi)f化使得語言數(shù)據(jù)清洗變得異常復(fù)雜,有別于大數(shù)據(jù)清洗,Python數(shù)據(jù)清洗更加細(xì)膩多樣,可實現(xiàn)數(shù)據(jù)個性化、工具個性化和解讀能力個性化。無論是詞性還原、情感分析,Python都能輕松handle。
四、Python語料數(shù)據(jù)可視化
本環(huán)節(jié),管老師通過具體案例,展示了如何使用Python代碼繪制基于詞頻和主題詞權(quán)重的詞云圖,實現(xiàn)句長分布可視化和網(wǎng)絡(luò)可視化。數(shù)據(jù)可視化后隱藏在海量文本后的規(guī)律頓時顯現(xiàn)。
五、Python語料庫科研應(yīng)用
在最后一部分,管老師就Python在科研領(lǐng)域應(yīng)用做了詳細(xì)分析。無論是話語分析、數(shù)字會話分析等語言學(xué)研究還是著作權(quán)法英譯風(fēng)格研究等翻譯學(xué)研究,Python無不涉及。
以上就是管新潮老師本期講座分享的精彩內(nèi)容,管老師在Python與學(xué)術(shù)研究、翻譯實踐結(jié)合等領(lǐng)域打開了一個新的世界。講座現(xiàn)場氣氛熱烈,學(xué)員受益匪淺。更多精彩,敬請持續(xù)關(guān)注“翻譯技術(shù)名師課堂”。
編輯:王琳