最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

雷蕾:語言數字人文:“小帳篷”理論框架

2023-07-26 23:23 作者:翻譯技術點津  | 我要投稿

語言數字人文:“小帳篷”理論框架

雷蕾

上海外國語大學語料庫研究院

摘要

語言數字人文是采用數字技術和方法以提出或解決語言學及其相關問題為目標的新興研究領域。如果數字人文是一頂“大帳篷”,則語言數字人文是數字人文這頂“大帳篷”下的“小帳篷”。語言數字人文具有天然的跨學科屬性,在這頂“小帳篷”下,語言學、文學、翻譯、計算機科學、信息科學、社會學、心理學、新聞傳播等學科的智慧和方法交叉碰撞、產生新知。然而,由于其理論體系尚未建立,語言數字人文尚未成為一門獨立的學科。因此,本文從理論探索、應用研究、基礎建設等方面嘗試構建語言數字人文理論框架。我們認為,在當前語言數字人文發(fā)展的初期,我們需要擱置學科還是方法的爭議,尊重語言數字人文的實踐屬性,以應用研究和基礎建設成果推動語言數字人文研究的發(fā)展,助力新文科建設。

關鍵詞

語言數字人文;“小帳篷”;理論框架;新文科

文獻來源:雷蕾.語言數字人文:“小帳篷”理論框架[J].外語與外語教學,2023,(3):63-73.


01、引言

數字人文指的是將計算機和數字技術運用于傳統(tǒng)人文學科研究與教學的新興交叉研究領域(Hockey, 2004; Terrasetal, 2013)。數字人文作為學界的“下一件大事”(Kirschenbaum, 2014),似已成為跨學科研究的熱門話題。我國近年來更加重視跨學科發(fā)展,在倡導文科與理、工、農、醫(yī)等學科融合的同時,要求發(fā)展新興文科專業(yè)(教育部2020)。鑒于數字人文學科的快速發(fā)展及其對新文科建設的重要意義,教育部于2023年4月公布最新版《普通高等學校本科專業(yè)目錄》,在中國語言文學門類下增列了“數字人文”專業(yè)。從研究實踐層面來看,語言學等學科研究者積極參與數字人文研究,并在其中扮演了越來越重要的角色(Luhmann&Burghardt, 2021; Mehl, 2021)。然而,學界尚未見語言學與數字人文的關系、語言學研究者如何參與數字人文研究等相關系統(tǒng)討論。鑒于此,本文提出了語言數字人文“小帳篷”理論框架,分理論探索、應用研究、基礎建設三個部分闡述語言數字人文的內涵,并討論語言學研究者參與數字人文研究的路徑,以促進語言數字人文和新文科發(fā)展。


02、數字人文發(fā)展源流

2.1 早期的數字人文研究

數字人文起初被稱作“人文計算”,其起源既來自實際工作需求,也來自研究需要。在實際工作中,當記錄海量信息時,我們并不是費時費力將信息記錄在一張張小卡片上,而是借助計算機技術高效完成任務。比如20世紀50年代意大利人羅伯托·布薩在工程師的幫助下將一千余萬詞的拉丁語神學著作做索引標注(Hockey, 2004),此項標注工作也被普遍看作是數字人文的發(fā)端(Dalbello, 2011; Sula&Hill, 2019; Terrasetal, 2013; Wangetal, 2020)。研究需求方面,20世紀60、70年代,研究者們接受了具有跨學科屬性的實證社會科學,這也標志著注重思辨的傳統(tǒng)人文研究與注重實證的硬科學開始結合(Thaller, 2012)。

20世紀后半葉則見證了數字人文研究的飛速發(fā)展,很多論文或專著都梳理和記錄了數字人文的歷時演進脈絡(Dalbello, 2011; Hockey, 2004; LeDeuff, 2018)。自20世紀60年代始,研究者已不滿足于類似羅伯托·布薩所做的基礎文本檢索工作,而開始了基于文本特征的更深入探索。如Mosteller和Wallace(1964)運用同義詞對(如big與large)、虛詞等文本特征進行《聯(lián)邦黨人文集》的作者身份識別研究。如果說研究者早期的探索還只是星星之火,數字人文領域兩本期刊的創(chuàng)刊則標志著“人文”研究離不開數字“計算”已成為業(yè)界共識,“人文計算”或數字人文研究的燎原之勢漸成。這兩本期刊是:(1)《計算機與人文》(Computers and the Humanities),該刊創(chuàng)刊于1966年,是數字人文領域的第一本專業(yè)期刊,2005年更為現(xiàn)名《語言資源和評估》(Language Resources and Evaluation),開始轉向語言資源相關研究;(2)《文學與語言計算》(Literary and Linguistic Computing),創(chuàng)刊于1986年,2015年更名為《數字人文學刊》(Digital Scholarship in the Humanities),是專注數字人文研究歷史最悠久的期刊。隨著20世紀80年代個人電腦乃至90年代互聯(lián)網網絡逐漸普及,大規(guī)模文本及多模態(tài)數據庫基礎建設逐步趨于豐富,各類本地和在線研究工具的誕生也進一步促進了計算機/數字技術與傳統(tǒng)人文學科研究的融合,數字人文的春天已然到來。

2.2 20世紀的數字人文

Presner(2010)在《數字人文宣言2.0》中將20世紀90年代末至21世紀初的數字人文發(fā)展概括為兩個階段。第一階段,從20世紀90年代末至21世紀初,是數字人文1.0階段,該階段大規(guī)模實體材料/文獻的數字化或技術基礎建設工作開始涌現(xiàn),但研究內容依然聚焦或局限于已有學科內部的文本分析。第二階段,2005年以后,數字人文開始進入2.0階段,研究者開始突破傳統(tǒng)學科界限,“生產、管理和交互‘天生數字化’的知識”。Berry(2012)對Presner(2010)的階段劃分做了進一步解釋:在第一階段,數字技術的運用還處于輔助既有人文學科研究的位置,即數字技術還處于服務既有人文學科研究問題的從屬地位;而到了第二階段,數字人文研究進入了一個全新階段,開始其真正的智力努力,有了其專業(yè)實踐和理論探索(Hayles, 2012)。在第二階段,計算技術已完全融入了人文研究,或者說已是人文研究重要甚至不可或缺的組成部分,計算技術為提出和解決人文學科新問題提供了可能(Berry, 2012)。Berry甚至認為,數字人文背景下的人文研究正在經歷“計算轉向”(Berry, 2011a,2011b)。

國內的數字人文研究也方興未艾。王賀(2020:33)將2019年稱作國內“數字人文元年”,首份專業(yè)期刊《數字人文》創(chuàng)刊,學術會議交流等活動在全國各地舉行,“可以毫不夸張地說,無論從哪個方面來看,數字人文都成功地吸引了不少年輕學子和成熟學者的目光,呈現(xiàn)出爆炸式、井噴式的發(fā)展狀態(tài)”。當然,國內外的數字人文研究雖快速增長,但仍“處于迷茫期”(王賀 2020:2),主要表現(xiàn)在理論基礎薄弱,且無獨特的研究方法和范式(張品慧等 2021:2)。

從上述對數字人文發(fā)展歷史的簡要梳理中,我們可以清晰地看到數字人文發(fā)展的主線。數字人文是文科學者不滿足于傳統(tǒng)研究方法的局限,突破人文學科界限藩籬,主動求變的必然結果。他們積極擁抱數字技術,采用數字技術更高效地解決傳統(tǒng)方法低效或不能解決的問題,甚至突破傳統(tǒng)人文學科界限的桎梏,透過數字技術來發(fā)現(xiàn)新問題、生產新知識。因此,數字人文的發(fā)展史就是理工學科與人文學科“兩種文化”的融合史,是人文學者采用科學嚴謹方法來取代傳統(tǒng)的以偶然方式處理人文問題的發(fā)展史(Hockey 2004:3)。

2.3數字人文“大帳篷”

當然,在數字人文看似繁榮發(fā)展的背后,學界一直存在其學科定位的爭議。Schreibman等(2004)在其主編的《數字人文研究指南》開篇引論中直截了當地指出數字人文是一門學科。但由于數字人文的跨學科屬性,其研究內容、研究問題、研究方法龐雜,又暫缺少學科核心理論支撐,故很難對數字人文的學科邊界如其內涵和外延做出清晰的可操作性界定(Svensson 2010)。因此,有學者以更加開放和包容的姿態(tài),將數字人文比喻成一頂馬戲團的“大帳篷”,凡采用數字技術并與人文學科相關的研究都是數字人文這頂大帳篷下的成員(Svensson 2016; Weingart&Eichmann-Kalwara 2017)。


03、語言數字人文“小帳篷”

Terras(2013:269)反對將數字人文比喻成“大帳篷”,認為該比喻使得數字人文的邊界更加模糊,而不利于數字人文的發(fā)展;同時,她告誡青年學者,數字人文并不是讓研究者做術無專攻的萬金油,而是要磨煉技術與方法,深耕自己的專業(yè)領域。Terras(2013)的提醒非常及時,也促使包括本文作者在內的語言學研究者思考:(1)語言學研究者是否需要積極參與數字人文研究?(2)如果是,語言學研究者將如何參與數字人文研究?上述第一個問題的答案似乎不言而喻:語言學研究者需要積極參與數字人文研究。跨學科特征明顯的數字人文研究,吸引了包括計算機科學、信息科學和幾乎所有人文相關學科在內的學者參與,其中自然也包括語言學研究者。更重要的是,語言學研究者,特別是計算語言學、語料庫語言學研究者,似乎與數字人文研究有種天然的親近感。從方法論來看,計算/語料庫語言學研究和數字人文研究都基于問題和數據驅動,而很多數字人文學者也已然將計算語言學和語料庫語言學研究作為數字人文研究的有機組成部分(Mehl2021)。Mehl (2021)的論斷也得到了實證數據的支持。Luhmann和Burghardt(2021)基于數字人文專業(yè)期刊1990-2010年間發(fā)表的兩千余篇論文,考察了數字人文的研究主題,發(fā)現(xiàn)排名前十的主題,除了數字人文自身主題和學術合作主題以外,其他主題均與文本數據相關(如文本與語料庫、詞典、作者身份與風格計量、文本編輯主題等)。也就是說,數字人文研究與文本數據及其處理分析密不可分,而語言學研究者特別是計算語言學和語料庫語言學研究者理應積極參與,為數字人文研究貢獻自己的智慧和力量。關于上述第二個問題,Terras(2013)似乎已經為我們準備好了答案:語言學研究者需要掌握數字技術與方法,更需深耕我們自己的專業(yè)領域,即語言學及語言學相關學科。在數字人文研究的大背景下,我們姑且將語言學研究者參與的數字人文研究稱之為語言數字人文研究。如果我們能對語言數字人文做出界定的話,則可以比較清晰地勾勒出語言數字人文研究者如何參與數字人文研究,從而更好地回答第二個問題。如果數字人文是一頂“大帳篷”,則語言數字人文是數字人文這頂“大帳篷”下的“小帳篷”。如果要給出一個比較明確的定義,語言數字人文是采用數字技術與方法以提出或解決語言學及其相關問題為目標的研究領域。針對上述定義,我們至少可以明確三點。(1)語言數字人文研究聚焦于語言學及其相關問題研究,即傳統(tǒng)語言學問題的研究和語言相關的其他學科問題研究;(2)語言數字人文研究需采用數字技術與方法來進行研究;(3)語言數字人文研究不但需要采用數字技術與方法來解決已有問題,更需要透過數字技術與方法,突破語言學的學科藩籬或界限,發(fā)現(xiàn)或提出新的問題。我們將在下一小節(jié)詳細討論語言數字人文的研究框架,以更好地回答第二個問題。


04、語言數字人文理論框架

語言數字人文具有天然的跨學科屬性,在這頂“小帳篷”下,語言學、文學、翻譯、信息科學、社會學、心理學、新聞傳播等學科的智慧和方法交叉碰撞產生新知。當然,學科的交叉融合應有主體學科和支撐學科之分(Fonseca, 2021)。語言數字人文應該以語言學為主體學科,而其他學科為其支撐。因此,語言數字人文的研究對象需聚焦語言學及其相關問題,即提出和回答傳統(tǒng)的語言學問題以及基于語言分析的其他相關學科的研究問題。在此立論的基礎上,我們參考了Rosenbloom(2013)、Berry和Fagerjord(2017)、Mehl(2021)、王軍和張力元(2020)、王麗華和劉煒(2021b)等關于數字人文學科建設或理論框架的討論,以及Luhmann和Burghardt(2021)、Ma和Li(2021)、Kokensparger(2018:13-14)等基于文獻計量分析的實證研究結果,并結合我們的閱讀和研究積累,構建如下語言數字人文理論框架,以闡釋語言數字人文研究的主要內容。框架由理論探索、應用研究、基礎建設三個部分組成,每個部分又分若干內容。下面我們根據該框架做具體分析討論。


4.1理論探索

由于數字人文的學科定位問題尚存在爭議,語言數字人文也必然存在類似爭議,這也是語言數字人文后續(xù)研究的重要意義所在。張品慧等(2021)認為,某一研究方向若要成為獨立的學科,至少需“同時具備獨有的研究對象、獨特的研究方法、獨立的理論體系”(“三獨立”原則)(付八軍、龔放, 2021)。對于語言數字人文來說,已具有獨有的研究對象,即以前文所述的語言學問題及基于語言分析的其他相關學科問題作為研究對象。語言數字人文研究或采用語言學分支學科如語料庫語言學和計算語言學等方法,或借鑒計算機科學、信息科學等相關學科技術,因此其研究方法具有一定的獨特性。語言數字人文的理論由語言學相關理論和其他相關學科理論構成,但尚未形成系統(tǒng)的理論體系。綜上,語言數字人文具備獨有的研究對象和較為獨特的研究方法,是數字人文的一個分支研究方向,但由于其理論體系尚不完整,與獨立的學科要求尚有一定距離。

我們還需厘清語言數字人文與其他研究方向或學科的關系。(1)語言數字人文與語料庫語言學:研究目的相同而研究方法不同。語言數字人文與語料庫語言學具有相同的研究目的,即都以解決語言學問題為其核心研究目的和對象。語料庫語言學主要采用文本檢索方法,觀察核心詞、搭配、句法等語言特征,而語言數字人文除了采用傳統(tǒng)語料庫語言學方法以外,更多采用計算語言學/自然語言處理、計算機科學、信息科學等成熟數字技術來提取語言特征;(2)語言數字人文與計算語言學:研究方法類似而研究目的不同。語言數字人文與計算語言學研究方法類似,但語言數字人文以解決語言學相關問題為其核心議題,而計算語言學以解決如文本分類、機器翻譯等工程問題為其主要目的;(3)語言數字人文與其他相關學科:研究目的不同、研究方法亦有差異。如文學研究,大多采用傳統(tǒng)的思辨方法,近年也開始接受數字人文研究范式(秦洪武, 2021; 嚴程, 2019),以探討人性意義和審美價值并傳承民族文化(李詠吟, 2009; 羅宗強, 2002)。

語言數字人文的跨學科屬性決定了其研究與社區(qū)建設密不可分。社區(qū)建設主要涉及跨學科和跨地區(qū)的研究合作,是數字人文研究長期以來重點討論的話題(Luhmann&Burghardt, 2021; 王軍、張力元, 2020)。社區(qū)建設幾乎貫穿語言數字人文研究的所有環(huán)節(jié):語言數字人文的學科建設與理論探索離不開各學科和地區(qū)研究者的合作,大數據資源和平臺及工具建設往往需要跨學科跨地域學者間的密切配合和無私分享,而具體研究合作在語言數字人文領域也已成常態(tài)。探索更高效的跨學科跨地區(qū)合作應是語言數字人文后續(xù)研究的重要命題。

4.2應用研究

語言數字人文的應用研究包括研究對象和數字技術兩個方面。研究對象既包括運用數字技術研究傳統(tǒng)的語言學問題(如語言本體、二語習得與教學、語言測試、詞典編纂等),也包括運用數字技術提取語言風格或語言特征并與其他領域相結合的研究。比如,Lei和Wen(2020)關于兩百余年來英語文本依存距離衍變軌跡從而揭示英語句法簡化規(guī)律的研究,是基于大數據和新興句法分析方法研究語言本體問題的生動案例。又如,Lu和Ai(2015)與Kim和Crossley(2018)開發(fā)詞匯和句法語言特征分析新工具并運用于學習者文本研究,拓寬了二語習得和語言測試的研究思路(朱慧敏, 2021)?;谡Z言風格/特征的其他領域研究近年也層出不窮,如Jockers(2013)提出了基于數字計算的文學作品語言特征分析方法:“宏觀分析”方法,Archer和Jockers(2016)則運用該方法詳細分析了數千本暢銷書的語言特征,以解開暢銷書的暢銷密碼。Savoy(2020)將文本風格計量分析與機器學習算法相結合,為作者身份識別研究提供了新視角。另外,Wen和Lei(2021)分析了近五十年學術文本的情感特征變化,是數字人文“遠讀”理念的研究實踐。最后,研究者還采用文獻計量技術研究語言學、翻譯學等學科發(fā)展動態(tài)(Lei&Liu, 2019a,2019b; 胡顯耀、李茂君, 2020; 龐雙子, 2020; 田苗, 2020),是傳統(tǒng)思辨性綜述的有益補充。

語言數字人文研究所需的數字技術內容龐雜,研究者不但要學習基礎的統(tǒng)計和文本分析知識,還要持續(xù)追蹤層出不窮的自然語言處理和機器學習等相關新技術。這也對語言數字人文研究者,特別是語言學出身文科研究者提出了挑戰(zhàn),他們不但要熟悉各種本地或在線工具,更要掌握一定的編程技能(Lei&Liu, 2021; 雷蕾, 2020),為生產語言數字人文新知識做技術準備。

4.3基礎建設

語言數字人文研究離不開基礎數據資源和平臺/工具資源,因此基礎建設是語言數字人文研究的基石?;A數據資源建設主要包括文本和其他多模態(tài)數據資源建設,例如,國家語委主持開發(fā)的《古籍語料庫》和《現(xiàn)代漢語平衡語料庫》以及中國臺灣地區(qū)語言學研究所開發(fā)的系列古漢語和近現(xiàn)代漢語語料庫均包含海量漢語數據,是研究漢語及其歷時衍化的重要資料。又如,谷歌公司建設的谷歌圖書N元數據庫,提供了多語種海量歷時數據(Micheletal, 2011),為我們研究語言文化及社會心理等歷時演進提供了數據支撐(Brysbaertetal, 2011; Ilievetal, 2016)。再如,英國國家語料庫2014版口語數據庫標注了豐富的說話人性別、年齡、社會階層等信息(Loveetal, 2017),為我們探索語言特征與社會因素間的互動關系提供了可能(Brezinaetal, 2018; Shi&Lei, 2021)。

語言數字人文的基礎建設還包括研究平臺和工具的開發(fā)。比如,斯坦福CoreNLP和spaCy等通用自然處理工具使語言研究者充分利用數字技術研究語言問題成為可能,而TAALES(Kyle&Crossley, 2015)和L2SCA(Lu, 2011)等詞匯和句法分析工具則為深入觀察和研究語言微觀特征提供了機會。近年來,國內學者也積極開發(fā)漢語研究工具和平臺,諸多工具已具國際影響力,如結巴漢語分詞工具已成為spaCy等自然語言處理工具漢語處理模塊的缺省分詞工具,而自然語言處理工具HanLP已超越斯坦福CoreNLP和NLTK等工具,成為GitHub上星標數最高的自然語言處理工具(何晗2019)。

由上可見,語言學研究者在基礎數據資源建設方面做出了重要貢獻,而計算機科學研究者在工具/平臺建設方面占據主導位置,工具/平臺建設也亟須語言學研究者積極參與,貢獻智慧,以開發(fā)更多語言數字人文研究所需的工具/平臺。


05、結語:語言數字人文的未來

綜上所述,語言數字人文是數字人文的一個分支研究方向,是采用數字技術和方法以提出或解決語言學及其相關問題為目標的新興研究領域。目前,語言數字人文尚不能成為一門獨立的學科,究其原因主要在于,語言數字人文的研究邊界還不夠清晰,且尚未形成系統(tǒng)的理論體系,這也正是語言數字人文研究者要解決的問題。今后研究亟須解決的一個重要問題是對語言數字人文研究的內涵和外延做出科學定義(Svensson, 2010),這也是深入構建語言數字人文理論體系的基礎。比如,鑒于語言數字人文的跨學科屬性,如果語言數字人文以語言學為其主體學科,以文學、翻譯、計算機科學、信息科學、社會學、心理學、新聞傳播等為其支撐學科,其核心理論框架是以語言學理論為基礎還是語言學理論與其支撐學科相關理論兼收并蓄共同構成語言數字人文的核心理論?又如,如果我們將語言數字人文定義為提出或解決語言學及其相關問題的研究領域,其研究內容的核心到底是解決語言學問題還是解決其他支撐學科相關問題?抑或是兼顧語言學和其他學科問題?如果兼顧二者,語言學的主體學科地位如何體現(xiàn)?再如,如何定義“數字技術”?是傳統(tǒng)的統(tǒng)計方法即“數字技術”,還是自然語言處理或機器學習等其他新興技術才是“數字技術”?最后,如果語言數字人文發(fā)展成一門獨立學科,其學科屬性到底是理論取向,還是方法/實踐取向,抑或需要兼顧理論和方法/實踐?

由于語言數字人文的跨學科屬性,在目前語言數字人文的發(fā)展初期,上述問題可能還難以解決。正如語料庫語言學在其發(fā)展過程中一直存在語料庫語言學是獨立學科還是方法論的爭議一樣(Gries, 2010; Hardie&McEnery, 2010),語言數字人文到底是獨立學科還是方法共同體(Methodological Commons) (McCarty&Short, 2002),或者說我們到底是需要技術還是理論,相關爭議可能長期存在。王賀(2020)在討論數字人文取向的文學研究時指出,我們需要“警惕在‘數字人文’研究中可能出現(xiàn)的過度理論化的傾向”,因為當前“與理論設想、建構相比,最重要、最需要的是諸多實實在在利用‘數字人文’方法所作的具體的現(xiàn)代文學研究”。我們同意王賀(2020)的看法。在當前語言數字人文發(fā)展的初期,我們需要擱置學科還是方法的爭議,以實踐為導向,實實在在“做事”(Ramsay, 2013),采用數字技術探索解決語言學及其相關學科的問題。當然,“這不意味著要拒絕批判性思考,而是要防止坐而論道”(王賀, 2020),在理論探索的同時,我們需要尊重語言數字人文的實踐屬性,以更多應用研究和基礎建設成果推動語言數字人文研究的發(fā)展。

最后,除了前文提及的諸多應用研究和基礎建設相關研究和實踐以外,我們還需關注語言數字人文學科發(fā)展和人才培養(yǎng),如在本科和研究生階段開設語言數字人文相關課程,開發(fā)語言數字人文相關教學資源(如開發(fā)語言數字人文相關教材、學習或教學資源等),并在時機成熟時設置語言數字人文相關學位點。這既是語言數字人文自身發(fā)展的需要,亦與國家新文科建設戰(zhàn)略同頻共振?!缎挛目平ㄔO宣言》明確要求文科專業(yè)與現(xiàn)代技術深入融合,以發(fā)展新興文科專業(yè)(教育部2020)。語言數字人文作為數字人文的分支研究方向,在研究內容、研究方法、知識創(chuàng)新等諸多方面具有新文科屬性和特征(王麗華、劉煒, 2021a),語言數字人文完全有理由助力新文科建設與發(fā)展。


參考文獻略,歡迎查閱《外語與外語教學》2023年第3期紙質原文。


轉載來源:語言治理

轉載編輯:田貝西

雷蕾:語言數字人文:“小帳篷”理論框架的評論 (共 條)

分享到微博請遵守國家法律
滨州市| 密云县| 和龙市| 乌兰县| 桐梓县| 肇州县| 沙雅县| 宁远县| 武清区| 咸阳市| 类乌齐县| 永城市| 永昌县| 治县。| 六盘水市| 健康| 晋州市| 防城港市| 宁陕县| 云龙县| 屏东市| 大荔县| 探索| 龙陵县| 定州市| 临潭县| 禄丰县| 永康市| 健康| 卓资县| 伊宁县| 巴青县| 杨浦区| 泸水县| 南昌市| 成安县| 德庆县| 收藏| 酒泉市| 卓资县| 蓬莱市|