最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Sketch Engine探索第一彈來襲!

2023-03-20 10:40 作者:翻譯技術(shù)點(diǎn)津  | 我要投稿

本文約 3600 字,預(yù)計(jì)閱讀時(shí)間 25 分鐘


01Sketch Engine 簡介
Sketch Engine 是由 Lexical Computing CZ s.r.o. 于 2003 年開發(fā)的一個(gè)語料庫管理和文本分析軟件。它的目的是使研究語言行為的人(詞典編纂者、語料庫語言學(xué)研究者、翻譯者或語言學(xué)習(xí)者)能夠根據(jù)特定動(dòng)機(jī)的查詢來搜索大型文本集。幫助大家探索單詞在不同語料庫中的用法和上下文。其庫容十分龐大,現(xiàn)已有高達(dá)包含 101 種語言的語料,自帶語料庫 724 個(gè),最大的語料庫 English Web 2020 (enTenTen20) 含365億字符。在種種強(qiáng)大功能的加持下,Sketch Engine 可以用于各種不同的語言學(xué)研究和教學(xué)場景,例如語言學(xué)習(xí)、語言教學(xué)、語言翻譯、語言對(duì)比和語言分析等。




心動(dòng)了嗎,接著看下去吧!
02如何進(jìn)入?
官網(wǎng):https://www.sketchengine.eu/
首先可以進(jìn)入學(xué)校的電子資源庫看看是否訂購了 Sketch Engine,隨后通過校園網(wǎng)或者校外訪問的方式即可進(jìn)入。還可以在登錄頁面通過搜索自己的學(xué)校來進(jìn)行登錄:


如果學(xué)校沒有訂購這個(gè)資源,也可申請(qǐng)30天的免費(fèi)試用:


登錄之后,便來到了主界面,通過校園網(wǎng)登陸和個(gè)人賬戶登陸的主界面功能可能會(huì)有差異,以下為個(gè)人賬戶界面:


乍一看功能太多不知道如何下手?第一步我們需要選擇一個(gè)自己中意的語料庫,在此處以 French Web 2020 (frTenTen20) 法語語料庫為例:


點(diǎn)擊 CORPUS INFO 可以查看所選定的語料庫詳情:


里面顯示了該語料庫的所有細(xì)節(jié),包括其形符數(shù)、字符數(shù)、句子數(shù)、段落數(shù)、文檔數(shù)、詞性標(biāo)注標(biāo)簽、子語料庫信息以及更多詞匯相關(guān)的信息。



03詞匯素描板塊(Word Sketch)
首先,Sketch Engine的名字來源于它的一個(gè)主要功能——詞匯素描(Word Sketch):將檢索詞的語法和搭配行為總結(jié)在同一個(gè)頁面上。


在這個(gè)板塊,你將會(huì)看到一個(gè)單詞的語言使用情況的完整描述,包括該單詞在語料庫中的頻率、常用的語法結(jié)構(gòu)、詞性和上下文等信息。這些信息可以幫助我們了解一個(gè)單詞在不同上下文中的用法和含義。
在詞匯素描頁面的查詢欄中輸入 maintenir 這個(gè)詞目(lemma),可以得出該詞在對(duì)應(yīng)語料庫中所有的語法和搭配信息,詞目(lemma)就是單詞的基本形式,而在搜索結(jié)果中囊括了該單詞的所有變形形式,例如以 go 為例,會(huì)得到包含 goes、went、going 等形式的結(jié)果。此處,從圖中可以看到搜索結(jié)果有 152 萬余條,為了使得搜索結(jié)果的呈現(xiàn)更加直觀清晰,我們可以調(diào)整展示視角(Change view options)以顯示詞頻(Show frequencies)。除了詞頻之外,此處還可以設(shè)置是否顯示搭配案例(Show collocation examples)、關(guān)聯(lián)度(Show scores)和文本類型(Show text types),也可以指定排序條件。


當(dāng)選中 Combine grammatical relations 時(shí)會(huì)將所有搭配類型合并,以詞頻或者關(guān)聯(lián)度高低整體排序:


如果選定另外一個(gè) Cluster similar items(類似項(xiàng)詞叢),則會(huì)根據(jù)我們?cè)O(shè)定的值聚合意義相近的搭配項(xiàng)目,當(dāng)設(shè)定的值越接近 0,堆在一起的詞叢就會(huì)越多,其覆蓋的意義范圍也就越大,詞和詞之間的關(guān)聯(lián)會(huì)越松散;相反,當(dāng)設(shè)定值接近1時(shí),聚合在一起的詞叢就會(huì)越少,叢內(nèi)的詞語意思也會(huì)相對(duì)更加接近。


當(dāng)我們不勾選這兩個(gè)選項(xiàng)時(shí),就會(huì)得到了圍繞這個(gè) maintenir 動(dòng)詞多列展示,這也是最常規(guī)的操作:



按照展示結(jié)果依次是:和 maintenir 搭配的賓語、主語、副詞、代詞、動(dòng)詞不定式、介詞、并列使用的動(dòng)詞以及一些常用案例。根據(jù)其出現(xiàn)頻率,我們可以了解到這個(gè)動(dòng)詞置于不同于語境下的各類高頻搭配,以此為據(jù)可以判斷自己的用詞是否地道。值得注意的是,有些分類是需要進(jìn)一步篩選甄別的,如果對(duì)某一個(gè)條目感興趣或者有疑問,可以直接點(diǎn)擊 Concordance 或者條例數(shù) 277 來查看所選中的語料詳情:



上圖展示的是 sentence 模式,例句會(huì)以換行形式出現(xiàn),也可以選擇上下文關(guān)鍵詞模式(keyword-in-context, KWIC)來對(duì)例句結(jié)果以字母順序進(jìn)行排序。(這一部分和AntConc 的功能類似。)


如果想查看語料出處,可以點(diǎn)擊左邊的來源信息,找到其 URL,即網(wǎng)頁鏈接進(jìn)入查看全文,我們,此番溯源能幫助我們?cè)u(píng)估語料的質(zhì)量。


大家可以注意到,每一個(gè)條目右邊有一個(gè)的圖案,點(diǎn)擊后會(huì)顯示搜索結(jié)果的屬性條目統(tǒng)計(jì),例如,當(dāng)我們點(diǎn)擊抓取年份(Crawl year)的時(shí)候,可以了解到,在當(dāng)前的277 條數(shù)據(jù)中,有 149 條數(shù)據(jù)抓取于 2020 年,97 條抓取于 2021 年。所有屬性都可以這樣進(jìn)行統(tǒng)計(jì)聚合。



回到詞匯素描(Word Sketch)主界面,讓我們一起來探究一下右上角的這些功能選項(xiàng):


第一個(gè)是更改檢索規(guī)則 Change criteria,有四個(gè)選項(xiàng),第一個(gè)就是最基礎(chǔ)的單個(gè)詞目搜索,第二個(gè)是進(jìn)階搜索,第三個(gè)是搭配表單,最后一個(gè)則是對(duì)此功能板塊的一個(gè)介紹演示。


進(jìn)階搜索有四項(xiàng)可以改變的參數(shù),以便進(jìn)行更加精準(zhǔn)的搜索:


1 - 指定詞性;
2 - 指定子語料庫(在父語料庫信息詳情中可見);
3 - 指定最小的語料關(guān)聯(lián)度和詞頻數(shù)(低于設(shè)定值的搭配將不會(huì)被顯示);
4 - 指定另一個(gè)語料庫后,輸入指定詞目進(jìn)行詞匯素描,兩個(gè)詞的檢索結(jié)果會(huì)并列展示,如圖為法語和英語中對(duì)于“維持”這個(gè)單詞的部分搜索結(jié)果展示:


如果將上圖的英語語料庫替換成中文,由于中法兩種語言之間的語法關(guān)聯(lián)對(duì)應(yīng)尚未建立,排列結(jié)果則會(huì)是分散的。


第三項(xiàng)是搭配表單,在此處除了指定一些基本參數(shù)之外,還可以設(shè)置一個(gè)語料庫作為參照進(jìn)行搜索,搜索條件可以設(shè)置為“以X開頭”、“以X結(jié)尾”、“包含X”以及運(yùn)用正則表達(dá)式,并且可以設(shè)置多個(gè)條件限定。


在下圖中,我指定了以 er 開頭的單詞,檢索結(jié)果如下:


其結(jié)果并不是單純的以 er 開頭的單詞的詞頻統(tǒng)計(jì),而是所有符合條件單詞的搭配統(tǒng)計(jì),例如對(duì)于 French Web 2020 (frTenTen20) 語料庫來說,最多的搭配是和定冠詞的搭配,也就是 l’erreur,這并不是一種嚴(yán)格意義上的語法搭配,所以在采用檢索結(jié)果時(shí)要進(jìn)行甄別。


而對(duì)于參照語料庫 Europarl spoken parallel- French 來說,最高頻出現(xiàn)的搭配是 faire erreur:


通過不同語料庫之間的搭配對(duì)照我們可以發(fā)現(xiàn)很多有趣的語言現(xiàn)象。第二個(gè)是下載圖標(biāo),可以導(dǎo)出當(dāng)前的搜索結(jié)果,有不同的格式可以選擇,對(duì)搞研究的小伙伴們很友好,不用再苦哈哈地截圖了。


第三個(gè)調(diào)整展示視角已在前面部分進(jìn)行了介紹,此處不再贅述。第四個(gè)是結(jié)果篩選,當(dāng)我們確定一個(gè)搜索詞目后,可以在結(jié)果中再次指定單詞進(jìn)行過濾。當(dāng)我們不確定自己使用的搭配是否準(zhǔn)確時(shí),可以利用此篩選功能進(jìn)行校驗(yàn),如果搜出的語料較豐富,就可以放心使用了,同時(shí)也可以根據(jù)此結(jié)果來拓展自己的表述方式,積累更多表達(dá)。


此功能還支持拓展探索更多的近義詞表述,以豐富內(nèi)容,避免重復(fù),但同時(shí)也需要注意其結(jié)果不一定都準(zhǔn)確,需要自己進(jìn)一步篩選。當(dāng)此處數(shù)值設(shè)置得越大,所得的詞與設(shè)定的關(guān)鍵詞關(guān)聯(lián)性就越小。


第四個(gè)是當(dāng)前搜索條件的細(xì)節(jié)展示,如圖表明我們目前搜索展示的是 maintenir 這個(gè)動(dòng)詞的結(jié)果,在實(shí)際體驗(yàn)過程中并沒有太大用處:


第五個(gè)板塊是數(shù)據(jù)的可視化功能,如圖所示,可以看到剛才的多列搭配信息被聚合到了一張餅圖上,我們可以設(shè)置餅圖的參數(shù),例如在上面顯示搭配詞語數(shù)量的多少,選用哪些搭配關(guān)系,生成的圖片可以進(jìn)行下載:


下圖為餅圖的局部說明,以 shop 的搜索結(jié)果為例:


? 搭配離圓心的距離代表了其典型性程度。
例如:repair shop比antique shop更具典型性;
? 圓圈大小代表了該搭配的頻率。例如:gift shop比bike shop更高頻;
? 圓圈的顏色表示它們所屬的語法關(guān)系(主語、賓語、修飾成分等);
? 餅圖上每個(gè)部分大小表示搜索結(jié)果中不同語法關(guān)系之間的比例大小。
以上就是對(duì) Sketch Engine 第一個(gè)板塊的探索啦,剩余的板塊敬請(qǐng)期待!
參考資料:葛曉華.Sketch Engine的核心功能和應(yīng)用前景[J].外語電化教學(xué),2017(04):23-30.https://www.sketchengine.eu/https://en.wikipedia.org/wiki/Sketch_Engine
聲明:本公眾號(hào)轉(zhuǎn)載此文章是出于傳播行業(yè)資訊、洞見之目的,如有侵犯到您的合法權(quán)益,請(qǐng)致信:chongchong@lingotek.cn,我們將及時(shí)調(diào)整處理。謝謝支持!


本文轉(zhuǎn)載自:翻譯技術(shù)教育與研究

轉(zhuǎn)載編輯:Pickey

Sketch Engine探索第一彈來襲!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
盐山县| 新余市| 伊川县| 尼木县| 贺州市| 铅山县| 台前县| 德钦县| 民和| 大丰市| 清涧县| 太仆寺旗| 宣威市| 陆川县| 扎兰屯市| 和田县| 梅河口市| 开原市| 牡丹江市| 新宾| 古交市| 彭泽县| 精河县| 锡林郭勒盟| 闵行区| 西丰县| 会宁县| 陵川县| 榆树市| 鹤山市| 宿州市| 大名县| 清河县| 莲花县| 渑池县| 江门市| 玛纳斯县| 小金县| 林芝县| 塔城市| 长垣县|