最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

技術(shù)與工具 | Wordless:破除語(yǔ)料庫(kù)研究的門檻與壁壘

2022-04-22 23:34 作者:翻譯技術(shù)點(diǎn)津  | 我要投稿

Wordless 是一款可用于語(yǔ)言學(xué)、文學(xué)研究、翻譯研究及其他語(yǔ)言文字相關(guān)領(lǐng)域研究的多語(yǔ)種集成語(yǔ)料庫(kù)處理與分析軟件。由上海外國(guó)語(yǔ)大學(xué)語(yǔ)料庫(kù)研究院21級(jí)博士生葉磊開發(fā)。

? ? ? ? 葉磊,上海外國(guó)語(yǔ)大學(xué)語(yǔ)料庫(kù)研究院2021級(jí)博士生,2017屆上海理工大學(xué)英語(yǔ)專業(yè)學(xué)士,2020屆上海外國(guó)語(yǔ)大學(xué)英語(yǔ)語(yǔ)言文學(xué)專業(yè)碩士,研究興趣為口筆譯研究、語(yǔ)料庫(kù)翻譯研究、語(yǔ)料庫(kù)工具開發(fā),有陪同口譯、會(huì)展口譯、電話口譯等經(jīng)驗(yàn),熟悉Python開發(fā),碩士在讀期間自主設(shè)計(jì)并開發(fā)了多語(yǔ)語(yǔ)料庫(kù)集成工具Wordless,獲軟件著作權(quán)兩項(xiàng)。


? ? ? ? 工欲善其事,必先利其器。兩座大山長(zhǎng)期橫亙?cè)谒姓Z(yǔ)料庫(kù)研究人員的面前。其一,建庫(kù);其二,檢索。前者技術(shù)門檻不高,但一眼望不到頭的機(jī)械重復(fù)性勞動(dòng)足以勸退眾多嘗試者。后者工作量不大,但較高的技術(shù)門檻又讓余下的技術(shù)小白們望而生畏。使用語(yǔ)料庫(kù)是為了解決問(wèn)題,但為了使用語(yǔ)料庫(kù)又發(fā)現(xiàn)了更多問(wèn)題??朔罢咝枰w力,克服后者需要智力,而人類智慧的一大體現(xiàn)就是制作和使用工具的能力。

? ? ? ??當(dāng)前,國(guó)際上應(yīng)用最廣的語(yǔ)料庫(kù)檢索工具非WordSmith和AntConc莫屬。前者功能相對(duì)完善,但“界面復(fù)雜,不易操作”(Xu & Jia, 2013)。后者界面布局相對(duì)合理,操作易于上手,但功能細(xì)節(jié)又不盡完善。平行語(yǔ)料檢索工具中ParaConc一枝獨(dú)秀,但亂碼問(wèn)題時(shí)常令人抓狂,多模態(tài)語(yǔ)料檢索軟件除了ELAN則別無(wú)他選。Mac用戶被迫掌握了虛擬機(jī)的用法只因軟件缺少跨平臺(tái)支持,Windows用戶常為軟件授權(quán)費(fèi)用而苦惱或選擇淪為盜版軟件的受害者并日夜遭受良心的譴責(zé)。一邊是基于簡(jiǎn)單規(guī)則的原始分詞法被大量使用,一邊是工業(yè)級(jí)強(qiáng)度的NLP分詞算法用戶寥寥。“點(diǎn)互信息”(PMI)自被引入(Church & Hanks, 1990)起就被錯(cuò)誤地冠以“互信息”(MI)的名字[i](cf. Bouma, 2009)并體現(xiàn)在了部分語(yǔ)料庫(kù)工具中,WordSmith在Juilland’s D的實(shí)現(xiàn)中將總體標(biāo)準(zhǔn)差誤解為樣本標(biāo)準(zhǔn)差(cf. Scott, 2021)[ii]。Carroll(1970)、Lyne(1985)等眾多研究者對(duì)Juilland’s D算法進(jìn)行了多次優(yōu)化或提出了全新的詞頻分布算法,但WordSmith截至8.0版本仍僅支持最經(jīng)典的Juilland’s D算法。統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理、人工智能等領(lǐng)域的發(fā)展突飛猛進(jìn),語(yǔ)料庫(kù)工具的迭代更新卻停滯不前。過(guò)高的入行門檻限制了語(yǔ)料庫(kù)研究群體的長(zhǎng)期發(fā)展,技術(shù)壁壘的存在讓語(yǔ)料庫(kù)技術(shù)變?yōu)橐恍〈轭I(lǐng)域精英的專屬資源。然而,魚和熊掌卻未必不可兼得,筆者開發(fā)Wordless的主要目的之一就是嘗試解決上述問(wèn)題。

? ? ? ??Wordless內(nèi)置了語(yǔ)種及編碼檢測(cè)功能,用戶無(wú)需手動(dòng)指定每個(gè)文件的語(yǔ)種,也無(wú)需擔(dān)心語(yǔ)料文件編碼不明或不同導(dǎo)致的兼容問(wèn)題。Wordless中的所有功能都會(huì)根據(jù)各文件的語(yǔ)種設(shè)置對(duì)每個(gè)文件分別進(jìn)行必要的處理并顯示計(jì)算結(jié)果。

? ? ? ??Overview模塊提供了各語(yǔ)料文件的整體統(tǒng)計(jì)信息,包括可讀性統(tǒng)計(jì)量、段落/句子/形符/類符/音節(jié)/字符數(shù)、(標(biāo)準(zhǔn)化)類符形符比、段落/句子/形符/類符/音節(jié)長(zhǎng)度的均值及標(biāo)準(zhǔn)差、各長(zhǎng)度的句子/形符數(shù)??勺x性統(tǒng)計(jì)量中,Wordless支持計(jì)算Automated Readability Index、Coleman-Liau Index、Dale-Chall Readability Score、Devereaux Readability Index、Flesch Reading Ease、Flesch Reading Ease (Simplified)、Flesch-Kincaid Grade Level、FORCAST Grade Level、Gunning Fog Index、SMOG Grade、Spache Grade Level、Write Score。

? ? ? ??Concordancer模塊提供了關(guān)鍵字檢索(KWIC)的功能,支持單語(yǔ)/平行檢索、以字符/詞/句/段落為單位指定上下文展示范圍、指定上下文限定條件(如必須/不可包含某詞)、結(jié)果抽樣/搜索/排序、遮蔽搜索詞(zapping)以制作填空練習(xí)、繪制索引行分布圖等。搜索功能支持忽略大小寫、(多語(yǔ))屈折形式匹配(搜索take自動(dòng)匹配takes、took等)、全字匹配、正則表達(dá)式、標(biāo)簽匹配。

? ? ? ??Wordlist模塊提供了詞頻統(tǒng)計(jì)的相關(guān)功能,支持統(tǒng)計(jì)各語(yǔ)料文件中所有形符的(百分比)頻數(shù)/分布(dispersion)/調(diào)整頻數(shù)(adjusted frequency)、篩選全小寫詞/全大寫詞/首字母大寫詞/數(shù)字/標(biāo)點(diǎn)、詞形歸并、(自定義)停用詞過(guò)濾、繪制折線/詞云圖等。分布算法中,Wordless目前支持Carroll's D?、Gries's DP、Gries's DPnorm、Juilland's D、Lyne's D?、Rosengren's S、Zhang's Distributional Consistency,調(diào)整頻數(shù)算法中,Wordless目前支持Carroll's Um、Engwall's FM、Juilland's U、Kromer's UR、Rosengren's KF。

? ? ? ??N-gram模塊提供了n元組(n-gram)和非連續(xù)n元組(skip-gram)的相關(guān)功能,功能細(xì)節(jié)和Wordlist模塊類似,不再贅述。

? ? ? ??Collocation模塊提供了搭配提取的相關(guān)功能,支持統(tǒng)計(jì)各文件中節(jié)點(diǎn)詞和其搭配詞在各距位上的共現(xiàn)頻數(shù)/總共現(xiàn)頻數(shù)/顯著性檢驗(yàn)統(tǒng)計(jì)量/p值/貝葉斯因子/效應(yīng)量、限定搭配詞檢索范圍(同一句/段)、繪制折線/詞云/網(wǎng)絡(luò)圖等。顯著性檢驗(yàn)中,Wordless支持計(jì)算Berry-Rogghe z值、費(fèi)希爾精確檢驗(yàn)、對(duì)數(shù)似然比、皮爾森卡方檢驗(yàn)、單樣本學(xué)生t檢驗(yàn)、z值,貝葉斯因子中,Wordless支持計(jì)算對(duì)數(shù)似然比的貝葉斯因子,效應(yīng)量中,Wordless支持計(jì)算Cubic Association Ratio(MI3)、Dice系數(shù)、Jaccard系數(shù)、Log-Frequency Biased MD、logDice、MI.log-f、Minimum Sensitivity、Mutual Dependency、Mutual Expectation、互信息(MI)、點(diǎn)互信息(PMI)、Poisson Collocation Measure、Phi系數(shù)的平方值。

? ? ? ??Colligation模塊提供了類聯(lián)接提取的相關(guān)功能,支持對(duì)未經(jīng)詞性賦碼的文件進(jìn)行自動(dòng)標(biāo)注,其余功能細(xì)節(jié)和Collocation模塊類似。

? ? ? ??Keyword模塊提供了關(guān)鍵詞提取的相關(guān)功能,支持統(tǒng)計(jì)各文件中所有形符在參照語(yǔ)料庫(kù)及觀察語(yǔ)料庫(kù)中的頻數(shù)/顯著性檢驗(yàn)統(tǒng)計(jì)量/p值/貝葉斯因子/效應(yīng)量、限定搭配詞檢索范圍(同一句\段內(nèi))、繪制折線/詞云/網(wǎng)絡(luò)圖等。顯著性檢驗(yàn)中,Wordless支持計(jì)算費(fèi)希爾精確檢驗(yàn)、對(duì)數(shù)似然比、曼-惠特尼U檢驗(yàn)、皮爾森卡方檢驗(yàn)、雙樣本學(xué)生t檢驗(yàn),貝葉斯因子中,Wordless支持計(jì)算雙樣本學(xué)生t檢驗(yàn)和對(duì)數(shù)似然比的貝葉斯因子,效應(yīng)量中,Wordless支持計(jì)算%DIFF、Difference Coefficient、Kilgarriff比、Log Ratio、比值比。

? ? ? ??Wordless目前支持98種語(yǔ)言和102種編碼的檢測(cè)、至少108個(gè)語(yǔ)種的分句/分詞/分詞還原、42個(gè)語(yǔ)種的分音、27個(gè)語(yǔ)種的詞性標(biāo)注、45個(gè)語(yǔ)種的詞形還原、99個(gè)語(yǔ)種的停用詞表。用戶可通過(guò)設(shè)置界面中的預(yù)覽功能來(lái)對(duì)語(yǔ)料進(jìn)行NLP相關(guān)的處理操作。

? ? ? ??Wordless提供了多平臺(tái)支持,包括64位Windows 7/8/8.1/10、macOS 10.11+/11.0+、Ubuntu 16.04+。Wordless完全免費(fèi),用戶不再因囊中羞澀而苦惱,也無(wú)需為繁瑣的支付流程而操心。Wordless的所有源代碼已在Github開源,未來(lái)有志于從事語(yǔ)料庫(kù)工具研發(fā)的研究者不必再經(jīng)歷我曾經(jīng)歷的那一段無(wú)前人經(jīng)驗(yàn)可供參考的痛苦開發(fā)時(shí)光。

? ? ? ??Wordless是我在上外研一末開始的項(xiàng)目,初版經(jīng)過(guò)八個(gè)月晝夜不停地學(xué)習(xí)與開發(fā)才得以成功發(fā)布,目前已完成多次版本迭代,后續(xù)將繼續(xù)著重優(yōu)化平行語(yǔ)料的相關(guān)功能,并添加依存分析、命名實(shí)體識(shí)別、多模態(tài)語(yǔ)料對(duì)齊與檢索、NLP模型訓(xùn)練等模塊。在一所外語(yǔ)類院校中獨(dú)自開展這一項(xiàng)目對(duì)純語(yǔ)言專業(yè)背景的我來(lái)說(shuō),其艱辛程度難以言表。因此,我希望能有更多的人參與到語(yǔ)料庫(kù)工具研發(fā)這一困難重重但潛力無(wú)限的工作中來(lái),也希望用戶能在看到下圖所示的啟動(dòng)界面后感受到學(xué)習(xí)門檻的降低與技術(shù)壁壘的破除所帶來(lái)的研究效率上的提升,專注于對(duì)數(shù)據(jù)結(jié)果的分析與解讀,而無(wú)需再去關(guān)注那些本不應(yīng)被過(guò)度關(guān)注的技術(shù)問(wèn)題。


主頁(yè)

https://github.com/BLKSerene/Wordless

Github下載

https://github.com/BLKSerene/Wordless#download

云盤下載
?(提取碼:wdls)

https://pan.baidu.com/s/1--ZzABrDQBZlZagWlVQMbg

使用文檔

https://github.com/BLKSerene/Wordless#documentation

引用信息

https://github.com/BLKSerene/Wordless#citing

捐助開發(fā)

https://github.com/BLKSerene/Wordless#donating

微信公眾號(hào)

Wordless

? ? ? ??如您身邊的人有相關(guān)研究需求,向其推薦 Wordless 或轉(zhuǎn)發(fā)本文章就是對(duì) Wordless 最大的支持。如您在公開發(fā)表的論文及其他成果中使用了 Wordless,請(qǐng)引用以提高其知名度,您可通過(guò)上方鏈接或在 Wordless 的幫助菜單中查看引用信息。如您已注冊(cè) Github 賬號(hào),可 Watch/Star/Fork Wordless 的倉(cāng)庫(kù)以表支持。如您希望為 Wordless 的后續(xù)開發(fā)提供資金支持,可通過(guò)上方鏈接或在 Wordless 的幫助菜單中向我提供捐助。


參考文獻(xiàn)

[1]?? Bouma, G. (2009). Normalized (pointwise) mutual information in collocation extraction. In C. Chiarcos (Ed.), From form to meaning: Processing texts automatically, proceedings of the biennial GSCL conference (pp. 31–40). National Bureau of Standards. Gunter Narr Verlag.

[2]?? Carroll, J. B. (1970). An alternative to Juilland’s usage coefficient for lexical frequencies and a proposal for a standard frequency index. Computer Studies in the Humanities and Verbal Behaviour, 3(2), 61–65. https://doi.org/10.1002/j.2333-8504.1970.tb00778.x

[3]?? Church, K. W., & Hanks, P. (1990). Word association norms, mutual information, and lexicography. Computational Linguistics, 16(1), 22–29. https://doi.org/10.3115/981623.981633

[4]?? Juilland, A., & Chang-Rodriguez, E. (1964). Frequency dictionary of spanish words. Mouton.

[5]?? Lyne, A. A. (1985). Dispersion. In The vocabulary of French business correspondence: Word frequencies, collocations, and problems of lexicometric method (pp. 101–124). Slatkine/Champion.

[6]?? Scott, M. (2021). WordSmith Tools Help. https://lexically.net/downloads/version8/HTML/formulae.html

[7]?? Xu, J., & Jia Y. (2013). Ji yu R-gram de yu liao ku fen xi ruan jian PowerConc de she ji yu kai fa [The design and development of the R-gram based corpus analysis tool ‘PowerConc’]. Technology Enhanced Foreign Languages, 149, 57–62.

[i] 互信息(MI)在信息論中指點(diǎn)互信息(PMI)的期望值,兩者概念不同。

[ii] Juilland’s D的原始文獻(xiàn)(Juilland, 1964)雖已不可考,但根據(jù)Carroll(1970)表1中轉(zhuǎn)引的計(jì)算示例可反推出原公式中使用的是總體標(biāo)準(zhǔn)差,而非樣本標(biāo)準(zhǔn)差。在WordSmith的在線文檔中,作者認(rèn)為最后一步計(jì)算中分母由n-1改為n效果更好,但經(jīng)筆者測(cè)試后發(fā)現(xiàn)其最終的計(jì)算結(jié)果并未改變,因此推斷WordSmith在Juilland’s D的實(shí)現(xiàn)中使用的其實(shí)是樣本標(biāo)準(zhǔn)差,原公式經(jīng)兩次修改后分母中的(n-1)*n的變?yōu)榱薾*(n-1),因此最終結(jié)果不變,但“原公式效果不好”的表述有誤,實(shí)際是作者對(duì)原始文獻(xiàn)的考據(jù)不細(xì)致。


獲取更多信息關(guān)注原公眾號(hào)推送,本文轉(zhuǎn)載自:語(yǔ)言學(xué)通訊

作者:上海外國(guó)語(yǔ)大學(xué)葉磊博士


B站課程:語(yǔ)料庫(kù)集成工具 Wordless 2.2.0 系列教程_嗶哩嗶哩_bilibili

本文來(lái)源于微信公眾號(hào)“翻譯技術(shù)教育與研究”、微信公眾號(hào)“語(yǔ)言服務(wù)行業(yè)”,致力于語(yǔ)言服務(wù)行業(yè)資訊、洞察、洞見~ 關(guān)注我們,了解更多精彩內(nèi)容~

技術(shù)與工具 | Wordless:破除語(yǔ)料庫(kù)研究的門檻與壁壘的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
定陶县| 公主岭市| 凌云县| 兴城市| 黑河市| 木兰县| 左权县| 景宁| 天峻县| 日喀则市| 久治县| 峨眉山市| 博兴县| 五寨县| 贵南县| 綦江县| 清流县| 庄河市| 轮台县| 瓮安县| 许昌县| 吴桥县| 简阳市| 乾安县| 榆中县| 微山县| 永昌县| 扶沟县| 台中市| 恩施市| 达日县| 乌鲁木齐县| 轮台县| 特克斯县| 南雄市| 达尔| 龙口市| 达州市| 青河县| 通河县| 邯郸市|