中文搭配助手CCA全新升級(jí),助力漢語(yǔ)詞匯教學(xué)與研究!
中文搭配助手CCA全新升級(jí),助力漢語(yǔ)詞匯教學(xué)與研究
中文搭配助手(Chinese Collocation Assistant)是北京師范大學(xué)國(guó)際中文教育學(xué)院胡韌奮課題組主持研發(fā)的現(xiàn)代漢語(yǔ)詞匯搭配檢索及分析工具,旨在向全球用戶(hù)提供免費(fèi)、開(kāi)放的大規(guī)模詞語(yǔ)搭配知識(shí)和語(yǔ)料查詢(xún)服務(wù),目前,用戶(hù)已覆蓋六大洲的數(shù)十個(gè)國(guó)家。
訪(fǎng)問(wèn)地址:http://cca.irishu.cn/近期,CCA訪(fǎng)問(wèn)地址更新,功能也全面升級(jí),包括三個(gè)模塊:
中文搭配助手網(wǎng)站:搭配檢索 + 例句查詢(xún)
中文搭配分析器:搭配自動(dòng)抽取 + 句法復(fù)雜度指標(biāo)分析
中文搭配知識(shí)庫(kù):大規(guī)模搭配研究數(shù)據(jù)開(kāi)源下載
1. 中文搭配助手網(wǎng)站
CCA利用中文信息處理技術(shù)從語(yǔ)料庫(kù)中自動(dòng)抽取搭配信息,向用戶(hù)提供漢語(yǔ)搭配在線(xiàn)檢索服務(wù),以輔助漢語(yǔ)教學(xué)及研究。為了適應(yīng)語(yǔ)言教學(xué)需求,搭配數(shù)據(jù)抽取主要基于北京師范大學(xué)楊麗姣課題組構(gòu)建的漢語(yǔ)分級(jí)閱讀語(yǔ)料庫(kù)。目前,CCA 數(shù)據(jù)庫(kù)包含超過(guò)25萬(wàn)條抽取自分級(jí)閱讀語(yǔ)料庫(kù)的搭配及其頻次、互信息、上下文信息等屬性。此外,我們還從中文維基百科語(yǔ)料庫(kù)中抽取了超過(guò)100萬(wàn)條搭配數(shù)據(jù),作為更全面的搭配信息參考。
輸入關(guān)鍵詞檢索,可獲取多種類(lèi)型的句法搭配及其頻次、互信息和例句。
著名語(yǔ)言學(xué)家J. R. Firth指出,You shall know a word by the company it keeps。詞語(yǔ)的意義和用法蘊(yùn)含在搭配之中,搭配在語(yǔ)言學(xué)習(xí)中的重要性不言而喻。利用CCA,我們可以便利地查詢(xún)?cè)~語(yǔ)用法,并開(kāi)展近義詞辨析,試舉兩例如下:
例1.輸入關(guān)鍵詞“把”,可以分別得到“CN(量詞-名詞)”、“PV(介詞-動(dòng)詞)”等不同類(lèi)型搭配,便于了解一個(gè)詞語(yǔ)的多種用法。
例2.輸入關(guān)鍵詞“美麗”和“漂亮”,發(fā)現(xiàn)它們均可用于定中、狀中和主謂搭配,但只有“漂亮”可以用于述補(bǔ)搭配。
此外,雖然“美麗”和“漂亮”都可以形容美好的人、地、物,但是二者仍有一些固定搭配詞,不能彼此替換,比如“美麗-故事”、“美麗-傳說(shuō)”和“漂亮-話(huà)”、“漂亮-文章”等??梢?jiàn),通過(guò)詞語(yǔ)搭配,能夠幫助我們挖掘近義詞之間微妙的意義用法差別,再加以例句,近義詞辨析教學(xué)再也不難!
歡迎訪(fǎng)問(wèn)CCA網(wǎng)站,解鎖詞語(yǔ)搭配的更多用法,詳細(xì)功能介紹參見(jiàn)網(wǎng)站的用戶(hù)手冊(cè),等你來(lái)一探究竟!
2. 中文搭配分析器:搭配解析,一鍵完成
為了更好地服務(wù)于本領(lǐng)域研究者,本次功能升級(jí)還帶來(lái)了中文搭配分析器(Chinese Collocation Analyzer),該工具提供了Windows、MacOS (Intel)、MacOS (Apple M1)三種客戶(hù)端程序,它不僅支持現(xiàn)代漢語(yǔ)句法搭配的自動(dòng)抽取,還能計(jì)算句法復(fù)雜度指標(biāo),以助力文本量化實(shí)證研究。
填寫(xiě)試用申請(qǐng)后可獲得軟件下載鏈接:
https://www.wjx.top/vm/QD6GdYJ.aspx#
注:工具下載后即可離線(xiàn)使用,個(gè)人語(yǔ)料的版權(quán)和隱私得到充分保護(hù)。
Q1. 分析器該如何使用?
Step 1. 在文本框中輸入文本,或者點(diǎn)擊“選擇文件”按鈕上傳txt格式文件,支持上傳多文件批量處理。文本框輸入支持最長(zhǎng)10萬(wàn)字符,上傳文件支持最長(zhǎng)100萬(wàn)字符/文件。
Step 2. 點(diǎn)擊“保存文件”按鈕指定結(jié)果輸出位置。
Step 3. 點(diǎn)擊“搭配抽取”或者“指標(biāo)分析”按鈕運(yùn)行程序,處理速度約1萬(wàn)字/秒(與系統(tǒng)配置有關(guān))。
Q2. 搭配抽取支持哪些類(lèi)型?
搭配定義及抽取方法來(lái)自論文胡韌奮和肖航(2019),工具支持自動(dòng)抽取如下類(lèi)型搭配。
Q3. 利用工具可以分析文本的哪些指標(biāo)?
句法復(fù)雜度指標(biāo)定義及抽取方法來(lái)自論文胡韌奮(2021)、Hu, Wu & Lu (2022),除了傳統(tǒng)的句層面(基于句子、T單位等特征)指標(biāo)外,還引入了衡量搭配多樣性和復(fù)雜性的短語(yǔ)層面指標(biāo),支持多角度量化分析。指標(biāo)列表如下所示。
注:關(guān)于中文搭配分析器的詳細(xì)功能和操作方法,歡迎參考軟件中的“使用說(shuō)明”文檔。
3. 中文搭配知識(shí)庫(kù)
為服務(wù)本領(lǐng)域的搭配研究,課題組還開(kāi)源了前期構(gòu)建的中文搭配知識(shí)庫(kù),包含兩個(gè)子庫(kù)
edu_collocation_data: 從漢語(yǔ)分級(jí)閱讀語(yǔ)料庫(kù)子庫(kù)(規(guī)模約240萬(wàn)詞)中抽取的搭配數(shù)據(jù)。
wiki_collocation_data:從中文維基百科(規(guī)模約1.38億詞)中抽取的搭配數(shù)據(jù)。
搭配知識(shí)庫(kù)的屬性字段如下所示:
下載說(shuō)明:
https://github.com/iris2hu/Chinese-collocation-complexity/blob/main/collocation_data/collocation_data.md
CCA旨在為學(xué)習(xí)者、教師和研究者提供免費(fèi)、開(kāi)放的搭配檢索和分析服務(wù),歡迎試用CCA的系列工具及資源,并為我們提出寶貴的意見(jiàn)!
(1) 中文搭配助手網(wǎng)站:搭配檢索 + 例句查詢(xún)
訪(fǎng)問(wèn)地址:http://cca.irishu.cn/
(2) 中文搭配分析器:搭配自動(dòng)抽取 + 句法復(fù)雜度指標(biāo)分析
試用申請(qǐng):https://www.wjx.top/vm/QD6GdYJ.aspx#
(3) 中文搭配知識(shí)庫(kù):海量搭配研究數(shù)據(jù)開(kāi)源下載
下載說(shuō)明:
https://github.com/iris2hu/Chinese-collocation-complexity/blob/main/collocation_data/collocation_data.md
問(wèn)題咨詢(xún)或意見(jiàn)反饋:irishu@bnu.edu.cn
參考文獻(xiàn):
[1] 胡韌奮, 肖航. 面向二語(yǔ)教學(xué)的漢語(yǔ)搭配知識(shí)庫(kù)構(gòu)建及其應(yīng)用研究. 語(yǔ)言文字應(yīng)用. 2019(1).
[2] 胡韌奮. 基于搭配的句法復(fù)雜度指標(biāo)及其與漢語(yǔ)二語(yǔ)寫(xiě)作質(zhì)量關(guān)系研究. 語(yǔ)言文字應(yīng)用, 2021(1).
[3] Renfen Hu, Jifeng Wu, and Xiaofei Lu. Word-combination-based Measures of Phraseological Diversity, Sophistication and Complexity and Their Relationship to L2 Chinese Proficiency and Writing Quality.Language Learning, 2022, 72(4).
特別說(shuō)明:本文僅用于學(xué)術(shù)交流,如有侵權(quán)請(qǐng)后臺(tái)聯(lián)系小編刪除。
- END -
轉(zhuǎn)載來(lái)源:語(yǔ)言學(xué)通訊
轉(zhuǎn)載編輯:李帥