最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

期刊搶鮮 | 《中文信息學(xué)報》2023年第3期(37卷第3期)目錄及摘要

2023-06-25 14:01 作者:翻譯技術(shù)點津  | 我要投稿





↑點開查看清晰大圖


綜述

? 基于會話的推薦方法綜述

作 者:陳晉鵬,李海洋,張 帆,李 環(huán),魏凱敏

摘 要:近年來,基于會話的推薦方法受到學(xué)術(shù)界的廣泛關(guān)注。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,不同的模型結(jié)構(gòu)被應(yīng)用于基于會話的推薦方法中,如循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機制、圖神經(jīng)網(wǎng)絡(luò)等。該文對這些基于會話的推薦模型進行了詳細的分析、分類和對比,闡明了這些方法各自解決的問題與存在的不足。具體而言,該文首先通過調(diào)研,將基于會話的推薦方法與傳統(tǒng)推薦方法進行比較,闡明基于會話的推薦方法的主要優(yōu)缺點;其次,詳細描述了現(xiàn)有的基于會話的推薦模型如何建模會話集中的復(fù)雜數(shù)據(jù)信息,以及這些模型方法可解決的技術(shù)問題;最后,該文討論并指出了在基于會話推薦的領(lǐng)域中存在的挑戰(zhàn)和未來研究的方向。

關(guān)鍵詞:基于會話的推薦方法;會話建模;深度學(xué)習(xí)

引用格式:陳晉鵬,李海洋, 張帆, 李環(huán), 魏凱敏. 基于會話的推薦方法綜述[J].中文信息學(xué)報. 2023, 37(3): 1-17,26

CHEN Jinpeng, LI Haiyang, ZHANG Fan, LI Huan, WEI Kaimin. Review on Session-based Recommendation Methods[J].Journal of Chinese Information Processing. 2023, 37(3): 1-17,26
全文鏈接:點擊下載


語言分析與計算

? 基于領(lǐng)域知識融合的復(fù)述識別方法研究

作 者:李志峰,白 巖,洪 宇,劉 東,朱朦朦

要:復(fù)述識別任務(wù),即判斷兩個句子是否表達相同的語義。傳統(tǒng)的復(fù)述識別任務(wù)針對的是通用領(lǐng)域,模型通過理解兩個句子的語義,比較句子的語義相似度從而進行復(fù)述判斷。而在特定領(lǐng)域的復(fù)述識別任務(wù)中,模型必須結(jié)合該領(lǐng)域的專業(yè)知識,才能準(zhǔn)確地理解兩個句子的語義,并進一步判斷出它們的區(qū)別與聯(lián)系。該文針對特定領(lǐng)域提出了一種基于領(lǐng)域知識融合的復(fù)述識別方法。方法首先為句子檢索專業(yè)知識,再將專業(yè)知識融入到每個句子的語義中,最后實現(xiàn)更準(zhǔn)確的語義相似度判斷。該文在計算機科學(xué)領(lǐng)域的復(fù)述識別數(shù)據(jù)集PARADE上進行了相關(guān)實驗,實驗結(jié)果顯示,該文方法在F1指標(biāo)上達到了73.9,比基線方法提升了3.1。

關(guān)鍵詞:復(fù)述識別;特定領(lǐng)域;知識融合

引用格式:李志峰,白巖,洪宇,劉東,朱朦朦. 基于領(lǐng)域知識融合的復(fù)述識別方法研究[J]. 中文信息學(xué)報. 2023, 37(3): 18-26

LI Zhifeng, BAI Yan, HONG Yu, LIU Dong, ZHU Mengmeng. Enhancing Paraphrase Identification by Injecting Specific Domain Knowledge[J].Journal of Chinese Information Processing. 2023, 37(3): 18-26

全文鏈接:點擊下載


? GAT:用于自然語言理解的基于全局的對抗訓(xùn)練
作 者蔡坤釗,曾碧卿,陳鵬飛摘 要在自然語言處理領(lǐng)域中,基于梯度的對抗訓(xùn)練是一種能夠有效提高神經(jīng)網(wǎng)絡(luò)魯棒性的方法。首先,該文針對現(xiàn)有的對抗訓(xùn)練算法效率較低的問題,提出基于全局擾動表的初始化策略,在提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率的同時保證初始化擾動的有效性;其次,針對傳統(tǒng)的歸一化方法忽略了令牌之間的相對獨立性問題,提出基于全局等權(quán)的歸一化策略,保證令牌之間的相對獨立性,避免少數(shù)樣本主導(dǎo)對抗訓(xùn)練;最后,對于使用可學(xué)習(xí)的位置編碼的預(yù)訓(xùn)練語言模型,提出基于全局多方面的擾動策略,使得神經(jīng)網(wǎng)絡(luò)更具魯棒性。實驗結(jié)果表明,該方法能有效提升神經(jīng)網(wǎng)絡(luò)的性能。關(guān)鍵詞自然語言理解;對抗訓(xùn)練;初始化策略;歸一化策略;擾動策略引用格式蔡坤釗,曾碧卿,陳鵬飛. GAT: 用于自然語言理解的基于全局的對抗訓(xùn)練[J]. 中文信息學(xué)報. 2023, 37(3): 27-35CAI Kunzhao, ZENG Biqing, CHEN Pengfei. GAT: Global-Based Adversarial Training for Natural Language Understanding[J].Journal of Chinese Information Processing. 2023, 37(3): 27-35全文鏈接點擊下載


語言資源建設(shè)與應(yīng)用

? 先秦詞網(wǎng)構(gòu)建及梵漢對比研究

作 者:盧雪暉,徐會丹,李 斌,陳思瑜

要:先秦漢語在漢語史研究上具有重要地位,然而以往的研究始終沒有形成結(jié)構(gòu)化的先秦詞匯資源,難以滿足古漢語信息處理和跨語言對比的研究需要。國際上以英文詞網(wǎng)(WordNet)的義類架構(gòu)為基礎(chǔ),建立了數(shù)十種語言的詞網(wǎng),已經(jīng)成為多語言自然語言處理和跨語言對比的基礎(chǔ)資源。該文綜述了國內(nèi)外各種詞網(wǎng)的構(gòu)建情況,特別是古代語言的詞網(wǎng)和漢語詞網(wǎng),且詳細介紹了先秦詞網(wǎng)的構(gòu)建和校正過程,構(gòu)建了涵蓋43 591個詞語、61 227個義項、17 975個義類的先秦詞網(wǎng)。該文還通過與古梵語詞網(wǎng)的跨語言對比,嘗試分析這兩種古老語言在詞匯上的共性和差異,初步驗證先秦詞網(wǎng)的價值。

關(guān)鍵詞詞網(wǎng);先秦漢語;跨語言對比;古文信息處理

引用格式:盧雪暉,徐會丹,李斌,陳思瑜. 先秦詞網(wǎng)構(gòu)建及梵漢對比研究[J]. 中文信息學(xué)報. 2023, 37(3): 36-45

LU Xuehui, XU Huidan, LI Bin, CHEN Siyu. The Construction of Pre-Qin Ancient Chinese WordNet and A Contrastive Study with Ancient Sanskrit WordNet[J].Journal of Chinese Information Processing. 2023, 37(3): 36-45

全文鏈接:點擊下載


? 第一屆古代漢語分詞和詞性標(biāo)注國際評測

作 者:李 斌,袁義國,蘆靖雅,馮敏萱,許 超,曲維光,王東波

要:中文古籍?dāng)?shù)量龐大,亟待智能處理方法進行自動處理。古文的自動分詞和詞性標(biāo)注,是古漢語信息處理的基礎(chǔ)任務(wù)。而大規(guī)模詞庫和標(biāo)注語料庫的缺失,導(dǎo)致古漢語自動分析技術(shù)發(fā)展較慢。該文介紹了第一屆古代漢語分詞和詞性標(biāo)注國際評測的概況,評測以人工標(biāo)校的精加工語料庫作為統(tǒng)一的訓(xùn)練數(shù)據(jù),以F1值作為評測指標(biāo),比較了古漢語詞法分析系統(tǒng)在測試數(shù)據(jù)(基測集和盲測集)上的優(yōu)劣。評測還根據(jù)是否使用外部資源,區(qū)分出開放和封閉兩種測試模式。該評測在第十三屆語言資源與評測會議的第二屆歷史和古代語言技術(shù)研討會上舉辦,共有14支隊伍參賽。在基測集上,封閉測試模式分詞和詞性標(biāo)注的F1值分別達到了96.16%和92.05%,開放測試模式分詞和詞性標(biāo)注的F1值分別達到了96.34%和92.56%。在盲測集上,封閉測試分詞和詞性標(biāo)注的F1值分別達到93.64%和87.77%,開放測試分詞和詞性標(biāo)注F1值則分別達到95.03%和89.47%。未登錄詞依然是古代漢語詞法分析的瓶頸。該評測的最優(yōu)系統(tǒng)把目前古漢語詞法分析提高到新的水平,深度學(xué)習(xí)和預(yù)訓(xùn)練模型有力地提高了古漢語自動分析的效果。

關(guān)鍵詞古漢語;評測;自動分詞;詞性標(biāo)注;古文信息處理

引用格式:李斌,袁義國,蘆靖雅,馮敏萱,許超,曲維光,王東波. 第一屆古代漢語分詞和詞性標(biāo)注國際評測[J]. 中文信息學(xué)報. 2023, 37(3): 46-53,64

LI Bin, YUAN Yiguo, LU Jingya, FENG Minxuan, XU Chao, QU Weiguang, WANG Dongbo. Review of the First International Ancient Chinese Word Segmentation and POS Tagging Bakeoff[J].Journal of Chinese Information Processing. 2023, 37(3): 46-53,64

全文鏈接:點擊下載


知識表示與知識獲取

? 結(jié)合四元數(shù)路徑集成和空洞循環(huán)卷積的知識表示

作 者:陳新元,周忠眉,陳慶強,高美春,施達雅

摘 要:為建模知識圖中的復(fù)雜關(guān)系模式,知識補全模型期望提升表示能力和特征提取能力。超復(fù)數(shù)空間容量大于傳統(tǒng)實數(shù)/復(fù)數(shù)空間,相關(guān)計算開銷較小,但現(xiàn)有基于超復(fù)數(shù)嵌入的方法表示/提取能力不足且沒有利用實體間路徑的語義信息。該文首先優(yōu)化現(xiàn)有超復(fù)數(shù)模型設(shè)計以擴大表示空間;接下來將實體間關(guān)系序列整合視作多旋轉(zhuǎn)混合問題,設(shè)計四元數(shù)路徑序列的快速整合方法并理論證明,進一步引入注意力機制集成路徑語義;最后利用空洞循環(huán)卷積增強模型的特征提取能力。通過在主流數(shù)據(jù)集上開展鏈路預(yù)測和路徑查詢實驗,驗證了模型的表示和特征提取能力等,均優(yōu)于Rotate3D等先進對比模型。

關(guān)鍵詞:知識表示;四元數(shù);路徑語義;旋轉(zhuǎn)混合;空洞循環(huán)卷積

引用格式:陳新元,周忠眉,陳慶強,高美春,施達雅. 結(jié)合四元數(shù)路徑集成和空洞循環(huán)卷積的知識表示[J]. 中文信息學(xué)報. 2023, 37(3): 54-64

CHEN Xinyuan, ZHOU Zhongmei, CHEN Qingqiang, GAO Meichun, SHI Daya. Knowledge Representation Combining Quaternion Path Integration and Atrous Circular Convolution[J].Journal of Chinese Information Processing. 2023, 37(3): 54-64

全文鏈接:點擊下載


? 高血壓超關(guān)系知識圖譜建模及用藥決策推理實踐

作 者:謝曉璇,鄂海紅,匡澤民,譚 玲,周庚顯,羅浩然,李峻迪,宋美娜

摘 要:傳統(tǒng)的知識建模方法在醫(yī)學(xué)場景下面臨著知識復(fù)雜性高、難以通過傳統(tǒng)三元組的方式精確表達等問題,需要研究新的本體對醫(yī)學(xué)知識進行建模。該文提出一種應(yīng)用于高血壓領(lǐng)域的三層超關(guān)系知識圖譜模型(Triple-view Hypertension Hyper-relational Knowledge Graph,THH-KG),該方法基于超關(guān)系知識圖譜模型搭建計算層、概念層、實例層三層圖譜架構(gòu),實現(xiàn)多元的醫(yī)學(xué)邏輯規(guī)則、概念知識和實例知識的聯(lián)合表達。此外,該文還提出了在普通圖數(shù)據(jù)庫中超關(guān)系知識圖譜的通用存儲方法,且基于該方法設(shè)計了高血壓知識圖譜推理解釋引擎(Hypertension Knowledge Graph Reasoning Engine,HKG-RE),實現(xiàn)了基于醫(yī)學(xué)規(guī)則的用藥推薦輔助決策應(yīng)用。上述方法在對108位真實高血壓患者的用藥推薦實驗中正確率達到了97.2%。

關(guān)鍵詞:多元關(guān)系;超關(guān)系知識圖譜;高血壓;用藥推薦

引用格式:謝曉璇,鄂海紅,匡澤民,譚玲,周庚顯,羅浩然,李峻迪,宋美娜. 高血壓超關(guān)系知識圖譜建模及用藥決策推理實踐[J]. 中文信息學(xué)報. 2023, 37(3): 65-78

XIE Xiaoxuan, E Haihong, KUANG Zemin, TAN Ling, ZHOU Gengxian,Luo Haoran, LI Jundi, SONG Meina. Triple-view Hyper-relational Knowledge Graph for Hypertension[J].Journal of Chinese Information Processing. 2023, 37(3): 65-78

全文鏈接:點擊下載


機器翻譯

? 利用語義關(guān)聯(lián)增強的跨語言預(yù)訓(xùn)練模型的譯文質(zhì)量評估

作 者:葉 恒, 貢正仙

摘 要:機器翻譯質(zhì)量評估(QE)是在不依賴參考譯文的條件下,自動對機器翻譯譯文進行評估。當(dāng)前人工標(biāo)注數(shù)據(jù)稀缺,使得神經(jīng)QE模型在自動檢測譯文錯誤方面還存在較大問題。為了更好地利用規(guī)模龐大但卻缺少人工標(biāo)注信息的平行語料,該文提出一種基于平行語料的翻譯知識遷移方案。首先采用跨語言預(yù)訓(xùn)練模型XLM-R構(gòu)建神經(jīng)質(zhì)量評估基線系統(tǒng),在此基礎(chǔ)上提出三種預(yù)訓(xùn)練策略增強XLM-R的雙語語義關(guān)聯(lián)能力。該文方法在WMT 2017和WMT 2019的英德翻譯質(zhì)量評估數(shù)據(jù)集上都達到了最高性能。

關(guān)鍵詞:機器翻譯質(zhì)量評估;跨語言預(yù)訓(xùn)練模型;語義關(guān)聯(lián);預(yù)訓(xùn)練策略

引用格式:葉恒,貢正仙. 利用語義關(guān)聯(lián)增強的跨語言預(yù)訓(xùn)練模型的譯文質(zhì)量評估[J]. 中文信息學(xué)報. 2023, 37(3): 79-88

YE Heng, GONG Zhengxian. A Semantic Connection Enhanced Cross-language Pre-trained Model for MT Quality Estimation[J].Journal of Chinese Information Processing. 2023, 37(3): 79-88

全文鏈接:點擊下載


? 基于多元信息融合的神經(jīng)機器譯文自動評價方法

作 者:劉 媛,李茂西,項青宇,李易函

摘 要:機器譯文自動評價對推動機器翻譯發(fā)展和應(yīng)用有著重要作用。最新的神經(jīng)機器譯文自動評價方法使用預(yù)訓(xùn)練語境詞向量提取深層語義特征,并將它們直接拼接輸入多層神經(jīng)網(wǎng)絡(luò)預(yù)測譯文質(zhì)量,其中直接拼接操作容易導(dǎo)致特征間缺乏深入融合,而逐層抽象進行預(yù)測時容易丟失細粒度準(zhǔn)確匹配信息。針對以上問題,該文提出將中期信息融合方法和后期信息融合方法引入譯文自動評價,使用擁抱融合對不同特征進行交互中期融合,基于細粒度準(zhǔn)確匹配的句移距離和句級余弦相似度進行后期融合。在WMT’21 Metrics Task基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,提出的方法能有效提高其與人工評價的相關(guān)性,達到與參加評測最優(yōu)系統(tǒng)的可比性能。

關(guān)鍵詞:機器翻譯;譯文自動評價;信息融合;信息表征;擁抱融合

引用格式:劉媛,李茂西,項青宇,李易函. 基于多元信息融合的神經(jīng)機器譯文自動評價方法[J]. 中文信息學(xué)報. 2023, 37(3): 89-100

LIU Yuan, LI Maoxi, XIANG Qingyu, LI Yihan. Automatic Evaluation of Neural Machine Translation Based on Multiple Information Fusion[J].Journal of Chinese Information Processing. 2023, 37(3): 89-100

全文鏈接:點擊下載


信息抽取與文本挖掘

? 面向少量標(biāo)注數(shù)據(jù)的中文命名實體識別

作 者:張 昀,黃 橙,張玉瑤,黃經(jīng)緯,張宇德,黃麗亞,劉 艷,丁可柯,王秀梅

摘 要:訓(xùn)練數(shù)據(jù)的缺乏是目前命名實體識別存在的一個典型問題。實體觸發(fā)器可以提高模型的成本效益,但這種觸發(fā)器需要大量的人工標(biāo)注,并且只適用于英文文本,缺少對其他語言的研究。為了解決現(xiàn)有TMN模型實體觸發(fā)器高成本和適用局限性的問題,提出了一種新的觸發(fā)器自動標(biāo)注方法及其標(biāo)注模型GLDM-TMN。該模型不僅能夠免去人工標(biāo)注,而且引入了Mogrifier LSTM結(jié)構(gòu)、Dice損失函數(shù)及多種注意力機制增強觸發(fā)器匹配準(zhǔn)確率及實體標(biāo)注準(zhǔn)確率。在兩個公開數(shù)據(jù)集上的仿真實驗表明: 與TMN模型相比,在相同的訓(xùn)練數(shù)據(jù)下,GLDM-TMN模型的F1值在Resume NER數(shù)據(jù)集和Weibo NER數(shù)據(jù)集上分別超出TMN模型0.0133和0.034。同時,該模型僅使用20%訓(xùn)練數(shù)據(jù)比例的性能就可以優(yōu)于使用40%訓(xùn)練數(shù)據(jù)比例的BiLSTM-CRF模型性能。

關(guān)鍵詞:中文命名實體識別;實體觸發(fā)器;Mogrifier LSTM結(jié)構(gòu);聯(lián)合損失函數(shù);注意力機制

引用格式:張昀,黃橙,張玉瑤,黃經(jīng)緯,張宇德,黃麗亞,劉艷,丁可柯,王秀梅. 面向少量標(biāo)注數(shù)據(jù)的中文命名實體識別[J]. 中文信息學(xué)報. 2023, 37(3): 101-111

ZHANG Yun, HUANG Cheng, ZHANG Yuyao, HUANG Jingwei, ZHANG Yude,HUANG Liya, LIU Yan, DING Keke, WANG Xiumei. Chinese Named Entity Recognition with few Labeled Data[J].Journal of Chinese Information Processing. 2023, 37(3): 101-111

全文鏈接:點擊下載


? 基于詞典和字形特征的中文命名實體識別

作 者:于舒娟,毛新濤,張 昀,黃麗亞

摘 要:命名實體識別是自然語言處理中的一項基礎(chǔ)任務(wù)。通過基于詞典的方法增強詞內(nèi)語義和詞邊界信息是中文命名實體識別的主流做法。然而,漢字由象形字演變而來,漢字字形中包含著豐富的實體信息,這些信息在該任務(wù)中卻很少被使用。該文提出了一個基于詞典和字形特征的中文命名實體識別模型,將詞信息和結(jié)構(gòu)信息統(tǒng)一地結(jié)合起來,提高了實體匹配的準(zhǔn)確性。該文首先通過SoftLexicon方法豐富語義信息,并使用改進的部首級嵌入優(yōu)化字符表示;然后通過門卷積網(wǎng)絡(luò)加強了對潛在詞和上下文信息的提??;最后在四個基準(zhǔn)數(shù)據(jù)集上實驗,結(jié)果表明與傳統(tǒng)模型和最新模型相比,基于詞典和字形特征的模型取得了顯著的性能提升。

關(guān)鍵詞:中文命名實體識別;詞典;字形特征

引用格式:于舒娟,毛新濤,張昀,黃麗亞. 基于詞典和字形特征的中文命名實體識別[J]. 中文信息學(xué)報. 2023, 37(3): 112-122

YU Shujuan, MAO Xintao, ZHANG Yun, HUANG Liya. Chinese Named Entity Recognition Based on Lexicon and Glyph Features[J].Journal of Chinese Information Processing. 2023, 37(3): 112-122

全文鏈接:點擊下載


? 多粒度融合的命名實體識別

作 者:孫 紅,王 哲

摘 要:目前主流的命名實體識別算法都是從詞匯增強的角度出發(fā),引入外部詞匯信息提升NER模型獲取詞邊界信息的能力,并未考慮到中文字結(jié)構(gòu)信息在此任務(wù)中的重要作用。因此,該文提出多粒度融合的命名實體識別算法,同時引入中文字結(jié)構(gòu)與外部詞匯信息,通過編碼漢字中每個字部件,并使用注意力機制使得文本序列中的字啟發(fā)式地融合細粒度信息,賦予模型獲取中文字形特征的能力。在多個命名實體識別數(shù)據(jù)集上的實驗結(jié)果顯示,該算法在模型精度以及推理速度方面具有較大優(yōu)勢。

關(guān)鍵詞:信息抽??;中文命名實體識別;注意力機制;詞匯增強;中文字形特征

引用格式:孫紅,王哲. 多粒度融合的命名實體識別[J]. 中文信息學(xué)報. 2023, 37(3): 123-134

SUN Hong, WANG Zhe. A Multi-granularity Approach to Named Entity Recognition[J].Journal of Chinese Information Processing. 2023, 37(3): 123-134

全文鏈接:點擊下載


? 基于協(xié)同集成學(xué)習(xí)的醫(yī)療實體標(biāo)準(zhǔn)化方法

作 者:姜京池,侯俊屹,李 雪,關(guān) 毅,關(guān)昌赫

摘 要:醫(yī)療實體標(biāo)準(zhǔn)化旨在將電子病歷、患者主訴等文本數(shù)據(jù)中非標(biāo)準(zhǔn)化術(shù)語映射為統(tǒng)一且規(guī)范的醫(yī)療實體。針對醫(yī)學(xué)文本普遍存在的標(biāo)注語料規(guī)模小、規(guī)范化程度低等領(lǐng)域特點,該文提出了一種基于多模型協(xié)同的集成學(xué)習(xí)框架,用以解決醫(yī)療實體標(biāo)準(zhǔn)化問題。該框架通過建立多模型之間的“合作與競爭”模式,能夠兼具字符級、語義級等不同標(biāo)準(zhǔn)化方法的優(yōu)勢。具體而言,運用知識蒸餾技術(shù)進行協(xié)同學(xué)習(xí),從各模型中汲取有效特征;利用競爭意識綜合各模型的實體標(biāo)準(zhǔn)化結(jié)果,保證候選集的多樣性。在CHIP-CDN 2021醫(yī)療實體標(biāo)準(zhǔn)化評測任務(wù)中,該文提出的方法在盲測數(shù)據(jù)集上達到了73.985%的F1值,在包括百度BDKG、螞蟻金融Antins、思必馳AIspeech在內(nèi)的255支隊伍中,取得了第二名的成績。后續(xù)實驗結(jié)果進一步表明,該方法可有效對醫(yī)療文本中的術(shù)語進行標(biāo)準(zhǔn)化處理。

關(guān)鍵詞:醫(yī)療實體標(biāo)準(zhǔn)化;知識蒸餾;集成學(xué)習(xí);CHIP-CDN 2021

引用格式:姜京池,侯俊屹,李雪,關(guān)毅,關(guān)昌赫. 基于協(xié)同集成學(xué)習(xí)的醫(yī)療實體標(biāo)準(zhǔn)化方法[J]. 中文信息學(xué)報. 2023, 37(3): 135-142

JIANG Jingchi, HOU Junyi, LI Xue, GUAN Yi, GUAN Changhe. Medical Entity Standardization Method Based on Collaborative Ensemble Learning[J].Journal of Chinese Information Processing. 2023, 37(3): 135-142

全文鏈接:點擊下載


? 基于門控多層感知機的端到端實體關(guān)系聯(lián)合抽取

作 者:賈寶林,尹世群,王寧朝

摘 要:從非結(jié)構(gòu)化文本中進行實體和關(guān)系抽取已經(jīng)成為自然語言處理的一項關(guān)鍵任務(wù),然而命名實體識別(NER)和關(guān)系抽取(RE)兩個任務(wù)經(jīng)常被分開考慮,從而丟失了大量的關(guān)聯(lián)信息。鑒于此,該文提出了一種端到端的基于多層感知機SGM模塊進行信息過濾的實體關(guān)系聯(lián)合抽取方法。該方法在不引入外部其他復(fù)雜特征的情況下獲得了豐富的語義,充分利用了實體和關(guān)系之間的關(guān)聯(lián)。該文從句子級、詞語級和字符級三個級別輸入信息,利用SGM模塊進行信息提取以獲得高效的語義表示,之后利用Span-attention進行融合得到Span的具體表示,最后利用全連接層進行實體和關(guān)系的聯(lián)合抽取。該文使用NYT10和NYT11數(shù)據(jù)集驗證所提方法的有效性。實驗結(jié)果表明,在NYT10和NYT11數(shù)據(jù)集上,該文提出的模型在關(guān)系抽取任務(wù)中的F1值分別達到了70.6%和68.3%,相比于其他模型有較大提升。

關(guān)鍵詞:實體關(guān)系抽??;門控多層感知機;BERT;span-attention

引用格式:賈寶林,尹世群,王寧朝. 基于門控多層感知機的端到端實體關(guān)系聯(lián)合抽取[J]. 中文信息學(xué)報. 2023, 37(3): 143-151

JIA Baolin, YIN Shiqun, WANG Ningchao. An End-to-End Joint Extraction of Entity and Relation Based on MLPs with Gating[J].Journal of Chinese Information Processing. 2023, 37(3): 143-151

全文鏈接:點擊下載


自然語言理解與生成

? 一種基于參考規(guī)范的專業(yè)文本生成方法

作 者:胡 宇,王 艦,孫宇清

摘 要:參考規(guī)范是指專業(yè)知識點的相關(guān)文本描述,參考規(guī)范指導(dǎo)下的文本生成任務(wù)要求自動生成的文本滿足與參考規(guī)范的語義相關(guān)性和知識點匹配性,是自然語言處理領(lǐng)域中的困難問題。相關(guān)工作主要控制生成文本的情感、態(tài)度等通用性質(zhì),無法滿足專業(yè)層面的復(fù)雜控制需求。為此,該文提出了基于對抗架構(gòu)的專業(yè)文本生成模型(PT-GAN),采用多個獨立的生成器分別生成不同知識點匹配程度的文本,各生成器均為自編碼器結(jié)構(gòu),其中編碼器用于提取參考規(guī)范文本的知識點語義特征,解碼器用于生成文本;采用兩個判別器同時對生成文本的語言規(guī)范和專業(yè)知識進行指導(dǎo),其中連貫性判別器用于指導(dǎo)語言規(guī)范,專業(yè)性判別器用于控制專業(yè)層面屬性。在多個國家級專業(yè)考試真實數(shù)據(jù)集上進行實驗,結(jié)果顯示該文模型在語言連貫性、與參考規(guī)范的語義相關(guān)性和知識點匹配性上均有明顯提升,更符合該場景下的文本生成需求。

關(guān)鍵詞:文本生成;生成式對抗網(wǎng)絡(luò);自編碼器;專業(yè)文本

引用格式:胡宇,王艦,孫宇清. 一種基于參考規(guī)范的專業(yè)文本生成方法[J]. 中文信息學(xué)報. 2023, 37(3): 152-163

HU Yu, WANG Jian, SUN Yuqing. Profession Oriented Text Generation Based on Reference Specifications[J].Journal of Chinese Information Processing. 2023, 37(3): 152-163

全文鏈接:點擊下載


? 數(shù)據(jù)庫中文查詢對偶學(xué)習(xí)式生成SQL語句研究

作 者:趙志超,游進國,何培蕾,李曉武

摘 要:針對當(dāng)前中文NL2SQL (Natural language to SQL)監(jiān)督學(xué)習(xí)中需要大量標(biāo)注數(shù)據(jù)問題,該文提出基于對偶學(xué)習(xí)的方式在少量訓(xùn)練數(shù)據(jù)集上進行弱監(jiān)督學(xué)習(xí),將中文查詢生成SQL語句。該文同時使用兩個任務(wù)來訓(xùn)練自然語言轉(zhuǎn)化到SQL,再從SQL轉(zhuǎn)化到自然語言,讓模型學(xué)習(xí)到任務(wù)之間的對偶約束性,獲取更多相關(guān)的語義信息。同時在訓(xùn)練時使用不同比例帶有無標(biāo)簽的數(shù)據(jù)進行訓(xùn)練,驗證對偶學(xué)習(xí)在NL2SQL解析任務(wù)上的有效性。實驗表明,在不同中英文數(shù)據(jù)集ATIS、GEO以及TableQA中,本文模型與基準(zhǔn)模型Seq2Seq、Seq2Tree、Seq2SQL、以及-dual等相比,百分比準(zhǔn)確率至少增加2.1%,其中在中文TableQA數(shù)據(jù)集上采用對偶學(xué)習(xí)執(zhí)行準(zhǔn)確率(Execution Accuracy)至少提升5.3%,只使用60%的標(biāo)簽數(shù)據(jù)就能取得和監(jiān)督學(xué)習(xí)使用90%的標(biāo)簽數(shù)據(jù)相似的效果。

關(guān)鍵詞:NL2SQL;對偶學(xué)習(xí);語義解析;半監(jiān)督學(xué)習(xí)

引用格式:趙志超,游進國,何培蕾,李曉武. 數(shù)據(jù)庫中文查詢對偶學(xué)習(xí)式生成SQL語句研究[J]. 中文信息學(xué)報. 2023, 37(3): 164-172

ZHAO Zhichao, YOU Jinguo, HE Peilei, LI Xiaowu. Generating SQL Statement from Chinese Query Based on Dual Learning[J].Journal of Chinese Information Processing. 2023, 37(3): 164-172

全文鏈接:點擊下載



↑點開查看清晰大圖

特別說明:本文僅用于學(xué)術(shù)交流,如有侵權(quán)請后臺聯(lián)系小編刪除。

- END -

轉(zhuǎn)載來源:中文信息學(xué)報

轉(zhuǎn)載編輯:王晨諭

審核陳杲 王贇 Ethan 陳柯淼


期刊搶鮮 | 《中文信息學(xué)報》2023年第3期(37卷第3期)目錄及摘要的評論 (共 條)

分享到微博請遵守國家法律
沧源| 和林格尔县| 昔阳县| 清丰县| 东山县| 监利县| 朝阳区| 长岛县| 东丽区| 辰溪县| 独山县| 太湖县| 泸溪县| 观塘区| 洛浦县| 四平市| 什邡市| 玉溪市| 元朗区| 大竹县| 鄂托克旗| 遂溪县| 永寿县| 乡宁县| 宁远县| 伊川县| 延长县| 来安县| 宜兰市| 大方县| 龙山县| 沾益县| 雅安市| 闽清县| 瑞丽市| 莲花县| 开阳县| 丹棱县| 沈阳市| 永福县| 五原县|