深度之眼人工智能paper年度會(huì)員(多模態(tài)方向)
2023-05-23 13:03 作者:bili_73767213996 | 我要投稿
主流技術(shù)
中文本糾錯(cuò)的 paper 很多,整體來(lái)看,可以統(tǒng)一在一個(gè)框架下,即三大步:

錯(cuò)誤識(shí)別
該階段主要目的在于,判斷文本是否存在錯(cuò)誤需要糾正,如果存在則傳遞到后面兩層。這一階段可以提高整體流程的效率。
錯(cuò)誤識(shí)別/檢測(cè)的目標(biāo)是識(shí)別輸入句子可能存在的問(wèn)題,采用序列表示(Transformer/LSTM)+CRF的序列預(yù)測(cè)模型,這個(gè)模型的創(chuàng)新點(diǎn)主要包括:
1、詞法/句法分析等語(yǔ)言先驗(yàn)知識(shí)的充分應(yīng)用;
2、特征設(shè)計(jì)方面,除了DNN相關(guān)這種泛化能力比較強(qiáng)的特征,還結(jié)合了大量hard統(tǒng)計(jì)特征,既充分利用DNN模型的泛化能力,又對(duì)低頻與OOV(Out of Vocabulary)有一定的區(qū)分;
3、最后,根據(jù)字粒度和詞粒度各自的特點(diǎn),在模型中對(duì)其進(jìn)行融合,解決詞對(duì)齊的問(wèn)題
標(biāo)簽: