最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

動(dòng)畫講編程基于深度學(xué)習(xí)的文本分類

2023-08-18 16:23 作者:bili_74890469624  | 我要投稿

中文分詞

針對(duì)中文文本分類時(shí),很關(guān)鍵的一個(gè)技術(shù)就是中文分詞。特征粒度為詞粒度遠(yuǎn)遠(yuǎn)好于字粒度,其大部分分類算法不考慮詞序信息,基于字粒度的損失了過多的n-gram信息。下面簡(jiǎn)單總結(jié)一下中文分詞技術(shù):基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法 [1]。

1,基于字符串匹配的分詞方法:
過程:這是一種基于詞典的中文分詞,核心是首先建立統(tǒng)一的詞典表,當(dāng)需要對(duì)一個(gè)句子進(jìn)行分詞時(shí),首先將句子拆分成多個(gè)部分,將每一個(gè)部分與字典一一對(duì)應(yīng),如果該詞語在詞典中,分詞成功,否則繼續(xù)拆分匹配直到成功。
核心: 字典,切分規(guī)則和匹配順序是核心。
分析:優(yōu)點(diǎn)是速度快,時(shí)間復(fù)雜度可以保持在O(n),實(shí)現(xiàn)簡(jiǎn)單,效果尚可;但對(duì)歧義和未登錄詞處理效果不佳。

2,基于理解的分詞方法:基于理解的分詞方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過程。這種分詞方法需要使用大量的語言知識(shí)和信息。由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。

3,基于統(tǒng)計(jì)的分詞方法:
過程:統(tǒng)計(jì)學(xué)認(rèn)為分詞是一個(gè)概率最大化問題,即拆分句子,基于語料庫(kù),統(tǒng)計(jì)相鄰的字組成的詞語出現(xiàn)的概率,相鄰的詞出現(xiàn)的次數(shù)多,就出現(xiàn)的概率大,按照概率值進(jìn)行分詞,所以一個(gè)完整的語料庫(kù)很重要。
主要的統(tǒng)計(jì)模型有: N元文法模型(N-gram),隱馬爾可夫模型(Hidden Markov Model ,HMM),最大熵模型(ME),條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)等。


動(dòng)畫講編程基于深度學(xué)習(xí)的文本分類的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
江口县| 广宁县| 凤翔县| 大兴区| 高清| 平和县| 石棉县| 咸丰县| 东台市| 上虞市| 栾城县| 县级市| 商都县| 浦城县| 咸丰县| 临汾市| 弋阳县| 镇安县| 庆云县| 密云县| 桐梓县| 遵义县| 疏附县| 疏勒县| 东丽区| 沾化县| 温州市| 舞阳县| 罗源县| 安国市| 聊城市| 额尔古纳市| 博白县| 敦化市| 米林县| 黑龙江省| 肥东县| 普定县| 军事| 卢氏县| 淳化县|