中文分詞技術(shù)畢業(yè)論文開題報告
1 課題概述
隨著網(wǎng)絡(luò)的高速發(fā)展,社會的信息化水平不斷提高,人們越來越習(xí)慣,也越來越依賴從互聯(lián)網(wǎng)中獲取信息。面對當(dāng)前信息呈現(xiàn)的爆炸性增長趨勢,我們迫切地需要優(yōu)質(zhì)、準(zhǔn)確、快捷、簡單、合理的手段對海量信息進行檢索,從中獲取有效的數(shù)據(jù)。作為海量信息檢索中最首要的預(yù)處理手段,分詞技術(shù)應(yīng)運而生。
在自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。而分詞技術(shù)指的是將文本拆分成詞的一種技術(shù)。它屬于自然語言處理技術(shù)的范疇,是文本分類、數(shù)據(jù)檢索、信息抽取、機器翻譯、自動摘要、文本語音輸入輸出等研究領(lǐng)域的基礎(chǔ)所在。
至于中文分詞(Chinese Word Segmentation),則是將中文文本中的漢字序列合理切分成一個個單獨的詞,并對其進行分析處理,然后將文本中的字序列按照一定的規(guī)則重新組合成詞序列的過程。
眾所周知,中文與作為拉丁語系語言代表的英文相比,有著明顯的區(qū)別。英文以空格作為天然的分隔符,詞與詞之間的區(qū)分很明顯,并不需要特殊的分詞技術(shù)。而中文由于繼承了古代漢語的傳統(tǒng),以字作為基本的書寫單位,詞都處于具體的語句之中,所以并不存在天然的界限。因此,僅僅通過句子或段落間的分隔標(biāo)志進行切分是不可行的。同時,由于中文語義的復(fù)雜性與語法的多變性,大多數(shù)英文分詞技術(shù)不能直接適用于中文分詞。
盡管如此,中文分詞技術(shù)依然是中文信息處理的基礎(chǔ)與關(guān)鍵所在。作為自然語言處理與信息檢索領(lǐng)域的研究熱點,中文分詞技術(shù)不斷地發(fā)展,并被廣泛應(yīng)用于信息檢索、搜索引擎、機器翻譯、中文校對、文本語音輸入輸出等方面。而近年來對中文分詞技術(shù)的需求與要求的不斷提高,也在一定程度上刺激了中文分詞技術(shù)的發(fā)展。
目前,中文分詞技術(shù)正在逐漸邁向成熟。但是在其關(guān)鍵技術(shù)上,依然有改進的空間。本課題的目的即在于,在前人的研究基礎(chǔ)上,通過對中文數(shù)據(jù)檢索中的分詞檢索機制進行研究,以期初步實現(xiàn)一種可行的中文分詞技術(shù),使之具備一定的實用意義與理論價值。
2 國內(nèi)外發(fā)展現(xiàn)狀
自20世紀(jì)80年代初至今,中文分詞技術(shù)的概念被提出以來,中文信息處理領(lǐng)域有了長足的進步與發(fā)展。其發(fā)展歷程大致如下:
1983年,梁南元等人將最大匹配法—MM方法(The Maximum Matching Method)與逆向的最大匹配法—RMM方法(The Reverse Maximum Matching Method)兩種分詞方法應(yīng)用于中文分詞系統(tǒng)CDWS(The Modern Printed Chinese Distinguishing Word System,現(xiàn)代書面漢語自動分詞系統(tǒng))中。
1989年,揭春雨、梁南元等人在考查中文信息處理領(lǐng)域中已有的幾種中文分詞方法后,提出自動分詞方法的結(jié)構(gòu)模型正向增大最大匹配法ASM,并對幾種中文分詞方法的時間復(fù)雜度及其對分詞速度、分詞精度的影響進行分析,同時指出在中文分詞中設(shè)立“切分標(biāo)志”并無意義。隨后于1991年設(shè)計并實現(xiàn)了中文分詞系統(tǒng)CASS(Chinese Automatic Segmenting System,漢語自動分詞實用系統(tǒng))。
1991年,何克抗等人通過對歧義切分字段產(chǎn)生的根源和性質(zhì)進行深入分析,把歧義字段從性質(zhì)上分為四類,并給出了消除每一類歧義切分字段的有效方法。在對歧義字段進行統(tǒng)計分析的基礎(chǔ)上提出了切分精度的“四級指標(biāo)體系”,并論證了專家系統(tǒng)方法是實現(xiàn)自動分詞系統(tǒng)的最佳方案。
1994年,孫茂松等人就中文分詞中特有的中文姓名自動辨識作了深入的研究,提出了一種中文文本中自動辨識中文姓名的算法。通過從新華通訊社新聞?wù)Z料庫中隨機抽取的300個包含中文姓名的句子作為測試樣本,結(jié)果表明,召回率達到了99.77%。
1996年,吳勝遠對當(dāng)時現(xiàn)有的漢語分詞方法作了概述后,提出了一種新的漢語分詞方法——單掃描分詞方法,并對單掃描漢語分詞方法的時間復(fù)雜度作了分析。分析表明,單掃描分詞方法的時間復(fù)雜度為2.89,比當(dāng)時現(xiàn)有的分詞方法的時間復(fù)雜度12.32小得多。單掃描分詞方法無論在理論,還是在實踐上都有重大意義。隨后,又根據(jù)多級內(nèi)碼理論,成功設(shè)計出了一種并行分詞方法,大大提高了分詞速度。同時,這種并行分詞方法也便于設(shè)計成集成電路。
1998年,尹峰等人將人工神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于漢語自動分詞的隱射模型和性能,著重分析網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法對歧義詞切分的影響,在大量仿真實驗的基礎(chǔ)上,設(shè)計并實現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的漢語自動分詞系統(tǒng)。
1999年,黃德根等人提出基于一種最長次長匹配原則的漢語自動分詞算法,具有較好的分詞效果。隨后于2010年,在最長次長匹配分詞的基礎(chǔ)上,提出一種一體化同步詞法分析機制,實現(xiàn)了分詞和詞性標(biāo)注的一體化、未登錄詞識別與分詞的一體化以及不確定詞性未登錄詞處理的一體化。
2000年,陳桂林等人在介紹了一種高效的支持首字Hash和標(biāo)準(zhǔn)二分查找,且不顯詞條長度的中文電子詞表數(shù)據(jù)后,提出了一種改進的快速分詞算法。在快速查找二字詞的基礎(chǔ)上,利用近鄰匹配方法來查找多字詞,明顯提高了分詞效率。分析表明,該分詞算法的時間復(fù)雜度為1.66,在速度方面,由于當(dāng)時所見的同類算法。
2002年,李振星等人在對中文編碼體系和中文分詞的算法進行研究的基礎(chǔ)上,提出了一種新的分詞詞典,并基礎(chǔ)這種分詞設(shè)計了一種快速的分詞算法——全二分最大匹配快速分詞算法。
2003年,首屆國際中文分詞評測Bakeoff(國內(nèi)863、973分詞測評)在日本札幌舉辦,基于字標(biāo)注的統(tǒng)計學(xué)方法引起人們的廣泛關(guān)注。Bakeoff通過不同標(biāo)準(zhǔn)的分詞語料同臺測試,完成了從“分詞規(guī)范”到“規(guī)范+詞表”,再從“規(guī)范+詞表”到“分詞語料庫”的“詞語”的定義過程。
后來,經(jīng)過多年的分析與研究,中文分詞技術(shù)逐漸趨于成熟,中文分詞系統(tǒng)也逐漸被應(yīng)用于中文信息處理的各個領(lǐng)域。以下是自中文分詞技術(shù)被提出以來,相對成熟的幾個中文分詞系統(tǒng):
(1)CDWS分詞系統(tǒng)
CDWS分詞系統(tǒng)由北京航空航天大學(xué)于1983年設(shè)計并實現(xiàn),是我國第一個自動分詞系統(tǒng)。它采用最大正向匹配分詞算法,并結(jié)合尾字構(gòu)詞知識進行糾錯。切分速度為11-15字/秒。
(2)CASS分詞系統(tǒng)
CASS分詞系統(tǒng)由北京航空航天大學(xué)于1989年設(shè)計并實現(xiàn)。它采用正向增字最大匹配分詞算法,包括總控程序、自動分詞、設(shè)施管理、分詞詞典和知識庫五個部分,并結(jié)合知識庫處理歧義字段。切分速度為200字/秒。
(3)SEG/SEGTAG分詞系統(tǒng)
SEG/SEGTAG分詞系統(tǒng)均由清華大學(xué)設(shè)計并實現(xiàn)。其區(qū)別在于SEG分詞系統(tǒng)集成了正向、逆向、雙向最大匹配以及全切分等幾種分詞算法,而SEGTAG分詞系統(tǒng)則在此基礎(chǔ)上添加了切分標(biāo)志。分析表明,兩者的切分精度均可達到99%左右。
(4)ICTCLAS分詞系統(tǒng)
ICTCLAS分詞系統(tǒng)由中國科學(xué)院設(shè)計并實現(xiàn),它采用層疊隱馬爾可夫模型,將中文分詞、詞性標(biāo)注、歧義詞處理和未登錄詞識別等集成到一個完整的系統(tǒng)框架中,是目前應(yīng)用最廣泛的分詞系統(tǒng)。
3 課題內(nèi)容
隨著人們對中文分詞技術(shù)的不斷研究,各種各樣的中文分詞算法被不斷提出,評價算法優(yōu)劣的標(biāo)準(zhǔn)也逐漸趨于定式,而針對中文分詞技術(shù)存在的難點問題,也取得了不同程度上的進展。
本文首先分析了當(dāng)前中文分詞技術(shù)的研究背景及發(fā)展?fàn)顩r,隨后研究了主流的幾種中文分詞算法及其中文分詞系統(tǒng)性能的評價指標(biāo),并根據(jù)中文分詞的技術(shù)難點做出詳細介紹,最后將在第5章節(jié)中提出初步的技術(shù)難點解決方案。
3.1 主流中文分詞算法簡介
目前的中文分詞算法主要分為三大類:基于字符串匹配的分詞算法、基于統(tǒng)計的分詞算法與基于理解的分詞算法。
(1)基于字符串匹配的分詞算法
基于字符串匹配的分詞算法,又稱作機械分詞方法,或基于字典的分詞方法。該算法按照一定的策略將待切分的漢字串與一個“充分大”的詞庫進行匹配,若找到某個詞條,則匹配成功。它有三個要素:文本掃描順序、匹配原則和分詞詞典。文本掃描順序分為正向掃描、逆向掃描和雙向掃描三種。匹配原則分為最大匹配、最小匹配、最佳匹配和逐詞匹配等。
該分詞算法速度較快,但容易產(chǎn)生歧義、也不能解決未登錄詞的問題。
①最大正向匹配分詞算法
假設(shè)詞典最長詞條所含字數(shù)為n,則取被處理文本當(dāng)前字符串序列中的前n個字符作為匹配字段,在分詞詞典中進行查找,若找到某個詞條,則匹配成功。若找不到,則匹配失敗,并去掉匹配字段最后一個字,剩下的字符作為新的匹配字段,再匹配下去,直到匹配成功為止。
②最大逆向匹配分詞算法
基本方法與最大正向匹配分詞算法相同,區(qū)別在于該算法從待切分漢字串的末尾開始處理,若匹配不成功則去掉最前面的一個漢字。根據(jù)大量測試數(shù)據(jù)統(tǒng)計結(jié)果表明,單純使用最大正向匹配分詞算法的錯誤率為1/169,單純使用最大逆向匹配分詞算法的錯誤率為1/245。逆向匹配的切分精度略高于正向匹配,同時,在處理歧義字段的精度上,逆向匹配同樣略高于正向匹配。
基于上述兩種最大匹配算法,產(chǎn)生了一種新的名為雙向匹配的分詞算法,其原理為將最大正向匹配分詞算法與最大逆向匹配分詞算法的切分結(jié)果相結(jié)合,切分精度相對兩者有了提高。由于其目的著重于歧義字段的檢測與糾錯,因此能夠消解部分歧義現(xiàn)象。但執(zhí)行算法時需要進行雙向掃描,時間復(fù)雜度有所增加。
③最佳匹配分詞算法
將詞條按照詞頻大小進行排列,縮短對分詞詞典檢索時間,降低了分詞的時間復(fù)雜度,提高了分詞速度。這是對分詞詞典的一種組織方式,對分詞精度沒有影響。由于分詞詞典每個詞條前都有一個詞的長度的數(shù)據(jù)項,因此空間復(fù)雜度有所增加。
④切分標(biāo)志算法
切分標(biāo)志分為自然切分標(biāo)志和非自然切分標(biāo)志。自然切分標(biāo)志指的是文本中出現(xiàn)的所有非文字符號,如標(biāo)點符號等。非自然標(biāo)志指的是利用詞綴和不構(gòu)成詞的詞,如單音詞、象聲詞等。該算法對分詞精度沒有影響。由于需要額外消耗時間來掃描切分標(biāo)志,花費存儲空間來存放非自然切分標(biāo)志,因此時間復(fù)雜度和空間復(fù)雜度都有所增加。
(2)基于統(tǒng)計的分詞算法
基于統(tǒng)計的分詞算法,首先需要采用全切分算法將詞庫中的詞條按照長短順序進行排列,并以此為基礎(chǔ)搜索待處理的漢字串,知道把所有可能的詞全部切分出來。然后綜合運用統(tǒng)計語言模型如N-gram、互信息、隱馬爾可夫、最大熵等對結(jié)果進行判定。
該算法需要對已有的訓(xùn)練集或語料庫進行預(yù)處理,其復(fù)雜度和規(guī)模龐大,并且由于分詞中存在大量的數(shù)據(jù)概率計算,導(dǎo)致時間復(fù)雜度和空間復(fù)雜度極高。
(3)基于理解的分詞算法
基于理解的分詞算法,通過分詞的同時進行語義和句法分析,利用語義信息和句法信息處理字段歧義。由于該算法需要大量的語言知識和信息,而漢語又具有籠統(tǒng)和復(fù)雜性的特點,目前仍處于初始實驗階段。
①專家系統(tǒng)分詞算法
從專家系統(tǒng)的角度把分詞過程獨立出來,使知識庫的維護和分詞過程互不干擾,易于管理和維護。
②神經(jīng)網(wǎng)絡(luò)分詞算法
模擬人腦并行、分布處理和建立數(shù)值計算模型,將分詞知識存入神經(jīng)網(wǎng)絡(luò)內(nèi)部,通過自學(xué)習(xí)和訓(xùn)練修改內(nèi)部權(quán)值,達到分詞效果。
③專家系統(tǒng)與神經(jīng)網(wǎng)絡(luò)集成分詞算法
首先啟動神經(jīng)網(wǎng)絡(luò)進行分詞,當(dāng)切分結(jié)果不準(zhǔn)確時,激活專家系統(tǒng)進行分析判斷,并根據(jù)知識庫進行推理,得到初步分析結(jié)果,再啟動神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機制進行訓(xùn)練。
基于上述三種分詞算法各有優(yōu)劣,我們認識到,單一的分詞方法很難達到理想的效果。因此,目前成熟的中文分詞系統(tǒng)都是考慮將集中不同的算法結(jié)合在一起,或者是用多算法來處理別的問題,以便達到較好的分詞效果。
3.2 常見中文分詞系統(tǒng)性能評價指標(biāo)
常見的中文分詞系統(tǒng)性能評價指標(biāo)有:切分精度、切分速度、召回率、準(zhǔn)確率等。
(1)切分精度:是中文分詞系統(tǒng)的主要評價指標(biāo)之一,表明分詞系統(tǒng)的準(zhǔn)確性。計算公式如下所示
切分精度=正確切分的詞數(shù)/正確結(jié)果總詞數(shù)×100%
(2)切分速度:是中文分詞系統(tǒng)的主要評價指標(biāo)之一,表明分詞系統(tǒng)的快慢行,和切分精度是相對存在的,某一指標(biāo)的提升將以另一指標(biāo)的下降為代價。計算公式如下所示:
切分速度=切分結(jié)束時間?切分開始時間
(3)召回率:是中文分詞系統(tǒng)中未登錄詞識別的評價標(biāo)準(zhǔn)之一。計算公式如下所示:
召回率=正確識別的新詞總數(shù)/文本中的新詞總數(shù)×100%
(4)準(zhǔn)確率:是中文分詞系統(tǒng)中未登錄詞識別的評價標(biāo)準(zhǔn)之一,召回率反映了未登錄詞識別的完整性,準(zhǔn)確率反映了未登錄詞識別的準(zhǔn)確性。計算公式如下所示:
準(zhǔn)確率=正確識別的新詞總數(shù)/識別的新詞總數(shù)×100%
3.3 中文分詞技術(shù)難點
由于中文語義的復(fù)雜性與語法的多變性,中文分詞技術(shù)在研究的過程中,常常遇到許多不同于英文分詞的問題,總結(jié)來說,主要表現(xiàn)為以下四個方面:
(1)“詞”是否有清晰的界定:由于中文是由連續(xù)的字構(gòu)成的有序序列,詞與詞之間并沒有明顯的間隔標(biāo)記,因此詞的劃分沒有明確的標(biāo)準(zhǔn)。盡管1998年國家教委和語委發(fā)布了《漢語拼音正詞法基本規(guī)則》,并在1992年制定了國家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語分詞規(guī)范》,但到目前為止仍未有廣泛被認可的詞與分詞單位非形式化定義。
(2)分詞和理解孰先孰后:由于中文文本的理解通常需要結(jié)合上下文,先分詞或先理解,抑或兩者同時進行,沒有特定的標(biāo)準(zhǔn)。而計算機需要依靠詞的信息來理解文本內(nèi)容,因此會首先根據(jù)詞標(biāo)注的各項信息進行分詞,無法做到完全準(zhǔn)確的切分。
(3)分詞歧義消解:由于到目前為止仍沒有廣泛被認可分詞標(biāo)準(zhǔn),詞性概念模糊,同一文本可能被切分成多種形式的的分詞結(jié)果,將嚴(yán)重影響中文分詞的精度。
(4)未登錄詞(Out-of-vocabulary, OOV)識別:由于新詞不斷增加,而詞典的容量有限,更新速度不一定跟得上新詞產(chǎn)生的速度,因此文本中必然會存在詞典中沒有收錄的詞,該問題的解決有賴于人們對漢語結(jié)構(gòu)的進一步認識。
隨著對中文分詞技術(shù)的研究不斷深入,尤其是2003年國際中文分詞評測活動Bakeoff開展以來,中文分詞技術(shù)有了可喜的進步。針對上述四個方面的問題,也有了不同程度的進展:
(1)通過“分詞規(guī)范+詞表+分詞語料庫”的方法,使中文詞語在真是文本中得到可計算的定義,這是實現(xiàn)計算機自動分詞和可比評測的基礎(chǔ)。
(2)實踐證明,基于手工規(guī)則的分詞系統(tǒng)在評測中不敵基于統(tǒng)計學(xué)習(xí)的分詞系統(tǒng)。
(3)在Bakeoff數(shù)據(jù)上的估算表明,未登錄詞(OOV)造成的分詞精度失落至少比分詞歧義大5倍以上。
(4)迄今為止的實驗結(jié)果表明,能夠大幅度提高未登錄詞識別性能的字標(biāo)注統(tǒng)計學(xué)習(xí)方法由于以往基于此(或詞典)的方法,并使自動分詞系統(tǒng)的精度達到了新高。
4 預(yù)期目標(biāo)
(1)在前人的研究基礎(chǔ)上,通過對中文數(shù)據(jù)檢索中的分詞檢索機制進行研究,并對現(xiàn)有的中文分詞算法進行改進,以期初步實現(xiàn)一種可行的中文分詞技術(shù),使之具備一定的實用意義與理論價值
(2)改進后的中文分詞算法應(yīng)當(dāng)具有較高的分詞精度以及較快的分詞速度同時,應(yīng)在一定程度上能夠解決分詞歧義及未登錄詞的識別問題。
5 技術(shù)路線
????(1)通過基于字符串匹配與基于統(tǒng)計的分詞算法相結(jié)合的方式,實現(xiàn)一種新的可行的中文分詞算法。
(2)采用雙向匹配檢索法、逐詞掃描最大匹配法等檢測歧義字段,并通過人工規(guī)則及詞概率統(tǒng)計進行分詞歧義消解。
(3)采用建立專有詞庫、有窮多層列舉、詞性標(biāo)注等方法識別未登錄詞。
6 課題研究計劃
2013-12-25~2014-02-14 ?查閱相關(guān)資料
2014-02-15~2014-02-28 ?外文資料翻譯
2014-03-01~2014-03-15 ?畢業(yè)設(shè)計開題
2014-03-16~2014-03-31 ?中文分詞檢索機制設(shè)計與分析
2014-04-01~2014-04-30 ?中文分詞檢索機制實現(xiàn)
2014-05-01~2014-06-05 ?論文撰寫
7 參考文獻
[1] 黃昌寧, 趙海. 中文分詞十年回顧. 中文信息學(xué)報. 2007. 21(3):8-19
[2] 梁南元. 書面漢語自動分詞系統(tǒng)—CDWS. 中文信息學(xué)報. 1987. 1(2):44-52
[3] 揭春雨, 劉源, 梁南元. 論漢語自動分詞方法. 中文信息學(xué)報. 1989. 3(1):1-9
[4] 揭春雨. “信息化處理用現(xiàn)代漢語分詞規(guī)范”的若干問題探討. 中文信息學(xué)報.1989. 3(4):33-41
[5] 揭春雨, 劉源, 梁南元. 漢語自動分詞實用系統(tǒng)CASS的設(shè)計與實現(xiàn). 中文信息學(xué)報. 1991. 5(4):27-34
[6] 何克抗, 徐輝, 孫波. 書面漢語自動分詞專家系統(tǒng)設(shè)計原理. 中文信息學(xué)報. 1991. 5(2):1-28
[7] 孫茂松, 黃昌寧, 高海燕, 方捷. 中文姓名的自動辨識. 中文信息學(xué)報. 1994. 9(2):16-27
[8] 吳勝遠. 一種漢語分詞方法. 計算機研究與發(fā)展. 1996. 33(4):306-311
[9] 吳勝遠. 并行分詞方法研究. 計算機研究與發(fā)展. 1997. 34(7):542-545
[10]林亞平, 李彥, 童調(diào)生, 尹峰. 漢語自動分詞中的神經(jīng)網(wǎng)絡(luò)技術(shù)研究. 湖南大學(xué)學(xué)報. 1997. 24(6):95-101
[11]尹峰. 基于神經(jīng)網(wǎng)絡(luò)的漢語自動分詞系統(tǒng)的設(shè)計與分析. 情報學(xué)報. 1998. 17(1):41-50
[12]黃德根, 朱和合, 王昆侖, 楊元生, 鐘萬勰. 基于最長次長匹配的漢語自動分詞. 大連理工大學(xué)學(xué)報. 1999. 39(6):831-835
[13]孫曉, 黃德根. 基于最長次長匹配分詞的一體化中文詞法分析. 大連理工大學(xué)學(xué)報. 2010. 50(6):1028-1034
[14]陳桂林, 王永成, 韓客松, 王剛. 一種改進的快速分詞算法. 計算機研究與發(fā)展. 2000. 37(4):418-424
[15]李振星, 徐澤平, 唐衛(wèi)清, 唐榮錫. 全二分最大匹配快速分詞算法. 計算機工程與應(yīng)用. 2002. 11:106-109
[16]奉國和, 鄭偉. 國內(nèi)中文自動分詞技術(shù)研究. 圖書情報工作. 2011. 55(2): 41-45