貪心學(xué)院自然語言處理高級魔鬼訓(xùn)練營 第十期

什么是命名實(shí)體識別
命名實(shí)體識別(NER)是信息提?。↖nformation Extraction)的一個(gè)子任務(wù),主要涉及如何從文本中提取命名實(shí)體并將其分類至事先劃定好的類別,如在招聘信息中提取具體招聘公司、崗位和工作地點(diǎn)的信息,并將其分別歸納至公司、崗位和地點(diǎn)的類別下。命名實(shí)體識別往往先將整句拆解為詞語并對每個(gè)詞語進(jìn)行此行標(biāo)注,根據(jù)習(xí)得的規(guī)則對詞語進(jìn)行判別。這項(xiàng)任務(wù)的關(guān)鍵在于對未知實(shí)體的識別?;诖?,命名實(shí)體識別的主要思想在于根據(jù)現(xiàn)有實(shí)例的特征總結(jié)識別和分類規(guī)則。這些方法可以被分為有監(jiān)督(supervised)、半監(jiān)督(semi-supervised)和無監(jiān)督(unsupervised)三類。有監(jiān)督學(xué)習(xí)包括隱形馬科夫模型(HMM)、決策樹、最大熵模型(ME)、支持向量機(jī)(SVM)和條件隨機(jī)場(CRF)。這些方法主要是讀取注釋語料庫,記憶實(shí)例并進(jìn)行學(xué)習(xí),根據(jù)這些例子的特征生成針對某一種實(shí)例的識別規(guī)則。
什么是詞性標(biāo)注
詞性標(biāo)注 (pos tagging) 是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性的程序,也即確定每個(gè)詞是名詞、動詞、形容詞或其他詞性的過程。
什么是文本分類
該技術(shù)可被用于理解、組織和分類結(jié)構(gòu)化或非結(jié)構(gòu)化文本文檔。文本挖掘所使用的模型有詞袋(BOW)模型、語言模型(ngram)和主題模型。隱馬爾可夫模型通常用于詞性標(biāo)注(POS)。其涵蓋的主要任務(wù)有句法分析、情緒分析和垃圾信息檢測。