Python文本挖掘——LDA模型實(shí)現(xiàn)

注:完整代碼可以關(guān)注公眾號獲取
1、簡介
在機(jī)器學(xué)習(xí)領(lǐng)域,LDA是兩個(gè)常用模型的簡稱:Linear Discriminant Analysis和Latent Dirichlet Allocation。本文的LDA是指Latent Dirichlet Allocation,它在主題模型中占有非常重要的地位,常用來文本分類。
LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用來推測文檔的主題分布。它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題分布后,便可以根據(jù)主題分布進(jìn)行主題聚類或文本分類。
2、原理
LDA模型它是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成,詞與詞之間沒有先后順序的關(guān)系。此外,一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。
人類生成文檔是基于概率選取主題及其對應(yīng)的詞匯的方式,即一篇文章的每個(gè)詞都是通過“以一定概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語”這樣一個(gè)過程得到。
那么LDA要做的就是通過文檔反推主題。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。
用LDA來進(jìn)行主題建模就是要以無指導(dǎo)學(xué)習(xí)的方法從文本中發(fā)現(xiàn)隱含的語義維度-即“Topic”或者“Concept”。隱性語義分析的實(shí)質(zhì)是要利用文本中詞項(xiàng)(term)的共現(xiàn)特征來發(fā)現(xiàn)文本的Topic結(jié)構(gòu),這種方法不需要任何關(guān)于文本的背景知識。
3、實(shí)現(xiàn)過程
這一過程可以通過Python輕松實(shí)現(xiàn)。需要的Python 包有:
?pandas,pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。在 Windows 下使用 pip 安裝:pip install pandas.?gensim,包含我們要用到的 LDA 模型的一個(gè)主題模型包。在 Windows 下使用 pip 安裝:pip install gensim.?jieba,是一款優(yōu)秀的 Python 第三方中文分詞庫。在 Windows 下使用 pip 安裝:pip install jieba.
3.1 導(dǎo)入包

3.2 分詞

3.3 將文檔表示成詞袋向量


3.4 LDA建模

打印主題

完整代碼

近期文章
Python入門:
Python安裝與環(huán)境配置
Python基礎(chǔ)用法 |《Python與開源GIS》
Python讀取excel的兩種方法
Python讀取json數(shù)據(jù)
Python基本庫——解析庫XPath
Python基本庫—正則表達(dá)式(regex)
第一個(gè)Python爬蟲
空間分析:
開工了開工了!空間計(jì)量模型系列教程一
空間計(jì)量模型系列教程二
情人節(jié)特輯之帶有驚喜的空間計(jì)量模型系列教程三
空間計(jì)量模型系列教程四
空間計(jì)量模型系列教程五(完結(jié)啦)
空間計(jì)量||空間權(quán)重矩陣
空間計(jì)量——用GeoDa和stata生成空間權(quán)重矩陣的方法
空間計(jì)量|| matlab實(shí)現(xiàn)空間計(jì)量模型SAR、SEM、SDM
分享||空間計(jì)量科研工具(一)
區(qū)域經(jīng)濟(jì):
經(jīng)濟(jì)地理學(xué)是經(jīng)濟(jì)學(xué)還是地理學(xué)?附重點(diǎn)外文期刊目錄
經(jīng)濟(jì)地理基本認(rèn)識:異質(zhì)性與尺度、格局、結(jié)構(gòu)、功能
分享||區(qū)域與城市經(jīng)濟(jì)學(xué)、房地產(chǎn)經(jīng)濟(jì)學(xué)與資源環(huán)境經(jīng)濟(jì)學(xué)慕課
復(fù)旦大學(xué)城市經(jīng)濟(jì)研究所推薦閱讀文獻(xiàn)
北京大學(xué)《城市經(jīng)濟(jì)學(xué)》推薦閱讀文獻(xiàn)
城市、區(qū)域經(jīng)濟(jì)學(xué)必讀書目推薦
其他:
MK突變檢驗(yàn)的matla實(shí)現(xiàn)
一個(gè)機(jī)智的MATLAB出圖tips
綜合評價(jià)||泰爾指數(shù)的matlab實(shí)現(xiàn)
空間計(jì)量之評價(jià)||DEA常見模型的matlab的實(shí)現(xiàn)(1)——CCR
空間計(jì)量之評價(jià)||DEA常見模型的matlab的實(shí)現(xiàn)(2)——非期望產(chǎn)出SBM
空間計(jì)量之評價(jià)||DEA常見模型的matlab的實(shí)現(xiàn)(2)——無非期望產(chǎn)出SBM
CiteSpace實(shí)操教程
基于SPSS的調(diào)查問卷信度和效度檢驗(yàn)
