最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

Python文本挖掘——LDA模型實(shí)現(xiàn)

2020-05-18 10:42 作者:唐基老爹  | 我要投稿

注:完整代碼可以關(guān)注公眾號獲取

1、簡介

在機(jī)器學(xué)習(xí)領(lǐng)域,LDA是兩個(gè)常用模型的簡稱:Linear Discriminant Analysis和Latent Dirichlet Allocation。本文的LDA是指Latent Dirichlet Allocation,它在主題模型中占有非常重要的地位,常用來文本分類。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用來推測文檔的主題分布。它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題分布后,便可以根據(jù)主題分布進(jìn)行主題聚類或文本分類。

2、原理

LDA模型它是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成,詞與詞之間沒有先后順序的關(guān)系。此外,一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。

人類生成文檔是基于概率選取主題及其對應(yīng)的詞匯的方式,即一篇文章的每個(gè)詞都是通過“以一定概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語”這樣一個(gè)過程得到。

那么LDA要做的就是通過文檔反推主題。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。

用LDA來進(jìn)行主題建模就是要以無指導(dǎo)學(xué)習(xí)的方法從文本中發(fā)現(xiàn)隱含的語義維度-即“Topic”或者“Concept”。隱性語義分析的實(shí)質(zhì)是要利用文本中詞項(xiàng)(term)的共現(xiàn)特征來發(fā)現(xiàn)文本的Topic結(jié)構(gòu),這種方法不需要任何關(guān)于文本的背景知識。

3、實(shí)現(xiàn)過程

這一過程可以通過Python輕松實(shí)現(xiàn)。需要的Python 包有:

?pandas,pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。在 Windows 下使用 pip 安裝:pip install pandas.?gensim,包含我們要用到的 LDA 模型的一個(gè)主題模型包。在 Windows 下使用 pip 安裝:pip install gensim.?jieba,是一款優(yōu)秀的 Python 第三方中文分詞庫。在 Windows 下使用 pip 安裝:pip install jieba.

3.1 導(dǎo)入包

3.2 分詞


3.3 將文檔表示成詞袋向量

3.4 LDA建模

打印主題

完整代碼





近期文章

Python入門:

Python安裝與環(huán)境配置

Python基礎(chǔ)用法 |《Python與開源GIS》

Python讀取excel的兩種方法

Python讀取json數(shù)據(jù)

Python基本庫——解析庫XPath

Python基本庫—正則表達(dá)式(regex)

第一個(gè)Python爬蟲


空間分析:

開工了開工了!空間計(jì)量模型系列教程一

空間計(jì)量模型系列教程二

情人節(jié)特輯之帶有驚喜的空間計(jì)量模型系列教程三

空間計(jì)量模型系列教程四

空間計(jì)量模型系列教程五(完結(jié)啦)

空間計(jì)量||空間權(quán)重矩陣

空間計(jì)量——用GeoDa和stata生成空間權(quán)重矩陣的方法

空間計(jì)量|| matlab實(shí)現(xiàn)空間計(jì)量模型SAR、SEM、SDM

分享||空間計(jì)量科研工具(一)


區(qū)域經(jīng)濟(jì):

經(jīng)濟(jì)地理學(xué)是經(jīng)濟(jì)學(xué)還是地理學(xué)?附重點(diǎn)外文期刊目錄

經(jīng)濟(jì)地理基本認(rèn)識:異質(zhì)性與尺度、格局、結(jié)構(gòu)、功能

分享||區(qū)域與城市經(jīng)濟(jì)學(xué)、房地產(chǎn)經(jīng)濟(jì)學(xué)與資源環(huán)境經(jīng)濟(jì)學(xué)慕課

復(fù)旦大學(xué)城市經(jīng)濟(jì)研究所推薦閱讀文獻(xiàn)

北京大學(xué)《城市經(jīng)濟(jì)學(xué)》推薦閱讀文獻(xiàn)

城市、區(qū)域經(jīng)濟(jì)學(xué)必讀書目推薦


其他:

MK突變檢驗(yàn)的matla實(shí)現(xiàn)

一個(gè)機(jī)智的MATLAB出圖tips

綜合評價(jià)||泰爾指數(shù)的matlab實(shí)現(xiàn)

空間計(jì)量之評價(jià)||DEA常見模型的matlab的實(shí)現(xiàn)(1)——CCR

空間計(jì)量之評價(jià)||DEA常見模型的matlab的實(shí)現(xiàn)(2)——非期望產(chǎn)出SBM

空間計(jì)量之評價(jià)||DEA常見模型的matlab的實(shí)現(xiàn)(2)——無非期望產(chǎn)出SBM

CiteSpace實(shí)操教程

基于SPSS的調(diào)查問卷信度和效度檢驗(yàn)


Python文本挖掘——LDA模型實(shí)現(xiàn)的評論 (共 條)

分享到微博請遵守國家法律
璧山县| 尉犁县| 咸丰县| 定州市| 怀安县| 寿宁县| 雅安市| 廉江市| 岳池县| 钟祥市| 临海市| 沾化县| 海城市| 都昌县| 桑植县| 讷河市| 凤阳县| 长垣县| 常州市| 玉环县| 汨罗市| 临汾市| 泽州县| 饶阳县| 襄垣县| 永年县| 堆龙德庆县| 双流县| 界首市| 靖江市| 磴口县| 霍邱县| 万山特区| 四子王旗| 克拉玛依市| 武威市| 娱乐| 伊宁市| 探索| 乌兰县| 潼关县|