R語(yǔ)言有限混合模型聚類FMM、廣義線性回歸模型GLM混合應(yīng)用分析威士忌市場(chǎng)和研究專利申
原文鏈接:http://tecdat.cn/?p=24742?
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
最近我們被客戶要求撰寫關(guān)于有限混合模型聚類FMM的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
摘要
有限混合模型是對(duì)未觀察到的異質(zhì)性建?;蚪埔话惴植己瘮?shù)的流行方法。它們應(yīng)用于許多不同的領(lǐng)域,例如天文學(xué)、生物學(xué)、醫(yī)學(xué)或營(yíng)銷。本文給出了這些模型的概述以及許多應(yīng)用示例。
介紹
有限混合模型是對(duì)未觀察到的異質(zhì)性建?;蚪埔话惴植己瘮?shù)的流行方法。它們應(yīng)用于許多不同的領(lǐng)域,例如天文學(xué)、生物學(xué)、醫(yī)學(xué)或營(yíng)銷。最近的專著 McLachlan 和 Peel (2000) 以及 Frühwirth-Schnatter (2006) 中給出了這些模型的概述以及許多應(yīng)用示例。
有限混合模型
有限混合模型由 K 個(gè)不同分量的凸組合給出,即分量的權(quán)重為非負(fù)且總和為 1。對(duì)于每個(gè)組件,假設(shè)它遵循參數(shù)分布或由更復(fù)雜的模型給出,例如廣義線性模型 (GLM)。下面我們考慮有限混合密度 h(·|·) 與 K 個(gè)分量、因變量 y 和(可選)自變量 x:

其中 ?w, α:

和

我們假設(shè)分量分布 f(·|·) 來自具有分量特定參數(shù) ?k 的相同分布族。分量權(quán)重或先驗(yàn)類別概率 πk 可選地取決于伴隨變量 w 和參數(shù) α,并通過多項(xiàng) logit 模型進(jìn)行建模,例如 Dayton 和 Macready (1988) 中的建議。McLachlan 和 Peel (2000, p. 145) 中也描述了類似的模型類。該模型可以使用 EM 算法(參見 Dempster 等人,1977 年;McLachlan 和 Peel,2000 年)進(jìn)行 ML 估計(jì)或使用 MCMC 方法進(jìn)行貝葉斯分析(參見例如 Frühwirth-Schnatter,2006 年)。
示例應(yīng)用
下面我們將展示兩個(gè)使用該包的示例。第一個(gè)示例演示基于模型的聚類,第二個(gè)示例給出了擬合廣義線性回歸模型的混合的應(yīng)用。
基于模型的聚類
以下數(shù)據(jù)集參考了 Simmons 媒體和市場(chǎng)研究。它包含去年使用威士忌品牌的所有家庭,并提供了今年 21 個(gè)威士忌品牌的品牌使用情況的二元關(guān)聯(lián)矩陣。我們首先加載包和數(shù)據(jù)集。威士忌數(shù)據(jù)集包含來自 2218 個(gè)家庭的觀察結(jié)果。圖 1 中給出了每個(gè)品牌的相對(duì)使用頻率。提供了其他品牌信息,表明威士忌的類型:混合威士忌或單一麥芽威士忌。
R> set.seed(102)

圖 1:威士忌品牌的相對(duì)頻率。
我們將二項(xiàng)式分布的混合擬合到數(shù)據(jù)集,其中假設(shè)每個(gè)組件特定模型中的變量是獨(dú)立的。使用隨機(jī)初始化將 EM 算法重復(fù) 3 次,即每個(gè)觀察值分配給一個(gè)后驗(yàn)概率為 0.9 和 0.1 的成分,否則以相等的概率選擇該成分。
mix(Ine ~ 1,+ wets = ~ Freq, data = wey,+ mol = FL,+ conol = list(mior = 0.005),+ k = 1:7, nrep = 3)
基于模型的聚類不使用解釋變量,因此公式 Incidence ~ 1 的右側(cè)是常數(shù)。我們改變 k = 1:7 的成分?jǐn)?shù)量。關(guān)于每個(gè)不同數(shù)量成分的對(duì)數(shù)似然的最佳解決方案在類“stepFlexmix”的對(duì)象中返回??刂茀?shù)可用于控制 EM 算法的擬合。使用 minprior 指定成分的最小相對(duì)大小,在 EM 算法期間將刪除低于此閾值的成分。
權(quán)重參數(shù)的使用允許僅使用唯一觀察的數(shù)量進(jìn)行擬合,這可以大大減少模型矩陣的大小,從而加快估計(jì)過程。對(duì)于這個(gè)數(shù)據(jù)集,這意味著模型矩陣有 484 行而不是 2218 行??梢允褂眯畔?biāo)準(zhǔn)進(jìn)行模型選擇,例如 BIC(參見 Fraley 和 Raftery,1998)。
R> BICbest <- Model(mix, "BIC")


可以使用諸如prior() 或parameters() 之類的函數(shù)來檢查估計(jì)的參數(shù)。
R> priorR> parameters



每種成分的混合物擬合參數(shù)如圖 2 所示??梢钥闯?,成分 4(占家庭的 1.1%)包含購(gòu)買不同品牌數(shù)量最多的家庭,所有品牌的購(gòu)買程度相似。來自第 5 成分的家庭 (8.5%) 也購(gòu)買各種威士忌品牌,但傾向于避免單一麥芽威士忌。成分 3 (43.1%) 的使用模式與成分 5 相似,但總體上購(gòu)買的品牌較少。成分 1 (14.2%) 似乎偏愛單一麥芽威士忌,成分 2 (33%) 尤其喜歡其他品牌,不喜歡尊尼獲加黑標(biāo)。
混合回歸分析專利數(shù)據(jù)
專利數(shù)據(jù)包括從國(guó)家經(jīng)濟(jì)研究局的關(guān)于制藥和生物醫(yī)學(xué)公司的專利申請(qǐng)、研發(fā)支出和銷售額(以百萬(wàn)元計(jì))的 70 項(xiàng)觀察結(jié)果。數(shù)據(jù)如圖 3 所示。

Wang等人選擇的最佳模型(1998) 是三個(gè)泊松回歸模型的有限混合,其中專利作為因變量,對(duì)數(shù)化的研發(fā)支出 lgRD 作為自變量,每個(gè)銷售 RDS 的研發(fā)支出作為伴隨變量。該模型可以使用特定于成分的模型驅(qū)動(dòng)程序在 R 中擬合,擬合 GLM 的有限混合。作為伴隨變量模型,用于多項(xiàng) logit 模型,其中后驗(yàn)概率是因變量。
mix(Pats ~ RD,+ k = 3, data ,+ modlfaily = "poisson"),+ coninom(~RS))
圖 4 中給出了每個(gè)成分的觀測(cè)值和擬合值。用于繪制觀測(cè)值的顏色是根據(jù)使用最大后驗(yàn)概率的成分分配,這些概率是使用 聚類獲得的。

圖 4:專利數(shù)據(jù)以及每個(gè)成分的擬合值。
在圖 5 中給出了觀測(cè)值的后驗(yàn)概率的根圖。這是擬合函數(shù)返回的對(duì)象的默認(rèn)圖。它可用于任意混合模型,并指示混合對(duì)觀察結(jié)果的聚類程度。為便于解釋,后驗(yàn)概率小于 eps=10?4 的觀察被省略。對(duì)于第三個(gè)分量的后驗(yàn)概率最大的觀測(cè)值用不同的顏色著色。該圖是使用以下命令生成的。
plot(pamix)
所有三個(gè)分量的后驗(yàn)都在 0 和 1 處具有模式,表明聚類分離良好(Leisch,2004)。

圖 5:后驗(yàn)概率的根圖。
可以獲得擬合混合物的更多詳細(xì)信息,返回?cái)M合值以及近似標(biāo)準(zhǔn)偏差和顯著性檢驗(yàn),參見圖 6。標(biāo)準(zhǔn)偏差只是近似值,因?yàn)樗鼈兪菫槊總€(gè)成分單獨(dú)確定的,而不是采用考慮到成分已被同時(shí)估計(jì)。圖 7 中給出了估計(jì)系數(shù)。黑線表示(近似的)95% 置信區(qū)間。
plot(refit, byclu = FALSE)
參數(shù) cluster 指示成分或不同變量是否用作面板的條件變量。

圖 7:具有相應(yīng) 95% 置信區(qū)間的成分特定模型的估計(jì)系數(shù)。
該圖表明,即使第一個(gè)和第三個(gè)分量的 lgRD 系數(shù)相似,估計(jì)的系數(shù)在所有分量之間也有所不同??梢允褂镁垲悈?shù)的估計(jì)后驗(yàn)概率初始化 EM 算法。由于在這種情況下,第一個(gè)和第三個(gè)分量被限制為具有相同的 lgRD 系數(shù),在重新排序分量以使這兩個(gè)分量彼此相鄰后,擬合混合的后驗(yàn)用于初始化。使用 BIC 將修改后的模型與原始模型進(jìn)行比較。
fix(fam = "poisson",+ nesd = list(k = c(1,2),+ fora = ~lgRD)) mix(Pats ~ 1,+ cont = FLom(~RDS),+ data , cluster

在這個(gè)例子中,原始模型是首選 被BIC選中。?
fit(patx)

概括
本文提供了使用 EM 算法擬合有限混合模型的基礎(chǔ)方法,以及用于模型選擇和模型診斷的工具。我們已經(jīng)展示了該包在基于模型的聚類以及擬合有限混合模型回歸分析方面的應(yīng)用。將來,我們希望實(shí)現(xiàn)新的模型序,例如,用于具有平滑項(xiàng)的廣義可加模型,以及擴(kuò)展用于模型選擇、診斷和模型驗(yàn)證的工具。

最受歡迎的見解
1.R語(yǔ)言k-Shape算法股票價(jià)格時(shí)間序列聚類
2.R語(yǔ)言中不同類型的聚類方法比較
3.R語(yǔ)言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
4.r語(yǔ)言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實(shí)戰(zhàn)
6.用R進(jìn)行網(wǎng)站評(píng)論文本挖掘聚類
7.用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)
8.R語(yǔ)言對(duì)MNIST數(shù)據(jù)集分析 探索手寫數(shù)字分類數(shù)據(jù)
9.R語(yǔ)言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類