拓端tecdat|R語言有限混合模型聚類FMM、廣義線性回歸模型GLM混合應(yīng)用分析威士忌市場和
原文鏈接:http://tecdat.cn/?p=24742?
原文出處:拓端數(shù)據(jù)部落公眾號
摘要
有限混合模型是對未觀察到的異質(zhì)性建模或近似一般分布函數(shù)的流行方法。它們應(yīng)用于許多不同的領(lǐng)域,例如天文學(xué)、生物學(xué)、醫(yī)學(xué)或營銷。本文給出了這些模型的概述以及許多應(yīng)用示例。
介紹
有限混合模型是對未觀察到的異質(zhì)性建模或近似一般分布函數(shù)的流行方法。它們應(yīng)用于許多不同的領(lǐng)域,例如天文學(xué)、生物學(xué)、醫(yī)學(xué)或營銷。最近的專著 McLachlan 和 Peel (2000) 以及 Frühwirth-Schnatter (2006) 中給出了這些模型的概述以及許多應(yīng)用示例。
有限混合模型
有限混合模型由 K 個不同分量的凸組合給出,即分量的權(quán)重為非負(fù)且總和為 1。對于每個組件,假設(shè)它遵循參數(shù)分布或由更復(fù)雜的模型給出,例如廣義線性模型 (GLM)。下面我們考慮有限混合密度 h(·|·) 與 K 個分量、因變量 y 和(可選)自變量 x:

其中 ?w, α:

和

我們假設(shè)分量分布 f(·|·) 來自具有分量特定參數(shù) ?k 的相同分布族。分量權(quán)重或先驗類別概率 πk 可選地取決于伴隨變量 w 和參數(shù) α,并通過多項 logit 模型進行建模,例如 Dayton 和 Macready (1988) 中的建議。McLachlan 和 Peel (2000, p. 145) 中也描述了類似的模型類。該模型可以使用 EM 算法(參見 Dempster 等人,1977 年;McLachlan 和 Peel,2000 年)進行 ML 估計或使用 MCMC 方法進行貝葉斯分析(參見例如 Frühwirth-Schnatter,2006 年)。
示例應(yīng)用
下面我們將展示兩個使用該包的示例。第一個示例演示基于模型的聚類,第二個示例給出了擬合廣義線性回歸模型的混合的應(yīng)用。
基于模型的聚類
以下數(shù)據(jù)集參考了 Simmons 媒體和市場研究。它包含去年使用威士忌品牌的所有家庭,并提供了今年 21 個威士忌品牌的品牌使用情況的二元關(guān)聯(lián)矩陣。我們首先加載包和數(shù)據(jù)集。威士忌數(shù)據(jù)集包含來自 2218 個家庭的觀察結(jié)果。圖 1 中給出了每個品牌的相對使用頻率。提供了其他品牌信息,表明威士忌的類型:混合威士忌或單一麥芽威士忌。

圖 1:威士忌品牌的相對頻率。
我們將二項式分布的混合擬合到數(shù)據(jù)集,其中假設(shè)每個組件特定模型中的變量是獨立的。使用隨機初始化將 EM 算法重復(fù) 3 次,即每個觀察值分配給一個后驗概率為 0.9 和 0.1 的成分,否則以相等的概率選擇該成分。
基于模型的聚類不使用解釋變量,因此公式 Incidence ~ 1 的右側(cè)是常數(shù)。我們改變 k = 1:7 的成分?jǐn)?shù)量。關(guān)于每個不同數(shù)量成分的對數(shù)似然的最佳解決方案在類“stepFlexmix”的對象中返回。控制參數(shù)可用于控制 EM 算法的擬合。使用 minprior 指定成分的最小相對大小,在 EM 算法期間將刪除低于此閾值的成分。
權(quán)重參數(shù)的使用允許僅使用唯一觀察的數(shù)量進行擬合,這可以大大減少模型矩陣的大小,從而加快估計過程。對于這個數(shù)據(jù)集,這意味著模型矩陣有 484 行而不是 2218 行。可以使用信息標(biāo)準(zhǔn)進行模型選擇,例如 BIC(參見 Fraley 和 Raftery,1998)。


可以使用諸如prior() 或parameters() 之類的函數(shù)來檢查估計的參數(shù)。



每種成分的混合物擬合參數(shù)如圖 2 所示??梢钥闯?,成分 4(占家庭的 1.1%)包含購買不同品牌數(shù)量最多的家庭,所有品牌的購買程度相似。來自第 5 成分的家庭 (8.5%) 也購買各種威士忌品牌,但傾向于避免單一麥芽威士忌。成分 3 (43.1%) 的使用模式與成分 5 相似,但總體上購買的品牌較少。成分 1 (14.2%) 似乎偏愛單一麥芽威士忌,成分 2 (33%) 尤其喜歡其他品牌,不喜歡尊尼獲加黑標(biāo)。
混合回歸分析專利數(shù)據(jù)
專利數(shù)據(jù)包括從國家經(jīng)濟研究局的關(guān)于制藥和生物醫(yī)學(xué)公司的專利申請、研發(fā)支出和銷售額(以百萬元計)的 70 項觀察結(jié)果。數(shù)據(jù)如圖 3 所示。

Wang等人選擇的最佳模型(1998) 是三個泊松回歸模型的有限混合,其中專利作為因變量,對數(shù)化的研發(fā)支出 lgRD 作為自變量,每個銷售 RDS 的研發(fā)支出作為伴隨變量。該模型可以使用特定于成分的模型驅(qū)動程序在 R 中擬合,擬合 GLM 的有限混合。作為伴隨變量模型,用于多項 logit 模型,其中后驗概率是因變量。
圖 4 中給出了每個成分的觀測值和擬合值。用于繪制觀測值的顏色是根據(jù)使用最大后驗概率的成分分配,這些概率是使用 聚類獲得的。

圖 4:專利數(shù)據(jù)以及每個成分的擬合值。
在圖 5 中給出了觀測值的后驗概率的根圖。這是擬合函數(shù)返回的對象的默認(rèn)圖。它可用于任意混合模型,并指示混合對觀察結(jié)果的聚類程度。為便于解釋,后驗概率小于 eps=10?4 的觀察被省略。對于第三個分量的后驗概率最大的觀測值用不同的顏色著色。該圖是使用以下命令生成的。
所有三個分量的后驗都在 0 和 1 處具有模式,表明聚類分離良好(Leisch,2004)。

圖 5:后驗概率的根圖。
可以獲得擬合混合物的更多詳細信息,返回擬合值以及近似標(biāo)準(zhǔn)偏差和顯著性檢驗,參見圖 6。標(biāo)準(zhǔn)偏差只是近似值,因為它們是為每個成分單獨確定的,而不是采用考慮到成分已被同時估計。圖 7 中給出了估計系數(shù)。黑線表示(近似的)95% 置信區(qū)間。
參數(shù) cluster 指示成分或不同變量是否用作面板的條件變量。

圖 7:具有相應(yīng) 95% 置信區(qū)間的成分特定模型的估計系數(shù)。
該圖表明,即使第一個和第三個分量的 lgRD 系數(shù)相似,估計的系數(shù)在所有分量之間也有所不同。可以使用聚類參數(shù)的估計后驗概率初始化 EM 算法。由于在這種情況下,第一個和第三個分量被限制為具有相同的 lgRD 系數(shù),在重新排序分量以使這兩個分量彼此相鄰后,擬合混合的后驗用于初始化。使用 BIC 將修改后的模型與原始模型進行比較。

在這個例子中,原始模型是首選 被BIC選中。?

概括
本文提供了使用 EM 算法擬合有限混合模型的基礎(chǔ)方法,以及用于模型選擇和模型診斷的工具。我們已經(jīng)展示了該包在基于模型的聚類以及擬合有限混合模型回歸分析方面的應(yīng)用。將來,我們希望實現(xiàn)新的模型序,例如,用于具有平滑項的廣義可加模型,以及擴展用于模型選擇、診斷和模型驗證的工具。

最受歡迎的見解
1.R語言k-Shape算法股票價格時間序列聚類
2.R語言中不同類型的聚類方法比較
3.R語言對用電負(fù)荷時間序列數(shù)據(jù)進行K-medoids聚類建模和GAM回歸
4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實戰(zhàn)
6.用R進行網(wǎng)站評論文本挖掘聚類
7.用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)
8.R語言對MNIST數(shù)據(jù)集分析 探索手寫數(shù)字分類數(shù)據(jù)
9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類