模糊C均值聚類-以RFM數(shù)據(jù)實(shí)現(xiàn)用戶聚類【matlab實(shí)現(xiàn)】
RFM數(shù)據(jù)是指最近一次消費(fèi),消費(fèi)頻率以及消費(fèi)金額,分別構(gòu)成R,F,M,給定200行用戶行為數(shù)據(jù),我們用模糊C均值聚類進(jìn)行分析
首先簡單介紹一下模糊C均值聚類,每一個(gè)樣本距各個(gè)聚類中心(初始聚類中心需要隨機(jī)指定)都有一個(gè)隸屬度,每一個(gè)樣本至各個(gè)聚類的隸屬度總和為1。

通過每次隨機(jī)分配,取均值等方法,在層層迭代過程中,尋找聚類中心,使得每個(gè)樣本到每個(gè)聚類中心的距離值最小化,所計(jì)算的聚類結(jié)果就是我們的目標(biāo)。

MBA智庫對(duì)于RFM有著詳細(xì)的解釋,link:https://wiki.mbalib.com/zh-tw/RFM%E6%A8%A1%E5%9E%8B
模糊C均值聚類的詳細(xì)說明可以參見:https://wiki.mbalib.com/zh-tw/RFM%E6%A8%A1%E5%9E%8B
下面給出RFM數(shù)據(jù)

接下來我們用歐式距離定義的方法,計(jì)算用戶特征向量與聚類中心的距離值:

接下來就是數(shù)據(jù)預(yù)處理,因?yàn)镽,F,M分別代表的含義不同,單位也不同,因此要實(shí)現(xiàn)數(shù)據(jù)的無量綱化,我們采用歸一化處理。即數(shù)據(jù)減去最小值,再除以最大值與最小值的差值



最后,我們?cè)O(shè)定以下參數(shù):

即聚類數(shù)目,迭代次數(shù),模糊系數(shù)(要求大于1),以及精度。
最后看一下各個(gè)用戶(即樣本數(shù)據(jù))對(duì)于各個(gè)類別的歸屬度,可以直觀反應(yīng)用戶u對(duì)N個(gè)類別的隸屬度

我們用表格查看:

可見,用戶1隸屬于6類,用戶2隸屬于類別4等等。