SQL Server聚類數(shù)據(jù)挖掘信用卡客戶可視化分析
全文鏈接:http://tecdat.cn/?p=30925
原文出處:拓端數(shù)據(jù)部落公眾號
近年來商業(yè)銀行利用先進數(shù)據(jù)挖掘技術(shù)對信用卡客戶進行分類,區(qū)分不同的客戶群體,然后針對不同客戶群體,采取不同的發(fā)卡方式,營銷策略,風(fēng)險控制措施。這些舉動都是十分有必要的,也是對信用卡產(chǎn)品獲得市場份額有巨大幫助作用的。
在信用卡分析時,我們向客戶演示了用SQL Server的數(shù)據(jù)挖掘算法可以提供的內(nèi)容。
查看數(shù)據(jù)
查看信用卡資料庫:

?變量信息:

導(dǎo)入數(shù)據(jù)庫
數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中。




數(shù)據(jù)挖掘
(1)?打開visual?studio?,新建項目,選擇商業(yè)智能項目,analysis?services項目

(2) 在解決方案資源管理器中,右鍵單擊數(shù)據(jù)源,選擇新建數(shù)據(jù)源
(3)數(shù)據(jù)源名稱保持默認,完成

選擇聚類,繼續(xù)下一步

關(guān)閉處理窗口后,就可在挖掘模型查看器看到系統(tǒng)經(jīng)過分析得出的結(jié)果和文件:

? 從聚類結(jié)果可以看到,聚類將所有用戶分成了10個信用級別。

從不同類別的依賴圖可以看到,類別10、7、9、5之間具有較強的相關(guān)關(guān)系。說明這幾個類別中的信用級別是類似的。下面可以具體看下每個類別中的各個屬性的分布的比例。

從上圖可以看到不同類別的呆賬比例是不同的。
從結(jié)果來看,相對來說,第7、10類別的呆賬比例最小的,其他幾個類別中呆賬比例較高,因此可以認為這些類別中的用戶的信用級別較高。同時可以看到這些類別的其他信息,這類用戶的月開銷較低,大多在10000元以下。同時可以看到,這類用戶大多是都是都市用戶,較少的城鎮(zhèn)用戶,說明都市用戶的信用等級相對城鎮(zhèn)用戶的信用等級較高。另一方面,可以看到呆賬用戶中 ,有大部分是高收入人群,而低收入用戶的呆賬比例反而較低,可以認為低收入用戶的信用等級反而較高。

從每個類別的傾向程度來看,月開銷較低的用戶呆賬比例較低。從另一方面來看,月收入較低的用戶,傾向于是分類10的用戶,也就是它們的信用等級較好。同時可以看到,戶籍為都市的用戶傾向于分類10的用戶,而戶籍為城鎮(zhèn)的用戶傾向于其他分類。說明都市用戶的信用等級相對較高。同時,可以看到與收入越高的用戶,更傾向于非10類別,因此,可以認為,收入越高的用戶,越存在信用風(fēng)險。

最受歡迎的見解
1.R語言k-Shape算法股票價格時間序列聚類
2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖
3.R語言對用電負荷時間序列數(shù)據(jù)進行K-medoids聚類建模和GAM回歸
4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實戰(zhàn)
6.用R進行網(wǎng)站評論文本挖掘聚類
7.R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化
8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯模型和KMEANS聚類用戶畫像
9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類