基于SparkSQL的客戶畫像分析(RFM模型)
說明:
????此數(shù)據(jù)為2021年全國職業(yè)院校技能大賽河南省省賽數(shù)據(jù)
? ? Spark版本為3.1.1,Hadoop版本為3.1.3,Scala版本為2.12,Hive版本為3.1.2。數(shù)據(jù)暫不共享
通過RFM分析可以將客戶群體劃分為一般保持客戶、一般發(fā)展客戶、一般價值客戶、一般挽留客戶、重要保持客戶、重要發(fā)展客戶、重要價值客戶、重要挽留客戶等八個級別。

?表結(jié)構(gòu)如下

指標(biāo)數(shù)據(jù)處理:原始數(shù)據(jù)中沒有R、F、M這三個指標(biāo),因此需要分別計(jì)算,并使用客戶信息和計(jì)算出的R、F、M重新構(gòu)建一個DataFrame。
指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化:由于各指標(biāo)的性質(zhì)不同,具有不同的量綱和數(shù)量級,直接使用原始數(shù)據(jù)進(jìn)行分析,就會突出數(shù)值較高的指標(biāo)在分析中的作用,削弱數(shù)值較低的指標(biāo)的作用。使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方式將R、F、M進(jìn)行標(biāo)準(zhǔn)化處理。
設(shè)置指標(biāo)參考值:使用平均值作為指標(biāo)參考值,分別計(jì)算R、F、M三列的平均值。
判斷指標(biāo)數(shù)據(jù)優(yōu)劣:比較R、F、M的值相對于它們各自參考值的大小進(jìn)行間接判斷3個指標(biāo)數(shù)據(jù)的優(yōu)劣。將大于參考值的值賦值為1,小于等于參考值的值賦值為0, 根據(jù)重新賦值后的結(jié)果劃分客戶價值類型。
結(jié)果展示:分析客戶價值類型的數(shù)量
