16種常用的數(shù)據(jù)分析方法-典型相關(guān)分析
后臺(tái)回復(fù)?進(jìn)階?查看《各行業(yè)產(chǎn)品設(shè)計(jì)方案》
CCA典型相關(guān)分析(canonical correlation analysis)從總體上把握兩組指標(biāo)之間的相關(guān)關(guān)系,分別提取兩組變量有代表性的兩個(gè)綜合變量U1和V1(分別為兩個(gè)變量組中各變量的線性組合),用這兩個(gè)綜合變量之間的相關(guān)關(guān)系來(lái)反映兩組指標(biāo)之間的整體相關(guān)性。
簡(jiǎn)單相關(guān)系數(shù)用來(lái)描述兩組變量相關(guān)關(guān)系時(shí)只是考慮單個(gè)X、Y間的相關(guān),沒有考慮X、Y變量組內(nèi)部各變量間的相關(guān)。兩組間有許多簡(jiǎn)單相關(guān)系數(shù),相關(guān)性問(wèn)題更加復(fù)雜,整體描述困難。
典型相關(guān)分析彌補(bǔ)了簡(jiǎn)單相關(guān)性分析的缺陷,是專門針對(duì)兩組變量間相關(guān)性分析的一種統(tǒng)計(jì)方法。也是一種降維技術(shù)。
典型相關(guān)分析的基本思想和主成分分析的基本思想相似,它將一組變量與另一組變量之間單變量的多重線性相關(guān)性研究轉(zhuǎn)化為對(duì)少數(shù)幾對(duì)綜合變量之間的簡(jiǎn)單線性相關(guān)性的研究,并且這少數(shù)幾對(duì)變量所包含的線性相關(guān)性的信息幾乎覆蓋了原變量組所包含的全部相應(yīng)信息。
典型相關(guān)分析基本思想
1936年,Hotelling提出典型相關(guān)分析。Hotelling提出分析兩組變量的線性組合, 研究它們之間的相關(guān)系數(shù)p(u,v)。
在所有線性組合中,找出一對(duì)相關(guān)系數(shù)最大的線性組合, 用這個(gè)組合的單相關(guān)系數(shù)來(lái)表示兩組變量的相關(guān)性, 成為兩組變量的典型相關(guān)系數(shù),而這兩個(gè)線性組合叫做一對(duì)典型變量。兩組多變量的組合需要用若干對(duì)典型變量完全反映它們之間的相關(guān)性。
在兩組變量的線性組合中,找出與u1,v1不相關(guān)的線性組合,找出一對(duì)相關(guān)系數(shù)最大的線性組合, 即:第二對(duì)典型變量,把p(u2,v2)做為第二個(gè)典型相關(guān)系數(shù)。用此方法繼續(xù)得到若干對(duì)典型變量,最終提取出兩組變量間的全部信息。
其中“相關(guān)系數(shù)”、“典型變量”的基本概念為:
l典型變量(Canonical Variates)
首先,兩個(gè)變量集合X和Y:
接著,定義兩個(gè)線性關(guān)系的集合U和V,其中U是X的線性組合,V是Y的線性組合:
其中,U為p行p列(X為p列,對(duì)每一維都線性組合),V為p行q列(Y為q列,對(duì)每一維都線性組合),至于都是p行,是為了形成典型變量對(duì)。
典型變量對(duì)(canonical variate pair)
典型變量對(duì)共有p對(duì)(p ≤ q)
如:(U2, V2) = (a21X1 + a22X2 + ··· + a2pXp, b21Y1 + b22Y2 + ··· + b2qYq)
l相關(guān)系數(shù)
若ρXY=0,則稱X與Y不線性相關(guān)。
實(shí)戰(zhàn)案例
CRM(CustomerRelationshipManagement)即客戶關(guān)系管理系統(tǒng)有三組變量:
公司規(guī)模變量2個(gè):資本額,銷售額
CRM實(shí)施程度變量6個(gè):WEB網(wǎng)站,電子郵件,客服中心,DM快訊廣告,無(wú)線上網(wǎng),簡(jiǎn)訊服務(wù)
CRM績(jī)效維度3個(gè):行銷績(jī)效,銷售績(jī)效,服務(wù)績(jī)效
分析目標(biāo):試對(duì)三組變量做典型相關(guān)分析。
原始業(yè)務(wù)數(shù)據(jù)格式如圖,以下對(duì)三組變量?jī)蓛勺龅湫拖嚓P(guān)分析。
一、公司規(guī)模、CRM實(shí)施程度做典型相關(guān)分析
SPSS未提供典型相關(guān)分析的交互窗口,要直接在synatxeditor窗口中呼叫SPSS的CANCORR程序執(zhí)行分析。注意:cancorr不能讀取中文名稱,需將變量改為英文名稱。
打開文件后,選擇“File-new—synatxeditor”打開語(yǔ)法窗口,輸入語(yǔ)句:
INCLUDE'D:spss19SamplesEnglishCanonicalcorrelation.sps'.
CANCORRSet1=CapitalSales
/Set2=WebMailCallDMMobileShortM.
小寫字母也行,但是變量名字必須嚴(yán)格一致
include'D:spss19SamplesEnglishCanonicalcorrelation.sps'.
cancorrset1=CapitalSales
/set2=WebMailCallDMMobileShortM.
注意第三行的“/”不能為“”
?Run—>all得到典型相關(guān)分析結(jié)果
典型相關(guān)分析結(jié)果
第一組變量間的簡(jiǎn)單相關(guān)系數(shù)
第一組變量間簡(jiǎn)單相關(guān)系數(shù)
第一對(duì)典型變量的典型相關(guān)系數(shù)為CR1=0.434,第二對(duì)典型變量的典型相關(guān)系數(shù)為CR2=0.298.
相關(guān)系數(shù)顯著性檢驗(yàn)
此為檢驗(yàn)相關(guān)系數(shù)是否顯著的檢驗(yàn),原假設(shè):相關(guān)系數(shù)為0。每行的檢驗(yàn)都是對(duì)此行及以后各行所對(duì)應(yīng)的典型相關(guān)系數(shù)的多元檢驗(yàn)。
第一行獲得第一對(duì)典型變量的典型相關(guān)系數(shù)不為0,相關(guān)性顯著。
第二行sig值P=0.263>0.05,在5%顯著性水平下不顯著。
第一個(gè)典型變量標(biāo)準(zhǔn)化典型系數(shù)
第一個(gè)典型變量的標(biāo)準(zhǔn)化典型系數(shù)為-0.287和-0.774.
CV1-1=--0.287capital--0.774sales
CV1-2=--1.4capital+1.2sales
第二個(gè)典型變量標(biāo)準(zhǔn)化典型系數(shù)
CV2-1=--0.341web+0.117mail+0.027call—0.091DM—0.767mobile—0.174shortm
CV2-2=--0.433web—0.168mail—1.075call+0.490DM+0.139mobile+0.812shortm
典型負(fù)荷系數(shù)和交叉負(fù)荷系數(shù)表
重疊系數(shù)分析Redundancyindex
0.157=
0.08=
計(jì)算獲得的典型變量
此為計(jì)算的典型變量,保存到原文件后部。
二、公司規(guī)模與CRM績(jī)效的典型相關(guān)分析
典型相關(guān)分析結(jié)果
CRM績(jī)效與CRM實(shí)施程度典型相關(guān)分析表:
分析結(jié)果解讀:
公司規(guī)模與CRM實(shí)施程度顯著相關(guān),且公司規(guī)模越大實(shí)施程度越高;
CRM實(shí)施程度越高越能實(shí)現(xiàn)CRM績(jī)效,但公司規(guī)模與CRM績(jī)效并不顯著相關(guān);
就整體而言:
公司規(guī)模不直接影響CRM績(jī)效,是通過(guò)CRM實(shí)施程度間接影響CRM績(jī)效。
影響CRM績(jī)因素很多,光靠較大公司規(guī)模還不是CRM績(jī)效的保證,還有其他因素影響CRM績(jī)效。