斯皮爾曼等級相關(guān)(Spearman’s correlation coefficient for ranked data)
我是Toby,最近正在原創(chuàng)??「python風(fēng)控模型_評分卡」系列話題,歡迎訂閱。最后給大家分享100G免費(fèi)資料領(lǐng)取,包括python入門,數(shù)據(jù)分析,包括數(shù)據(jù)分析、統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等知識(shí)。
在公眾號「python風(fēng)控模型」里回復(fù)關(guān)鍵字:學(xué)習(xí)資料,就可免費(fèi)領(lǐng)取。

? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?python風(fēng)控模型 ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ?
持牌照金融公司模型專家,教學(xué)主頁 https://ke.qq.com/teacher/231469242?tuin=dcbf0ba
?? ? ? ? ? ? ? ? ? ? ? ?
公眾號
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ?

斯皮爾曼等級相關(guān)(Spearman’s correlation coefficient for ranked data)主要用于解決名稱數(shù)據(jù)和順序數(shù)據(jù)相關(guān)的問題。適用于兩列變量,而且具有等級變量性質(zhì)具有線性關(guān)系的資料。由英國心理學(xué)家、統(tǒng)計(jì)學(xué)家斯皮爾曼根據(jù)積差相關(guān)的概念推導(dǎo)而來,一些人把斯皮爾曼等級相關(guān)看做積差相關(guān)的特殊形式。


斯皮爾曼等級相關(guān)計(jì)算公式:

其中:di=xi-yi表示兩個(gè)排序之間的差值;
n:表示樣本的大小,即機(jī)器學(xué)習(xí)算法的數(shù)量;

優(yōu)點(diǎn)
適用范圍廣泛,斯皮爾曼等級相關(guān)對數(shù)據(jù)條件的要求沒有積差相關(guān)系數(shù)嚴(yán)格,只要兩個(gè)變量的觀測值是成對的等級評定資料,或者是由連續(xù)變量觀測資料轉(zhuǎn)化得到的等級資料,不論兩個(gè)變量的總體分布形態(tài)、樣本容量的大小如何,都可以用斯皮爾曼等級相關(guān)來進(jìn)行研究。
缺點(diǎn)
一組能用積差相關(guān)計(jì)算的數(shù)據(jù),如果改用等級相關(guān),精確度會(huì)低于積差相關(guān)。凡符合積差相關(guān)條件的,最好不要用等級相關(guān)計(jì)算。
pearsonr皮爾森共線系數(shù)要求:
1.每個(gè)變量數(shù)據(jù)集符合正態(tài)分布
2. p值代表極端值出現(xiàn)概率,樣本量小時(shí)p值不可靠,但樣本量大于500時(shí),p值具有很大參考價(jià)值。

需要檢驗(yàn)正態(tài)分布
正態(tài)分布JB檢驗(yàn) 【N>30】

偏度的補(bǔ)充介紹

python的scipy有皮爾森和斯皮爾曼方法的詳細(xì)解讀和代碼實(shí)現(xiàn),官網(wǎng)如下圖:



得到答案 可視化跟顯著性二選一

斯皮爾曼等級相關(guān)應(yīng)用

解:此題被試5人,不知是否為正態(tài)分布,所以用斯皮爾曼等級相關(guān)解題。其中,x為聽覺反應(yīng)時(shí)間按大小排序,y為視覺反應(yīng)時(shí)間按大小排序。d=x-y。
將n=5,∑d^2=6 帶入公式 1-[6·∑(di)^2 / (n^3 - n)]
得:ρ=0.7
答:這5人的視聽反應(yīng)時(shí)等級相關(guān)系數(shù)為0.7,屬于高度相關(guān)。
積差相關(guān)術(shù)語

積差相關(guān)又稱積距相關(guān),是當(dāng)兩個(gè)變量都是正態(tài)連續(xù)變量,兩者之間呈線性關(guān)系時(shí),表示這兩個(gè)變量之間的相關(guān)
使用條件
積差相關(guān)的使用條件是:
1、兩變量為連續(xù)變量,即變量數(shù)值取自等距或等比量表。
2、兩變量呈線性關(guān)系,這可由相關(guān)的散布圖的形狀來描述。
3、兩變量為正態(tài)分布,或接近正態(tài)分布,至少是單峰對稱的分布。
4、必須是成對數(shù)據(jù),每對數(shù)據(jù)之間相互獨(dú)立。
5、要排除共同因素的影響。如果兩個(gè)變量都隨著一個(gè)共同因素在變化,即使算出的積差相關(guān)系數(shù)很高,也難以判斷兩個(gè)變量之間存在高度相關(guān)。6、樣本容量大于30,計(jì)算出的積差相關(guān)系數(shù)才有意義。
參考
https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.html
https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.spearmanr.html
http://www.360doc.com/content/08/1228/23/50235_2219531.shtml http://blog.csdn.net/lhkaikai/article/details/37352587
歡迎各位同學(xué)報(bào)名<python金融風(fēng)控評分卡模型和數(shù)據(jù)分析微專業(yè)課>,學(xué)習(xí)風(fēng)控建模知識(shí)


版權(quán)聲明:文章來自公眾號(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。