Somer’s D(Somers’ Delta)-順序變量相關(guān)性分析方法
概述
Somers' Delta (Somers' D) 是對有序變量對之間一致性的度量。
在統(tǒng)計(jì)學(xué)中,Somers’D有時(shí)被錯誤地稱為 Somer'D,它是對兩個(gè)可能相關(guān)的隨機(jī)變量X和Y之間的序數(shù)關(guān)聯(lián)的度量。Somers 'D等于-1時(shí),表示 所有變量對都不一致。Somers 'D等于1時(shí)表示所有變量對都一致時(shí)。Somers 'D以 Robert H. Somers 的名字命名,他于 1962 年提出了它。
序數(shù)變量是有序的,例如從最好到最壞或從最小到最大(李克特量表(Likert scale )是比較流行的序數(shù)量表之一。)

一致性度量告訴您兩對變量是如何連接的。這種連通性是由一致性和不一致定義的。簡而言之,一致對“匹配”而不一致對不匹配。
Delta 可以從列聯(lián)表中的行類別預(yù)測列類別。更具體地說,不對稱* Somers' D 測量因變量的預(yù)測改進(jìn)的程度,基于了解自變量的值。因此,在運(yùn)行此測試時(shí)定義哪個(gè)變量是自變量以及哪個(gè)變量是因變量非常重要:您將獲得 (X,Y) 和 (Y,X) 的兩個(gè)不同結(jié)果。舉一個(gè)簡單的例子,假設(shè)您想知道客戶滿意度(1 到 5 的等級)是否取決于您的銷售人員的友好程度(1 到 3 的等級)。如果您切換自變量和因變量,您將衡量客戶滿意度對銷售人員的友好程度的影響。這可能是有趣的信息,但這不是您感興趣的關(guān)系。
解釋
Delta 是Pearson 相關(guān)系數(shù)的序數(shù)替代。與 Pearson 的 R 一樣,Somers 'D 的范圍是 -1 到 1:
-1 = 所有變量都不一致
1 = 所有對都一致
Somers' D 的大值(趨向于 -1 或 1)表明該模型具有良好的預(yù)測能力。較小的值(在任一方向上趨于零)表明該模型是一個(gè)較差的預(yù)測器。假設(shè)您在友好的銷售人員/客戶滿意度場景中的 Delta 為 0.549??蛻魸M意度是因變量,因此可以說友好的銷售人員將客戶滿意度提高了 54.9%。
Somers 'D 隨著列聯(lián)表維度的增加而增加,但確實(shí)傾向于低估表中的實(shí)際關(guān)聯(lián)程度(G?kta? & ???i,2011)。
正式定義
Somers ' D 有多種定義。一種方法是“一致對的數(shù)量與不一致對的數(shù)量之差除以與自變量無關(guān)的對的總數(shù)”(牛津指數(shù))。這個(gè)定義讓您了解計(jì)算的復(fù)雜程度;找到一致/不一致的對不是一項(xiàng)快速的任務(wù)。此外,Delta 的具體公式取決于自變量的位置(G?kta? & ???i,2011)。這就是通常使用軟件來查找 Delta 的原因之一。
Somers '?D 有時(shí)也用Kendall 的 Tau定義:
D(Y |X) = τ (X,Y)/ τ (X,X)
在哪里:
(X,Y) 是一對二元隨機(jī)變量。
τ 是 Kendall 的 Tau。
或者,如果一個(gè) X 大于另一個(gè),則可以將其定義為兩個(gè)對應(yīng)條件概率之間的差值。Delta 和 Tau-b 之間的區(qū)別僅在于 Delta 校正了自變量上的并列對:
Somers’ D 與?Gamma
Somers 'D 和 Goodman 以及Kruskal 的 gamma 都可以找到兩個(gè)有序變量之間的關(guān)聯(lián)。與 Goodman 和 Kruskal 的 gamma 不同,Somers 'D 區(qū)分自變量和因變量。兩者之間的區(qū)別可能是模糊的,但如果您知道您的數(shù)據(jù)和分析的目標(biāo)(即,如果將一個(gè)變量標(biāo)記為相關(guān)變量很重要),則應(yīng)該清楚使用這兩個(gè)過程中的哪一個(gè)。
存在兩個(gè)版本的 Delta:不對稱和對稱。非對稱版本是迄今為止最受歡迎的版本,也是您在使用軟件(例如SPSS)時(shí)可能會遇到的版本。當(dāng)您閱讀“Somers' D”時(shí),您可能正在閱讀非對稱版本(盡管很多作者并未闡明這一點(diǎn))。對稱版本——其中兩個(gè)變量都被忽略為獨(dú)立或相關(guān)——確實(shí)存在,因此在解釋結(jié)果之前澄清你使用的是哪個(gè)是明智的。
Somers' D計(jì)算舉例
假設(shè)獨(dú)立(預(yù)測變量)變量X取三個(gè)值,0.25 ,0.5 , 或0.75,獨(dú)立(結(jié)果)變量Y取兩個(gè)值,0或1 . 下表包含觀察到的X和Y組合:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (?Y?,?X對的?頻率)?


因此, Somers 'D等于

按照之前定義,Somers' D 的大值(趨向于 -1 或 1)表明該模型具有良好的預(yù)測能力。較小的值(在任一方向上趨于零)表明該模型是一個(gè)較差的預(yù)測器。該Somers 'D等于0.34,表示模型預(yù)測能力較差。
歡迎各位同學(xué)報(bào)名<python金融風(fēng)控評分卡模型和數(shù)據(jù)分析微專業(yè)課>,學(xué)習(xí)風(fēng)控建模知識

版權(quán)聲明:文章來自公眾號(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。