七類一致性檢驗(yàn)方法匯總
七類一致性檢驗(yàn)方法匯總
一、一致性檢驗(yàn)定義
在做數(shù)據(jù)分析時(shí),我們經(jīng)常會遇到一致性檢驗(yàn)的問題,即判斷不同的模型或者分析方法在產(chǎn)出結(jié)果上是否具有一致性、模型的結(jié)果與實(shí)際結(jié)果是否具有一致性等。
一致性檢驗(yàn)的目的在于比較不同方法得到的結(jié)果是否具有一致性。
例如:
????????核酸檢測鼻拭子和咽拭子檢測結(jié)果的一致性;
????????多位評委對運(yùn)動員打分結(jié)果的一致性;
????????甲乙兩位專家對腫瘤患者的病理切片的分析評定結(jié)果是否一致等。
二、一致性檢驗(yàn)常用方法
在SPSSAU系統(tǒng)中,共提供7類一致性檢驗(yàn)的相關(guān)方法,如下圖所示:常見的包括Kappa一致性檢驗(yàn)、Kendall協(xié)調(diào)系數(shù)、ICC組內(nèi)相關(guān)系數(shù)等。每種方法的功能側(cè)重和對數(shù)據(jù)格式的要求都略有不同,下面將逐一進(jìn)行說明。
?1、Kappa一致性檢驗(yàn)
(1)數(shù)據(jù)類型
Kappa一致性檢驗(yàn)適用于定類數(shù)據(jù)。
使用Kappa系數(shù)衡量一致性水平。Kappa系數(shù)取值在0~1之間,通常情況下:
Kappa<0.2則說明一致性程度較差;
0.2~0.4之間說明一致性程度一般;
0.4~0.6之間說明一致性程度中等;
0.6~0.8之間說明一致性程度較強(qiáng);
0.8~1.0之間說明一致性程度很強(qiáng)。
(2)分類
Kappa一致性檢驗(yàn)分為簡單Kappa、加權(quán)Kappa、Fleiss Kappa系數(shù);加權(quán)Kappa又細(xì)分為線性加權(quán)Kappa和二次加權(quán)Kappa。
幾類Kappa一致性檢驗(yàn)區(qū)別說明如下:
?簡單Kappa:普通定類數(shù)據(jù)
如果研究的數(shù)據(jù)為絕對的定類數(shù)據(jù):如陽性or陰性,此時(shí)使用簡單Kappa。
例如:研究鼻拭子和咽拭子兩種核酸檢測方式對于核酸檢測結(jié)果呈陽性or陰性的一致性程度。
加權(quán)Kappa:有序定類 or 考慮權(quán)重
如果研究的數(shù)據(jù)為等級式定類數(shù)據(jù):如滿意、一般、不滿意,此時(shí)使用線性加權(quán)Kappa。
例如:研究兩位學(xué)者對于不同作品滿意度(滿意、一般、不滿意)的一致性程度。
(提示:如果使用加權(quán)Kappa,一般使用線性加權(quán)Kappa)
Fleiss Kappa:對比兩項(xiàng)以上的一致性
如果研究的數(shù)據(jù)為對比三項(xiàng)以上的結(jié)果一致性,此時(shí)使用Fleiss
Kappa。
例如:研究三位專家對腫瘤患者病理切片的分析評定結(jié)果的一致性程度。
(3)數(shù)據(jù)格式
簡單Kappa
如果說數(shù)據(jù)沒有
‘ 加權(quán) ’
,共50個(gè)樣本,那么總共50行;分別表示鼻拭子或者咽拭子的檢測結(jié)果;此時(shí)則沒有加權(quán)數(shù)據(jù),也不需要進(jìn)行加權(quán)項(xiàng)放置,數(shù)據(jù)格式如下表:
加權(quán)Kappa
學(xué)者對于作品滿意度分為滿意、一般、不滿意三種。因此3*3共有9種組合;單獨(dú)使用一列數(shù)據(jù)表示每種組合的數(shù)量(即權(quán)重),數(shù)據(jù)結(jié)構(gòu)如下表:
上表說明,學(xué)者1滿意,學(xué)者2滿意的作品數(shù)量為8;學(xué)者1滿意,學(xué)者2一般的數(shù)量為2等等。
- Fleiss
Kappa
比較兩項(xiàng)以上的一致性,數(shù)據(jù)格式如下表:
提示:Fleiss Kappa不支持 “ 加權(quán)項(xiàng) ”?
(數(shù)據(jù)均為虛構(gòu),僅做展示說明)
(4)SPSSAU展示
以線性加權(quán)Kappa為例:
從上表可以看出,Kappa一致性檢驗(yàn)呈現(xiàn)出顯著性(p=0.000<0.01),說明A醫(yī)生與B醫(yī)生檢驗(yàn)結(jié)果具有一致性;Kappa值為0.74,介于0.6和0.8之間,說明一致性較強(qiáng)。
?2、Kendall協(xié)調(diào)系數(shù)?
Kendall協(xié)調(diào)系數(shù),也稱作Kendall和諧系數(shù),或Kendall一致性系數(shù)。通常用于比較多組數(shù)據(jù)的一致性程度。
(1)數(shù)據(jù)類型
Kendall協(xié)調(diào)數(shù)據(jù)適用于定量數(shù)據(jù)。Kendall協(xié)調(diào)系數(shù)用于測量評分?jǐn)?shù)據(jù)一致性水平。取值在0~1之間,通常情況下:Kendall協(xié)調(diào)系數(shù)
<0.2則說明一致性程度較差;0.2~0.4之間說明一致性程度一般;0.4~0.6之間說明一致性程度中等;0.6~0.8之間說明一致性程度較強(qiáng);0.8~1.0之間說明一致性程度很強(qiáng)。
(2)數(shù)據(jù)格式
數(shù)據(jù)格式為:1個(gè)評委為1列;1個(gè)選手為1行;4個(gè)評委6個(gè)選手,因此共有4列和6行數(shù)據(jù)。
在分析時(shí):需要將對應(yīng)的6行數(shù)據(jù)放入分析框中。
如果行列轉(zhuǎn)置,則對應(yīng)的將數(shù)據(jù)格式選擇為 ‘ 評價(jià)者(行)’。
(3)SPSSAU展示
從上表可以看出:Kendall協(xié)調(diào)系數(shù)檢驗(yàn)呈現(xiàn)出顯著性(p=0.003<0.05),意味著4個(gè)評價(jià)者的評價(jià)具有關(guān)聯(lián)性,即說明評價(jià)具有一致性。同時(shí)Kendall協(xié)調(diào)系數(shù)為0.900,大于0.8,說明評價(jià)一致性程度很強(qiáng)。
?3、ICC組內(nèi)相關(guān)系數(shù)?
ICC組內(nèi)相關(guān)系數(shù)是用于研究評價(jià)一致性,評價(jià)信度,測量復(fù)測信度(重測信度)的一種研究方法。
(1)數(shù)據(jù)類型
ICC組內(nèi)相關(guān)系數(shù)相比于Kappa和Kendall系數(shù)使用范圍更廣,適用于定量和定類數(shù)據(jù)。
ICC組內(nèi)相關(guān)系數(shù)用于測量評分?jǐn)?shù)據(jù)一致性水平。ICC取值在0~1之間,通常情況下:
ICC <0.2則說明一致性程度較差;
0.2~0.4之間說明一致性程度一般;
0.4~0.6之間說明一致性程度中等;
0.6~0.8之間說明一致性程度較強(qiáng);
0.8~1.0之間說明一致性程度很強(qiáng)。
(2)ICC模型選擇使用
ICC模型選擇共涉及三個(gè)方面,分別為單向/雙向、混合/隨機(jī)、一致性/絕對一致性,分別說明如下:
① 單向/ 雙向
若希望研究測量的數(shù)據(jù)是否完全相等時(shí),此時(shí)選擇單向ICC模型;
若希望研究測量數(shù)據(jù)之間的一致性程度,此時(shí)選擇雙向ICC模型。
②?混合/ 隨機(jī)
雙向混合和雙向隨機(jī)模型,從原理角度上進(jìn)行了區(qū)分,但從算法計(jì)算的角度上看,其二者的數(shù)字計(jì)算結(jié)果完全一模一樣,并沒有任何區(qū)別。因而在分析時(shí),只需描述選擇過程,計(jì)算結(jié)果上雙向混合和雙向隨機(jī)模型的結(jié)果完全一致。
③?一致性/絕對一致性
如果研究中考慮系統(tǒng)誤差問題,此時(shí)需要選擇絕對一致性計(jì)算類型;
如果不需要考慮系統(tǒng)誤差時(shí),此時(shí)選擇一致性計(jì)算類型。
特別說明一點(diǎn)在于,單向模型只有絕對一致性。
綜上所述,SPSSAU共提供三類選項(xiàng),匯總說明如下:
除此之外:不論是雙向混合,雙向隨機(jī),還是單向隨機(jī)模型;均會輸出單一度量或者平均度量這兩個(gè)指標(biāo)值。
④?單一度量?/?平均度量
單一度量:比如多位醫(yī)生通過一項(xiàng)測試對抑郁癥患者進(jìn)行抑郁程度打分。此時(shí)數(shù)據(jù)為原始數(shù)據(jù),應(yīng)該使用單一度量。
平均度量:比如多位醫(yī)生通過對抑郁癥患者進(jìn)行多項(xiàng)測試,得出平均得分后,進(jìn)行打分。此時(shí)的數(shù)據(jù)為多項(xiàng)測試平均后的得分,故應(yīng)該使用平均度量。
綜上所述,結(jié)合3個(gè)模型,以及計(jì)算類型和度量標(biāo)準(zhǔn),ICC模型一共可分為六個(gè),如下表匯總:
(3)數(shù)據(jù)格式
ICC組內(nèi)相關(guān)系數(shù)的使用范圍較廣,但其復(fù)雜度相對較大;需要特別注意數(shù)據(jù)格式。
假設(shè)3個(gè)醫(yī)生對于10個(gè)病人智商分值打分,錄入后的ICC數(shù)據(jù)格式如下:
(4)SPSSAU展示
若使用的是原始數(shù)據(jù),則使用單一度量的ICC組內(nèi)相關(guān)系數(shù)0.921;
若使用的是計(jì)算后數(shù)據(jù),則使用平均度量的ICC組內(nèi)相關(guān)系數(shù)0.972。
從上表可以看出三位醫(yī)生對于病人智商打分的一致性程度很強(qiáng)。
4、組內(nèi)評分者信度rwg
在社會科學(xué)或醫(yī)學(xué)相關(guān)研究中,會出現(xiàn)多層次(多水平)層面的跨層數(shù)據(jù),比如研究個(gè)體是學(xué)生,但是學(xué)生隸屬于學(xué)校。
(1)數(shù)據(jù)格式
例如:當(dāng)前有一項(xiàng)關(guān)于員工團(tuán)隊(duì)合作能力的打分?jǐn)?shù)據(jù),共有10個(gè)員工,并且10個(gè)員工分成2個(gè)組別。其使用6個(gè)測量項(xiàng)進(jìn)行測量(并且使用5級量表打分制)。因而共有10個(gè)員工則為10行數(shù)據(jù),并且單獨(dú)使用group來標(biāo)識組別(1組和2組),6個(gè)測量項(xiàng)共計(jì)6列。單獨(dú)還有一列為subject即員工的編號此列數(shù)據(jù)在分析時(shí)不需要使用無分析意義。最終數(shù)據(jù)格式如下:
(2)指標(biāo)說明
SPSSAU提供的rwg分析方法,共提供三個(gè)指標(biāo)分別是rwg值,ICC1值和ICC2值,3個(gè)指標(biāo)的意義分別說明如下:RWG值:研究團(tuán)隊(duì)成員合作水平一致性情況如何;ICC1:研究單獨(dú)每個(gè)裁判(打分者)的一致性情況;ICC2:研究幾個(gè)裁判(打分者)平均一致性的信度情況。事實(shí)上rwg值、ICC1值和ICC2值的意義均在于評價(jià)一致性情況。但通俗理解來看(從站在角度上),rwg值可理解為研究
‘行’ 數(shù)據(jù)的一致性,ICC1或ICC2值研究
‘列’
數(shù)據(jù)的一致性情況。
在本案例中:
rwg值研究整體10個(gè)成員的得分一致性情況;ICC1值研究每個(gè)測量項(xiàng)的得分一致性情況;ICC2值研究6個(gè)測量項(xiàng)得分上的一致性情況。
上述三個(gè)指標(biāo)的常用標(biāo)準(zhǔn)如下:
(3)SPSSAU展示
5、Bland-Altman圖
Bland-Altman分析最初是由 Bland JM和 Altman DG于1986年提出的。它的基本思想是計(jì)算出兩種測量結(jié)果的一致性界限(limits of agreement),并用圖形的方法直觀地反映這個(gè)一致性界限,得出兩種測量方法是否具有一致性的結(jié)論。
(1)數(shù)據(jù)格式
例如:當(dāng)前有醫(yī)生使用兩種方法分別做一項(xiàng)實(shí)驗(yàn),現(xiàn)需要對第1種和第2種方法共兩種方法的測量數(shù)據(jù)進(jìn)行一致性檢驗(yàn);如果有分組數(shù)據(jù),例如研究不同性別,此時(shí)只需要把性別group放入對應(yīng)框中即可,group僅在圖示中展示出不同的顏色進(jìn)行區(qū)分,對于指標(biāo)的計(jì)算并不會有任何的影響。數(shù)據(jù)結(jié)構(gòu)如下圖:
(2)理論說明
Bland-Altman圖是一種一致性測量的可視化展示方法。適用于定量數(shù)據(jù),其將測量數(shù)據(jù)相關(guān)計(jì)算后,進(jìn)行散點(diǎn)展示出來,如果說散點(diǎn)在可信區(qū)間范圍內(nèi)(一般是差值的1.96個(gè)標(biāo)準(zhǔn)差范圍內(nèi)),那么就說明數(shù)據(jù)具有較好的一致性水平。
(3)SPSSAU展示
上圖可以看出:散點(diǎn)基本均落在95%一致性區(qū)間(即1.96個(gè)標(biāo)準(zhǔn)差范圍內(nèi)),則說明一致性情況良好。
?6、相關(guān)系數(shù)?
當(dāng)進(jìn)行一致性檢驗(yàn)的時(shí)候,還可以使用相關(guān)分析進(jìn)行檢驗(yàn)。
相關(guān)分析用于研究定量數(shù)據(jù)之間的關(guān)系情況,包括是否有關(guān)系,以及關(guān)系緊密程度等。
但是相關(guān)系數(shù)只能用于兩個(gè)評價(jià)者之間的一致性檢驗(yàn),當(dāng)評價(jià)者大于兩個(gè)時(shí),就會出現(xiàn)多個(gè)相關(guān)系數(shù),變?yōu)閮蓛芍g的比較,與一致性檢驗(yàn)的目的不符。
由于一般進(jìn)行一致性檢驗(yàn)的數(shù)據(jù)都比較少,很少滿足正態(tài)性檢驗(yàn),故如果使用相關(guān)分析進(jìn)行一致性檢驗(yàn),一般使用Spearman相關(guān)系數(shù),而不使用Pearson相關(guān)系數(shù)。
7、Cronbach α系數(shù)
判斷問卷的一致性可以使用克隆巴赫信度系數(shù)(Cronbach α系數(shù))進(jìn)行。一般情況下我們主要考慮量表的內(nèi)在信度——項(xiàng)目之間是否具有較高的內(nèi)在一致性。
針對定量數(shù)據(jù)。
Cronbach α系數(shù)值如果在0.8以上,則該測驗(yàn)或量表的信度非常好;
Cronbach α系數(shù)值在0.7以上都是可以接受;
如果在0.6以上,則該量表應(yīng)進(jìn)行修訂,但仍不失其價(jià)值;
如果低于0.6,量表就需要重新設(shè)計(jì)題項(xiàng)。
三、一致性檢驗(yàn)方法選擇
上面總共介紹了七種不同的一致性檢驗(yàn)方法;那么怎樣精準(zhǔn)地選擇最適合的方法進(jìn)行檢驗(yàn)?zāi)兀?/p>
根據(jù)數(shù)據(jù)類型、數(shù)據(jù)格式、測量方法的不同,可以確定不同的檢驗(yàn)方法進(jìn)行檢驗(yàn),具體選擇標(biāo)準(zhǔn)如下圖所示: