數(shù)據(jù)分析知識圖譜
在做數(shù)據(jù)分析時,經(jīng)常會有這樣的困擾:面對幾種相似的方法,既不清楚它們各自的使用場景,也無法分清它們之間的差別,一念之差就可能選錯方法。如果你也有這樣的困擾,建議按照SPSSAU知識圖譜目錄順序檢索對應(yīng)的研究方法,理清不同方法的區(qū)別與使用場景,以便選出正確的方法進(jìn)行分析。SPSSAU知識目錄如下:
1、基本描述統(tǒng)計
基本描述統(tǒng)計分析包括頻數(shù)分析、描述分析、分類匯總;用于對收集的數(shù)據(jù)進(jìn)行基本的說明。
- 頻數(shù)分析:用于分析定類數(shù)據(jù)的選擇頻數(shù)和百分比分布。
- 描述分析:用于分析定量數(shù)據(jù)的集中趨勢、波動情況和分布狀況等;常見的指標(biāo)有平均值、中位數(shù)、標(biāo)準(zhǔn)差等;更深入的描述指標(biāo)包括百分位數(shù)、峰度、偏度、變異系數(shù)等。
分類匯總:用于交叉研究,展示兩個或者更多變量的交叉信息,可以將不同組別下的數(shù)據(jù)進(jìn)行匯總統(tǒng)計。
2、信度分析
信度分析的方法主要有以下三種:Cronbach α信度系數(shù)法、折半信度法、重測信度法。
Cronbach α信度:最常使用的方法,通過Cronbach α信度系數(shù)測量測驗或量表的信度是否達(dá)標(biāo)。
折半信度:是將所有量表題項分為兩半,計算兩部分各自的信度以及相關(guān)系數(shù),進(jìn)而估計整個量表的信度的測量方法。
重測信度:是指同一批樣本,在不同時間點(diǎn)做了兩次相同的問題,然后計算兩次回答的相關(guān)系數(shù),通過相關(guān)系數(shù)去研究信度水平。
3、效度分析
效度有很多種,可分為四種類型:內(nèi)容效度、結(jié)構(gòu)效度、區(qū)分效度、聚合效度。
內(nèi)容效度:用文字描述量表的有效性,比如具有參考文獻(xiàn)來源,量表經(jīng)過專家認(rèn)可等。
結(jié)構(gòu)效度:因子與測量項對應(yīng)關(guān)系是否符合預(yù)期,如果符合預(yù)期則說明具有結(jié)構(gòu)效度。
區(qū)分效度:強(qiáng)調(diào)本不應(yīng)該在同一因子下的測量項,確實不在同一因子下面。
聚合效度:強(qiáng)調(diào)本應(yīng)該在同一因子下面的測量項,確實在同一因子下面。
4、差異關(guān)系研究
常見的差異關(guān)系研究方法包括方差分析、t檢驗、卡方檢驗、非參數(shù)檢驗。
t 檢驗:X為定類數(shù)據(jù),Y為定量數(shù)據(jù)之間的關(guān)系情況,且X只能為2個類別。
方差分析:X為定類數(shù)據(jù),Y為定量數(shù)據(jù),且組別多于2組時可使用方差分析。
交叉卡方:分析定類數(shù)據(jù)和定類數(shù)據(jù)之間的關(guān)系情況,可使用交叉卡方分析。
非參數(shù)檢驗:數(shù)據(jù)不正態(tài)或者方差不齊時,可使用非參數(shù)檢驗。
提示:t檢驗和方差分析均屬于參數(shù)檢驗范圍,一般需要數(shù)據(jù)滿足正態(tài)性、方差齊性。與參數(shù)檢驗相對的是非參數(shù)檢驗,非參數(shù)檢驗不對總體的分布形態(tài)做假定,所以當(dāng)數(shù)據(jù)不正態(tài)或方差不齊時,可使用非參數(shù)檢驗進(jìn)行差異性研究。
5、t檢驗
t檢驗,用于分析定類數(shù)據(jù)與定量數(shù)據(jù)之間的差異情況,按照研究內(nèi)容和數(shù)據(jù)類型等不同,可分為以下幾類:
單樣本t檢驗:對比一組定量數(shù)據(jù)與某個數(shù)字的差異。
獨(dú)立樣本t檢驗:對比X定類數(shù)據(jù)與Y定量數(shù)據(jù)之間的差異。
配對t檢驗:對比兩組配對數(shù)據(jù)之間的差異。
6、方差分析
方差分析用于進(jìn)行定類數(shù)據(jù)與定量數(shù)據(jù)之間的差異關(guān)系研究;按照研究內(nèi)容和數(shù)據(jù)類型等不同,可分為以下幾類:
單因素方差分析:如果X為一個,則使用單因素方差分析。
雙因素方差分析:當(dāng)X個數(shù)為2個,則使用雙因素方差分析。
多因素方差分析:當(dāng)X個數(shù)超過2個,使用多因素方差分析。
事后多重比較:是基于方差分析基礎(chǔ)上進(jìn)行,如果X的組別超過兩組,可用事后多重比較進(jìn)一步分析兩兩組別之間的差異。
協(xié)方差分析:如果研究中有干擾因素(控制變量),可使用協(xié)方差分析。
重復(fù)測量方差分析:相關(guān)領(lǐng)域(比如醫(yī)學(xué)研究時)常常需要對同一觀察單位重復(fù)進(jìn)行多次測量,此時使用重復(fù)測量方差分析。
7、卡方檢驗
卡方檢驗,用于分析定類數(shù)據(jù)與定類數(shù)據(jù)之間的差異情況,按照研究內(nèi)容和數(shù)據(jù)類型等不同,可分為以下幾類:
卡方檢驗:定類數(shù)據(jù)與定類數(shù)據(jù)之間的差異情況。
配對卡方:兩組配對定類數(shù)據(jù)之間的差異情況。
卡方擬合優(yōu)度:研究類別定類數(shù)據(jù)的實際比例與預(yù)期比例是否一致。
分層卡方:分層卡方是在卡方檢驗基礎(chǔ)上,進(jìn)一步考慮分層項的干擾。
Fisher卡方:在分析樣本量較少(比如小于40),也或者期望頻數(shù)出現(xiàn)小于5時,使用fisher卡方檢驗較為適合。
8、非參數(shù)檢驗
非參數(shù)檢驗用于研究定類數(shù)據(jù)與定量數(shù)據(jù)之間的關(guān)系情況。如果數(shù)據(jù)不滿足正態(tài)性或方差不齊,可用非參數(shù)檢驗。
單樣本Wilcoxon檢驗:是當(dāng)數(shù)據(jù)不服從正態(tài)分布時,可檢驗數(shù)據(jù)是否與某數(shù)字是否有明顯的區(qū)別。
MannWhitney:對于不服從正態(tài)分布的變量進(jìn)行差異性分析,如果X的組別為兩組,則使用MannWhitney統(tǒng)計量。
Kruskal-Wallis:如果組別超過兩組,則應(yīng)該使用Kruskal-Wallis統(tǒng)計量。
配對樣本Wilcoxon檢驗:如果是配對數(shù)據(jù),則使用配對樣本W(wǎng)ilcoxon檢驗。
多樣本Friedman檢驗/Cochran's Q 檢驗:對于多個關(guān)聯(lián)樣本的差異情況。
Ridit分析:如果是研究定類數(shù)據(jù)與定量(等級)數(shù)據(jù)之間的差異性,還可以使用Ridit分析。
9、相關(guān)分析研究
相關(guān)分析可分為簡單相關(guān)分析、偏相關(guān)分析、典型相關(guān)分析三類。
相關(guān)分析:簡單相關(guān)分析是分析對兩個變量之間的相關(guān)關(guān)系。
偏相關(guān)分析:當(dāng)兩個變量都與第三個變量相關(guān)時,為了消除第三個變量的影響,只關(guān)注這兩個變量之間的關(guān)系情況,此時可使用偏相關(guān)分析。
典型相關(guān)分析:研究兩組變量(多個指標(biāo)組成)之間的整體相關(guān)性,可用典型相關(guān)分析。
10、線性回歸研究
Y為定量數(shù)據(jù)時,可以使用線性回歸研究X對Y的影響。常用的線性回歸方法有以下幾種:
線性回歸:研究X對Y(定量數(shù)據(jù))的影響關(guān)系情況。
逐步回歸:如果X很多時,可使用逐步回歸自動找出有影響的X。
嶺回歸:用于解決線性回歸中自變量共線性的研究算法。
分層回歸:如果需要研究多個線性回歸的層疊變化情況,此時可使用分層回歸。
Robust回歸:如果數(shù)據(jù)中有異常值,可使用Robust回歸進(jìn)行研究。
11、logistic回歸研究
Y為定類數(shù)據(jù)時,可以使用logistic回歸研究X對Y的影響。
二元logit回歸:Y為定類數(shù)據(jù)且只有兩類
多分類logit:Y為定類數(shù)據(jù)且大于2類
有序logit:Y為定類數(shù)據(jù)且有序
12、多選題研究
多選題分析可分為四種類型包括:多選題、單選-多選、多選-單選、多選-多選。
多選題分析:是針對單個多選題的分析方法,可分析多選題各項的選擇比例情況。
單選-多選:是針對X為單選,Y為多選的情況使用的方。
多選-單選:是針對X為多選,Y為單選的情況使用的方法。
多選-多選:是針對X為多選,Y為多選的情況使用的方法。
13、聚類分析方法
聚類分析以多個研究標(biāo)題作為基準(zhǔn),對樣本對象進(jìn)行分類。
K-means聚類:只能處理數(shù)值型數(shù)據(jù)。
K-modes聚類:對分類屬性數(shù)據(jù)進(jìn)行聚類的方法。
K-prototype聚類:處理混合屬性數(shù)據(jù)的方法。
分層聚類:對給定數(shù)據(jù)對象的集合進(jìn)行層次分解,根據(jù)分層分解采用的分解策略,僅針對定量數(shù)據(jù)進(jìn)行分層聚類。
14、信息濃縮方法
當(dāng)研究中包括有很多題目或很多變量時,可通過信息濃縮的方法,把數(shù)據(jù)濃縮成一個或多個變量,以便用于后續(xù)的分析。
主成分分析和因子分析:都是信息濃縮的方法,即將多個分析項信息濃縮成幾個概括性指標(biāo)。如果希望進(jìn)行將指標(biāo)命名,SPSSAU建議使用因子分析。原因在于因子分析在主成分基礎(chǔ)上,多出一項旋轉(zhuǎn)功能,該旋轉(zhuǎn)目的即在于命名。
平均值和求和:也是信息濃縮的常用方法,比如要將多個題項合并成一個變量,可通過求平均值概括成一個題項。
中位數(shù):當(dāng)數(shù)據(jù)不滿足正態(tài),存在極端值時,可用中位數(shù)代替平均值。
15、一致性研究方法
一致性檢驗的目的在于比較不同方法得到的結(jié)果是否具有一致性。檢驗一致性的方法有很多比如:Kappa檢驗、ICC組內(nèi)相關(guān)系數(shù)、Kendall W協(xié)調(diào)系數(shù)等。
ICC組內(nèi)相關(guān)系數(shù):用于分析多次數(shù)據(jù)的一致性情況,分析定量或定類數(shù)據(jù)均可。
Kappa一致性檢驗:適用于兩次方法之間比較一致性,通常要求數(shù)據(jù)為定類數(shù)據(jù)。
Kendall協(xié)調(diào)系數(shù):分析多個數(shù)據(jù)之間關(guān)聯(lián)性的方法,適用于定量數(shù)據(jù),尤其是定序等級數(shù)據(jù)。
16、權(quán)重研究
權(quán)重研究是用于分析各因素或指標(biāo)在綜合體系中的重要程度,最終構(gòu)建出權(quán)重體系。權(quán)重研究有多種方法:
AHP層次分析法:是一種主觀加客觀賦值的計算權(quán)重的方法。先通過專家打分構(gòu)造判斷矩陣,然后量化計算每個指標(biāo)的權(quán)重。
熵值法:是利用熵值攜帶的信息計算每個指標(biāo)的權(quán)重,通??膳浜弦蜃臃治龌蛑鞒煞址治龅玫揭患墮?quán)重,利用熵值法計算二級權(quán)重。
TOPSIS法:是一種評價多個樣本綜合排名的方法,用于比較樣本的排名情況。
因子分析:可將多個題項濃縮成幾個概括性指標(biāo)(因子),然后對新生成的各概括性指標(biāo)計算權(quán)重。
主成分分析:利用方差解釋率值計算各概括性指標(biāo)的權(quán)重。
其他:熵權(quán)topsis法、優(yōu)序圖法、CRITIC權(quán)重、獨(dú)立性權(quán)重、信息量權(quán)重等。
17、模型研究方法
當(dāng)需要研究多個變量之間的關(guān)系情況時,通??蓸?gòu)建統(tǒng)計模型用于分析及預(yù)測。
線性回歸:當(dāng)研究X對Y的影響關(guān)系,其中Y為定量數(shù)據(jù),可使用線性回歸分析。
logistic回歸:研究X對Y的影響關(guān)系,其中Y為定類數(shù)據(jù),可使用Logistic分析。
典型相關(guān):研究1組X與一組Y之間的關(guān)系情況,可使用典型相關(guān)分析。
PLS回歸:研究多個X與多個Y之間的影響關(guān)系情況,且樣本量較小(通常小于200),可使用PLS回歸分析。
路徑分析:如需分析多個X對多個Y的影響關(guān)系,以及具體哪些X對哪些Y有影響、如何影響,可使用路徑分析。
結(jié)構(gòu)方程模型:需要同時研究測量關(guān)系和影響關(guān)系,可使用結(jié)構(gòu)方程模型。
18、數(shù)據(jù)分布研究
判斷數(shù)據(jù)分布是選擇正確分析方法的重要前提。
正態(tài)性:很多分析方法的使用前提都是要求數(shù)據(jù)服從正態(tài)性,比如線性回歸分析、相關(guān)分析、方差分析等,可通過直方圖、P-P/Q-Q圖、正態(tài)性檢驗查看數(shù)據(jù)正態(tài)性。
隨機(jī)性:抽樣調(diào)查有一個最基本的前提假設(shè),就是抽樣必須滿足“隨機(jī)性要求”,游程檢驗是一種非參數(shù)性統(tǒng)計假設(shè)的檢驗方法,可用于分析數(shù)據(jù)是否為隨機(jī)。
方差齊性:方差齊檢驗用于分析不同定類數(shù)據(jù)組別對定量數(shù)據(jù)時的波動情況是否一致,即方差齊性。方差齊是方差分析的前提,如果不滿足則不能使用方差分析。
卡方擬合優(yōu)度檢驗:卡方擬合優(yōu)度檢驗是一種非參數(shù)檢驗方法,其用于研究實際比例情況,是否與預(yù)期比例表現(xiàn)一致,但只針對于類別數(shù)據(jù)。
Poisson分布:如果要判斷數(shù)據(jù)是否滿足Poisson分布,可通過Poisson檢驗判斷或者通過特征進(jìn)行判斷是否基本符合Poisson分布(三個特征即:平穩(wěn)性、獨(dú)立性和普通性)
19、機(jī)器學(xué)習(xí)
SPSSAU目前機(jī)器學(xué)習(xí)模塊有以下6類方法。
決策樹:常用于研究類別歸屬和預(yù)測關(guān)系的模型。
隨機(jī)森林:實質(zhì)上是多個決策樹模型的綜合,決策樹模型只構(gòu)建一棵分類樹,但是隨機(jī)森林模型構(gòu)建非常多棵決策樹。
KNN:是一種簡單易懂的機(jī)器學(xué)習(xí)算法,其原理是找出挨著自己最近的K個鄰居,并且根據(jù)鄰居的類別來確定自己的類別情況。
樸素貝葉斯:是基于貝葉斯定量,并且加上條件(特征之間獨(dú)立)的一種模型。
支持向量機(jī):是一種二分類模型。
神經(jīng)網(wǎng)絡(luò):是一種模擬人腦神經(jīng)思維方式的數(shù)據(jù)模型。
20、可視化分析方法
常用的可視化分析方法如下:
散點(diǎn)圖:用于考察定量數(shù)據(jù)之間的關(guān)系情況。
箱線圖:直觀地識別數(shù)據(jù)中的異常值、判斷數(shù)據(jù)離散分布情況。
誤差線圖:用于展示數(shù)據(jù)的不確定性程度,顯示潛在的誤差或每個數(shù)據(jù)標(biāo)志的不確定程度。
ROC曲線:用于研究X對Y的預(yù)測準(zhǔn)確率情況。
其他:P-P圖/Q-Q圖、直方圖、象限圖、帕累托圖、簇狀圖、氣泡圖、核密度圖、小提琴圖等。