畢業(yè)論文常見分析方法數(shù)據(jù)格式匯總
今天將各個模塊中,具有代表性的分析方法的數(shù)據(jù)格式進行一個匯總說明,本文主要介紹以下內(nèi)容:
一、規(guī)范格式說明
?1、原始數(shù)據(jù)格式
我們在進行數(shù)據(jù)分析時,最常見的數(shù)據(jù)格式是原始數(shù)據(jù)格式。
下圖是一份常見的原始數(shù)據(jù),它的特點是:一行代表一個樣本,一列代表一個屬性(變量)。
原始數(shù)據(jù)格式的特點是,調(diào)查有多少樣本,就需要錄入多少行數(shù)據(jù);如果調(diào)查了500個樣本,那么就需要錄入500行數(shù)據(jù)。每一行代表每個樣本收集的所有數(shù)據(jù),每一列代表每個屬性(變量)的所有數(shù)據(jù)。
?2、加權(quán)數(shù)據(jù)格式
除原始數(shù)據(jù)格式外,還有一些分析方法還會使用到加權(quán)數(shù)據(jù)格式,在醫(yī)學(xué)/實驗研究中,很多時候只有匯總數(shù)據(jù),即帶加權(quán)項的數(shù)據(jù),如卡方檢驗等。下圖為卡方檢驗的加權(quán)數(shù)據(jù),加權(quán)數(shù)據(jù)格式的特點是:基本只針對全部為定類數(shù)據(jù)的研究時使用,且只提供匯總數(shù)據(jù),不提供原始數(shù)據(jù)。
在進行數(shù)據(jù)分析時,單單掌握原始數(shù)據(jù)格式和加權(quán)數(shù)據(jù)格式還是不夠的,因為每一種分析方法對應(yīng)的數(shù)據(jù)類型與數(shù)據(jù)格式都不盡相同,只有將數(shù)據(jù)整理成分析方法要求的格式才能正常使用軟件進行對應(yīng)的分析,從而得到正確的分析結(jié)果。
接下來從幾個方面介紹一些典型的分析方法的數(shù)據(jù)格式。
二、常用差異性分析方法數(shù)據(jù)格式
畢業(yè)論文常用的差異性分析方法有方差分析、t檢驗、卡方檢驗,一些代表性分析方法數(shù)據(jù)格式如下說明。
?1、方差分析、t檢驗
方差分析和t檢驗都是常見研究不同組別之間差異性的方法,比如不同學(xué)歷時收入的差異。那么數(shù)據(jù)中就一定要包括不同組別X(如學(xué)歷)和分析項Y(如收入)。
有時候只有分析項(比如3個分析項),但是現(xiàn)在希望對比這3個分析項的差異,那么就需要對數(shù)據(jù)進行改造,自己加入一列‘組別’,然后把數(shù)據(jù)重疊起來得到分析項Y,類似如下圖:
提示:方差分析(單因素方差)與t檢驗的區(qū)別在于t檢驗只能對比兩類數(shù)據(jù)之間的差異,而方差分析可對比多組數(shù)據(jù)之間的差異,但二者數(shù)據(jù)格式類似。
2、卡方檢驗
卡方檢驗用于研究X與Y之間的差異性,并且X與Y均為定類數(shù)據(jù)。使用SPSSAU中的卡方檢驗進行研究時,支持常規(guī)數(shù)據(jù)格式和加權(quán)數(shù)據(jù)格式兩種形式。常規(guī)數(shù)據(jù)格式適用于原始數(shù)據(jù),加權(quán)數(shù)據(jù)格式適用于只有匯總數(shù)據(jù)的情況。
加權(quán)數(shù)據(jù)格式說明如下:比如下圖中X有2種情況,Y有3個情況,一種有2*3=6種組合,數(shù)據(jù)信息只有6種組別的匯總項(即加權(quán)項),分別是40,10,20,30,20,50;相當(dāng)于總共有170個樣本。整理為加權(quán)格式即只需要錄入6行即可。
除了卡方檢驗外,還有一些方法支持加權(quán)數(shù)據(jù)格式,如下:
【可視化】詞云
【問卷研究】對應(yīng)分析
【實驗/醫(yī)學(xué)研究】卡方檢驗
【實驗/醫(yī)學(xué)研究】Kappa
【實驗/醫(yī)學(xué)研究】配對卡方
【實驗/醫(yī)學(xué)研究】Poisson回歸
【實驗/醫(yī)學(xué)研究】Ridit分析
【實驗/醫(yī)學(xué)研究】卡方擬合優(yōu)度
【實驗/醫(yī)學(xué)研究】Poisson檢驗
3、配對t檢驗
配對數(shù)據(jù)的格式比較特殊,例如研究實驗組與對照組之間的差異,常見的配對數(shù)據(jù)研究方法比如配對樣本t檢驗、配對卡方、配對樣本W(wǎng)ilcoxon檢驗等。數(shù)據(jù)格式如下圖:
配對數(shù)據(jù)一般是在實驗時使用,而且配對數(shù)據(jù)的特點為:行數(shù)一定完全相等并且只有兩列。
如果研究數(shù)據(jù)的行數(shù)不相等,那可能不是配對數(shù)據(jù),如果還想對比差異,可能需要使用獨立t 檢驗。
4、重復(fù)測量方差
重復(fù)測量數(shù)據(jù)是指同一批樣本(病例)在不同的時間點測量了多次數(shù)據(jù),因此重復(fù)測量數(shù)據(jù)的特殊之處在于一定會有ID號(即樣本或者病例號),以及時間點數(shù)據(jù)。
如下圖:同一個ID會有多個時間點的數(shù)據(jù),比如下面有12個樣本(12個ID號),并且測量5個時間點。那么就一定會有12*5=60行數(shù)據(jù)。同一個ID號會重復(fù)5次,同一個時間點會重復(fù)12次。
三、常用影響關(guān)系分析方法數(shù)據(jù)格式
1、多元線性回歸
多元線性回歸分析用于研究自變量X對因變量Y的影響關(guān)系情況,通常自變量個數(shù)不止一個,數(shù)據(jù)格式如下:
2、條件logit回歸
條件logit(logistic)回歸時,配對編號ID用于標(biāo)識ID,而且是配對,因此一個ID會出現(xiàn)多次,比如1:1配對,那么1個ID就會出現(xiàn)2次(1:2配對時,1個ID就會出現(xiàn)3次);因變量Y一定只能包括數(shù)字0和1,類似數(shù)據(jù)格式如下圖:
3、Possion回歸、負二項回歸
Poisson回歸或負二項回歸時,如果數(shù)據(jù)中帶有基數(shù),比如‘患癌癥’人數(shù)是Y,而且患癌癥人數(shù)是基于某個省而言,那么基數(shù)就是‘每省的人口總數(shù)’,類似數(shù)據(jù)格式如下圖:
四、常用降維分析方法數(shù)據(jù)格式
因子分析&主成分分析
因子分析和主成分分析時,一列標(biāo)識1個指標(biāo),一行為1個樣本;如果為面板數(shù)據(jù),比如100家公司每家公司10年,那么就會有100*10=1000個樣本,可能需要單獨兩列分別是公司名和年份來標(biāo)識面板格式而已,但因子分析與主成分分析并不區(qū)分是否面板數(shù)據(jù),只針對指標(biāo)進行分析即可,另一般分析樣本量需要超出分析項(指標(biāo))的5倍,類似數(shù)據(jù)格式如下圖:
五、常用綜合評價方法數(shù)據(jù)格式
1、AHP層次分析法
AHP層次分析法的數(shù)據(jù)格式(即判斷矩陣)最為特殊,如下圖,研究人員可修改指標(biāo)項名稱,以及白色單元格內(nèi)的數(shù)字即可。判斷矩陣是 ‘ 下三角 ’ 完全對稱矩陣,因此 ‘ 白色 ’?底紋處的信息變化時, ‘ 藍色 ’ 背景的信息會自動變化。
2、熵值法
熵值法用于指標(biāo)的權(quán)重情況。1個指標(biāo)占用1列數(shù)據(jù)。下圖中樣本編號只是個編號無實際意義,用于標(biāo)識下樣本的ID號,一般是比如年份一類的數(shù)據(jù)信息,分析時并不需要使用。
如果是面板數(shù)據(jù)希望進行熵值法,其數(shù)據(jù)格式如下圖所示,比如有100家公司分別5年的指標(biāo)數(shù)據(jù),那么一共就有100*5=500行數(shù)據(jù)。數(shù)據(jù)格式上需要如此,但在分析時只需要放入‘指標(biāo)列’數(shù)據(jù)即可。
3、模糊綜合評價
模糊綜合評價是對具有多種屬性的事物,綜合各因素作出一個總體評價。上傳的數(shù)據(jù)一般包括三個部分:指標(biāo)項、指標(biāo)項權(quán)重、評價項,數(shù)據(jù)格式如下圖:
指標(biāo)項:為參與評價的考核指標(biāo),1行放1個。
指標(biāo)項權(quán)重:如果說各個指標(biāo)項有著自己的權(quán)重,那么就需要單獨用一列表示 ‘ 指標(biāo)項權(quán)重值’ ,如果沒有此數(shù)據(jù),則默認各個指標(biāo)的權(quán)重完全一致。
評價項:是指類似于{優(yōu)秀,良好,一般,差} 或{非常滿意,滿意,一般,不滿意,非常不滿意}這樣的評價標(biāo)準(zhǔn),1列放1個評價項。
4、灰色關(guān)聯(lián)法
灰色關(guān)聯(lián)法研究數(shù)據(jù)之間的關(guān)聯(lián)程度,即特征序列與母序列的關(guān)聯(lián)性情況。母序列單獨使用一列標(biāo)識,每個特征序列都使用1列標(biāo)識。下圖中樣本編號只是個編號無實際意義,用于標(biāo)識下樣本的ID號,一般是比如年份一類的數(shù)據(jù)信息,分析時并不需要使用。
5、耦合協(xié)調(diào)度
耦合協(xié)調(diào)度研究不同系統(tǒng)之間的耦合協(xié)調(diào)情況,因此1列表示1個系統(tǒng)的數(shù)據(jù),1行表示1個研究對象,其數(shù)據(jù)格式如下圖所示:
6、TOPSIS法&熵權(quán)TOPSIS法
TOPSIS法和熵權(quán)TOPSIS法用于研究指標(biāo)與理想解的接近度情況。1個指標(biāo)占用1列數(shù)據(jù),1個研究對象為1行,但研究對象在分析時并不需要使用,SPSSAU默認會從上到下依次編號。
六、常用預(yù)測方法數(shù)據(jù)格式
1、灰色預(yù)測模型
灰色預(yù)測GM(1,1)模型通常針對數(shù)量非常少的樣本進行預(yù)測,如果數(shù)據(jù)帶有時間項,其并不納入分析項中,但自己整理數(shù)據(jù)時一般需要將數(shù)據(jù)依次按時間排序好,然后錄入數(shù)據(jù),類似數(shù)據(jù)格式如下圖:
2、ARIMA模型&指數(shù)平滑法
ARIMA模型和指數(shù)平滑法是針對時間序列數(shù)據(jù)進行研究,時間序列的格式包括時間和實際分析項共兩列。比如下圖中年份就是時間項,“阿里雙十一銷售額(億元)”就是實際分析項。
3、馬爾科夫預(yù)測
如果是馬爾可夫預(yù)測,通常包括兩個數(shù)據(jù),分別是‘初始概率值’和‘狀態(tài)轉(zhuǎn)移矩陣’?!跏几怕手怠旁贏列中?!疇顟B(tài)轉(zhuǎn)移矩陣’是n*n矩陣格式,其從B列開始放入,并且B1這個單元格一定是空著的。類似如下圖所示:
除以上分析方法外,還有下面這些分析方法的數(shù)據(jù)格式也需要注意:
以上分析方法可以在SPSSAU常見研究方法數(shù)據(jù)格式說明的幫助手冊進行查詢:https://spssau.com/helps/otherdocuments/methodsdataformat.html