數據分析常見步驟
小白入門數據分析常見步驟
目錄
一、 選題背景與目的 1
二、分析前的準備 2
1.分析方法 2
2.整理數據 4
3.上傳數據 4
4.數據的清理 5
三、 操作過程與討論 7
1.操作過程 7
2.結論 7
3.其它 8
四、 總結 9
本次給大家分享一下數據分析常見步驟,幫助大家如何快速完成數據分析。其中包括選題背景與目的、分析前的準備、操作過程與結論以及總結四大部分。
選題背景與目的
一般在數據分析前有特定的場景以及目的,有時可以根據分析目的進行選擇分析方法,從而更快的進行數據分析。比如一組數據想要研究不同性別對于商場滿意度是否有差異。也許可以使用方差、t檢驗、卡方檢驗等方法,但是具體選擇哪種方法要根據數據類型以及結構來決定。在分析前我們需要選定分析方法以及對數據進行簡單處理。
二、分析前的準備
1.分析方法
提到“分析方法”可能很多人比較苦惱,已經準備好數據但是不知道應該選擇什么方法,比如自己的數據是定類還是定量,是否滿足分析方法要求等等。首先我們來了解下什么是定類數據,定量數據,如下:
經了解案例中的“商場服務滿意度”屬于定量數據,“性別”屬于定類數據,已經明確了數據類型接下來要選擇研究方法,先區(qū)分數據類型,然后再選擇對應的研究方法,一般流程是這樣的,也只有這樣進行,才能知道自己做的對還是不對,不容易“返工”,接著說明不同數據類型之間的常用分析方法。
其它分析方法以及具體差別匯總整理如下:
如上因為是定類數據與定量數據交叉分析所以可以使用T檢驗或者方差分析,但是“性別”僅兩類所以選擇T檢驗。
2.整理數據
選擇使用的分析方法后需要根據方法整理正確的數據格式,t?檢驗是研究2組數據的差異,比如不同性別時對商場服務滿意度的差異。數據格式中需要有組別X(比如性別)和分析項Y(比如滿意度)。如下圖:
其它常用方法的數據格式如下:
https://spssau.com/helps/otherdocuments/methodsdataformat.html
整理后數據部分如下:
3.上傳數據
將整理好的數據上傳至SPSSAU系統,需要以正確的格式,一般來說要求:第1行為標題或變量名,第2行起即為具體的數據,不能合并單元格。如果出現沒有回答、空值、缺失值等情況,直接空著即可,不用錄入。步驟如下:點擊上傳數據→點擊上傳文件(也可以參考上傳說明),同時系統內可以預覽前20條數據,上傳后點擊進入分析即可。
4.清理數據
在正式分析前需要進行數據清理,其中包括基本數據查看、標題修改簡化、數據標簽、數據編碼等一些常見處理方式。
(1)基本的數據查看
通常在分析前建議大家可以使用“描述分析”、“頻數”或散點圖等圖示法,了解下數據的分布特征,比如平均值等。如果出現異常值,根據實際情況觀察時候會影響到分析結果,考慮剔除或者不處理。異常值的判斷標準如下:
?案例中數據分布特征如下:
描述性分析通過平均值或中位數描述數據的整體情況。從上表可以看出:當前數據中并沒有異常值,因而SPSSAU建議可直接針對平均值進行描述分析。總結可知,數據中沒有異常值出現,可直接針對平均值進行描述分析。并且也沒有異常值。除了對異常值處理外,還需要對于無效樣本的檢查:如果數據來源為問卷,則很可能出現無效樣本,因為填寫問卷的樣本是否真實填寫無從判定;如果數據庫下載或者使用二手數據等,也可能出現大量缺失數據等無效樣本。可以使用SPSSAU數據處理中的無效樣本進行檢驗與處理。設置好無效樣本標準后,默認會新生成一個標題,用來標識那些樣本是有效,那些是無效,在分析的時候直接進行篩選下就好(有的數據不需要進行無效樣本篩查需按實際情況處理)。
接下來對數據標題進行檢查,是否需要修改與簡化。
(2)標題修改簡化
?處理異常值或者無效樣本后,如果覺得分析項名稱過長,或者需要修改分析項名稱,可以利用【數據處理】板塊中的【標題處理】即可修改。
(2)數據標簽與編碼
對于數據標簽,如果研究者想給分類數據設置標簽,比如分類數據有1、2兩組,想要案例數據1代表男,數據2代表女則可以使用此功能,如下圖。至于數據編碼一般問卷中反向題使用的比較多,對于常見的數據分組也可以使用數據編碼功能。對于問卷搜集數據,有時問卷中有跳轉題,此時可以使用【篩選樣本】或【異常值】篩選/剔除掉空值。
操作過程與結論
1.操作過程
收集并準備好數據后,就可以開始運行分析。SPSSAU的操作方法非常簡單,幾乎所有操作都是三步完成:左右拖拽,點一下即可得到結果(經檢驗數據已經滿足方差分析條件)。如下:
2.結論
結論的呈現方式有表格、圖示法以及三線表形式等。
(1)表格
從上表可以看出:不同性別樣本對于服務滿意度全部均呈現出顯著性(p<0.05),意味著不同性別樣本對于服務滿意度均有著差異性。具體分析可知:性別對于服務滿意度呈現出0.01水平顯著性(t=17.186,p=0.000),以及具體對比差異可知,男的平均值(3.80),會明顯高于女的平均值(1.22)。從圖中也可以看出差異性。
男的平均值(3.80),會明顯高于女的平均值(1.22),意味著不同性別樣本對于服務滿意度均有著差異性。
3.其它
(1)小數位設置
設置小數位個數,讓你的結果展示更加專業(yè)。鼠標移動到右上角[頭像處]--[小數位]即可修改小數位個數,最高支持保留10位小數。
(2)P值標識
鼠標移動到SPSSAU右上角[頭像處]--[?p值標識],更改P值標識,需重新分析即可生效。
總結
數據分析常見步驟如上已經基本描述完,一般對于分析前準備,不同方法要求不一樣,研究者需要根據實際情況對數據進行處理,有的數據并不需要進行處理,需要研究者根據實際情況進行選擇,以及操作過程和結論,每個方法的理論和結果的呈現方式不同,描述時還需要進一步考量。