數(shù)據(jù)分析,從了解你的數(shù)據(jù)開始,數(shù)據(jù)探索性分析工具包pandas-profiling
身處大數(shù)據(jù)時代,每天接收到海量數(shù)據(jù),例如高通量測序產(chǎn)生的一個樣品的原始fastq文件就高達(dá)數(shù)十甚至上百GB,然而,對我們來說,真正感興趣的只是最終產(chǎn)生的excel表格形式的數(shù)據(jù)。如何從這個excel表格中找到我們感興趣的數(shù)據(jù)及規(guī)律似乎更加重要,因?yàn)檫@一步是“智慧的一步”,有助于我們更好地了解生物發(fā)生、發(fā)展的規(guī)律。
圖1. 數(shù)據(jù)-信息-知識-見解-智慧
數(shù)據(jù)分析第一步:探索性數(shù)據(jù)分析,了解你的數(shù)據(jù)
當(dāng)我們拿到數(shù)據(jù)(一般是excel表格)后,需要先對數(shù)據(jù)有個大概地了解,例如一般需要了解下:
1,每一列存儲的是什么數(shù)據(jù),是數(shù)值列(例如表達(dá)量fpkm)還是字符列(例如基因名)
2,數(shù)值列的數(shù)值范圍是多少,最大值,最小值是多少,有沒有缺失值
3,字符列有沒有重復(fù)條目,最頻繁出現(xiàn)的是哪個條目
4,數(shù)值列間是否存在相關(guān)性等等
pandas_profiling簡介
工欲善其事必先利其器,pandas_profiling就是這樣一款工具,pandas_profiling基于pandas的DataFrame數(shù)據(jù)類型,可以簡單快速地進(jìn)行探索性數(shù)據(jù)分析。
對于數(shù)據(jù)集的每一列,pandas_profiling會提供以下統(tǒng)計(jì)信息:
1、概要:數(shù)據(jù)類型,唯一值,缺失值
2、分位數(shù)統(tǒng)計(jì):最小值、最大值、中位數(shù)、Q1、Q3、最大值,值域,四分位
3、描述性統(tǒng)計(jì):均值、眾數(shù)、標(biāo)準(zhǔn)差、絕對中位差、變異系數(shù)、峰值、偏度系數(shù)
4、最頻繁出現(xiàn)的值,直方圖/柱狀圖
5、相關(guān)性分析可視化:突出強(qiáng)相關(guān)的變量,Spearman, Pearson等矩陣相關(guān)性熱圖
并且這個報(bào)告可以導(dǎo)出為HTML,非常方便查看。
安裝與使用
安裝:
pip install pandas-profiling使用:
# 導(dǎo)入相關(guān)庫import pandas as pdimport pandas_profiling as pp# 讀取數(shù)據(jù)集data = pd.read_csv(‘data.csv’, sep=’\t’)report = pp.ProfileReport(data)report.to_file('report.html')讓我們以表達(dá)譜表格為例,探索下這個包的神奇之處吧!
圖2.表達(dá)譜示例數(shù)據(jù)
運(yùn)行以上代碼后,數(shù)據(jù)結(jié)果在report.html中
圖3. 數(shù)據(jù)概覽
總結(jié)了數(shù)據(jù)的基本信息,包括行數(shù),列數(shù),是否有缺失值等
圖4. 分類變量(前兩列)的統(tǒng)計(jì)
我們的數(shù)據(jù)前兩列是ensembl_id和gene_name,圖4中提供了每個id的統(tǒng)計(jì)信息,包括distinct id的個數(shù)及比例,缺失值的個數(shù)及比例。從中可以看出,ensembl_id是唯一的,而gene_name是有兩個重復(fù)的:TMSB15B和MATR3。
圖5. 數(shù)值變量(最后6列)的統(tǒng)計(jì)結(jié)果
提供了缺失值個數(shù)及比例,inf個數(shù)及比例,平均值,最小值,最大值,0值的個數(shù)和比例,負(fù)值的個數(shù)和比例等,同時提供了histogram圖等。點(diǎn)擊“Toggle details”按鈕可以看出數(shù)據(jù)詳情,提供了更多的統(tǒng)計(jì)量,histogram,相同值的個數(shù),極值等信息。
圖6. sample1列的詳細(xì)的統(tǒng)計(jì)結(jié)果
圖7. 數(shù)值變量相關(guān)性
最后,還提供了一些“Alerts”信息,也就是對各列的總結(jié)。
圖8. Alert信息(部分)
圖9. 上傳頁面
將右側(cè)例子右鍵另存為txt,名字必須英文。
然后在左側(cè)“選擇文件”,點(diǎn)擊提交按鈕。約10s后會返回結(jié)果頁面。
圖10. 輸出頁面
下載并打開結(jié)果報(bào)告
圖11. 結(jié)果報(bào)告示例