最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

數(shù)據(jù)分析,從了解你的數(shù)據(jù)開始,數(shù)據(jù)探索性分析工具包pandas-profiling

2022-09-13 15:06 作者:微生信課堂  | 我要投稿

身處大數(shù)據(jù)時代,每天接收到海量數(shù)據(jù),例如高通量測序產(chǎn)生的一個樣品的原始fastq文件就高達(dá)數(shù)十甚至上百GB,然而,對我們來說,真正感興趣的只是最終產(chǎn)生的excel表格形式的數(shù)據(jù)。如何從這個excel表格中找到我們感興趣的數(shù)據(jù)及規(guī)律似乎更加重要,因?yàn)檫@一步是“智慧的一步”,有助于我們更好地了解生物發(fā)生、發(fā)展的規(guī)律。


圖1. 數(shù)據(jù)-信息-知識-見解-智慧


數(shù)據(jù)分析第一步:探索性數(shù)據(jù)分析,了解你的數(shù)據(jù)

當(dāng)我們拿到數(shù)據(jù)(一般是excel表格)后,需要先對數(shù)據(jù)有個大概地了解,例如一般需要了解下:

1,每一列存儲的是什么數(shù)據(jù),是數(shù)值列(例如表達(dá)量fpkm)還是字符列(例如基因名)

2,數(shù)值列的數(shù)值范圍是多少,最大值,最小值是多少,有沒有缺失值

3,字符列有沒有重復(fù)條目,最頻繁出現(xiàn)的是哪個條目

4,數(shù)值列間是否存在相關(guān)性等等

pandas_profiling簡介

工欲善其事必先利其器,pandas_profiling就是這樣一款工具,pandas_profiling基于pandas的DataFrame數(shù)據(jù)類型,可以簡單快速地進(jìn)行探索性數(shù)據(jù)分析。


對于數(shù)據(jù)集的每一列,pandas_profiling會提供以下統(tǒng)計(jì)信息:

1、概要:數(shù)據(jù)類型,唯一值,缺失值

2、分位數(shù)統(tǒng)計(jì):最小值、最大值、中位數(shù)、Q1、Q3、最大值,值域,四分位

3、描述性統(tǒng)計(jì):均值、眾數(shù)、標(biāo)準(zhǔn)差、絕對中位差、變異系數(shù)、峰值、偏度系數(shù)

4、最頻繁出現(xiàn)的值,直方圖/柱狀圖

5、相關(guān)性分析可視化:突出強(qiáng)相關(guān)的變量,Spearman, Pearson等矩陣相關(guān)性熱圖

并且這個報(bào)告可以導(dǎo)出為HTML,非常方便查看。


安裝與使用

安裝:

pip install pandas-profiling

使用:

# 導(dǎo)入相關(guān)庫import pandas as pdimport pandas_profiling as pp# 讀取數(shù)據(jù)集data = pd.read_csv(‘data.csv’, sep=’\t’)report = pp.ProfileReport(data)report.to_file('report.html')


讓我們以表達(dá)譜表格為例,探索下這個包的神奇之處吧!


圖2.表達(dá)譜示例數(shù)據(jù)


運(yùn)行以上代碼后,數(shù)據(jù)結(jié)果在report.html


圖3. 數(shù)據(jù)概覽


總結(jié)了數(shù)據(jù)的基本信息,包括行數(shù),列數(shù),是否有缺失值等


圖4. 分類變量(前兩列)的統(tǒng)計(jì)


我們的數(shù)據(jù)前兩列是ensembl_id和gene_name,圖4中提供了每個id的統(tǒng)計(jì)信息,包括distinct id的個數(shù)及比例,缺失值的個數(shù)及比例。從中可以看出,ensembl_id是唯一的,而gene_name是有兩個重復(fù)的:TMSB15B和MATR3


5. 數(shù)值變量(最后6列)的統(tǒng)計(jì)結(jié)果


提供了缺失值個數(shù)及比例,inf個數(shù)及比例,平均值,最小值,最大值,0值的個數(shù)和比例,負(fù)值的個數(shù)和比例等,同時提供了histogram圖等。點(diǎn)擊“Toggle details”按鈕可以看出數(shù)據(jù)詳情,提供了更多的統(tǒng)計(jì)量,histogram,相同值的個數(shù),極值等信息。


6. sample1列的詳細(xì)的統(tǒng)計(jì)結(jié)果


以上是針對單列的,同時還提供了多列的相關(guān)性信息及熱圖。包括Spearman、Pearson等,可以從總體上看出我們數(shù)據(jù)之間的聯(lián)系。


圖7. 數(shù)值變量相關(guān)性


最后,還提供了一些“Alerts”信息,也就是對各列的總結(jié)。


8. Alert信息(部分)


熟悉python的小伙伴可以試試這個包,幾行代碼就可以對自己的數(shù)據(jù)進(jìn)行探索性分析。微生信平臺也提供了在線版本供大家使用,其目的是為了讓大家更好地了解自己的數(shù)據(jù),以便更方便地在微生信網(wǎng)站進(jìn)行作圖和分析。以帶標(biāo)注的火山圖為例。首先我們使用pandas_profiling小工具檢查下我們的輸入。https://www.bioinformatics.com.cn/basic_online_pandas_profiling_analysis_report_t012


圖9. 上傳頁面


將右側(cè)例子右鍵另存為txt,名字必須英文。

然后在左側(cè)“選擇文件”,點(diǎn)擊提交按鈕。約10s后會返回結(jié)果頁面。


圖10. 輸出頁面


下載并打開結(jié)果報(bào)告



圖11. 結(jié)果報(bào)告示例


該工具可以很方便地幫助我們檢查數(shù)據(jù)中是否異常,例如基因名重復(fù),p值>1等,如果有,則需要對數(shù)據(jù)進(jìn)行校對后再進(jìn)行繪圖和分析。注:由于這個程序計(jì)算量較大,僅提供了粘貼方式的上傳數(shù)據(jù)方式。感興趣的小伙伴也可以試試本地python版,幾行代碼就可以對數(shù)據(jù)進(jìn)行探索性分析。


微生信助力發(fā)文章,谷歌引用620+,知網(wǎng)引用450+

數(shù)據(jù)分析,從了解你的數(shù)據(jù)開始,數(shù)據(jù)探索性分析工具包pandas-profiling的評論 (共 條)

分享到微博請遵守國家法律
化隆| 凤城市| 蒙阴县| 宜城市| 彭山县| 铜川市| 绿春县| 玉溪市| 资中县| 连平县| 柳州市| 新乡市| 邳州市| 牙克石市| 台中市| 渭源县| 广汉市| 通山县| 富阳市| 勃利县| 泗阳县| 健康| 凤山县| 绍兴市| 城步| 威远县| 蓝田县| 抚宁县| 宜都市| 贡山| 义马市| 南涧| 赤城县| 双牌县| 崇礼县| 呼和浩特市| 平凉市| 兴化市| 白山市| 胶南市| 独山县|