最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

數(shù)據(jù)分析的非普適避坑指南

2022-11-02 08:55 作者:生信小院  | 我要投稿


于本公眾號的作者而言,常常需要在科研生活中對各種各樣的數(shù)據(jù)進(jìn)行格式整理和數(shù)據(jù)可視化。完成這部分工作則經(jīng)常需要通過編寫各種各樣的腳本以及撰寫各類軟件對數(shù)據(jù)進(jìn)行操作。然而,在這些年數(shù)據(jù)分析中,本公眾號的作者已經(jīng)走過許許多多的彎路,學(xué)習(xí)到了一些寶貴的經(jīng)驗(浪費了大量的時間)。比如常常因為修改一個bug或者改變軟件的一個功能而花費大量的時間(原本可以節(jié)約)。這些時間的浪費導(dǎo)致科研計劃的延遲或者擱置,也導(dǎo)致時間工作效率的大幅度降低。因此,本推文則根據(jù)本公眾號的作者這些年數(shù)據(jù)分析的經(jīng)驗總結(jié)出一套數(shù)據(jù)分析避坑指南,幫助大家避坑。但是這一避坑指南不具有普適性,僅僅是本公眾號的作者結(jié)合自身的學(xué)習(xí)特點、項目經(jīng)驗和性格偏好而總結(jié)出來的,希望能夠分享出來對大家有所幫助。

1、盡量將用于分析的腳本文件與數(shù)據(jù)結(jié)果文件分開兩個文件夾進(jìn)行操作

這樣做有兩方面優(yōu)點:一方面,當(dāng)數(shù)據(jù)分析結(jié)果太大而這一數(shù)據(jù)分析內(nèi)容又需要備份的時候,可以通過備份少數(shù)幾個腳本和原始文件即可(但是,對于那些分析需要花費較多時間的腳本,本建議可能并不是特別適用);另一方面,有利于腳本的撰寫。因為如果腳本和數(shù)據(jù)分析文件互相充斥,那么就會導(dǎo)致無法快速有效的理清腳本撰寫思路(試想一下,這種情況該多么的混亂?。?/p>

2、對大數(shù)據(jù)而言,可以從中提煉一個子數(shù)據(jù)集用于腳本測試。

對于轉(zhuǎn)錄組、基因組等項目而言,完整的跑完一遍流程常常需要幾周或者幾個月的時間。那么如果在數(shù)據(jù)分析結(jié)束之后發(fā)現(xiàn)腳本邏輯有錯誤,即意味著一個項目周期沒有了(就會被老板批,哈哈)。因此,通過提取有代表性的子數(shù)據(jù)集進(jìn)行腳本的測試,既能夠發(fā)現(xiàn)腳本撰寫中的bug,也能在測試中優(yōu)化腳本,減少分析時間。而對于部分自己撰寫的腳本而言,可能無法找到合適的測試數(shù)據(jù),那么可以先依據(jù)數(shù)據(jù)分析的特性和腳本撰寫的邏輯,自行生成一個檢測數(shù)據(jù)集(test data)用以對腳本進(jìn)行驗證。當(dāng)然,這個檢測數(shù)據(jù)的預(yù)期結(jié)果也得是已知的,這樣才可以檢測腳本數(shù)據(jù)是否有問題。

3、對于一些分析結(jié)果文件,可以提取子數(shù)據(jù)集并通過excel或者其他腳本進(jìn)行初級的數(shù)據(jù)可視化工作

事實上,對于大多數(shù)人而言(包括本作者),在面臨一大批數(shù)字的時候,第一感覺都是茫然(,第二可能是煩躁)。因此,匹配到好的可視化工具或者腳本一方面可以使得自身對數(shù)據(jù)的興趣陡升,另一方面也能以更為清晰明確的方式去數(shù)據(jù)結(jié)果中被忽略的邏輯錯誤。如在做轉(zhuǎn)錄組分析篩選差異基因的過程中,必然會需要對差異基因的FPKM值進(jìn)行一系列轉(zhuǎn)置變換的操作。在這種情況下,通過借助excel對其中一個基因的FPKM值進(jìn)行處理,其后將處理的結(jié)果與結(jié)果文件中各種產(chǎn)出的數(shù)據(jù)進(jìn)行比對,便可以初步確認(rèn)本腳本的邏輯與分析結(jié)果是否正確,是否具有疏漏。

4、腳本需要多些注釋

這一原則應(yīng)該在眾多的編程思想里均有體現(xiàn),即腳本注釋越清晰越好。比如,一個腳本或者軟件在擱置許久后被重新啟用,常常會面臨語義不清,邏輯不明的情況。而這時,腳本注釋就會發(fā)揮非常重要的作用,可以幫助后來的腳本使用者快速熟悉原腳本撰寫者的邏輯,從而在優(yōu)化或者復(fù)用腳本的時候加快整個進(jìn)程。

5、通用腳本最好有且僅有一個

我們在分析分析不同的項目的時候常常會需要使用到一些通用的腳本。但是,如果針對每個項目撰寫一個通用的腳本(不同項目間的通用腳本存在差異),必然會導(dǎo)致后續(xù)腳本整理起來的時候面臨極大的困境(如哪個腳本才是最可靠的)。因此,只撰寫一個通用腳本,并輔以多個接口功能,可以保證我們腳本復(fù)用和整理時更有章法。

二 慣例小結(jié)

其實也沒什么小結(jié),就是希望大家能夠勞逸結(jié)合,多發(fā)paper。

照例,推介一下Multi-omics Visual與Multi-omics Hammer軟件。文末是本公眾號在其他平臺的賬戶,也歡迎大家關(guān)注并多提意見。

簡書:WJ的生信小院

博客園:生信小院

公眾號:生信小院

軟件下載地址:

Multi-omics Visual:?

https://github.com/wangjun258/Multi_omics_Visual/releases/tag/Multi_omics_Visual_v1.03

Multi-omics Hammer:?

https://github.com/wangjun258/Multi-omics-Hammer


數(shù)據(jù)分析的非普適避坑指南的評論 (共 條)

分享到微博請遵守國家法律
蓬莱市| 垣曲县| 涿鹿县| 包头市| 宽城| 宜阳县| 吴忠市| 玉门市| 称多县| 盐津县| 防城港市| 山东省| 齐齐哈尔市| 民乐县| 平江县| 徐州市| 易门县| 丹棱县| 仙桃市| 永川市| 东安县| 仪征市| 焦作市| 离岛区| 佛冈县| 三江| 株洲市| 大同县| 沙田区| 宜城市| 武威市| 安乡县| 高雄县| 万荣县| 上蔡县| 中宁县| 庆安县| 哈尔滨市| 当雄县| 长治县| 榆树市|