2023基因測序、生物信息分析平臺工作站、服務(wù)器計算集群硬件配置推薦
(一)了解生物信息學(xué)

生物信息學(xué)(Bioinformatics)利用應(yīng)用數(shù)學(xué)、信息學(xué)、統(tǒng)計學(xué)和計算機科學(xué)的方法研究生物學(xué)的問題。生物信息學(xué)的研究材料和結(jié)果就是各種各樣的生物學(xué)數(shù)據(jù),其研究工具是計算機,研究方法包括對生物學(xué)數(shù)據(jù)的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。
生物信息學(xué)典型工作流程

這個過程是由一系列鏈接的步驟組成,這些步驟將原始輸入(測序原始數(shù)據(jù)RAW)轉(zhuǎn)換為有意義或可解釋的輸出,例如,高通量測序NGS數(shù)據(jù)而生成的fastq文件。然后用于基因組序列分析的特定功能方面的特定工具執(zhí)行。根據(jù)執(zhí)行的分析類型,工作流可以具有可變數(shù)量的步驟,因此可以是簡單的或復(fù)雜的。
生物信息學(xué)主要研究方向:DNA/RNA/蛋白質(zhì)測序,序列比對,基因發(fā)現(xiàn),基因組組裝,藥物設(shè)計,藥物發(fā)現(xiàn),蛋白質(zhì)結(jié)構(gòu)比對和預(yù)測,通過使用計算密集型技術(shù)(用于模式識別,數(shù)據(jù)挖掘,機器學(xué)習(xí)算法和可視化)來加深對生物過程的理解。因此需要配備先進的計算設(shè)備和豐富專業(yè)的分析軟件
(二)生物信息學(xué)分析的計算特點
如何選購一個理想的圖形工作站硬件配置,可能很多人思考過:
什么是用于生物信息學(xué)和計算生物學(xué)研究的最佳PC/工作站?
用于生物信息學(xué)分析的服務(wù)器配置
全基因組序列分析實驗室的硬件配置
高通量序列分析服務(wù)器有什么要求
下一代測序數(shù)據(jù)分析硬件配置推薦
用于分析NGS宏基因組學(xué)數(shù)據(jù)的計算機配置?
2.1 生物信息分析的計算特點
生物信息數(shù)據(jù)分析涉及到基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、宏基因組學(xué)、代謝物組學(xué)等,下圖是全基因組數(shù)據(jù)分析流程

生物信息學(xué)數(shù)據(jù)分析所涉及的計算主要是
(1)重測序過程中的序列/映射比對計算(Mapping)
對于使用BWA/Bowtie等程序進行映射讀取,對內(nèi)存RAM要求不高(例如32GB即可),但CPU內(nèi)核數(shù)量(及其頻率)將決定計算過程需要多長時間。如果要進行大量對齊和比對(例如使用BWA),那么擁有大量CPU核心比擁有大量內(nèi)存更為重要。
當(dāng)然配置規(guī)格取決于您的預(yù)算和計劃進行的分析類型。
RNASeq中計算量較大的就是比對步驟了,而比對往往只需要一次就可以! 一般32核CPU+64GB RAM硬件配置,可以滿足對基因組/轉(zhuǎn)錄組/虹基因組分析的標(biāo)準(zhǔn)映射(maping)以及下游分析。
(2)從頭測序De novo的序列組裝計算(Assembly)
如果要進行從頭組裝(例如Velvet),假設(shè)一個人的全基因組測序數(shù)據(jù),采用二代測序的方法,人的基因組3G,10倍數(shù)據(jù)30G,那么這30G的堿基,在切成更小的kmer,假設(shè)數(shù)據(jù)增加到了100G,還不算存儲序列的一些其他信息,序列拼接的時候必須一次將所有數(shù)據(jù)同時存入內(nèi)存,如果內(nèi)存達不到100G,拼接根本無法完成。
因此,對于大型基因組裝而言,需要的硬件資源特別多,不緊cpu要有足夠的計算能力,內(nèi)存在150G以上,但是如細(xì)菌基因組,數(shù)據(jù)集和基因組數(shù)據(jù)量不太大,內(nèi)存128GB足夠了
為了使NGS(下一代測序)分析的工作負(fù)荷最大化,硬件配置三個關(guān)鍵瓶頸:可用的CPU核數(shù)、內(nèi)存容量以及I/O帶寬
2.2 生信分析對硬件配置要求
如何處理454和Illumina數(shù)據(jù)? 全基因組裝配/組裝?序列拼接?映射讀取到參考基因組?
(1)需要多少存儲空間才能保持?jǐn)?shù)據(jù)實時讀?。ㄓ脖P容量)?
開發(fā)下一代測序(高通量測序)的臨床應(yīng)用的瓶頸是存儲和分析所生成的大量數(shù)據(jù)。應(yīng)用程序多種多樣,但共同的主題在計算和分析上具有挑戰(zhàn)性。
(2)要分析的每個文件有多大(RAM容量,硬盤讀寫速度)?
(3)要使用的軟件準(zhǔn)備好使用多處理器運行時間是否有要求(CPU核數(shù))?
配置參考:
(1)基于基因組計劃的大小

(2)基于課題組研究人員數(shù)量

(三)生物信息分析圖形工作站配置推薦2023

(四)生物信息分析多機集群配置推薦2023


欲咨詢機器處理速度如何、技術(shù)咨詢、索取詳細(xì)技術(shù)方案, 請聯(lián)系


