推薦幾個(gè)專業(yè)Alphafold2蛋白質(zhì)結(jié)構(gòu)預(yù)測AI工作站方案
AlphaFold2計(jì)算特點(diǎn)
蛋白質(zhì)三維結(jié)構(gòu)預(yù)測是一項(xiàng)計(jì)算量非常巨大的任務(wù),科學(xué)家多年的探索研究,形成了X射線晶體學(xué)法、核磁共振法、冷凍電鏡等
2021年底,谷歌的DeepMind團(tuán)隊(duì)的采用人工智能方法的AlphaFold2算法在生物界引起了極大的轟動(dòng),它能準(zhǔn)確地預(yù)測蛋白質(zhì)的結(jié)構(gòu),AlphaFold2是當(dāng)今預(yù)測蛋白質(zhì)3D結(jié)構(gòu)的最強(qiáng)工具。它將被大量用于推動(dòng)世界蛋白質(zhì)研究向前發(fā)展.

AlphaFold2在國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP14)上精確地基于氨基酸序列預(yù)測蛋白質(zhì)的3D結(jié)構(gòu)。其準(zhǔn)確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學(xué)等實(shí)驗(yàn)技術(shù)解析的3D結(jié)構(gòu)相媲美。
目前情況(大致統(tǒng)計(jì)):
(1)Deepmind開源了AlphaFold2的源代碼(推理部分)
(2)華盛頓大學(xué)開源了RoseTTRFold的源代碼(推理部分)
(3)深勢科技復(fù)現(xiàn)了AlphaFold的訓(xùn)練部分,并開源代碼(訓(xùn)練和推理)
(4)上海天壤智能科技有限公司復(fù)現(xiàn)了TRfold訓(xùn)練部分和推理部分
(5)上海交大對AlphaFold2的推理代碼進(jìn)行了優(yōu)化(推理并行版)
(一)AlphaFold2蛋白質(zhì)結(jié)構(gòu)預(yù)測計(jì)算特點(diǎn)
如何配置好硬件,最快速度完成訓(xùn)練、推理計(jì)算,首先分析其計(jì)算過程以及算法特點(diǎn)


計(jì)算過程
總輸入單個(gè)蛋白質(zhì)序列FASTA格式(推理);
通過搜索工具(jackHMMER/HHblits)分別對多個(gè)遺傳數(shù)據(jù)庫--執(zhí)行隱馬爾可夫模型的搜索生成MSA(序列-殘基);見圖1
搜索的結(jié)構(gòu)和序列產(chǎn)生的Pairing信息(殘基-殘基);
通過HHsearch搜索的Template
計(jì)算與硬件配置分析
數(shù)據(jù)庫搜索過程涉及數(shù)據(jù)庫密集I/O讀寫,數(shù)據(jù)放到高速SSD硬盤上,數(shù)據(jù)量累積超過2TB,非常耗時(shí),加速手段提升CPU計(jì)算速度。
硬件配置
CPU計(jì)算為主,內(nèi)存要夠大,或配備NVME SSD固態(tài)卡,容量4TB以上

(圖片來源:上海交通大學(xué) https://parafold.sjtu.edu.cn/docs/quick-start/)
計(jì)算過程
利用多序列比對(MSA),把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到深度學(xué)習(xí)算法中,主要包括:神經(jīng)網(wǎng)絡(luò)EvoFormer和結(jié)構(gòu)模塊(Structure module).
在EvoFormer中,主要是將圖網(wǎng)絡(luò)(Graph networks)和多序列比對(MSA)結(jié)合完成結(jié)構(gòu)預(yù)測,Alphafold2使用Transformer結(jié)構(gòu),不管是MSA還是殘基-殘基對的信息更新都使用了Attention機(jī)制,結(jié)構(gòu)模塊的更新使用了三角法則,簡化了計(jì)算的復(fù)雜度,準(zhǔn)確率也提高了不少.
結(jié)構(gòu)模塊(Structure Module)主要工作是將EvoFormer得到的信息轉(zhuǎn)換為蛋白質(zhì)3D結(jié)構(gòu).
整個(gè)模型的Evoformer和Structure module部分都使用了Recycling,即將輸出重新加入到輸入在重復(fù)refinement,進(jìn)行信息的精煉.
計(jì)算特點(diǎn)
上述計(jì)算過程用GPU更合理,對GPU要求是高顯存帶寬、大容量顯存、大蛋白質(zhì)計(jì)算通過將多GPU卡設(shè)置統(tǒng)一內(nèi)存架構(gòu),大的顯存可支持更大的計(jì)算數(shù)據(jù)存放
計(jì)算架構(gòu)分析匯總

(二)蛋白質(zhì)結(jié)構(gòu)預(yù)算AI工作站配置推薦2023v1
西安坤隆計(jì)算機(jī)科技有限公司專注于工作站專業(yè)應(yīng)用,對每個(gè)應(yīng)用的計(jì)算過程研究分析,給出精準(zhǔn)高效、高可靠計(jì)算架構(gòu)和專業(yè)系統(tǒng)優(yōu)化,以及穩(wěn)定的技術(shù)支持,保證與應(yīng)用軟件90%以上的匹配吻合,和長期穩(wěn)定運(yùn)行.

硬件配置具有以下特點(diǎn):
1)配備CPU規(guī)格均以高頻為主,兼顧足夠CPU核數(shù),這樣保證數(shù)據(jù)預(yù)處理(最慢的環(huán)節(jié)),計(jì)算時(shí)間大幅縮短,GPU卡采用單精度指標(biāo)高的、顯存容量大的,保證神經(jīng)預(yù)測計(jì)算加速,滿足AlphaFold2的理想的配置方案
2)整機(jī)的cpu、gpu、硬盤配置,滿足AlphaFold2推理(包括上海交大并行版)計(jì)算要求,均衡無死角,性能最大化;
3)為深勢科技的Uni-Fold訓(xùn)練、推理模塊提供理想配置架構(gòu);
4)每個(gè)配置機(jī)器做到即開即用,并提供硬件+優(yōu)化+穩(wěn)定高速運(yùn)行技術(shù)支持服務(wù)
5)支持大規(guī)模的計(jì)算擴(kuò)展應(yīng)用需求
2.1 蛋白質(zhì)結(jié)構(gòu)預(yù)測工作站配置參考23v1


2.2 AlphaFold訓(xùn)練集群配置參考23v1

集群技術(shù)特點(diǎn)
(1)本集群是由高頻服務(wù)器、GPU計(jì)算服務(wù)器、管理服務(wù)器、并行存儲(chǔ)服務(wù)器組成。
(2)集群硬件配置每個(gè)環(huán)節(jié)都基于人工智能預(yù)測蛋白質(zhì)三維結(jié)構(gòu)算法最快優(yōu)化設(shè)計(jì)。
(3)【高頻服務(wù)器】采用有限多核高頻CPU、高速NVME SSD用于密集海量序列比計(jì)算,計(jì)算性能和io讀寫性能完美匹配高效,支持多個(gè)單核計(jì)算或2個(gè)以上并行版的比對軟件同步計(jì)算。
(4)【GPU計(jì)算服務(wù)器】配備最新Xeon3代處理器,32核+8塊RTX A6000 48GB,cpu頻率和pcie 4.0 x16是蛋白質(zhì)折疊人工智能并行計(jì)算最理想架構(gòu)。
(5)作業(yè)調(diào)度軟件針對蛋白質(zhì)預(yù)測元計(jì)算兩個(gè)主要環(huán)節(jié):序列比對計(jì)算(CPU有限多核計(jì)算環(huán)節(jié))、人工智能預(yù)測(GPU多卡并行計(jì)算環(huán)節(jié)),
序列比對計(jì)算環(huán)節(jié)--調(diào)用【高頻服務(wù)器】處理,
蛋白質(zhì)結(jié)構(gòu)預(yù)測計(jì)算環(huán)節(jié)--調(diào)用多臺(tái)【GPU服務(wù)器】并行計(jì)算。
(6) 集群性能從硬件架構(gòu)、作業(yè)調(diào)度系統(tǒng)均比常規(guī)集群性能達(dá)到極致,全新改寫的作業(yè)調(diào)度系統(tǒng),比市面上的作業(yè)調(diào)度系統(tǒng)效率更高。
方案1 蛋白質(zhì)智能預(yù)測集群方案(40塊GPU卡)

方案2 蛋白質(zhì)智能預(yù)測集群方案(80塊GPU卡)

方案3 蛋白質(zhì)智能預(yù)測集群方案(128塊GPU卡)

參考資料:
AlphaFold2? https://github.com/deepmind/alphafold/
上海交大 AlphaFold再HPC平臺(tái)的部署和優(yōu)化
https://parafold.sjtu.edu.cn/docs/quick-start/ ?
PombertLab/3DFI
https://github.com/PombertLab/3DFI
上述所有配置,代表最新硬件架構(gòu),同時(shí)保證是最完美,最快。
可咨詢機(jī)器處理速度如何、技術(shù)咨詢、索取詳細(xì)技術(shù)方案,提供遠(yuǎn)程測試。