不懂AlaphaFold?不,你懂!
強(qiáng)悍的蛋白結(jié)構(gòu)預(yù)測軟件AlphaFold2已經(jīng)開源,目前,AlphaFold2的源代碼已經(jīng)在GitHub上公開,利用AlphaFold2人們可以進(jìn)行高通量的蛋白結(jié)構(gòu)預(yù)測,進(jìn)行生物學(xué)研究以及藥物開發(fā)等。對(duì)于AlphaFold2相信對(duì)于大多數(shù)學(xué)者來說都是非常感興趣的,那么今天,我們就簡單介紹一下蛋白質(zhì)結(jié)構(gòu)預(yù)測的前世今生。
蛋白質(zhì)結(jié)構(gòu)預(yù)測背景介紹
在1972年諾貝爾化學(xué)獎(jiǎng)得主克里斯蒂安·安芬森(Christian Anfinsen)提出了一個(gè)著名的假設(shè)”自組裝學(xué)說”,主要內(nèi)容如下:
1. 蛋白折疊成所需信息都被編碼在了氨基酸序中。
2. 蛋白質(zhì)趨向于折疊到最小的能量狀態(tài)。
3. 大多數(shù)蛋白質(zhì)會(huì)折疊成一個(gè)獨(dú)特的構(gòu)象。
這一假設(shè)引發(fā)了一個(gè)長達(dá)50年的探索,即僅根據(jù)蛋白質(zhì)的氨基酸序列來計(jì)算預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。然而,將要面對(duì)的一個(gè)主要的挑戰(zhàn)是,理論上一種蛋白質(zhì)在形成最終的三維結(jié)構(gòu)之前可以折疊的方式是天文數(shù)字。1969年,賽勒斯·萊文塔爾(Cyrus Levinthal)指出,用強(qiáng)力計(jì)算法計(jì)算出一種典型蛋白質(zhì)的所有可能的構(gòu)型需要消耗比已知宇宙年齡更長的時(shí)間。蛋白質(zhì)的結(jié)構(gòu)是什么樣的呢?如下圖所示,蛋白質(zhì)的分子結(jié)構(gòu)可劃分為四級(jí)。而?蛋白質(zhì)結(jié)構(gòu)預(yù)測?是指通過蛋白質(zhì)的氨基酸序列預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。也就是說,從蛋白質(zhì)一級(jí)結(jié)構(gòu)預(yù)測它的折疊和二級(jí),三級(jí)和四級(jí)的蛋白質(zhì)結(jié)構(gòu)。

?圖片來源于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除
蛋白質(zhì)結(jié)構(gòu)預(yù)測產(chǎn)業(yè)價(jià)值
分析蛋白質(zhì)結(jié)構(gòu)、功能及其關(guān)系是蛋白質(zhì)組計(jì)劃中的一個(gè)重要組成部分。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)的作用,了解蛋白質(zhì)如何行使其生物功能,認(rèn)識(shí)蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,這無論是對(duì)于生物學(xué)還是對(duì)于醫(yī)學(xué)和藥學(xué),都是非常重要的。對(duì)于未知功能或者新發(fā)現(xiàn)的蛋白質(zhì)分子,通過結(jié)構(gòu)分析,可以進(jìn)行功能注釋,指導(dǎo)設(shè)計(jì)進(jìn)行功能確認(rèn)的生物學(xué)實(shí)驗(yàn)。通過分析蛋白質(zhì)的結(jié)構(gòu),確認(rèn)功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標(biāo),為設(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時(shí)為新的藥物分子設(shè)計(jì)提供合理的靶分子及結(jié)構(gòu)。


圖片來源于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除
蛋白質(zhì)結(jié)構(gòu)預(yù)測目前現(xiàn)狀
在過去的50年里,蛋白質(zhì)如何折疊,這是多年來科學(xué)研究的一個(gè)焦點(diǎn),人們使用各種實(shí)驗(yàn)技術(shù)來檢驗(yàn)和確定蛋白質(zhì)結(jié)構(gòu),如核磁共振和X射線晶體學(xué),低溫電子顯微鏡,而這些都依賴于廣泛的實(shí)驗(yàn),每種結(jié)構(gòu)可能需要數(shù)年艱苦的工作,并且需要使用價(jià)值數(shù)百萬美元的專門設(shè)備。
最近,谷歌旗下人工智能技術(shù)公司 DeepMind 提出深度學(xué)習(xí)算法?AlphaFold,破解了這一難題。已經(jīng)被兩年一度的CASP蛋白結(jié)構(gòu)預(yù)測賽事組織方認(rèn)可為蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的重要解決方案。由于涉及大量的生物,物理,化學(xué)以及深度學(xué)習(xí)相關(guān)知識(shí),在這里我們僅僅簡答介紹一下AlphaFold的算法原理,AlphaFold 構(gòu)建的模型都依賴深度神經(jīng)網(wǎng)絡(luò),這些經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以從基因序列中預(yù)測蛋白質(zhì)的屬性。DeepMind 的研究人員表示,神經(jīng)網(wǎng)絡(luò)預(yù)測的蛋白質(zhì)屬性主要有:
1. 氨基酸對(duì)之間的距離。
2. 連接這些氨基酸的化學(xué)鍵及它們之間的角度。
為了構(gòu)建 AlphaFold,DeepMind 在大量已知的蛋白質(zhì)上訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),直到它可以僅憑氨基酸預(yù)測蛋白質(zhì)的 3D 結(jié)構(gòu)。當(dāng)輸入一段未知的蛋白質(zhì)序列時(shí),AlphaFold 利用神經(jīng)網(wǎng)絡(luò)來預(yù)測氨基酸對(duì)之間的距離,以及連接它們的化學(xué)鍵之間的角度。接著,AlphaFold 逐步優(yōu)化初始的結(jié)構(gòu)以找到最優(yōu)的折疊結(jié)果。該項(xiàng)目花了兩周時(shí)間來預(yù)測其第一個(gè)蛋白質(zhì)結(jié)構(gòu),但現(xiàn)在幾小時(shí)內(nèi)就可以完成蛋白結(jié)構(gòu)的預(yù)測了。

圖片來源于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除
如何運(yùn)行AlphaFold2
目前從Github公開的AlphaFold2項(xiàng)目中我們可以了解到最低的官方運(yùn)行配置,從項(xiàng)目目前的使用反饋情況來看,也暴露了一些AlphaFold2的小問題,如下圖:

由于存在上述問題,碳聚生物有限責(zé)任公司?的Flowhub平臺(tái)?推出了針對(duì)?國內(nèi)用戶?使用的?AlphaFold2在線云計(jì)算分析服務(wù)。

在線云計(jì)算分析服務(wù)
FlowHub?是一個(gè)流程托管平臺(tái),我們知道隨著代碼對(duì)應(yīng)的應(yīng)用不斷發(fā)布,越來越多的基礎(chǔ)功能被實(shí)現(xiàn)出來,我們往往不需要再從頭開發(fā),僅基于這些公開的應(yīng)用就可以完成簡單的分析任務(wù),而對(duì)這些應(yīng)用的組合或許能夠幫助我們完成更加復(fù)雜且龐大的分析項(xiàng)目。但由于采用的語言和依賴千差萬別,如何兼容不同應(yīng)用,運(yùn)行和部署這些應(yīng)用成為了很多人的難題。FlowHub 應(yīng)運(yùn)而生,它基于docker技術(shù)完成了對(duì)所有應(yīng)用的封裝,使得不同應(yīng)用之間完全獨(dú)立,互不影響,同時(shí)它可以兼容不同云平臺(tái),依托各大云廠商的算力,解決資源瓶頸問題。更為重要的是,獨(dú)立的應(yīng)用之間通過暴露的接口可以相互連接,嵌套分析,如此即可快速搭建復(fù)雜分析流程。我們的目標(biāo)是希望構(gòu)建這樣的服務(wù),幫助更多的人快速解決問題,降低項(xiàng)目的復(fù)雜度,避免不必要的開發(fā)。?
Flowhub 平臺(tái)部署了大量生物分析標(biāo)準(zhǔn)流程,以及分析和可視化工具。所有的工具和流程都統(tǒng)一做了封裝,方便用戶一鍵使用。我們也為用戶提供了無限的計(jì)算資源,用戶可以批量運(yùn)行各類任務(wù),無需擔(dān)心機(jī)器配置的問題。

針對(duì)AlphaFold2我們可以提供以下服務(wù):
- 運(yùn)行文檔 -
- 數(shù)據(jù)下載 -
- 一鍵部署 -
- 批量計(jì)算 -
最多可同時(shí)運(yùn)行幾百到幾千個(gè)分析任務(wù),視具體輸入數(shù)據(jù)而定
平臺(tái)優(yōu)勢

如果您正在進(jìn)行相關(guān)研究,需要搭建AlphaFold服務(wù),那么我們平臺(tái)一定是您最好的選擇。無限資源,一鍵部署,正式實(shí)現(xiàn)高通量和計(jì)算自由。
平臺(tái)其他服務(wù)


商務(wù)合作
郵箱:flowhub_team@flowhub.com.cn
電話:17399981010