深度學(xué)習(xí)將蛋白質(zhì)設(shè)計(jì)改進(jìn)了10倍
理解蛋白質(zhì)(如控制癌癥、COVID-19和其他疾病的蛋白質(zhì))的關(guān)鍵非常簡(jiǎn)單。鑒定它們的化學(xué)結(jié)構(gòu),并找出能與它們結(jié)合的其他蛋白質(zhì)。
?
設(shè)計(jì)具有高親和力和特異性結(jié)合蛋白的方法在生物醫(yī)學(xué)中對(duì)于產(chǎn)生候選治療藥物、診斷和成像試劑具有相當(dāng)重要的意義。目前應(yīng)用最廣泛的方法包括用靶點(diǎn)免疫動(dòng)物以誘導(dǎo)產(chǎn)生抗體,或者篩選高度復(fù)雜的隨機(jī)抗體庫(kù)或其他支架材料來(lái)結(jié)合活性。但近年僅根據(jù)靶結(jié)構(gòu)信息從頭設(shè)計(jì)高親和力蛋白結(jié)合蛋白已成為可能。然而,由于總體設(shè)計(jì)成功率較低,因此有相當(dāng)大的改進(jìn)空間。最近發(fā)表于《自然》子刊《Nature Communications》上題為“Improving de novo protein binder design with deep learning”的研究使用深度學(xué)習(xí)方法在“從頭開(kāi)始”或從頭開(kāi)始計(jì)算蛋白質(zhì)設(shè)計(jì)中增強(qiáng)現(xiàn)有的基于能量的物理模型,導(dǎo)致實(shí)驗(yàn)室驗(yàn)證的設(shè)計(jì)蛋白質(zhì)與其靶蛋白結(jié)合的成功率提高了10倍。

深度學(xué)習(xí)使用計(jì)算機(jī)算法來(lái)分析數(shù)據(jù)中的模式并從中得出推論,對(duì)算法進(jìn)行分層,以逐步從原始輸入中提取更高級(jí)別的特征。在這項(xiàng)研究中,深度學(xué)習(xí)方法被用來(lái)學(xué)習(xí)蛋白質(zhì)序列和可能結(jié)構(gòu)的表示的迭代變換,這些迭代變換非??焖俚厥諗康浇Y(jié)果非常準(zhǔn)確的模型上。研究人員開(kāi)發(fā)的深度學(xué)習(xí)增強(qiáng)從頭蛋白質(zhì)結(jié)合劑設(shè)計(jì)協(xié)議包括機(jī)器學(xué)習(xí)軟件工具AlphaFold 2和RoseTTA fold。
?

研究人員使用RifDock對(duì)接程序生成了600萬(wàn)個(gè)蛋白質(zhì)“docks”,或者潛在結(jié)合蛋白質(zhì)結(jié)構(gòu)之間的相互作用,將它們分成大約10萬(wàn)個(gè)塊,并使用Linux實(shí)用程序?qū)⒚總€(gè)塊分配給Frontera的8000多個(gè)計(jì)算節(jié)點(diǎn)之一。
這10萬(wàn)個(gè)碼頭中的每一個(gè)都將被分成100個(gè)工作崗位,每個(gè)崗位包含1000種蛋白質(zhì)。1000個(gè)蛋白質(zhì)進(jìn)入計(jì)算設(shè)計(jì)軟件Rosetta,其中1000個(gè)首先以秒的十分之一的規(guī)模進(jìn)行篩選,而存活下來(lái)的蛋白質(zhì)則以幾分鐘的規(guī)模進(jìn)行篩選。

然后將DNA與酵母組合,使得每個(gè)酵母細(xì)胞在其表面上表達(dá)一種設(shè)計(jì)的蛋白質(zhì)。然后將酵母細(xì)胞分選為結(jié)合的細(xì)胞和不結(jié)合的細(xì)胞。反過(guò)來(lái),他們使用人類基因組測(cè)序項(xiàng)目的工具來(lái)找出哪些DNA起作用,哪些DNA不起作用。
研究人員認(rèn)為,盡管研究結(jié)果顯示,設(shè)計(jì)結(jié)構(gòu)與目標(biāo)蛋白結(jié)合的成功率提高了10倍,但仍有很長(zhǎng)的路要走。這項(xiàng)研究的未來(lái)是要進(jìn)一步提高成功率,并轉(zhuǎn)移到一個(gè)更難的目標(biāo)的新階層。病毒和癌癥 T 細(xì)胞受體就是最好的例子。
改進(jìn)計(jì)算設(shè)計(jì)的蛋白質(zhì)的方法是使軟件工具更加優(yōu)化,或者更多地采樣。