EQUIBIND: Geometric Deep Learning for Drug Binding Structure Pre
在藥物發(fā)現(xiàn)中,預(yù)測(cè)藥物類(lèi)似分子與特定蛋白質(zhì)靶點(diǎn)的結(jié)合方式是一個(gè)核心問(wèn)題。一種極快的計(jì)算結(jié)合方法將使快速虛擬篩選或藥物工程等關(guān)鍵應(yīng)用成為可能。現(xiàn)有的方法在計(jì)算上非常昂貴,因?yàn)樗鼈円蕾?lài)于重度候選采樣以及評(píng)分、排序和微調(diào)步驟。我們用EQUIBIND來(lái)挑戰(zhàn)這種范式,它是一種SE(3)-等變幾何深度學(xué)習(xí)模型,可以直接預(yù)測(cè)接受體的結(jié)合位置(盲對(duì)接)和配體的結(jié)合姿勢(shì)和方向。與傳統(tǒng)和最新的基準(zhǔn)方法相比,EquiBind實(shí)現(xiàn)了顯著的加速和更好的質(zhì)量。此外,當(dāng)與現(xiàn)有的微調(diào)技術(shù)結(jié)合時(shí),我們展示了額外的改進(jìn),但代價(jià)是增加了運(yùn)行時(shí)間。最后,我們提出了一種新穎且快速的微調(diào)模型,該模型根據(jù)給定輸入原子點(diǎn)云到von Mises角距離的閉合形式全局極小值,調(diào)整配體的可轉(zhuǎn)動(dòng)鍵的扭轉(zhuǎn)角度,避免了先前昂貴的微分進(jìn)化策略用于能量最小化。

藥物發(fā)現(xiàn)是一個(gè)昂貴的過(guò)程,例如,一種藥物的研發(fā)和測(cè)試費(fèi)用約為10億美元,需要花費(fèi)10年的時(shí)間,才有可能被FDA批準(zhǔn)。此外,這個(gè)過(guò)程可以在任何階段失敗,例如,由于意外的副作用或?qū)λ兄Z的治療效果的實(shí)驗(yàn)證明無(wú)效。更糟糕的是,存在著1060種可能的類(lèi)似藥物分子(Reymond&Awale,2012),遠(yuǎn)遠(yuǎn)超過(guò)了當(dāng)前的實(shí)驗(yàn)?zāi)芰Α?/p>
準(zhǔn)確的計(jì)算方法,例如基于深度學(xué)習(xí)(DL)的方法,可以極大地減少分子搜索空間,但需要非??焖俚貟呙椠嫶蟮纳锖突瘜W(xué)空間以尋找所期望的和意外的效果。例如,一種新型藥物可能會(huì)失活重要的癌癥蛋白質(zhì),但也可能會(huì)對(duì)人體中的其他必要蛋白質(zhì)產(chǎn)生負(fù)面抑制作用,可能導(dǎo)致危及生命的副作用??紤]到人類(lèi)蛋白質(zhì)組含有多達(dá)10萬(wàn)種蛋白質(zhì)類(lèi)型,目前的希望是以計(jì)算方式掃描這些相互作用,然后再將一些有希望的候選物帶入體外和體內(nèi)測(cè)試。
藥物發(fā)現(xiàn)的一個(gè)核心問(wèn)題是理解類(lèi)似藥物分子(配體)與目標(biāo)蛋白質(zhì)(受體)之間的相互作用和形成復(fù)合物的方式,即藥物結(jié)合,這是進(jìn)行虛擬篩選的先決條件。這是一個(gè)復(fù)雜的問(wèn)題,涉及到不同的方面和限制:結(jié)合動(dòng)力學(xué)、構(gòu)象變化(分子內(nèi)部靈活性)以及化學(xué)和幾何原子間相互作用類(lèi)型是描述配體-蛋白質(zhì)結(jié)合機(jī)制的領(lǐng)域知識(shí)的一部分(Du等,2016)。例如,分子復(fù)合物形成的經(jīng)典模型有“鎖-鑰”、“誘導(dǎo)適配”和“構(gòu)象選擇”,而疏水、氫鍵和π-堆積是最常見(jiàn)的原子結(jié)合相互作用,但在結(jié)合過(guò)程中也經(jīng)常出現(xiàn)其他類(lèi)型的相互作用(de Freitas&Schapira,2017)。
目前,用于(3D)結(jié)構(gòu)藥物結(jié)合的計(jì)算方法在計(jì)算成本方面具有高質(zhì)量:在我們的實(shí)驗(yàn)中,GNINA方法(McNutt等,2021)平均需要146秒才能處理一個(gè)配體-受體配對(duì),而流行的商業(yè)軟件Glide(Halgren等,2004)慢了多達(dá)9倍。這是由于所有先前結(jié)合方法采用的常見(jiàn)策略:首先通過(guò)對(duì)可能的結(jié)合位置和姿勢(shì)進(jìn)行徹底的采樣(Hassan等,2017)生成大量候選復(fù)合物(例如數(shù)百萬(wàn)),然后使用評(píng)分和排序步驟檢索最有希望的實(shí)例,最后,使用基于能量的微調(diào)方法來(lái)將配體最佳適合到相應(yīng)的口袋位置。
在這里,我們引入了一個(gè)新的用于結(jié)構(gòu)藥物結(jié)合的EQUIBIND幾何和圖形深度學(xué)習(xí)模型-圖1。受Ganea等人(2021a)的啟發(fā),我們利用圖匹配網(wǎng)絡(luò)(GMN)(Li等人,2019)和E(3)-等變圖神經(jīng)網(wǎng)絡(luò)(E(3)-GNN)(Satorras等人,2021)進(jìn)行直接預(yù)測(cè)配體-受體復(fù)合物的結(jié)構(gòu),而不依賴(lài)于先前工作中的大量采樣,從而實(shí)現(xiàn)了顯著的推理時(shí)間加速。此外,由于3D結(jié)構(gòu)數(shù)據(jù)很少(例如,PDBbind數(shù)據(jù)庫(kù)中只有約19K個(gè)實(shí)驗(yàn)復(fù)合物可供公開(kāi)使用),將正確的物理、化學(xué)或生物歸納偏置注入DL模型中以避免從不足的數(shù)據(jù)量中學(xué)習(xí)這些先驗(yàn)知識(shí)并創(chuàng)建可靠的模型是至關(guān)重要的。為了實(shí)現(xiàn)這一目標(biāo),EQUIBIND具備以下特點(diǎn):
對(duì)兩個(gè)分子的初始3D放置和方向的獨(dú)立性進(jìn)行保證,即對(duì)于相同的輸入未結(jié)合結(jié)構(gòu),始終預(yù)測(cè)出完全相同的復(fù)合物結(jié)構(gòu);
通過(guò)僅改變可轉(zhuǎn)動(dòng)鍵的扭轉(zhuǎn)角度而保持局部結(jié)構(gòu)(鍵角和鍵長(zhǎng))不變,將符合生物學(xué)的配體靈活性引入模型;
使用非相交損失以防止立體阻礙或不現(xiàn)實(shí)的范德華相互作用。
我們重點(diǎn)關(guān)注盲對(duì)接場(chǎng)景,即對(duì)蛋白質(zhì)的結(jié)合位點(diǎn)或口袋沒(méi)有任何先驗(yàn)知識(shí)。然而,我們的方法可以很容易地適應(yīng)已知大致結(jié)合位置的情況。類(lèi)似于(Zhang等人,2020),我們認(rèn)為地面真實(shí)配體結(jié)合口袋構(gòu)象的錯(cuò)誤會(huì)嚴(yán)重影響那些以受體活性位點(diǎn)為條件的傳統(tǒng)對(duì)接方法(Lang等人,2009; Trott&Olson,2010)。在實(shí)踐中,結(jié)合原子的地面真實(shí)3D位置可能是低分辨率的,甚至可能完全未知(例如對(duì)于新型抗原),或者我們可能有興趣發(fā)現(xiàn)蛋白質(zhì)表面上以前認(rèn)為是不可藥用的的新的藥物結(jié)合位置(例如,探索非等備位點(diǎn)而不是等位點(diǎn)位點(diǎn))。
實(shí)證上,我們研究了兩種設(shè)置:重對(duì)接(即將結(jié)合的配體結(jié)構(gòu)從復(fù)合物中拿出來(lái),并要求模型將其對(duì)接)和靈活的自對(duì)接(即在對(duì)接之前,配體沒(méi)有結(jié)合結(jié)構(gòu)的知識(shí))。我們假設(shè)受體是剛性的,但通過(guò)首先預(yù)測(cè)變形分子的原子點(diǎn)云,然后使用快速算法提取可轉(zhuǎn)動(dòng)鍵扭轉(zhuǎn)角度的內(nèi)部變化,使其與點(diǎn)云最好地匹配,來(lái)建模配體的靈活性。我們使用最大化適合扭轉(zhuǎn)角度的馮·米塞斯分布的對(duì)數(shù)似然,而不是使用昂貴的優(yōu)化策略(例如,微分進(jìn)化方法)來(lái)最小化均方根偏差(RMSD),并證明了全局最優(yōu)解的閉合形式表達(dá)式。在實(shí)驗(yàn)中,我們展示了在各種指標(biāo)上相較于普及的最新基準(zhǔn)方法的改進(jìn)質(zhì)量,并以更少的運(yùn)行時(shí)間。最后,我們展示了將EquiBind與現(xiàn)有的基于能量的方法相結(jié)合以實(shí)現(xiàn)混合DL方法的效果。事實(shí)上,我們相信計(jì)算藥物發(fā)現(xiàn)的未來(lái)將遵循這里所展示的范例。
