DEL-Dock:一種結(jié)合分子對接和DNA編碼的建模方法
近日,一篇關(guān)于DNA編碼文庫聯(lián)合AI用于藥物發(fā)現(xiàn)的文章《DEL-Dock: Molecular Docking-Enabled Modeling of DNA-Encoded Libraries》于2023年5月發(fā)表在JCIM雜志。作者介紹了DNA編碼文庫(DEL)技術(shù)的應(yīng)用并提出了一種新的分子親和力預(yù)測方法-DEL-Dock。DEL-Dock結(jié)合了基于配體的描述符和從對接蛋白質(zhì)-配體復(fù)合物中獲取的三維空間信息來進(jìn)行分子篩選。該方法可以有效地去除DEL實(shí)驗中的噪聲值,并預(yù)測分子富集得分,從而更好地預(yù)測分子的結(jié)合親和力。

研究意義
相對于傳統(tǒng)的高通量篩選(HTS)技術(shù),DEL能夠在單個管中測試約1百萬到50億個化合物,有效的對廣泛的化學(xué)空間進(jìn)行探索,在命中物篩選中開創(chuàng)了新的機(jī)會。如圖1所示,DEL涉及構(gòu)建一個大型的小分子庫,每個小分子都被貼上一個獨(dú)特的DNA條形碼。這些小分子,也被稱為 "合成物",通過化學(xué)反應(yīng)依次組裝起來。然后,通過實(shí)驗測試該庫對感興趣的蛋白質(zhì)的親和力。在這個過程中,DEL與固定后的蛋白質(zhì)混合,產(chǎn)生的混合物經(jīng)過幾輪洗滌,以確定仍與目標(biāo)或者基質(zhì)結(jié)合的成員。這些結(jié)合的分子隨后用第二代DNA測序來鑒定。然而,來自實(shí)驗的DEL數(shù)據(jù)可能包含各種噪音來源。

隨后,作者介紹了DEL (DNA-Encoded Library)中現(xiàn)有的計算方法,這些方法主要通過計算分子的富集得分來預(yù)測分子與蛋白質(zhì)的結(jié)合親和力。在現(xiàn)有的方法中,一些方法只考慮了分子的計數(shù)信息,而忽略了分子的結(jié)構(gòu)信息;另一些方法則將分子的結(jié)構(gòu)信息與計數(shù)信息結(jié)合起來,但仍然忽略了分子與蛋白質(zhì)的三維結(jié)構(gòu)信息。為了更好地利用分子與蛋白質(zhì)的三維結(jié)構(gòu)信息,本文提出了DEL-Dock模型,該模型將分子的結(jié)構(gòu)信息與蛋白質(zhì)與配體的結(jié)合位點(diǎn)信息結(jié)合起來,通過生成配體的構(gòu)象來預(yù)測分子與蛋白質(zhì)的結(jié)合親和力。該模型通過綜合多模態(tài)信息,學(xué)習(xí)分子的富集得分,并且能夠更好地分離信號與噪聲值。
模型
DEL-Doc模型將分子級別的描述符和蛋白質(zhì)與配體的結(jié)合位點(diǎn)信息結(jié)合起來,用于模型學(xué)習(xí)蛋白質(zhì)與配體結(jié)合的潛在特征(圖2)。分子級別描述符使用RDKit計算的Morgan指紋表示。蛋白質(zhì)與配體的結(jié)合位點(diǎn)信息使用GNINA預(yù)訓(xùn)練的基于CNN模型,該模型通過將空間轉(zhuǎn)化為三維體系并利用CNN學(xué)習(xí)復(fù)雜的層級表示,捕捉了蛋白質(zhì)與配體相互作用的重要特征。這兩種模態(tài)的結(jié)合可以更好地捕捉蛋白質(zhì)與配體相互作用的復(fù)雜性,并提高結(jié)合親和力的預(yù)測能力。

數(shù)據(jù)處理
訓(xùn)練數(shù)據(jù)集:作者使用由Gerry等人公開收集的DEL數(shù)據(jù)集來訓(xùn)練模型。該數(shù)據(jù)集包含約10萬個分子,用于人類碳酸酐酶IX (CAIX)蛋白的篩選實(shí)驗。數(shù)據(jù)集包括目標(biāo)蛋白質(zhì)的結(jié)合次數(shù)和無靶對照組。每個重復(fù)計數(shù)集均進(jìn)行了歸一化處理。處理后的數(shù)據(jù)集被用于訓(xùn)練模型。
測試數(shù)據(jù)集:作者收集了BindingDB數(shù)據(jù)庫中帶有CAIX蛋白的結(jié)合親和力數(shù)據(jù)的3041個小分子用于評估模型的性能。此外,作者設(shè)計了該數(shù)據(jù)集的一個子集,其中分子量的范圍對應(yīng)于訓(xùn)練數(shù)據(jù)集分子量的四分位距范圍,限制了分子量的上下限,使得區(qū)分分子的難度更大。
分子對接:作者使用GNINA對訓(xùn)練和測試數(shù)據(jù)集中的所有分子進(jìn)行對接,生成這些分子與目標(biāo)蛋白質(zhì)結(jié)合的構(gòu)象,保留20個對接姿勢。
實(shí)驗結(jié)果
4.1 模型性能評估
首先在DEL數(shù)據(jù)集上訓(xùn)練模型,然后預(yù)測具有外部測量的實(shí)驗結(jié)合親和力的分子的富集得分,并通過測量預(yù)測富集得分與實(shí)驗親和力測量之間的Spearman秩相關(guān)系數(shù)來評估性能(表1)。DEL-Dock模型優(yōu)于僅使用對接評分或分子描述符的基線模型。僅使用AutoDock Vina生成的傳統(tǒng)對接評分得分表現(xiàn)最差,這與之前的觀察結(jié)果相符,即僅使用對接評分通常不可靠?;贕NINA的CNN模型對對接位姿進(jìn)行重新評分后得到了極大的改善。此外DEL-Dock模型在更具挑戰(zhàn)性的子集上獲得了約2倍的更好的Spearman相關(guān)性改進(jìn),優(yōu)于所有其他基線模型。

4.2 模型預(yù)測分析
DEL-Dock模型不僅在預(yù)測實(shí)驗結(jié)合測量方面表現(xiàn)良好,還捕捉到了有關(guān)影響結(jié)合的結(jié)構(gòu)和化學(xué)因素。含苯磺酰胺的化合物被證明是小分子結(jié)合碳酸酐酶的主要化學(xué)基團(tuán)。雖然作者沒有將這個信息顯式地作為模型的學(xué)習(xí)信號,但作者觀察到模型能夠?qū)W習(xí)到這種關(guān)聯(lián),含苯磺酰胺的分子預(yù)測的富集比不含苯磺酰胺的分子更高(圖3a)。苯磺酰胺與碳酸酐酶結(jié)合的一個重要結(jié)構(gòu)組成部分是磺酰胺基與活性位點(diǎn)內(nèi)的鋅離子的協(xié)同作用。作者比較了AutoDock Vina、GNINA和DEL-Dock模型在評估數(shù)據(jù)集中所有1581個含苯磺酰胺分子的頂部選擇對接位姿的鋅-磺酰胺距離分布(圖3b)。作者發(fā)現(xiàn)DEL-Dock模型正確協(xié)調(diào)了最大比例的位姿,而AutoDock Vina或GNINA則表現(xiàn)不佳(圖3c)。DEL-Dock方法可以無監(jiān)督地學(xué)習(xí)識別更好的對接姿勢,而不需要依賴罕見的晶體結(jié)構(gòu)。

4.3?可解釋性分析
作者展示了他們通過檢驗?zāi)P蛯W(xué)習(xí)特定分子的注意力分?jǐn)?shù)分布,展示了模型的可解釋性(圖4)。該分子僅有7個對接姿勢正確地將磺酰胺基與蛋白質(zhì)活性位點(diǎn)內(nèi)的鋅離子產(chǎn)生協(xié)同作用。DEL-Dock模型識別了這種結(jié)合模式,并學(xué)習(xí)到更有利于排名這七個正確協(xié)調(diào)的位姿的注意力分?jǐn)?shù)(圖4)。模型排名前三位的位姿(圖4a)具有非常相似的構(gòu)象,每個位姿都表現(xiàn)出鋅磺酰胺的協(xié)同作用,只在遠(yuǎn)離活性位點(diǎn)的末端苯環(huán)的方向上有所不同。其他顯示鋅磺酰胺協(xié)同作用的位姿(圖4b-d)也被模型排名較高;最后,模型對不正確的鋅磺酰胺協(xié)同作用的位姿(圖4e)的排名較低。

結(jié)論
DEL是一種高通量篩選技術(shù),可用于篩選與蛋白質(zhì)親和力高的小分子。作者提出了一種利用對接姿勢來改進(jìn)DEL模型的方法,該方法使用自注意機(jī)制選擇好的對接姿勢,并結(jié)合分子描述符信息來預(yù)測分子的結(jié)合親和力。與僅使用對接構(gòu)象或分子描述符信息的模型相比,該模型更加有效。然而,該方法也有一些限制,例如需要已知晶體結(jié)構(gòu)和結(jié)合位點(diǎn)。未來的研究可以探索使用更具表現(xiàn)力的特征和無監(jiān)督方法來改進(jìn)我們的模型,并提高其在更廣泛的蛋白質(zhì)靶點(diǎn)上的適用性。
參考文獻(xiàn)
Shmilovich K, Chen B, Karaletsos T, Sultan MM. DEL-Dock: Molecular Docking-Enabled Modeling of DNA-Encoded Libraries. J Chem Inf Model. 2023 May 8;63(9):2719-2727. doi: 10.1021/acs.jcim.2c01608. Epub 2023 Apr 20. PMID: 37079427.代碼
https://github.com/insitro/insitroresearch
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯誤解讀,請及時聯(lián)系A(chǔ)IDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn