Lingo3DMol:使用語言模型生成基于口袋的3D分子

今天給大家講一篇2023年5月在arixv上發(fā)布的一篇關(guān)于基于靶點口袋的生成模型的文章,作者提出了Lingo3DMol模型,目前的生成模型缺乏捕獲重要的三維空間相互作用的能力,并經(jīng)常產(chǎn)生不合理的分子結(jié)構(gòu)。而Lingo3DMol方法限制了搜索空間,引入了非共價相互作用(NCI)數(shù)據(jù),并提出基于片段的FSMILES表示方式,從而為生成模型提供了結(jié)合模式的信息,并減少了生成不合理結(jié)構(gòu)的數(shù)量。此外,根據(jù)類藥性、合成可及性并減少了生成不合理結(jié)構(gòu)的數(shù)量等評估標(biāo)準(zhǔn)可以得出結(jié)論,與其它模型相比,該模型生成的分子質(zhì)量具有競爭性的優(yōu)勢。
基于結(jié)構(gòu)的藥物設(shè)計研究背景
基于結(jié)構(gòu)的藥物設(shè)計方法旨在設(shè)計能夠與目標(biāo)蛋白特定結(jié)合的分子。通常根據(jù)已知的靶標(biāo)結(jié)構(gòu),使用計算機(jī)輔助藥物設(shè)計(CADD)的技術(shù)來預(yù)測藥物與靶標(biāo)之間的結(jié)合模式,并進(jìn)一步進(jìn)行結(jié)構(gòu)修飾和優(yōu)化。
近年來提出很多基于分子圖的分子生成方法,然而這類方法生成的分子往往存在一些不合理的結(jié)構(gòu),如大環(huán),蜂窩狀的并環(huán)等。舉個例子,當(dāng)n-1個碳原子已經(jīng)確定時,該模型可以很容易地定位第n個原子,形成一個苯環(huán)。然而,若是上下文信息不足,初始原子的準(zhǔn)確放置是有問題的則會生成不合理的結(jié)構(gòu)。因此如何捕獲類藥分子的2D拓?fù)浣Y(jié)構(gòu)是很重要的。
一些基于口袋的分子生成方法如AR,Targetdiff,Pocket2Mol等,都是基于crossdock數(shù)據(jù)集來進(jìn)行評估的,而該數(shù)據(jù)集主要是基于對接的,以及由一些人工生成的未驗證的配體口袋對組成。此外,目前該劃分策略只考慮了口袋相似性,因此存在配體數(shù)據(jù)泄漏的問題,在這個數(shù)據(jù)集上評估模型不能很好地反映真實場景的性能。
Lingo3DMol模型介紹
2.1 ?Lingo3DMol設(shè)計流程
如圖1所示,Lingo3DMol由三個獨立的部分組成:預(yù)訓(xùn)練部分、微調(diào)和NCI/錨點預(yù)測部分。這些框架共享相同的體系結(jié)構(gòu),但輸入和輸出略有不同。

2.2 FSMILES表示
這邊介紹一下FSMILES的定義,即將片段作為SMILES序列的一個單元,其生成分子的流程如圖2所示,整個分子使用特定語法的片段組成,基于深度優(yōu)先的方式,以一個片段接著一個片段的方式生成一個完整的分子,該方法將生成化合物的空間限制在更理想的空間內(nèi),從而防止生成不合理的結(jié)構(gòu)。其中限制的方式有三種,其一是單鍵不存在于環(huán)中,其二是單鍵與氫原子不相連,其三是環(huán)上至少連接一個單鍵。

實驗結(jié)果
3.1 數(shù)據(jù)集
預(yù)訓(xùn)練數(shù)據(jù)集選自于商業(yè)庫的兩千萬個分子,此外,為了確保類似藥物分子的生成,作者對數(shù)據(jù)集進(jìn)行了過濾了復(fù)雜的環(huán)結(jié)構(gòu),如大環(huán)、螺旋環(huán)和橋環(huán),只保留了少于三個連續(xù)柔性鍵的分子,最終生成了1200萬個分子。微調(diào)數(shù)據(jù)集源自于PDBbind數(shù)據(jù),NCI數(shù)據(jù)集是通過開放藥物發(fā)現(xiàn)工具包ODDT來對PDBbind中氫鍵、鹵素鍵、鹽橋和π-π堆疊進(jìn)行標(biāo)記。如圖3所示,作者選擇在DUDE數(shù)據(jù)集上評估模型的性能,用各種基準(zhǔn)方法為每個靶標(biāo)生成了1000個分子,并用Glide來計算對接分?jǐn)?shù)。

3.2 消融實驗
如圖4所示,作者在DUDE數(shù)據(jù)集證明了上預(yù)訓(xùn)練在模型表現(xiàn)中起到的重要作用;具體來說,將在DUD-E數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練的模型生成的分子和在同一數(shù)據(jù)集上未進(jìn)行預(yù)訓(xùn)練的模型生成的分子分別與訓(xùn)練集中的分子進(jìn)行比較。該方法表明預(yù)訓(xùn)練模型生成的分子與訓(xùn)練集的分子相比于未預(yù)訓(xùn)練的模型生成的分子更相似。此外,預(yù)訓(xùn)練顯著地提高了對接分?jǐn)?shù),并提升了Dice系數(shù),該指標(biāo)衡量了生成的分子位置和實際配體在三維空間中的位置的覆蓋程度。

3.3案例展示
除了高相似性以及較高對接分?jǐn)?shù)以外作為評價生成分子是否可能是潛在活性分子以外,作者還考慮到會出現(xiàn)當(dāng)采樣時綁定姿態(tài)數(shù)量不足,導(dǎo)致一些生成的配體是通常可能是潛在的活性配體,然而得分卻不高的情況。如圖5所示,作者展示了高相似度低打分的情況,在使用對接程序進(jìn)行綁定姿態(tài)采樣時,“高相似、模型生成的分子與陽性分子相似,但對接分?jǐn)?shù)較低(分別為-6.8和-6.4)。相反,在沒有構(gòu)象采樣時,采用Glide Score的情況下進(jìn)行評估時,這兩種化合物得分分別為-10.2和-8.8。這個案例證明了在生成對接分?jǐn)?shù)較差,生成的三維構(gòu)象較精確的分子的有效性。

結(jié)論
作者設(shè)計了一個基于特定的擾動和恢復(fù)遮蔽原子的預(yù)訓(xùn)練任務(wù),并對模型進(jìn)行了微調(diào)以提高生成表現(xiàn)改成再對模型進(jìn)行了微調(diào)從而改善了生成分子的質(zhì)量。此外,利用額外的NCI/Anchor數(shù)據(jù)納入輸入口袋的特征中,從而提高了生成分子的對接分?jǐn)?shù)。進(jìn)一步,作者用旋轉(zhuǎn)和平移增強(qiáng)法來增強(qiáng)模型的性能,并采用SE (3)如距離矩陣和局部坐標(biāo)登不變特征來緩解3D分子生成中等方差性質(zhì)的問題。
參考文獻(xiàn)
Chen Z, Min MR, Parthasarathy S, Ning X (2021) A deep generative model for molecule optimization via one fragment modifcation. Nat Mach Intell 3(12):1040–1049
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯誤解讀,請及時聯(lián)系A(chǔ)IDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn