J CHEMINFORMATICS | 藥物設計中基于序列方法的骨架修飾模型

今天給大家講一篇在Journal of Cheminformatics上發(fā)表的關于基于smiles的骨架修飾的生成模型的一篇文章,作者提出了reinvent-scaffold-decorator模型,從具有多巴胺受體 (DRD2)活性的數(shù)據(jù)集對模型進行訓練,并且來修飾特定的骨架,從而滿足一定的可合成性,并獲得預測對DRD2有預測活性的分子。該基于骨架修飾的方法作為基于圖的骨架修飾方法的補充,有助于促進藥物設計的發(fā)展。
前言
應用于藥物設計中的深度生成模型可以看成是一種從有限的化合物中生成新結構的方法。生成模型如長短期記憶(LSTM)組成的遞歸神經(jīng)網(wǎng)絡(RNNs),變分自編碼器或生成對抗網(wǎng)絡在生成類藥分子上體現(xiàn)了顯著的優(yōu)勢。作者提出了一種基于骨架修飾的方法這使得使用該數(shù)據(jù)集訓練的模型可以選擇性地用片段裝飾不同的骨架,并且附著的片段通常是被預測為具有可合成性的,并使用已知的合成方法連接到骨架上。因此模型能夠使用特定的知識來修飾分子,則無需考慮強化學習的方法來迭代獲取期望性質的分子。因此該方法有助于對已經(jīng)存在的結構的從頭分子生成。
計算方法
2.1 算法整體流程
首先利用匹配分子對(MMP)算法來切割可旋轉單鍵,并且保留環(huán)結構從而生成片段。然后,將生成的碎片分為骨架和修飾片段。這樣的話一個骨架可以有多個修飾片段,每一個都來自一個不同的分子,也保證了骨架的多樣性。如圖1所示,在收集到這些骨架之后,輸入到修飾模型中,作者訓練了兩個裝飾方法,一種是一次只修飾一個附著點,重復該方法直到所有的附著點都被修飾好。另一個是同時修飾所有的附著點。

2.2 骨架生成器
如圖1所示,作者首先將SMILES的表征通過嵌入層一級三個相互連接的LSTM層的512維層,最后是一個線性層,將輸入映射到詞匯表大小。其中SMILES還包括特殊的連接點標記“[*]”。

2.3 骨架修飾策略
作者先將生成器輸出的SMILES序列通過一個雙向的RNN,并連接到三個512維的LSTM層的編碼器,此外還引入了注意力機制,該方法將每一時刻中編碼器兩個方向的總輸出與解碼器當前時刻的輸出結合起來,這樣做可以使得解碼器在任何給定的解碼時刻中只著重關注于輸入骨架的部分。

實驗結果
3.1 數(shù)據(jù)集
如圖3所示,作者利用MMP算法對4,211個多巴胺受體D2(DRD2)活性數(shù)據(jù)(??????50≥5)進行切分,總共產(chǎn)生了137,061個骨架裝飾, 5532個獨特的裝飾片段,并且多達4個附著點的骨架。

3.2與已知化合物的虛擬篩選來比較化學空間
作者在ZINC數(shù)據(jù)庫中篩選了與DRD2訓練集谷本系數(shù)大于0.7的分子。當過濾條件設置為只包含驗證集骨架的分子時,結果只得到了41個分子,比修飾模型得到的分子少了187倍。并且,根據(jù)zinc數(shù)據(jù)庫中獲得的分子與修飾模型生成的分子有一部分交集。

結論
作者提出了一種新的基于SMILES的分子生成模型結構,它能夠從骨架中生成分子。此外,還定義了一種算法,即通過徹底切割分子的無環(huán)鍵來獲得所有可能的片段組合,將任意分子集處理成一個由骨架和修飾片段組成的集合。并基于DRD2的數(shù)據(jù)集來訓練模型,從而獲得大量的DRD2預測活性分子,并且期望通過這種基于SMILES的生成模型來作為基于圖的骨架裝飾方法的補充,以使模型學習到不同的特定屬性來拿到更多的期望分子。
參考文獻
Arús-Pous J, Patronov A, Bjerrum E J, et al. SMILES-based deep generative scaffold decorator for de-novo drug design[J]. Journal of cheminformatics, 2020, 12(1): 1-18.
版權信息
本文系AIDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內容有任何版權侵擾或者其他信息錯誤解讀,請及時聯(lián)系AIDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進行刪改處理。
原創(chuàng)內容未經(jīng)授權,禁止轉載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn