UnCorrupt SMILES:一種新的從頭設(shè)計方法
引言
目前生成模型通常使用簡化分子輸入線-輸入系統(tǒng)(SMILES)符號表示分子,該符號與自然語言處理領(lǐng)域的生成模型兼容。然而,使用SMILES和類似SMILES符號的一個缺點是,生成的序列在語法和化學(xué)正確性方面可能是無效的。基于GuacaMol基準(zhǔn),研究表明基于RNN的一般模型的無效輸出率約為4%,而生成式自動編碼器的無效SMILES率更高,約為15%。這種限制帶來了挑戰(zhàn),因為無效輸出無法繼續(xù),導(dǎo)致化學(xué)空間樣本缺失或生成分子的潛在偏差。學(xué)者們一直在努力提高生成分子的有效性。設(shè)計了不同的分子SMILES表示法,如DeepSMILES和SELF-referencing Embedded Strings (SELFIES),但未被廣泛采用。直接將分子表示為圖的圖表示法具有幾乎完全生成有效輸出的優(yōu)勢。然而,它們的計算成本較高,生成速度較慢。另一種提高輸出有效性的方法是應(yīng)用無上下文語法和屬性語法,但這些方法會縮小搜索空間。使用翻譯模型也是一種可能性,類似于語法錯誤糾正中使用的翻譯模型,以糾正無效的SMILES序列。這些模型具有編碼器-解碼器架構(gòu),可以經(jīng)過訓(xùn)練將序列翻譯成其他序列。翻譯模型可以被用于糾正短SMILES序列中的語法錯誤,特別是在分子構(gòu)建模塊的背景下。翻譯模型也已成功應(yīng)用于其他基于SMILES的任務(wù)中。本文為了訓(xùn)練SMILES校正器,創(chuàng)建了一個由無效和有效SMILES序列對組成的數(shù)據(jù)集。使用有效序列中不同程度的引入錯誤對校正器進(jìn)行訓(xùn)練,以評估使用多種錯誤進(jìn)行訓(xùn)練的益處。然后用表現(xiàn)最好的SMILES校正器修正四個從頭生成案例研究的無效輸出:一般RNN、VAE、GAN和條件RNN模型。利用化學(xué)相似性和性質(zhì)分布等指標(biāo),將修正后的分子與訓(xùn)練集和四個從頭生成模型最初生成的分子進(jìn)行比較。此外,應(yīng)用SMILES校正器校正了選擇性極光激酶B抑制劑中的錯誤,評估了局部序列探索擴(kuò)展附近化學(xué)空間的潛力。
本研究首次探索了無效分子表征在新藥設(shè)計中的潛力,并研究了糾正這些表征對生成分子的質(zhì)量和多樣性的影響。
方法
2.1 數(shù)據(jù)集和預(yù)處理
該研究需要一個無效SMILES序列及其相應(yīng)有效分子的數(shù)據(jù)集來訓(xùn)練SMILES校正器。由于沒有人工校正的序列對,因此故意將錯誤引入正確的SMILES序列,以創(chuàng)建無效-有效序列對的訓(xùn)練集。為此使用了Papyrus數(shù)據(jù)集(5.5版)中未指定立體化學(xué)的標(biāo)準(zhǔn)化分子。采用ChEMBL結(jié)構(gòu)管道進(jìn)行標(biāo)準(zhǔn)化,包括去除溶劑、鹽和重復(fù)片段。通過隨機(jī)排列并遵循SMILES語法規(guī)則將錯誤引入標(biāo)準(zhǔn)化分子中。還通過修改鍵序和將GDB-8數(shù)據(jù)庫中的小片段添加到 "全 "價原子中來引入價誤差。每個輸入SMILES創(chuàng)建了不同錯誤數(shù)的多個集合,從2到20個錯誤不等,隨著錯誤數(shù)的增加,間隔也增加。為了訓(xùn)練從頭生成器,Papyrus數(shù)據(jù)集也在預(yù)處理步驟后被使用。對于DrugEx,數(shù)據(jù)集按照Liu等人的描述進(jìn)行了預(yù)處理,而對于GENTRL,只包含了能被tokenizer解析的SMILES。ORGANIC是另一種從頭生成器,使用RDKit的球排除算法在從Papyrus數(shù)據(jù)集中提取的15,000個不同分子的較小集合上進(jìn)行訓(xùn)練。對于靶向案例研究,我們創(chuàng)建了一個數(shù)據(jù)集來訓(xùn)練和評估預(yù)測模型。從Papyrus數(shù)據(jù)集中收集了人極光激酶A(AURKA)和人極光激酶B(AURKB)的高質(zhì)量和中等質(zhì)量的活性數(shù)據(jù)。此外,還創(chuàng)建了兩個靶點的實驗Ki值數(shù)據(jù)集,以開發(fā)選擇性窗口模型。總之,該研究利用不同的數(shù)據(jù)集和預(yù)處理技術(shù)來訓(xùn)練SMILES校正器和從頭生成器,并為靶向案例研究開發(fā)預(yù)測模型。
2.2 生成模型
本研究采用了四種不同的生成模型進(jìn)行案例研究:通用RNN模型、目標(biāo)定向RNN模型、VAE和GAN。通用RNN模型名為DrugEx,由Liu等人創(chuàng)建,并在標(biāo)準(zhǔn)化的Papyrus數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。本研究使用了經(jīng)過預(yù)訓(xùn)練的DrugEx版本。對于靶向RNN模型,預(yù)訓(xùn)練的DrugEx模型在對極光激酶A(AURKA)和/或極光激酶B(AURKB)進(jìn)行測試的分子上進(jìn)行了微調(diào),并利用強化學(xué)習(xí)對選擇性AURKB化合物進(jìn)行了優(yōu)化。為了預(yù)測新分子的生物活性,建立了三個預(yù)測模型:兩個模型預(yù)測AURKA和AURKB的生物活性,一個選擇性窗口模型預(yù)測化合物對AURKB而不是AURKA的選擇性。定量結(jié)構(gòu)-活性關(guān)系(QSAR)回歸模型使用Scikit-learn構(gòu)建,其中分子使用理化性質(zhì)和擴(kuò)展連接性指紋進(jìn)行描述。名為GENTRL的VAE生成模型在Papyrus數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,并按照Zhavoronkov等人描述的步驟,以50個批次、10個epochs、10-4的學(xué)習(xí)率進(jìn)行了訓(xùn)練。名為ORGANIC的GAN模型在來自Papyrus數(shù)據(jù)集的15,000個不同分子集上進(jìn)行了訓(xùn)練。生成器和判別器的預(yù)訓(xùn)練分別進(jìn)行了240次和50次。然后按照Lipinski的5規(guī)則對模型進(jìn)行110個歷時的訓(xùn)練。訓(xùn)練結(jié)束后,每個生成模型被用于創(chuàng)建100萬個序列,稱為 "易生成序列"。這些序列由模型生成,未應(yīng)用任何SMILES校正。
2.3 SMILES校正模型
使用PyTorch構(gòu)建SMILES校正模型時使用了Transformer模型。該模型架構(gòu)改編自Ben Trevett的PyTorch Seq2Seq模型。輸入和輸出序列使用TorchText標(biāo)記化器進(jìn)行標(biāo)記化,輸出序列被反轉(zhuǎn)。所使用的SMILES標(biāo)記符號化器基于Olivecrona等人的標(biāo)記符號化器,其中大多數(shù)標(biāo)記符號代表單字符,但雙字母原子符號、括號內(nèi)的原子描述以及%符號后的數(shù)字除外。此外,還使用了起始、停止和填充標(biāo)記。Transformer模型架構(gòu)沿用了Vaswani等人的論文中描述的模型,其中包含了學(xué)習(xí)的位置編碼,并采用了標(biāo)準(zhǔn)的Adam優(yōu)化器。與最初的實現(xiàn)不同,該模型不包括標(biāo)簽平滑。優(yōu)化器的學(xué)習(xí)率設(shè)定為0.0005。編碼器由一個嵌入層和一個位置嵌入層組成,二者的維度均為256,濾除率為0.1。編碼器由三層多頭注意力和位置前饋機(jī)制組成。多頭注意層的維數(shù)為256,有8個頭,而位置前饋機(jī)制的維數(shù)為512,具有ReLU激活函數(shù)。在每一層之后都進(jìn)行了丟棄和層歸一化處理。編碼器生成與標(biāo)記相對應(yīng)的上下文向量。解碼器有兩個多頭注意機(jī)制,一個使用目標(biāo)作為輸入,另一個使用編碼器表示。它還包括預(yù)測前的線性層。
SMILES校正器模型在來自合成數(shù)據(jù)集的90%無效-有效對上進(jìn)行訓(xùn)練,并在來自相同數(shù)據(jù)集的剩余10%無效和有效序列以及每個生成模型的10,000個無效輸出上進(jìn)行評估。模型訓(xùn)練了20個epochs,批量大小為16。使用RDKit計算每個epoch的評價指標(biāo),如有效SMILES的百分比和分子重建率(衡量翻譯輸出和原始目標(biāo)分子之間的一致性)。在評估集上SMILES驗證率最高的模型被保存。在案例研究中,確定了SMILES校正后有效SMILES的百分比,以及與輸入相比被修改的有效和無效輸出的百分比。
結(jié)果和討論
3.1 錯誤的發(fā)生率和類型
為了分析生成序列中錯誤的發(fā)生率和類型,生成并檢查了100萬條序列。預(yù)訓(xùn)練和目標(biāo)定向RNN模型的無效輸出百分比分別為5.7%和4.7%。GAN的無效序列百分比略高(9.5%),而VAE的無效輸出百分比最高(88.9%)。這些發(fā)現(xiàn)與之前的基準(zhǔn)和研究結(jié)果一致,這些基準(zhǔn)和研究結(jié)果表明,基于RNN的模型具有相似的有效性水平,而基于VAE的模型具有更高的無效率。

RDKit捕獲的解析錯誤分為六種不同的錯誤類型?;赗NN的模型和GAN主要產(chǎn)生與化學(xué)相關(guān)的錯誤,而VAE輸出則表現(xiàn)出更多的SMILES語法錯誤。之前對VAE生成的SMILES進(jìn)行的定性分析顯示,括號和環(huán)符號對的匹配存在困難。在與化學(xué)相關(guān)的錯誤中,芳香性錯誤在基于RNN的生成器中最為普遍,而價態(tài)錯誤在GAN模型中最為普遍。這表明,與VAE模型相比,RNN和GAN模型更擅長學(xué)習(xí)SMILES語法。雖然已經(jīng)開發(fā)了使用SELFIES或圖形表示法的替代方法來解決SMILES有效性問題,但它們目前不如基于SMILES的生成器常用。這些發(fā)現(xiàn)凸顯了不同的基于SMILES的生成模型在無效輸出的普遍性和性質(zhì)方面的差異,并強調(diào)需要糾正各種類型的錯誤,以便有效地糾正它們。對SMILES校正器模型進(jìn)行了訓(xùn)練,以修復(fù)無效的SMILES序列,并在一個評估測試集上進(jìn)行了評估,該測試集包括與相應(yīng)有效SMILES配對的合成錯誤,以及由從頭生成器生成的無效輸出。在合成測試集上進(jìn)行評估時,校正器能夠修復(fù)93%的無效SMILES,分子重建率為78%。這表明,雖然固定的分子不一定總是與原始分子相匹配,但它們通常代表了預(yù)期的分子。
3.2 SMILES校正器的性能
為了測試是否存在過度校正,校正器在有效的SMILES序列上進(jìn)行了評估。發(fā)現(xiàn)在翻譯過程中被改變的有效序列的百分比很低(14%),這表明校正器主要集中于校正SMILES的錯誤部分。這表明校正器能夠區(qū)分正確和錯誤的序列。

然而,當(dāng)應(yīng)用于從頭生成器生成的無效SMILES時,校正器的性能較低。有效輸出的百分比從35%到80%不等,其中來自GAN的錯誤最容易糾正。這種性能下降可歸因于錯誤檢測不足,被翻譯器修改的輸入百分比較低就說明了這一點。這些結(jié)果與糾正無效SMILES語法的相關(guān)研究結(jié)果一致。在VAE中,高比例的改動輸入(90%)與高驗證率并不對應(yīng),這表明很難找到正確的糾正方法。總體而言,未改動序列的比例相對較高,而驗證率較低,這突出表明需要更具代表性的訓(xùn)練對來提高SMILES校正器的性能。
3.3 對極光激酶的適用性
在創(chuàng)造新的選擇性極光激酶B(AURKB)配體方面,該研究比較了基于SMILES的探索和已有的靶向從頭生成方法。與靶向RNN方法相比,通過基于SMILES的探索生成的分子與原始化合物的平均相似度更高?;赟MILES探索生成的支架與已知配體的相似度也更高,這反映在KL發(fā)散得分上,表明SMILES探索更接近目標(biāo)數(shù)據(jù)集的性質(zhì)分布。
根據(jù)所生成的新型化合物的預(yù)測生物活性和選擇性評估了探索附近化學(xué)空間的潛力。結(jié)果表明,新化合物的生物活性與起始化合物相似,其中一個化合物對AURKB的親和力稍低,但選擇性較高。對接分析表明,生成的化合物占據(jù)了與共晶體配體相同的區(qū)域,并具有額外的穩(wěn)定作用。SMILES探索產(chǎn)生的化合物具有與已知化合物相似的生物活性,但密度較高,約為6.0對數(shù)單位,而靶向RNN方法產(chǎn)生了更多具有較高預(yù)測活性的化合物。


總之,研究結(jié)果表明,SMILES探索法適用于生成與起始化合物相似的新型化合物。然而,與強化學(xué)習(xí)方法相比,它在生成具有理想生物活性的化合物方面可能效率較低。盡管如此,在以前的衍生化設(shè)計研究中,與已知活性物質(zhì)保持更接近的方法在更高的命中率方面表現(xiàn)出了優(yōu)點。
結(jié)論
該項目是對深度學(xué)習(xí)方法在從頭藥物設(shè)計中糾正無效序列的首次全面研究。它挑戰(zhàn)了無效SMILES序列無用或應(yīng)該避免的觀念。該研究表明,根據(jù)合成錯誤訓(xùn)練的Transformer網(wǎng)絡(luò)可以成功修復(fù)由不同錯誤分布的分子生成器生成的60%以上的無效SMILES。此外,在具有多個錯誤的序列上訓(xùn)練的SMILES校正器表現(xiàn)出更高的性能。
此外,該研究強調(diào),預(yù)訓(xùn)練的SMILES校正器可以生成與原始生成器或分子集分布相同的新分子。這表明SMILES校正器可以獨立用于探索感興趣分子附近的化學(xué)空間。總之,這項研究證明了基于深度學(xué)習(xí)的SMILES校正方法在從頭藥物設(shè)計中的潛力和實用性,并強調(diào)了無效序列在擴(kuò)展搜索空間和生成多樣化有效分子方面的價值。
參考資料:Schoenmaker L, Béquignon OJM, Jespers W, van Westen GJP. UnCorrupt SMILES: a novel approach to de novo design. J Cheminform. 2023 Feb 14;15(1):22. doi: 10.1186/s13321-023-00696-x. PMID: 36788579; PMCID: PMC9926805.
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯誤解讀,請及時聯(lián)系A(chǔ)IDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn