最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

利用分子結(jié)構(gòu)和生物活性與化學(xué)語言模型進(jìn)行從頭藥物設(shè)計(jì)

2023-06-16 10:17 作者:AIDDPro  | 我要投稿

引言

這篇文章,作者討論了計(jì)算方法在制藥研究中特別是在先導(dǎo)化合物發(fā)現(xiàn)方面的作用。他強(qiáng)調(diào)了通過生成性深度學(xué)習(xí)模型生成的虛擬化合物庫(kù)的使用,以擴(kuò)大潛在候選藥物的多樣性。報(bào)告提到了虛擬篩選數(shù)十億分子的挑戰(zhàn)和假陽性的風(fēng)險(xiǎn)。研究人員采用數(shù)據(jù)驅(qū)動(dòng)的方法基于神經(jīng)網(wǎng)絡(luò)的化學(xué)語言模型(CLMs)來生成重點(diǎn)虛擬化學(xué)庫(kù)。用CLM創(chuàng)建重點(diǎn)虛擬化學(xué)庫(kù)的過程包括三個(gè)主要步驟:模型預(yù)訓(xùn)練以學(xué)習(xí)分子的語法和特征,轉(zhuǎn)移學(xué)習(xí)以使分子生成偏向于所需的化學(xué)空間,以及根據(jù)所學(xué)的分布對(duì)新分子進(jìn)行采樣。其他方法,如強(qiáng)化學(xué)習(xí),也可用于CLM的開發(fā)。

同時(shí),作者提出了一個(gè)分子設(shè)計(jì)管道,它結(jié)合了已知配體的結(jié)構(gòu)和生物活性信息,利用CLMs生成定制分子。兩個(gè)CLMs在一大套專利化合物結(jié)構(gòu)上進(jìn)行了預(yù)訓(xùn)練,并在磷酸肌苷3-激酶γ(PI3Kγ)的抑制劑上進(jìn)行了微調(diào),這是一個(gè)重要的藥物靶點(diǎn)。該方法成功地產(chǎn)生了一種對(duì)PI3Kγ具有亞微摩爾活性的新配體,證明了該方法的骨架躍遷能力。幾個(gè)排名靠前的設(shè)計(jì)被合成,并被發(fā)現(xiàn)是有效的PI3Kγ抑制劑,驗(yàn)證了該計(jì)算方法的先導(dǎo)化合物優(yōu)化作用。

結(jié)果和討論

2.1 用于生成分子的核取樣

在使用CLM(條件語言模型)的分子生成中,涉及到了從一個(gè) "開始 "字符擴(kuò)展字符串,直到采樣到一個(gè) "停止 "字符或達(dá)到最大字符串長(zhǎng)度。這些字符是根據(jù)CLM在訓(xùn)練期間學(xué)到的概率分布的加權(quán)隨機(jī)抽樣而反復(fù)添加的。溫度參數(shù)用于控制概率和改善采樣過程。通過縮小概率,生成的SMILES字符串的質(zhì)量,如有效性、唯一性和新穎性,可以得到改善。此外,生成的虛擬化學(xué)庫(kù)與參考數(shù)據(jù)的相似性可以用Fréchet ChemNet Distance(FCD)來衡量。為了防止CLM對(duì)不可能的SMILES字符進(jìn)行采樣,并反映模型對(duì)其預(yù)測(cè)的置信度,采用了 "核采樣"。這種方法通過使用基于SMILES字符累積概率的概率閾值,只允許對(duì)最可能的字符進(jìn)行采樣。人們發(fā)現(xiàn),核抽樣可以提高新生成的分子在結(jié)構(gòu)和生物活性方面與預(yù)訓(xùn)練集的總體相似性,這一點(diǎn)從較低的FCD值可以看出。在遷移學(xué)習(xí)過程中,它還能增強(qiáng)生成分子的新穎性。在轉(zhuǎn)移學(xué)習(xí)過程中創(chuàng)建一個(gè)以PI3Kγ為重點(diǎn)的化學(xué)庫(kù)的背景下,使用了閾值為0.85的核抽樣。大量的SMILES字符串(2,500,000)在多個(gè)歷時(shí)和重復(fù)中被采樣,與訓(xùn)練和微調(diào)化合物相比,產(chǎn)生了1,121,735個(gè)有效、獨(dú)特和新穎的分子子集。

2.2 生物活性預(yù)測(cè)

生物活性預(yù)測(cè)分子選擇方面,采用了一個(gè)混合的CLM(條件語言模型)。該語言模型結(jié)合了生成模型分類器網(wǎng)絡(luò),以預(yù)測(cè)基于SMILES字符串的生物活性。生物活性預(yù)測(cè)任務(wù)被設(shè)定為一個(gè)序數(shù)分類任務(wù),同時(shí)考慮到活性和非活性化合物。三個(gè)類別的標(biāo)簽被定義:基于pIC50值的 "無活性"、"中等活性?"和 "高活性"。對(duì)于無標(biāo)簽數(shù)據(jù)的特征學(xué)習(xí),作者探索了兩種不同的預(yù)訓(xùn)練策略:自回歸預(yù)訓(xùn)練ELECTRA預(yù)訓(xùn)練。ELECTRA預(yù)訓(xùn)練方法涉及區(qū)分 "real "和 "corrupt "的輸入字符,被認(rèn)為更適合于提取有用的特征進(jìn)行序數(shù)分類。這種預(yù)訓(xùn)練的模型被稱為 "E-CLM"。對(duì)于生物活性預(yù)測(cè),在預(yù)訓(xùn)練的CLM和E-CLM中加入了一個(gè)由三個(gè)神經(jīng)元組成的額外前饋層(每類一個(gè))。該網(wǎng)絡(luò)為生物活性預(yù)測(cè)進(jìn)行了微調(diào),并應(yīng)用了超采樣以減輕類數(shù)據(jù)的不平衡。E-CLM在識(shí)別最活躍的分子方面優(yōu)于標(biāo)準(zhǔn)CLM,同時(shí)最大限度地減少了將不活躍的分子誤歸為 "高活性 "的情況。與CLM相比,E-CLM在相同的真陽性率下取得了較低的假陽性率。

為了提高對(duì)生物活性預(yù)測(cè)的信心,作者利用了深度集合模型,用多數(shù)投票法將多個(gè)模型的預(yù)測(cè)結(jié)合起來。通過考慮將一個(gè)分子歸類為 "高活性?"的模型的數(shù)量,確定了預(yù)測(cè)的置信度。更高的置信度對(duì)應(yīng)著更少的分子被預(yù)測(cè)為 "高活性"。在排名靠前的分子中,與微調(diào)組相比,相當(dāng)一部分分子具有新的原子或分子骨架。預(yù)測(cè)的活性物質(zhì)與微調(diào)組中的分子的相似度隨著置信度的提高而增加。該方法顯示了識(shí)別與已知生物活性物密切相關(guān)的分子和結(jié)構(gòu)創(chuàng)新的化合物的潛力。該方法對(duì)結(jié)構(gòu)-活性關(guān)系研究,先導(dǎo)化合物的擴(kuò)展和分子骨架的躍遷很有價(jià)值。

合成和生物活性測(cè)試產(chǎn)生的分子

在這項(xiàng)研究中,研究人員根據(jù)為尋找先導(dǎo)化合物而進(jìn)行的分子骨架躍遷練習(xí)所獲得的結(jié)果,合成了兩個(gè)計(jì)算機(jī)生成的分子(為17和20)以及它們的衍生物(18、19、21、22)。新設(shè)計(jì)的17和20是從E-CLM組合模型中獲得高票的計(jì)算機(jī)生成的分子中選出的。這些分子在結(jié)構(gòu)上與布魯頓酪氨酸激酶(Btk)和PI3Kδ(23)以及PI3Kγ/δ(24)的已知抑制劑相似。

為了研究化合物17和20之間的差異,研究人員使用TIGER軟件進(jìn)行目標(biāo)預(yù)測(cè),并根據(jù)分子的骨架進(jìn)行分組。分子骨架S1是新設(shè)計(jì)中最常產(chǎn)生的核心,TIGER預(yù)測(cè)了該分子骨架的PI3K結(jié)合或抑制作用?;衔?7和20顯示出有利的TIGER得分,并與已知的抑制劑共享類似的吡唑并嘧啶激酶鉸鏈結(jié)合圖案。化合物17和20以及它們的衍生物沒有出現(xiàn)在CLM訓(xùn)練或微調(diào)數(shù)據(jù)中。然而,在測(cè)試PI3Kγ的直接結(jié)合時(shí),它們?cè)诩{摩爾范圍內(nèi)表現(xiàn)出強(qiáng)大的活性。與命中的化合物1相比,合成的化合物表現(xiàn)出更高的活性,這反映在E-CLM的分?jǐn)?shù)中。

使用GOLD軟件進(jìn)行了配體對(duì)接研究,以合理解釋化合物1和化合物17-22之間的活性差異。對(duì)接結(jié)果表明,所有分子在人類PI3Kγ的活性部位都有合理的結(jié)合位置。估計(jì)的結(jié)合自由能與實(shí)驗(yàn)中的生物活性相關(guān),表明氫橋?qū)っ搞q鏈殘基Glu880和Val882的重要性。

為了證實(shí)最強(qiáng)效的化合物(18和22)的生物活性,測(cè)試了它們對(duì)AKT/蛋白激酶B(PKB)激活的影響,以應(yīng)對(duì)表皮生長(zhǎng)因子受體(EGFR)引起的信號(hào)傳導(dǎo)。這兩種化合物都抑制了AKT在Ser473的磷酸化,表明它們有能力抑制細(xì)胞中的PI3K活性?;衔?8和22對(duì)AKT磷酸化的減少與泛PI3K抑制劑的減少相當(dāng)。

該研究表明,使用CLM(約束圖變換器-編碼器)的分子設(shè)計(jì)方法可以確定新的骨架和生物活性化合物的結(jié)構(gòu)類似物,以尋找和擴(kuò)大先導(dǎo)化合物。E-CLM集合評(píng)分對(duì)虛擬配體篩選很有效,但不能區(qū)分密切相關(guān)的強(qiáng)效配體。使用TIGER軟件進(jìn)行的外部目標(biāo)預(yù)測(cè)是對(duì)CLM方法的補(bǔ)充。研究結(jié)果支持使用生成性深度學(xué)習(xí)方法在藥物發(fā)現(xiàn)中尋找先導(dǎo)化合物。參考資料:

Moret, M., Pachon Angona, I., Cotos, L.?et al.?Leveraging molecular structure and bioactivity with chemical language models for de novo drug design.?Nat Commun?14, 114 (2023). https://doi.org/10.1038/s41467-022-35692-6

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問題可發(fā)郵件至sixiali@stonewise.cn


利用分子結(jié)構(gòu)和生物活性與化學(xué)語言模型進(jìn)行從頭藥物設(shè)計(jì)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
固安县| 娱乐| 东莞市| 晋中市| 岚皋县| 怀安县| 抚顺县| 乌恰县| 四会市| 闵行区| 漾濞| 镇安县| 慈利县| 曲沃县| 岑巩县| 平潭县| 玉龙| 阳泉市| 沙坪坝区| 绥中县| 会理县| 慈溪市| 冕宁县| 康保县| 积石山| 湖州市| 南昌县| 县级市| 密云县| 安丘市| 湄潭县| 麦盖提县| 宁化县| 北流市| 左贡县| 宽甸| 隆化县| 天镇县| 江源县| 友谊县| 江都市|