最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Bioinfomatics | 基于預(yù)訓(xùn)練的生物語言模型在藥物設(shè)計(jì)中的應(yīng)用

2023-08-10 16:40 作者:AIDDPro  | 我要投稿


今天給大家講一篇2022年9月在bioinfomatics上發(fā)表的一篇關(guān)于目標(biāo)導(dǎo)向的生成模型的文章,作者將利用生成模型設(shè)計(jì)出靶標(biāo)特異性分子的任務(wù)視為氨基酸語言與藥物分子語言之間的翻譯問題。因此提出兩種熱啟動(dòng)策略,其一為單階段的策略,在該策略中,利用活性分子對(duì)模型進(jìn)行微調(diào)。其二為兩階段策略,先用少量化合物微調(diào),然后用靶標(biāo)特異性的分子進(jìn)行訓(xùn)練。此外,還比較了兩種解碼策略(束搜索和采樣)生成化合物的質(zhì)量。結(jié)果表明,熱啟動(dòng)方法設(shè)計(jì)的分子質(zhì)量要比從頭訓(xùn)練的基準(zhǔn)模型生成的分子更有競爭性的優(yōu)勢。

分子設(shè)計(jì)研究背景

高通量篩選方法雖然能夠?qū)Υ罅糠肿舆M(jìn)行篩選,但是其實(shí)驗(yàn)成本高昂且無法對(duì)目標(biāo)空間進(jìn)行全面篩選。此外,已有研究報(bào)道指出,設(shè)計(jì)用于特定靶標(biāo)的藥物可能會(huì)與其他11個(gè)靶標(biāo)產(chǎn)生活性。深度生成模型在新藥設(shè)計(jì)領(lǐng)域具有突出的表現(xiàn)。這些模型通過學(xué)習(xí)大量的化合物數(shù)據(jù)集,能夠準(zhǔn)確捕捉分子之間的結(jié)構(gòu)和屬性之間的關(guān)系。同時(shí),它們還借鑒了遷移學(xué)習(xí)的思想,通過優(yōu)化已有藥物的結(jié)構(gòu),進(jìn)一步提高其活性、選擇性和藥代動(dòng)力學(xué)性質(zhì),從而生成更加適合特定靶標(biāo)的分子。

預(yù)訓(xùn)練模型介紹

2.1 熱啟動(dòng)設(shè)計(jì)流程

作者首先利用STRING數(shù)據(jù)庫中綁定蛋白序列對(duì)來對(duì)RoBERTa進(jìn)行預(yù)訓(xùn)練,通過BPE算法來切分氨基酸序列,減少了模型對(duì)于序列長度的依賴。ChemBERTa是一個(gè)基于transformer編碼器的模型,它通過掩蓋語言建模的方式進(jìn)行預(yù)訓(xùn)練從而捕捉分子之間的關(guān)系和特征。

其流程如圖1所示,一階段為使用從BindingDB中過濾得到的蛋白質(zhì)配體相互作用的數(shù)據(jù)來微調(diào)RoBERTa和ChemBERTa模型,二階段為一種熱啟動(dòng)策略,首先用MOSES數(shù)據(jù)對(duì)ChemBERTa進(jìn)行微調(diào)后,再用BindingDB中過濾得到的蛋白質(zhì)配體相互作用的數(shù)據(jù)來微調(diào)RoBERTa和ChemBERTa模型。Chemberta模型中的交叉注意層和預(yù)測頭(將序列表征映射為輸出詞匯概率)也是隨機(jī)初始化的。因此這些層需要在后續(xù)的微調(diào)或特定任務(wù)中進(jìn)行訓(xùn)練。

圖1 熱啟動(dòng)設(shè)計(jì)流程

實(shí)驗(yàn)結(jié)果

3.1 生成分子質(zhì)量評(píng)估與比較

作者對(duì)預(yù)訓(xùn)練模型ChemBERTaLM進(jìn)行評(píng)估,并與目前主流的生成模型(作為基準(zhǔn)方法)一樣采樣30K個(gè)分子,評(píng)價(jià)指標(biāo)為Moses中評(píng)估分子質(zhì)量的指標(biāo),其中FCD綜合考慮了生成分子與訓(xùn)練集的物化性質(zhì)的分布的近似程度。Valid表示生成有效分子的比例。如圖2所示,其中Test集為隨機(jī)劃分的測試集,TestSF為基于骨架劃分的測試集??梢园l(fā)現(xiàn)ChemBERTaLM在FCD指標(biāo)中最低,且Valid排名第二,可見其在生成近似訓(xùn)練集分布,且有效分子數(shù)量上相較于其余模型更優(yōu)。

圖2 基準(zhǔn)比較

3.2 基準(zhǔn)方法比較理化性質(zhì)

如圖3所示,為了證明熱啟動(dòng)策略的有效性,作者選擇T5模型進(jìn)行比較,即根據(jù)兩種不同的采樣策略為測試集中的每個(gè)蛋白生成20個(gè)分子。評(píng)價(jià)指標(biāo)還包括Scaf,即兩組化合物的BRICS出現(xiàn)的頻率算二者的余弦相似度。如圖3所示,當(dāng)采用束搜索方法生成分子時(shí),熱啟動(dòng)方法在生成分子的有效性指標(biāo)上顯著超越T5采樣的分子,且EncDecLM方法表現(xiàn)略有優(yōu)勢,可以看出初始參數(shù)下,利用少量分子上對(duì)模型微調(diào)的有效性。然而在Scaf指標(biāo)中,體現(xiàn)了微調(diào)策略的局限性,即不使用微調(diào)方法(EncDecBase),生成近似訓(xùn)練集片段的能力相較于EncDecLM更有優(yōu)勢。

圖3 不同采樣策略比較

結(jié)論

作者提出的熱啟動(dòng)策略在不同的解碼策略下生成的分子都優(yōu)于T5模型。實(shí)驗(yàn)結(jié)果表明,在使用單階段策略進(jìn)行熱啟動(dòng)的模型可以為大多數(shù)未知靶標(biāo)產(chǎn)生靶標(biāo)特異性的化合物。因此,該方法在藥物設(shè)計(jì)的初期(特定靶標(biāo)信息較少)時(shí)是適用的。此外,作者采用了束搜索和隨機(jī)采樣的方法評(píng)估生成分子的質(zhì)量,多樣性及對(duì)接分?jǐn)?shù)。結(jié)果表明了熱啟動(dòng)方法的有效性。熱啟動(dòng)的模型生成分子的質(zhì)量明顯優(yōu)于基線模型(T5),并且與EncDecBase方法的結(jié)果大致近似。在未來,可以考慮在該模型中加入隨機(jī)潛在變量,以增加生成化合物的多樣性。

參考文獻(xiàn)

  1. Chen Z, Min MR, Parthasarathy S, Ning X (2021) A deep generative model for molecule optimization via one fragment modifcation. Nat Mach Intell 3(12):1040–1049

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問題可發(fā)郵件至sixiali@stonewise.cn


Bioinfomatics | 基于預(yù)訓(xùn)練的生物語言模型在藥物設(shè)計(jì)中的應(yīng)用的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
博野县| 鸡西市| 三江| 互助| 梁平县| 蛟河市| 烟台市| 津南区| 盐边县| 庆元县| 曲靖市| 宁武县| 新泰市| 社旗县| 饶河县| 揭西县| 广宗县| 隆尧县| 铜梁县| 徐汇区| 正安县| 太白县| 炉霍县| 正定县| 壤塘县| 金阳县| 株洲县| 寿光市| 卢湾区| 勃利县| 定州市| 肇庆市| 张家港市| 鄂伦春自治旗| 安阳市| 济源市| 乐陵市| 分宜县| 班戈县| 乐清市| 孝感市|