Communications Chemistry | 層次分子圖自監(jiān)督學(xué)習(xí)的性質(zhì)預(yù)測

今天給大家講一篇2023年2月在Communications Chemistry上發(fā)布的一篇關(guān)于分子屬性預(yù)測的文章,作者提出了HiMol模型,即通過引入了一個預(yù)訓(xùn)練模型來學(xué)習(xí)分子表征進行分子屬性預(yù)測。首先設(shè)計了一個層次分子圖神經(jīng)網(wǎng)絡(luò)(HMGNN),該網(wǎng)絡(luò)將每個分子都提取了節(jié)點-基序-分子圖三者的層次分子表征。此外,還設(shè)計了一個多級別的自監(jiān)督任務(wù)(MSP)預(yù)測分子中原子和鍵的數(shù)量。在MoleculeNet上測試結(jié)果表明,在分類和回歸任務(wù)中HiMol都有著競爭性的優(yōu)勢。
分子表征研究背景
分子表征是指利用化學(xué)分子的結(jié)構(gòu)和性質(zhì)來描述和預(yù)測分子屬性的過程。通過一系列計算方法,可以對分子進行表征,包括描述其結(jié)構(gòu)、電荷分布等信息。這些表征可以用于預(yù)測分子的化學(xué)反應(yīng)性、溶解度、藥物活性等性質(zhì)。它是藥物設(shè)計中重要的研究方向之一。目前很多機器學(xué)習(xí)算法應(yīng)用于分子表征領(lǐng)域,其中也有考慮了分子圖表征的相關(guān)工作,如Zhang等人利用聚類方法學(xué)習(xí)分子的基序,并將原子的表征作為一個視圖的表征,將基序和原子的表征進行對比學(xué)習(xí)來學(xué)習(xí)完整的分子表征。然而,對比學(xué)習(xí)方法需要對原始圖進行數(shù)據(jù)增強,僅僅通過化學(xué)鍵的修改,子結(jié)構(gòu)的刪除等方法往往會破壞分子的結(jié)構(gòu)以及其屬性。因此,如何設(shè)計自監(jiān)督的預(yù)訓(xùn)練任務(wù)對于特定下游性質(zhì)預(yù)測任務(wù)是至關(guān)重要的。
HiMol模型介紹
2.1 ?HiMol設(shè)計流程
如圖1所示,對于每個輸入格式為SMILES的分子,首先將其轉(zhuǎn)換為分子圖的形式,并且根據(jù)當前分子圖進一步分解為基序以及原子級別的表示,再用GNN為這三個獨立的模塊提取各自的表征,該方法在不破壞化學(xué)結(jié)構(gòu)的條件下提取了分子中重要的子結(jié)構(gòu)。在MSP過程中,分別使用原子級的表征來預(yù)測原子類型和鍵的類型,圖級的表征用于預(yù)測原子和鍵的數(shù)量。

實驗結(jié)果
3.1 分子屬性預(yù)測中分類任務(wù)的表現(xiàn)
作者選擇ROC-AUC結(jié)果的均值和標準差來評估模型的分類性能,根據(jù)圖2來看,HiMol在MoleculeNet的六個數(shù)據(jù)集中大部分都取得了較優(yōu)的表現(xiàn)。就平均指標來看,HiMol也相較于基準提升了2.4%。此外,其他兩個基于motif(基序)的方法(G_Motif 及MGSSL)也比其余基于分子圖的方法更有優(yōu)勢,表明基序在捕獲在分子圖學(xué)習(xí)中起著重要的作用。

3.2 t-SNE可視化
如圖3所示,為了更直觀地展示HiMol學(xué)習(xí)到的表征,作者利用t-SNE方法將分子表征投影到二維空間中,并用不同的顏色來區(qū)分分子屬性標簽。圖3a展示了對BACE抑制活性的分子分布,沒有活性的位于左上角,有活性的位于右下角。圖3b展示了脂水分配系數(shù)的分布,可以發(fā)現(xiàn)處于3到4之間的分子基本上位于右下角。由此可見HiMol可以區(qū)分分子內(nèi)部的一些屬性。

3.3消融實驗
為了表明多級別的圖神經(jīng)網(wǎng)絡(luò)(HMGNN)的優(yōu)勢,如圖4所示,作者構(gòu)建了相應(yīng)的消融實驗,在所有基準測試中,HiMol去除基序的表征性能都變差,這表明基序編碼在分子表征學(xué)習(xí)中起著重要的作用。HiMol通過將分子圖分解基序來學(xué)習(xí)分子多級別的表征,有利于獲取更多的分子結(jié)構(gòu)特征和功能。

結(jié)論
作者設(shè)計了一個預(yù)訓(xùn)練的自監(jiān)督方法HiMol來有效地學(xué)習(xí)分子表征,首先基于層次分子圖神經(jīng)網(wǎng)絡(luò)(HMGNN)來編碼節(jié)點—基序—分子圖之間的多級別表征,該表征體現(xiàn)了分子中多階特征的相互作用,可以從多個角度捕獲更全面的信息。在MoleculeNet中的分子性質(zhì)預(yù)測實驗表明,Himol相較于現(xiàn)有基準方法提升較明顯,是未來較有前景的工作。參考文獻
Chen Z, Min MR, Parthasarathy S, Ning X (2021) A deep generative model for molecule optimization via one fragment modifcation. Nat Mach Intell 3(12):1040–1049
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵擾或者其他信息錯誤解讀,請及時聯(lián)系A(chǔ)IDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進行刪改處理。原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn