人工智能在藥物設計中的應用(三)
人工智能在藥物設計中的決策挑戰(zhàn)
目前大部分的人工智能系統(tǒng),尤其是那些依賴于深度神經(jīng)網(wǎng)絡的系統(tǒng),盡管其預測性能很高,但容易發(fā)生災難性故障,特別是在如藥物設計等錯誤決策的后期階段,這限制了它們在決策時的使用。通過估計自身預測不確定性來避免做出錯誤決策,可以降低失敗的風險。此外,專家監(jiān)督可以用于檢查模型決策過程,提高可靠性(圖8)。然而,目前許多人工智能系統(tǒng),盡管顯示出很高的準確性,卻不能有效地評估其在新情況下的置信度,同時有的決策缺乏可解釋性,這些問題阻礙了人工智能在藥物設計中的應用。

預測置信度
用于藥物設計的機器學習(ML)模型的準確性受到各種誤差的影響,而目前的驗證方法無法有效測量這些誤差。監(jiān)督下的ML方法假定未來的輸入將來自與訓練數(shù)據(jù)相同的分布,但藥物設計往往涉及到以前沒有被表征過的分子,這就造成了先前數(shù)據(jù)測試所無法捕捉到的不確定性。
此外,模型的準確性還受到數(shù)據(jù)集的影響。來自不同實驗室數(shù)據(jù)集在化學空間的不同區(qū)域可能具有不確定性。預測的不確定性可以分成兩個部分:無因性的和認識性的。不確定性是數(shù)據(jù)生成過程中固有的,除非新數(shù)據(jù)的測量誤差減少,否則無法減少;而認識上的不確定性是在正確的模型結(jié)構(gòu)和參數(shù)不確定的情況下,用模型來歸納新數(shù)據(jù)時產(chǎn)生的。由于輸入空間的高認識不確定性,模型并不適用于這些區(qū)域??梢远x模型的適用范圍,以確定具有高認識不確定性的預測,并且有各種方法通過基于潛在輸入與訓練集中的分子的相似性,來計算輸入分子是否在這個范圍內(nèi)。然而,這些方法并不提供對總的預測不確定性的估計。
當不確定性在整個適用范圍內(nèi)變化時,特別是當數(shù)據(jù)被不均勻采樣時,估計模型的總預測不確定性的能力是很重要的。目前用于不確定性預測的數(shù)學方法有用于回歸模型的保形回歸和用于分類模型的Venn-ABERS方法。以上這些方法在化學信息學中已經(jīng)很常用了,因為它們不需要對現(xiàn)有模型進行什么修改。然而,這些方法可能無法對分布外的例子給出穩(wěn)健的不確定性預測。貝葉斯模型可以提供更完整的概率分布作為預測,但訓練這些模型的計算量更大。預測性不確定性的估計有可能在實踐中提高ML預測的可靠性。

模型的可解釋性
機器學習模型的可解釋性對于高風險決策至關(guān)重要??山忉尩哪P捅仨毧梢赃€原為少量的關(guān)鍵參數(shù)。已經(jīng)提出了構(gòu)建更簡單的 "元模型?"的外部解釋方法,但這些方法可能不忠實于現(xiàn)有的模型,特別是在存在混雜因素的情況下。特征歸屬是在藥物設計中解釋ML模型的一種方法,它評估輸入實例的哪些特征對模型的決策影響最大。基于梯度的方法,如似然相關(guān)性傳播,可用于研究深度神經(jīng)網(wǎng)絡對輸入的處理,但以分子圖為輸入的基于注意力的神經(jīng)網(wǎng)絡更容易解釋,因為它們明確地關(guān)注用于進行預測的分子區(qū)域。
Nearest-neighbor方法使用附近的訓練實例來進行預測,而神經(jīng)網(wǎng)絡在訓練期間將訓練集的信息編碼到它們的權(quán)重中,在預測時不明確使用訓練實例。然而,評估神經(jīng)網(wǎng)絡所學到的表征的相似性可以識別被神經(jīng)網(wǎng)絡類似處理的分子?;谧⒁饬Φ纳窠?jīng)網(wǎng)絡可以用來定義測試實例之間的自定義相似性指標。識別類似物意義重大,因為它允許專家檢查訓練數(shù)據(jù)的潛在錯誤,這也是一個在藥物設計中構(gòu)建可解釋的機器學習模型的有效框架,模型應提供支持預測的訓練實例,并描述輸入特征是如何被用來進行預測的。
參考資料:
Zhang Y. Bayesian semi-supervised learning for uncertainty-calibrated prediction of molecular properties and active learning[J]. Chemical science, 2019, 10(35): 8154-8163.
Thomas M, Boardman A, Garcia-Ortegon M, et al. Applications of artificial intelligence in drug design: opportunities and challenges[J]. Artificial Intelligence in Drug Design, 2022: 1-59.
版權(quán)信息
本文系AIDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵擾或者其他信息錯誤解讀,請及時聯(lián)系AIDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn