最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

生物分子力場開發(fā)中的數(shù)據(jù)科學(xué)技術(shù)【01】

2023-08-16 20:41 作者:AIDDPro  | 我要投稿

引言

力場(FF)是一種基于物理學(xué)的計算模型,用于描述分子系統(tǒng)中原子和分子之間的相互作用。它根據(jù)每個原子的位置和它們之間的相互作用來量化作用在每個原子上的力。這些相互作用包括鍵合項(如共價鍵、角和二面體)和非鍵合項(如范德華力和靜電相互作用)。力場為模擬分子系統(tǒng)在各種條件下的行為和動力學(xué)提供了一個數(shù)學(xué)框架。

力場在分子建模和模擬中至關(guān)重要,尤其是在化學(xué)、生物和材料科學(xué)等領(lǐng)域。研究人員可以利用力場對分子和分子系統(tǒng)的行為進(jìn)行虛擬研究,從而對分子和分子系統(tǒng)的性質(zhì)、相互作用和行為提出有價值的見解,而這些見解可能難以通過實驗進(jìn)行研究,或者實驗成本高昂。力場可用于各種計算技術(shù),如分子動力學(xué)模擬、量子力學(xué)/分子力學(xué)(QM/MM)計算等。

圖 1. 數(shù)據(jù)科學(xué)技術(shù)如何改變經(jīng)驗 FF 的發(fā)展

圖 1 強(qiáng)調(diào)了數(shù)據(jù)庫的重要性,主動學(xué)習(xí)等新技術(shù)正在取代剛性掃描來生成擬合數(shù)據(jù)。貝葉斯推理和隨機(jī)梯度下降等新優(yōu)化方法也被引入。經(jīng)典的 FF 模型(左圖)是以文本文件的形式發(fā)布的,其中包含不同原子類型的參數(shù),而在數(shù)據(jù)科學(xué)中,訓(xùn)練有素的模型(右圖)通常是作為一個整體提供的,原子類型可以被基于拓?fù)溥B接性的連續(xù)表示所取代。由于分子系統(tǒng)的復(fù)雜性和準(zhǔn)確描述其相互作用的挑戰(zhàn)性,傳統(tǒng)的力場開發(fā)往往是經(jīng)驗性的,依賴于參數(shù)化的試錯方法。然而,隨著數(shù)據(jù)科學(xué)技術(shù)的出現(xiàn),力場開發(fā)有可能變得更加數(shù)據(jù)驅(qū)動,減少經(jīng)驗主義。通過利用數(shù)據(jù)科學(xué)的概念,如數(shù)據(jù)標(biāo)記、特征提取和模型擬合,研究人員旨在創(chuàng)建更準(zhǔn)確、更通用、可在不同分子場景中轉(zhuǎn)移的力場。

總之,力場是描述分子系統(tǒng)中原子和分子之間相互作用的計算模型。它對分子模擬至關(guān)重要,在理解分子和分子系統(tǒng)的行為方面發(fā)揮著核心作用。將數(shù)據(jù)科學(xué)技術(shù)整合到力場開發(fā)中,有可能提高力場的準(zhǔn)確性和可靠性,使其成為更有效的科學(xué)研究工具。

從提供 FF 參數(shù)到開放數(shù)據(jù)集訪問

在數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)庫作為基本的基礎(chǔ)設(shè)施發(fā)揮著至關(guān)重要的作用。例如,用于蛋白質(zhì)結(jié)構(gòu)預(yù)測的深度學(xué)習(xí)模型 AlphaFold 的成功就有賴于蛋白質(zhì)數(shù)據(jù)庫(PDB)所收集的高質(zhì)量蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)。同樣,在力場(FF)的開發(fā)過程中,數(shù)據(jù)的可用性也至關(guān)重要。傳統(tǒng)的力場開發(fā)通常使用量子力學(xué)(QM)計算進(jìn)行擬合,但用于這種目的的數(shù)據(jù)集并不總是可以公開訪問的。不過,現(xiàn)在的趨勢是更加重視可重復(fù)性和數(shù)據(jù)的可用性,從而建立了用于 FF 開發(fā)的高質(zhì)量量子力學(xué)數(shù)據(jù)庫。

生成具有代表性的非平衡構(gòu)象對質(zhì)譜數(shù)據(jù)庫來說是一項挑戰(zhàn),因為自由基開發(fā)需要平衡結(jié)構(gòu)以外的信息。一些質(zhì)譜數(shù)據(jù)庫已開始提供非平衡結(jié)構(gòu)和勢能掃描數(shù)據(jù)。例如,NCIAtlas 數(shù)據(jù)庫提供了關(guān)鍵相互作用距離的 10 點掃描,DEShaw Research 發(fā)布了一個大型數(shù)據(jù)集,其中包含 CCSD(T)/CBS 水平的二聚復(fù)合物相互作用能。FF 驗證和完善的另一個方面涉及凝聚相測量的實驗數(shù)據(jù),如核磁共振標(biāo)量和偶極耦合以及分子液體特性。這些實驗數(shù)據(jù)集有助于驗證和改進(jìn)生物分子 FF。例如,蛋白質(zhì)組合數(shù)據(jù)庫(PED)包含了內(nèi)在無序蛋白質(zhì)(IDPs)的信息,并注釋了核磁共振、SAXS 或 FRET 數(shù)據(jù)的實驗測量結(jié)果。

高質(zhì)量的數(shù)據(jù)庫提供了訓(xùn)練和驗證所需的數(shù)據(jù),最終提高了這些模型的準(zhǔn)確性和可靠性。數(shù)據(jù)可用性的提高和數(shù)據(jù)庫的標(biāo)準(zhǔn)化進(jìn)一步促進(jìn)了數(shù)據(jù)科學(xué)技術(shù)與模型開發(fā)和完善的結(jié)合。

原子類型:從離散類型到連續(xù)嵌入

力場參數(shù)是用于描述分子模擬中原子和分子間相互作用的計算模型的重要組成部分。這些參數(shù)可分為兩類:

  1. 非鍵參數(shù) 這些參數(shù)描述非鍵相互作用,包括部分電荷和范德華(VdW)參數(shù)。部分電荷決定了原子內(nèi)部的電荷分布,影響靜電相互作用。范德華(VdW)參數(shù)描述原子間的大小和吸引力/反沖力相互作用。

  2. 成鍵相互作用參數(shù): 這些參數(shù)根據(jù)分子片段中原子的拓?fù)溥B接性來描述成鍵相互作用。這些相互作用包括共價鍵、角和二面體。

在特定模擬系統(tǒng)中使用力場模型時,首先要進(jìn)行原子分型,即根據(jù)化學(xué)環(huán)境為每個原子分配一個原子類型。對于小分子配體來說,原子分型尤其具有挑戰(zhàn)性,這也提出了為生物分子力場引入新原子類型的問題。原子分型涉及將原子的亞結(jié)構(gòu)映射到力場參數(shù)。這可以通過豐富的化學(xué)環(huán)境定義文本格式或自然捕捉原子拓?fù)洵h(huán)境的圖神經(jīng)網(wǎng)絡(luò)來實現(xiàn)。拓?fù)渥赃m應(yīng)圖卷積網(wǎng)絡(luò)(TAGCN)等技術(shù)已被提出用于原子自動分型。拓?fù)渥赃m應(yīng)圖卷積網(wǎng)絡(luò)(TAGCN)的輸出是預(yù)定義原子類型的概率密度分布,該網(wǎng)絡(luò)經(jīng)過訓(xùn)練可重現(xiàn)基于規(guī)則的程序所分配的原子類型。一旦原子類型確定,機(jī)器學(xué)習(xí)就能幫助參數(shù)分配。

圖 2. 示例說明在以下情況下如何通過原子坐標(biāo)確定勢能:(a) 經(jīng)典的 FF,(b) 基于核的 MLP,(c) 基于 NN 的 MLP(利用原子中心對稱函數(shù)作為環(huán)境描述符),(d) 具有從嵌入網(wǎng)絡(luò)學(xué)習(xí)到的描述符的 DP 模型,以及 (e) 具有通過 MPNN 學(xué)習(xí)到的描述符的 MLP。

無FF 中的函數(shù)形式

經(jīng)典力場(FF)歷來采用參數(shù)化的數(shù)學(xué)函數(shù)來模擬分子間的相互作用。50 多年來,這些函數(shù)形式基本保持一致,有效地逼近了原子和分子之間復(fù)雜的相互作用。為了解決維數(shù)詛咒問題,F(xiàn)F 采用 "分而治之 "的方法,將總能量分解為各種相互作用項。然而,數(shù)據(jù)科學(xué)的最新理論進(jìn)展表明,機(jī)器學(xué)習(xí),特別是基于神經(jīng)網(wǎng)絡(luò)的方法,可以更有效地逼近高維函數(shù),從而克服這一局限。

機(jī)器學(xué)習(xí)勢能(MLP)是作為傳統(tǒng) FF 的替代方法而開發(fā)的,可分為基于核的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。MLP 的目的是將原子坐標(biāo)直接映射到勢能和力上,從而無需根據(jù)經(jīng)驗設(shè)計函數(shù)形式。MLP 的準(zhǔn)確性取決于其能否保持物理對稱性,以及能否在不同大小的系統(tǒng)中進(jìn)行尺寸擴(kuò)展和轉(zhuǎn)移。構(gòu)建 MLP 有多種方法。Behler 和 Parrinello 提出了一種方法,即總勢能是神經(jīng)網(wǎng)絡(luò)利用人工制作的輸入特征預(yù)測的原子能量之和。Smith 等人對這種方法進(jìn)行了擴(kuò)展,加入了三體相互作用特征,從而產(chǎn)生了 ANI 系列等模型。其他策略包括使用嵌入式網(wǎng)絡(luò)來學(xué)習(xí)輸入的原子特征,如 Deep Potential (DP) 和 SchNet 模型。MLP 帶來了一些挑戰(zhàn),例如在有物理意義的相互作用項之間缺乏明確的分離,以及需要大量的訓(xùn)練數(shù)據(jù)。主動學(xué)習(xí)通常用于應(yīng)對這些挑戰(zhàn),即同時訓(xùn)練多個 MLP 模型,并根據(jù)其預(yù)測結(jié)果的差異來選擇訓(xùn)練數(shù)據(jù)。主動學(xué)習(xí)還可以與構(gòu)象和化學(xué)空間采樣技術(shù)相結(jié)合。MLP 可提供與量子力學(xué)相媲美的高精度,但計算要求更高。長程相互作用和異質(zhì)系統(tǒng)帶來了限制。混合 MLP/MM 模型的出現(xiàn),將 MLP 與經(jīng)典 FF 結(jié)合起來,用于模擬生物分子系統(tǒng)。這些混合模型能夠?qū)⒘孔恿W(xué)效應(yīng)與經(jīng)典 MM 模擬相結(jié)合,從而提高其準(zhǔn)確性和適用性。

參考資料:Ding Y, Yu K, Huang J. Data science techniques in biomolecular force field development[J]. Current Opinion in Structural Biology, 2023, 78: 102502.

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯誤解讀,請及時聯(lián)系A(chǔ)IDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進(jìn)行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn


生物分子力場開發(fā)中的數(shù)據(jù)科學(xué)技術(shù)【01】的評論 (共 條)

分享到微博請遵守國家法律
峡江县| 武宁县| 崇仁县| 灵寿县| 荆门市| 龙陵县| 定州市| 永和县| 象州县| 嘉定区| 文水县| 古丈县| 连江县| 屯门区| 湘潭县| 金昌市| 大方县| 康保县| 桦甸市| 三原县| 津南区| 龙江县| 千阳县| 阳原县| 信丰县| 桃源县| 安西县| 阿克陶县| 确山县| 东城区| 高碑店市| 玉山县| 潞城市| 晋城| 介休市| 东乌珠穆沁旗| 遂宁市| 安龙县| 临高县| 体育| 天峻县|