最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

盤點大語言模型(LLM)在分子領(lǐng)域中的最新應(yīng)用

2023-07-26 18:00 作者:深度之眼官方賬號  | 我要投稿

目前大模型應(yīng)用已經(jīng)非常廣泛,但在分子領(lǐng)域依然進展不大,為了提高藥物發(fā)現(xiàn)的速度與質(zhì)量,為醫(yī)學界提供新的技術(shù)支持,研究人員正嘗試將大型語言模型的強大能力擴展到分子領(lǐng)域。

學姐今天要分享的論文正是關(guān)于大模型分子領(lǐng)域應(yīng)用的,建議該研究方向的同學或者感興趣的同學仔細研讀~論文原文與代碼已經(jīng)整理好了,后續(xù)有新的技術(shù)進展學姐也會更新噠~

掃碼添加小享,回復(fù)“分子領(lǐng)域

免費獲取全部論文+代碼合集

1.Language models can learn complex molecular distributions

標題:語言模型可以學習復(fù)雜的分子分布

內(nèi)容:分子的深度生成模型越來越受歡迎,這些模型經(jīng)過相關(guān)數(shù)據(jù)集訓(xùn)練后,可用于搜索化學空間。生成模型的下游應(yīng)用,即設(shè)計新功能化合物的逆過程,依賴于它們學習訓(xùn)練分子分布的能力。最簡單的例子是循環(huán)神經(jīng)網(wǎng)絡(luò)形式的語言模型,使用字符串表示生成分子。

語言模型的初期應(yīng)用顯示了其強大能力,尤其是最近的研究表明其在低數(shù)據(jù)量狀況下的效用。本文研究了簡單語言模型學習更復(fù)雜分子分布的能力。為此,通過構(gòu)建更大、更復(fù)雜的分子分布數(shù)據(jù)集,引入了幾個挑戰(zhàn)性的生成建模任務(wù),并評估語言模型在每個任務(wù)上的表現(xiàn)。結(jié)果顯示語言模型是強大的生成模型,能夠熟練學習復(fù)雜的分子分布。它們可以準確生成:ZINC15中最高評分懲罰式LogP分子的分布、多模態(tài)分子分布,以及PubChem中最大分子的分布。

2.Chemformer: a pre-trained transformer for computational chemistry

標題:Chemformer:計算化學的預(yù)訓(xùn)練Transformer

內(nèi)容:結(jié)合Transformer模型和簡化分子線性輸入系統(tǒng)(SMILES)最近被證明是解決化學信息學任務(wù)的一個強大組合。然而,這些模型通常是專門為單一應(yīng)用開發(fā)的,訓(xùn)練起來非常耗資源。在本工作中,作者提出了Chemformer模型,這是一個基于Transformer的模型,可以快速應(yīng)用于序列到序列和區(qū)分化學信息學任務(wù)。在直接合成和逆合成預(yù)測基準數(shù)據(jù)集上,作者發(fā)表了最先進的top-1準確率。作者還改進了現(xiàn)有方法在分子優(yōu)化任務(wù)上的表現(xiàn),并表明Chemformer可以同時優(yōu)化多個區(qū)分任務(wù)。

3.MolGPT: Molecular Generation Using a Transformer-Decoder Model

標題:MolGPT:使用Transformer-Decoder模型進行分子生成

內(nèi)容:將深度學習技術(shù)應(yīng)用于分子的全新生成,即所謂的逆分子設(shè)計,在藥物設(shè)計中獲得了巨大吸引力。以SMILES符號表示分子的字符串字符使得最先進的自然語言處理模型(如Transformer)可以應(yīng)用于分子設(shè)計。受生成式預(yù)訓(xùn)練(GPT)模型的啟發(fā),這種模型已被證明能夠成功生成有意義的文本,作者在本研究中使用掩蔽自注意力機制訓(xùn)練了一個Transformer解碼器,以進行類藥物分子的下一標記預(yù)測任務(wù)。

LigGPT模型表現(xiàn)優(yōu)于其他先前提出的生成有效、唯一和新穎分子的現(xiàn)代機器學習框架。此外,作者證明該模型可以條件化訓(xùn)練以優(yōu)化生成分子的多個屬性。作者展示了該模型可以生成具有所需分子框架以及所需分子屬性的分子,方法是將這些結(jié)構(gòu)作為條件傳遞,這對鉛優(yōu)化以及全新分子設(shè)計都有潛在應(yīng)用。

4.Domain-Agnostic Molecular Generation with Self-feedback

標題:域無關(guān)的分子生成與自反饋

內(nèi)容:生成具有期望屬性的分子最近獲得了巨大的普及,這徹底改變了科學家設(shè)計分子結(jié)構(gòu)的方式,為化學和藥物設(shè)計提供了有價值的支持。然而,盡管語言模型在分子生成方面具有潛力,但它們面臨許多挑戰(zhàn),如生成語法或化學上有缺陷的分子,領(lǐng)域范圍狹窄,以及由于標注數(shù)據(jù)或外部分子數(shù)據(jù)庫匱乏而難以創(chuàng)建多樣且方向可行的分子等。為此,作者提出了MOLGEN,這是一個專門用于分子生成的預(yù)訓(xùn)練分子語言模型。

MOLGEN通過重建超過1億個分子的SELFIES,獲得了內(nèi)在的結(jié)構(gòu)和語法洞察,同時通過域無關(guān)的分子前綴調(diào)諧促進不同域之間的知識轉(zhuǎn)移。此外,作者提出了一種自反饋范式,以激發(fā)預(yù)訓(xùn)練模型與產(chǎn)生具有理想屬性分子的最終目標保持一致。大量實驗證明,MOLGEN在眾所周知的分子生成基準測試中取得了卓越的性能。

5.A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals

標題:一種深度學習系統(tǒng)橋接分子結(jié)構(gòu)和生物醫(yī)學文本,其理解能力可比人類專業(yè)人員

內(nèi)容:為了加速生物醫(yī)學研究過程,開發(fā)了深度學習系統(tǒng)來通過讀取大規(guī)模生物醫(yī)學數(shù)據(jù)自動獲取分子實體的知識。受到人類通過閱讀分子結(jié)構(gòu)和生物醫(yī)學文本信息兩方面內(nèi)容來學習深層分子知識的啟發(fā),作者提出了一個知識型機器閱讀系統(tǒng),該系統(tǒng)將這兩類信息橋接在一個統(tǒng)一的深度學習框架中,以進行全面的生物醫(yī)學研究輔助。

通過在不同信息源內(nèi)部和之間無監(jiān)督地掌握元知識,該系統(tǒng)可以促進各種實際生物醫(yī)學應(yīng)用,包括分子性質(zhì)預(yù)測、生物醫(yī)學關(guān)系提取等。實驗結(jié)果顯示,該系統(tǒng)甚至在分子性質(zhì)理解能力方面超過了人類專業(yè)人員,并且也揭示了它在促進未來自動藥物發(fā)現(xiàn)和文檔方面的潛力。

掃碼添加小享,回復(fù)“分子領(lǐng)域

免費獲取全部論文+代碼合集

6.Translation between Molecules and Natural Language

標題:分子與自然語言之間的轉(zhuǎn)換

內(nèi)容:作者提出了MolT5,這是一個在大量無標注的自然語言文本和分子字符串上進行自監(jiān)督預(yù)訓(xùn)練模型的框架。MolT5允許新的、有用的和富有挑戰(zhàn)性的傳統(tǒng)視覺-語言任務(wù)類比,比如分子字幕和基于文本的分子de novo生成(統(tǒng)稱為分子和語言之間的轉(zhuǎn)換)。由于MolT5在單模態(tài)數(shù)據(jù)上預(yù)訓(xùn)練模型,它有助于克服化學領(lǐng)域數(shù)據(jù)稀疏的缺點。

此外,作者考慮了幾種指標,包括一種新的交叉模態(tài)嵌入度量,來評估分子字幕和基于文本的分子生成任務(wù)。作者的結(jié)果表明,基于MolT5的模型能夠生成高質(zhì)量的輸出,既包含分子也包含字幕。

7.Unifying Molecular and Textual Representations via Multi-task Language Modelling

標題:通過多任務(wù)語言建模統(tǒng)一分子和文本表達

內(nèi)容:最近的神經(jīng)語言模型在化學領(lǐng)域也取得了成功,為分子設(shè)計和合成計劃中的經(jīng)典問題提供了生成式解決方案。這些新方法有可能催生科學發(fā)現(xiàn)的數(shù)據(jù)驅(qū)動自動化的新時代。然而,每個任務(wù)通常仍需要專門的模型,這導(dǎo)致了對特定問題的微調(diào)以及忽視任務(wù)間的關(guān)系。這個領(lǐng)域的主要障礙是自然語言和化學表示之間缺乏統(tǒng)一的表示,使人機交互變得復(fù)雜和受限。

作者提出了第一個可以同時解決化學和自然語言領(lǐng)域廣泛任務(wù)的多域多任務(wù)語言模型。該模型可以同時處理化學和自然語言,而無需在單個領(lǐng)域進行高昂的預(yù)訓(xùn)練或任務(wù)特定模型。有趣的是,跨領(lǐng)域共享權(quán)重明顯改進了相對于最先進的單領(lǐng)域和跨領(lǐng)域基準的模型。特別是,跨領(lǐng)域和任務(wù)共享信息給予了交叉領(lǐng)域任務(wù)很大的改進,其幅度隨規(guī)模的增加而增大。

8.Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models

標題:Mol-Instructions:一個大規(guī)模生物分子指令數(shù)據(jù)集,用于優(yōu)化大語言模型在生物分子領(lǐng)域的表現(xiàn)

內(nèi)容:大型語言模型(LLM)具有卓越的任務(wù)處理能力和創(chuàng)新輸出,在各個領(lǐng)域取得了重大進展。然而,它們在專業(yè)領(lǐng)域如生物分子研究中的能力仍有限。為解決這個問題,作者提出了MolInstructions,這是一個精心整理的全面指導(dǎo)數(shù)據(jù)集,專門設(shè)計用于生物分子領(lǐng)域。

MolInstructions 由三個關(guān)鍵組成部分組成:分子導(dǎo)向指令,蛋白質(zhì)導(dǎo)向指令和生物分子文本指令,每個部分都經(jīng)過整理,以增強LLM關(guān)于生物分子特征和行為的理解和預(yù)測能力。通過對代表性LLM的大量指導(dǎo)調(diào)優(yōu)實驗,作者強調(diào)了MolInstructions增強大型模型在復(fù)雜的生物分子研究領(lǐng)域適應(yīng)性和認知能力的潛力,從而推動生物分子研究社區(qū)的進步。

9.DrugChat: Towards Enabling ChatGPT-Like Capabilities on Drug Molecule Graphs

標題:DrugChat: 探索在藥物分子圖譜上實現(xiàn)類ChatGPT的功能

內(nèi)容:一種類似ChatGPT的藥物化合物分析系統(tǒng)可能成為藥物研發(fā)領(lǐng)域的游戲規(guī)則改變者,能夠加速藥物發(fā)現(xiàn),增強對結(jié)構(gòu)-活性關(guān)系的理解,指導(dǎo)優(yōu)化 Lead化合物,輔助藥物再利用,降低失敗率并精簡臨床試驗。在本研究中,作者嘗試通過開發(fā)原型系統(tǒng)DrugChat來實現(xiàn)藥物分子圖譜上的類ChatGPT功能。

DrugChat的工作方式類似ChatGPT,用戶上傳化合物分子圖,并就該化合物提出各種問題,DrugChat 將以多輪交互方式回答這些問題。DrugChat系統(tǒng)由圖神經(jīng)網(wǎng)絡(luò)、大型語言模型和適配器組成。圖神經(jīng)網(wǎng)絡(luò)對化合物分子圖進行編碼。適配器將圖編碼轉(zhuǎn)換為語言模型可接受的表示。語言模型負責生成回答。所有組件都是端到端訓(xùn)練的。

掃碼添加小享,回復(fù)“分子領(lǐng)域

免費獲取全部論文+代碼合集


盤點大語言模型(LLM)在分子領(lǐng)域中的最新應(yīng)用的評論 (共 條)

分享到微博請遵守國家法律
鄢陵县| 木兰县| 吴桥县| 阿坝县| 靖西县| 邯郸市| 河南省| 太白县| 嘉峪关市| 开化县| 潢川县| 达日县| 阳高县| 马龙县| 长宁县| 仪陇县| 内江市| 桐柏县| 南汇区| 南和县| 广河县| 望奎县| 江津市| 淮滨县| 灵台县| 龙州县| 遵义县| 三门县| 姚安县| 浦江县| 贺兰县| 时尚| 安陆市| 晋中市| 磴口县| 定安县| 襄垣县| 基隆市| 龙江县| 新闻| 富阳市|