最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

蛋白質(zhì)領(lǐng)域的Chatgpt-CLEAN算法注釋蛋白質(zhì)功能

2023-04-07 10:05 作者:AIDDPro  | 我要投稿

蛋白質(zhì)功能注釋

蛋白質(zhì)功能注釋(Enzyme function prediction)是使用計(jì)算方法(例如機(jī)器學(xué)習(xí)算法)根據(jù)蛋白質(zhì)的氨基酸序列來預(yù)測(cè)蛋白質(zhì)的功能,特別是其催化功能的過程。酶功能的實(shí)驗(yàn)表征可能既費(fèi)時(shí)又昂貴,并且有許多蛋白質(zhì)的功能未知或表征不佳。蛋白質(zhì)功能注釋有助于識(shí)別新的酶及其功能,在基因組學(xué)、合成生物學(xué)和生物催化等領(lǐng)域具有重要應(yīng)用。

蛋白質(zhì)功能注釋目前面臨許多困難,比如,大部分現(xiàn)有的計(jì)算工具不能準(zhǔn)確地預(yù)測(cè)研究較少的蛋白質(zhì)的功能,或那些以前沒有定性的或具有多種活性的蛋白質(zhì)。此外,科學(xué)家已經(jīng)通過DNA測(cè)序技術(shù)發(fā)現(xiàn)了大量蛋白質(zhì)序列,但是可用于審查和注釋這些序列的研究人員卻數(shù)量有限。還有一點(diǎn)是訓(xùn)練數(shù)據(jù)集數(shù)據(jù)的不足或者不平衡,這可能會(huì)導(dǎo)致ML模型的準(zhǔn)確性和覆蓋率低。

CLEAN算法

CLEAN算法使用對(duì)比學(xué)習(xí)框架,學(xué)習(xí)酶的嵌入空間,其中歐幾里得距離反映功能相似性。目標(biāo)是基于氨基酸序列預(yù)測(cè)酶的酶學(xué)委員會(huì)(Enzyme Commission,EC)EC編號(hào)。在訓(xùn)練過程中,訓(xùn)練數(shù)據(jù)集中的每個(gè)參考序列被抽樣為具有相同EC編號(hào)(正樣本)和具有不同EC編號(hào)(負(fù)樣本)的序列。具有與錨點(diǎn)歐幾里得距離較小的嵌入的負(fù)樣本被優(yōu)先考慮,以提供具有挑戰(zhàn)性的負(fù)樣本給模型。來自語言模型ESM-1b的蛋白質(zhì)表征被用作前饋神經(jīng)網(wǎng)絡(luò)的輸入,其輸出層生成輸入蛋白的經(jīng)過精細(xì)處理、具有功能感知的嵌入。學(xué)習(xí)目標(biāo)是對(duì)比損失函數(shù),最小化錨點(diǎn)和正樣本之間的距離,同時(shí)最大化錨點(diǎn)和負(fù)樣本之間的距離。在進(jìn)行預(yù)測(cè)時(shí),計(jì)算查詢序列與所有EC編號(hào)簇中心之間的成對(duì)距離,然后預(yù)測(cè)與查詢序列顯著接近的EC編號(hào)簇的EC編號(hào)作為輸入蛋白的EC編號(hào)。開發(fā)了兩種EC編號(hào)選擇方法來從輸出排名中預(yù)測(cè)可信的EC編號(hào):一種是greedy方法,一種是基于P值的方法。在訓(xùn)練-測(cè)試分離上,CLEAN相對(duì)于不使用對(duì)比學(xué)習(xí)的ESM-1b的基準(zhǔn)方法,以實(shí)現(xiàn)其高性能。

結(jié)果

該研究通過將CLEAN與六種最先進(jìn)的工具進(jìn)行比較,并使用兩個(gè)獨(dú)立的數(shù)據(jù)集來研究CLEAN的性能。CLEAN在兩個(gè)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他工具,包括ProteInfer和DeepEC,并獲得了最高的F1分?jǐn)?shù)和多標(biāo)簽準(zhǔn)確度指標(biāo)。該研究表明,CLEAN在預(yù)測(cè)新發(fā)現(xiàn)的蛋白質(zhì)的功能方面更加精確和可靠,尤其是那些沒有已知酶功能的蛋白質(zhì)。

CLEAN的模型表現(xiàn)更好的原因

  • CLEAN能夠更好地處理EC編號(hào)的不平衡性,這些EC編號(hào)的酶樣本數(shù)量存在很大差異,有些EC編號(hào)擁有成千上萬的酶樣本,而有些EC編號(hào)只有很少(少于五個(gè))的酶樣本。

  • CLEAN能夠有效地預(yù)測(cè)新發(fā)現(xiàn)蛋白質(zhì)的功能,尤其是那些沒有已知酶功能的蛋白質(zhì)。

  • CLEAN利用對(duì)比學(xué)習(xí)的Supcon-Hard loss損失函數(shù),能夠同時(shí)利用正樣本和負(fù)樣本進(jìn)行學(xué)習(xí),從而提高模型的準(zhǔn)確性。CLEAN還能夠量化預(yù)測(cè)結(jié)果的置信度,并根據(jù)置信度進(jìn)行量化解釋和避免過度預(yù)測(cè)。

  • CLEAN能夠更好地預(yù)測(cè)未研究的EC編號(hào),表現(xiàn)出更高的準(zhǔn)確性。

CLEAN可以極大地促進(jìn)功能基因組學(xué)、酶學(xué)、酶工程、合成生物學(xué)、代謝工程和逆向生物合成的研究。此外,CLEAN所使用的通用語言模型表示可以適應(yīng)其他不限于酶活性的預(yù)測(cè)任務(wù)。CLEAN很容易使用,既可以作為一種獨(dú)立工具以高通量方式使用,也可以作為軟件組件集成到其他計(jì)算平臺(tái)中。因此,生物技術(shù)科學(xué)家可以通過使用CLEAN來預(yù)測(cè)查詢酶的催化功能并擴(kuò)展生物信息學(xué)工具箱。CLEAN網(wǎng)頁版的預(yù)測(cè)工具也已上線:https://moleculemaker.org/alphasynthesis/

參考資料:

Yu T, Cui H, Li J C, et al. Enzyme function prediction using contrastive learning[J]. Science, 2023, 379(6639): 1358-1363.

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問題可發(fā)郵件至sixiali@stonewise.cn


蛋白質(zhì)領(lǐng)域的Chatgpt-CLEAN算法注釋蛋白質(zhì)功能的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
灵武市| 娄底市| 慈溪市| 岚皋县| 通山县| 宜川县| 延长县| 曲阜市| 五指山市| 石城县| 历史| 景德镇市| 柯坪县| 新化县| 芦溪县| 徐汇区| 大姚县| 巢湖市| 印江| 四平市| 沙洋县| 华坪县| 综艺| 措美县| 太保市| 苍梧县| 四平市| 温州市| 连州市| 株洲市| 城口县| 姚安县| 资兴市| 迁安市| 潍坊市| 靖边县| 翁源县| 双柏县| 吉林省| 辉南县| 巴彦县|