hLife Perspective | 探尋未知蛋白質空間路線圖
論文亮點
除了我們已知的蛋白質外,還存在大量理論上存在且有潛在功能的蛋白質,本文對如何研究這些蛋白質提出了展望。
論文導讀
現有蛋白質的多樣性遠低于理論值,而未知蛋白質空間可能有非常多具有重要功能的蛋白質分子。2023年6月18日,中國科學院微生物研究所王軍課題組在hLife發(fā)表“A roadmap for exploring the untouched protein space for biology and medicine”。文章提出探尋未知蛋白質空間的路線圖,包括提出利用自然語言模型在微生物組中挖掘,目標蛋白質定向進化,以及利用高通量表達系統(tǒng)隨機表達并且篩選一系列功能多肽和蛋白質的研究方法。


當前,人類發(fā)現的蛋白質數量與蛋白質的理論數量相比相去甚遠。例如,RefSeq 數據庫現收錄2.56 億個蛋白質序列,但這僅相當于長度為6個氨基酸多肽的理論多樣性(圖1A)。發(fā)掘尚未探索的浩瀚蛋白質空間,有望在目前生物醫(yī)學亟需新的功能大分子進行疾病治療和干預背景下,提供大量潛在的多肽和蛋白質作為藥物前體。近年來,快速發(fā)展的自然語言分析方法(NLP,人工智能深度學習分支)可極大提高特定功能序列的挖掘效率和準確性。通過分析蛋白質序列的深層隱藏關聯和特性發(fā)現蛋白質“語意”,突破現有基于序列相似性的分析方法局限。

圍繞這個主題,本文設計了初步的路線圖并逐步開展工作。第一步是以微生物組為主要研究對象探索尚未發(fā)現或研究的蛋白質(圖 1B)。未被發(fā)現的蛋白質已經存在于自然界中,主要來源是細菌和噬菌體等。在各種微生物組中,至少有數萬億種多肽和蛋白質未被發(fā)現或功能未知。在前期工作中,作者利用自然語言分析方法(包括LSTM,BERT和ATTENTION模型)進行了人類腸道微生物組中抗菌肽(AMPs)分子的挖掘,構建高效發(fā)掘模型并一次驗證了178個序列新穎的AMPs,其中多個AMPs表現出體外和體內對抗多重耐藥病原體的能力。
第二步是構建混合蛋白質(圖1C)。以天然蛋白質為骨架,有針對性改變關鍵位點的氨基酸以探索天然蛋白質周邊的分子空間。諾貝爾獲得者Francis Arnold教授開發(fā)的蛋白質定向進化(directed evolution)是構建混合蛋白質的經典范式。利用已知有催化功能的蛋白質骨架(酶)和有限突變的催化位點,可以進行多輪的蛋白質性質提高。但蛋白質定向進化的現有局限是由于每次探索的空間有限,導致機器學習基礎上的優(yōu)化效率偏低。作者以此為基礎在實驗系統(tǒng)上進行改進,通過高通量的噬菌體表面展示以及基于分子結合、流式細胞分選方法提高實驗通量,在數據分析和優(yōu)化方法上則結合NLP基礎上的分類/回歸方法以及最新的蛋白質生成模型,提高混合蛋白質優(yōu)化速度。
最后,試驗和設計全新的蛋白質(圖 1D)。全新蛋白質的定義是使用完全隨機氨基酸序列探索蛋白質空間,然后發(fā)現和設計其中與天然蛋白質沒有顯著序列同源性但仍然具有功能的蛋白質。結合目標基因/通路報道系統(tǒng),實驗預期一次獲得數千個陽性信號,然后利用NLP進行陽性序列與本底序列的特征建模,以及更優(yōu)蛋白質候選者的生成和進一步驗證,最終使用語言生成模型類似的蛋白質生成模型,構建全新、功能更接近全局的最優(yōu)蛋白質。

總結與展望
本文運用基于自然語言模型的人工智能分析方法,從微生物組中的大量未知蛋白質出發(fā),逐步拓展到混合蛋白質,以及最終驗證全新蛋白質的方法從而探索蛋白質的分子空間,突破現有蛋白質進化的歷史局限。通過高通量發(fā)現、驗證和改造、設計新蛋白質分子,為感染性疾病、腫瘤等疾病治療提供大量潛在蛋白質前體,提供生物醫(yī)學未來發(fā)展的新突破點并打破藥物研發(fā)面臨的瓶頸。

引用格式: Jun Wang. (2023). A roadmap for exploring the untouched protein space for biology and medicine.?hLife. https://doi.org/10.1016/j.hlife.2023.06.001