生成式AI驅(qū)動新藥研發(fā),關(guān)鍵在準(zhǔn)確的數(shù)據(jù)和科學(xué)家的專業(yè)反饋
ChatGPT尤其是GPT-4的問世是生成式人工智能應(yīng)用的突破,而生成式AI驅(qū)動藥物研發(fā)也有很長的實踐。英矽智能(Insilico Medicine)是全球率先將生成式AI應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域的公司,已經(jīng)成功賦能多款抗腫瘤候選藥物的發(fā)現(xiàn)和設(shè)計,部分最新成果在4月14日-19日舉辦的美國癌癥研究協(xié)會年會(AACR)上發(fā)布。
前不久,英矽智能宣布通過多模態(tài)生成式強化學(xué)習(xí)平臺Chemistry42基于結(jié)構(gòu)生成化學(xué)分子的藥物設(shè)計方法,成功發(fā)現(xiàn)了一款有效的、具有選擇性的、口服CDK8抑制劑,有潛力用于癌癥的治療。
近日,「明亮公司」對話了英矽智能創(chuàng)始人兼CEO Alex Zhavoronkov博士,討論了ChatGPT能否為生物制藥行業(yè)帶來變革,以及生成式AI在新藥研發(fā)中的成果及前景。
Alex Zhavoronkov(來源:受訪人提供)
2016年英矽智能發(fā)表了第一篇將生成式人工智能應(yīng)用于藥物化學(xué)領(lǐng)域的研究論文,此后,在早期論文的基礎(chǔ)上,英矽智能構(gòu)建了人工智能藥物研發(fā)平臺Pharma.AI,其下的3款引擎都在一定程度上使用了生成式AI。英矽智能的算法核心也從生成對抗網(wǎng)絡(luò)(GANs)起步,后又加入了強化學(xué)習(xí)、Transformers機制和預(yù)訓(xùn)練模型等現(xiàn)代機器學(xué)習(xí)算法。
Alex表示,谷歌是Transformer領(lǐng)域真正的先驅(qū)者,2017年在神經(jīng)信息處理系統(tǒng)會議(NIPS,后改名NeurIPS)上,谷歌團隊發(fā)表了論文“Attention is all you need”提出了Transformer的概念。
到2023年1月,這篇論文被引用超過6.2萬次,成為人工智能領(lǐng)域被引用次數(shù)最多的論文之一。另外,像GPT-4這樣的多模態(tài)Transformer也不是新事物。它們最初由DeepMind開創(chuàng),第一批論文大約在9個月前發(fā)表。最近,谷歌也發(fā)布了名為PALM-E的高度多模態(tài)轉(zhuǎn)化器,它比GPT-4更小,但包含了更多的數(shù)據(jù)模態(tài)。
更有效利用數(shù)據(jù)和算法
英矽智能的Chemistry42平臺建立在多年對大型生物、化學(xué)和文本數(shù)據(jù)集建模和訓(xùn)練的基礎(chǔ)上,包括42個生成式AI模型和超過500個用于評分的預(yù)測模型,幫助研究人員通過基于結(jié)構(gòu)的藥物設(shè)計(SBDD)和基于配體的藥物設(shè)計(LBDD)思路,利用尖端深度學(xué)習(xí)技術(shù)從頭開始生成具有所需特性的分子。
Alex介紹,這42種生成式AI模型包含了GANs、大語言模型等多種可生成虛擬分子結(jié)構(gòu)的算法;而評分預(yù)測模型可以判斷每種模型所生成的候選分子是否達到所需特性,包括分子能否合成、分子結(jié)構(gòu)是否穩(wěn)定、有沒有靶點選擇性等。他表示:“我們還有過濾模型對未達標(biāo)的分子結(jié)構(gòu)對應(yīng)的生成算法進行懲罰,反之則進行獎勵,以過濾掉不準(zhǔn)確的分子。這與ChatGPT的強化學(xué)習(xí)(RLHF)模型是一樣的道理,ChatGPT使用了預(yù)訓(xùn)練數(shù)據(jù)集,而我們訓(xùn)練時使用的是實時數(shù)據(jù)?!?/p>
英矽智能已將基于大型語言模型最新進展的高級AI聊天工具ChatGPT集成到它的 PandaOmics平臺中,PandaOmics是擁有21種算法的靶點識別平臺。新功能「ChatPandaGPT」使研究人員能夠與平臺進行自然語言對話,并有效地導(dǎo)航和分析大型數(shù)據(jù)集,以更有效的方式促進潛在治療靶點和生物標(biāo)志物的發(fā)現(xiàn)。
新藥研發(fā)需專業(yè)數(shù)據(jù)和反饋,ChatGPT準(zhǔn)確度受限
雖然Chat-4在消費者場景中已經(jīng)是現(xiàn)象級產(chǎn)品,但Alex表示,以ChatGPT系列為代表的這些生成式AI模型對制藥業(yè)來說并不成熟,既不能用于靶點發(fā)現(xiàn),也不能用于分子生成,更不能用于臨床試驗預(yù)測。如果要真正做到為新藥研發(fā)提供幫助,這些模型需要在專門的生物和化學(xué)數(shù)據(jù)上進行訓(xùn)練,然后由專業(yè)的科學(xué)家對他們的訓(xùn)練結(jié)果提供反饋,而不僅僅是由OpenAI通過對公眾開放收集反饋這樣易于達成。
ChatGPT之所以更適用于消費者場景,是因為它會優(yōu)先考慮用戶體驗,比如在幾秒鐘內(nèi)就能響應(yīng)。但藥物研發(fā)領(lǐng)域的產(chǎn)品優(yōu)先考慮的是準(zhǔn)確性而不是用戶體驗。Alex表示,AI藥物研發(fā)平臺分析處理生物數(shù)據(jù)并獲得潛在靶點可能需要幾分鐘,針對特定蛋白生成新穎分子的時間可能是幾小時到數(shù)十個小時。
其次,ChatGPT也非常善于處理自然語言。拼寫、語法、甚至風(fēng)格都接近完美,而且它非常友好地避免了攻擊性或爭議性的話題,這應(yīng)該是OpenAI通過雇傭大量的AI訓(xùn)練師和慕名而來的大量“野生”AI訓(xùn)練師共同訓(xùn)練而實現(xiàn)的。這個過程可以簡單的理解為從人類反饋中強化學(xué)習(xí)(RLHF),這也是OpenAI是如何使這個系統(tǒng)對人類如此友好的秘訣所在。
Alex認(rèn)為:“當(dāng)涉及到醫(yī)療健康領(lǐng)域時,考慮到對準(zhǔn)確率和對專業(yè)知識的需求,無論是消費領(lǐng)域還是專業(yè)領(lǐng)域,我將完全避免在這些領(lǐng)域使用它。而且目前,即使ChatGPT提供的參考資料通常也是錯誤的。這或許是因為維基百科在ChatGPT訓(xùn)練中發(fā)揮了非常大的作用。維基百科有大量的人為偏見。即使涉及到科學(xué),維基百科也常存在偏見,并不總是包含所有的關(guān)鍵論文參考文獻。”
他表示,我們也不應(yīng)該信任ChatGPT所參與填寫的一些報告。雖然在美國,一些醫(yī)生已經(jīng)用ChatGPT處理保險索賠等信息。這些不準(zhǔn)確的信息不應(yīng)在未來被用于訓(xùn)練專門的系統(tǒng),“說到這里,我更期待在生物醫(yī)學(xué)和醫(yī)療健康領(lǐng)域出現(xiàn)類似ChatGPT的專門系統(tǒng)。這將需要從Nature、Elsevier等主要出版集團獲取生物醫(yī)學(xué)文獻的全文。另外,ChatGPT也給了我另一層啟發(fā),英矽智能在過去10年里設(shè)法建立的大規(guī)模專業(yè)數(shù)據(jù)庫也比我想象的要有價值得多。當(dāng)然我們也使用了專家級的數(shù)據(jù)清洗團隊和AI訓(xùn)練師來訓(xùn)練,使我們的平臺和算法組合更精確。同時,我們的平臺還經(jīng)過了專家使用者的驗證和反饋?!?/p>
全球化AI制藥企業(yè)的真正優(yōu)勢
Alex還表示:“在基于外部數(shù)據(jù)訓(xùn)練時,我們需要的并不是合作方的數(shù)據(jù),而是數(shù)據(jù)訓(xùn)練后的反饋。根據(jù)反饋結(jié)果的篩選,一些實驗就沒必要做了,節(jié)省了大量的研發(fā)支出?!?/p>
他進一步指出:“這一點也使全球化布局的AI制藥企業(yè)有更多競爭優(yōu)勢。相對而言,海外的公司或跨國藥企對于AI制藥的認(rèn)可度和信任度更高,這使得海外或全球化的AI制藥公司更易達成合作。另外,考慮到不確定的國際關(guān)系,全球客戶與中國的AI制藥/AI+CRO公司合作時可能有所擔(dān)憂。雖然他們可以在國內(nèi)進行訓(xùn)練,但他們在獲得藥物研發(fā)專家驗證和反饋方面可能會受到影響?!彼硎荆骸?strong>英矽是一家全球化的企業(yè),我們的合作伙伴能放心地使用我們的軟件平臺,他們能夠規(guī)避風(fēng)險,而我們也不會獲取他們的數(shù)據(jù)?!?/p>
Alex總結(jié),現(xiàn)在面臨的真正問題是,我們可能知道所有人類生物學(xué)、化學(xué)和物理學(xué)的0.1%,而對于如何改變它我們更是一無所知,即使有生成式AI的重大進展,也不可能從0.1%產(chǎn)生100%的知識。
生成式AI可能在某種程度上幫助我們發(fā)現(xiàn)靶點、生成分子,甚至從無到有產(chǎn)生一些新穎的想法,但在很長一段時間內(nèi),它不會取代實驗,“這就是為什么,我們在蘇州的BioBAY建立了世界上最大的全自動化生物目標(biāo)發(fā)現(xiàn)實驗室之一。這些實驗室是專門為使用生成式AI而設(shè)計的,也將為生成式AI提供了生物數(shù)據(jù)?!?/p>
2022年底,英矽智能第六代AI控制的全自動化機器人實驗室已在蘇州啟動。在實驗室中,經(jīng)過英矽訓(xùn)練和驗證的AI大腦可高效提出靶點假設(shè)、設(shè)計自動化實驗和工作流程,并基于實驗結(jié)果反饋理想靶點。
另外,英矽智能已經(jīng)建立了基于生物學(xué)(基因組學(xué))數(shù)據(jù)的多模態(tài)Transformer,日后還將以論文發(fā)表新的研究結(jié)果。
作者:羅賓
出品:明亮公司