用于化學(xué)研究的GPT-4:可以/不可以做什么?【02】
性質(zhì)預(yù)測
語言學(xué)習(xí)模型(LLM)具有獨(dú)特的few-shot學(xué)習(xí)能力,使其能夠用有限的數(shù)據(jù)學(xué)習(xí)未知化合物.比如它可以根據(jù)事先對(duì)TEMPO電位的了解,準(zhǔn)確預(yù)測了TEMPO的氰基衍生物的氧化還原電位。這種預(yù)測與實(shí)驗(yàn)結(jié)果一致,并超越了傳統(tǒng)的化學(xué)信息學(xué)方法,因?yàn)閭鹘y(tǒng)的化學(xué)信息學(xué)方法需要收集大量的數(shù)據(jù),而且往往缺乏精確度和可解釋性。

GPT-4,展示了使用一次性(one-shot )學(xué)習(xí)來預(yù)測潛力的能力。這種推斷是建立在關(guān)于氰基的電子吸收特性及其對(duì)電位轉(zhuǎn)移的積極影響的先驗(yàn)知識(shí)基礎(chǔ)上的,其電位轉(zhuǎn)移通常在0.1V左右。缺乏這種知識(shí)的傳統(tǒng)回歸模型將發(fā)現(xiàn)一次性學(xué)習(xí)是不可能的。GPT-4還擅長從特定的數(shù)據(jù)集中提取相關(guān)的變量,如化學(xué)數(shù)據(jù),用于預(yù)測任務(wù)。
優(yōu)化單個(gè)變量
信息學(xué)研究的最終目標(biāo)是使研究過程本身自動(dòng)化。傳統(tǒng)的預(yù)測模型由于對(duì)語言信息和變量含義的考慮有限,所以很難提出適當(dāng)?shù)膶?shí)驗(yàn)條件。然而,GPT-4由于能夠理解變量的含義,顯示出以較少的指令進(jìn)行自主研究活動(dòng)的潛力。在一項(xiàng)搜索分子沸點(diǎn)的任務(wù)中,GPT-4通過利用先前的知識(shí)并在幾次試驗(yàn)中達(dá)到接近目標(biāo)的解決方案,顯示出高效的性能。


相比之下,貝葉斯優(yōu)化法需要更多的試驗(yàn)。盡管GPT-4在變量搜索方面有一些限制,但這些限制可以通過相應(yīng)的方法來緩解。例如,當(dāng)納入像Wolfram這樣的算術(shù)處理模塊時(shí),GPT-4在很短的時(shí)間內(nèi)就取得了完全正確的答案??偟膩碚f,GPT-4在根據(jù)其物理化學(xué)知識(shí)自主設(shè)置最佳實(shí)驗(yàn)條件方面顯示出了前景。
考慮多個(gè)變量優(yōu)化反應(yīng)條件
在一個(gè)涉及多個(gè)變量的更復(fù)雜的化學(xué)系統(tǒng)中,作者想要優(yōu)化反應(yīng)條件,使目標(biāo)化合物的產(chǎn)量最大化,同時(shí)防止不需要的副產(chǎn)品的形成。由于初始條件的隨機(jī)選擇,貝葉斯優(yōu)化需要多次試驗(yàn)。然而,GPT-4憑借其物理化學(xué)知識(shí),可以根據(jù)給定的反應(yīng)方案推斷出合適的初始條件。它準(zhǔn)確地推斷出提高的某些化合物的初始濃度有助于反應(yīng)的進(jìn)行,并且反應(yīng)不應(yīng)進(jìn)行太長時(shí)間。最后,GPT-4建立了接近理想的條件,在不到五次試驗(yàn)中獲得了可靠的高產(chǎn)量。


雖然GPT-4的能力很強(qiáng),但是它不能識(shí)別大型數(shù)據(jù)庫。因此,將GPT-4與數(shù)學(xué)工具、貝葉斯優(yōu)化等框架以及Python等編程語言結(jié)合起來,對(duì)于發(fā)揮語言計(jì)算的協(xié)同優(yōu)勢是必要的。
Black box優(yōu)化
該部分評(píng)估了GPT-4利用其物理化學(xué)領(lǐng)域的知識(shí)優(yōu)化一個(gè)非線性黑箱函數(shù)的能力。然而,在這個(gè)特殊的系統(tǒng)中,物理參數(shù)的重要性被忽略了,GPT-4的表現(xiàn)并沒有超過貝葉斯優(yōu)化。

GPT-4很難提出有效的措施來提高目標(biāo)值,在大多數(shù)情況下都假設(shè)是線性的。在一次GPT-4假設(shè)二次函數(shù)的試驗(yàn)中,它表現(xiàn)得相當(dāng)好,但這種成功是由于系統(tǒng)主要包含二次函數(shù)。另一方面,不假設(shè)特定函數(shù)系統(tǒng)的貝葉斯優(yōu)化,一般在更多的試驗(yàn)后達(dá)到目標(biāo)變量的最大值??偟膩碚f,GPT-4的能力顯示了嵌入領(lǐng)域知識(shí)的前景,但貝葉斯優(yōu)化仍然是在不同情況下優(yōu)化函數(shù)的更好的選擇。
分子探索
在化學(xué)信息學(xué)中,生成符合特定規(guī)定的復(fù)雜化合物是非常困難的。傳統(tǒng)的方法專注于生成在計(jì)算上有利的結(jié)構(gòu),但它們往往沒有考慮到諸如合成難度、溶解度和穩(wěn)定性等限制。GPT-4具有語言計(jì)算能力,通過考慮分子設(shè)計(jì)和選擇中的語言規(guī)則,可以彌合虛擬建模和濕實(shí)驗(yàn)之間的差距。

例如,在設(shè)計(jì)用于自組織光刻的嵌段聚合體時(shí),GPT-4可以考慮χ和??a(漢森溶解度參數(shù))等參數(shù)以滿足特定的結(jié)構(gòu)要求。通過施加限制并使用GPT-4,產(chǎn)生了幾個(gè)建議的結(jié)構(gòu),包括苯乙烯和甲基丙烯酸甲酯的共聚物,已知它能表達(dá)所需的垂直方向的片狀結(jié)構(gòu)。這種方法與傳統(tǒng)方法形成鮮明對(duì)比,后者往往導(dǎo)致難以合成和不穩(wěn)定的結(jié)構(gòu)。然而,GPT-4生成分子結(jié)構(gòu)的能力相對(duì)較弱,建議使用專門的深度學(xué)習(xí)算法來生成分子,由GPT-4決定其是否合適。
與執(zhí)行器同步的能力
GPT-4展示了在現(xiàn)實(shí)空間研究中與執(zhí)行器(如機(jī)械臂)互動(dòng)的能力。它可以解釋語言命令和約束條件,控制機(jī)械臂執(zhí)行任務(wù),如用吸管轉(zhuǎn)移液體。GPT-4自主地生成命令并協(xié)調(diào)機(jī)械臂和吸管的運(yùn)動(dòng),以完成所需的任務(wù)。通過自然語言界面控制機(jī)械臂有實(shí)際的好處,使沒有計(jì)算機(jī)或機(jī)器人科學(xué)專業(yè)知識(shí)的化學(xué)家也能使用。隨著物體識(shí)別和多模態(tài)人工智能模型的進(jìn)步,預(yù)計(jì)系統(tǒng)操作將更加靈活。有可能創(chuàng)建自動(dòng)系統(tǒng),通過簡單地要求合成特定的化合物來進(jìn)行實(shí)驗(yàn)。然而,要實(shí)現(xiàn)這樣的自動(dòng)系統(tǒng),必須將復(fù)雜的合成、純化和測量操作委托給機(jī)械臂或類似設(shè)備。使用負(fù)擔(dān)得起的機(jī)械臂系統(tǒng)、物聯(lián)網(wǎng)設(shè)備和3D打印機(jī)的開源系統(tǒng)開發(fā)可能成為未來的一個(gè)趨勢。生成模型也可以應(yīng)用于創(chuàng)建3D圖紙和設(shè)計(jì)電子電路等任務(wù)。開發(fā)使用語言模型分析自動(dòng)化系統(tǒng)產(chǎn)生的大量數(shù)據(jù)的方法很重要。
LLM的自主研究
GPT-4有可能通過結(jié)合和改進(jìn)現(xiàn)有的方法來自主地執(zhí)行研究任務(wù)。它可以在像Minecraft這樣的虛擬環(huán)境中做出決定并采取行動(dòng),這表明在包括研究在內(nèi)的各種物理任務(wù)中自主進(jìn)步的可能性。傳統(tǒng)的使用貝葉斯優(yōu)化的閉環(huán)需要人類的干預(yù)來縮小搜索空間,而像GPT-4這樣的LLM可以在語言空間內(nèi)自由操作,實(shí)現(xiàn)研究任務(wù)的自動(dòng)化,如文獻(xiàn)搜索、實(shí)驗(yàn)條件設(shè)置和結(jié)果報(bào)告。
已經(jīng)有自主代理(agents)利用GPT-4,由LLM自己決定下一步行動(dòng)。AutoGPT等項(xiàng)目正在探索任務(wù)的自動(dòng)化,包括執(zhí)行程序代碼。人們已經(jīng)努力將代理人格化,并促進(jìn)對(duì)話或?qū)⑵錉顟B(tài)輸出為抽象語言對(duì)象。這些對(duì)象包含子概念,并可以用互聯(lián)網(wǎng)上的相關(guān)數(shù)據(jù)進(jìn)行更新。

盡管GPT-4可以解決基本的數(shù)學(xué)問題,但當(dāng)涉及到高級(jí)證明或未解決的數(shù)學(xué)問題時(shí),它就顯得能力不足了。GPT-4的推理能力和令牌限制使其無法解決復(fù)雜的規(guī)劃問題。因此,在LLM能夠自主地縮小研究課題、計(jì)劃實(shí)驗(yàn)或撰寫論文之前,仍有一個(gè)差距需要彌補(bǔ)。
挑戰(zhàn)與困難
GPT-4在應(yīng)用于化學(xué)研究時(shí)面臨三個(gè)重大挑戰(zhàn):
a)?處理非語言數(shù)據(jù):GPT-4作為一個(gè)基于文本的人工智能,在解釋分子結(jié)構(gòu)和實(shí)驗(yàn)數(shù)據(jù)等非文本信息方面存在困難。短期解決方案包括使用專門的深度學(xué)習(xí)模型或算法作為插件來彌補(bǔ)這一限制。長期解決方案包括開發(fā)多模態(tài)的LLM,整合語音/圖像識(shí)別模型或表格數(shù)據(jù)和分子結(jié)構(gòu)的模型。擴(kuò)大像Transformer這樣的多功能模型的規(guī)模也是一個(gè)潛在的解決方案。
b)?輸入技術(shù)和最新的信息:GPT-4在2022年9月之前的知識(shí)是有限的,而且很難處理最前沿的化學(xué)文獻(xiàn)。短期的解決方案涉及檢索方法,即檢索相關(guān)文獻(xiàn)并將其納入LLM的提示中。然而,這有象征性的限制,使得它難以納入廣泛的前沿信息。目前正在探索構(gòu)建本地的LLM,從頭開始或通過微調(diào)等方法學(xué)習(xí)專門的數(shù)據(jù)。
c)?LLM的推理能力:像GPT-4這樣的LLM會(huì)在數(shù)學(xué)處理中犯錯(cuò),并根據(jù)有缺陷的知識(shí)提供不正確的答案。對(duì)于完全自動(dòng)化的化學(xué)研究來說,仍然缺乏長期的規(guī)劃能力。這一領(lǐng)域的改進(jìn)對(duì)于實(shí)現(xiàn)自主研究至關(guān)重要。雖然化學(xué)家可能不會(huì)直接為解決這個(gè)問題做出貢獻(xiàn),但深度學(xué)習(xí)的進(jìn)步和人工通用智能或超級(jí)智能的出現(xiàn)可以解決這些挑戰(zhàn)。
總的來說,解決這些挑戰(zhàn)需要多模態(tài)LLM的進(jìn)步,與專業(yè)模型的整合,知識(shí)整合的改進(jìn),以及LLM推理能力的增強(qiáng)。參考資料:
Hatakeyama-Sato K, Yamane N, Igarashi Y, Nabae Y, Hayakawa T. Prompt engineering of GPT-4 for chemical research: what can/cannot be done? ChemRxiv. Cambridge: Cambridge Open Engage; 2023; This content is a preprint and has not been peer-reviewed.
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問題可發(fā)郵件至sixiali@stonewise.cn