用于化學(xué)研究的GPT-4:可以/不可以做什么?
引言
這篇文章介紹了GPT-4,一個(gè)基于人工智能的大型語(yǔ)言模型(LLM)。GPT-4擁有廣泛的化學(xué)知識(shí),并能將其應(yīng)用于各種場(chǎng)合,包括預(yù)測(cè)未知化合物和反應(yīng)結(jié)果。它擁有大量的數(shù)據(jù),可以與外部工具和資源連接。GPT-4是由一種叫做轉(zhuǎn)化器的深度學(xué)習(xí)算法驅(qū)動(dòng)的,其推理能力與數(shù)據(jù)集和模型大小呈指數(shù)關(guān)系。它擅長(zhǎng)于少量的學(xué)習(xí),并能自主地執(zhí)行任務(wù)。然而,它在數(shù)字識(shí)別方面可能有挑戰(zhàn)。本文討論了GPT-4在化學(xué)中的可能性和局限性,并提出了評(píng)估其能力的基準(zhǔn)測(cè)試。它還分享了評(píng)估中使用的結(jié)果和提示,并討論了在化學(xué)研究中使用大型語(yǔ)言模型的潛在應(yīng)用和挑戰(zhàn)。

實(shí)驗(yàn)部分
本文的實(shí)驗(yàn)部分描述了大型語(yǔ)言模型(LLM)GPT-4的使用條件。研究人員利用ChatGPT 5月24日版本作為L(zhǎng)LM。他們確保GPT-4沒(méi)有通過(guò)插件或其他方式引用外部數(shù)據(jù)。為了避免過(guò)去的對(duì)話記錄的影響,除非另有說(shuō)明,他們將每次推斷作為一個(gè)新的對(duì)話進(jìn)行。GPT-4對(duì)每個(gè)問(wèn)題的回應(yīng)略有不同,但研究人員只使用了所獲得的最初回應(yīng)。完整的對(duì)話細(xì)節(jié)可以在論文的補(bǔ)充資料中找到。
知識(shí)基礎(chǔ)
3.1 化學(xué)元素
向GPT-4提出的第一個(gè)問(wèn)題是有關(guān)化合物的基本知識(shí)。GPT-4表現(xiàn)出對(duì)甲苯等常見(jiàn)化合物的物理和化學(xué)性質(zhì)的準(zhǔn)確認(rèn)識(shí),包括分子量、熔點(diǎn)、沸點(diǎn)、氣味、化學(xué)穩(wěn)定性和反應(yīng)性。

它從普通化學(xué)課本和網(wǎng)站上的數(shù)據(jù)中獲得了這些知識(shí)。此外,GPT-4表現(xiàn)出對(duì)教科書(shū)中未涉及的專業(yè)級(jí)知識(shí)的理解,如TEMPO的氧化還原電位,一種用于各種應(yīng)用的有機(jī)化合物。即使被要求使用縮寫(xiě),GPT-4也能提供該化合物的全名和正確的氧化還原電位值。然而,GPT-4沒(méi)有接受過(guò)關(guān)于4-氰基TEMPO(TEMPO的一種衍生物)電位的知識(shí),不能提供關(guān)于其電位的答案。這表明GPT-4可能沒(méi)有閱讀過(guò)化學(xué)文章,可能是由于模型訓(xùn)練時(shí)的計(jì)算限制和學(xué)術(shù)論文的版權(quán)限制。作者建議,對(duì)于大型語(yǔ)言模型的未來(lái)使用,化學(xué)家應(yīng)該積極為開(kāi)放性的論文和預(yù)印本做貢獻(xiàn)。
3.2 物理化學(xué)
在物理化學(xué)方面,GPT-4擁有達(dá)到大學(xué)課本水平的知識(shí),包括理想氣體定律、洛倫茲-洛倫茲方程和Vogel-Fulcher-Tammann(VFT)方程式等概念。然而,它缺乏來(lái)自學(xué)術(shù)論文的知識(shí),如與聚合物玻璃轉(zhuǎn)化溫度有關(guān)的經(jīng)驗(yàn)法則。GPT-4表現(xiàn)出對(duì)化學(xué)學(xué)術(shù)論文的有限理解,因?yàn)樗闹R(shí)主要基于教科書(shū)和2021年9月之前的數(shù)據(jù)。
3.3 有機(jī)化學(xué)
GPT-4展示了對(duì)普通有機(jī)化學(xué)教科書(shū)內(nèi)容的理解,包括對(duì)乙酰氨基酚的合成路線。

然而,出于安全考慮,它并沒(méi)有提供化學(xué)合成的實(shí)驗(yàn)程序。GPT-4也未能正確解決有機(jī)合成的應(yīng)用問(wèn)題,提供了化學(xué)上錯(cuò)誤的答案。它誤解了反應(yīng)機(jī)理,并在TEMPO的合成中提出了不必要的步驟。

GPT-4在解決化學(xué)反應(yīng)問(wèn)題方面的局限性突出了與專門(mén)的化學(xué)反應(yīng)系統(tǒng)整合的必要性,類似于在計(jì)算系統(tǒng)或編程語(yǔ)言的幫助下解決數(shù)學(xué)問(wèn)題的方式。
化學(xué)信息學(xué)和材料信息學(xué)
化學(xué)信息學(xué)和材料信息學(xué)是專注于使用數(shù)據(jù)科學(xué)方法研究化學(xué)結(jié)構(gòu)和特性之間關(guān)系的學(xué)科。GPT-4在化學(xué)信息學(xué)中的潛力是巨大的,因?yàn)樗梢蕴幚碚Z(yǔ)言數(shù)據(jù),這對(duì)于描述和處理化學(xué)相關(guān)的研究活動(dòng)至關(guān)重要。
4.1 化合物名稱和SMILES轉(zhuǎn)換
GPT-4能夠在化合物名稱和簡(jiǎn)化分子輸入行系統(tǒng)(SMILES)符號(hào)之間進(jìn)行轉(zhuǎn)換,該符號(hào)在數(shù)據(jù)化學(xué)中廣泛用于表示有機(jī)結(jié)構(gòu)。它可以成功地將簡(jiǎn)單的結(jié)構(gòu)如甲苯從化合物名稱轉(zhuǎn)換為SMILES。然而,它在處理稍微復(fù)雜的結(jié)構(gòu)如對(duì)氯苯乙烯、TMP和4-氰基TEMPO時(shí)遇到了困難。此外,GPT-4在所有情況下都不能將SMILES轉(zhuǎn)換為化合物名稱。對(duì)于精確和系統(tǒng)的轉(zhuǎn)換任務(wù),使用基于算法的轉(zhuǎn)換工具如ChemDraw或?qū)iT(mén)的語(yǔ)言模型作為補(bǔ)充工具可能更可靠。

4.2 分析推理能力
研究人員對(duì)GPT-4在推理問(wèn)題上寄予了巨大期望。希望GPT-4能夠分析因素,預(yù)測(cè)給定化學(xué)事件的結(jié)果,甚至提供研究方向的建議。在其中一些問(wèn)題中,GPT-4能夠通過(guò)利用其對(duì)變量的先驗(yàn)知識(shí)進(jìn)行合理分析,生成解決方案,并展示其普適的問(wèn)題解決能力。我們首先詢問(wèn)了為什么三種亞硝基自由基(TEMPO,4-氧基TEMPO,1-羥基-2,2,5,5-四甲基-2,5-二氫-1H-吡咯-3-羧酸)的電位按照這個(gè)順序增加。在比較TEMPO和4-氧基TEMPO時(shí),GPT-4正確指出了引入電子吸引的酮基是電位差異的原因,這是一個(gè)有效的解釋。然而,關(guān)于為什么五元環(huán)的1-羥基-2,2,5,5-四甲基-2,5-二氫-1H-吡咯-3-羧酸顯示出最高電位的推理是不準(zhǔn)確的。

GPT-4合理地解釋了羧酸的存在是關(guān)鍵,但它還主張了羥基的重要性,而該化合物中并不存在羥基,并認(rèn)為隨著分子形成氫鍵,電位會(huì)發(fā)生變化。焦點(diǎn)應(yīng)該放在該自由基化合物是否為包含不飽和鍵的六元環(huán)或五元環(huán)上。這一系列問(wèn)題源于無(wú)法正確從化合物名稱估計(jì)分子結(jié)構(gòu)。需要進(jìn)一步研究來(lái)評(píng)估GPT-4在正確識(shí)別分子結(jié)構(gòu)時(shí)的推理準(zhǔn)確性。參考資料:
Hatakeyama-Sato K, Yamane N, Igarashi Y, Nabae Y, Hayakawa T. Prompt engineering of GPT-4 for chemical research: what can/cannot be done? ChemRxiv. Cambridge: Cambridge Open Engage; 2023; This content is a preprint and has not been peer-reviewed.
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn