聊一聊化學(xué)結(jié)構(gòu)命名神器InDraw
一、你有被化學(xué)結(jié)構(gòu)命名難倒過(guò)嗎?
“命名難、難命名、命難名!”是許多醫(yī)藥、化學(xué)科研工作者的一塊心病,特別是當(dāng)你面對(duì)一些復(fù)雜的化學(xué)結(jié)構(gòu)式,如何準(zhǔn)確、高效地命名也是很大的難題。市面上已經(jīng)有一些軟件能夠?qū)崿F(xiàn)化學(xué)結(jié)構(gòu)的英文命名,比如ChemDraw、ChemDoodle、MarvinSketch。
遺憾的是ChemDraw訂閱需要高額的費(fèi)用,同時(shí)軟件銷售商也打擊該軟件的盜版,而ChemDoodle無(wú)論是網(wǎng)頁(yè)端還是客戶端都需要收費(fèi),在試用條件下,諸如結(jié)構(gòu)式命名等功能無(wú)法使用。ChemAxon旗下的MarvinSketch由于秘鑰申請(qǐng)和安裝比較復(fù)雜也降低了使用方便性。

這些軟件開發(fā)商都是在國(guó)外,從軟件的用戶界面到化學(xué)結(jié)構(gòu)式命名均是英文的,這樣就會(huì)給國(guó)內(nèi)用戶造成了很大的不便??梢哉f(shuō)在化學(xué)結(jié)構(gòu)式命名這塊,國(guó)內(nèi)市場(chǎng)是長(zhǎng)期空白的。對(duì)國(guó)內(nèi)用戶而言,我們?cè)诤荛L(zhǎng)時(shí)間內(nèi)沒(méi)有一款能對(duì)化學(xué)結(jié)構(gòu)進(jìn)行IUPAC中英文命名的軟件。
近期筆者有個(gè)驚喜的發(fā)現(xiàn),就是InDraw實(shí)現(xiàn)了IUPAC中文命名功能,值得一提的是,InDraw的命名系統(tǒng)是直接基于化學(xué)結(jié)構(gòu)給出英文和中文的名稱,其中文命名不是基于翻譯,可以說(shuō)是全球首創(chuàng)!

二、不簡(jiǎn)單的IUPAC中文命名
對(duì)于復(fù)雜結(jié)構(gòu)的中文命名,很早就有人想到先用ChemDraw等軟件生成化學(xué)結(jié)構(gòu)的IUPAC英文名稱,然后再利用Google翻譯將其轉(zhuǎn)化成中文名稱,但這種做法得到的中文命名正確率很低。
通過(guò)翻譯得到的結(jié)果經(jīng)常會(huì)把中、英文摻雜在一起,需要人工修改,不僅費(fèi)時(shí)費(fèi)力,而且又極容易出錯(cuò),這會(huì)導(dǎo)致中文名稱不能再還原成正確的結(jié)構(gòu)式,在中文專利知識(shí)產(chǎn)權(quán)保護(hù)上,會(huì)面臨專利無(wú)效的風(fēng)險(xiǎn)。

IUPAC英文命名系統(tǒng)和IUPAC中文命名系統(tǒng)有很多差異,翻譯軟件只能生搬硬套地去對(duì)應(yīng),根本無(wú)法應(yīng)付中文命名中很多約定俗成的命名方式。比如酚類是中文特有的命名方式,在結(jié)構(gòu)式的中文命名中,我們將連接在芳環(huán)上的羥基命名為“酚”,以“benzene-1,2,4-triol”為例,對(duì)應(yīng)的中文命名為“苯-1,2,4-三酚”,如果你直接將其英文名稱用Google翻譯,則會(huì)得到“苯-1,2,4-三醇”,這顯然是錯(cuò)誤的。

這樣的例子還有很多,IUPAC英文的命名順序和中文命名也不一樣,直接翻譯也是不準(zhǔn)確的。就拿酯類物質(zhì)而言,酯命名時(shí),其中英文的順序是不同的。例如,中文“丙二酸乙基甲基酯”對(duì)應(yīng)于英文“ethyl methyl malonate”,如果你拿英文直接翻譯成中文,則會(huì)得到 “乙基甲基丙二酸”,順序打亂了。

如果就這樣對(duì)化合物名稱進(jìn)行草率地翻譯,則會(huì)后患無(wú)窮。特別是如果在做學(xué)術(shù)過(guò)程中,論文上的結(jié)構(gòu)名稱是錯(cuò)誤的,則會(huì)大大影響到你的學(xué)術(shù)可信度。在申請(qǐng)專利的時(shí)候,這個(gè)影響更大,如果中文專利的結(jié)構(gòu)式名稱不規(guī)范,則不利于專利審核與保護(hù)。很有可能你所保護(hù)的分子結(jié)構(gòu),因?yàn)槊麊?wèn)題被別人摳字眼鉆了空子,造成損失。
科學(xué)出版社出版的《有機(jī)化合物命名原則2017》是目前有機(jī)化學(xué)結(jié)構(gòu)中文命名的權(quán)威參考。中文命名和IUPAC英文名稱差異是很大的,比如中文有機(jī)化合物名稱中組合各結(jié)構(gòu)構(gòu)成名稱時(shí),需要采用各種連綴字來(lái)表達(dá)它們之間的相互關(guān)系,這與英文中以變換字母,尤其是元音即可表達(dá)構(gòu)詞的方法是不同的。
InDraw的中文命名系統(tǒng)則是參考了這本書,其最底層的命名邏輯更契合中文的命名方式,所得到的中文名稱則更加準(zhǔn)確。同時(shí)InDraw的英文命名,也參考了權(quán)威的IUPAC 1993版、IUPAC 2013版,此外InDraw還參考了無(wú)機(jī)物1980版的命名原則,命名范圍更廣。

三、InDraw的命名功能到底強(qiáng)在哪里?
聊了這么多,InDraw與幾位友商的命名軟件到底有何異同?由于ChemDraw、ChemDoodle、MarvinSketch只能進(jìn)行IUPAC英文命名,無(wú)法進(jìn)行中文命名,筆者將其命名結(jié)果用Google翻譯轉(zhuǎn)化成中文來(lái)做中文名稱的參考。
首先來(lái)測(cè)試一下很多人在生活工作中必不可少的咖啡因分子,咖啡因是嘌呤類的物質(zhì),常被命名為 “1,3,7-三甲基黃嘌呤”,在相關(guān)的CAS號(hào)查詢平臺(tái)和百科上都可以見到這個(gè)命名。這樣命名的單體其實(shí)就是黃嘌呤了,然后再對(duì)三個(gè)甲基進(jìn)行定位,十分簡(jiǎn)潔清楚。PubChem平臺(tái)給出的IUPAC英文命名是“1,3,7-trimethylpurine-2,6-dione”,將單體又細(xì)分為嘌呤了。ChemDraw、ChemDoodle、MarvinSketch、InDraw的命名單體也圍繞著嘌呤來(lái),前兩者的命名結(jié)果是完全一樣的。

MarvinSketch的命名結(jié)果則稍微復(fù)雜一點(diǎn),定位更多,這里有意思的一點(diǎn)是,將其命名結(jié)果導(dǎo)入ChemDraw和ChemDoodle的Name?to?Structure功能,前者無(wú)法顯示。說(shuō)明兩者的命名邏輯是不一樣的,也未能很好的兼容。
InDraw對(duì)于咖啡因的命名方式類似MarvinSketch,只不過(guò)氫取代基的定位略有不同,MavrinSketch是“2,3,6,7”,而InDraw的定位是“1,2,3,6”。雜環(huán)一般是采用并環(huán)法命名,編號(hào)順序是順時(shí)針,而嘌呤是個(gè)例外,先逆時(shí)針定位完嘧啶環(huán)再定位咪唑環(huán),從命名結(jié)果上看,InDraw給出的中文命名其更加符合《有機(jī)化合物命名原則 2017》的命名順序。導(dǎo)入InDraw命名的英文名稱,另外三款軟件均能顯示出正確的咖啡因結(jié)構(gòu)式。

當(dāng)化學(xué)結(jié)構(gòu)的復(fù)雜度提升時(shí),InDraw的命名系統(tǒng)也能輕松勝任,InDraw能夠命名ChemDraw無(wú)法命名的物質(zhì)。

這里筆者將結(jié)構(gòu)的復(fù)雜度提升,換成我們的健康殺手:膽固醇。膽固醇是甾體類化合物,甾體結(jié)構(gòu)在自然界中大量存在,是比較典型的四環(huán)化合物,從事天然產(chǎn)物化學(xué)的研究者可能經(jīng)常與甾體結(jié)構(gòu)打交道。比較簡(jiǎn)單的命名方式就是以甾體母核進(jìn)行命名,比如在膽甾的基礎(chǔ)上增加取代基。

我們可以看到當(dāng)化學(xué)結(jié)構(gòu)復(fù)雜度提升時(shí),這幾款命名軟件給出的英文命名不盡相同。ChemDraw、MarvinSketch的命名邏輯基本相似,所選取的命名單體是一樣的,這也與PubChem數(shù)據(jù)庫(kù)查詢的IUPAC英文命名方式基本相似。
由于MarvinSketch有著兩套命名系統(tǒng),能同時(shí)給出結(jié)構(gòu)式的俗名和IUPAC英文名,MarvinSketch也提供了“Cholesterol”,這個(gè)命名的選項(xiàng)。ChemDoodle似乎在這方面做的不夠好,并沒(méi)有選取環(huán)戊環(huán)和菲環(huán)作為環(huán)的命名單元。令人眼前一亮的是,InDraw的命名類似半俗名,直接以膽甾為命名單體,與CAS查詢得到的命名邏輯一致,十分簡(jiǎn)潔?。?!
再觀察Google的翻譯結(jié)果,顯然就和中文命名方式有很大的差別,比如環(huán)單元命名這塊,按照中文的命名邏輯應(yīng)該為“環(huán)戊并菲”,而Google翻譯的結(jié)果是“環(huán)戊二烯菲”,這也說(shuō)明了直接翻譯IUPAC英文名稱的方式不可取。?
InDraw對(duì)甾體化合物的命名做了專門的優(yōu)化,比如可以直接以膽甾、雌甾、雄甾、孕甾為命名單元進(jìn)行命名,能夠使天然產(chǎn)物的命名更為簡(jiǎn)潔。

比如這五種甾體結(jié)構(gòu),InDraw可以很好地識(shí)別其甾體母核,給出的命名類似我們用的半俗名,非常簡(jiǎn)潔,而ChemDraw未能識(shí)別。
筆者再將物質(zhì)范圍擴(kuò)大、用普通有機(jī)物、螺環(huán)、橋環(huán)、氨基酸、甾體以及無(wú)機(jī)物來(lái)考驗(yàn)這四款軟件,看看它們的命名表現(xiàn)如何。由于化學(xué)結(jié)構(gòu)多而繁雜,筆者不可能每類結(jié)構(gòu)一一測(cè)試到,只能以有限的樣本來(lái)測(cè)試軟件的命名性能,僅供參考。

基本有機(jī)物命名的對(duì)比測(cè)試:

螺環(huán)有機(jī)物命名的對(duì)比測(cè)試:

橋環(huán)有機(jī)物命名的對(duì)比測(cè)試:

?氨基酸命名的對(duì)比測(cè)試:

甾體命名的對(duì)比測(cè)試:

無(wú)機(jī)物命名的對(duì)比測(cè)試:

總體體驗(yàn)下來(lái),這四款軟件差異還是很明顯的。在我提供的基礎(chǔ)有機(jī)物這塊,ChemDoodle出師不捷,5個(gè)結(jié)構(gòu)最終只能命名出2個(gè)。這幾種結(jié)構(gòu)里面含有Si、Se、Sn等在有機(jī)化學(xué)結(jié)構(gòu)內(nèi)不常見的元素,對(duì)于處理這些結(jié)構(gòu)的命名,ChemDoodle相當(dāng)雞肋了。
而在螺環(huán)這塊,ChemDoodle再度翻車,無(wú)法命名。在最后的無(wú)機(jī)物命名這塊,ChemDoodle也是全軍覆沒(méi),相比其他三款軟件,表現(xiàn)實(shí)在太差。

無(wú)機(jī)物這塊是一個(gè)分水嶺,InDraw能與這三款軟件拉開較大的差距,表現(xiàn)較優(yōu)。另外三款軟件在此都翻過(guò)車,比如ChemDraw連最基礎(chǔ)的二氧化氮都無(wú)法識(shí)別,而MarvinSketch無(wú)法識(shí)別離子化合物,只能單個(gè)給出離子的命名,不能給出整 體命名,推測(cè)它只能識(shí)別共價(jià)化合物。
MarvinSketch支持俗名以及IUPAC英文命名,比如氨基酸“D-alloisoleucine(D-別異亮氨酸)”,MarvinSketch可以給出縮寫名“Hile”,同時(shí)其也支持甾體的簡(jiǎn)潔命名。在測(cè)試過(guò)程中,發(fā)現(xiàn)InDraw對(duì)氨基酸衍生物的處理也很到位,可以識(shí)別其中的氨基酸結(jié)構(gòu),結(jié)果十分簡(jiǎn)潔。
?

?
四、結(jié)語(yǔ)
InDraw有著不俗的命名能力,特別是直接基于化學(xué)結(jié)構(gòu)給出英文和中文的名稱,使得結(jié)果更加精確。簡(jiǎn)而言之,這款結(jié)構(gòu)式命名神器有著如下優(yōu)點(diǎn):
1、?免費(fèi)、原生中文界面、操作方便;
2、?業(yè)界首創(chuàng)的化學(xué)結(jié)構(gòu)中文命名;
3、?命名范圍廣、正確率高;
4、?支持天然產(chǎn)物的簡(jiǎn)潔命名(如甾體類化合物);
5、?對(duì)無(wú)機(jī)物命名性能優(yōu)秀。
超級(jí)值得一試!