Decimer:為化學(xué)圖像識(shí)別進(jìn)行深度學(xué)習(xí)
今天為大家介紹的是耶拿大學(xué)的研究人員一直在開(kāi)發(fā)一種名為?DECIMER?的深度學(xué)習(xí)系統(tǒng),其用于自動(dòng)識(shí)別科學(xué)文獻(xiàn)中的化學(xué)結(jié)構(gòu)圖。該系統(tǒng)能將分子圖像轉(zhuǎn)化為一種名為 SMILES 的標(biāo)準(zhǔn)化化學(xué)符號(hào)。雖然 DECIMER 目前在訓(xùn)練階段的表現(xiàn)不如傳統(tǒng)方法,但研究人員相信,如果訓(xùn)練時(shí)間更長(zhǎng),它的準(zhǔn)確率也能達(dá)到類似水平。DECIMER 的效果取決于輸入數(shù)據(jù)的表示方式,DeepSMILES 和 SELFIES 可能比普通 SMILES 更好。研究表明,如果使用 5000 萬(wàn)到 1 億個(gè)結(jié)構(gòu)的更大訓(xùn)練數(shù)據(jù)集,就能實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)。
引言
從化學(xué)文獻(xiàn)中識(shí)別化學(xué)結(jié)構(gòu)圖,即光學(xué)化學(xué)實(shí)體識(shí)別(OCER),對(duì)于提取化學(xué)信息和填充開(kāi)放存取數(shù)據(jù)庫(kù)至關(guān)重要。現(xiàn)有的 OCER 軟件系統(tǒng)(如 Kekulé、Contreras 和 chemOCR)涉及掃描、字符識(shí)別、圖表編譯和后處理等步驟。這些步驟都需要細(xì)致的調(diào)整,而增加新功能更是耗費(fèi)大量人力物力。
受基于深度神經(jīng)網(wǎng)絡(luò)的 AlphaGo Zero 取得成功的啟發(fā),研究人員認(rèn)識(shí)到將深度學(xué)習(xí)用于?OCER?的潛力。他們意識(shí)到,與過(guò)去依賴有限的人類注釋示例的方法不同,他們可以從生成器或開(kāi)放化學(xué)數(shù)據(jù)集創(chuàng)建的大量化學(xué)結(jié)構(gòu)來(lái)源中生成訓(xùn)練數(shù)據(jù)。其他針對(duì) OCER 的深度學(xué)習(xí)嘗試,如 Schr?dinger 小組的工作,成功地從位圖中提取了機(jī)器可讀的化學(xué)結(jié)構(gòu),但缺乏可公開(kāi)復(fù)制的軟件。Chemgrapher 方法提出了一種涉及圖像分割和圖構(gòu)建算法的模塊化方法。在此背景下,研究人員介紹了他們?cè)?/span>化學(xué)圖像識(shí)別深度學(xué)習(xí)(DECIMER)方面取得的進(jìn)展。這種深度學(xué)習(xí)方法的靈感來(lái)自 "展示-講述"(show-and-tell)網(wǎng)絡(luò),可將出版物中的分子圖像轉(zhuǎn)換為 SMILES 符號(hào)。與其他一些方法不同,DECIMER 不假定圖像中存在鍵或元素符號(hào)。該研究報(bào)告的初步結(jié)果表明,只要有足夠的訓(xùn)練時(shí)間,DECIMER 就能達(dá)到與傳統(tǒng)方法相當(dāng)?shù)男阅?/strong>。

訓(xùn)練用于化學(xué)圖像識(shí)別的深度神經(jīng)網(wǎng)絡(luò)
作者的方法被稱為 "化學(xué)圖像識(shí)別深度學(xué)習(xí)"(DECIMER),目前的訓(xùn)練階段還無(wú)法與現(xiàn)有的傳統(tǒng)光學(xué)化學(xué)實(shí)體識(shí)別(OCER)方法相媲美。不過(guò),作者提供的證據(jù)表明,只要有足夠的訓(xùn)練數(shù)據(jù),作者的方法就能達(dá)到類似的檢測(cè)水平,而不需要典型 OCER 工作流程中復(fù)雜的工程步驟。
作者的核心理念是調(diào)整最初為標(biāo)注普通照片而設(shè)計(jì)的示意深度神經(jīng)網(wǎng)絡(luò)。作者對(duì)其進(jìn)行了重新訓(xùn)練,使其能夠在呈現(xiàn)化學(xué)結(jié)構(gòu)的位圖圖像時(shí)生成 SMILES 標(biāo)記序列。作者沒(méi)有從文獻(xiàn)中抽象出化學(xué)結(jié)構(gòu)圖作為訓(xùn)練數(shù)據(jù),而是利用了結(jié)構(gòu)圖生成器(SDG),如化學(xué)開(kāi)發(fā)工具包(CDK)中的結(jié)構(gòu)圖生成器。這樣,作者就可以生成無(wú)限量的訓(xùn)練數(shù)據(jù)。作者可以修改這些數(shù)據(jù),通過(guò)應(yīng)用模糊和添加噪聲等技術(shù)來(lái)模擬化學(xué)文獻(xiàn)中不同的圖像質(zhì)量。PubChem 是 CDK SDG 的輸入結(jié)構(gòu)源。作者為所使用的 PubChem 數(shù)據(jù)制定了特定的編輯規(guī)則,包括分子量低于 1500 道爾頓、特定元素、有限鍵等要求和其他限制。作者使用 CDK SDG 從化學(xué)圖中創(chuàng)建分子位圖圖像,確保為深度學(xué)習(xí)模型提供高質(zhì)量的二維描述。作者的模型采用了基于 TensorFlow 2.0 的自動(dòng)編碼器網(wǎng)絡(luò),該網(wǎng)絡(luò)基于 Xu 等人在圖像標(biāo)題生成方面的研究成果和注意力機(jī)制。該模型由一個(gè)編碼器網(wǎng)絡(luò)(CNN)和一個(gè)解碼器網(wǎng)絡(luò)(帶有 GRU 和全連接層的 RNN)組成,并采用了 Bahdanau 等人的軟注意力機(jī)制。

對(duì)于文本數(shù)據(jù),作者使用?SMILES 字符串,將其編碼為常規(guī) SMILES、DeepSMILES 和 SELFIES 等不同格式,以評(píng)估數(shù)據(jù)表示對(duì)學(xué)習(xí)成功率的影響。作者發(fā)現(xiàn),DeepSMILES 優(yōu)于常規(guī) SMILES,因此作者的模型繼續(xù)使用 DeepSMILES??傊?,作者的 DECIMER 方法仍處于早期階段,目前正在使用深度學(xué)習(xí)訓(xùn)練識(shí)別化學(xué)結(jié)構(gòu)。雖然目前的性能還無(wú)法與傳統(tǒng)方法相提并論,但作者相信,只要有充足的訓(xùn)練數(shù)據(jù),作者的方法無(wú)需復(fù)雜的工程設(shè)計(jì)就能達(dá)到傳統(tǒng)方法的準(zhǔn)確度。
訓(xùn)練過(guò)程和模型評(píng)估
作者使用 DeepSMILES 文本數(shù)據(jù)和相應(yīng)的化學(xué)圖位圖對(duì)模型進(jìn)行了訓(xùn)練。訓(xùn)練過(guò)程包括讀取文本文件,使用標(biāo)記化器對(duì) DeepSMILES 進(jìn)行標(biāo)記化,并存儲(chǔ)唯一標(biāo)記。使用未修改的 Inception V3 模型將位圖圖像轉(zhuǎn)換為特征向量,并將這些向量保存為 NumPy 數(shù)組。
模型的準(zhǔn)確性使用?Tanimoto 相似性分?jǐn)?shù)進(jìn)行評(píng)估,該分?jǐn)?shù)以所有分?jǐn)?shù)的平均值和 Tanimoto 分?jǐn)?shù)達(dá)到 1.0 的計(jì)數(shù)來(lái)計(jì)算。Tanimoto 系數(shù)之所以有效,是因?yàn)樗軌蛟谕耆R(shí)別之前就衡量識(shí)別率的提高,而且與嚴(yán)格的結(jié)構(gòu)同構(gòu)相似,特別是在使用 PubChem 指紋時(shí)。為了確定最佳超參數(shù),作者最初在小型數(shù)據(jù)集上訓(xùn)練了多個(gè)模型。在探索了超參數(shù)空間后,作者確定了一些參數(shù),如批量大小為 640 張圖像,在 299×299 畫(huà)布上描繪的圖像的嵌入維度大小為 600,學(xué)習(xí)率為 0.0005 的亞當(dāng)優(yōu)化器,以及用于計(jì)算損失的稀疏分類交叉熵。對(duì)模型進(jìn)行了 25 次歷時(shí)訓(xùn)練,在測(cè)試集上進(jìn)行評(píng)估之前,允許收斂。訓(xùn)練在內(nèi)部服務(wù)器上進(jìn)行,服務(wù)器配備了英偉達(dá)?(NVIDIA?)Tesla V100 圖形卡、384 GB 內(nèi)存和兩個(gè)英特爾(R)至強(qiáng)(R)Gold 6230 CPU。雖然訓(xùn)練本身是在 GPU 上進(jìn)行的,但最初的數(shù)據(jù)集準(zhǔn)備工作卻是 CPU 密集型的。訓(xùn)練時(shí)間隨著數(shù)據(jù)量的增加而增加(參見(jiàn)表 1 和圖 4)。模型性能通過(guò)獨(dú)立的測(cè)試數(shù)據(jù)集進(jìn)行評(píng)估。在稿件準(zhǔn)備過(guò)程中,并行訓(xùn)練實(shí)驗(yàn)顯示,超過(guò) 2 或 3 個(gè) GPU 后,擴(kuò)展效果就會(huì)降低。


數(shù)據(jù)量增加時(shí)的訓(xùn)練進(jìn)度指標(biāo)
a) 隨著訓(xùn)練數(shù)據(jù)量的增加,學(xué)習(xí) SMILES 語(yǔ)法的效果明顯增強(qiáng)。有效和無(wú)效 SMILES 預(yù)測(cè)的百分比總和達(dá)到 100%。數(shù)據(jù)集索引如表 1 所示。
b) 隨著訓(xùn)練數(shù)據(jù)集的擴(kuò)大,學(xué)習(xí)效果的改善體現(xiàn)在平均谷本相似度得分(右側(cè)顯示為橙色)和有效 SMILES 預(yù)測(cè)的谷本相似度得分達(dá)到 1.0 的結(jié)構(gòu)百分比(左側(cè)顯示為藍(lán)色)上。數(shù)據(jù)集索引與表 1 相對(duì)應(yīng)。
c)采用線性外推法預(yù)測(cè)更多數(shù)據(jù)可達(dá)到的準(zhǔn)確度。這種外推法旨在讓作者了解要達(dá)到接近完美的結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性所需的訓(xùn)練數(shù)據(jù)數(shù)量級(jí)。值得注意的是,雖然所描述的線性增長(zhǎng)表明了數(shù)據(jù)量的趨勢(shì),但隨著訓(xùn)練集規(guī)模的增加,實(shí)際進(jìn)展最終會(huì)過(guò)渡到飽和曲線。
結(jié)論
本研究介紹了初步研究結(jié)果,展示了該深度神經(jīng)網(wǎng)絡(luò)高效提取機(jī)器可讀結(jié)構(gòu)表征的潛力。這種方法在數(shù)百萬(wàn)個(gè)示例上進(jìn)行訓(xùn)練,對(duì)問(wèn)題的具體假設(shè)要求極低。數(shù)據(jù)表示極大地影響了訓(xùn)練的成功率,DeepSMILES 超過(guò)了 SMILES,而且有跡象表明 SELFIES 優(yōu)于 DeepSMILES。在 600 萬(wàn)張訓(xùn)練圖像中,DeepSMILES 和 SELFIES 的平均 Tanimoto 相似度得分分別為 0.53 和 0.78。
如果將這些結(jié)果推廣到更大的訓(xùn)練數(shù)據(jù)集上,就能在 5000 萬(wàn)到 1 億個(gè)結(jié)構(gòu)中實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)。盡管需要付出大量努力,但在單個(gè) GPU 上幾個(gè)月的時(shí)間內(nèi)就能完成這樣的訓(xùn)練。作者的工作以開(kāi)源軟件和數(shù)據(jù)為基礎(chǔ),向公眾開(kāi)放。目前,作者正通過(guò)使用更大的訓(xùn)練集、并行化和強(qiáng)大的硬件來(lái)推進(jìn)工作。作者計(jì)劃在即將發(fā)表的研究論文中分享全面的成果。
參考資料:Rajan, Kohulan et al. "Decimer: Towards Deep Learning For Chemical Image Recognition", Journal of Cheminformatics 12.1 (2020): 65.
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn