【成果展示】基于自監(jiān)督學(xué)習(xí)的材料性能少樣本預(yù)測(cè)方法探索
導(dǎo)讀

材料研究中,為獲得足夠的數(shù)據(jù)以明確材料的性能,最耗時(shí)的是重復(fù)材料準(zhǔn)備、試樣制備和開(kāi)展試驗(yàn)的過(guò)程。因此,研究人員集成了機(jī)器學(xué)習(xí)模型,以期高效率低成本地表征材料性能。但目前大多數(shù)以監(jiān)督學(xué)習(xí)為主的算法嚴(yán)重依賴人工標(biāo)記數(shù)據(jù)以訓(xùn)練好模型,而獲得足夠的標(biāo)記數(shù)據(jù)同樣意味著需要開(kāi)展大批量的實(shí)驗(yàn)或者仿真計(jì)算等工作,依然面臨標(biāo)記成本大、時(shí)間長(zhǎng)、數(shù)據(jù)有限的問(wèn)題。本期為大家介紹課題組解兵林等同學(xué)于近期發(fā)表在Computational Materials Science上題為High-efficient low-cost characterization of composite material properties using domain-knowledge-guided self-supervised learning的文章https://doi.org/10.1016/j.commatsci.2022.111834,論文介紹了一種基于自監(jiān)督學(xué)習(xí)的材料表征方法,通過(guò)知識(shí)增強(qiáng)的思路設(shè)計(jì)預(yù)訓(xùn)練模型,增強(qiáng)有限標(biāo)記數(shù)據(jù)的效率。
01
監(jiān)督學(xué)習(xí)(Supervised Learning, SL)需要足夠數(shù)量的輸入(Inputs)與標(biāo)簽數(shù)據(jù)對(duì)(Labels),與此不同的是,自監(jiān)督學(xué)習(xí)(Self-supervised Learning, SSL)作為一種從未標(biāo)記數(shù)據(jù)本身學(xué)習(xí)表示的方法,能夠在無(wú)標(biāo)簽的數(shù)據(jù)集上訓(xùn)練深度模型,從而避免昂貴的人工標(biāo)記工作。對(duì)于標(biāo)記數(shù)據(jù)缺乏的情況,可設(shè)計(jì)SSL作為預(yù)訓(xùn)練模型(Pre-training task / Pretext model),通過(guò)遷移學(xué)習(xí),使少量標(biāo)記數(shù)據(jù)可以微調(diào)訓(xùn)練下游任務(wù)模型(Fine-tune task / Downstream model)。因此,我們建立了SSL的材料表征模型框架,如圖1所示,SL模型需要425組標(biāo)記數(shù)據(jù)中85%的樣本進(jìn)行訓(xùn)練,以保證模型在測(cè)試集上的誤差較低(0.015);當(dāng)只有5%的標(biāo)記數(shù)據(jù)用以訓(xùn)練,其測(cè)試誤差增大4.5倍(0.068);然而在SSL的幫助下,5%的標(biāo)記數(shù)據(jù)可以使模型的測(cè)試誤差比85%的標(biāo)記數(shù)據(jù)更低(0.012),實(shí)現(xiàn)以少勝多的數(shù)據(jù)驅(qū)動(dòng)效率。這好比,學(xué)生A (SL) 需要做85道練習(xí)題或者學(xué)習(xí)85小時(shí),才能在考試中取得好成績(jī);而資質(zhì)相似的學(xué)生B (Downstream model)只需要做5道練習(xí)題或者學(xué)習(xí)5小時(shí),就能在考試中取得好成績(jī);這是因?yàn)閷W(xué)生B在家教(SSL)的幫助下,學(xué)習(xí)了解題秘訣,提高了學(xué)習(xí)效率!

02
如何對(duì)無(wú)標(biāo)記的數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)?根據(jù)預(yù)訓(xùn)練任務(wù)的設(shè)計(jì),SSL模型可以分為兩類:采用數(shù)據(jù)對(duì)(Data-data pairs)進(jìn)行訓(xùn)練的對(duì)比類模型(Contrastive models)和采用數(shù)據(jù)-標(biāo)簽對(duì)(Data-label pairs)進(jìn)行訓(xùn)練的預(yù)測(cè)類模型(Predictive models)。對(duì)比模型通常是對(duì)正樣本對(duì)(Positive pairs)和負(fù)樣本對(duì)(Negative pairs)以自監(jiān)督的方式學(xué)習(xí)數(shù)據(jù)表示或應(yīng)對(duì)下游任務(wù)進(jìn)行預(yù)訓(xùn)練;而預(yù)測(cè)類模型是以一種有監(jiān)督的方式進(jìn)行訓(xùn)練,但其中的標(biāo)簽是根據(jù)輸入的某些特征,以一種半自動(dòng)的方式生成得到。因此,我們?cè)O(shè)計(jì)了預(yù)訓(xùn)練模型的數(shù)據(jù)增強(qiáng)途徑,(1)分別采用“縮小Scaling down”、“放大Scaling up”、“遮蔽Masking”、“加噪Adding noise”和“變換Switching”數(shù)據(jù)等方法增廣輸入樣本對(duì),進(jìn)行預(yù)訓(xùn)練;(2)?通過(guò)數(shù)據(jù)特征工程,使數(shù)據(jù)以外、而與實(shí)際問(wèn)題相關(guān)的物理信息引入到模型中增強(qiáng)自監(jiān)督學(xué)習(xí)過(guò)程;(3)?集成領(lǐng)域先驗(yàn)知識(shí),作為對(duì)原始數(shù)據(jù)生成“假標(biāo)簽”的半自動(dòng)機(jī)制,如圖2所示。

03
混凝土是一類使用量大面廣的重要土木工程復(fù)合材料,無(wú)論在工程中還是科研界,都需要經(jīng)常重復(fù)進(jìn)行大批量試驗(yàn)以確定其抗壓強(qiáng)度等力學(xué)性能,這將造成大量試驗(yàn)成本的浪費(fèi)和人工支出,且還要考慮養(yǎng)護(hù)28天的等待時(shí)間才能測(cè)得其完全的抗壓強(qiáng)度。因此,我們以425組原始試驗(yàn)數(shù)據(jù)集(混凝土材料配合比與28天齡期強(qiáng)度)為算例,首先以原始數(shù)據(jù)作為輸入,測(cè)試SSL模型采用不同數(shù)據(jù)增廣方法分別在5%、15%和25%的有標(biāo)簽數(shù)據(jù)集上的表現(xiàn),此時(shí)Downstream model依然需要25%的有標(biāo)簽數(shù)據(jù)才能達(dá)到一個(gè)可接受的誤差水平(以SL模型在85%的有標(biāo)記數(shù)據(jù)上的誤差0.015為對(duì)比),如圖3-a所示;再對(duì)輸入變量進(jìn)行敏感性分析,分別改變混凝土材料中“水(Water)”與“水泥(Cement)”兩個(gè)組份,得到的誤差最小,而相關(guān)性分析結(jié)果也顯示水和水泥分別與混凝土材料強(qiáng)度成最大的負(fù)相關(guān)和最大的正相關(guān),驗(yàn)證了他們是最顯著的影響變量,如圖3-b所示;進(jìn)一步考慮原始數(shù)據(jù)以外、而與實(shí)際問(wèn)題相關(guān)的物理信息增強(qiáng)模型輸入組成,使SSL模型直接學(xué)習(xí)數(shù)據(jù)間的關(guān)系,此時(shí)的模型更趨為健壯和穩(wěn)定,無(wú)論是25%還是5%的有標(biāo)記數(shù)據(jù)已都能達(dá)到較低的誤差水平,并且學(xué)習(xí)到“水膠比W/B”是混凝土材料中最為顯著的影響變量,如圖3-c-d所示。

04
此外,我們注意到,混凝土材料的先驗(yàn)知識(shí)包含了很多理論成果和經(jīng)驗(yàn)?zāi)P?,這些領(lǐng)域知識(shí)可以為模型自監(jiān)督學(xué)習(xí)過(guò)程提供“更深刻的見(jiàn)解”。因此,我們對(duì)采用Abrams公式的美國(guó)標(biāo)準(zhǔn)(ACI)和采用Bolomy公式的中國(guó)標(biāo)準(zhǔn)(JGJ)編碼為SSL模型半自動(dòng)生成假標(biāo)簽的一種機(jī)制,為原始數(shù)據(jù)進(jìn)行“免費(fèi)”的標(biāo)記,從數(shù)據(jù)“假標(biāo)簽”到試驗(yàn)的真實(shí)標(biāo)簽之間的微調(diào)訓(xùn)練使模型更容易達(dá)到穩(wěn)健的表現(xiàn),如圖4所示,我們進(jìn)一步驗(yàn)證了方法的有效性。

總結(jié)
總之,我們提出了一種基于知識(shí)增強(qiáng)自監(jiān)督學(xué)習(xí)的材料表征模型框架,并驗(yàn)證了其在少樣本上的適用性和魯棒性。對(duì)于不易制備、難以表征的材料,無(wú)論是進(jìn)行試驗(yàn)還是采用傳統(tǒng)機(jī)器學(xué)習(xí)方法研究都需要昂貴的成本和長(zhǎng)期的等待。而我們建立的模型框架,針對(duì)未標(biāo)記數(shù)據(jù)的輸入組成和假標(biāo)簽,考慮不同的數(shù)據(jù)增廣方法,利用混凝土知識(shí)增強(qiáng)自監(jiān)督學(xué)習(xí),使用最少的數(shù)據(jù)樣本,通過(guò)預(yù)訓(xùn)練過(guò)程和微調(diào)訓(xùn)練,發(fā)揮了SSL模型強(qiáng)大的學(xué)習(xí)能力,增強(qiáng)了數(shù)據(jù)的效率,節(jié)約了數(shù)據(jù)標(biāo)記的人工成本,實(shí)現(xiàn)了少樣本的混凝土抗壓強(qiáng)度預(yù)測(cè),驗(yàn)證了模型的魯棒性、方法的有效性。值得一提的是,SSL模型已經(jīng)在圖像識(shí)別和自然語(yǔ)言處理等領(lǐng)域取得成功,但預(yù)測(cè)材料屬性似乎是一項(xiàng)更復(fù)雜的任務(wù)。我們?cè)O(shè)想,基于這個(gè)廣義的材料屬性表征模型,開(kāi)展不同領(lǐng)域的材料知識(shí)研究,結(jié)合更加有效的深度學(xué)習(xí)模型實(shí)現(xiàn)更好的性能,為給定的材料尋找合適的表征方法。如此,SSL模型有望作為一種新穎而強(qiáng)大的材料屬性表征工具,以減少材料實(shí)驗(yàn)的需求。
詳情請(qǐng)參閱原文:https://authors.elsevier.com/a/1ft7K3In-uvRRG
END
來(lái)源于多樣化結(jié)構(gòu)實(shí)驗(yàn)室VSL
排版 | 李嘉晨
審核 | 胡? ?楠
