淺談什么是材料數(shù)據(jù)機器學(xué)習(xí)的特征
11月份MatCloud+順利開展了【催化領(lǐng)域的材料計算和機器學(xué)習(xí)公開課】,在第三節(jié)課時,對于機器學(xué)習(xí)在催化領(lǐng)域的研究大家很感興趣,有同學(xué)提問:什么是材料數(shù)據(jù)的特征?應(yīng)該如何選擇等問題,今天小編就針對以上問題做了些簡單的整理分享給大家,快來一起看看吧。
機器學(xué)習(xí)的流程包含以下幾部分:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、特征值工程、訓(xùn)練模型、性質(zhì)預(yù)測。

其中,特征工程是基于領(lǐng)域知識設(shè)計感興趣系統(tǒng)的數(shù)字指紋的過程。
構(gòu)建機器學(xué)習(xí)模型時,識別全面和合適的特征是最重要和最具挑戰(zhàn)性的步驟,因為它與模型的準(zhǔn)確性有非常重要的關(guān)系。因此,將機器學(xué)習(xí)應(yīng)用于的催化研究中時,從數(shù)百種材料特性中選擇催化反應(yīng)描述符作為模型特征至關(guān)重要。
一、特征值的選擇標(biāo)準(zhǔn)記歷史
一般,可以采用幾種方法來選擇合適的特征作為模型的輸入數(shù)據(jù):
特征應(yīng)該可以單獨代表化學(xué)系統(tǒng)的原子和電子結(jié)構(gòu)的一個方面;
特征需要包括一些能夠有效描述活性位點的局部化學(xué)環(huán)境的描述符;
特征應(yīng)該通過很少的 DFT 計算或可以直接從可用的數(shù)據(jù)庫查詢中獲得,以提高機器學(xué)習(xí)方法的效率;
它們應(yīng)該在物理上應(yīng)該是直觀的,以保證模型的準(zhǔn)確性。
二、催化領(lǐng)域如何選擇特征值
基于以上方法,來自 DFT 計算或材料數(shù)據(jù)庫的特征或描述符可以分為以下三類:

原子特征:例如原子序數(shù) (AN)、原子半徑 (r)、相對原子質(zhì)量 (M) 和鍵長 (L);
電子特征:例如d 軌道和 p 軌道的電子數(shù) (edp)、d 帶中心 (?d)、氧化物形成焓 (Hf,ox)、泡利電負(fù)性 (Nm)、電子親和勢 (χ) 和第一電離能 (Im)原子;
系統(tǒng)特征:例如系統(tǒng)中某一部分的電荷轉(zhuǎn)移 (Q)、吸收能 (ΔG) 和有效配位數(shù) (N)。
單個原子或化學(xué)系統(tǒng)的單個部分的這些單獨特征可以組合成許多其他特征。
三、特征值是否有意義
以上是關(guān)于將機器學(xué)習(xí)用于催化研究領(lǐng)域時選擇特征值的一些建議,除此之外我們還需要選擇有意義的特征輸入機器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練。

通常來說,從兩個方面考慮來選擇特征:
特征是否發(fā)散:不發(fā)散的特征其方差更接近于0,即說樣本在此特征上幾乎無差異,因而這個特征對于樣本的區(qū)分也無效。
特征與目標(biāo)的相關(guān)性:與目標(biāo)相關(guān)性高的特征,應(yīng)當(dāng)優(yōu)選選擇。
四、特征值的數(shù)量
除了特征值的選擇,特征的數(shù)量也很重要,因為特征太少的模型通常會過度簡化變量之間的關(guān)系(擬合不足),而特征太多的模型在預(yù)測時通常表現(xiàn)出很大的高可變性(過度擬合)。并且值得注意的是,在材料數(shù)據(jù)集上訓(xùn)練的機器學(xué)習(xí)模型通常適用于類似系統(tǒng),但在其他材料系統(tǒng)中表現(xiàn)較差,這提醒我們在特征工程中要多加考慮。這里就涉及到了材料數(shù)據(jù)特征提取和特征篩選的問題,我們今后會給大家陸續(xù)介紹。

今天我們?yōu)楹唵蔚亟榻B了下什么是材料數(shù)據(jù)機器學(xué)習(xí)的特征,后期還會發(fā)布更多關(guān)于計算模擬和機器學(xué)習(xí)的各種干貨,如果您想了解更多請持續(xù)關(guān)注我們。