基于機(jī)器學(xué)習(xí)的水體化學(xué)需氧量高光譜反演模型對比研究-萊森光學(xué)
引言
化學(xué)需氧量(COD)是以化學(xué)方法測量水樣中需要被氧化的還原性物質(zhì)的量。水樣在一定條件下的COD以氧化1升水樣中還原性物質(zhì)縮小化的氧化劑的量為指標(biāo),折算成每升水樣全部被氧化后,需要的氧的毫克數(shù),以mg·L-1來表示。COD測試可以很容易地量化水中有機(jī)物的含量。COD最常見的應(yīng)用是量化地表水(如湖泊和河流)或廢水中可氧化污染物的量,在水質(zhì)監(jiān)測中起到了巨大的作用。傳統(tǒng)的有重鉻酸鹽滴定法和分光光度法等方法,電化學(xué)方法和流動(dòng)注射分析法用于COD檢測,但這些檢測方法都存在檢測周期較長?消耗試劑等缺點(diǎn),對水體的批量檢測也難以實(shí)現(xiàn)。
而利用高光譜技術(shù)和機(jī)器學(xué)習(xí)手段對水質(zhì)參數(shù)進(jìn)行反演近期已成為國內(nèi)外熱點(diǎn)研究問題。高光譜技術(shù)能夠獲得物體連續(xù)的光譜信息,近年來逐步應(yīng)用于水農(nóng)產(chǎn)品檢測?生植被和水資源調(diào)控等領(lǐng)域。在水質(zhì)參數(shù)高光譜反演建模中,國內(nèi)外學(xué)者采取機(jī)器學(xué)習(xí)方法對不同水質(zhì)參數(shù)進(jìn)行建模,如總氮?總磷?水質(zhì)濁度?一般懸浮物?化學(xué)需氧量等,并取得了一定成果。

實(shí)驗(yàn)部分
2.1 預(yù)處理
高光譜數(shù)據(jù)通常包含由相機(jī)或儀器產(chǎn)生的隨機(jī)噪聲和光譜變化。光譜預(yù)處理可以減少或消除數(shù)據(jù)中與自身性質(zhì)無關(guān)的信息,降低模型的復(fù)雜性,提高數(shù)據(jù)和模型的可解釋性(魯棒性和準(zhǔn)確性)。光譜數(shù)據(jù)的預(yù)處理在進(jìn)行多變量分析之前是必不可少的。SG平滑能夠使光譜曲線平滑,MSC方法能夠消除基線漂移和平移現(xiàn)象。采用SG平滑?MSC以及SG平滑結(jié)合MSC光譜預(yù)處理手段對原始光譜進(jìn)行預(yù)處理并進(jìn)行比較。
2.2 特征波段提取
高光譜波段由大量的波段組成,有些波段的相關(guān)性較高而且存在冗余以及噪聲等。對特征波段的提取在一定程度上可以規(guī)避這兩種情況。
2.3 反演模型
選取線性回歸?隨機(jī)森林?AdaBoost?XGBoost四種機(jī)器學(xué)習(xí)建模方法。線性回歸是一種確定兩個(gè)或多個(gè)變量間相互依賴定量關(guān)系的機(jī)器學(xué)習(xí)方法;隨機(jī)森林算法是決策樹的集成,通過平均決策樹可以大大降低過擬合的風(fēng)險(xiǎn),是比單一決策樹性能更優(yōu)的模型;Adaboost是將弱學(xué)習(xí)器結(jié)合創(chuàng)造一個(gè)強(qiáng)學(xué)習(xí)器的機(jī)器學(xué)習(xí)方法;XGBoost是一種改進(jìn)的梯度提升迭代決策樹(GBDT)算法。
2.4 模型評估
采取RMSE,R2和RPD三個(gè)指標(biāo)對反演模型進(jìn)行對比和評價(jià)。


結(jié)果與討論
3.1 原始光譜及數(shù)值統(tǒng)計(jì)分析
圖1為樣本水體的原始光譜曲線,水體在550~600nm的反射率較高,在700~750nm的反射率較低。從圖中可以看出每個(gè)水體樣本曲線的變化趨勢類似,沒有呈現(xiàn)較大的差異,而且難以直接通過光譜曲線對其COD含量進(jìn)行判斷。水體樣本的COD值統(tǒng)計(jì)結(jié)果如表1所示。

圖1 水體樣本原始光譜反射率曲線
表1 COD含量描述統(tǒng)計(jì)分析

圖 2 土壤樣本去包絡(luò)的反射率
3.2 光譜預(yù)處理結(jié)果
使用三種光譜預(yù)處理方法對原始光譜進(jìn)行預(yù)處理,預(yù)處理后的光譜分布如圖3(a,b,c)所示。經(jīng)過光譜預(yù)處理后,高光譜的數(shù)據(jù)質(zhì)量得到了一定改善,但還是無法直觀的從光譜曲線上判斷水體的COD含量,因此還需要通過機(jī)器學(xué)習(xí)方法對其建模進(jìn)行分析。

圖3 水體樣本預(yù)處理后的光譜分布
3.3 反演模型
對原始光譜數(shù)據(jù)和三種不同的預(yù)處理方法分別使用四種機(jī)器學(xué)習(xí)模型建模。模型的反演精度與建模的訓(xùn)練時(shí)間如表2—表5所示。由表2—表5中數(shù)據(jù)可以看到,XGBoost在原始光譜以及三種經(jīng)過預(yù)處理數(shù)據(jù)上的建模精度均優(yōu)于其他模型,且訓(xùn)練時(shí)間小于隨機(jī)森林模型以及Adaboost模型。線性回歸所建的反演模型表現(xiàn)較差,說明COD與光譜數(shù)據(jù)并沒有直接的線性關(guān)系。在所有的模型中,通過XGBooost對經(jīng)過SG平滑和MSC處理的數(shù)據(jù)所建的反演模型精度最高,其中R2為0.92,RMSE為7.1mg·L-1,RPD為3.4。通過不同預(yù)處理方式所得的XGBoost反演模型散點(diǎn)圖如圖4(a—d)所示。


圖4 不同預(yù)處理方法下XGBoost反演模型COD預(yù)測值與實(shí)測值關(guān)系散點(diǎn)圖
結(jié)論
在實(shí)際生產(chǎn)過程中可根據(jù)實(shí)際需求,綜合考慮模型精度?模型訓(xùn)練時(shí)間等因素進(jìn)行模型的選擇。研究結(jié)果表明,基于機(jī)器學(xué)習(xí)的高光譜COD反演模型精度可以達(dá)到較高水平,為機(jī)器學(xué)習(xí)在高光譜水質(zhì)監(jiān)測領(lǐng)域的應(yīng)用提供了參考。此外,機(jī)器學(xué)習(xí)模型可解釋性需要進(jìn)一步研究。
歡迎關(guān)注公眾號:萊森光學(xué),了解更多光譜知識。
萊森光學(xué)(深圳)有限公司是一家提供光機(jī)電一體化集成解決方案的高科技公司,我們專注于光譜傳感和光電應(yīng)用系統(tǒng)的研發(fā)、生產(chǎn)和銷售。