(論文加源碼)基于DEAP和MABHOB數(shù)據(jù)集的二分類腦電情緒識(shí)別(pytorch深度神經(jīng)網(wǎng)絡(luò)(
?該論文發(fā)表于2021年的頂級(jí)期刊。(pytorch框架)
代碼解析部分在個(gè)人主頁:
論文和源碼見個(gè)人主頁:
目錄
該論文發(fā)表于2021年的頂級(jí)期刊。(pytorch框架)
摘要
1 簡(jiǎn)介
2 相關(guān)工作
2.1 相關(guān)作品的再現(xiàn)性
3 數(shù)據(jù)集
3.1 DEAP
3.2 MAHNOB
3.3 數(shù)據(jù)集預(yù)處理
3.3.1 DEAP預(yù)處理
3.3.2 MAHNOB預(yù)處理
3.3.3 預(yù)處理數(shù)據(jù)集摘要
4 模型
4.1深度神經(jīng)網(wǎng)絡(luò)(DNN)
4.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
5 結(jié)果分析
5.1 數(shù)據(jù)集之間的結(jié)果分析
5.2 比較模型的統(tǒng)計(jì)測(cè)試
5.2.1? McNemar’s試驗(yàn)
5.2.2 5x2cv配對(duì)t試驗(yàn)
5.3 Arousa分類結(jié)果
6 結(jié)論
摘要
????????隨著記錄腦電圖(EEG)信號(hào)的設(shè)備變得越來越便宜,人們對(duì)使用EEG數(shù)據(jù)預(yù)測(cè)人類情感狀態(tài)的應(yīng)用越來越感興趣。然而,該領(lǐng)域的研究論文往往存在再現(xiàn)性差的問題[1],并且報(bào)告的結(jié)果相當(dāng)脆弱,缺乏統(tǒng)計(jì)意義,并且通常基于對(duì)單個(gè)數(shù)據(jù)集的測(cè)試。
????????因此,本文的目的:通過統(tǒng)計(jì)實(shí)驗(yàn)對(duì)獲得的模型進(jìn)行測(cè)試,以比較不同的模型和數(shù)據(jù)集。
????????在考慮的兩個(gè)模型中,深度神經(jīng)網(wǎng)絡(luò)(DNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),第一個(gè)能夠在特定的訓(xùn)練集上達(dá)到最大精度,但CNN被證明平均優(yōu)于DNN。使用相同的模型,還發(fā)現(xiàn)DEAP比MAHNOB實(shí)現(xiàn)了更高的精度,但只是在很小的程度上,這表明這些模型足夠穩(wěn)健,可以在兩個(gè)數(shù)據(jù)集上幾乎同等好地執(zhí)行。
????????密切遵循[2]中提出的從腦電圖中進(jìn)行價(jià)態(tài)喚醒分類的方法,以嘗試重現(xiàn)其中報(bào)告的結(jié)果。為了達(dá)到第二個(gè)目標(biāo),然后使用McNemar和5x2cv測(cè)試,以及在兩個(gè)不同的數(shù)據(jù)集DEAP[3]和MAHNOB[4]上對(duì)模型進(jìn)行相互比較,目的是了解一個(gè)模型是否可以在兩個(gè)相同但相關(guān)的數(shù)據(jù)集上執(zhí)行類似的操作。
1 簡(jiǎn)介
????????很長(zhǎng)一段時(shí)間以來,由于相機(jī)和麥克風(fēng)等傳感器的成本低廉,情緒識(shí)別大多基于視頻或音頻記錄。然而,隨著技術(shù)的進(jìn)步,建立相對(duì)低成本的傳感器來捕捉生理信號(hào)也是可能的,因此在情感計(jì)算社區(qū)中,最近對(duì)使用這種數(shù)據(jù)的興趣明顯增加。腦電圖(EEG)信號(hào)也不例外。
????????與此并行的是,深度學(xué)習(xí)技術(shù)的使用量也大幅增加,因此最近的許多學(xué)術(shù)研究都集中在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)從腦電圖中識(shí)別情緒上,這也就不足為奇了。此外,由于已知EEG數(shù)據(jù)是一個(gè)難以理解的復(fù)雜信號(hào),深度神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征的能力聽起來很有希望。
????????該領(lǐng)域最近的研究證實(shí)了這一假設(shè),結(jié)果表明深度神經(jīng)模型優(yōu)于傳統(tǒng)技術(shù)。然而,許多這樣的研究已經(jīng)證明自己很難甚至不可能復(fù)制,并且依賴于單個(gè)數(shù)據(jù)集來測(cè)試他們的模型。一些研究,如[1],報(bào)告了關(guān)于這個(gè)問題的驚人數(shù)據(jù):平均而言,腦電深度學(xué)習(xí)的研究沒有公開使用的數(shù)據(jù)集(50%的時(shí)間)或模型的代碼(90%),再現(xiàn)性的困難通常很難做到(90%)。
????????本研究的第一個(gè)目標(biāo)是重現(xiàn)步驟,并獲得與[2]中報(bào)道的具有類似性能的預(yù)測(cè)因子。在這項(xiàng)研究中,訓(xùn)練了兩個(gè)神經(jīng)網(wǎng)絡(luò)模型,即簡(jiǎn)單的深度神經(jīng)網(wǎng)絡(luò)(DNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),以從EEG數(shù)據(jù)中對(duì)情緒進(jìn)行分類。所使用的數(shù)據(jù)集是DEAP[3],它是情感計(jì)算應(yīng)用程序的著名基準(zhǔn)數(shù)據(jù)庫。這項(xiàng)研究的重點(diǎn)是根據(jù)羅素提出的效價(jià)和喚醒這兩個(gè)連續(xù)維度來預(yù)測(cè)情緒狀態(tài)。特別是,重點(diǎn)是效價(jià)和喚醒的二元和三類分類,而在本研究中只考慮了二元分類。
????????盡管嚴(yán)格遵循了[2]中描述的所有步驟,但我們的模型精度遠(yuǎn)未達(dá)到報(bào)告的精度,這導(dǎo)致了他們的論文中省略了一些數(shù)據(jù)預(yù)處理步驟的結(jié)論。
????????本研究的另一個(gè)目的是對(duì)不同的模型(特別是DNN和CNN)進(jìn)行統(tǒng)計(jì)比較,以了解兩者之間是否存在顯著差異。此外,這些模型已經(jīng)在兩個(gè)用效價(jià)喚醒標(biāo)簽注釋的EEG數(shù)據(jù)集上進(jìn)行了測(cè)試,即DEAP和MAHNOB,以找出相同的架構(gòu)是否可以在這兩個(gè)領(lǐng)域都很好地工作。
????????結(jié)果表明,在DEAP上訓(xùn)練和評(píng)估的模型往往比在MAHNOB上訓(xùn)練和評(píng)價(jià)的模型表現(xiàn)更好,盡管這可能是因?yàn)閮蓚€(gè)數(shù)據(jù)集之間的大小不同。一般來說,已經(jīng)發(fā)現(xiàn)這兩種模型在DEAP和MAHNOB上也能夠以相似的性能執(zhí)行。
????????還使用McNemar檢驗(yàn)和5x2cv配對(duì)t檢驗(yàn),在兩個(gè)數(shù)據(jù)集上對(duì)DNN和CNN模型進(jìn)行了比較。正如[5]所指出的,之所以選擇這些測(cè)試,是因?yàn)樗鼈兊腎型誤差很低,統(tǒng)計(jì)能力也不錯(cuò),而且它們是當(dāng)今事實(shí)上的標(biāo)準(zhǔn)。雖然McNemar的測(cè)試無法發(fā)現(xiàn)模型之間的任何顯著差異,但5x2cv測(cè)試更強(qiáng)大,能夠表明CNN模型在統(tǒng)計(jì)上優(yōu)于DNN模型。
????????本報(bào)告的結(jié)構(gòu)如下。第2節(jié)總結(jié)了[2]的預(yù)處理步驟、方法和結(jié)果,還討論了我們能夠復(fù)制多少論文。第3節(jié)描述了數(shù)據(jù)集和應(yīng)用于每一個(gè)數(shù)據(jù)集的預(yù)處理步驟,而第4節(jié)詳細(xì)介紹了所使用的神經(jīng)架構(gòu)、相對(duì)超參數(shù)和訓(xùn)練過程。然后,第5節(jié)包含了結(jié)果摘要和統(tǒng)計(jì)測(cè)試,用于模型和數(shù)據(jù)集之間的比較。最后,第6節(jié)詳細(xì)闡述了關(guān)于擬議目標(biāo)的研究結(jié)果。該報(bào)告由一個(gè)小附錄完成,可作為參考,輕松瀏覽所提供的模型和實(shí)驗(yàn)的源代碼。
2 相關(guān)工作
????????激發(fā)這項(xiàng)研究的論文是[2],由Tripathi等人于2017年發(fā)表。作者使用簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型從腦電圖數(shù)據(jù)中預(yù)測(cè)效價(jià)和喚醒。預(yù)測(cè)效價(jià)喚醒的問題被定義為一個(gè)分類問題,特別是他們測(cè)試了二類和三類分類。對(duì)于二元分類,低于5的價(jià)態(tài)喚醒值被認(rèn)為是低激活,而高于5的值則被認(rèn)為是高激活。
????????所使用的數(shù)據(jù)來自DEAP數(shù)據(jù)集的預(yù)處理版本[6]。然后,為了使用合理的計(jì)算資源進(jìn)行訓(xùn)練,他們對(duì)數(shù)據(jù)集進(jìn)行了處理,以降低腦電數(shù)據(jù)的維度,將每個(gè)腦電試驗(yàn)分為多個(gè)批次,并使用平均值、標(biāo)準(zhǔn)差、最小值、最大值等統(tǒng)計(jì)值對(duì)每個(gè)批次進(jìn)行匯總。
????????所使用的兩個(gè)模型是基本的深度神經(jīng)網(wǎng)絡(luò)。第一種是簡(jiǎn)單的4層神經(jīng)網(wǎng)絡(luò),由全連接層組成,另一種是具有2個(gè)卷積層、一個(gè)最大池化層和2個(gè)全連接層的卷積神經(jīng)網(wǎng)絡(luò)。
????????然后,本文報(bào)告了DNN和CNN使用不同的超參數(shù)配置通過32倍交叉驗(yàn)證獲得的結(jié)果。DNN模型在效價(jià)和喚醒方面的準(zhǔn)確率分別達(dá)到75.8%和73.1%,而CNN模型的準(zhǔn)確率達(dá)到了令人印象深刻的81.4%和73.4%。
2.1 相關(guān)作品的再現(xiàn)性
????????本節(jié)討論了我們能夠從[2]中復(fù)制的內(nèi)容。由于再現(xiàn)的結(jié)果并不令人滿意,因此對(duì)預(yù)處理程序、模型架構(gòu)和超參數(shù)進(jìn)行了一些更改。出于這個(gè)原因,本節(jié)被放在第3節(jié)和第4節(jié)之前,這兩節(jié)描述了用于本研究的最終數(shù)據(jù)集預(yù)處理步驟和模型
????????盡管該研究的代碼和數(shù)據(jù)尚未公開,但復(fù)制相同的預(yù)處理步驟和模型并不是一個(gè)挑戰(zhàn),因?yàn)閿?shù)據(jù)處理很簡(jiǎn)單,神經(jīng)模型也很基本。然而,經(jīng)過訓(xùn)練的預(yù)測(cè)因子無法從腦電圖數(shù)據(jù)中學(xué)習(xí):模型要么擬合不足,要么擬合過度,但他們沒有發(fā)現(xiàn)一般的模式。
????????如第3節(jié)所述,通過標(biāo)準(zhǔn)化數(shù)據(jù)集,模型能夠從數(shù)據(jù)中學(xué)習(xí)一些模式,從而緩解了這個(gè)問題。[2]中沒有明確引用標(biāo)準(zhǔn)化步驟,但這是一個(gè)常見的步驟,可以聲稱這是一種隱含的步驟。
????????然而,即使在標(biāo)準(zhǔn)化之后,所得模型的準(zhǔn)確度也遠(yuǎn)未達(dá)到[2]中所述的準(zhǔn)確度,在某些訓(xùn)練/測(cè)試拆分中達(dá)到了80%的最大值,但平均準(zhǔn)確度約為60%,而復(fù)制研究的平均準(zhǔn)確度為75%。第5.1節(jié)中報(bào)告的結(jié)果,盡管它們基于略微不同的超參數(shù)選擇和模型架構(gòu),但與通過精確復(fù)制論文獲得的結(jié)果幾乎相同,因此它們可以用作將預(yù)期精度與實(shí)際獲得精度進(jìn)行比較的指標(biāo)。
????????由于訓(xùn)練過程和模型架構(gòu)與其他領(lǐng)域中使用的標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)沒有什么不同,因此問題可能依賴于數(shù)據(jù)。已經(jīng)嘗試了不同類型的標(biāo)準(zhǔn)化(每個(gè)通道、每個(gè)試驗(yàn)、每個(gè)參與者、全局;在降維之后或之前),但沒有獲得準(zhǔn)確性的提高。因此,[2]的作者很可能使用了DEAP的自定義預(yù)處理版本,盡管他們從未明確提到執(zhí)行了其他預(yù)處理過程。
????????在無法再現(xiàn)[2]的結(jié)果后,做出了一些與該研究不同的選擇:例如,只使用32個(gè)EEG通道,而不是全部40個(gè)也包含其他生理信號(hào)的通道,以便在DEAP和MAHNOB中具有完全相同的一組特征。模型架構(gòu)和超參數(shù)也進(jìn)行了輕微修改。數(shù)據(jù)集和模型的詳細(xì)描述可以在第3節(jié)和第4節(jié)中找到。
3 數(shù)據(jù)集
????????本研究選擇了DEAP和MAHNOB數(shù)據(jù)集,因?yàn)樗鼈兌及珽EG數(shù)據(jù)和效價(jià)喚醒注釋。Valence和喚醒注釋基于Russels量表,該量表在情感計(jì)算中被廣泛使用。使用Russels的效價(jià)喚醒量表,每個(gè)情緒狀態(tài)都是2D平面上的一個(gè)點(diǎn),效價(jià)和喚醒分別是橫軸和縱軸(見圖1)。因此,效價(jià)和喚醒的結(jié)合會(huì)產(chǎn)生一種特定的情緒。特別是,效價(jià)可以在令人不快和愉快之間變化,喚醒可以在不活躍或活躍之間變化。

3.1 DEAP
????????DEAP[3]是2014年發(fā)布的一個(gè)用于情緒分析的數(shù)據(jù)集。它是情感計(jì)算領(lǐng)域最大的公開數(shù)據(jù)集之一,還包含各種不同的生理和視頻信號(hào)。
DEAP數(shù)據(jù)集由兩部分組成:
????????1) 一個(gè)由120個(gè)一分鐘音樂視頻組成的數(shù)據(jù)庫,每一個(gè)視頻由14-16名志愿者根據(jù)效價(jià)、喚醒度和主導(dǎo)度進(jìn)行評(píng)分。
????????2) 40個(gè)以上音樂視頻的子集,每個(gè)視頻具有32個(gè)參與者中每個(gè)參與者的相應(yīng)EEG和生理信號(hào)。與第一部分一樣,每個(gè)視頻都是根據(jù)效價(jià)、喚醒和支配維度進(jìn)行評(píng)分的。
????????為了本報(bào)告的目的,只使用了DEAP數(shù)據(jù)集的第二部分,其中包含EEG信號(hào)。
????????腦電信號(hào)是使用Biosemi ActiveTwo設(shè)備收集的,該設(shè)備記錄了32個(gè)具有可配置采樣率的腦電通道。DEAP是在512Hz下收集的,但數(shù)據(jù)集的創(chuàng)建者也提供了EEG信號(hào)的預(yù)處理版本,下采樣到128Hz,并應(yīng)用了頻率濾波器和其他有用的預(yù)處理步驟。
????????特別地,對(duì)于32個(gè)參與者中的每一個(gè),存在以下預(yù)處理的信息:
?????????數(shù)據(jù):一個(gè)40 x 40 x 8064的陣列,包含40個(gè)頻道中每個(gè)頻道和40個(gè)音樂視頻中每個(gè)頻道的8064個(gè)錄音。每個(gè)視頻每個(gè)頻道有8064個(gè)錄音,因?yàn)樵囼?yàn)時(shí)間為63秒(3秒預(yù)審基線+60秒試驗(yàn)),采樣率為128Hz(63 x 128=8064)。
?????????標(biāo)簽:一個(gè)40 x 4的數(shù)組,包含40個(gè)音樂視頻中每個(gè)視頻的效價(jià)、喚醒、支配和鏈接的注釋。
????????這些經(jīng)過預(yù)處理的信息又被再次處理,如第3.3節(jié)所述。
3.2 MAHNOB
????????MAHNOB[4]是2012年發(fā)布的情感識(shí)別數(shù)據(jù)集。它是一個(gè)多模式數(shù)據(jù)集,提供音頻、視頻和生理信號(hào),以及眼睛凝視數(shù)據(jù)。所有的數(shù)據(jù)都是關(guān)于效價(jià)和喚醒情感維度的同步和注釋。已經(jīng)進(jìn)行了四種不同類型的實(shí)驗(yàn):1)在第一種類型的實(shí)驗(yàn)中,向參與者展示了一段視頻,參與者必須注釋他們對(duì)視頻刺激的效價(jià)和喚醒水平。2) 在其他三種類型的實(shí)驗(yàn)中,在屏幕底部放置了一個(gè)標(biāo)簽:該標(biāo)簽可能與放映的電影有關(guān),也不可能與之有關(guān)。在這種情況下,參與者被要求對(duì)標(biāo)簽與視頻的相關(guān)性進(jìn)行評(píng)分。為了這份報(bào)告,只使用了第一類實(shí)驗(yàn)的數(shù)據(jù)。使用用于收集DEAP數(shù)據(jù)集的相同設(shè)備Biosemi ActiveTwo記錄了EEG信號(hào)。因此,EEG信號(hào)也有32個(gè)通道,但MAHNOB是在256Hz而不是512Hz下采集的。與DEAP相反,MAHNOB不提供數(shù)據(jù)集的預(yù)處理版本,而是提供原始收集的文件,這些文件是EEG信號(hào)的.bdf格式。為了處理這些數(shù)據(jù),有必要執(zhí)行比DEAP更多的預(yù)處理步驟,如第3.3節(jié)所述。
3.3 數(shù)據(jù)集預(yù)處理
????????DEAP和MAHNOB的數(shù)據(jù)都經(jīng)過了預(yù)處理。以下兩小節(jié)詳細(xì)解釋了應(yīng)用于這兩個(gè)數(shù)據(jù)集的預(yù)處理步驟。
3.3.1 DEAP預(yù)處理
????????數(shù)據(jù)維度已經(jīng)降低。40個(gè)通道已被削減至32個(gè),僅保留EEG信號(hào),每個(gè)通道的8064個(gè)讀數(shù)已減少至99個(gè)值。
????????為了執(zhí)行[2]所做的后一種處理,8064份記錄被分為10批,每組約807份讀數(shù)。然后,對(duì)每個(gè)批次提取以下統(tǒng)計(jì)值:平均值、中位數(shù)、最大值、最小值、標(biāo)準(zhǔn)差、方差、范圍、偏度和峰度,每個(gè)批次產(chǎn)生9個(gè)值(10個(gè)批次產(chǎn)生90個(gè)值)。然后,對(duì)于整個(gè)8064讀數(shù)計(jì)算相同的值,對(duì)于總共99個(gè)值產(chǎn)生9個(gè)附加值。
????????然后,使用以下公式,在示例的基礎(chǔ)上對(duì)這些匯總值進(jìn)行標(biāo)準(zhǔn)化,得到0的平均值和1的標(biāo)準(zhǔn)偏差:

????????其中X是整個(gè)32x99示例,X i,j是第i個(gè)通道的第j個(gè)讀數(shù)的值.
3.3.2 MAHNOB預(yù)處理
????????該數(shù)據(jù)集提供.bdf格式的原始腦電圖數(shù)據(jù),這些數(shù)據(jù)是用Biosemi ActiveTwo設(shè)備收集的。由于這些數(shù)據(jù)沒有經(jīng)過預(yù)處理,因此必須做一些額外的工作。為了處理原始EEG信號(hào),已經(jīng)使用了專門用于處理和可視化人類神經(jīng)生理學(xué)數(shù)據(jù)的MNE Python庫[8].
????????如[6]所述,在DEAP數(shù)據(jù)集的官方預(yù)處理版本上應(yīng)用了相同的預(yù)處理步驟。特別是,EEG信號(hào)被參考到通道“Cz”,這是一個(gè)常見的參考通道,甚至在Biosemi常見問題解答[9]中也有建議。應(yīng)用了4-45Hz帶通濾波器,但實(shí)際效果較差,因此將其移除。此外,由于MAHNOB不提供每個(gè)會(huì)話固定數(shù)量的記錄,并且還包含實(shí)驗(yàn)前后30秒的記錄,因此從試驗(yàn)中期提取了所需的記錄。
????????然后,應(yīng)用了與DEAP相同的預(yù)處理步驟(在第3.3.1節(jié)中解釋),只做了一個(gè)小的調(diào)整:考慮了16128(8064 x 2)讀數(shù),而不是8064,預(yù)處理批次大小也增加了一倍,因?yàn)镸AHNOB數(shù)據(jù)集提供了以256Hz收集的原始數(shù)據(jù),而DEAP提供了128Hz下采樣版本的數(shù)據(jù)。通過這種方式,批次所覆蓋的時(shí)間窗口對(duì)于兩個(gè)數(shù)據(jù)集是相同的。
3.3.3 預(yù)處理數(shù)據(jù)集摘要
????????在前幾節(jié)中解釋的預(yù)處理步驟之后,兩個(gè)數(shù)據(jù)集都包含具有相同形狀的數(shù)據(jù),如表1所示。

?表1:預(yù)處理步驟后的數(shù)據(jù)集大小和數(shù)據(jù)形狀。數(shù)據(jù)包含32個(gè)通道,每個(gè)通道有99個(gè)記錄,而標(biāo)簽包含2個(gè)值(效價(jià)和喚醒)
????????執(zhí)行這些處理步驟的腳本在項(xiàng)目的存儲(chǔ)庫中分別以prepare deap.py和prepare mahnob.py的名稱提供。
????????這兩個(gè)數(shù)據(jù)集都被分為訓(xùn)練集和測(cè)試集,DEAP和MAHNOB的分割比分別為(1180,100)和(460,86)。不幸的是,原始MAHNOB數(shù)據(jù)集包含1183個(gè)會(huì)話,但其中只有546個(gè)會(huì)話被標(biāo)注了效價(jià)和喚醒,從而產(chǎn)生了一個(gè)對(duì)于當(dāng)前用例來說相當(dāng)小的數(shù)據(jù)集.
4 模型
????????本研究采用了兩種不同的神經(jīng)網(wǎng)絡(luò)架構(gòu):具有完全連接層的深度神經(jīng)網(wǎng)絡(luò)(DNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),它們?nèi)∽訹2],只做了一些小的修改。這兩個(gè)模型都是使用Python和PyTorch[10]開發(fā)的,源代碼可以在scripts/nn/models.py中找到。
????????以下小節(jié)詳細(xì)解釋了這些模型中的每一個(gè)以及訓(xùn)練技術(shù)。
4.1深度神經(jīng)網(wǎng)絡(luò)(DNN)
????????DNN模型是一個(gè)具有3個(gè)隱藏層的深度神經(jīng)網(wǎng)絡(luò)。該體系結(jié)構(gòu)的近似圖形方案如圖2所示,而每一層的確切細(xì)節(jié)如表2所示。

圖2:DNN架構(gòu)。所描繪的神經(jīng)元的數(shù)量?jī)H用于表示,每層下方都報(bào)告了神經(jīng)元的真實(shí)數(shù)量。

表2:深度神經(jīng)網(wǎng)絡(luò)(DNN)架構(gòu)
????????ReLU激活函數(shù)在每個(gè)密集層(除了最后一層)之后使用,以將非線性引入模型,而sigmoid函數(shù)在最后一層之后應(yīng)用,以將輸出壓縮到區(qū)間[0,1]。由于在本文中,效價(jià)/喚醒分類被視為一個(gè)二元分類問題(低或高),[0,1]中的值的單個(gè)輸出神經(jīng)元表示網(wǎng)絡(luò)推斷的輸入信號(hào)指高價(jià)值/喚醒情緒狀態(tài)的概率。
????????為了避免過度擬合,由于可用于訓(xùn)練的數(shù)據(jù)量很小,因此大量使用了dropout技術(shù)。
????????網(wǎng)絡(luò)的所有權(quán)重都用Xavier正態(tài)方法[11]初始化,而所有偏差都用值0初始化。
????????表3中報(bào)告了用于訓(xùn)練的超參數(shù)、優(yōu)化器和損失函數(shù)。這兩個(gè)數(shù)據(jù)集之間略有不同.

表3:超參數(shù)、損失函數(shù)、DNN訓(xùn)練程序的優(yōu)化器。BCE = Binary ?Cross ?Entropy;RMSProp = Root Mean Squared Propagation(均方根)。
4.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

????????CNN模型利用卷積層,將數(shù)據(jù)視為形狀為32 x 99的二維輸入。圖3描述了體系結(jié)構(gòu),表4詳細(xì)描述了每一層。

????????簡(jiǎn)而言之,該模型由兩個(gè)卷積層組成,然后是最大池化層,最后是兩個(gè)完全連接的層。卷積層將輸入視為2D圖像,通過卷積操作應(yīng)用3x3濾波器。這種類型的層主要用于涉及圖像的任務(wù)中。最大池化層用于減少數(shù)據(jù)的空間維度,在圖像上滑動(dòng)一個(gè)2x2的窗口,該窗口被減少到一個(gè)值:具有最高激活的神經(jīng)元的值。最大池化減少了圖像的空間維度,從而減少了最終完全連接層中所需的參數(shù)數(shù)量,并有助于網(wǎng)絡(luò)避免過度擬合。
????????與DNN模型一樣,CNN權(quán)重使用Xavier的正常技術(shù)進(jìn)行初始化,偏差設(shè)置為0。
????????表5中報(bào)告了用于訓(xùn)練的超參數(shù)、優(yōu)化器和損失函數(shù)。這兩個(gè)數(shù)據(jù)集之間略有不同。

表5:CNN訓(xùn)練過程中的超參數(shù)、損失函數(shù)、優(yōu)化器。BCE = Binary Cross Entropy(二元交叉); SGD = Stochastic Gradient Descent.(隨機(jī)梯度下降)
5 結(jié)果分析
????????本節(jié)分為多個(gè)小節(jié)。
????????第5.1節(jié)側(cè)重于將獲得的結(jié)果與再現(xiàn)研究[2]的預(yù)期結(jié)果進(jìn)行比較,以及DEAP和MAHNOB模型性能之間的差異。
????????另一方面,第5.2節(jié)描述了為了將DNN和CNN模型相互比較而進(jìn)行的統(tǒng)計(jì)測(cè)試,目的是發(fā)現(xiàn)這兩個(gè)模型之間是否存在顯著差異。
????????最后,第5.3節(jié)專門介紹了喚醒分類模型的性能。
5.1 數(shù)據(jù)集之間的結(jié)果分析
????????評(píng)估模型的第一種方式是最簡(jiǎn)單的一種。如第3.3節(jié)所述,每個(gè)數(shù)據(jù)集被分為兩個(gè)子集:訓(xùn)練部分和測(cè)試部分。對(duì)于這個(gè)實(shí)驗(yàn),模型已經(jīng)在數(shù)據(jù)集的訓(xùn)練部分上進(jìn)行了訓(xùn)練,并在相應(yīng)數(shù)據(jù)集的測(cè)試集上進(jìn)行了測(cè)試。
????????二元價(jià)態(tài)分類的結(jié)果可以在表6中找到。這些特定的結(jié)果指的是在訓(xùn)練過程中獲得的最佳模型。

表6: DNN和CNN模型在DEAP和MAHNOB數(shù)據(jù)集上進(jìn)行價(jià)值分類的結(jié)果。置信區(qū)間指的是95%的顯著性水平,是通過將測(cè)試集評(píng)價(jià)的二項(xiàng)分布近似為高斯分布來計(jì)算的。腳本 confidence-intervals.py 包含用于計(jì)算的代碼。
????????從這些結(jié)果來看,通常情況下,模型在DEAP上的表現(xiàn)要好于MAHNOB。MAHNOB無疑是造成這種情況的一個(gè)因素
????????數(shù)據(jù)集的例子數(shù)量不到DEAP的一半,這使得模型更難訓(xùn)練,也更容易過度擬合。從表6可以看出,DNN模型在兩個(gè)數(shù)據(jù)集上似乎都優(yōu)于CNN模型,但在DEAP上尤其如此;無論如何,這種非正式的觀察在第5.2節(jié)中受到了質(zhì)疑,該節(jié)對(duì)這兩個(gè)模型進(jìn)行了統(tǒng)計(jì)比較。
????????還使用K折疊交叉驗(yàn)證對(duì)模型進(jìn)行了評(píng)估。對(duì)于這種技術(shù),數(shù)據(jù)集被劃分為相同大小的K個(gè)折疊(如果可能的話),然后,依次將每個(gè)折疊用作測(cè)試集,而數(shù)據(jù)集的其余部分用作訓(xùn)練集。因此,對(duì)K個(gè)模型進(jìn)行訓(xùn)練并評(píng)估其準(zhǔn)確性,因此K次交叉驗(yàn)證的最終報(bào)告準(zhǔn)確性是這些準(zhǔn)確性的平均值。
????????DEAP的32倍交叉驗(yàn)證和MAHNOB的6倍交叉驗(yàn)證結(jié)果如表7所示。

表7:DEAP和MAHNOB上DNN和CNN的K倍交叉驗(yàn)證結(jié)果。DEAP運(yùn)行使用了32次折疊,而MAHNOB運(yùn)行使用了6次折疊。復(fù)制這個(gè)實(shí)驗(yàn)的腳本可以在名稱kfold cross-validation.py下找到。
????????使用K-fold交叉驗(yàn)證發(fā)現(xiàn)的準(zhǔn)確性遠(yuǎn)低于使用固定訓(xùn)練/測(cè)試分割發(fā)現(xiàn)的準(zhǔn)確性。因此,可以說,模型存在高方差誤差,即其性能與特定的訓(xùn)練和提供給它們的測(cè)試集高度相關(guān)。對(duì)于表6的結(jié)果,在數(shù)據(jù)集上操作的訓(xùn)練/測(cè)試分割很可能是“幸運(yùn)”的分割,偶然產(chǎn)生了高精度。
????????在K折疊交叉驗(yàn)證過程中獲得的特定折疊精度也證實(shí)了高方差猜想。例如,在DEAP上DNN模型的K-fold運(yùn)行中,fold準(zhǔn)確率從43%到78%不等,這表明不同的數(shù)據(jù)集分割如何從根本上改變準(zhǔn)確率結(jié)果。MAHNOB也觀察到了同樣的行為,盡管程度不那么極端。
????????DEAP的K倍結(jié)果可以與[2]中報(bào)道的結(jié)果進(jìn)行比較,因?yàn)樵撗芯窟€使用了32倍交叉驗(yàn)證作為評(píng)估技術(shù)。DNN和CNN的準(zhǔn)確率分別為75%和81%,而我們的準(zhǔn)確率為58%和59%。準(zhǔn)確性上的差距是巨大的,盡管本研究中使用的數(shù)據(jù)集和模型與[2]中的不同,但使用[2]中相同的精確數(shù)據(jù)預(yù)處理步驟和模型架構(gòu),已經(jīng)獲得了與表7中的結(jié)果非常相似的結(jié)果,如第2.1節(jié)所述
????????K-fold結(jié)果也證實(shí)了之前的結(jié)果,即兩個(gè)模型在DEAP上的表現(xiàn)都比MAHNOB好。另一個(gè)有趣的觀察結(jié)果是,CNN模型在兩個(gè)數(shù)據(jù)集上都略優(yōu)于DNN模型,而當(dāng)在單個(gè)訓(xùn)練/測(cè)試分割上進(jìn)行評(píng)估時(shí),DNN模型能夠達(dá)到更高的最大精度。
5.2 比較模型的統(tǒng)計(jì)測(cè)試
????????為了簡(jiǎn)單起見,所有的統(tǒng)計(jì)測(cè)試都是對(duì)價(jià)態(tài)預(yù)測(cè)模型進(jìn)行的。然而,根據(jù)第5.3節(jié)的結(jié)果,我們認(rèn)為喚醒模型的統(tǒng)計(jì)測(cè)試結(jié)果相似
5.2.1? McNemar’s試驗(yàn)
????????采用McNemar檢驗(yàn)是為了檢驗(yàn)DNN和CNN模型的性能之間是否存在統(tǒng)計(jì)學(xué)上的顯著差異。為了進(jìn)行該測(cè)試,使用了表6中報(bào)告結(jié)果的預(yù)測(cè)因子,即在DEAP和MAHNOB的默認(rèn)訓(xùn)練/測(cè)試分割上訓(xùn)練的預(yù)測(cè)因子。本節(jié)中介紹的重現(xiàn)McNemar測(cè)試的腳本是McNemar-test.py McNemar的測(cè)試工作如下[5]:要比較的預(yù)測(cè)因子,在這種情況下是f DNN和f CNN,根據(jù)測(cè)試集進(jìn)行評(píng)估,同時(shí)構(gòu)建以下列聯(lián)表:

????????其中n 00是測(cè)試集中被兩個(gè)預(yù)測(cè)器錯(cuò)誤分類的樣本數(shù)量,n 01是被f DNN錯(cuò)誤分類但沒有被f CNN錯(cuò)誤分類的樣品數(shù)量,n 10是被f CNN但沒有被fDNN錯(cuò)誤歸類的樣品數(shù)量和n 11是被兩個(gè)預(yù)測(cè)因子正確分類的樣品數(shù)量。因此,n00+n01+n10+n11等于測(cè)試集中的示例數(shù)。
????????McNemar檢驗(yàn)的零假設(shè)是,兩個(gè)預(yù)測(cè)因子具有相同的錯(cuò)誤率,即n 01=n 10。該測(cè)試使用擬合良好的卡方檢驗(yàn)將n01和n10的預(yù)期計(jì)數(shù)與實(shí)際獲得的計(jì)數(shù)進(jìn)行比較。
????????在實(shí)踐中,以下McNemar檢驗(yàn)統(tǒng)計(jì)量大于

,概率小于5%:

????????因此,在這種情況下,零假設(shè)可以被自信地拒絕,即這兩個(gè)預(yù)測(cè)因子在所選擇的訓(xùn)練集和測(cè)試集上具有顯著不同的性能。
????????使用在DEAP上訓(xùn)練的DNN和CNN模型獲得的接觸表如下:

????????并且得到的統(tǒng)計(jì)量是0.487,這不足以自信地拒絕零假設(shè)。因此,盡管如第5節(jié)所述,DNN和CNN預(yù)測(cè)因子具有不同的性能,但McNemar檢驗(yàn)表明我們應(yīng)該接受零假設(shè),即這兩個(gè)預(yù)測(cè)因子沒有顯著不同的性能。
????????對(duì)于MAHNOB的預(yù)測(cè)因素,已獲得以下列聯(lián)表:

????????即使不進(jìn)行任何計(jì)算,也可以看出n01和n10幾乎相同,因此,在這種情況下,也可以說,根據(jù)McNemar的測(cè)試,這兩個(gè)預(yù)測(cè)因子具有基本相同的性能。
5.2.2 5x2cv配對(duì)t試驗(yàn)
????????雖然McNemar的測(cè)試是關(guān)于兩個(gè)預(yù)測(cè)器的比較(其中預(yù)測(cè)器被認(rèn)為是運(yùn)行學(xué)習(xí)算法的結(jié)果,即結(jié)果模型),但5x2cv測(cè)試比較了兩個(gè)學(xué)習(xí)算法。因此,為了進(jìn)行這項(xiàng)測(cè)試,沒有必要使用第5節(jié)中給出的預(yù)訓(xùn)練模型,就像McNemar的測(cè)試一樣。
????????5x2cv配對(duì)t檢驗(yàn)是一種基于5次重復(fù)2次交叉驗(yàn)證的統(tǒng)計(jì)檢驗(yàn),旨在發(fā)現(xiàn)兩種學(xué)習(xí)算法之間是否存在顯著的性能差異[5]。該測(cè)試顯示出較低的I型誤差,盡管沒有McNemar的測(cè)試那么低。另一方面,5x2cv測(cè)試的功率高于McNemar的,即當(dāng)差異真正存在時(shí),該測(cè)試更善于檢測(cè)差異。
????????5x2cv測(cè)試的一大缺點(diǎn)是計(jì)算成本很高,是McNemar測(cè)試的十倍。Dieterich在[5]中建議,在計(jì)算上可行的情況下,使用5x2cv而不是McNemar,幸運(yùn)的是,這項(xiàng)研究的數(shù)據(jù)和模型就是這樣。
????????測(cè)試工作如下。進(jìn)行了5次2倍交叉驗(yàn)證的迭代。在每次迭代中,數(shù)據(jù)被劃分為兩個(gè)集合,S1和S2,然后兩個(gè)學(xué)習(xí)算法A和B都首先在S1上訓(xùn)練,然后在S2上測(cè)試,反之亦然。結(jié)果,獲得了四個(gè)誤差估計(jì):

,

,

和

。對(duì)于每個(gè)折疊,估計(jì)的差異可以計(jì)算如下:
=
?-
?和
?=
?-
。那么,估計(jì)方差為:
?= (
?-
)
。由于對(duì)于每次迭代重復(fù)該計(jì)算,因此對(duì)于i=1,......,5,我們得到
.然后,可以如下計(jì)算測(cè)試統(tǒng)計(jì)量:
????????在零假設(shè)下,
遵循具有5個(gè)自由度的t分布。因此,通過將alpha設(shè)置為0.05,如果t>2.571或t<?2.571,則可以拒絕零假設(shè).
????????5x2cv測(cè)試已用于比較DEAP和MAHNOB上的DNN和CNN模型。這些測(cè)試使用了第4.1節(jié)和第4.2節(jié)中報(bào)告的相同架構(gòu)和超參數(shù),除了為了滿足硬件限制而減少到150個(gè)時(shí)期的數(shù)量??梢栽诿Q5x2cv-test.py下找到重現(xiàn)這些結(jié)果的腳本。
????????在DEAP上,得到的統(tǒng)計(jì)數(shù)據(jù)為-2.502,非常接近-2.571,即95%置信度拒絕零假設(shè)的閾值。對(duì)于稍高的阿爾法值,例如0.06,可以拒絕零假設(shè),這意味著兩種比較的學(xué)習(xí)算法之間可能存在統(tǒng)計(jì)學(xué)上顯著的差異。
????????令人驚訝的是,雖然在第5節(jié)表6的結(jié)果中,DNN網(wǎng)絡(luò)能夠達(dá)到比CNN更高的精度,但在這種情況下,DNN和CNN兩個(gè)模型的平均精度分別為54.3%和57.2%,因此CNN模型優(yōu)于DNN。請(qǐng)注意,2倍交叉驗(yàn)證的精度比第5節(jié)中報(bào)告的精度差,因?yàn)樵谶@種情況下訓(xùn)練集要小得多,這可能會(huì)導(dǎo)致過擬合。
????????另一方面,在MAHNOB上,通過測(cè)試計(jì)算的t統(tǒng)計(jì)量為0.306,表明兩個(gè)模型在該數(shù)據(jù)集上的表現(xiàn)相似。
5.3 Arousa分類結(jié)果
????????目前的研究主要集中在效價(jià)分類上,但也進(jìn)行了一些關(guān)于喚醒分類的實(shí)驗(yàn)。具體而言,還對(duì)其進(jìn)行了K折疊交叉驗(yàn)證,得出了表8的結(jié)果。
表8: DNN和CNN在DEAP和MAHNOB上對(duì)喚醒二元分類進(jìn)行K-fold交叉驗(yàn)證的結(jié)果。DEAP運(yùn)行使用了32次折疊,而MAHNOB運(yùn)行使用了6次折疊。
????????這些結(jié)果與價(jià)態(tài)分類的結(jié)果一致,突出表明CNN模型似乎略優(yōu)于DNN模型。它們也與[2]中報(bào)告的結(jié)果一致,因?yàn)樗鼈円诧@示出在價(jià)態(tài)分類方面的準(zhǔn)確性略有下降。
6 結(jié)論
????????在這項(xiàng)工作中,我們首先試圖復(fù)制另一篇論文[2]的結(jié)果,但我們無法做到,因?yàn)槟P偷木冗h(yuǎn)低于復(fù)制論文中報(bào)道的精度。
????????然而,研究發(fā)現(xiàn),兩個(gè)測(cè)試模型都能夠在DEAP和MAHNOB上執(zhí)行類似的操作,這意味著它們已經(jīng)被證明是來自EEG的價(jià)態(tài)喚醒的非常穩(wěn)健的分類器,可能可以在其他基于EEG的數(shù)據(jù)集發(fā)生小到?jīng)]有變化的情況下使用。由于這些結(jié)果是用本研究中描述的基本和通用神經(jīng)網(wǎng)絡(luò)模型獲得的,因此有理由認(rèn)為,更特別和復(fù)雜的神經(jīng)結(jié)構(gòu)可能在EEG的情緒分類方面表現(xiàn)更好。
????????此外,從統(tǒng)計(jì)的角度來看,CNN架構(gòu)比DNN模型要好得多,至少在DEAP上是這樣。這一結(jié)果很重要,因?yàn)榕cDNN架構(gòu)相比,未來的研究可能會(huì)從不同的CNN架構(gòu)的實(shí)驗(yàn)中受益更多。