最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

(論文加源碼)基于deap數(shù)據(jù)集的transformer結(jié)合注意力機制腦電情緒識別

2023-08-03 09:53 作者:腦電情緒識別  | 我要投稿

?本篇論文是2021年新發(fā)表的一篇論文。也是目前有源碼的論文中唯一一篇使用transformer模型和注意力機制的論文源碼(pytorch和tensorflow版本均有)

論文及源碼見個人主頁:

(論文加源碼)基于deap數(shù)據(jù)集的transformer結(jié)合注意力機制腦電情緒識別(13條消息) (論文加源碼)基于deap數(shù)據(jù)集的transformer結(jié)合注意力機制腦電情緒識別-深度學習文檔類資源-CSDN文庫

摘要:

? ? ? ?對人類進行準確的情緒評估可以證明在醫(yī)療保健、安全調(diào)查和人際交往中是有益的?;诿娌勘砬榈那榫w識別被證明是不準確的,而腦電圖(EEG)活動的分析更準確地反映了一個人的精神狀態(tài)。隨著深度學習的進步,各種方法正在被用于這項任務。在本研究中,通過兩種基于transformer的基于情緒的腦電信號分類方法,介紹了注意力機制在腦電信號中的重要性。第一種方法利用通過原始EEG信號的連續(xù)小波變換(CWT)生成的2-D圖像,而第二種方法直接對原始信號進行操作。本研究使用了公開可用且被廣泛接受的DEAP數(shù)據(jù)集來驗證所提出的方法。所提出的方法報告了使用CWT的97%和95.75%的非常高的準確率,以及使用原始信號的99.4%和99.1%的準確率用于效價和喚醒分類,這清楚地突出了注意力機制對EEG信號的重要性。所提出的方法還確保了更快的訓練和測試時間,以適應臨床目的。

I.引文

? ? ? ?情感是人類的本質(zhì),可以與思想、決策能力和認知過程聯(lián)系在一起。因此,對情緒狀態(tài)的研究可以增強當前的腦機接口(BCI)系統(tǒng),該系統(tǒng)可以進一步應用于各種應用,如自閉癥譜系障礙(ASD)、注意力缺陷多動障礙(ADHD)和焦慮癥等疾病的治療[1]。由于這些重要的應用,情緒狀態(tài)的識別和分析已成為醫(yī)學、神經(jīng)科學、認知科學和大腦驅(qū)動的人工智能領域的一個重要研究領域。已經(jīng)開發(fā)了幾種用于情緒識別的方法,包括使用生理信號和非生理信號。非生理信號包括面部表情、語音信號、身體姿勢,而生理信號包括腦電圖、心電圖信號等等。使用非生理信號相對容易,不需要任何特殊設備,但個人可以偽造此類信號,因此不被視為一個人情緒狀態(tài)的真實反映。相比之下,生理信號超出了一個人的控制范圍,因此更適合于給定的任務[7]。

? ? ? ?過去已經(jīng)進行了各種研究,專門通過生理信號處理情緒識別,如[2-9]所述。使用Naive Bayes分類器的功率譜密度(PSD)特征的算法[2,3],使用本體論模型的PSD和統(tǒng)計特征[4],使用支持向量機分類器的基于深度置信網(wǎng)絡(DBN)的特征[5],使用神經(jīng)網(wǎng)絡(NN)的功率譜和統(tǒng)計特征[6],使用SoftMax作為分類器的LP-1D-CNN模型提取的特征[7],以深度神經(jīng)網(wǎng)絡和稀疏自動編碼器架構(gòu)作為分類器[8]的Pearson相關系數(shù)特征,以及直接與MMResLSTM一起使用作為分類器[9]的原始EEG 1D時間信號是其中的一些。在大多數(shù)方法[2-9]中,情緒狀態(tài)被理想地離散為許多狀態(tài),如喜悅、恐懼、憤怒、幸福、驚訝等,被廣泛地分為兩個基本的有意義的維度:效價和喚醒[18]。效價維度決定了情緒的積極或消極影響,喚醒維度決定了它的強度,如圖1所示:


?? ? ? ?然而,必須記住,像情緒識別這樣的任務發(fā)生在幾秒鐘內(nèi),而不是發(fā)生在幾毫秒內(nèi)的即時反應。由于幾秒鐘的時間對EEG來說是一個重要的數(shù)據(jù)量,因此在短暫的一段時間內(nèi)發(fā)生的脈沖之間可能存在聯(lián)系。在這種情況下,如果用于情緒分類的模型也考慮了很久以前發(fā)生的事件,那就太好了。卷積神經(jīng)網(wǎng)絡(CNN)和長短期存儲器(LSTM)等架構(gòu)可能無法考慮這種長期依賴性。CNN是由內(nèi)核大小和各自的步長決定的局部網(wǎng)絡,而LSTM由于遺忘因素而不具有良好的記憶保持能力[10,11]。另一方面,在不受序列中遠距離約束的情況下對相關性進行建模的能力基本上是變壓器網(wǎng)絡中注意力機制的核心[12,13]?;谧宰⒁鈾C制的Transformer[10]因此在自然語言處理(NLP)中被廣泛接受。在高水平上,該模型遍歷每個向量,其中自注意力機制使其能夠查看輸入序列的其他部分,這有助于更好地編碼向量。transformer?網(wǎng)絡是這些注意力層的堆棧,具有一些殘差連接。transformer?有能力在記憶極限范圍內(nèi)保留盡可能多的信息,并在過去發(fā)生的事情和現(xiàn)在發(fā)生的事情之間建立關系。LSTM和CNN以相對位置進行建模,而變換器依賴于輸入的絕對位置表示(位置嵌入和它是置換不變的)[10,11]。

? ? ? ?在這項研究中,一種名為Vision Transformer視覺轉(zhuǎn)換器(ViT)[11]的?transformer變體專門為圖像制作,已適用于腦電圖中的情緒檢測。選擇ViT的原因是使用由小波變換生成的時頻圖像,該圖像考慮了頻率的局部變化。然而,與時頻圖像相比,將ViT直接應用于原始EEG信號在準確性上有了顯著的提高,這從結(jié)果中可以明顯看出。這清楚地表明了兩個方面:1)注意機制對EEG信號的重要性;2)需要適當?shù)木幋a方案。據(jù)我們所知,這是首次嘗試將ViT用于EEG信號分析,也是首次嘗試識別EEG信號中注意力的重要性。ViT簡單設置的最大優(yōu)勢之一是它們具有可擴展性和高效性。

二、提議的方法

? ? ? ?在本節(jié)中,詳細解釋了針對CWT圖像和原始EEG信號提出的ViT方法。

A.模型體系結(jié)構(gòu)

? ? ? ?ViT[11]的架構(gòu)與vanilla ? transformer?[10]的架構(gòu)非常相似。NLP轉(zhuǎn)換器具有令牌嵌入,這意味著它接收具有已知字典大小的1D輸入作為輸入。然而,對于如在ViT的情況下的2D輸入,圖像被劃分為用作標記的平坦的2D固定大小圖像塊的序列。因此,大小的圖像?? ∈???×??×?? 分為大小不等的補丁序列?? ∈???×(??2 ×??) 哪里?? = ????/??2和?? 是選定的修補程序大小。最后,在將獲得的補丁傳遞到vanilla ? transformer?之前,它通過如(1)[11]中所述的可訓練線性投影層,以獲得最終的補丁嵌入(z0)。ViT使用這些補丁嵌入,因此在NLP轉(zhuǎn)換器中沒有特定vocab的約束。


?? ? ? ?類似于來自Transformers(BERT)[14]架構(gòu)的雙向編碼器表示,在補丁嵌入之前準備了可學習的類令牌嵌入。位置嵌入(E pos)也被添加到這些補丁嵌入中,用于引入序列中標記的位置信息。變換器模型包含交替層的多頭自注意(MSA)和MLP(2層具有高斯誤差線性單元(GELU)非線性)塊(如(2)、(3)所示),每個塊之前有一個層歸一化(LN),并且每個塊之后有剩余連接[15,16]。

B.特征提取

? ? ? ?在所提出的基于ViT的EEG分類器網(wǎng)絡中,ViT的輸入數(shù)據(jù)以兩種方式考慮,即原始EEG信號和通過CWT生成的圖像。所提出的方法的體系結(jié)構(gòu)如圖2a和2b所示。小波變換由于其壓縮和時頻定位能力,在腦電中的應用非常受歡迎[17]。所使用的母小波的選擇是基于其與時間信號的兼容性的一個重要方面。正如[17]中所研究的,EEG信號與近對稱和正交的母小波(如sym24、db4、coif5)最兼容。在這項研究工作中,db4和coif5母小波被用于生成要被用作ViT的輸入的圖像。作為消融的一部分,已經(jīng)嘗試了其他壓縮表示的實驗,如自動編碼器[8],而不是基于CWT的圖像,但結(jié)果并不令人鼓舞。


三、 結(jié)果和分析

? ? ? ?在本節(jié)中,介紹了用于分析所提出方法的數(shù)據(jù)集的細節(jié)以及分析結(jié)果。

A.數(shù)據(jù)集描述

? ? ? ?所提出的方法在廣泛使用的DEAP[2]數(shù)據(jù)集上得到了驗證。在這個數(shù)據(jù)集中,記錄了32名參與者的腦電圖和外周生理信號。該數(shù)據(jù)集中的每個參與者觀看了40個一分鐘的音樂視頻,同時他們的腦電圖記錄以512 Hz的采樣率進行,32個通道隨后被下采樣到128 Hz,并帶通濾波到4–45 Hz。每個視頻都由參與者主要根據(jù)效價、喚醒度、喜歡度和主導度進行評分,評分范圍為1-9。使用DEAP數(shù)據(jù)集,可以通過等分標簽來提取許多類。在擬議的工作中,采用了效價和喚醒的兩個類別標簽。

B.訓練

? ? ? ?隨著情緒等反應在幾秒鐘的時間內(nèi)發(fā)展,每個視頻的60秒記錄被分別分解為不重疊的較小n大小的樣本(n=6、15、20、30秒),因此將視頻分解為這些大小將有助于我們正確地關注每種情緒的發(fā)展。將具有所有32個通道的上述大小樣本的數(shù)據(jù)集輸入到ViT模型,并通過以下兩種方式進行訓練,如圖2所示。

? ? ? ?? 通過CWT生成的圖像:使用48個尺度的CWT并使用db4和coif5母小波對n尺寸32通道樣本進行變換。作為48尺度CWT的一部分生成的尺度圖圖像隨后被饋送到ViT,在ViT中應用形狀為[補丁大小,補丁大小]的補丁嵌入。平坦的補丁通過可訓練的線性投影層被映射到D維(如(1)所示)?,F(xiàn)在,在從可訓練線性投影層接收到的輸出中預加一個類標記。最后,將位置嵌入添加到補丁嵌入中,并將其傳輸?shù)睫D(zhuǎn)換器編碼器。

? ? ? ?? 原始EEG信號:在這種情況下,原始32通道EEG信號(使用4–45 Hz帶通濾波器作為DEAP數(shù)據(jù)集的一部分進行預處理)直接發(fā)送到ViT,而不是任何變換或編碼,如圖2b所示。由于原始EEG信號是1D時間信號,因此以[1,補丁大小]的形狀應用補丁嵌入。此外,在這種情況下,由于面片已經(jīng)被展平,因此它們被直接映射到具有可訓練線性投影的D維。類似地,類標記被預先添加到它,然后添加位置嵌入,最后傳輸?shù)睫D(zhuǎn)換器編碼器。

? ? ? ?在CWT圖像和基于原始EEG信號的模型中,變壓器編碼器的輸出都通過MLP頭層,在那里它被映射到類的數(shù)量。然后應用SoftMax層和ArgMax層以獲得具有最大概率的類。使用嵌入尺寸為512的6層變壓器和用于MSA的8個頭進行訓練。與NLP中的同類產(chǎn)品相比,該轉(zhuǎn)換器的大小和內(nèi)存使用量小了2-3倍,這導致了更快的訓練和測試時間[11]。在這項工作中,實現(xiàn)是在Python 3.7.10和TensorFlow 2.5.0上完成的。學習率設置為0.00001。

C.結(jié)果

? ? ? ?如第III.A節(jié)所述,為了驗證所提出方法的有效性,在公開的DEAP數(shù)據(jù)集上進行了實驗[2]。數(shù)據(jù)集被劃分,使得80%的數(shù)據(jù)進入訓練集,剩余的20%進入測試集。


? ? ? ??通過CWT生成的圖像:通過CWT產(chǎn)生的圖像結(jié)果見表I和表II。如圖所示,由6秒大小的樣本形成的標度圖表現(xiàn)明顯好于15秒、20秒和30秒大小的樣品。這清楚地表明了EEG信號的顯著局部化行為以及可以獲取EEG的局部化區(qū)域進行進一步處理的模型的重要性。

? ? ? ??原始腦電圖信號:原始腦電圖信號實驗的結(jié)果如表III所示。在這種情況下,如圖所示,6秒和15秒大小的樣本的表現(xiàn)明顯好于20秒和30秒大小的樣品。更重要的是,在比較表I、表II和表III時,很明顯,基于原始EEG信號的方法出人意料地比基于CWT的方法執(zhí)行得好得多。這可能歸因于這樣一個事實,即EEG信號是隨機的,情緒內(nèi)容是局部的,在使用變壓器[11]等注意力方法的情況下,不需要(或需要仔細應用)EEG信號的轉(zhuǎn)換。作為未來研究的一部分,將對此進行詳細分析。


? ? ? ?還將所提出的方法與文獻中大多數(shù)公認的方法進行了全面比較,結(jié)果如表IV所示。從表IV可以看出,所提出的基于ViT的方法優(yōu)于文獻中記錄的所有最近相關的最先進的研究。通過ViT獲得良好結(jié)果的主要原因可以歸因于基于注意力的機制。通過基于多頭注意力的機制,該模型能夠以比CNN和LSTM或手工制作的機器學習算法更好、更快的方式捕捉和記住情緒隨時間的發(fā)展,這項工作中提出的結(jié)果與大多數(shù)已建立的通過EEG信號進行情緒分類的研究工作所報告的觀察結(jié)果一致,即較小尺寸的樣本比較長尺寸的樣本表現(xiàn)更好。

四、 結(jié)論

? ? ? ?在本文中,我們研究了兩個實驗裝置,即通過CWT生成的圖像和使用視覺變換器(ViT)進行基于EEG的情緒識別的原始信號。ViT在公開可用的DEAP數(shù)據(jù)集中產(chǎn)生了良好的結(jié)果,在通過Coif5母小波的CWT實驗形成的圖像中,效價和喚醒的準確率分別為97%和95.75%。另一方面,在原始腦電圖信號實驗中,效價和喚醒的準確率分別為99.4%和99.1%,從而優(yōu)于現(xiàn)有的最先進的方法。ViT卓越性能的主要原因之一是基于注意力的機制,因此它能夠捕獲和保留比傳統(tǒng)的cnn和LSTM更多的相關信息。進行的兩項實驗也證實,較小尺寸的樣本更適合捕捉情緒,因為它們比其他樣本產(chǎn)生更高的分類精度。此外,對于類似的任務,ViT在計算上比其他神經(jīng)網(wǎng)絡更快,這使得它們更適合實時分析任務。未來的工作涉及對作為ViT輸入的各種壓縮/編碼方案的徹底比較,以及識別最具影響力的EEG通道的方法,并量化導致最高注意力分數(shù)的時間段的影響,特別是在原始EEG信號實驗中。

論文及源碼見個人主頁:

(論文加源碼)基于deap數(shù)據(jù)集的transformer結(jié)合注意力機制腦電情緒識別(13條消息) (論文加源碼)基于deap數(shù)據(jù)集的transformer結(jié)合注意力機制腦電情緒識別-深度學習文檔類資源-CSDN文庫



(論文加源碼)基于deap數(shù)據(jù)集的transformer結(jié)合注意力機制腦電情緒識別的評論 (共 條)

分享到微博請遵守國家法律
维西| 桃园县| 都兰县| 肇州县| 农安县| 台北市| 武冈市| 浑源县| 临沧市| 尚志市| 沈丘县| 错那县| 久治县| 宁河县| 平顺县| 德江县| 阳春市| 璧山县| 汝阳县| 红河县| 重庆市| 渑池县| 天全县| 名山县| 吕梁市| 德江县| 长治县| 同德县| 方山县| 茶陵县| 齐齐哈尔市| 庐江县| 吴江市| 遂宁市| 星座| 温州市| 永胜县| 洛扎县| 阜阳市| 高要市| 嘉义县|