Page 206 - 《软件学报》2021年第12期
P. 206

3870                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         experiments in valence are carried out on a large scale open DEAP dataset (32 subjects, 9830 400 EEG recordings). The results show that
         the average classification accuracy of the proposed CASC_CNN_LSTM and CASC_CNN_CNN networks on spatiotemporal 2D mesh-
         like EEG sequence reaches 93.15% and 92.37%, respectively, which significantly outperform the baseline models and the state-of-the-art
         methods. It demonstrates that the proposed method effectively improves the accuracy and robustness of EEG emotion classification due to
         its ability of jointly learning deeper spatiotemporal correlated features using hybrid deep neural network.
         Key words:    EEG; emotion recognition; 2Dmesh-like; spatiotemporal feature; convolutional recurrent neural networks; hybrid model


             近年来,随着深度学习、人工智能技术的发展,情感识别已经成为人机交互和情感计算领域一个备受关注
         的研究热点.情感识别是理解一个人所表达的情感类型的过程,开发高效、鲁棒的人类情感识别算法,将对人机
                            [1]
         交互方式产生重大影响 .在人机交互应用程序中引入自动情感识别技术,可以显著提高用户体验的质量,带来
         更多感知情 感的计算机 交互界面 , 并 且可以实现 许多基于情 绪感知、情 绪调节的控 制功能 . 脑电 图
         (electroencephalogram,简称 EEG)是一种非侵入性脑成像技术,依赖于头皮的电极来测量大脑的电生理活动,其
         中包含了大量的生理、心理与病理信息.神经生理学、心理学大量研究发现:人类情感的产生及活动与大脑皮
         层的活动相关度很大,人类不同的认知和情感活动能够诱发产生不同的 EEG 信号,对其进行有效的特征提取与
         分类,可以达到情感脑-机接口控制的目的              [2,3] .与人类的面部表情、语音、心电、核磁等生理信号相比,EEG 信
         号由于其客观性强、不易伪造、采集设备便携、易于操作、成本低等优点,正越来越多地被应用到人类情感的
               [4]
         识别中 .
             脑电图信号的处理与识别具有极大的挑战性.首先,EEG 信号具有很低的信噪比,容易受到多种噪声的干
         扰.例如:敏感的记录设备很容易受到周围环境的干扰,而且肌肉活动、眼球运动或眨眼都可能带来其他不必要
         的噪音;其次,人们往往只对特定大脑活动相关的 EEG 信号感兴趣,但是却很难从背景中将这个信号分离出来.
         虽然 EEG 信号在头皮上空间分辨率较低,但它较高的时间分辨率(毫秒级)可以记录缓慢或快速变化的大脑活
               [5]
         动动态 .因此,为了确定和提取 EEG 信号中与特定大脑活动或情感相关的部分,需要复杂的 EEG 信号分析与处
         理技术,既要考虑 EEG 信号空间的相关性,也要考虑时间上的相关性.
             近年来,深度学习技术由于具有很强的端对端自学习复杂特征表示的能力,避免了大量手工特征提取,在计
         算机视觉、自动语音识别、自然语言处理和生物信息学等领域的识别任务中取得了巨大的成功                                    [6−8] .卷积神经
         网络(convolutional neural  network,简称 CNN)是当前识别图像和视频数据的最佳架构的核心,这主要是因为它
                                                                    [9]
         们能够学习并提取对输入数据的部分平移和变形具有鲁棒性的特征表示 .而循环神经网络(recurrent neural
         network,简称 RNN)和长短时记忆网络(LongShortTerm memory,简称 LSTM)在许多涉及时间序列动力学的应用
                                             [7]
         中表现出了最先进的性能,如文本和语音识别 、信息抽取与语义分析                         [10] 等.此外,文献[11]中,Ng 等人将这两种
         类型的网络相结合用于视频分类,并且取得了较好的效果.
             随着便携式脑电采集技术和设备的出现,大规模脑电数据变得更易获取,CNN,RNN 和 LSTM 等深度学习技
         术也越来越多地应用于脑电图时间序列的分类与识别中.Bashivan 等人                     [12] 针对认知和精神负荷分类实验中采
         集的 EEG 数据,提出了一种深度递归卷积神经网络 R-CNN,从 EEG 序列中学习那些对于时、空、频这 3 个维
         度的变化都不敏感的鲁棒性特征,其分类错误率比他们之前采用的支持向量机和随机森林的错误率降低了
         50%以上.Ryan 等人   [13] 采用基于 LSTM 的深度循环神经网络来解释认知相关脑电信号在时间上依赖性,从而显
         著提高了跨天采集的 EEG 特征的稳定性,其被试内的平均分类准确率达到 93%.Dalin 等人                        [14] 提出了一种深度
         卷积循环神经网络模型,通过有效地学习原始 EEG 数据流时空相关特征表示,来准确地识别人类运动意图,在
         MI-EEG 数据集上取得了 98.3%的被试依赖的分类准确率,其性能均高于其他简单分类器和别的基于深度学习
         的 EEG 分类模型.Lawhern 等人      [15] 提出了一种没有完全连接层的多层纯卷积神经网络的应用,该方法在基于
         P300 的 oddball 识别任务、手指运动任务中运动相关皮层电位识别和运动想象中感官运动节律识别等范式中
         都取得了目前为止最好的性能.上述方法都为基于 EEG 的情感识别提供了有益的参考.
             Alhagry 等人 [16] 提出了一种基于 LSTM 长短时记忆结构的深度循环神经网络,在 DEAP 公开数据集上,唤
         醒/效价/喜欢这 3 个情感维度上依赖于被试的平均分类准确率分别达到 85.65%,85.45%和 87.99%,与传统方法
   201   202   203   204   205   206   207   208   209   210   211