Page 212 - 《软件学报》2021年第12期
P. 212

3876                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         究 [19] 也发现,EEG 信号在 4Hz~45Hz 频带上的功率谱密度(power spectral  density,简称 PSD)特征在 2D-CNN 网
         络上的分类性能明显优于时域上的 RAW 特征和 NORM 特征.这也许是因为 PSD 频域特征的提取需要在较大
         连续采样周期内进行,而情感脑电任务也是一种相对长时的大脑活动,所以频域特征能够捕获更多情感相关的
         大脑动态.因此,本文在 NORM 特征基础上,在 4Hz~45Hz 频带上,利用快速傅立叶算法,在 1s 的 EEG 片段的每个
         通道上使用 0.5s 的 Hamming 窗无重叠地滑动提取 64 个 PSD 特征,每个被试 40 次实验,共提取 PSD 特征的维
         度是 2400×64×32.
             接下来处理每个 EEG 样本的标签,基于被试对每个视频在 1~9 范围内的评价值,以中位数 5 作为阈值,将效
         价和唤醒度上的评价值划分为两类:在某个维度上解决 2 分类问题时,大于 5 代表高类或正性指标,用 1 表示;小
         于或等于 5 代表低类或负性指标,用 0 表示.再对数据和标签做均衡化处理,使两类中每一类 EEG 数据和标签数
         量相同.
             接着,根据 DEAP 数据集的脑电电极分布,按照公式(1)将每个 EEG 样本的一维链式向量序列转换成大小为
         9×9 的二维网状矩阵序列.转换以后,EEG 样本包含了丰富的空间、时间与频域上的信息,数据和标签的维度见
         表 1.然后,使用每个被试的所有 EEG 样本构建被试内交叉验证集,即:每次随机从 2 类各取 80%的 EEG 数据和
         标签来训练模型,其余 20%的样本来验证训练模型,以此方法为每个被试构建 40 重交叉验证数据集.
                       Table 1    Formats of segmented 1D and 2D EEG data and labelsof each subject
                             表 1   每个被试分段以后 1D 与 2D 的 EEG 数据及标签格式
                      特征描述       特征类型     窗长              EEG 数据形状             标签形状
                     1D chain-like  RAW/NORM   1-s   2400(epochs)×128(points)×32(channels)×1  2400×1
                     1D chain-like  PSD    1-s   2400(epochs)×64(points)×32(channels)×1  2400×1
                     2D mesh-like  RAW/NORM   1-s   2400(epochs)×128(points)×9(width)×9(height)  2400×1
                     2D mesh-like  PSD     1-s   2400(epochs)×64(points)×9(width)×9(height)  2400×1

         2.3   基准模型
             接下来简要介绍 EEG 情感识别方面目前比较先进的方法和基准模型,所有这些模型都基于与本文相同的
         数据集 DEAP.
             •   Alhagry 等人 [16] 采用一种基于 LSTM 长短时记忆结构的深度循环神经网络,在 DEAP 数据集的唤醒/
                效价/喜欢这个维度上进行了被试内两类情感分类,3 个维度上二分类的平均分类准确率分别达到了
                85.65%,85.45%和 87.99%;
             •   本文作者在文献[19]中提出的使用浅层机器学习模型 BT(BaggingTree)对 DEAP 数据集 EEG 信号的
                PSD 特征在效价上和唤醒度上进行被试内两类情感分类的准确率分别达到了 86.31%和 86.18%;
             •   Salama 等人 [18] 采用一种三维卷积神经网络(3D-CNN),针对多通道脑电图数据进行情感识别,在效价和
                唤醒度上的被试内两类情感识别准确率分别为 87.44%和 88.49%;
             •   本文作者也曾采用深度 2D-CNN 模型,基于 DEAP 数据集 EEG 的时域与频域组合特征,端对端自学习
                这些特征的高层抽象表示,在效价和唤醒度上进行被试内两类情感识别的准确率分别达到了 88.53%
                和 86.67% [19] .
             除了上述最新的方法外,为了增加实验结果的可信度,本文作者对文献[17]中提出的 2D-CNN 模型加以改
         进,输入将时频组合特征变为分段的链式 PSD 特征,深度学习网络的结构以及超参数配置则同 Casc_CNN_CNN
         中的第 2 个 CNN 一致,都是两组卷积池化层后接一个具有 512 个神经元的全连接层和一个 Softmax 输出层.其
         中,两个卷积层分别采用 3×3 大小的 32 和 64 个卷积核进行有填充的卷积操作,池化层依然采用步长为 2 的 2×2
         大小的过滤器对卷积结果进行降维处理.
             为了深入探究混合模型与单一模型在分类性能上的优劣,本文还设计了用于对比实验的 BiLSTM(64)模型.
         该模型也采用分段的链式 PSD 特征作为输入,网络结构同 Casc_CNN_LSTM 中的 LSTM 网络一致,采用双向
         LSTM 单元进行时域特征提取.其中,正向(顺序)、逆向(倒序)LSTM 单元的隐单元个数(隐状态长度)均为 64.将
   207   208   209   210   211   212   213   214   215   216   217