Page 211 - 《软件学报》2021年第12期
P. 211
陈景霞 等:基于混合神经网络的脑电时空特征情感分类 3875
由 4 个卷积层与一个全连接层组成的 CNN 网络中,并转换成具有空间特征向量的序列 Q j , where Q j =[Z t ,Z t+1 ,…,
l
s×l
Z t+s−1 ]∈R .其中,Z k (k=t,t+1,…,t+s−1):Z k =CNN 2D (Y k ),Z k ∈R 是一个包含 l 个元素的经过 CNN 学习后的一维空间
特征向量.将 Q j 整合成形如 s×l 的矩阵后,再次使用 CNN(为区别于前文 CNN,下将该网络称作 CNNII)网络提取
原始 EEG 的进阶空间特征.式中 s 表示向量序列的长度,l 表示每个序列所包含的元素个数.CNNII 由两个卷积
层、两个池化层、一个全连接层组成,两个池化层分别连接在两个卷积层后,将经过第 2 个池化层池化过的数
据进行向量化处理后,接入一个神经元数为 512的全连接层,最终在全连接后接入 Softmax层,产生最终每一类情
感的概率预测值.两个卷积层分别采用 32 和 64 个 3×3 大小的卷积核进行有填充的卷积操作.两个池化层都采
用 2×2 大小且步长为 2 的 Maxpooling 过滤器对卷积结果进行下采样处理.卷积层和全连接层采用 ReLu 激活函
数以及 Adam 优化器,学习率取 0.000 1.
原始 EEG 记录经由 Cas-CNN-RNN 模型处理的过程可以描述为 Input(s×n)−Trans(s×h×w)−Conv(s×h×w×
16)−Conv(s×h×w×32)−Conv(s×h×w×64)−Conv(s×h×w×128)−FC(l)−Cat(b)−Trans(s×h×w)−Conv(s×h×w×32)−
Pooling(max,2)−Conv(s×h×w×64)−Pooling(max,2)−FC(l)-softmax(k).其中,Input(s×n)表示分段大小为 s 且包含 n
个通道数据的一维原始 EEG 记录序列,Trans(s×h×w)表示将一维 EEG 记录序列转换为长度为 s 大小为 h×w 的
网状矩阵序列,Conv(s×h×w×m)表示一个卷积层从一个网状矩阵学习得到 m 个特征映射,Cat(b)表示将 b 个向量
按时间顺序连接,Pool(max,2)表示使用步长为 2,核为 2×2 的最大池化层,FC(l)表示具有 l 个神经元的全连接层,
Softmax(k)表示用于预测 k 个情感类别的 softmax 层.
2 实验及结果分析
首先介绍实验采用的 DEAP 数据集及 EEG 数据预处理与特征提取的方法,然后在效价维度上进行被试内
两类情感的分类实验,以 BT,SVM 浅层分类器以及深度 CNN 模型在 1 秒 EEG 片段上的分类性能为基准,同 Cas-
CNN-RNN 和 Cas-CNN-CNN 模型的分类性能进行比较与分析.同时,通过对比实验研究了时空信息对 EEG 情
感分类性能的影响.
2.1 数据集
本文基于公开的大规模 EEG 情感数据集 DEAP [21] 验证所提出的级联和并行深度卷积循环神经网络模型
的有效性.该数据集是由伦敦玛丽皇后大学的相关研究团队开发的包含 EEG 等多种生理信号的大规模开源数
据集,它记录了 32 个被试者观看 40 个时长约为 1 分钟的、带有不同情感倾向的音乐视频所诱发的脑电、心电、
肌电等生理信号,之后,被试对所观看的视频在唤醒度、效价、喜好、优势度和熟悉度方面,使用 1~9 的连续数
值进行评价,评价值由小到大分别表示各项指标由负到正或由弱到强.40 个刺激视频中包含 20 个高效价/唤醒
度刺激和 20 个低效价/唤醒度刺激.本文取其中 32 通道的 EEG 信号,采样频率降至 128Hz.为了消除直流噪声、
电源噪声和其他伪迹,使用 4Hz~45Hz 的带通滤波器进行数据过滤,再采用盲源分离技术去除了眼电干扰,得到
总时长为 63s 的 EEG 信号,包括观看视频的 60s 和观看前静息态的 3s.
2.2 数据预处理与特征提取
本文提取了每个视频诱发的 60s 的 EEG 序列做进一步分析.为了校正与刺激无关的信号随时间的变化,将
观看视频之前 3s 的 EEG 信号作为基线,从 60s 实验信号中去除基线,得到刺激相关的序列变化.以 1s 为窗长对
每个序列进行不重叠分段,每次实验得到 60 个片段,则每个被试 40 次实验的 EEG 片段(也称样本)总数为
40×60=2400 个,每个片段包含 128 个采样点(即窗口大小为 128),每个采样点包含 32 个 EEG 通道的数据,简称
RAW 特征,其维度大小表示为 2400×128×32.实验观察发现,使用大于或小于 128 的窗口分段都会降低组合模型
的性能,这也许与人类大脑情感活动的周期长度有关.再对分段以后的 EEG 数据按通道进行归一化,得到每个被
试时域上的 NORM 特征.
神经科学和心理学的研究表明,EEG 信号在 delta(1Hz~4Hz),theta(4Hz~8Hz),alpha(8Hz~13Hz),beta(13Hz~
30Hz)和 gamma(30Hz 以上)这 5 个频段上包含大量与情绪等心理活动密切相关的节律信息 [22] .作者之前的研