Page 171 - 《软件学报》2025年第5期
P. 171
张文跃 等: 基于高斯混合多层自编码器的情感漂移检测模型 2071
工数据集是按照文献 [44] 的方式生成的数据集, 即 GAUSS 和 CIRCLES. 剩余两类数据集都来自推特, 其中 S140
由非特定事件的推文组成, 另一类数据集的推文内容分别关于一场成功的救援行动和一部知名电视剧. 所有数据
集的详细信息如下.
GAUSS: 突发 (abrupt) 漂移模式, 带有噪声的数据. 正类和负类数据从两个高斯分布中采样而来, 其参数分别
+ + (µ = (3,3),σ = (4,4)) . 每个正 (或负) 数据块由 个时间段 (Period) 组成, 每个时间
−
−
为 (µ = (1,1),σ = (1,1)) 和 10
段包含 50 个二维向量. 来自两个类别的数据块彼此交替, 最终构成一个包含 50 个块 (Block) 的数据集. 如图 5
所示.
Block1 Block2 ··· Block50
··· ··· ···
Period1 Period10 Period11 Period20 Period21
图 5 GAUSS 数据集的结构
CIRCLES: 渐变 (gradual) 漂移模式, 无噪声数据. CIRCLES 数据生成方法遵循已有论文 [44] , 它从均匀分布中
y ∈ [0,1] . 数据有 4 个类别, 它们的类边界均为圆形, 具体见表 2.
采样, 其参数为 x ∈ [0,1.2] 和
表 2 CIRCLES 数据集 4 种类边界描述
圆心 (0.2, 0.5) (0.4, 0.5) (0.6, 0.5) (0.8, 0.5)
半径 0.15 0.2 0.25 0.3
来自 4 个类别的数据相互交替以形成数据块, 其中每个类别有 10 个时间段, 每个时间段由 100 个向量构成.
CIRCLES 数据集共包含 40 个块. 如图 6 所示.
Block1 Block2 Block3 Block4 ··· Block40
··· ··· ··· ··· ···
Period1 Period10 Period11 Period20 Period21 Period30 Period31 Period40 Period41
图 6 CIRCLES 数据集的结构
人工数据涵盖了突变和渐变两种漂移模式, 此外还包含了正态和均匀两种数据分布以及有噪声和无噪声两种
情况. 处理人工数据可以揭示模型在不同场景下的性能. 除了理想场景外, 本文还使用如下实际数据进行验证.
Sentiment 140 (http://help.sentiment140.com/). 带标签的真实世界数据, 简称 S140. 该数据来自 Twitter Sentiment,
其中包含从 2009-04-06 到 2009-06-25 发布的 1 600 000 条推文. 语料库具有平衡的情感类别, 类别标签被转化为
one-hot 向量作为情感表示. 语料库按小时划分时段, 共有 593 个时段.
ThaiCaveRescue (https://github.com/AlexisZWY/ThaiCaveResuce). 案例研究数据. 对 2018-06-27 至 2018-07-16
期间发布的有关“泰国美人洞救援”相关的推文按照日期进行了爬取, 这些推文包含“#ThaiCaveRescue”“#caverescue
thailand”“#ThaiCave”和“#Thamluang”标签. 限制每个日期爬取的推文数量不超过 1 000 条, 最后总共得到 14 348 条
推文. 所有推文的情感极性由多项式朴素贝叶斯分类器 (MNB) 标记, 分类器采用 S140 语料库进行训练. 最终
ThaiCaveRescue 数据集包含 20 个时段.
GoTh8 (https://kaggle.com/monogenea/game-of-thrones-twitter). 语料库从与电视剧相关的推文中提取而来, 即
《权力的游戏》第 8 季 (GoTh8). 经过预处理后, 共有 755 759 条推文, 发布时间为 2019-04-07 至 2019-05-28, 按日
期分为 52 个时段. 采用与 ThaiCaveRescue 相同的分类器标记文档的情感极性.