Page 171 - 《软件学报》2025年第5期
P. 171

张文跃 等: 基于高斯混合多层自编码器的情感漂移检测模型                                                    2071


                 工数据集是按照文献        [44] 的方式生成的数据集, 即      GAUSS  和  CIRCLES. 剩余两类数据集都来自推特, 其中         S140
                 由非特定事件的推文组成, 另一类数据集的推文内容分别关于一场成功的救援行动和一部知名电视剧. 所有数据
                 集的详细信息如下.
                    GAUSS: 突发  (abrupt) 漂移模式, 带有噪声的数据. 正类和负类数据从两个高斯分布中采样而来, 其参数分别
                    +        +        (µ = (3,3),σ = (4,4)) . 每个正  (或负) 数据块由  个时间段    (Period) 组成, 每个时间
                                                −
                                        −
                 为   (µ = (1,1),σ = (1,1)) 和                                10
                 段包含   50  个二维向量. 来自两个类别的数据块彼此交替, 最终构成一个包含                    50  个块  (Block) 的数据集. 如图  5
                 所示.


                                             Block1       Block2      ···  Block50
                                              ···          ···            ···

                                         Period1  Period10 Period11  Period20 Period21
                                                 图 5 GAUSS   数据集的结构

                    CIRCLES: 渐变  (gradual) 漂移模式, 无噪声数据. CIRCLES    数据生成方法遵循已有论文          [44] , 它从均匀分布中
                                       y ∈ [0,1] . 数据有  4  个类别, 它们的类边界均为圆形, 具体见表      2.
                 采样, 其参数为    x ∈ [0,1.2] 和

                                             表 2 CIRCLES  数据集   4  种类边界描述

                              圆心          (0.2, 0.5)     (0.4, 0.5)    (0.6, 0.5)    (0.8, 0.5)
                              半径            0.15           0.2           0.25          0.3

                    来自  4  个类别的数据相互交替以形成数据块, 其中每个类别有                 10  个时间段, 每个时间段由      100  个向量构成.
                 CIRCLES  数据集共包含    40  个块. 如图  6  所示.


                               Block1       Block2         Block3        Block4      ···  Block40

                               ···            ···           ···           ···             ···

                          Period1  Period10 Period11  Period20 Period21  Period30 Period31  Period40 Period41
                                                 图 6 CIRCLES  数据集的结构

                    人工数据涵盖了突变和渐变两种漂移模式, 此外还包含了正态和均匀两种数据分布以及有噪声和无噪声两种
                 情况. 处理人工数据可以揭示模型在不同场景下的性能. 除了理想场景外, 本文还使用如下实际数据进行验证.
                    Sentiment 140 (http://help.sentiment140.com/). 带标签的真实世界数据, 简称  S140. 该数据来自  Twitter Sentiment,
                 其中包含从    2009-04-06  到  2009-06-25  发布的  1 600 000  条推文. 语料库具有平衡的情感类别, 类别标签被转化为
                 one-hot 向量作为情感表示. 语料库按小时划分时段, 共有            593  个时段.
                    ThaiCaveRescue (https://github.com/AlexisZWY/ThaiCaveResuce). 案例研究数据. 对  2018-06-27  至  2018-07-16
                 期间发布的有关“泰国美人洞救援”相关的推文按照日期进行了爬取, 这些推文包含“#ThaiCaveRescue”“#caverescue
                 thailand”“#ThaiCave”和“#Thamluang”标签. 限制每个日期爬取的推文数量不超过         1 000  条, 最后总共得到  14 348  条
                 推文. 所有推文的情感极性由多项式朴素贝叶斯分类器                   (MNB) 标记, 分类器采用      S140  语料库进行训练. 最终
                 ThaiCaveRescue 数据集包含  20  个时段.
                    GoTh8 (https://kaggle.com/monogenea/game-of-thrones-twitter). 语料库从与电视剧相关的推文中提取而来, 即
                 《权力的游戏》第       8  季  (GoTh8). 经过预处理后, 共有  755 759  条推文, 发布时间为  2019-04-07  至  2019-05-28, 按日
                 期分为   52  个时段. 采用与  ThaiCaveRescue 相同的分类器标记文档的情感极性.
   166   167   168   169   170   171   172   173   174   175   176