Page 166 - 《软件学报》2025年第5期
P. 166
2066 软件学报 2025 年第 36 卷第 5 期
于提取方面级情感分类的跨域信息. Chen 等人 [9] 提出了一种深度学习框架, 该框架利用递归图卷积网络来识别情
感极性. 赵传君等人 [10] 对跨语言情感分类方法进行了阶段性总结.
深度学习类的模型通常属于“黑盒模型”缺少可解释性, 且训练成本往往比较高. 对此, 人们提出了 VAE 类型
的模型, 它将神经网络与概率图相结合, 从而产生相对轻量级和可解释性较好的模型. 原始 VAE 是由 Kingma 等
人 [11] 提出的一种无监督模型, 它首先应用编码模块 (Encoder) 学习潜在变量, 然后使用解码模块 (Decoder) 拟合输
入数据分布. 已经有很多工作提出了多种 VAE 类型的模型用于应对各种情感分析任务, 例如, 分类 [12−14] , 对话生
成 [15−17] , 自动意见摘要 [18,19] 等. VAE 类型的模型一般被认为具有更好的泛化性能, 因为它可以避免训练数据的过
度拟合 [20] . 目前标准 VAE 模型已扩展到两层结构模型 [21−24] , 这些模型两层潜在参数之间采用“一对一”形式的配
对. 在群体情感漂移分析任务中, 由于存在“文档-时段-历史窗口” 3 层结构, 其潜在参数更像“多对一”模式 (如多个
情感文档对应于一个时间段), 因此已有的模型不太适合本文的任务.
本文提出的情感建模与上述已有工作不同, 在本文工作中增加了由多个文档组成的时间段层以及多个时间段
组成的窗口层, 形成“金字塔型”的“多对一”层次结构. 新模型不会聚焦于研究文档级别的情感分类, 而是学习情感
分布信息, 即属于同一时间段/窗口的多个文档的正负极性的统计参数.
1.2 漂移检测
漂移检测任务需要先计算新数据和历史数据之间的差异 (包括分布差异 [25] ), 然后将其量化作为指标用于判断
变化是否足够显著以宣布漂移已经发生. 漂移检测方法可以分为以下 3 类: 1) 序列分析 (SA), 主要出现在一些早
期的研究工作中 [26,27] , 该类方法预先设置了一个固定阈值, 当新到达的数据和历史数据之间的差异度大于阈值时
触发漂移警报, 虽然 SA 方法简单有效但必须设置合理的固定阈值, 这一点限制了它的应用范围; 2) 统计过程控
制 (SPC), 通过积累漂移指示的统计信息 (如均值和标准差等) 建立检测机制. 在此之后有很多研究工作 [28−30] 采用
了 SPC 检测机制, 与 SA 相比, SPC 通常更加灵活; 3) 双窗口比较 (CTW) 模型, 它分配一个固定大小的窗口来保存
历史信息, 而另一个窗口则在新到达的数据上滑动, 通过比较两个窗口之间的数据分布来判断漂移是否发生, 例
如 Bifet 等人 [31] 提出了 ADWIN 方法, 该方法利用 Hoeffding 边界来确定漂移位置; 在 Yu 等人 [32] 的工作中, 构建了
一个用于检测数据漂移的两层结构模型, 其第 1 层是 CTW 方法, 此外还有 Nguyen 等人 [33] 将 ADWIN 与变分推断
相结合, 实现了一种新的在线分类系统.
1.3 漂移自适应
漂移自适应机制在漂移发生时用新数据更新模型, 通常包含“盲目 (Blind)”和“通知 (Informed)”两种策略. 为了
实现自适应, 许多方法采用了“盲目策略”, 即一旦新数据到达不进行漂移检测直接更新模型. 由于需要不断更新模
型, 因而这种策略只适用于简单、轻量级、更新成本不高的模型. 例如, Krawczyk 等人 [34] 根据数据的到达顺序对
所有数据进行加权, 并强化那些新到达的数据权重, 这些处理后数据都被组装在一起进行模型训练. Krawczyk 与
他人的另一项研究工作 [35] 提出了一种能够处理漂移引起的突然变化的更新机制, 在其他方法 [36−38] 中也提出了一
些类似的方法. 第 2 种自适应策略是“通知策略”, 它通常包含一个触发器并根据漂移检测结果决定是否触发重新
训练或更新模型操作 [39−41] . Iosifidis 等人 [42] 将这种通知策略应用于流情感分类.
2 群体情感漂移检测模型
本文提出用于检测群体情感漂移的模型是基于高斯混合的分层变分自动编码器 (GHVAE), 主要由 3 部分组
成: GHVAE 模型、漂移检测模块、漂移自适应机制. 具体而言, GHVAE 模型从历史数据中学习情感分布, 采用拟
合历史数据的方法进行验证, 然后重新到数据中学习新的情感分布. 在漂移检测模块, 定量计算历史情感分布和新
情感分布之间的分布差异, 并在差异程度过大时认定发生情感漂移. 最后, 漂移自适应机制使用新到数据更新历史
数据分布.
2.1 GHVAE 模型
关于情感漂移, 要得到更稳定和合理的检测结果, 其关键条件是将检测粒度设置在多文档级别, 因为个人情感