Page 165 - 《软件学报》2025年第5期
P. 165
张文跃 等: 基于高斯混合多层自编码器的情感漂移检测模型 2065
加”等消息时正面情感比率会下降, 而当得知“多方救援物资供应充足”“被困人员安然无恙”等消息时则会上升. 检
测群体情感漂移对社会各界 (如政府机构、公司、新闻机构, 甚至个人) 均具有重要实用价值, 根据检测结论相关
方可以采取积极行动, 例如: 公众的情感漂移可能会影响股市 [1] , 投资者可以利用这些关键漂移信息来决定或调整
投资策略; 或者, 如果一家企业能够快速捕捉用户对其产品的情感漂移, 便可以实现及时改进产品设计或调整销售
策略; 此外, 各国政府也希望监测公众对他们制定的政策是否发生情感上的漂移.
通常群体情感信息隐藏在时间顺序的文档中, 如推文、微博、论坛和新闻网站的评论等. 这些有序数据需要
根据它们到达的具体时间段 (例如, 按照天、小时或分钟等) 被分成互不重叠的集合, 其中每个时间段内包含多个
文档. 通过比较不同时间段之间的情感差异实现自动检测群体情感漂移. 群体情感漂移检测任务的核心问题是如
何提高检测的准确性, 又可以具体分为两个方面的挑战, 即如何设计更适合的漂移检测模型以及与其配合的漂移
度量.
近年来, 针对群体文本情感漂移检测, Zhang 等人 [2] 提出了 HVAE 模型. 它将原有的 VAE 模型扩展为一个由
输入层、潜在分布层和元分布层组成的 3 层结构, 分别对应于文档级、时段级和历史窗口这 3 种数据粒度.
HVAE 模型假设潜在分布及其元分布均为高斯分布. 由于历史窗口保存的时段数量有限, 难以满足中心极限定理
的成立条件, 所以使用单一中心的高斯分布相比多中心的高斯混合分布缺少对历史信息更精准的拟合能力. 此外,
HVAE 模型采用的漂移度量算法 ADD2 具有高灵敏度, 当情感频繁波动即各时段的度量值在高区间 (接近 1) 时过
于相近, 从而模糊了漂移判断边界而导致性能下降, 因此需要增加高区间度量值的区分度.
针对上述两个方面的挑战, 本文提出了一种用于情感漂移检测的基于高斯混合的分层变分自动编码器 (GHVAE)
模型, 具体贡献总结如下.
(1) 提出了 GHVAE 模型, 该模型包含 3 层结构, 并且在顶层使用高斯混合作为元分布, 有助于提高模型在时
段窗口较小时的性能.
(2) 本文提出的 GHVAE 模型使用指数变换改进了 ADD2 算法 [2] , 提出 Ex_ADD 度量算法以解决漂移边界模
糊问题.
(3) 采用多种实验以验证新的 GHVAE 模型在不同数据集 (包括人工数据和真实数据) 中的有效性. 此外, 增加
两个案例研究用于定性评估. 实验结果证明了 GHVAE 模型的各项创新确实提高了群体情感漂移检测性能.
本文第 1 节介绍情感漂移检测的相关工作. 第 2 节中详细介绍本文提出的 GHVAE 模型. 第 3 节介绍一系列
实验设计和实现方案. 第 4 节展示所有实验结果并对其进行分析. 最后在第 5 节对全文工作进行总结以及对未来
改进方向进行展望.
1 相关工作
一个完整的情感漂移检测过程由 3 个关键子任务组成, 即情感建模、漂移检测和漂移自适应. 情感建模的主
要目的是从给定的输入序列文档中提取情感分布信息. 漂移检测专注于计算历史数据和新数据之间的分布差异,
然后将其用于判断漂移是否发生. 最后, 当漂移发生时, 漂移自适应将根据新数据更新模型.
1.1 情感建模
情感建模的主要目的在于提取或者表现文本情感信息. 已有情感建模工作常见于文档级别的情感极性分类任
务 [3] , 即自动检测给定文档的情感极性. 早期工作多采用基于统计的方法, 首先计算情感词及其上下文的统计信息,
然后决定该文档是属于正类 (positive) 还是负类 (negative). 此外, 也有一些工作建立模型将情感信息用于对话场
景 [4] 以及摘要生成 [5] 任务中.
除基于统计方法外, 还有一些工作采用概率图方法提取情感信息. 例如, Xiong 等人 [6] 通过增加一个表示情感
的潜在变量来扩展 LDA, 并提出了用于产品评论的词对 (word-pair) 情感-主题 (sentiment-topic) 模型. Catal 等人 [7]
提出了一种情感分类的集成方法, 该方法集成了多个分类器, 包括朴素贝叶斯、SVM 和 Bagging 等. 近年来, 深度
学习由于其显著的拟合能力在该研究领域变得愈加流行. Yang 等人 [8] 实现了一种具有注意力机制的神经网络, 用