Page 170 - 《软件学报》2025年第5期
P. 170
2070 软件学报 2025 年第 36 卷第 5 期
间段间隔. 根据 Ex_ADD 度量算法, 计算在窗口中每个时间段的所有情感漂移度量 p . 是否应该用窗口中的数据
√
(k) (k) (k)
.
更新模型可以被视为一次伯努利实验, 其参数为 ¯ p k = mean({p , p ,..., p }) 和偏差 σ k = ¯ p k (1− ¯p k )/k p 参数是
1 2 n
由公式 (17) 得来的漂移度, k 表示它们来自哪个窗口. 当新的周期 p i 到达时, 窗口移动同时计算新的参数. 漂移自
适应在算法 1 中有详细说明.
1.0
λ=2
λ=4
0.8
λ=6
ADD2
Final drift score: P 0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1.0
ADD score: p′
图 4 ADD 与 Ex_ADD 对比
算法 1. GHVAE 漂移自适应.
输入: 窗口和新时段之间的漂移度 p i ; 适应参数 p min σ min ;
,
输出: 发生情感漂移的时段序列.
¯ p k = mean(W k ) ;
√
σ k = ¯ p k (1− ¯p k )/k ;
IF ¯ p k +σ k > p min +ασ min THEN
W k = {p i , p i+1 ,..., p i+n } ;
使用 W k 中的时段数据重新训练模型;
Set k = 1 ;
ELSE
k+ = 1 ;
IF ¯ p k +σ k < p min +σ min THEN
p min = ¯p k ;
σ min = σ k ;
3 实验设计
为了验证情感漂移分析模型的有效性, 本文使用各种数据和指标进行有针对性的实验. 具体来说, 本文采用两
个人工数据集来展示在多种分布和漂移模式场景中的模型性能. 平衡标注的“真实世界 (real-world)”语料库被用于
测试实际场景下模型漂移检测的准确性. 此外, 还设置了两个案例研究用于定性评估. 本节分 3 个部分详细介绍了
模型验证实验的设计: 数据集、对照模型、实验设置.
3.1 数据集
本文使用了 3 类数据集: 人工数据集、推特情感 140 语料库 (缩写为 S140) 和两个特定事件相关的数据集. 人