Page 174 - 《软件学报》2025年第5期

P. 174

2074 软件学报 2025 年第 36 卷第 5 期

标记, 因此方便对新模型和对照模型进行定量评估.
所有模型和度量的分类性能如表 8 所示. 此外, 添加了一个增量训练分类器, 以验证在没有漂移检测的情况下
分类的表现 (即表 8 中“No drift detection”). 根据结果, GHVAE+Ex_ADD 获得了更好的分类准确性, 比在 DS1 [42] 和
其他对比模型中使用同一语料库的最佳结果高出约 10%. 此外, 有漂移检测的模型的性能优于无漂移检测的模型,
这也说明实验的分段假设是有效的.
为了揭示调整参数 λ 的影响, 实验记录了不同 λ 取值下的分类准确度. 在图 7 中, 当 λ = 4 时达到最高精度, 小
于 4 时显示出显著的性能退化, 一定程度下增加高区间度量值区分度有助于更好地检测漂移. λ > 4 时结果彼此相
似, 因为此时再扩大类 (是否漂移) 的差距不再有助于提高性能. 此外, 由于低区间的漂移分数越来越彼此接近, 使
得 λ > 4 时反而出现精度下降的情况.

表 8 各模型在 S140 数据集上的准确度性能

0.90

漂移度量
模型
ADD ADD2 Ex_ADD
0.85
GHVAE 0.827 0.831 0.842
HVAE 0.827 0.833 0.838
VIGO [33] 0.793 Accuracy 0.80
IEWMA [30] 0.789
0.75
IAMNB [42] 0.745
Plain 0.798 0.769 0.795
0.70
Ablations No_D 0.801 0.800 0.804 2 3 4 5 6 7
No_E 0.826 0.829 0.840 λ
No drift detection 0.742 图 7 λ 的取值对准确度的影响
4.3 案例研究: ThaiCaveRescue
在青少年足球队被困洞穴的新闻事件中, 公众情感随着救援行动的推进而剧烈波动. 当救援行动有了重大收
获时, 公众情感会高涨, 相反, 当收到坏消息时, 正面情感比例会急剧下降. 因此, 使用救援关键事件和检测到的漂
移点之间的相关性对新模型进行定性评估.
在前期, 即 2018 年 6 月 30 日之前, 群体情感仍处于负面 (正面比率保持在 50% 以下), 因为随着男孩们被困
在洞穴中的时间不断增长而救援仍然没有令人鼓舞的进展. 随着公众关注度大幅提高, 许多相关人员来到了现场,
如国际救援队、物资支持和媒体等. 2018 年 7 月 1 日, 救援人员发现了 3 号区域并将其作为潜水员的行动基地.
第 2 天, 两名英国潜水员发现了被困男孩, 他们状态都很好. 这一令人兴奋的消息将公众的积极情感提升到了顶
峰, 但一个艰巨的挑战出现了, 即如何安全地救出男孩们? 在接下来的几天里, 几项先前拟议的计划但都被否决了,
在此期间正面情感率有所回落. 正如在 2018 年 7 月 6 日出现的低谷一样, 最低沉的公众情感是由一名泰国海豹突
击救援人员的死亡新闻引发的. 公众期待已久的好消息出现在 2018 年 7 月 8 日, 救援队成功救出了 4 名男孩, 这
将情感曲线提升到了一个积极的水平. 直到 2018 年 7 月 10 日, 当最后 4 个男孩和他们的教练安全脱困时, 情感曲
线达到了最高点. 关键事件描述 (根据“Tham Luang 洞穴救援”维基百科页面 (https://wikipedia.org/wiki/Tham_
Luangcave_rescue)) 和检测到的漂移时间段的关键词 (基于 TF-IDF 评分) 记录在后文表 9 中.

4.4 案例研究: GoTh8
作为一部非常受欢迎的电视剧, 《权力的游戏》有大量的观众, 自然观众们对它的观点数据是海量的. 图 8 展
示的是第 8 季的播出过程中公众的情感随着最新情节的播出而不断变化, 其中横坐标表示播出的剧集编号
(1–6 集), 纵坐标表示烂番茄用户对每一集的所有评价中正面评价的比例. 与 ThaiCaveRescue 案例类似, 本文通过
验证检测到的漂移与播出时间之间的相关性定性分析漂移检测结果的合理性.

169 170 171 172 173 174 175 176 177 178 179