Page 182 - 《软件学报》2025年第12期
P. 182
李梓健 等: 基于隐变量解耦学习的时间序列领域自适应方法 5563
5.1.2 HHAR 数据集
HHAR 数据集, 由智能手机和智能手表传感器异质数据组成, 旨在探究传感器异质性对人类活动识别算法 (包
括分类、自动数据分割、传感器融合和特征提取等) 的影响. 该数据集包含来自 9 位用户的数据, 这些用户按特定
顺序执行了包括骑单车、坐、站、走、上楼和下楼等 6 种活动. 数据集记录了两种常见智能手机运动传感器的读
数, 即加速度传感器和陀螺仪, 这些传感器以各自设备所支持的最高采样频率记录了用户的活动数据. 该数据集的
目的在于研究和理解传感器异质性对人类活动识别算法性能的影响. 在我们的实验中, 将每个用户视为一个领域.
HHAR 数据集的数据样本维度为 128×3. 本文将对该数据进行切割, 取前 100×3 维度的数据, 并将其对半分成两
份 50×3 的数据, 前半部分用于训练, 后半部分与相应的序列标签对应.
5.1.3 WISDM 数据集
WISDM 数据集 (wireless sensor data mining) 是一个重要的开源数据集, 旨在支持人体活动识别领域的研究和
算法开发. 该数据集收集了在真实世界环境中使用智能手机的加速度计和陀螺仪传感器所记录的多种人体活动,
包括步行、跑步、上下楼梯、坐着、站立和自行车骑行等. 这些活动数据包含了多个特征, 如 3 个轴上的加速度
和角速度, 以及时间戳信息. WISDM 数据集的独特之处在于它模拟了日常生活中的多样性和复杂性, 涵盖了真实
世界中多种活动场景. 因此, 本文选择使用这个数据集来评估所提出的 DIVV 的时间序列预测领域自适应方法模
型的性能. WISDM 数据集的数据样本维度同样为 128×3, 具体数据切割与 HHAR 数据集相同.
5.2 对比方法
除了传统的适用于静态数据的领域自适应方法, 本文还考虑了不变的时间依赖性提取方法, 以及其他从不同
角度出发的时间序列领域自适应方法.
传统的适用于静态数据的领域自适应方法有: DDC [87] 通过最小化源域与目标域的最大平均差异 (MMD) [88] 来
学习领域不变特征, 设计了梯度反转层对特征提取器网络的领域分类器进行反向训练; HoMM [89] 通过匹配源域和
目标域的高阶矩, 最小化不同领域之间的差异; DSAN [90] 通过对齐相关子领域分布的局部最大平均差异 (LMMD)
来最小化源域和目标域之间的差异. 不变的时间依赖性提取方法有: SASA-IV [12] 利用因果关系的稳定性探索数据
的领域不变结构, 并在领域间进行对齐.
此外, 本文还考虑了最新的基于频率的方法. 例如, AdvSKM [15] 利用对抗性光谱核匹配来解决时间序列数据
中的非平稳性和非单调性问题. 另外, 本文还研究了 Raincoat [16] 方法. 此外, 本文在分析中还纳入了其他几种时间
序列领域自适应方法, 例如 CoDATS [79] 和 CLUDA [91] .
对于所有的数据集, 本文采用 F1 得分作为评价指标, 其计算方式如下所示:
精确率×召回率
F1 = 2× .
精确率+召回率
5.3 UCIHAR 实验结果
本节展示并分析了本文所提出的基于 DIVV 的时间序列领域自适应方法在 UCIHAR 数据集下的实验结果.
本文从大量的跨域组合中随机选择了 12 组跨域场景进行实验, 分别为 12→16, 14→24, 19→16, 1→18, 23→21,
24→16, 24→18, 3→16, 25→16, 3→18, 5→16, 8→18. 其中“→”两边的数字分别代表源域和目标域.
表 3 展示了 UCIHAR 数据集的实验结果, 通过实验结果, 本文可得出以下结论.
1) 本方法在 F1 指标上表现总体优于其他 10 个对比方法, 具体而言, 本文所提出的方法对比 SASA-IV 提升
了 4% 的准确率. 这些实验结果验证了本方法在时间序列分类任务上的优越泛化性能.
2) 传统的基于静态数据的领域自适应方法在时间序列数据集中难以取得良好表现, 这证明了针对时间序列数
据的领域自适应面临挑战, 需要有针对性地设计模型.
3) 现有基于频率进行对齐的方法如 AdvSKM 在与本文 DIVV 方法相比存在不足, 因为这些方法不能保证学
到的领域不变信息是可识别的, 有可能混杂了领域变化的特征, 导致效果变差. 而本文的 DIVV 方法成功地将领域
变化和不变的信息解耦, 从而在预测任务上能够更好地排除领域偏移的影响.

