Page 152 - 《振动工程学报》2026年第3期
P. 152
752 振 动 工 程 学 报 第 39 卷
特征空间中的距离,使领域自适应能够克服迁移学
习中的领域偏移问题,提升模型在新环境下的性能。 1 多头注意力机制
对于未标记的目标域,主要策略是通过最小化源域
和目标域特征分布之间的度量函数损失来指导特征 1. 1 注意力机制
[1]
学习 。度量函数是基于特征的深度迁移学习的核
注意力机制(attention) 是一种受到人类视觉
[11]
心,不同的度量对数据的匹配效果不同。度量函数
注意力机制启发的算法。它的基本原理是在处理数
包 括 最 大 均 值 差 异(maximum mean discrepancy,
据的过程中,赋予各种特征不同的注意力权重,使模
MMD)、Kullback⁃Leibler 偏 差 和 Wasserstein 偏 差
型能够专注于更关键的特征。这种方法的优点在于
等 ,其 中 MMD 是 应 用 最 广 泛 的 度 量 函 数 。 使 用 使用的参数数量少,意味着模型的复杂性降低,这对
MMD 进行域自适应的方法包括域自适应神经网络 于模型的训练和优化都是有益的。少量的参数可以
(domain adaptive neural network, DANN) ,深 度 减少过拟合的可能性,提高模型的泛化能力。使用
[2]
[3]
域混淆(deep domain confusion, DDC) 和域自适应 注意力机制,能有效提升模型的计算速度,这让模型
网络(domain adaptive network, DAN) 等。 在处理大规模数据或实时任务时具有更高的效率。
[4]
文献[5]应用了多特征融合与联合自适应迁移 注意力机制中对权重的计算方式有多种 [12] ,其中加
学习网络实现了轴承故障诊断。文献[6]利用对抗 法计算、点积计算、缩放点积、双线性计算分别为:
T
性学习来指导特征生成器提供可迁移的特征,进而 s( K i,Q) = v tanh(WK i + UQ) (1)
T
实现滚动轴承故障诊断。文献[7]采用 Wasserstein s( K i,Q) = K i Q (2)
T
距离度量两域之间的差异,使得源域所学知识能更 K i Q
s( K i,Q) = (3)
好地迁移到目标域中,提高模型的迁移诊断性能。 d
T
上述迁移学习的故障诊断研究都集中在单源域 s( K i,Q) = K i WQ (4)
迁移上,在实际场景中,通常从多个不同的源域收集 式中, s (·)为权重计算,用于计算 Q 与 K 之间的相关
标记的数据,这些数据不仅与目标域的分布不同,而 性; Q 为查询序列; K i 为键序列; v 为参数向量;W 和
且彼此的分布也不同,从而形成多个源域。因此,无 U 为可学习的参数矩阵; d 为数据维度。
论是合并所有源域还是选择一个源域都无法实现理 1. 2 多头注意力机制
想的故障诊断效果。多源域自适应的故障诊断方法
[13]
多 头 注 意 力 机 制(multi⁃head attention) 的 主
应运而生。
要思想是使用多个相同的注意力函数来同时处理输
文献[8]提出了一种多源域自适应方法,该方法
入,进而获取同一位置的不同特征信息。本文采用
具有很强的泛化性和鲁棒性,基于该方法的故障诊
8 头注意力机制,将其输出拼接在一起,并通过一个
断方法非常适合于可变条件下的故障诊断任务。文
线性变换输出,从而学习到不同的故障特征。图 1 所
献[9]提出了一种新的多源域自适应方法——深度
示为多头注意力机制的网络结构模型,图中,Q 为查
负相关多源域适应网络,用于不同工作条件下的机
询序列;K 为键序列;V 为值序列;h 为注意力层数。
械故障诊断。文献[10]提出了一种多源域异构模
型,实现不同规格和工况下数据之间的迁移,经验证
该模型具有较高的准确率。
针对变工况引起的滚动轴承源域和目标域故障
数据分布不平衡、多个相似数据利用不充分,导致模
型故障诊断精度不高的问题,本文从多源域自适应
故障诊断的角度出发,结合多头注意力机制,对多个
源域输入赋予合理的权重,采用多核最大均值差异
(multi⁃kernel maximum mean discrepancy, MK⁃
MMD)衡量各个源域和目标域之间的损失,搭建了
多源域多头注意力自适应网络(multi⁃source domain
multi⁃head attention adaptation network, MD⁃
MAAN),并探究该模型在故障诊断领域的有效性 图 1 多头注意力机制结构图
及泛化性。 Fig. 1 Structural diagram of the multi⁃attention mechanism

