Page 152 - 《振动工程学报》2026年第3期

P. 152

752 振动工程学报第 39 卷

特征空间中的距离，使领域自适应能够克服迁移学
习中的领域偏移问题，提升模型在新环境下的性能。 1 多头注意力机制
对于未标记的目标域，主要策略是通过最小化源域
和目标域特征分布之间的度量函数损失来指导特征 1. 1 注意力机制
［1］
学习。度量函数是基于特征的深度迁移学习的核
注意力机制（attention）是一种受到人类视觉
［11］
心，不同的度量对数据的匹配效果不同。度量函数
注意力机制启发的算法。它的基本原理是在处理数
包括最大均值差异（maximum mean discrepancy，
据的过程中，赋予各种特征不同的注意力权重，使模
MMD）、Kullback⁃Leibler 偏差和 Wasserstein 偏差
型能够专注于更关键的特征。这种方法的优点在于
等，其中 MMD 是应用最广泛的度量函数。使用使用的参数数量少，意味着模型的复杂性降低，这对
MMD 进行域自适应的方法包括域自适应神经网络于模型的训练和优化都是有益的。少量的参数可以
（domain adaptive neural network， DANN），深度减少过拟合的可能性，提高模型的泛化能力。使用
［2］
［3］
域混淆（deep domain confusion， DDC）和域自适应注意力机制，能有效提升模型的计算速度，这让模型
网络（domain adaptive network， DAN）等。在处理大规模数据或实时任务时具有更高的效率。
［4］
文献［5］应用了多特征融合与联合自适应迁移注意力机制中对权重的计算方式有多种［12］，其中加
学习网络实现了轴承故障诊断。文献［6］利用对抗法计算、点积计算、缩放点积、双线性计算分别为：
T
性学习来指导特征生成器提供可迁移的特征，进而 s( K i，Q) = v tanh(WK i + UQ) （1）
T
实现滚动轴承故障诊断。文献［7］采用 Wasserstein s( K i，Q) = K i Q （2）
T
距离度量两域之间的差异，使得源域所学知识能更 K i Q
s( K i，Q) = （3）
好地迁移到目标域中，提高模型的迁移诊断性能。 d
T
上述迁移学习的故障诊断研究都集中在单源域 s( K i，Q) = K i WQ （4）
迁移上，在实际场景中，通常从多个不同的源域收集式中， s （·）为权重计算，用于计算 Q 与 K 之间的相关
标记的数据，这些数据不仅与目标域的分布不同，而性； Q 为查询序列； K i 为键序列； v 为参数向量；W 和
且彼此的分布也不同，从而形成多个源域。因此，无 U 为可学习的参数矩阵； d 为数据维度。
论是合并所有源域还是选择一个源域都无法实现理 1. 2 多头注意力机制
想的故障诊断效果。多源域自适应的故障诊断方法
［13］
多头注意力机制（multi⁃head attention）的主
应运而生。
要思想是使用多个相同的注意力函数来同时处理输
文献［8］提出了一种多源域自适应方法，该方法
入，进而获取同一位置的不同特征信息。本文采用
具有很强的泛化性和鲁棒性，基于该方法的故障诊
8 头注意力机制，将其输出拼接在一起，并通过一个
断方法非常适合于可变条件下的故障诊断任务。文
线性变换输出，从而学习到不同的故障特征。图 1 所
献［9］提出了一种新的多源域自适应方法——深度
示为多头注意力机制的网络结构模型，图中，Q 为查
负相关多源域适应网络，用于不同工作条件下的机
询序列；K 为键序列；V 为值序列；h 为注意力层数。
械故障诊断。文献［10］提出了一种多源域异构模
型，实现不同规格和工况下数据之间的迁移，经验证
该模型具有较高的准确率。
针对变工况引起的滚动轴承源域和目标域故障
数据分布不平衡、多个相似数据利用不充分，导致模
型故障诊断精度不高的问题，本文从多源域自适应
故障诊断的角度出发，结合多头注意力机制，对多个
源域输入赋予合理的权重，采用多核最大均值差异
（multi⁃kernel maximum mean discrepancy， MK⁃
MMD）衡量各个源域和目标域之间的损失，搭建了

多源域多头注意力自适应网络（multi⁃source domain
multi⁃head attention adaptation network， MD⁃
MAAN），并探究该模型在故障诊断领域的有效性图 1 多头注意力机制结构图
及泛化性。 Fig. 1 Structural diagram of the multi⁃attention mechanism

147 148 149 150 151 152 153 154 155 156 157