Page 94 - 《振动工程学报》2026年第5期
P. 94
1298 振 动 工 程 学 报 第 39 卷
K h,P 由生成的文本原型提供, V h,ˆx i 由时间序列片段提 为训练集、验证集和测试集。DGLC 数据集的试验
供;d k 表示 K h, 向量的维度,通常也等于该注意力头 台如图 8 所示。
P
中 Q h, 向量的维度。通过 MHCA 的处理,振动信号
P
时序片段与文本原型之间的相关性得到了全面的建
模,模型能够识别出时间序列数据中的关键特征,并
利用文本提示的信息来增强预测能力。
振动信号 Patch 嵌入。在经过多头交叉注意力
机制处理后,生成的高维特征嵌入包含了丰富的时
序信息和语义信息。为了使这些嵌入向量能够进一
步应用于预测任务,需要再在生成的高维特征向量
后面连接一层线性映射层,通过 W f ·z+ b f 将高维特
征转化为最终的模型输入形式,其中, z表示经过多 图 8 DGLC 数据集的试验台示意图
头交叉注意力机制处理后得到的高维特征嵌入向 Fig. 8 Schematic of the test bench for the DGLC dataset
量,包含振动信号的时序特征与语义信息; W f 表示线 在 试 验 中, 选 取 了 DGLC 数 据 集 的 5 组 数 据 和
性映射层的权重矩阵; b f 表示线性映射层的偏置项; CWRU 数据集的 1 组数据(采样频率 12 kHz 的驱动
W f ·z+ b f 表示线性变换操作,即通过权重矩阵与偏 端 故 障 数 据, 编 号 为 : Drive_end_2 99.mat) 进 行 测
置项将高维特征 z转换为最终的模型输入表示。 试。其中,编号为 的正常工况数据集在理论转速
7
2.2.3 预训练大语言模型与预测 2000 r/min,负载 252 N·m,实际转速 1946 r/min 的条件
经过前面 prompt 和 input 模块处理之后的振动 下 采 集; 编 号 为 13 的 正 常 工 况 数 据 集 在 理 论 转 速
信号数据,被送入预训练好的大语言模型(LLM)中 1500 r/min,负载 334 N·m,实际转速 1460 r/min 的条件
进行处理。将经过 LLM 的多层处理后的嵌入向量传 下采集;编号为 211 的内圈故障工况数据集在理论
递至预测生成模块。在此阶段,模型的任务是将高 转速 2000 r/min, 负 载 375 N·m, 实 际 转 速 1945 r/min
维嵌入向量转换为可解释的预测结果。为此,输出 的条件下采集;编号为 78 和 87 的装配误差工况数据
首先通过一个线性投影层(projection layer),将高维向 集分别在理论转速 2000 r/min,负载 375 N·m,实际转
量投影到输出空间中。这个过程的数学表达式如下: 速 1945 r/min 和 理 论 转 速 2000 r/min, 负 载 252 N·m,
FCP signal (T) = W·PH· 实际转速 1945 r/min 条件下采集。并在 78 工况数据
[ ] 集上进行了消融和对比试验;在 模型上验
Flatten(LLM B (α·I E (T),β·P E (T)))+γ·T (7) VSP-LLM
式中, FCP signal 为最终的预测输出; PH(·)表示预测头; 证了 DGLC5 个数据集以及 CWRU 数据集的预测效
W为映射层权重; α和 β分别为 input 和 prompt 模块部 果; 在 CWRU 数 据 集 上 对 比 TIME-LLM、 DLinear、
分的比例系数; γ为预测时间步长 的权重系数。式 Autoformer、informer 模型的预测效果,对其进行模型
T
(7) 通过将时间步长 T 引入到预测生成过程中,确保 泛化能力的分析。
了 模 型 在 生 成 预 测 时 能 够 考 虑 未 来 时 间 的 影 响; 在试验细节方面,为确保模型达到最优性能,参
Flatten(·)表示展平操作,用于将 LLM 输出的多维隐 考 JIN 等 [18] 关于大语言模型在时间序列预测任务中
藏状态展开为一维特征向量,以便后续预测头和线 的深入研究及其模型超参数设定经验,对所有关键
性映射层处理; LLM B (·)表示预训练大语言模型的主 超参数进行了细致调整和记录。包括学习率、批量
干网络(Backbone); I E (T)表示 input 模块在预测时间 大小、层数和正则化参数等。具体的超参数设置如
步 T 对应的输入嵌入表示,即由原始振动信号经过 表 2 所示。由于振动信号数据具有复杂的时序特
输入编码后得到的特征向量。 性,模型复杂度较高,尤其是在内存受限的情况下,
选择批量大小为 2 有助于更细致地捕捉数据中的细
3 试 验 验 证 微特征。学习率从 0.01 逐步衰减至 0.001 的动态调
整策略,防止梯度爆炸或模型过拟合,以保持早期快
速收敛和后期精细调整的平衡。隐藏层维度
3.1 试验细节与评价指标 d model
设置为 32,前馈网络维度 d f 设置为 128,以满足模型
f
为了验证 VSP-LLM 架构的有效性,在试验台采 复杂度和平衡性能的需求。选择 GELU 作为激活函
集的跨座式单轨列车齿轮箱振动数据集(DGLC)上 数,因其在处理复杂非线性特征时较 ReLU 具有更好
进 行 了 试 验 。 该 数 据 集 分 为 三 类, 分 别 为 内 圈 故 的稳定性,且能保持较好的梯度传播。在损失函数
障、装配误差和正常齿轮箱振动信号。实测数据的 方面,试验使用了 MSE、RMSE 和 MAE 的组合,可以
采样频率为 10240 Hz,数据集按 7∶2∶1 的比例划分 从多个角度全面衡量模型的预测性能。

