Page 94 - 《振动工程学报》2026年第5期
P. 94

1298                               振     动     工     程     学     报                     第 39 卷

              K h,P 由生成的文本原型提供,         V h,ˆx i 由时间序列片段提       为训练集、验证集和测试集。DGLC                数据集的试验
              供;d k  表示  K h, 向量的维度,通常也等于该注意力头                  台如图    8  所示。
                          P

              中  Q h, 向量的维度。通过        MHCA  的处理,振动信号
                   P
              时序片段与文本原型之间的相关性得到了全面的建
              模,模型能够识别出时间序列数据中的关键特征,并
              利用文本提示的信息来增强预测能力。
                  振动信号     Patch  嵌入。在经过多头交叉注意力
              机制处理后,生成的高维特征嵌入包含了丰富的时
              序信息和语义信息。为了使这些嵌入向量能够进一
              步应用于预测任务,需要再在生成的高维特征向量
              后面连接一层线性映射层,通过               W f ·z+ b f  将高维特
              征转化为最终的模型输入形式,其中,                 z表示经过多                   图 8 DGLC  数据集的试验台示意图
              头交叉注意力机制处理后得到的高维特征嵌入向                                Fig. 8 Schematic of the test bench for the DGLC dataset
              量,包含振动信号的时序特征与语义信息;                   W f 表示线         在 试 验 中, 选 取 了   DGLC  数 据 集 的  5  组 数 据 和
              性映射层的权重矩阵;           b f 表示线性映射层的偏置项;             CWRU  数据集的      1  组数据(采样频率       12 kHz 的驱动
              W f ·z+ b f  表示线性变换操作,即通过权重矩阵与偏                   端 故 障 数 据, 编 号 为 : Drive_end_2 99.mat) 进 行 测
              置项将高维特征        z转换为最终的模型输入表示。                     试。其中,编号为          的正常工况数据集在理论转速
                                                                                 7
              2.2.3    预训练大语言模型与预测                              2000 r/min,负载  252 N·m,实际转速    1946 r/min  的条件
                  经过前面     prompt 和  input 模块处理之后的振动            下 采 集; 编 号 为   13  的 正 常 工 况 数 据 集 在 理 论 转 速
              信号数据,被送入预训练好的大语言模型(LLM)中                          1500 r/min,负载  334 N·m,实际转速    1460 r/min  的条件
              进行处理。将经过         LLM  的多层处理后的嵌入向量传                下采集;编号为        211  的内圈故障工况数据集在理论
              递至预测生成模块。在此阶段,模型的任务是将高                            转速   2000 r/min, 负 载  375 N·m, 实 际 转 速  1945 r/min
              维嵌入向量转换为可解释的预测结果。为此,输出                            的条件下采集;编号为          78  和  87  的装配误差工况数据
              首先通过一个线性投影层(projection layer),将高维向                集分别在理论转速          2000 r/min,负载  375 N·m,实际转
              量投影到输出空间中。这个过程的数学表达式如下:                           速  1945 r/min  和 理 论 转 速  2000 r/min, 负 载  252 N·m,
                FCP signal (T) = W·PH·                          实际转速     1945 r/min  条件下采集。并在      78  工况数据
                 [                                   ]          集上进行了消融和对比试验;在                        模型上验
                 Flatten(LLM B (α·I E (T),β·P E (T)))+γ·T  (7)                               VSP-LLM
              式中,  FCP signal 为最终的预测输出;      PH(·)表示预测头;        证了   DGLC5  个数据集以及       CWRU  数据集的预测效
              W为映射层权重;        α和 β分别为    input 和  prompt 模块部    果; 在  CWRU   数 据 集 上 对 比    TIME-LLM、 DLinear、
              分的比例系数;       γ为预测时间步长 的权重系数。式                    Autoformer、informer 模型的预测效果,对其进行模型
                                            T
              (7) 通过将时间步长       T 引入到预测生成过程中,确保                 泛化能力的分析。
              了 模 型 在 生 成 预 测 时 能 够 考 虑 未 来 时 间 的 影 响;              在试验细节方面,为确保模型达到最优性能,参
              Flatten(·)表示展平操作,用于将 LLM 输出的多维隐                   考  JIN  等   [18]  关于大语言模型在时间序列预测任务中
              藏状态展开为一维特征向量,以便后续预测头和线                            的深入研究及其模型超参数设定经验,对所有关键
              性映射层处理;       LLM B (·)表示预训练大语言模型的主               超参数进行了细致调整和记录。包括学习率、批量
              干网络(Backbone);    I E (T)表示  input 模块在预测时间        大小、层数和正则化参数等。具体的超参数设置如
              步  T  对应的输入嵌入表示,即由原始振动信号经过                        表  2  所示。由于振动信号数据具有复杂的时序特
              输入编码后得到的特征向量。                                     性,模型复杂度较高,尤其是在内存受限的情况下,

                                                                选择批量大小为        2  有助于更细致地捕捉数据中的细
              3    试  验  验  证                                   微特征。学习率从          0.01  逐步衰减至    0.001  的动态调
                                                                整策略,防止梯度爆炸或模型过拟合,以保持早期快

                                                                速收敛和后期精细调整的平衡。隐藏层维度
              3.1    试验细节与评价指标                                                                            d model
                                                                设置为    32,前馈网络维度       d f 设置为  128,以满足模型
                                                                                        f
                  为了验证     VSP-LLM  架构的有效性,在试验台采                复杂度和平衡性能的需求。选择                GELU  作为激活函
              集的跨座式单轨列车齿轮箱振动数据集(DGLC)上                          数,因其在处理复杂非线性特征时较                 ReLU  具有更好
              进 行 了 试 验 。 该 数 据 集 分 为 三 类, 分 别 为 内 圈 故          的稳定性,且能保持较好的梯度传播。在损失函数
              障、装配误差和正常齿轮箱振动信号。实测数据的                            方面,试验使用了        MSE、RMSE    和  MAE  的组合,可以
              采样频率为      10240 Hz,数据集按    7∶2∶1   的比例划分         从多个角度全面衡量模型的预测性能。
   89   90   91   92   93   94   95   96   97   98   99