Page 93 - 《振动工程学报》2026年第5期
P. 93

第 5 期              赵 玲,等:大语言模型在跨座式单轨列车齿轮箱振动信号预测中的应用                                        1297

                  通过这些模块化设计的            prompt 内容,VSP-LLM       号进行实例归一化         [22] :
              的  prompt 模块在架构中起到了以下作用:增强模型                                            x−µ(x)
                                                                                   ˆ x =                  (5)
              理解力,通过精心设计的            prompt,模型能够更准确地                                   σ(x)
                                                                式中,   x表示输入的原始振动信号,通常为一段时间
              解读输入数据的特性,尤其是在处理多模态或非平
                                                                序 列 数 据;   ˆ x表 示 经 过 实 例 归 一 化 后 的 振 动 信 号 ;
              稳信号时,可显著提升对输入特征的提取效果;优化
                                                                µ(x)表示输入信号的均值,用于表征该段信号的整
              预测精度,将任务目标明确写入               prompt 模板中(如预
                                                                体中心位置;      σ(x)表示输入信号的标准差,用于表征
              测步数、外部变量等),能够指导模型专注于任务关
                                                                该段信号的波动幅度或离散程度。该过程可以消除
              键点,从而减少噪声干扰,提高预测准确性;统一多
                                                                信号间的幅值差异,确保信号的统计特性一致。归
              任务处理框架,通过模块化的              prompt 模板设计,可以
                                                                一化后的信号       ˆ x能够在后续处理过程中提供更加稳
              适配不同场景下的预测任务(如趋势预测、故障诊断
                                                                定的输入特性。接着,归一化后的信号被                   Patching  为
              等) , 实 现 通 用 化 和 精 细 化 的 预 测 功 能 。 这 些
                                                                多个固定长度的时间片段,通过Patching              操作将信号
              prompt 元素经过自然语言处理,结合              DCBiformerNet
                                                                拆解为易处理的片段           Patches(ˆx) ⇒{ˆx 1 , ˆx 2 ,··· , ˆx N }。这
              网络预测结果       Y DBC ,生成嵌入向量    P E ,形成统一的输
                                                                些片段保留了时间序列的局部特征,能够有效捕捉
              入表示:
                                                                信号中的细节信息。
                                                 
                                  L ∑
                                                 
                                                 
                                    ′′             (4)          特征提取 & MHCA。 对于每一个时间片段,Patch
                                                   
                           
                 P E = LLM E ϕ  G n +  W ·ϕ(Y DBC )+∆p n
                                    l            
                                  l=1                           embedder 模块负责将其转换为高维特征向量。该模
              式 中,  LLM E [·]表 示 大 语 言 模 型 的 嵌 入 映 射 函 数 ;      块通过线性变换将片段映射到高维空间中,生成振
              ϕ(·)表示非线性映射函数或特征变换函数;                 G n 表示第     动信号时序      Patches(time series patches)。这些嵌入向
              n个基础 prompt 表示;     W 表示第     l个可学习权重矩            量捕捉了时间片段中的丰富信息。紧接着,预先训
                                    ′′
                                    l
              阵;  L表示参与融合的模块数;           ∆p n 表示第  n  个位置补      练的单词嵌入(pre-trained word embeddings)向量被映
              偿项/位置编码增量。该结合不仅保留了更多时序                            射到原型(text prototypes)  [23] :即从大量文本数据中提
              特征信息,还将自然语言提示中的语义信息融入模                            取出典型的、具有代表性的句子或段落。并通过多
              型中,从而为      LLM  的后续处理打下基础。                       头交叉注意力机制(MHCA)生成用于时间序列                    Patch

              2.2.2    input 模块                                 的输入嵌入向量。这一过程如图                 7  所示,该图说明
                  input 模块的设计是确保        LLM  能够有效处理振            了将预训练的词嵌入映射到原型的过程,然后使用
              动信号数据和提取振动信号特征的关键步骤。在                             原型通过多头交叉注意(MHCA)生成时间序列补丁
              VSP-LLM  架构中,设计了一个专门处理振动信号数                       的输入嵌入。
              据和提取振动信号特征的模块。这个模块经过以下                                其中,生成的文本原型与时间序列片段一起作
              一系列精细的操作步骤,确保输入的振动信号能够                            为输入,进入多头交叉注意力机制的计算过程如下:
              被模型充分理解和利用。                                                        H ∑         (  Q h,P K T h,P  )
                                                                 MHCA(Q, K,V) =    W h ·Softmax  √   V h, ˆx i  (6)
                  实例归一化 & Patching。振动信号通常受到噪                                    h=1              d k
                                                                         、
                                                                              、
              声和幅值差异的影响,这可能会导致模型的预测精                            式中,   Q h,P K h,P V h, ˆx i  、 W h  分别表示第 h = 8个头的查
              度下降。为了应对这一挑战,需要对输入的振动信                            询、 键 、 值 向 量 以 及 注 意 力 权 重 矩 阵 , 其 中 ,    Q h,P 、

                               Pre-trained                 late short up                    Time Series
                             word embeddings                                                 Patches
                                                         early steady down                   Patch 1
                           late
                          early
                                                          continued to up                    Patch 2
                          down
                           up                                                 MHCA
                                                             ……                               … …
                           …
                          steady
                                                         continued to down                    Patch i
                          short
                          long
                                                         first up then down                   … …
                          Word       Prototypes

                                                        图 7 输入嵌入
                                                     Fig. 7 Input embedding
   88   89   90   91   92   93   94   95   96   97   98