Page 201 - 《软件学报》2025年第5期
P. 201

程浩喆 等: 基于双向拟合掩码重建的多模态自监督点云表示学习                                                  2101



                                          (       )       (       )      P stylegan · P re
                                       Dis P stylegan , P re = 1−cos P stylegan , P re = 1−           (7)
                                                                       ||P stylegan ||·||P re ||
                                      τ 时, 保留掩码重建结果. 反之, 辅助点云替换重建结果. 最终得到经过辅助点云去噪的
                    最终, 当满足距离阈值
                 掩码重建输出结果:

                                                 {              (       )
                                                   P re ,  0 < Dis P stylegan , P re < τ
                                            P re ⇐           (       )                                (8)
                                                   P stylegan ,  Dis P stylegan , P re > τ
                    经过辅助点云替换的重建结果           P re  进一步在“坏教师”模型中发挥作用.

                 2.4   多模态教师模型
                    为充分挖掘多模态信息中有助于提升点云表示力的潜在特征, 并防止多模态特征对齐过程中存在某模态内信
                 息归零所导致的模型崩溃, 本文受到二维图像正则化方法                  VICReg [41] 的启发, 通过多模态教师模型在三重特征对比
                                                                   I
                 损失函数的约束下改善上述挑战. 首先, 与点云              P 相对应的图像   和文本      T  数据被分别送入预训练模型         CLIP  或
                                                           C
                                                                                    C
                 ViT-B  进行编码   f (·) 并得到图像特征  {F I = f I (I)|F I ∈ R } 和文本特征  {F T = f T (T)|F T ∈ R } . 在基于  Transformer 的
                 掩码重建模型中, 参数共享映射所得到的图像标记                F I-token  和文本标记  F T-token  经过线性编码得到  F I-E ,F T-E  . 之后, 与
                 模态特征   F I ,F T  进行跨模态不变性特征对齐      (由于计算方式相同, 并且为了避免混淆, 模态标记              I,T  被暂时省略),
                 其损失函数    L s  可被表示为:

                                                  L s (F,F E ) = Smooth L1 (F,F E )                   (9)
                    在模态内变量正则化损失函数           L v  中, 本文通过具有阈值约束的铰链损失函数来预防嵌入向量归零崩溃:
                                        1  B ∑{  [  √         ]}  1  B ∑ {  [  √   (  )  ]}
                              L v (F,F E ) =  max 0,1−  Var(F i )+ε +  max 0,1−  Var F E,i +ε        (10)
                                       B                         B
                                          i                         i
                 其中,    B 为整体批次大小,   ε 为常量, 一般定义为      1E–4. 假设某嵌入向量信息归零崩溃, 则在对比学习的梯度下降
                 过程中会连带性地影响多个嵌入向量. 因此, 需要协方差正则化损失函数                      L c  解除向量之间的关联性:

                                                                               2
                                           1  ∑     C ∑  [    ( )][       ( )] T
                                                1
                                                                               
                                                                               
                                               
                                  L c (F,F E ) =       F j −mean F j  F j −mean F j  
                                           B    C −1                          
                                               
                                                                               
                                             i,j     j=1
                                                                                i,j
                                                                                     2
                                                  1
                                             1  ∑     C ∑  [     (  )][       (   )] T
                                                                                     
                                                                                     
                                           +            F E,j −mean F E,j  F E,j −mean F E,j       (11)
                                                 
                                             B    C −1                              
                                                 
                                                                                     
                                              i,j     j=1
                                                                                      i,j
                 其中,   C  为嵌入特征通道数,    mean(·) 表示通道级均值化操作. 综上所述, 带有模态标记的多模态三重特征对比损失
                 函数为如下:

                             L MM (F I ,F T ,F I-E ,F T-E ) =α[L s (F I ,F I-E )+L s (F T ,F T-E )]+β[L v (F I ,F I-E )+L v (F T ,F T-E )]
                                               +γ[L c (F I ,F I-E )+L c (F T ,F T-E )]               (12)
                 其中,    α 、   β 和  γ 为可学习平衡参数.

                 2.5   总体损失函数
                    综合上述对本文所提出方法的描述, 总体损失函数共包含两个部分: (1) 逆密度尺度指导下的“坏教师”模型中
                 双向拟合重建损失函数        L Bi-fit  . (2) 多模态教师模型中的三重特征对比损失函数       L MM  . 因此, 本文总体损失函数    L overall
                 可表示为:

                                                                                                     (13)
                                                     L overall = L Bi-fit +L MM

                 3   实 验

                 3.1   预训练和应用细节
                    本文以基于三维坐标的点云、基于             RGB  的图像及基于类别描述的文本作为输入. ShapeNet           [16] 是点云模型的
                 预训练数据集, 由     CAD  模型组成且包含      55  个人工合成形状. 其扩展版        ShapeNetPart 含有归属于  16  个类别的
   196   197   198   199   200   201   202   203   204   205   206