Page 201 - 《软件学报》2025年第5期
P. 201
程浩喆 等: 基于双向拟合掩码重建的多模态自监督点云表示学习 2101
( ) ( ) P stylegan · P re
Dis P stylegan , P re = 1−cos P stylegan , P re = 1− (7)
||P stylegan ||·||P re ||
τ 时, 保留掩码重建结果. 反之, 辅助点云替换重建结果. 最终得到经过辅助点云去噪的
最终, 当满足距离阈值
掩码重建输出结果:
{ ( )
P re , 0 < Dis P stylegan , P re < τ
P re ⇐ ( ) (8)
P stylegan , Dis P stylegan , P re > τ
经过辅助点云替换的重建结果 P re 进一步在“坏教师”模型中发挥作用.
2.4 多模态教师模型
为充分挖掘多模态信息中有助于提升点云表示力的潜在特征, 并防止多模态特征对齐过程中存在某模态内信
息归零所导致的模型崩溃, 本文受到二维图像正则化方法 VICReg [41] 的启发, 通过多模态教师模型在三重特征对比
I
损失函数的约束下改善上述挑战. 首先, 与点云 P 相对应的图像 和文本 T 数据被分别送入预训练模型 CLIP 或
C
C
ViT-B 进行编码 f (·) 并得到图像特征 {F I = f I (I)|F I ∈ R } 和文本特征 {F T = f T (T)|F T ∈ R } . 在基于 Transformer 的
掩码重建模型中, 参数共享映射所得到的图像标记 F I-token 和文本标记 F T-token 经过线性编码得到 F I-E ,F T-E . 之后, 与
模态特征 F I ,F T 进行跨模态不变性特征对齐 (由于计算方式相同, 并且为了避免混淆, 模态标记 I,T 被暂时省略),
其损失函数 L s 可被表示为:
L s (F,F E ) = Smooth L1 (F,F E ) (9)
在模态内变量正则化损失函数 L v 中, 本文通过具有阈值约束的铰链损失函数来预防嵌入向量归零崩溃:
1 B ∑{ [ √ ]} 1 B ∑ { [ √ ( ) ]}
L v (F,F E ) = max 0,1− Var(F i )+ε + max 0,1− Var F E,i +ε (10)
B B
i i
其中, B 为整体批次大小, ε 为常量, 一般定义为 1E–4. 假设某嵌入向量信息归零崩溃, 则在对比学习的梯度下降
过程中会连带性地影响多个嵌入向量. 因此, 需要协方差正则化损失函数 L c 解除向量之间的关联性:
2
1 ∑ C ∑ [ ( )][ ( )] T
1
L c (F,F E ) = F j −mean F j F j −mean F j
B C −1
i,j j=1
i,j
2
1
1 ∑ C ∑ [ ( )][ ( )] T
+ F E,j −mean F E,j F E,j −mean F E,j (11)
B C −1
i,j j=1
i,j
其中, C 为嵌入特征通道数, mean(·) 表示通道级均值化操作. 综上所述, 带有模态标记的多模态三重特征对比损失
函数为如下:
L MM (F I ,F T ,F I-E ,F T-E ) =α[L s (F I ,F I-E )+L s (F T ,F T-E )]+β[L v (F I ,F I-E )+L v (F T ,F T-E )]
+γ[L c (F I ,F I-E )+L c (F T ,F T-E )] (12)
其中, α 、 β 和 γ 为可学习平衡参数.
2.5 总体损失函数
综合上述对本文所提出方法的描述, 总体损失函数共包含两个部分: (1) 逆密度尺度指导下的“坏教师”模型中
双向拟合重建损失函数 L Bi-fit . (2) 多模态教师模型中的三重特征对比损失函数 L MM . 因此, 本文总体损失函数 L overall
可表示为:
(13)
L overall = L Bi-fit +L MM
3 实 验
3.1 预训练和应用细节
本文以基于三维坐标的点云、基于 RGB 的图像及基于类别描述的文本作为输入. ShapeNet [16] 是点云模型的
预训练数据集, 由 CAD 模型组成且包含 55 个人工合成形状. 其扩展版 ShapeNetPart 含有归属于 16 个类别的