Page 199 - 《软件学报》2025年第5期

P. 199

程浩喆等: 基于双向拟合掩码重建的多模态自监督点云表示学习 2099

效果, 网络模型需要在生成过程中对其进行迭代纠正和剔除. 为此, 本文对 StyleGAN 模型在面向点云生成方向改
进, 以提高重建效果并隔绝噪声影响. 该模型将教师模型中局部点云作为基础风格的真实值输入进 StyleGAN 网
络. 经过生成器和判别器不断地对抗生成, 产生出与局部点云风格相似的输出. 值得注意的是, 该生成对抗过程仅
在内部完成, 即不参与全局参数更新, 以保证生成结果的纯净性. 最后, 具有阈值控制的相似性融合模块计算辅助
点云与掩码重建结果的相似性得分. 若满足阈值条件则保留原始掩码重建结果, 反之将其定义为噪声并将辅助点
云弥补替换进掩码重建结果.
(4) 多模态教师模型
为从其他包括图像和文本等模态获取更多有利于点云表示学习的信息, 现有方法 [13,35] 多数以对比学习的方式完
成相似性聚类估计. 然而, 不同模态的数据基础存在本质差异, 经过参数非共享的不同网络学习表示后所产生出的特
征存在跨模态信息冲突或单模态崩溃 [41] . 因此, 通过挖掘并对齐点云-图像-文本三模态的相关特征以提高点云表示
能力是多模态教师模型的核心任务. 一方面, 多模态教师模型通过 ViT-B [42] 和 CLIP [32] 模型获取图像和文本特征. 另
一方面, 基于 Transformer 的掩码重建模型中初始化的图像和文本标记经过与点云模态参数共享的学习网络处理后,
两类标记被迭代地映射上点云模态的全局特征, 旨在建立跨模态参数传递桥梁. 之后, 图像和文本模态的特征和标记
经过三重特征对比损失函数的不断迭代学习后, 能更为精确地对齐多模态特征并提高点云模态表示和判别能力.

2.2 逆密度尺度指导下的“坏教师”模型
现有教师-学生模型通过监督学习模型将重建结果向真值逼近以获取表示. 但该类模型在面向掩码重建任务
上存在拟合速度慢且模型鲁棒性差的缺陷. 因此, 本文期望通过合理设计噪声模型反向逼近拟合并正确导向嵌入
空间参数更新. 然而, 标准高斯分布对局部区域真值偏移的实用效果欠佳. 其原因在于点云分布存在非均匀性. 若
统一添加某固定范围变化内的噪声将打破原有三维几何结构, 致使反向拟合效果降低. 基于此, 本文提出逆密度尺
度指导下的“坏教师”模型, 如图 3 所示.

噪声点重建结果P bad
局部邻域逆密度尺度计算构建噪声模型
噪声N 多保留部分特征F M
最大值归一化+ 层 L FF
计算局部空间计算高斯核多层卷积计算卷教师模型特征F t
欧几里得距离密度估计 L Bi-fit
中心点P c 局部密度尺度积
DL(·)
Dis c
DS
L MR L B-MR
局部邻域P n 掩码重建结果P re
元素级相加元素级相乘双向拟合重建损失函数
图 3 逆密度尺度指导下的“坏教师”模型

“坏教师”模型首先考虑点云的密度属性, 因此本文利用基于高斯核密度估计的逆密度重加权方法 [8] 衡量局部
P c ∈ R N ′ ×3 计算欧几里得距离, 并得到局部空
密度尺度并约束局部噪声变化范围. 模型对经过最远点采样的中心点
间距离张量 Dis c ∈ R N ′ ×N ′ . 其次, 高斯核密度估计 DL(·) 局部空间距离张量 Dis c ∈ R N ′ ×N ′ 计算逆密度:

/ ( )
1 ∑ K 1 (Dis c )
DL(Dis c ) = 1 g (1)
K i=1 h 3 h
( ) 3
1 − 2 u 2
1
其中, K 为局部邻域点数, h 为带宽, g(u) = √ e 为多元高斯核函数. 之后, 逆密度尺度被最大值归一化, 并
2π
DS ∈ R N ′ ×K×1 .
送入多层卷积组成的密度网络学习局部密度特征, 其输出结果被定义为局部逆密度尺度
在“坏教师”模型中, 本文首先初始化噪声张量 N . 其中, 各子噪声的变化范围限制于各局部邻域点距离的最
N 逐元素相乘以控制变化范围. 之后, 基于 Transformer 的掩码重建
大和最小值. 其次, 局部逆密度尺度 DS 与噪声
模型中的局部邻域 P n ∈ R N ′ ×K×3 与逆密度尺度加权下的噪声 N 加和, 完成邻域点噪声偏移. 最终, 偏移结果经过多
P bad ∈ R N ′ ×K×3 .
层卷积完成特征抽象并重建估计噪声点, 得到与掩码重建结果形状相同的“坏教师”重建结果
为将嵌入空间参数向正确方向更新, 掩码重建结果 P re 需在背离“坏教师”重建结果 P bad 的同时, 加速向真实值

194 195 196 197 198 199 200 201 202 203 204