Page 197 - 《软件学报》2025年第5期
P. 197
程浩喆 等: 基于双向拟合掩码重建的多模态自监督点云表示学习 2097
器的优势, 并利用集成表示蒸馏完成点云表示学习任务. 陈浩楠等人 [36] 提出基于多模态关系的三维形状识别网络.
所设计的多模态关系模块和门控模块提取并加权局部特征和全局特征, 从而提高三维形状识别的准确率和性能.
与上述方法不同, 本文关注于多模态特征对齐困难及模态信息崩溃的现有挑战, 在图像和文本特征上设置 3 种不
同的特征对齐约束, 以保证多模态信息能为点云表示学习能力的提升做出贡献.
1.4 基于点云补全的生成模型
现有点云补全生成方法主要包括基于生成对抗网络、基于扩散模型以及基于变分自动编码器. SpareNet [37]
提出基于风格的对抗性渲染点生成器补全缺失点云. 该方法首先通过通道注意力指导的边缘卷积探索局部和全
局特征. 之后利用 StyleGAN [38] 将形状特征编码并利用深度图渲染感知不同视角下的特征. 基于生成对抗网络的
[39]
方法具有良好的抗噪性, 但生成结果大多非均匀. PVD 提出基于扩散模型的三维形状概率生成方法, 用于无条
件形状生成和有条件多模式形状补全. 该方法将去噪扩散模型与 3D 形状的混合点-体素表示相结合. 通过一系
列去噪将观测点云数据的扩散过程反转为高斯噪声, 并通过优化似然函数的变分下界训练模型. 基于扩散模型
的方法在生成结果上相对较佳, 但其训练时间长且鲁棒性较弱. VRCNet [40] 提出一种变分自编码器点云补全框
架, 通过完整点云和缺失点云间的概率建模及点关系增强策略提高点云补全效果. 基于变分自编码器的方法适
用于探索具有层级结构的数据, 因此在点云处理领域得以广泛应用. 本文综合利用自动编码器和生成对抗网络
的优势, 即通过基于掩码策略的自动编码器捕获全局和局部点云特征, 进而生成掩码部分. 为了减少掩码生成噪
声点的影响, 生成对抗网络的重建结果被有选择地与掩码结果融合, 共同提高表示学习效果.
2 基于双向拟合掩码重建的多模态自监督点云表示学习方法
基于双向拟合掩码重建的多模态自监督点云表示学习网络框架将在第 2.1 节中介绍. 其中, 本文所采用的骨
干网络将被详细介绍. 在第 2.2 节中, 逆密度尺度指导下的“坏教师”模型将从逆密度尺度计算和双向拟合重建损失
函数两个方面进行描述. 之后, 在第 2.3 节中, 基于 StyleGAN 的辅助点云生成模型将阐述基于局部邻域特征的辅
助点云重建过程和相似性融合算法. 在第 2.4 节中, 多模态教师模型将阐明点云、图像及文本信息的特征对齐, 以
及三重特征对比损失函数约束的详细过程. 最后, 在第 2.5 节中, 本文的总体损失函数将被给定.
2.1 框架总览
本文所提出的多模态自监督点云表示学习方法的核心在于以图像和文本为辅助, 依赖重建掩码区域和特征相
似性对比的方式挖掘点云空间几何拓扑结构所蕴含的特征, 并将其泛化至以捕获点云环境特征为基石的下游预测
{
D = P ∈ R N×3 , I ∈ R H×W×3 ,T ∈ R L } P 、 和
I
性工作. 现假设存在由点云、图像和文本组成的数据集, 并定义为 , 其中
,
T 分别表征单个形状组成的三维点云集、随机视角下映射的图像及描述点云的文本信息. 其中, N H ×W 和 L 分
别代表点云数、像素数以及文本长度. 网络框架如图 1 所示, 基本包含以下 4 个主要部分.
(1) 基于 Transformer 的掩码重建模型
本文采用基于 Transformer 的掩码重建模型 [35] 为骨干, 其学习过程如图 2 所示. 内部参数固定的教师模型以
[4]
P 为输入, 分别通过最远点采样 (farthest point sampling, FPS) 和 K 最近邻 (K-nearest neighbor, KNN) 查
三维点云
′
询获取中心点 P c ∈ R N ′ ×3 及其局部邻域 P n ∈ R N ′ ×K×3 , 其中 N 和 K 分别为采样中心点和邻域点数. 之后, 多层卷积
F t ∈ R N ′ ×C C 为特征维度数. 教师模型将
组成的编码器对局部邻域进行特征抽象, 并得到教师模型特征分布 . 其中,
中心点 P c 和分布 F t 送入学生模型中, 以掩码比率 γ 进行点丢弃, 并得到保留部分 M ∈ R N γ ×3 、丢弃部分 ˜ M ∈ R N 1−γ ×3
F M ∈ R N γ ×C N 1−γ 为保留点和丢弃点数. 为从保留部分和
以及经过掩码指针 m idx 查询的保留部分特征 . 其中, N γ 和
p
丢弃部分得到更全面的全局特征信息指导, M 和 ˜ M 也被线性编码为全局保留位姿特征 F ∈ R N γ ×C 和全局丢弃特
M
p
F ∈ R N 1−γ ×C . 由于 Transformer 编解码器以标记 (token) 和位姿 (position) 作为输入, 并且图像和文本模态特
征位姿
˜ M
征需要与点云域对齐. 因此, 多模态全局查询 (global query) 初始化构建 3 t p F F ,
p
t
F ,
个模态的标记及其位姿:
P
P F , I , I
t p C p 进行级联拼接并输入 Transformer 编码器, 以参数共享的方式
F , F ∈ R . 之后, 3 种模态标记和位姿与 F M 和 F
T T M
F ∈ R N 1−γ ×C F M ∈ R N γ ×C
t
将点云模态特征映射至多模态标记和位姿. 在解码重建过程中, 首先初始化掩码标记 并将其与
˜ M