Page 195 - 《软件学报》2025年第5期
P. 195
程浩喆 等: 基于双向拟合掩码重建的多模态自监督点云表示学习 2095
proposed method is evaluated on ModelNet, ScanObjectNN, and ShapeNet datasets for fine-tuning tasks. Experimental results demonstrate
that the pretrained model achieves state-of-the-art performance in various point cloud recognition tasks, including point cloud classification,
linear support vector machine classification, few-shot classification, zero-shot classification, and part segmentation.
Key words: 3D point cloud; self-supervised representation learning; multi-modal feature; density scale; generative adversarial network (GAN)
随着激光雷达等三维数据采集设备的精度飞速提高, 推动利用点云表征真实场景的发展进程. 现如今, 点云已
广泛应用于自动驾驶 [1] 、虚拟现实以及场景建模 [2] 等多种前沿智能领域. 基于深度学习的点云处理方法在分类和
[3]
分割等多个任务上取得令人惊叹的效果. 其中, PointNet 直接将点云坐标输入进卷积网络, 通过学习全局特征和
对称最大值池化函数完成点云分类和分割工作. 此后, 研究者们从采样方式、卷积层构建等方向, 针对该模型在局
部信息探索力度不足等缺陷提出改进方法 [4–8] , 从而将点云识别精度提升到前所未有的高度.
然而, 点云数据数量庞大, 造成监督学习下网络训练和数据标注的时间成本过高, 阻碍了点云处理领域的进
步. 因此, 众多方法开始利用无监督预训练手段获取点云潜层特征表示并将其迁移应用至点云分类 [9] 、分割 [10] 、
物体探测 [11] 以及补全 [12] 等下游处理工作, 其效果已达到甚至超越同条件下监督学习的精度水平. 作为无监督学习
的分支, 点云自监督表示学习预训练以无标签点云为输入的模型, 以挖掘三维空间几何拓扑特征并探索点级语义
结构信息. 现有方法以基于点云重建和对比学习的方法为主要发展趋势. 前者将部分点掩码后, 通过教师-学生模
型预测并重建完整点云, 旨在学习几何空间特征表示 [10] . 然而, 该类方法中点生成模型存在缩放能力差、拟合时
间长以及生成新噪声等缺陷. 后者建立点云正负样本对并在嵌入空间中通过相似性对比约束正负样本对之间的度
量距离以提高模型特征判别性. 但该方法受到样本对建立、数据过拟合等因素影响, 导致其泛化效果略逊于基于
点云重建的方法 [11] . 此外, 现有场景描述性信息的获取方式丰富多样, 促进基于点云、图像和文本等多模态表示
学习方法的长足发展. 此类方法从多源信息中筛选有助于提高点云表示的特征, 并通过全局特征对齐和补充综合
改善表示能力和算法鲁棒性. 然而, 不同模态的数据基础存在较大差异, 直接在度量空间中衡量和判别多模态特征
相关性和互益性, 将导致在某模态嵌入空间信息崩溃时大幅降低点云特征表示力 [13] .
综合上述对现有点云自监督表示学习方法的描述和分析, 本文主要研究问题如下: (1) 现有基于点云重建的方
法中模型泛化性差且掩码区域重建时间长. 此外, 完整点云坐标和掩码点云所构成的教师-学生模型中, 重建约束
单一, 导致拟合结果非最优化. (2) 掩码重建可能伴随新噪声点生成, 对点云表示空间造成污染. (3) 不加以约束和
区别的情况下, 点云、图像和文本模态特征直接对齐融合将导致表示学习效果下降.
针对以上问题, 本文提出基于双向拟合掩码重建的多模态自监督点云表示学习方法. 该方法以点云、图像和
文本数据为输入, 联合基于点云重建和对比学习方法为骨干, 通过 3 种简单且有效的新模型提高点云表示学习效
果. 首先, 受到信息论中关于信息增益最大化的启发, 本文提出逆密度尺度指导下的“坏教师”模型. 该模型通过对
局部邻域真值完成逆密度尺度指导下的高斯噪声偏移, 并提取该模型的特征分布以形成“坏教师”模型. 之后, 在点
云坐标和特征分布双重约束下, 被重建点的嵌入空间特征逐步背离“坏教师”模型并向由真值坐标和特征构成的
“好教师”模型逼近, 旨在加速重建拟合并提升模型所提取特征的表示力. 针对重建过程生成新噪声点问题, 基于
StyleGAN 的辅助点云生成模型从局部区域特征中获取特定风格, 并生成风格化局部点云. 直接利用风格点云整体
替换掩码生成结果将降低模型预训练难度, 不利于微调泛化至下游任务. 因此, 本文将掩码重建和风格生成的两种
点云在余弦距离度量下替换或保留. 为了充分探索多模态信息的潜在价值并防止模态信息崩溃, 多模态教师模型
将点云特征映射下的多模态标记 (token) 定义为基准样本, 并与图像和文本的预训练特征对齐. 之后, 模态内变量
正则化损失函数和协方差正则化损失函数阻止嵌入空间特征归零崩溃, 并切断特征张量通道级关联性以防止信息
崩溃效应扩散.
在实证实验中, 本文选择 ModelNet10 [14] 、ModelNet40 [14] 、ScanObjectNN [15] 及 ShapeNet [16] 数据集进行点云分
类、线性支持向量机分类、小样本 (few-shot) 分类、零样本 (zero-shot) 分类以及部件分割等下游微调测试, 以验
证所提出方法的有效性. 此外, 消融学习、超参数验证及鲁棒性测试的实验结果证明所提出方法包含的子模型均
对提升表示学习效果存在贡献, 并且模型所选择的参数和策略均合理. 综上, 本文主要贡献总结如下.
(1) 提出逆密度尺度指导下的“坏教师”模型. 通过设立“逆向”密度噪声偏移的“坏教师”模型和“正向”高斯特征