Page 209 - 《软件学报》2025年第5期
P. 209
程浩喆 等: 基于双向拟合掩码重建的多模态自监督点云表示学习 2109
Airplane 等. 后缀包含“with white background”“with white context.”等. 上述文本描述最终将被合并成一句完整的信息
作为零样本分类任务的输入. 表 12 展示了文本模态消融学习结果. 从表中结果可以看出, “A rendered image of”+类别
的效果最佳. 其原因在于零样本分类任务以图像和文本作为输入, 针对图像的准确文本描述将更有助于模型学习. 然
而, 固定描述性语言的信息丰富度和贡献性有限, 并且文本信息模糊可能导致表示学习模型吸纳信息疲软等不利影响.
表 12 ModelNet40 数据集上文本模态点云零样本分类消融学习结果 (%)
前缀+类别 OA 类别+后缀 OA
“ ”+类别 60.22 类别+“ ” 60.22
“A”+类别 62.90 类别+“.” 56.23
“A model of”+类别 56.32 类别+“with white background.” 63.89
“A model of a”+类别 58.65 类别+“with white context.” 63.98
“An image of”+类别 62.38 - -
“An image of a”+类别 62.22 - -
“A 3D model of”+类别 63.02 - -
“A 3D model of a”+类别 32.15 - -
“A rendered model of”+类别 63.31 - -
“A rendered model of a”+类别 62.98 - -
“A point cloud of”+类别 60.11 - -
“A point cloud of a”+类别 60.85 - -
“A point cloud model of”+类别 63.55 - -
“A point cloud model of a”+类别 62.59 - -
“A 3D rendered model of”+类别 62.26 - -
“A 3D rendered model of a”+类别 62.95 - -
“A rendered image of”+类别 66.38 - -
“A rendered image of a”+类别 62.39 - -
“A 3D rendered image of”+类别 65.21 - -
“A 3D rendered image of a”+类别 64.05 - -
(6) 模型复杂度
3D 预训练模型的复杂度常通过模型空间和时间消耗量级来衡量. 为了评价所提出方法的模型复杂度, 本文将
在相同运行条件下通过 4 种不同类型的指标测试现有方法及本文方法. 指标包括参数量、显存消耗、单轮运行时
间以及 FLOPs. 此外, 待对比的方法包括 Point-MAE [19] 、Point-M2AE [20] 、I2P-MAE [28] 、ACT [30] 以及 ReCon [35] . 在
ModelNet40 数据集上微调测试模型复杂度对比结果如表 13 所示. 空间复杂度上, 联合掩码重建和对比学习的
ReCon 和本文方法参数量较大, 但显存消耗较小, 源于优良的参数共享机制. 时间复杂度上, Point-MAE、ACT、
ReCon 和本文方法的单轮微调时间和 FLOPs 相似并且明显小于 Point-M2AE 和 I2P-MAE. 其原因在于两种方法
在多尺度特征构建和双向映射上时间消耗较大. 综上, 本文在拥有最佳微调效果的情况下仍然具有相对较好的模
型复杂度.
表 13 ModelNet40 数据集上模型复杂度测试结果
空间复杂度 时间复杂度
方法
参数量 (M) 显存消耗 (Mib) 单轮运行时间 (s) FLOPs (M)
[19]
Point-MAE 22.1 23 038 49 76 761.32
[20]
Point-M2AE 12.8 14 821 78 149 390.23
[28]
I2P-MAE 12.8 18 849 118 355 708.04
[30]
ACT 22.1 11 145 46 76 761.32
[35]
ReCon 43.6 11 064 38 85 037.04
本文方法 43.6 11 037 40 85 128.32