Page 209 - 《软件学报》2025年第5期
P. 209

程浩喆 等: 基于双向拟合掩码重建的多模态自监督点云表示学习                                                  2109


                 Airplane 等. 后缀包含“with white background”“with white context.”等. 上述文本描述最终将被合并成一句完整的信息
                 作为零样本分类任务的输入. 表         12  展示了文本模态消融学习结果. 从表中结果可以看出, “A rendered image of”+类别
                 的效果最佳. 其原因在于零样本分类任务以图像和文本作为输入, 针对图像的准确文本描述将更有助于模型学习. 然
                 而, 固定描述性语言的信息丰富度和贡献性有限, 并且文本信息模糊可能导致表示学习模型吸纳信息疲软等不利影响.

                                表 12 ModelNet40  数据集上文本模态点云零样本分类消融学习结果 (%)

                             前缀+类别                   OA                  类别+后缀                   OA
                              “ ”+类别                 60.22                类别+“ ”                60.22
                             “A”+类别                  62.90                类别+“.”                56.23
                          “A model of”+类别            56.32        类别+“with white background.”   63.89
                          “A model of a”+类别          58.65          类别+“with white context.”    63.98
                          “An image of”+类别           62.38                  -                    -
                         “An image of a”+类别          62.22                  -                    -
                         “A 3D model of”+类别          63.02                  -                    -
                        “A 3D model of a”+类别         32.15                  -                    -
                       “A rendered model of”+类别      63.31                  -                    -
                       “A rendered model of a”+类别    62.98                  -                    -
                        “A point cloud of”+类别        60.11                  -                    -
                        “A point cloud of a”+类别      60.85                  -                    -
                      “A point cloud model of”+类别    63.55                  -                    -
                      “A point cloud model of a”+类别  62.59                  -                    -
                      “A 3D rendered model of”+类别    62.26                  -                    -
                     “A 3D rendered model of a”+类别   62.95                  -                    -
                       “A rendered image of”+类别      66.38                  -                    -
                       “A rendered image of a”+类别    62.39                  -                    -
                      “A 3D rendered image of”+类别    65.21                  -                    -
                     “A 3D rendered image of a”+类别   64.05                  -                    -

                    (6) 模型复杂度
                    3D  预训练模型的复杂度常通过模型空间和时间消耗量级来衡量. 为了评价所提出方法的模型复杂度, 本文将
                 在相同运行条件下通过        4  种不同类型的指标测试现有方法及本文方法. 指标包括参数量、显存消耗、单轮运行时
                 间以及   FLOPs. 此外, 待对比的方法包括      Point-MAE  [19] 、Point-M2AE [20] 、I2P-MAE [28] 、ACT [30] 以及  ReCon [35] . 在
                 ModelNet40  数据集上微调测试模型复杂度对比结果如表               13  所示. 空间复杂度上, 联合掩码重建和对比学习的
                 ReCon  和本文方法参数量较大, 但显存消耗较小, 源于优良的参数共享机制. 时间复杂度上, Point-MAE、ACT、
                 ReCon  和本文方法的单轮微调时间和          FLOPs 相似并且明显小于      Point-M2AE  和  I2P-MAE. 其原因在于两种方法
                 在多尺度特征构建和双向映射上时间消耗较大. 综上, 本文在拥有最佳微调效果的情况下仍然具有相对较好的模
                 型复杂度.

                                         表 13 ModelNet40  数据集上模型复杂度测试结果

                                                  空间复杂度                       时间复杂度
                               方法
                                          参数量 (M)      显存消耗 (Mib)    单轮运行时间 (s)       FLOPs (M)
                                    [19]
                            Point-MAE        22.1         23 038          49          76 761.32
                                    [20]
                            Point-M2AE       12.8         14 821          78          149 390.23
                                   [28]
                             I2P-MAE         12.8         18 849          118         355 708.04
                                 [30]
                              ACT            22.1         11 145          46          76 761.32
                                  [35]
                              ReCon          43.6         11 064          38          85 037.04
                             本文方法            43.6         11 037          40          85 128.32
   204   205   206   207   208   209   210   211   212   213   214