Page 202 - 《软件学报》2025年第5期
P. 202

2102                                                       软件学报  2025  年第  36  卷第  5  期


                 16 881  个物体. 经过映射转化后的      RGB  图像共有   43 783  张. 在预训练阶段, 基于   Transformer 的掩码重建模型的
                 超参数设定与     ReCon [35] 相同, 即中心点和邻域点数分别为         64  和  32, 掩码率为  60%, 特征通道数为    384. 此外,
                 Transformer 的编码深度和头数分别为       12  和  6, 解码深度和头数为    4  和  6. 在多模态教师模型中, 图像模态和文本
                 模态的特征不参与反向传播, 仅通过            ViT-B [42] 和  CLIP [32] 两种优良模型完成模态信息提取工作, 并与点云模态中
                 多模态标记进行对比. 最终, 基于         Transformer 的点云识别网络利用预训练特征完成包括分类和分割等下游微调
                 识别工作. 在下游基于      ModelNet 数据集的分类任务中, 类别数、输入点数、编码深度、头数、中心点数及邻域点
                 数分别为   40、1 024、12、6、64  和  32. 而对于  ScanObjectNN  数据集, 上述超参数分别设定为      15、2 048、12、6、
                 128  和  32. 小样本和零样本物体分类任务的超参数设定与            ModelNet 数据集分类任务相同, 而部件分割的超参数设
                 定则与   ScanObjectNN  相同. 本文网络由深度学习框架        PyTorch  为基础搭建, 并且涉及的所有实验均基于搭配两
                 张  Nvidia GeForce RTX3090  的  Ubuntu 22.04  系统上完成. 网络预训练中参数优化器、学习率、权重衰减、批次
                 数训练轮次分别为       AdamW、5E–4、5E–5、128   以及  300. 在实验结果的展示中, 加粗代表最高值.

                 3.2   三维点云分类
                    (1) 人工物体分类
                    ModelNet [14] 是由  CAD  图像合成的大型三维物体数据集, 共包含         12 311  个人工物体. 根据其类别数不同, 该
                 数据集可被分为包含        10  类物体的  ModelNet10  和  40  类物体的  ModelNet40. 为验证所提出方法对三维人工数据
                 的分类效果, ModelNet40  被作为分类器的输入. 其中, 分类网络对            ModelNet40  进行不同数量的下采样, 采样点的
                 个数分别为    1 024  和  8 192. 本文方法与现有方法在    ModelNet40  数据集上的形状分类对比结如表          1  所示, 分类指
                 标由总体精度     (overall accuracy, OA) 表示. 表  1  中各类方法通过发表期刊或会议、发表时间、方法类别以及输
                 入点的个数进行标识. 从结果可得, 本文方法在              ModelNet40  数据集上的分类精度达到了最高水平. 其中, 在输入
                 点个数分别为     1 024  和  8 192  下, 分类精度达到  94.6%  和  94.8%. 该结果不但完全优于众多监督学习优秀算法, 并
                 且与其他基于掩码重建、基于多模态的最新算法相比, 也展现出优良的分类效果.


                                   表 1 ModelNet40  数据集上各种方法的点云形状分类对比结果 (%)

                                                                                输入点个数
                                方法          期刊或会议/年份          方法类别
                                                                             1 024      8 192
                                    [3]
                              PointNet        CVPR/2017                      89.2       90.8
                                     [4]
                             PointNet++       NIPS/2017                      90.7       91.9
                              DGCNN [5]       TOG/2019                       92.9        -
                             PointMLP [43]    ICLR/2022                      94.5        -
                                                              监督学习
                             PointNeXt [44]   NIPS/2022                      94.0        -
                             P2P-RN101 [29]   NIPS/2022                      93.1        -
                             P2P-HorNet [29]  NIPS/2022                      94.0        -
                              文献[36]         软件学报/2023                       93.8        -
                                     [17]
                             Point-BERT       CVPR/2022                      93.2       93.8
                             MaskPoint [21]   ECCV/2022                      93.8        -
                             Point-MAE [19]   ECCV/2022                      93.8       94.0
                            Point-M2AE [20]   NIPS/2022                      94.0        -
                                                              自监督学习
                               ACT [30]       ICLR/2023                      93.7       94.0
                              ReCon [35]      ICML/2023                      94.5       94.7
                             I2P-MAE [28]     CVPR/2023                      94.1        -
                              本文方法               -                           94.6       94.8

                    为进一步验证本文所提出方法的类别判别能力, 本文在                  ModelNet40  数据集上采用线性支持向量机         (SVM) 分
                 类测试完成方法评价. 本文方法与现有方法的线性支持向量机分类对比结果如表                           2  所示. 表中各类方法采用不同
   197   198   199   200   201   202   203   204   205   206   207