Page 198 - 《软件学报》2025年第5期
P. 198

2098                                                       软件学报  2025  年第  36  卷第  5  期



                 拼接合并形成与原始张量形状一致的表示. 而全局保留位姿                    F  p   和全局丢弃位姿  F  p   被同样拼接合并形成解码部
                                                                 M               ˜ M
                 分全局位姿指导. 经过      Transformer 解码器预测, 得到重建结果      P re ∈ R  N ′ ×K×3  .


                  基于StyleGAN的辅助点云生成模型             基于Transformer的掩码重建模块           逆密度尺度指导下的“坏教师”模型
                                                                            ّ୅ކᇗࡹ෥ാ
                                            相          重建掩码部分点云                                       ୉ૡ؇Ԅ؇࠹ෘ
                  点                                                               “坏教
                  云     生   判               似          Transformer编解码  正          师”模
                  风     成   别               性     特                   拟
                  格     器   器               融     征                学  合           型掩
                  获                         合     拟                生  重           码重
                  取           风格化点云生成             合                模  建            建      噪声嵌入
                                                  损   掩码           型  损
                                                  失   (比率γ)           失
                      内部更新参数
                                                     点云特征分布 点云坐标真值
                     多模态教师模型(图像)             三            教师模型             三        多模态教师模型(文本)
                                       二维图像编码器  重                          重
                                             ( 特
                                            图像                             特  文本  (  文
                                             征                             征      本
                                             对                             对
                                             ) 比                           比  )   编
                                             损                             损      码
                      二维图像输入                 失          三维点云输入             失      器          文本输入
                                  图 1 基于双向拟合掩码重建的多模态自监督点云表示学习网络框架

                                                                          教师模型
                    C 级联拼接
                                                     最远点采样
                                                                   局部邻域P n
                       操作模块                              &                     多层卷积       特征分布F t
                                                     K最近邻查询         中心点P c
                       输出张量
                                     输入点云P


                                                              p                        ~
                                                               ~     线性编码      丢弃部分点M
                                                    全局丢弃位姿F M
                                          C
                                                              p
                                                    全局保留位姿F M        线性编码      保留部分点M
                                  解码器          编码器                             保留部分特征F M
                                 Transformer  Transformer  C
                                                              p          t
                                                       点云位姿F P    点云标记F P
                                                                                               掩码
                                                              p          t
                                                       图像位姿F I    图像标记F I      C              (比率γ)
                     重建结果P re
                                                              p          t
                                                       文本位姿F T    文本标记F T
                                                     初始化全局查询      (global query)
                              t                                                                学生模型
                       掩码标记F M ~    C
                                             图 2 基于   Transformer 的掩码重建模型

                    (2) 逆密度尺度指导下的“坏教师”模型
                    提高丢弃部分的生成效率和质量是掩码重建工作的重点. 基于该原则, 为加速保留部分特征表示向真值逼近,
                 并提升模型所提取特征的表示力, “坏教师”模型在考虑点云局部几何密度结构下, 通过对添加高斯噪声的邻域特
                 征真值进行特征抽象, 以构建“坏教师”特征分布. 其中, “坏教师”特征分布将被局部逆密度尺度重新加权, 以达到
                 控制噪声偏移范围的目的. 之后, 通过本文所设计的双向拟合重建损失函数从坐标和特征分布两种层面上使重建
                 结果逼近原始真值.
                    (3) 基于  StyleGAN  的辅助点云生成模型
                    在掩码重建过程中, 模型不可避免地生成不利于特征拟合的噪声点. 为了防止此类点影响后续特征表示学习
   193   194   195   196   197   198   199   200   201   202   203