Page 340 - 《软件学报》2025年第4期
P. 340

1746                                                       软件学报  2025  年第  36  卷第  4  期



                                                表 9 视觉物体重排布性能比较

                   类型            方法           视觉数据      视觉模块      年份   fixed strict (%)↑  SR (%)↑  E (%)↓  M (%)↓
                             ResNet18, IL [13]  RGB     ResNet18  2021     6.00       3.0    111    109
                  一阶段      ResNet18+ANM, IL [13]  RGB   ResNet18  2021     9.00       3.0    105    104
                              EmbCLIP [118]    RGB      CLIP [120]  2022   17.00     8.00    89     88
                                        [13]
                           ResNet18, PPO+IL    RGB      ResNet18  2021      0.7       0.2    121    -
                                          [13]
                         ResNet18+ANM, PPO+IL  RGB      ResNet18  2021      1.4       0.3    110    -
                                   [78]                       [80]
                                CSR            RGB    Fast R-CNN  2022      1.9       0.4    117    -
                  两阶段
                            Trabucco等人 [122]   RGB        -       2022     16.56     4.70    -      -
                                   [123]                    [136]
                               TIDEE           RGB      DERT      2022     11.6       2.4    93     94
                               Human [13]       -         -       2021     91.2      83.4    9      -

                 5.2   物体目标导航性能比较及分析
                    MultiON  为多目标导航任务提出了基准模型, 模型通过将视觉观测中的语义信息转化为                         2D  语义地图指导具
                                                   验证集上将成功率和
                 身智能体执行多物体目标导航任务. MultiON           [25] 提供了多种基准方案的对比, 包括不使用语义地图、使用先验地
                 图  (oracle map)、使用具身智能体自主构建的全局地图          (ObjRecogMap) 等. 表  5  中列出了使用  ObjRecogMap  的实
                 验结果, 成功率达到了       22.0%. Chen  等人  [30] 首次提出使用主动摄像机策略解决多目标物体导航问题, 相对于
                 MultiON  将成功率提高到    51.1%. 具体来说, Chen  等人通过将相机控制策略与导航策略相结合, 促使具身智能体自
                 主调节相机视野方向, 以更全面的观察和探索环境. 最近, Marza 等人                [29] 通过采用一种新颖的神经隐式表示, 刷新
                 了  SR、SPL  和  PPL  指标, 取得了最先进的多物体目标导航性能.
                    DD-PPO [103] 是一种分散的分布式近端策略优化         (decentralized distributed proximal policy optimization) 算法. 在
                 巨量计算资源和分布式强化学习的加持下, DD-PPO               近乎完美地解决了点导航问题. 但在            ObjectNav  任务中  DD-
                 PPO  仅取得了  8.0% (MP3D  验证集) 和  0.0% (MP3D  测试集) 的成功率. 如表    6  中的第  1–2  行所示, DD-PPO  和随
                 机导航动作    (random) 被选作  ObjectNav  基准. 相比于  Random、DD-PPO、THDA  [46] 、ZSON [53] 和  OVRL [108] , Red-
                 Rabbit [31] 通过添加辅助任务和探索奖励以端到端的方式学习一个更通用的                 ObjectNav  策略, 在  MP3D  的验证集上,
                 将端到端的    ObjectNav  成功率提高到   34.6%. 值得注意的是, Red-Rabbit 只在有限数据集上学习导航策略, 只采用
                 了卷积层更少的预训练的          ResNet18  作为视觉编码器. Habitat-Web  [14] 通过收集人类专家演示进行模仿学习, 将
                 ObjectNav  成功率提升至  35.4%. Red-Rabbit 和  Habitat-Web  在  MP3D  测试集上的性能指标也处于领先地位.
                    对于模块化的      ObjectNav  策略, Chaplot 等人  [45] 提出的  SemExp  策略通过构建基于语义地图的场景表示, 在
                 MP3D  验证集上, 将   ObjectNav  成功率提高到  36.0%, 相比  DD-PPO  提升了  4.5  倍. 但是, SemExp  采用了性能较强
                 的预训练的    Mask R-CNN [130] 作为视觉编码器. Stubborn [111] 针对  SemExp  无法有效利用语义线索和容易陷入局部陷
                 阱的问题, 维护了一种多维度的障碍物地图和一种不依赖语义的探索策略, 在                        MP3D  测试集上, 相比于    SemExp  策
                 略将成功率提高到       23.7%. SSCNav [18] 是典型的基于局部语义地图场景表示的模块化           ObjectNav  策略, 采用了语义
                 场景补全和语义置信度预测等模块, 在            MP3D  验证集上取得了     27.1%  的成功率和   15.7%  的  SPL  指标. L2M [19] 同样
                 利用语义类别的不确定性来确定长期导航目标, 不同之处在于, L2M                    通过集成多个模型的分歧来估计模型的不确
                 定性, 并进一步平衡探索和利用, 在          MP3D                   SPL  指标分别提升到了      39.1%  和  17.0%, 同时
                 L2M  取得了最低的    DTS  指标.
                         [20]
                    PONI   是典型的基于全局语义地图环境表示的模块化                ObjectNav  策略, PONI 相比对  SSCNav  在成功率方面
                 提升了   0.7%, 但是  SPL  指标降低了  3.7%. 考虑到全局环境表示为        ObjectNav  提供更多的空间和语义线索, 3D-
                 Aware [22] 、PEANUT [41] 和  ESC [113] 沿用了  PONI 的框架, 将成功率和  SPL  指标分别提升到  40.5%  和  15.8%. 值得一
                 提的是, 3D-aware 是第  1  个引入  3D  环境表示的  ObjectNav  策略. ESC  利用  GLIP [133] 中的视觉编码器和大规模视觉
                 语言模型的推理能力, 实现了零样本            (zero-shot) ObjectNav, 在  MP3D  验证集上达到了  36.1%  的成功率和最高的
                 17.7%  的  SPL  指标. 通过对表  6  中的实验数据进行总结, 不难发现模块化的           ObjectNav  策略在  MP3D  验证集上的
   335   336   337   338   339   340   341   342   343   344   345