Page 341 - 《软件学报》2025年第4期
P. 341

陈铂垒 等: 面向具身人工智能的物体目标导航综述                                                        1747


                 性能优于端到端的       ObjectNav  策略. 相反, 在  MP3D  测试集上, 端到端的     ObjectNav  策略的性能优于模块化的
                 ObjectNav  策略. 表  6  中的红色数据表示  GCExp [106] 和  ReVoLT [114] 策略的训练或评估只采用  MP3D  的部分场景, 各
                 类方法所取得的最佳性能以粗体数据显示. 因此出现成功率、SPL                    指标、DTS    指标和  SoftSPL  指标偏高或偏低的
                 情况.
                    由于  Gibson  数据集相对于   MP3D  数据集具有较低的复杂度, 因此各种           ObjectNav  策略在  Gibson  数据集上的
                 性能指标更高, 如表      7  所示. 同样以  DD-PPO  为基准, Li 等人  [35] 提出了基于  Transformer 的端到端的  ObjectNav  策
                 略, 一方面利用多头注意力机制来捕获历史导航轨迹中不同时间步的长距离依赖关系, 另一方面采用辅助任务改
                 善模型的训练, 在     Gibson  数据集上达到了最高的      82.8%  的成功率和最高的     48.7%  的  SPL  指标. 值得注意的是, Li
                 等人  [35] 没有采用任何预训练的视觉编码器. 对于模块化            ObjectNav  策略, 相比于  SemExp [45] 、Al-Halah  等人  [109] 和
                 Min  等人  [23] 的工作, PONI  [20] 和  3D-aware [22] 分别取得  73.6%  和  74.5%  的成功率. 此外, PONI 和  3D-aware 也取得了
                 较高的   SPL  指标, 3D-aware 达到了最低的   DTS  指标, 仅为  1.16 m. PONI [20] 和  3D-aware  [22]  分别采用了  Mask R-
                 CNN  和  RedNet 作为视觉编码器.
                    类似于在    MP3D  验证集上的表现, PEANUT     [41] 作为最新的模块化    ObjectNav  策略, 在  HM3D  数据集上也取得
                 了最高的    64.0%  的成功率和最高的      33.0%  的  SPL  指标. 以  DD-PPO 103]  为基准, Habitat-Web  [14] 、OVRL [108] 、
                 ProcTHOR [47] 和  PIRLNav [15] 这  4  种模块化的  ObjectNav  策略都提升了至少  1  倍的性能, 具体来说, 成功率提升了
                 28.0%–36.2%, SPL  指标提升了  10.0%–20.0%. 其中, PIRLNav  采用了独特的训练范式, 通过将       IL  和  RL  调优相结
                 合, 取得了  62.2%  的次最优成功率. 值得注意的是, PIRLNav        只采用   RGB  图像作为导航策略的输入, 并没有利用
                 深度图像数据.
                    由于  AI2-THOR  数据集相对于其他几种数据集包含较少的场景类型, 各种                  ObjectNav  策略在  AI2-THOR  上取
                 得了较为可观的性能. 基于        AI2-THOR  数据集的   ObjectNav  策略普遍报告了两类评价指标        (L≥5): (1) 导航步数大
                 于等于   5  步情况下的  SR  和  SPL  指标; (2) 所有步数情况下的   SR  和  SPL  指标  (All).
                    最早的基于元强学习的泛化学习策略              SAVN [39] 是基于  AI-THOR  数据集提出的, 致力于提高     ObjectNav  策略
                 在未见过的场景中的泛化能力. 考虑所有步数情况时, SAVN                 分别取得了    40.9%  的  SR  和  16.2%  的  SPL  指标, 考虑
                                                                                        [49]
                                                                             指标. Li 等人
                                                                       的
                                                               和
                                                                                          最新的工作延续了
                                                          的
                 步数大于等于     5  的情况时, SAVN  分别取得了   AI2-THOR
                                                             SR
                                                     28.7%
                                                                         SPL
                                                                  23.5%
                 SAVN  的思路, 通过将层次化语义信息与元学习相结合, 弥补了已知环境与未知环境的泛化性能差距. 与基于
                 SAVN  的思路不同, GMAN    [40] 提出了一种新颖的生成式元对抗网络, 致力于提高             ObjectNav  策略对于未见过的物
                 体目标的泛化能力, 在      AI2-THOR  上的性能相较于     SAVN  有所提高. Du  等人  [36] 提出了一种分层强化学习方法, 引
                 入了一个目标关系图        (ORG) 和一个试探策略网络       (TPN), 成功率达到了    69.3% (All) 和  60.7% (L≥5). 在最新的工
                           [38]
                 作中, L-sTDE  通过提出一种基于布局的软总直接效应框架大幅提升了                    HOZ  的导航性能, 取得了     75.1% (All) 的
                 成功率指标和     41.5%  的  SPL  指标. HiNL [37] 在  ORG+TPN  的基础上提出了一种历史启发的导航策略学习框架, 在
                 AI-THOR  数据集上取得了最佳的物体目标导航性能.
                    考虑到人类在陌生环境中通常依赖历史经验搜寻目标物体, 研究者开始尝试将人类先验知识融合到导航策略
                 学习网络中. 作为模块化的        ObjectNav  策略, MJOLNIR [42] 通过从外部数据库提取描述场景先验的知识图谱, 学习
                 环境中物体-物体之间的空间和语义关系, 在                      上取得了    65.3% (All) 和  50.0% (L≥5) 的成功率. HOZ [32] 作
                 为一种端到端的      ObjectNav  策略, 则进一步考虑了空间-空间, 空间-物体, 物体-物体多层次空间和语义关系, 通过
                 维护一个分层次语义关系图, 引导具身智能体进行由粗到细的进行分层次目标物体探索. HOZ                              的成功率相比于
                 MJOLNIR  提升了  5.3% (All) 和  12.8% (L≥5). DOA [107] 提出了一种有向物体注意力图来指导具身智能体显式地学
                 习物体之间的注意力关系并关注正确的物体, 取得了优异的                   SR  和  SPL  指标.
                    利用历史经验辅助当前时刻的动作决策, 是提高导航效率和避免重复探索的重要手段. 考虑到                              Transformer 在
                 捕获长距离依赖特征方面的优势, VTNET            [65] , OMT [66] , TransNav [48] 均基于  Transformer 提出了利用经验信息的
                 ObjectNav  策略. 通过综合利用视觉观察的局部空间特征和全局空间特征, VTNET                  学习更强大的视觉表示. OMT
                 结合目标物体类别关注历史经验中有价值的信息, 从而指导具身智能体在没有先验知识的情况下在室内环境中完
   336   337   338   339   340   341   342   343   344   345   346