Page 342 - 《软件学报》2025年第4期
P. 342

1748                                                       软件学报  2025  年第  36  卷第  4  期


                 成导航. TransNav  考虑了导航过程中局部和全局视觉信息, 以及时间序列特征. 考虑所有步数情况时, 这                        3  种方法
                 的在  AI2-THOR  上的成功率均超过了      70%, 考虑步数大于等于       5  的情况时, 这  3  种方法的在  AI2-THOR  上的成功
                 率均超过了    60%.
                    Dang  等人  [112] 早期的工作将  ObjectNav  过程分解为“搜索”和“导航”两种思维, 提出在不同的导航阶段分别灵
                 活使用不同的思维策略. 最近, Dang        等人  [16] 进一步将  ObjectNav  解耦为  5  种元思维: 感知思维, 搜索思维, 导航思
                 维, 探索思维和避障思维, 通过多重思维协作模块来促进思维之间的相互协作. 如表                          8  所示, Dang  等人的最新工
                 作  [16] 在  AI2-THOR  上取得了最先进的性能. 具体来说, 考虑所有步数情况时, 分别取得了               83.1%  的  SR  和  50.2%
                 的  SPL  指标, 考虑步数大于等于     5  的情况时, 分别取得了     77.0%  的  SR  和  50.9%  的  SPL  指标.
                    从导航策略提取视觉特征的角度来看, Ye 等人             [31] 和  NIE [105] 两种端到端的方法均采用了  RGBD  视觉观测作为
                 模型输入, 取得了较好的导航性能. 不同于            Ye 等人  [31] 采用的基于  ResNet18  的视觉编码器, NIE [105] 采用了  Mask-
                 RCNN  作为视觉编码器. 然而, 同样作为端到端的方法的              HiNL [37] 只采用了  RGB  图像和基于  ResNet 的视觉编码
                 器, 在  AI-THOR  数据集上取得了更好的导航性能, 这体现了            HiNL  的历史启发的导航策略学习框架的优势. 在模
                 块化的导航策略中, Dang      等人  [16] 同样只采用了  RGB  图像和基于   ResNet18  的视觉编码器, 在   AI-THOR  数据集上
                 取得了最佳的物体目标导航性能, 这体现了通过构建多重思维协作模块来促进思维之间的相互协作的重要性.

                 5.3   视觉物体重排布性能比较及分析
                    视觉物体重排布任务由         Weihs 等人  [13] 于  2021  年提出, 他们同时发布了  RoomR  数据集和一阶段、两阶段物
                 体重排布基线方法. 表      9 中的列出了两种具有代表性的基线方法——ResNet18, IL            和  ResNet18+ANM, IL. ResNet18,
                 IL  表示采用  ResNet18  进行图像特征提取, 采用纯粹地通过模仿学习来训练具身智能体解决一阶段和两阶段物体
                 重排布任务. ResNet18+ANM, IL   首先基于   AI-THOR  数据集预训练一个       ANS  的变体用于构建语义地图, 然后冻
                 结  ANS  并通过模仿学习来训练具身智能体. 从各项指标来看, 基线方法在一阶段和两阶段任务上的                           fixed strict 指
                 标分别仅有    6%–9%  和  0.7%–1.4%, 成功率分别仅有    3%  和  0.2%–0.3%. 由此可见, 两阶段任务相较于一阶段任务
                 难度更大. 此外, 较高的     E  和  M  指标也反映基线方法的重排布错误率较高, 基本不能够解决物体重排布问题. 表                      9
                 的最后一行列出了由人类完成重排布任务的各项数据指标.
                    针对两阶段重排布任务, Trabucco       等人  [122] 分别基于目标状态和当前状态构建精准的           3D  语义地图, 用于错位
                 物体检测, 在   RoomR  数据集上的    fixed strict 指标达到了
                                                                               4.7%, 相较于
                                                             16.56%, 成功率达到了
                                                                                          ResNet18+ANM IL
                 基线分别提高了      15.86%  和  4.3%. EmbCLIP [121] 利用  CLIP  模型学习视觉表示, 提升对目标状态和当前状态的理解
                 能力, 更容易找到需要重排布的目标物体, 在一阶段任务中取得了当前最佳性能. TIDDE                        [119] 则无需提前学习目标
                 状态, 基于先验知识在探索过程中实时检测错位物体, 并及时进行修正错误. 在两阶段任务中, TIDDE                           的性能仍明
                 显优于基线模型, 证明了       TIDDE  具备一定的自适应能力.
                    相对于   ObjectNav  而言, 视觉物体重排布是一个更年轻、更前沿、更具有实际应用价值的研究方向, 正受到
                 越来越多研究者的关注. 从表         9  列出的实验数据来看, EmbCLIP 所取得的         17% fixed strict 指标和  8%  的  SR  指标
                 与人类取得的性能相差甚远, 视觉物体重排布相关技术的发展道阻且长.

                 6   总结与前景展望
                    本文讨论了物体目标导航对于具身人工智能发展的重要性, 广泛地回顾了现有的物体目标导航方法, 并从多
                 个角度对其进行梳理和分析. 本文还描述了物体目标导航相关的前置和后置任务, 在介绍性的层面上讨论了这些
                 问题. 回顾本文, 得知物体目标导航及其相关领域已经取得的巨大进展, 并衍生了新的研究课题和可以扩展的方向.
                    随着大规模视觉语言模型的兴起, 物体目标导航方法开始朝着明确引入外部知识的方向发展, 整合外部知识
                 和人类偏好不仅有利于提高导航性能, 还可以提高人工智能的可解释性和可信度. 然而, 现有的物体目标导航研究
                 普遍聚焦于学习导航策略, 但具身导航的“最后一公里问题”是如何与物体交互, 还没有被很好地研究和讨论, 比如
                 “拿起一把勺子”. 此外, 用于导航策略学习的场景也缺乏多样性. 现有的绝大多数场景数据集的构建基于对美国房
                 屋的图像扫描, 这些场景不包括仓库和医院等有意义的场景.
   337   338   339   340   341   342   343   344   345   346   347