Page 342 - 《软件学报》2025年第4期

P. 342

1748 软件学报 2025 年第 36 卷第 4 期

成导航. TransNav 考虑了导航过程中局部和全局视觉信息, 以及时间序列特征. 考虑所有步数情况时, 这 3 种方法
的在 AI2-THOR 上的成功率均超过了 70%, 考虑步数大于等于 5 的情况时, 这 3 种方法的在 AI2-THOR 上的成功
率均超过了 60%.
Dang 等人 [112] 早期的工作将 ObjectNav 过程分解为“搜索”和“导航”两种思维, 提出在不同的导航阶段分别灵
活使用不同的思维策略. 最近, Dang 等人 [16] 进一步将 ObjectNav 解耦为 5 种元思维: 感知思维, 搜索思维, 导航思
维, 探索思维和避障思维, 通过多重思维协作模块来促进思维之间的相互协作. 如表 8 所示, Dang 等人的最新工
作 [16] 在 AI2-THOR 上取得了最先进的性能. 具体来说, 考虑所有步数情况时, 分别取得了 83.1% 的 SR 和 50.2%
的 SPL 指标, 考虑步数大于等于 5 的情况时, 分别取得了 77.0% 的 SR 和 50.9% 的 SPL 指标.
从导航策略提取视觉特征的角度来看, Ye 等人 [31] 和 NIE [105] 两种端到端的方法均采用了 RGBD 视觉观测作为
模型输入, 取得了较好的导航性能. 不同于 Ye 等人 [31] 采用的基于 ResNet18 的视觉编码器, NIE [105] 采用了 Mask-
RCNN 作为视觉编码器. 然而, 同样作为端到端的方法的 HiNL [37] 只采用了 RGB 图像和基于 ResNet 的视觉编码
器, 在 AI-THOR 数据集上取得了更好的导航性能, 这体现了 HiNL 的历史启发的导航策略学习框架的优势. 在模
块化的导航策略中, Dang 等人 [16] 同样只采用了 RGB 图像和基于 ResNet18 的视觉编码器, 在 AI-THOR 数据集上
取得了最佳的物体目标导航性能, 这体现了通过构建多重思维协作模块来促进思维之间的相互协作的重要性.

5.3 视觉物体重排布性能比较及分析
视觉物体重排布任务由 Weihs 等人 [13] 于 2021 年提出, 他们同时发布了 RoomR 数据集和一阶段、两阶段物
体重排布基线方法. 表 9 中的列出了两种具有代表性的基线方法——ResNet18, IL 和 ResNet18+ANM, IL. ResNet18,
IL 表示采用 ResNet18 进行图像特征提取, 采用纯粹地通过模仿学习来训练具身智能体解决一阶段和两阶段物体
重排布任务. ResNet18+ANM, IL 首先基于 AI-THOR 数据集预训练一个 ANS 的变体用于构建语义地图, 然后冻
结 ANS 并通过模仿学习来训练具身智能体. 从各项指标来看, 基线方法在一阶段和两阶段任务上的 fixed strict 指
标分别仅有 6%–9% 和 0.7%–1.4%, 成功率分别仅有 3% 和 0.2%–0.3%. 由此可见, 两阶段任务相较于一阶段任务
难度更大. 此外, 较高的 E 和 M 指标也反映基线方法的重排布错误率较高, 基本不能够解决物体重排布问题. 表 9
的最后一行列出了由人类完成重排布任务的各项数据指标.
针对两阶段重排布任务, Trabucco 等人 [122] 分别基于目标状态和当前状态构建精准的 3D 语义地图, 用于错位
物体检测, 在 RoomR 数据集上的 fixed strict 指标达到了
4.7%, 相较于
16.56%, 成功率达到了
ResNet18+ANM IL
基线分别提高了 15.86% 和 4.3%. EmbCLIP [121] 利用 CLIP 模型学习视觉表示, 提升对目标状态和当前状态的理解
能力, 更容易找到需要重排布的目标物体, 在一阶段任务中取得了当前最佳性能. TIDDE [119] 则无需提前学习目标
状态, 基于先验知识在探索过程中实时检测错位物体, 并及时进行修正错误. 在两阶段任务中, TIDDE 的性能仍明
显优于基线模型, 证明了 TIDDE 具备一定的自适应能力.
相对于 ObjectNav 而言, 视觉物体重排布是一个更年轻、更前沿、更具有实际应用价值的研究方向, 正受到
越来越多研究者的关注. 从表 9 列出的实验数据来看, EmbCLIP 所取得的 17% fixed strict 指标和 8% 的 SR 指标
与人类取得的性能相差甚远, 视觉物体重排布相关技术的发展道阻且长.

6 总结与前景展望
本文讨论了物体目标导航对于具身人工智能发展的重要性, 广泛地回顾了现有的物体目标导航方法, 并从多
个角度对其进行梳理和分析. 本文还描述了物体目标导航相关的前置和后置任务, 在介绍性的层面上讨论了这些
问题. 回顾本文, 得知物体目标导航及其相关领域已经取得的巨大进展, 并衍生了新的研究课题和可以扩展的方向.
随着大规模视觉语言模型的兴起, 物体目标导航方法开始朝着明确引入外部知识的方向发展, 整合外部知识
和人类偏好不仅有利于提高导航性能, 还可以提高人工智能的可解释性和可信度. 然而, 现有的物体目标导航研究
普遍聚焦于学习导航策略, 但具身导航的“最后一公里问题”是如何与物体交互, 还没有被很好地研究和讨论, 比如
“拿起一把勺子”. 此外, 用于导航策略学习的场景也缺乏多样性. 现有的绝大多数场景数据集的构建基于对美国房
屋的图像扫描, 这些场景不包括仓库和医院等有意义的场景.

337 338 339 340 341 342 343 344 345 346 347