Page 312 - 《软件学报》2025年第4期

P. 312

1718 软件学报 2025 年第 36 卷第 4 期

当前主流的 ObjectNav 策略往往是通过强调上述的一种或多种能力, 或者是通过强调上述的一种或者多种思
维实现的. 现有的方法要么以端到端的方式从 RGB 视觉观测直接学习 ObjectNav 策略以应对上述挑战, 要么采用
模块化的设计从 RGBD 视觉观测预测语义地图以更好地解决上述问题. 主流的方法按导航任务类型可以划分为
单物体目标导航任务 [17–24] 和多物体目标导航任务 [25–30] , 按导航模型结构可以划分为端到端的导航策略 [31–40] 和模
块化的导航策略 [18–24,41,42] . 顾名思义, 单物体目标导航要求具身智能体搜寻并导航至环境中的一个物体实例, 多物
体目标导航要求具身智能体有序或无序地搜寻并导航至多个不同类别的物体实例. 端到端的导航策略往往采用一
个模型建模和学习多种能力或思维, 以视觉观测和定位等数据作为模型输入, 直接输出最终的导航动作. 模块化的
导航策略往往依赖独立的语义建图、高层次语义探索和低层次导航等模块来分别建模各种能力或思维. 这些策略
普遍采用模仿学习预训练和强化学习调优的范式进行训练, 通过行为克隆为强化学习设置一个合理的起点, 从而
避免盲目地探索配置空间导致的冷启动问题 [15] . 图 4 可视化了不同分类法则下物体目标导航方法所占比重.

8%
55%
9%
ObjectNav
12% 8%
88%
75%
45%

单物体目标导航
基于有限数据集的导航策略学习
多物体目标导航
基于增强数据集的导航策略学习
基于元学习的泛化策略学习模块化的导航策略
视觉语言模型增强的导航策略端到端的导航策略

图 4 不同分类法则下物体目标导航方法所占比重

主流的方法按照发展进程可以分为如图 5 所示的 4 类. 早期, 得益于 MP3D 、Gibson 和 [5] AI2-THOR 等逼
[4]
[7]
真的室内场景数据集的发布, 基于有限数据集的导航策略学习方法 [32,36,43–45] 迅速发展起来. 新颖的视觉表示 [22,23,32,34,36]
和辅助任务 [31] 被提出用于增强导航策略的泛化能力. 此外, ObjectNav 还被解耦为“去哪里寻找目标”的高层次语义
探索问题和“如何导航到目标”低层次导航问题 [20,41] , 并分而治之. 之后, 为了缓解有限的数据集导致的模型训练过
拟合问题, 基于增强数据集的导航策略学习方法 [46,47] 被提出. 通过对现有数据集进行编辑和融合, 或者引入新的场
景, 导航模型的性能和泛化能力被进一步提高. 最近, 考虑到现实世界中物体类别和场景的多样性, ObjectNav 策略
被期望能够泛化到事先未见过的物体类别和环境, 因此基于元学习的泛化策略学习方法 [39,40,48,49] 被提出. 以基于梯
度的元学习为基础, 具身智能体被赋予学习如何去学习的能力, 通过想象未见过的物体类别的特征和反复试错, 在
测试的过程中逐渐学习和优化. 随着大规模视觉语言模型的发展 [50,51] , 强大的视觉语言对齐能力被用于增强 Object-
Nav 的语义先验信息, 视觉语言模型增强的策略 [52,53] 被提出. 大规模视觉语言模型为零样本 (zero-shot)
ObjectNav 的实现提供了可能, 即不需要或仅需要少量的训练就能实现对未见过的场景和物体目标的泛化.
然而, 高性能 ObjectNav 的实现并非易事, 研究显示目前最先进的 ObjectNav 策略在 MP3D 验证集上仅达到
40% 左右的成功率 [41] . ObjectNav 的发展需要诸如环境表示、视觉自主探索 [54] 和强化学习等技术的支撑. 当然,
ObjectNav 的发展也为物体重排布 [13] 和交互抓取等下游具身任务铺平了道路. 通过对相关领域国内外已发表的综
述类文献进行调研, 我们发现现有的综述文献大都从较高的层面梳理具身人工智能领域发展现状 [55,56] . 然而, 对于
具身人工智能各个子领域的系统描述还有所欠缺, 诸如物体目标导航、视觉自主探索、视觉物体重排布和视觉语
言导航等子领域. 虽然已有综述文献系统地梳理了视觉语言导航 [3,57] 和机器人自主探索 [58–61] 领域的关键技术和发
展现状, 但是针对物体目标导航及其相关领域的总结还有待补充和完善. 本文将重点围绕物体目标导航展开介绍,

307 308 309 310 311 312 313 314 315 316 317