Page 310 - 《软件学报》2025年第4期
P. 310
1716 软件学报 2025 年第 36 卷第 4 期
过去的 10 年里, 计算机视觉、深度学习乃至广泛的人工智能领域的发展取得了长足的进步, 推动了传统的被
动学习范式向主动学习的转变 [1] , 促进了具身人工智能 (embodied AI) 的快速发展 [2,3] . 在大规模逼真场景数据集 [4−9]
和高性能仿真器 [10,11] 的加持下, 具身人工智能领域着重研究“智能是如何从与环境交互的过程中产生的” , 鼓励
[1]
具身智能体 (embodied agent) 以交互和探索的方式主动地学习, 并创造性地解决环境中具有挑战性的问题. 作为具
身人工智能具体化的任务之一, 物体目标导航 (object goal navigation, ObjectNav) [12] 要求具身智能体在事先未知场
景中搜寻由自然语言指定的物体, 并在有限的时间预算内导航至物体附近 (例如导航到沙发附近, 如图 1 和图 2 所
示). 从应用角度看, ObjectNav 在辅助人类日常活动的智能助手方面有着巨大的应用潜力. 从研究领域看, ObjectNav
促使具身智能体从与环境的交互和反馈中学习和进步, 是基于导航的下游具身任务 (例如视觉物体重排布 [13] ) 的
基础, 能够为后续任务做无监督的准备.
(通常包括直行、左转、右转和停止), 如图
事先未见过的场景: 没有经验和地图信息
输入
沙发
目标类别 输出
视觉观测
(RGBD图像) 导航动作
(x, y, θ)
位姿
图 1 多样化的环境与 ObjectNav 任务的输入输出
在 ObjectNav 任务中 [12] , 具身智能体通常以目标类别、自身位姿和捕获的 RGBD 视觉观测为输入, 输出当前
时刻的导航动作 1 所示. 多样化且事先未知的环境所导致的巨大的观
测空间使得 ObjectNav 任务极具挑战性. 此外, 具身智能体还需要应对视觉-语言匹配、运动控制和碰撞避免等问
题. 实证研究表示 [14] , 人类擅长在未知的环境中执行 ObjectNav 任务, 在 MP3D 数据集上达到了 88.9% 的导航成
功率. 具身智能体被期待像人类一样通过记忆环境中的空间和语义模式, 利用不同物体之间的从属或者共现 (co-
occurrence) 关系, 高效地执行复杂的 ObjectNav 任务. 对于具身智能体而言, 想要高效地导航到物体目标至少需要
具备 3 个方面的能力 [15] : (1) 视觉-语言匹配能力. 具身智能体应当理解自然语言指令形式的物体目标, 并将指令与
环境中的真实物体相匹配; (2) 复杂场景探索能力. 具身智能体应当高效地捕获有助于导航的场景布局和语义先验