Page 343 - 《软件学报》2025年第4期

P. 343

陈铂垒等: 面向具身人工智能的物体目标导航综述 1749

对于物体目标导航未来可能的发展方向, 我们着重讨论以下几个方面.
(1) 基于外部知识和大模型的物体目标导航: 一方面, 外部常识知识 (例如维基百科中对一般房屋和物体目标
的描述) 的引入能够进一步提高物体目标导航的可解释性和可信度 [24,42] . 另一方面, 以 ChatGPT 和 CLIP 为代表的
大模型的兴起和流行为物体目标导航相关领域的发展提供了更多的可能性 [52,53,113,115,121,137–143] . 作为首个基于
CLIP 的零样本物体目标导航方法, CoW [52] 充分利用 CLIP 视觉编码器中内化的丰富视觉特征来显式地推断目标
物体的方位. 一些方法 [53,121] 通过对 CLIP 的视觉-语言编码器进行微调, 增强具身智能体对于新环境和新物体目标
的泛化能力. 考虑到人类在导航时不是被动地接受所有的视觉刺激, 而是主动调节并选择性地处理与当前任务相
关的视觉特征. 基于这一观点, Eftekhar 等人 [138] 提出了一种代码本模块, 选择性地从 CLIP 视觉编码器中抽取有利
于具身导航的视觉表示. 因此, 如何高效地从大模型中提取特定于导航任务的视觉特征并加以合理利用, 是一项有
意义的研究课题.
基于大语言模型的物体目标导航方法 [140−142] 通常采用精心设计的提示来激活大语言模型的规划和决策能力.
得益于大语言模型的常识知识和强大的推理能力, 具身智能体能够在未知的场景中寻找任何物体. 尽管大语言模
型能够在样本数据匮乏的情况下泛化到新的导航任务, 但是仍然存在许多技术和理论挑战 [143] : 例如如何基于文本、
(6) 学习环境的多样性: 现有的绝大多数场景数据集是基于美国的房屋构建的, 而且并没有包含仓库或医院等
图像和其他传感器数据进行多模态导航决策, 解决大语言模型与物理世界脱节的问题; 如何减少基于大语言模型
的具身智能体的决策延迟. 未来, 大语言模型将持续助力具身人工智能的发展与变革 [144] .
(2) 人机物三元融合的物体目标导航: 现有的绝大多数物体目标导航策略都是针对静态环境设计的, 主要考虑
了具身智能体 (机器人) 和物体两类元素. 在未来, 具身智能体的导航可能与人类的生活密切相关. 由于人类的运
动和彼此之间的交互, 现实中的环境往往是动态的, 并且包含大量的、复杂的人机物三元交互. 因此, 具身智能体
必须在导航的过程中遵从社会意识, 在不侵犯人类安全空间的前提下舒适地导航. 尽管已有最新的工作对此展开
研究 [145–147] , 人机物三元融合的物体目标导航仍是一个开放的、有待深入研究的课题.
(3) 从仿真到现实的转移: 目前, 绝大多数物体目标导航及其相关任务的研究都是基于仿真环境开展的. 一方
面, 仿真器渲染的视觉图像与现实环境中的视觉观测存在光照、纹理等方面的差异. ObjectNav 策略对仿真图像的
过度拟合导致其难以泛化到现实环境中. 虽然已有工作采用元强化学习来改善具身智能体的视觉泛化能力 [148,149] ,
但是距离实际应用还有很大的差距. 另一方面, 现有的 ObjectNav 方法普遍假设具身智能体的动作空间和状态空
间是离散的, 以降低该任务的研究难度. 然而, 假设具身智能体只具有前进、左转、右转、停止几个离散动作, 不
能保证其在复杂的现实环境中连续、高效地运动.
(4) 可解释性导航策略: 现有的物体目标导航方法往往采用深度神经网络模型建模导航所需的多种能力或思
维, 通常是抽象和难以解释的. 尽管最近有工作试图对具身智能体的导航行为进行解释 [150,151] , 但是如何设计
ObjectNav 策略以具体化探索、导航、避障等思维还有待进一步研究.
(5) 物体目标导航的“最后一公里”问题: 当前的物体目标导航相关研究停留在“导航到目标物体附近”阶段, 还
没有充分涉及与目标物体的交互. 如何使具身智能体学会与环境中的物体进行交互是物体目标导航发展的下一个
目标. 比如我们可能会让机器人去厨房拿一个勺子, 前提是我们要让机器人学会拿起勺子. 最近, 在大语言模型的
加持下, 具身智能的倡导者们针对机器人导航和抓取任务提出了相应的具身大模型 [152,153] . 未来, 具身大模型可能
在解决物体目标导航和抓取问题方面大显身手.

有意义的、具身智能体应用广泛应用的场景. 由于大多数数据集来自国外的建筑, 考虑到不同的文化差异, 基于中
式建筑的数据集有必要被构建和发布. 尽管新的场景数据集被陆续提出以促进物体目标导航的发展 [154] , 但是多样
化的学习环境仍然需要被进一步考虑和深入研究.
(7) 隐私保护: 在物体目标导航任务训练和推理的过程中, 具身智能体可以观察和存储敏感信息, 这些信息可
能会被泄露或滥用, 因此导航过程中有效的隐私保护是至关重要的. 因此, 可以将联邦学习 [155] 和差分隐私 [139] 等相
关领域的技术与 ObjectNav 任务进行交叉, 以保护训练和推理过程中的隐私.

338 339 340 341 342 343 344 345 346 347 348