Page 331 - 《软件学报》2025年第4期

P. 331

陈铂垒等: 面向具身人工智能的物体目标导航综述 1737

基于 Weihs 等人 [13] 的工作, Trabucco 等人 [122] 提出了基于 3D 语义地图表示和语义搜索的物体重排布算法框
架. 如图 26 所示, 该方法基于当前状态和目标状态分别构建两个 3D 语义地图, 通过采用匈牙利算法匹配两个语
义地图中对应位置的物体差异来执行错位物体检测. 该方法基于高精度的 3D 语义地图, 使用语义搜索策略准确
定位错位物体并进行重排布, 保证了物体重排布任务的效率. 上述两种方法均为模块化的物体重排布策略, 实证研
究表明, 基于占用地图环境表示的模块化策略优于端到端的策略的性能, 特别是在两阶段物体重排布任务中.

I t
语义地图 Laptop
构建地图
地
D t
重排布阶段图
Book
不
I t 一
... 致
构建地图
D t Pencil
探索阶段
根据常识, 遥控器被
5 layers
搜索 Softmax ReLU GroupNorm Conv2d 3×3, 64 Depthwise max 重排布

π θ (x|m i )
图 26 基于 3D 语义地图的两阶段物体重排布算法框架

3.2 无目标状态约束的物体重排布任务
然而, 在实际应用过程中, 物体重排布问题的求解往往不具备执行预排布步骤的条件, 因此物体重排布任务的
目标状态是未知的. 为了缓解这个问题, 基于先验知识的物体重排布方法被提出, 允许具身智能体根据人类常识信
息执行物体错位检测, 并进行物体重排布. 由于缺少对目标状态的说明, 基于先验知识的物体重排布任务要求具身
智能体具有更强的自主推理能力, 能够适应更广泛的任务和环境. 以图 27 所示场景为例, 我们期望具身智能体在
目标状态未知的情况下检测并拾起掉落到地板上的遥控器, 进一步推理放置遥控器的合适位置并执行重排布, 而
不要求具身智能体在整理客厅之前探索整个客厅.

遥控器在沙发旁边的地板上,
搜索并导航至咖啡桌. 把遥控器放置到咖啡桌上.
需要被归放到合适的位置. 放置在桌面上更加合理.
图 27 基于先验知识的物体重排布示例

自主重排布过程需要同时考虑 3 个子任务: 1) 探索: 具身智能体在环境中自主探索, 识别环境中存在的物体;
2) 错位检测: 具身智能体根据常识性知识自主识别错位物体并推理合适的放置位置; 3) 重排布: 通过 ObjectNav 和
环境交互将检测到的错位物体放置到正确的位置. Sarch 等人 [123] 提出基于先验知识的物体重排布策略 TIDEE, 利
用自然语言中表达的先验知识和从视觉观察中提取的空间-空间、物体-空间、物体-物体关系图识别错位物体, 并
将错位物体重排布到合适的状态. 如图 28 所示, 该策略利用联合记忆图网络 (Memex) 构建可靠的任务场景上下
文, 推断错位物体的合适位置, 最后通过视觉搜索网络指导具身智能体执行 ObjectNav 任务, 并重排布错位物体.

326 327 328 329 330 331 332 333 334 335 336