Page 310 - 《软件学报》2025年第4期
P. 310

1716                                                       软件学报  2025  年第  36  卷第  4  期


                    过去的   10  年里, 计算机视觉、深度学习乃至广泛的人工智能领域的发展取得了长足的进步, 推动了传统的被
                 动学习范式向主动学习的转变          [1] , 促进了具身人工智能    (embodied AI) 的快速发展  [2,3] . 在大规模逼真场景数据集   [4−9]
                 和高性能仿真器      [10,11] 的加持下, 具身人工智能领域着重研究“智能是如何从与环境交互的过程中产生的” , 鼓励
                                                                                                   [1]
                 具身智能体    (embodied agent) 以交互和探索的方式主动地学习, 并创造性地解决环境中具有挑战性的问题. 作为具
                 身人工智能具体化的任务之一, 物体目标导航               (object goal navigation, ObjectNav) [12] 要求具身智能体在事先未知场
                 景中搜寻由自然语言指定的物体, 并在有限的时间预算内导航至物体附近                        (例如导航到沙发附近, 如图        1  和图  2  所
                 示). 从应用角度看, ObjectNav 在辅助人类日常活动的智能助手方面有着巨大的应用潜力. 从研究领域看, ObjectNav
                 促使具身智能体从与环境的交互和反馈中学习和进步, 是基于导航的下游具身任务                            (例如视觉物体重排布       [13] ) 的
                 基础, 能够为后续任务做无监督的准备.





                              (通常包括直行、左转、右转和停止), 如图














                                                   事先未见过的场景: 没有经验和地图信息
                                                输入
                                                沙发
                                               目标类别                       输出



                                               视觉观测
                                              (RGBD图像)                   导航动作
                                                (x, y, θ)
                                                位姿





                                         图 1 多样化的环境与       ObjectNav  任务的输入输出

                    在  ObjectNav  任务中  [12] , 具身智能体通常以目标类别、自身位姿和捕获的           RGBD  视觉观测为输入, 输出当前
                 时刻的导航动作                                        1  所示. 多样化且事先未知的环境所导致的巨大的观
                 测空间使得    ObjectNav  任务极具挑战性. 此外, 具身智能体还需要应对视觉-语言匹配、运动控制和碰撞避免等问
                 题. 实证研究表示     [14] , 人类擅长在未知的环境中执行       ObjectNav  任务, 在  MP3D  数据集上达到了   88.9%  的导航成
                 功率. 具身智能体被期待像人类一样通过记忆环境中的空间和语义模式, 利用不同物体之间的从属或者共现                                   (co-
                 occurrence) 关系, 高效地执行复杂的    ObjectNav  任务. 对于具身智能体而言, 想要高效地导航到物体目标至少需要
                 具备  3  个方面的能力   [15] : (1) 视觉-语言匹配能力. 具身智能体应当理解自然语言指令形式的物体目标, 并将指令与
                 环境中的真实物体相匹配; (2) 复杂场景探索能力. 具身智能体应当高效地捕获有助于导航的场景布局和语义先验
   305   306   307   308   309   310   311   312   313   314   315