Page 320 - 《软件学报》2025年第4期
P. 320

1726                                                       软件学报  2025  年第  36  卷第  4  期


                                         表 1    物体目标导航策略的优势和局限性总结            (续)

                     方法       年份   发表渠道                     优势                           局限性
                                             增量地学习可重用的高维环境特征, 在导航过程 在复杂和未知环境中, 抽象模型的
                          [110]
                 Campari等人    2022   CVPR
                                             中有效地获取和回忆历史知识                      性能受限于特征提取模块
                                             提出了一种多维度的障碍物地图和一种不依赖环 动作空间过于简化, 容易导致无效
                         [111]
                   Stubborn   2022   IROS
                                             境语义的启发式探索策略                        的导航步骤
                                             利用自主探索和对比学习技术以具身的方式训练 需要额外收集训练数据, 对复杂环
                   Min等人 [23]  2022  IROS
                                             语义分割模型并构建环境表示, 提高导航效率              境的泛化性能有待商榷
                                             提出了基于3D语义地图的场景表示和一种角向引
                         [22]                                                   3D语义地图的更新和维护效率低,
                   3D-aware   2023   CVPR    导的探索策略, 采用3D场景先验引导智能体识别
                                             目标物体                               容易导致导航步骤的浪费
                                             提出 “搜索”和“导航”两种导航思维, 不同的导航 忽略了对探索、避障等重要思维的
                  Dang等人 [112]  2023  ICCV
                                             阶段灵活地使用不同的思维                       建模和讨论
                                             基于Transformer存储历史信息, 实现当前视觉观 对长序列的视觉观测进行建模, 导
                    Li等人 [35]  2023  IEEE RAL
                                             测与历史记忆的交互                          致计算量的急剧增加
                                             深入研究了将模仿学习预训练和强化学习微调相 导航模型设计过于简单, 对复杂场
                 其探索并导航至具有某种属性的特定实例
                   PIRLNav [15]  2023  CVPR
                                             结合的训练范式                            景的泛化性能未知
                         [38]                利用环境中的物体布局, 通过因果推断消除已知 导航性能受环境布局信息的制约,
                   L-sTDE     2023   CVPR
                                             环境和未知环境之间的特征误差                     在不同环境间的泛化性能未知
                                             抑制了重复的历史记忆对导航策略的负面影响, 简单地将历史记忆编码为向量, 容
                    HiNL [37]  2023  CVPR
                                             使智能体能快速响应环境变化                      易造成历史信息的丢失和遗忘
                                             采用监督学习, 根据语义地图直接预测未知区域 需要收集大量的地图训练数据, 泛
                         [41]
                   PEANUT     2023   ICCV
                                             中物体目标的潜在位置                         化性能易受环境布局影响
                                             通过大语言模型将常识性知识引入导航策略实现 导航性能受限于提示符的设计和语
                       [113]
                    ESC       2023   ICML
                                             零样本学习, 提高了在未知环境中的泛化性能              义地图构建的准确性
                                             使用多层空间-语义拓扑图构建场景表示, 利用分 损失了细粒度的场景先验信息, 不
                   ReVoLT [114]  2023  arXiv
                                             层次的场景先验增强导航策略                      利于短期规划
                                             提出一种基于对比学习的连续环境表示方法和一
                   Chen等人 [115]  2023 IEEE TCSVT 种多步前向规划方法, 增强了智能体的环境理解         连续环境表示的性能受限于语义地
                                             和决策能力                              图构建的精度
                                                                                缺乏对避障、导航等思维的讨论,
                                             提出一种基于技能的分层强化学习导航框架, 调
                    SHRL [116]  2023  IEEE TMM                                  基于向量的场景表示容易造成历史
                                             度不同的技能解决导航过程中的不同子问题
                                                                                信息的丢失和遗忘
                 2.1   单物体与多物体目标导航任务
                    想象一下, 你走到一个家庭机器人助手面前问它: “能去看看我的笔记本电脑在不在桌子上吗? 如果在, 请拿
                 来给我.” 为了成功地完成这项任务, 机器人助手需要具备视觉感知、语言理解、情景记忆、推理和规划和导航等
                 广泛的技能. 作为中间环节, 搜索和导航到一个指定物体                 (寻找笔记本电脑) 的能力是不可或缺的, 这也是本文讨
                 论的重点. 物体目标导航按照任务类型可以分为单目标导航和多目标导航, 定义分别如下.
                    单物体目标导航: 要求具身智能体在一个事先未知的环境中导航至由一个特定标签指定的物体目标. 对于一
                 个在事先未知的环境中以随机的坐标和位姿初始化的具身智能体, 类别层次的                          (class-level) 物体目标导航要求其
                 探索并导航至一个物体类别的任何实例              (例如“找到一把椅子”), 实例层次的         (instance-level) 物体目标导航  [33] 要求
                                                  (例如“找到一把木质的棕色的椅子”).
                    多物体目标导航: 要求具身智能体探索环境并按照指定的语义标签序列搜索并导航至多个不同的物体目标,
                 是对单物体目标导航任务的泛化.
                    虽然基于地图的记忆结构对于具身智能体来说不一定是最优的, 但它们具有较强的空间结构建模和可解释性
                 优势, 被研究人员广泛地采用, 也已被证明在各种导航任务中优于基于神经网络的隐式记忆结构                               [32,34,36−38] . 基于这
                 个观点, Wani 等人  [25] 提出了一个统一的框架      MultiON, 采用如图  12  所示的导航框架重点研究了基于地图的环境
                 表示在单目标和多目标导航中的应用, 验证了简单的语义地图环境表示在提升导航性能方面优于一个更复杂的基
   315   316   317   318   319   320   321   322   323   324   325