Page 319 - 《软件学报》2025年第4期
P. 319

陈铂垒 等: 面向具身人工智能的物体目标导航综述                                                        1725


                                         表 1    物体目标导航策略的优势和局限性总结            (续)

                     方法       年份   发表渠道                     优势                           局限性
                                             综合利用视觉观测中的局部和全局空间特征学习 缺少有效的长期记忆, 易导致重复
                  ORG+TPN [36]  2020  ECCV
                                             视觉表示, 能够帮助具身智能体脱离局部陷阱              探索
                                             首次提出基于语义地图环境表示的物体导航策略 动作空间大, 采样效率低, 易导致重
                   SemExp [45]  2020  NeurIPS
                                             和模块化的物体导航策略                        复探索
                                             通过想象未知区域中的场景先验信息及其置信度 缺少有效的长期记忆, 易陷入局部探
                         [18]
                   SSCNav     2020   ICRA
                                             来增强物体目标导航决策                        索区域; 动作空间较大, 采样效率低
                                             利用环境中普遍存在的物体间语义和空间关系, 导航策略的泛化性能受限于外部知
                   MJOLNIR [42]  2020  CoRL
                                             引导智能体逐步探索目标物体                      识和环境布局差异影响
                    THDA [46]  2021  ICCV    通过数据增强提高训练场景的多样性和复杂性,              依赖大量的训练场景和算力
                                             从而提高导航策略的泛化能力
                                             提出利用辅助任务和奖励函数以端到端的方式训 缺少有效的长期记忆, 易导致重复
                  Red-Rabbit [31]  2021  ICCV
                                             练通用物体导航策略                          探索
                                             提出一种空间注意力机制, 引导智能体关注物体 缺少有效的长期记忆, 易导致重复
                   Mayo等人 [34]  2021  CVPR
                                             之间的关系和目标物体的方位                      探索
                        [40]
                                             提出交互式导航策略, 支持具身智能体通过改变 缺少有效的长期记忆, 特征融合机
                    NIE [105]  2021  ICCV
                                             环境状态实现更高效的导航                       制较为粗糙
                                             利用由粗到细的分层次场景先验引导智能体逐步 不同层次的拓扑场景先验之间的融
                    HOZ [32]  2021   ICCV
                                             搜寻物体                               合机制较为粗糙
                                             提出利用高层次的房间类别信息引导智能体寻找 导航性能受限于场景分类和拓扑图
                   GCExp [106]  2021  ROMAN
                                             目标物体                               构建的准确性
                                             利用未观察区域中的语义类别不确定性来确定长 动作空间较大, 采样效率低, 导航性
                        [19]
                    L2M       2021   ICLR
                                             期导航目标, 具备高效的物体搜索能力                 能受限于语义地图构建的准确性
                                             综合利用视觉观测中的局部和全局空间特征学习 缺少有效的长期记忆, 视觉表示的
                   VTNET [65]  2021  ICLR
                                             视觉表示, 以增强导航策略网络                    质量受限于物体检测模型
                                             采用有向物体注意力图指导智能体学习物体之间 拓扑图的构建导致细粒度场景先验
                    DOA [107]  2021  ACM MM
                                             的注意力关系, 引导智能体关注正确的物体目标             信息的损失, 不利于短期规划
                                             基于大量的专家演示和模仿学习技术提高物体导
                          [14]
                  Habitat-Web  2022  CVPR                                       需要人工收集大量的专家演示
                                             航性能
                                             通过对CLIP模型进行微调, 利用CLIP中内化的丰 缺少有效的长期记忆, 易导致重复
                        [53]
                    ZSON      2022  NeurIPS
                                             富的视觉-语言特征提高导航泛化性能                  探索
                                             利用知识蒸馏技术学习隐式的场景表示, 为物体 缺少有效的长期记忆, 易导致重复
                    OVRL [108]  2022  ICLR
                                             导航提供丰富的视觉特征                        探索
                                             通过数据增强提高训练场景的多样性和复杂性,
                  ProcTHOR [47]  2022  NeurIPS                                  依赖大量的训练场景和算力
                                             从而提高导航策略的泛化能力
                                   Complex &  基于元学习技术, 充分利用视觉观测的上下文内 缺少有效的长期记忆, 易导致重复
                    Li等人 [49]  2022  Intelligent  容, 提高导航策略对未知环境的泛化性能           探索
                                    Systems
                                                                                采样效率低, 长期记忆不可避免的
                        [66]
                    OMT       2022   ICRA    利用Transformer存储历史信息
                                                                                丢失
                                  Computational
                         [48]                从空间和时间维度分别充分利用空间视觉特征和 对长序列的视觉观测进行建模, 导
                   TransNav   2022  Design and
                                             时序视觉特征, 增强导航策略的性能                  致计算量的急剧增加
                                   Engineering
                                             基于生成式元对抗网络技术生成未知环境中的陌 缺少有效的长期记忆, 易导致重复
                    GMAN      2022   ECCV
                                             生物体的视觉特征, 从而泛化到新的物体目标              探索
                                             提出基于监督学习, 根据语义地图直接预测未知 需要额外收集训练数据, 泛化性能
                   Zhu等人 [21]  2022  IROS
                                             区域中距离智能体最近的物体位置                    易受环境布局影响
                                             提出基于监督学习, 预测未探索区域的潜在信息 需要收集大量的地图训练数据, 泛
                    PONI [20]  2022  CVPR
                                             增益和目标物体存在的可能性                      化性能易受环境布局影响
                 Al-Halah等人 [109]  2022  CVPR  利用模块化迁移学习提出一种适应多种目标模态 没有对多模态融合进行充分研究,
                                             的语义视觉导航策略                          导航效率和成功率较低
   314   315   316   317   318   319   320   321   322   323   324