Page 328 - 《软件学报》2025年第4期
P. 328

1734                                                       软件学报  2025  年第  36  卷第  4  期


                 目标导航策略, 是一项具有里程碑意义的工作. 以此为基础, 在此之后的                     2–3  年的时间里, SSCNav、L2M、PONI
                 和  PEANUT  等基于语义地图环境表示的方法被陆续提出, 基于高性能仿真器渲染的                      RGB  图像、深度图像和语义
                 分割, 充分地挖掘和利用了大规模真实场景数据集的空间结构和语义信息, 大幅度提高了导航的成功率等性能指
                 标. 几乎与  Chaplot 等人  [45] 同时, Du  等人  [36] 基于  AI2-THOR  数据集和仿真器, 提出了基于离散拓扑环境表示的端
                 到端目标导航策略. 相比于        MP3D  和  Gibson, AI2-THOR  数据集只提供  RGB  图像, 因此拓扑场景图和循环记忆网
                 络被用来从时间和空间维度构建和维护有利于导航的环境特征. 之后, Zhang                     等人  [32] 基于  AI2-THOR  数据集进一
                 步提出了分层次的拓扑场景表示, 几乎将拓扑环境表示的优势发挥到了极致. 虽然上述方法中的策略学习受限于
                 固定的场景, 基于有限的数据集的物体目标导航策略层出不穷, 经久不衰, 贯穿整个发展进程.

                 2.4.2    基于增强数据集的泛化策略学习
                    Maksymets 等人  [46] 通过实验验证了有限的数据集所导致的模型训练过拟合问题, 即经过大规模训练的具身智
                 能体在训练环境中达到        94%  的成功率, 在测试环境中的成功率仅为            8%. 具体的原因是具身智能体过度拟合了训
                 练环境的布局, 不需要探索环境就可以沿着最短路径导航至物体目标, 但是过度拟合的环境特征无法应对测试集
                 中未见过的场景. Maksymets 等人提出了名为寻宝数据增强              (treasure hunt data augmentation, THDA) 方法, 通过在
                 航过程中局部和全局视觉信息, 以及时间序列特征. Li 等人
                 MP3D  场景中插入新的     3D  物体来增强训练场景的复杂度, 以提高具身智能体在复杂多样的环境中的场景探索、
                 场景记忆和视觉-语言匹配能力. Ramrakhya 等人          [14] 提出通过收集人类专家演示和模仿学习来增强物体目标导航
                 性能的方法, 命名为      Habitat-Web. Ramrakhya 等人发现, 经过模仿学习训练的具身智能体从人类专家演示中学习
                 了有效的物体搜索行为, 即窥视房间、检查角落里的小物体和通过转弯获得全景视野图像等技巧. 这些技巧很难
                 通过强化学习突出地展示出来, 即使通过先进的强化学习技术诱导这些行为也需要繁琐的奖励工程.
                    最近, Deitke 等人  [47] 提出了名为  ProcTHOR  的数据增强方法, 通过随机采样任意多样化的、交互式的、可定
                 制的和高性能虚拟环境来训练和评估具身智能体. 该方法以采样的方式对现有的场景数据集进行融合, 通过各个
                 数据集的优势缓解模型训练过拟合问题. 该文还通过实验证明了                     ProcTHOR  方法强大的零样本学习能力, 即通过
                 ProcTHOR  预训练的模型不需要下游任务的微调, 能够击败下游任务中最先进的方法. 考虑到重新构建一个新的、
                 多演化的数据消耗大量的时间和经济成本, 上述基于增强数据集的泛化策略通常通过修改或者融合现有的数据集
                 来进一步提升导航策略的性能, 缓解对训练环境布局的过度拟合.

                 2.4.3    基于元学习的泛化策略学习
                    考虑到现实环境的复杂多样, 采用数据集增强手段来改善物体目标导航性能仍然具有局限性. 对于人类而言,
                 学习本质上是一种持续的现象. 当人们学习一项新的任务时, 思维的训练和推理之间没有明显的区别, 因为我们会
                 在执行任务的推理过程中不断地修正思维. 学习如何学习对于我们是一项关键的能力, 使我们能够毫不费力地适
                 应新的环境和工作. 然而这与机器学习中的传统设置形成对比, 在机器学习中, 经过训练的模型在推理过程中被冻
                 结. 在物体目标导航的早期研究中, 基于元学习的泛化策略学习方法就曾被提出, 赋予具身智能体学习如何去学习
                 的能力. 2019  年, Wortsman  等人  [39] 基于模型不可知的元学习   (model agnostic meta-learning, MAML) 和强化学习提
                 出了一种自适应视觉导航         (self-adaptive visual navigation, SAVN) 方法, 它可以在没有任何显式监督的情况下学习
                 如何适应新的环境, 并泛化到没有见过的场景.
                    2022  年, Zhou  等人  [48] 基于  Transformer 和元强化学习提出了名为  TransNav  的物体目标导航框架, 考虑了导
                                                               [49]
                                                                 在  SAVN  的基础上, 将离散的拓扑环境表示与元强
                 化学习相结合, 弥补了具身智能体在训练场景和未见过的场景之间的导航性能差距. 这些基于元学习的泛化策略
                 改善了具身智能体的无效探索行为, 加快模型的收敛速度. 上述的                    3  种方法试图将导航策略泛化到未见过的环境
                 中, 使其在训练场景中观察到的物体类别上取得合理的导航性能. 最近, Zhang                    等人  [40] 提出了用于应对以未见过的
                 物体类别为目标物体的生成式元对抗网络, 使具身智能体通过综合目标物体和环境的特征来“想象”没有见过的物
                 体, 并导航至该物体. 基于元学习的泛化策略学习使具身智能体主动地学习和适应未知环境的空间和语义模式, 通
                 过增强智能体的视觉-语言匹配、场景探索和场景记忆能力提高的导航效率.

                 2.4.4    视觉语言模型增强的导航策略
                    考虑到世界上不同的国家和地区的房屋结构不同, 房屋中的物品各色各样, 物体目标导航策略必须在不进行
   323   324   325   326   327   328   329   330   331   332   333