Page 311 - 《软件学报》2025年第4期
P. 311

陈铂垒 等: 面向具身人工智能的物体目标导航综述                                                        1717


                 信息, 避免无效的场景感知; (3) 高效的场景记忆能力. 具身智能体应当跟踪和记录已搜索过的区域, 避免重复和冗
                 余的搜索. 从微观层面看, 具身智能体至少需要具备               5  种思维  [16] : (1) 直接依赖视觉观测进行决策的思维; (2) 利用
                 物体间的语义关系搜寻目标物体的搜索思维; (3) 高效地捕获环境布局的探索思维; (4) 根据物体的方位运动到目
                 标位置的导航思维; (5) 运动过程中的避障思维. 图            3  根据不同的方法所强调的思维对后文介绍的物体目标导航策
                 略进行了分类.

                                                                                        可导航区域
                                                 导航时间                                   椅子
                                                                            t=121 s     沙发
                                                                                        盆栽植物
                                                                                        床
                               目标: 沙发                                                   马桶   语
                           视                                               导航失败,        电视   义
                                                                                        餐桌
                           觉                                               碰撞了2次        烤箱   类
                           观                                                            水池   别
                           测                                                            冰箱
                                                                                        书
                                                                                        钟表
                                                                                        花瓶
                                                                                        杯子
                                                                                        瓶子
                                           基于RGB视觉观测的端到端物体目标导航
                                                 导航时间
                                                                                       t=181 s
                                目标: 沙发
                           视                                                          导航成功,
                           觉                                                          碰撞了0次
                           观
                           测

                           预
                           测
                           的
                           语
                           义
                           地
                           图                       PIRLNav,
                                                 基于语义地图预测的模块化物体目标导航
                                                图 2 主流的物体目标导航示例


                                  HiNL, PIRLNav, CRL, HOZ,
                                  Red-Rabbit, SP, MJOLNIR,
                                   THDA, ZSON, Gcexp
                                                 CSR, HOZ,
                                       思维1
                         HiNL, SAVN,               IoN, SAVN,
                        L2M,         视觉-语言匹配       PONI, SP,
                        SSCNav,                     3D-aware,
                        PONI,                        MJOLNIR,
                       3D-aware,  思维5           思维2  SemExp,
                                            复杂场景探索              思维1: 直接依赖视觉观测进行决策的思维
                       ORG+TPN,       物体目标            ZSON,
                       SemExp,         导航            ESC, GCExp,
                        ESC      高效的场景记忆            ReVoLT, NIE
                                                  HiNL, CRL,
                           PEANUT,  思维4      思维3  CSR, IoN,     思维2: 利用物体间的语义关系搜寻目标物体的搜索思维
                           SSCNav,             PEANUT, L2M,     思维3: 高效地捕获环境布局的探索思维
                            L2M, PONI,
                                           Red-Rabbit, SSCNav,
                             3D-aware,    ESC, ReVoLT,          思维4: 根据物体的方位运动到目标位置的导航思维
                               SemExp,    ZSON, 3D-aware,
                                ESC, NIE                        思维5: 运动过程中的避障思维
                                          SemExp, PONI,
                                          ORG+TPN
                                           图 3 根据物体目标导航方法强调的思维分类
   306   307   308   309   310   311   312   313   314   315   316