Page 314 - 《软件学报》2025年第4期
P. 314

1720                                                       软件学报  2025  年第  36  卷第  4  期


                    如图  6  所示, 二维或三维语义地图不仅指示了空间占用情况, 还为具身智能体提供了有助于导航策略学习的
                 空间位置信息和对应位置的语义类别信息. 首先对                RGB  图像进行语义分割, 然后结合相机的内参、外参和深度图
                 像生成三维语义点云. 通过对三维语义点云进行拼接、融合和进一步的维护, 构建三维语义占用地图. 如图                                  7  所
                 示, 将三维语义点云沿      Z  轴向  XY  坐标平面投影, 则生成二维语义占用地图           [67] . 如果不考虑语义信息, 则仅生成对
                 应的占用地图. 还有一类方法将通过视觉神经网络学习到的特征或者视觉神经网络的隐藏层状态存入占据栅格中
                 构建语义占据地图       [68−70] , 此类地图被验证除了包含语义信息外还包含物体目标的轮廓和纹理特征. 基于语义占用
                 地图的环境表示经过神经网络的处理, 能够为视觉导航和探索提供环境的空间线索、语义关系信息甚至物体的轮
                 廓和纹理特征.

                                                      可导航区域                             场景层
                                                      椅子
                                                      沙发                                    客厅
                                                      盆栽植物
                                                      床                               空间层
                                                      马桶
                                                      电视
                                                      餐桌
                                                      烤箱                             物体层
                                                      水池                                           抽屉
                 有强烈的归纳偏差. 例如根据某些特征, “电视”在人类看来是“电视”, 但是在具身智能体看来未必是“电视”, “鼠标
                                                      冰箱                               笔记本
                                                      书
                                                      钟表                                           电视
                                                      花瓶                             沙发
                                                      杯子                                   盒子   桌面
                                                      瓶子
                        空间占用地图             二维空间占用语义地图           三维空间占用语义地图              分层次拓扑语义地图
                                图 6 基于语义占用地图的环境表示和基于拓扑语义地图的离散环境表示


                      RGB (I t )
                                                             Z
                                语义分割                                  沿
                                                                X     Z
                                                          Y             所有的占据栅格
                                                                      轴                         障碍物层
                                                                      向
                                                                      XY
                      Depth (D t )                                        所有的                   语义类别层
                                  X  Y  Z  C 1  C 2  C 3              坐  语义信息
                                                                      标
                                                                      平
                                                       三维语义点云         面
                                                                      投
                                  三维点云      语义标签                      影
                                             图 7 二维语义占用地图环境表示构建

                    拓扑语义地图属于离散的高维环境表示, 对环境中的高层次语义和关系进行表征, 相对于语义占用地图更加
                 的精简和抽象. 拓扑语义地图的节点可以表示为物体的一组属性, 也可以表示为由神经网络编码的高维视觉图像
                 特征. 拓扑语义地图的边可以表示为节点之间的空间和语义关系. 图                     6  给出了分层次拓扑语义地图的一个示例            [32] ,
                 将一个客厅场景划分为子空间, 子空间及其空间连通性构成了空间层. 对于每一个子空间中的视觉观测, 通过对视
                 觉图像进行物体目标检测, 将物体的属性             (例如颜色) 和类别嵌入作为节点特征, 将节点之间的空间关系                   (例如欧
                 氏距离) 作为边, 构成了物体层离散的语义拓扑图. 这里的离散, 即拓扑图所包含的特征通常是人为指定的, 通常具


                 在书桌上”并不意味着“鼠标在书桌的边缘上”. 这些归纳偏差的存在是因为人类的生活环境是语义丰富且复杂多
                 样的, 物体实例之间的关系无法通过人为指定的离散的关系来详尽地描述. 环境中的物体和它们之间的关系构成
                 了一个庞大的特征和关系空间, 其中的部分特征和关系对于视觉导航和探索是非常重要的.
                    现有的大量的方法以静态图像为基础构建拓扑场景关系图                     [71−73] , 这些方法没有识别和跟踪场景随时间变化的
                 机制, 因此不适合动态导航任务. 为了缓解这一问题, 有的方法从视频中创建拓扑场景图                          [74,75] , 能够从时间维度捕
                 获信息. 然而, 这些方法依赖于预先录制的视频, 因此不适用于需要与环境进行交互学习的具身导航任务. 最近, 一
   309   310   311   312   313   314   315   316   317   318   319