Page 315 - 《软件学报》2025年第4期
P. 315
陈铂垒 等: 面向具身人工智能的物体目标导航综述 1721
些工作尝试将基于知识图谱的常识知识注入拓扑场景图中 [76,77] , 构建更加鲁棒的离散拓扑场景图. 但是, 为了探索
更加适合具身导航任务的环境表征, 研究者们逐渐开始研究连续环境表示的构建方法, 基于对比学习的连续环境
表示应运而生 [78,79] . 如图 8 所示, 基于对比学习的连续环境表示方法 [78] 将成对的语义关系嵌入到一个潜在的特征
空间, 鼓励具身智能体以探索的方式逐渐构建一个鲁棒的、全面的环境表示. 首先, Fast R-CNN [80] 被用于基于
RGB 图像检测物体, 物体的属性和成对的物体之间的关系被 CER 编码器编码为固定长度的向量, 这样的特征向
量被期望能够描述连续的、多维度的语义关系. InfoNCE 损失 L contrast [81] 被用来作为对比损失训练 CER 编码器, 促
使特征空间中相似的特征相互靠近, 不同的特征相互远离:
( )
1 2
sim ˜ z ,˜z
i i
exp
1 N ∑ τ
L contrast = − log ( ) (1)
N 1 2
j
i=1 ∑ N sim ˜z ,˜z
k
j,k=1 exp
τ
( ) ( )
1
1
˜ z ,˜z 2 ˜ z ,˜z 2 τ 表示 Softmax 温度缩放参数.
其中, i i 表示成对的正样本, j k 表示成对的负样本, sim(·) 表示点乘操作,
如图 9 所示, 通过联合优化一个基于强化学习的探索策略和一个视觉表示模型, Du 等人 [79] 提出了好奇心驱动
的表示学习方法, 促使具身智能体在探索环境的过程中主动地学习环境表示. 具体来说, 探索策略和视觉表示学习
L rep :
相互博弈, 视觉表示模型的优化目标是最小化表示学习的目标损失
(
min E [ L rep M ϕ , x )] (2)
ϕ x∼p data
探索策略的奖励函数被设置为最大化表示学习的目标损失:
T
∑ )
(
max E L rep M ϕ , x (3)
θ x∼π θ
t=0
其中, M ϕ 为表示学习模型, x 为从数据分布 p data 中的采样, π θ 表示探索策略. 因此, 探索策略被训练以最大化表示
学习模型的错误, 具身智能体在这样的过程中被激励去探索充满不确定性的环境. 随着探索策略提供越来越难学
习的数据, 学习的环境表示也变得越来越全面和鲁棒.
所有的关系对 节点和边
1和2之间的
α 1 α 2
Fast R-CNN (一个批次) 表示
CER 局部CER 策略 π θ π θ
目标检测 编码器
I t t
g CSR
f CSR 强化学习
(最大化对比损失)
主对角
... ... 线以外
主对角线 的是边
上是节点 特征 r 1 r 2 r 3
特征
正样本 (相同关系) 负样本 (其他关系) rep 1 rep 2 rep 3
Model
视
野 图例 对比损失 对比损失 对比损失
A 目标检测1 M ϕ
状态嵌入 正
空间 目标检测2 样
视 本
野 关系嵌入 对 M ϕ M ϕ M ϕ
B
负 表示学习
图 8 基于目标检测和对比学习的连续环境表示 样 M ϕ (最小化对比损失)
本
图 9 基于对比学习的对抗式连续环境表示
1.2 视觉自主探索任务与策略
视觉自主探索是具身智能体不可或缺的能力之一, 它使得具身智能体无需依赖人类的部署即可熟悉和适应复