Page 9 - 《中国医疗器械杂志》2026年第2期
P. 9
Chinese Journal of Medical Instrumentation 2026年 第50卷 第2期
医 疗 机 器 人
(2)智能导航与动态避障。 F(q) = −∇ U att (q)+U rep (q) ) (5)
(
在路径控制方面,Multi-RevRobot采用人工势 然而,在复杂的动态环境中,机器人通常会遇
场法与强化学习相结合的协同策略,实现了全局引 到多种不确定的情况,比如障碍物密集、动态障碍
导与局部避障的有机融合。 物频繁变化等。人工势场方法虽然能够较好地处理
人工势场法以目标点为吸引源,障碍物为排斥
静态障碍物,但在复杂非凸环境中易陷入局部
源,适用于快速构建全局路径并规避静态障碍。人
极小值,导致导航失败或效率下降。为弥补上述缺
工势场模型的构建方法如下所示,U (q)表示机器 陷,本文引入基于深度强化学习的局部避障策略。
att
人在路径规划下的引力场,用来引导机器人朝目标
以激光雷达和深度摄像头采集的环境数据为状态输
点移动。假设机器人的当前位置为q,目标点为
入,设计针对狭窄通道、动态障碍物等典型场景的
q goal ,则引力场可以表示为: 训练任务,构建局部策略网络。近端策略优化
1
2
U att (q) = k att ·
q−q goal
(2) (proximal policy optimization,PPO)算法是一种
2
式中:k 为引力系数,典型取值范围为0.8~1.2, 深度强化学习算法,通过调整机器人与障碍物、目
att
标点之间的相对位置、改进斥力场的强度以及利用
用于控制机器人朝向目标移动的吸引力;||q − q goal ||
是机器人当前位置q与目标点q 之间的欧几里得 机器人实时感知到的环境数据,来提升避障和路径
goal
距离。 规划的成功率。
U (q)用来处理机器人在障碍物密集区域的局 PPO中的状态函数s 表示机器人在时间步t的环
t
rep
部规划。假设环境中存在N个障碍物,障碍物的坐 境感知信息,通过将引力场(目标点的吸引力)和
标为q 。同时考虑障碍物的移动速度与温度,则斥 斥力场(障碍物的排斥力)加入状态描述,机器人
i
力场可以表示为: 能够在状态函数中考虑全局势场的分布。这种状态
空间的扩展帮助强化学习算法更全面地感知当前环
( ) 2
1 N ∑ 1
k rep · · f(T obs )· f(v obs ), 境状态,为避障策略的优化提供了更丰富的信息。
2 d(q,q i )
i=1 (3) {
U rep (q) =
s t = 机器人位置,障碍物位置,目标点位置,
d(q,q i ) ⩽ d safe
}
引力场强度,斥力场强度,传感器数据
0, d(q,q i ) > d safe (6)
式中:k 为斥力系数,取值范围为0.5~1,用于控 式中:引力场和斥力场的动态变化信息由人工势场
rep
制机器人对障碍物的避让程度;d(q,q )为机器人当 法计算,并在每个时刻实时更新后输入强化学习的
i
前位置q与障碍物位置q 之间的距离;d safe 为安全距 状态空间。传感器数据包括激光雷达感知到的障碍
i
离,当d(q,q )低于预设的安全距离d safe 时,机器人 物距离信息、红外感应器的温度信息等。
i
根据该斥力场做出避障动作;f(T )为温度影响函 PPO中的动作函数a 表示机器人在时间步t采取
t
obs
数,其根据障碍物温度调整斥力场的强度,障碍物 的行动。机器人根据当前状态s 决定下一个时刻应
t
的温度越高,所生成的斥力越强;f(v )为速度影 如何移动(例如转向、后退、加速或减速)。
obs
响函数,其根据障碍物移动速度调整斥力场的强 a t ∼ π θ (a t |s t ) (7)
度,障碍物的移动速度越高,所生成的斥力越强。 式中:π (a |s )表示策略函数,θ为深度神经网络的
t t
θ
温度影响函数和速度影响函数可分别表示为: 权重,用于描述在状态s 下选择动作a 的概率分布。
t
t
f(T obs ) = 1+χ·T obs 奖励函数r 是机器人在采取动作a 后根据环境
t t
(4)
反馈获得的奖励值。该奖励值根据机器人与障碍
f(v obs ) = 1+φ·v obs
式中:χ为温度系数,典型取值范围为0.05~0.1,用 物、目标点之间的相对距离以及避障情况来设定。
于调整温度对斥力场的影响; φ为速度系数,典型 具体地,接近目标点会获得正向奖励,避开障碍物
取值范围为0.1~0.3,用于调整速度对斥力场的影响。 也会增加奖励,而碰撞或远离目标点则会导致负向
环境所构成的总势场是机器人在位置q所受到 奖励。为了激励机器人探索不确定的区域,将不确
的合力场,表示机器人在目标点引力和障碍物斥力 定性度量引入PPO的奖励函数,当机器人进入动态
的共同作用下的行为。机器人在复杂环境中所受到 环境中某些不确定性较高的区域时,PPO可以自动
的合力可表示为总势场对机器人所在位置q的负 增强探索行为。可以通过增加策略的熵来提升探索
梯度: 性,同时将奖励反馈及时传回到策略网络,调整未
123

