Page 9 - 《中国医疗器械杂志》2026年第2期

P. 9

Chinese Journal of Medical Instrumentation 2026年第50卷第2期

医疗机器人

（2）智能导航与动态避障。 F(q) = −∇ U att (q)+U rep (q) ) (5)
(
在路径控制方面，Multi-RevRobot采用人工势然而，在复杂的动态环境中，机器人通常会遇
场法与强化学习相结合的协同策略，实现了全局引到多种不确定的情况，比如障碍物密集、动态障碍
导与局部避障的有机融合。物频繁变化等。人工势场方法虽然能够较好地处理
人工势场法以目标点为吸引源，障碍物为排斥
静态障碍物，但在复杂非凸环境中易陷入局部
源，适用于快速构建全局路径并规避静态障碍。人
极小值，导致导航失败或效率下降。为弥补上述缺
工势场模型的构建方法如下所示，U (q)表示机器陷，本文引入基于深度强化学习的局部避障策略。
att
人在路径规划下的引力场，用来引导机器人朝目标
以激光雷达和深度摄像头采集的环境数据为状态输
点移动。假设机器人的当前位置为q，目标点为
入，设计针对狭窄通道、动态障碍物等典型场景的
q goal ，则引力场可以表示为：训练任务，构建局部策略网络。近端策略优化
1

U att (q) = k att ·
q−q goal
(2) （proximal policy optimization，PPO）算法是一种
2
式中：k 为引力系数，典型取值范围为0.8~1.2，深度强化学习算法，通过调整机器人与障碍物、目
att
标点之间的相对位置、改进斥力场的强度以及利用
用于控制机器人朝向目标移动的吸引力；||q − q goal ||
是机器人当前位置q与目标点q 之间的欧几里得机器人实时感知到的环境数据，来提升避障和路径
goal
距离。规划的成功率。
U (q)用来处理机器人在障碍物密集区域的局 PPO中的状态函数s 表示机器人在时间步t的环
t
rep
部规划。假设环境中存在N个障碍物，障碍物的坐境感知信息，通过将引力场（目标点的吸引力）和
标为q 。同时考虑障碍物的移动速度与温度，则斥斥力场（障碍物的排斥力）加入状态描述，机器人
i
力场可以表示为：能够在状态函数中考虑全局势场的分布。这种状态
空间的扩展帮助强化学习算法更全面地感知当前环
 ( ) 2
 1 N ∑ 1



 k rep · · f(T obs )· f(v obs ), 境状态，为避障策略的优化提供了更丰富的信息。

 2 d(q,q i )

i=1 (3) {
U rep (q) = 
 s t = 机器人位置,障碍物位置,目标点位置,

 d(q,q i ) ⩽ d safe

 }
 引力场强度,斥力场强度,传感器数据
 0, d(q,q i ) > d safe (6)
式中：k 为斥力系数，取值范围为0.5~1，用于控式中：引力场和斥力场的动态变化信息由人工势场
rep
制机器人对障碍物的避让程度；d(q,q )为机器人当法计算，并在每个时刻实时更新后输入强化学习的
i
前位置q与障碍物位置q 之间的距离；d safe 为安全距状态空间。传感器数据包括激光雷达感知到的障碍
i
离，当d(q,q )低于预设的安全距离d safe 时，机器人物距离信息、红外感应器的温度信息等。
i
根据该斥力场做出避障动作；f(T )为温度影响函 PPO中的动作函数a 表示机器人在时间步t采取
t
obs
数，其根据障碍物温度调整斥力场的强度，障碍物的行动。机器人根据当前状态s 决定下一个时刻应
t
的温度越高，所生成的斥力越强；f(v )为速度影如何移动（例如转向、后退、加速或减速）。
obs
响函数，其根据障碍物移动速度调整斥力场的强 a t ∼ π θ (a t |s t ) (7)
度，障碍物的移动速度越高，所生成的斥力越强。式中：π (a |s )表示策略函数，θ为深度神经网络的
t t
θ
温度影响函数和速度影响函数可分别表示为：权重，用于描述在状态s 下选择动作a 的概率分布。
t
t

 f(T obs ) = 1+χ·T obs 奖励函数r 是机器人在采取动作a 后根据环境
 t t
(4)

 反馈获得的奖励值。该奖励值根据机器人与障碍
f(v obs ) = 1+φ·v obs
式中：χ为温度系数，典型取值范围为0.05~0.1，用物、目标点之间的相对距离以及避障情况来设定。
于调整温度对斥力场的影响； φ为速度系数，典型具体地，接近目标点会获得正向奖励，避开障碍物
取值范围为0.1~0.3，用于调整速度对斥力场的影响。也会增加奖励，而碰撞或远离目标点则会导致负向
环境所构成的总势场是机器人在位置q所受到奖励。为了激励机器人探索不确定的区域，将不确
的合力场，表示机器人在目标点引力和障碍物斥力定性度量引入PPO的奖励函数，当机器人进入动态
的共同作用下的行为。机器人在复杂环境中所受到环境中某些不确定性较高的区域时，PPO可以自动
的合力可表示为总势场对机器人所在位置q的负增强探索行为。可以通过增加策略的熵来提升探索
梯度：性，同时将奖励反馈及时传回到策略网络，调整未
123

4 5 6 7 8 9 10 11 12 13 14