Page 9 - 《中国医疗器械杂志》2026年第2期
P. 9

Chinese Journal of Medical Instrumentation                                         2026年 第50卷 第2期

                                                     医   疗   机   器   人



                  (2)智能导航与动态避障。                                            F(q) = −∇ U att (q)+U rep (q) )  (5)
                                                                                    (
                  在路径控制方面,Multi-RevRobot采用人工势                       然而,在复杂的动态环境中,机器人通常会遇
              场法与强化学习相结合的协同策略,实现了全局引                            到多种不确定的情况,比如障碍物密集、动态障碍
              导与局部避障的有机融合。                                      物频繁变化等。人工势场方法虽然能够较好地处理
                  人工势场法以目标点为吸引源,障碍物为排斥
                                                                静态障碍物,但在复杂非凸环境中易陷入局部
              源,适用于快速构建全局路径并规避静态障碍。人
                                                                极小值,导致导航失败或效率下降。为弥补上述缺
              工势场模型的构建方法如下所示,U (q)表示机器                          陷,本文引入基于深度强化学习的局部避障策略。
                                                att
              人在路径规划下的引力场,用来引导机器人朝目标
                                                                以激光雷达和深度摄像头采集的环境数据为状态输
              点移动。假设机器人的当前位置为q,目标点为
                                                                入,设计针对狭窄通道、动态障碍物等典型场景的
              q goal ,则引力场可以表示为:                                训练任务,构建局部策略网络。近端策略优化
                                  1    
       
 
 2

                          U att (q) = k att · 
q−q goal  
  (2)  (proximal policy optimization,PPO)算法是一种
                                  2
              式中:k 为引力系数,典型取值范围为0.8~1.2,                        深度强化学习算法,通过调整机器人与障碍物、目
                      att
                                                                标点之间的相对位置、改进斥力场的强度以及利用
              用于控制机器人朝向目标移动的吸引力;||q − q                  goal ||
              是机器人当前位置q与目标点q                 之间的欧几里得            机器人实时感知到的环境数据,来提升避障和路径
                                          goal
              距离。                                               规划的成功率。
                  U (q)用来处理机器人在障碍物密集区域的局                            PPO中的状态函数s 表示机器人在时间步t的环
                                                                                      t
                    rep
              部规划。假设环境中存在N个障碍物,障碍物的坐                            境感知信息,通过将引力场(目标点的吸引力)和
              标为q 。同时考虑障碍物的移动速度与温度,则斥                           斥力场(障碍物的排斥力)加入状态描述,机器人
                   i
              力场可以表示为:                                          能够在状态函数中考虑全局势场的分布。这种状态
                                                                空间的扩展帮助强化学习算法更全面地感知当前环
                                (      ) 2
                        1     N ∑  1
                       
                       
                       
                        k rep ·          · f(T obs )· f(v obs ),  境状态,为避障策略的优化提供了更丰富的信息。
                       
                        2        d(q,q i )
                       
                              i=1                         (3)            {
               U rep (q) = 
                                                                     s t = 机器人位置,障碍物位置,目标点位置,
                       
                                           d(q,q i ) ⩽ d safe
                       
                                                                                                       }
                                                                        引力场强度,斥力场强度,传感器数据
                        0,                 d(q,q i ) > d safe                                              (6)
              式中:k 为斥力系数,取值范围为0.5~1,用于控                         式中:引力场和斥力场的动态变化信息由人工势场
                     rep
              制机器人对障碍物的避让程度;d(q,q )为机器人当                        法计算,并在每个时刻实时更新后输入强化学习的
                                                i
              前位置q与障碍物位置q 之间的距离;d                safe 为安全距      状态空间。传感器数据包括激光雷达感知到的障碍
                                   i
              离,当d(q,q )低于预设的安全距离d             safe 时,机器人       物距离信息、红外感应器的温度信息等。
                         i
              根据该斥力场做出避障动作;f(T )为温度影响函                              PPO中的动作函数a 表示机器人在时间步t采取
                                                                                      t
                                             obs
              数,其根据障碍物温度调整斥力场的强度,障碍物                            的行动。机器人根据当前状态s 决定下一个时刻应
                                                                                             t
              的温度越高,所生成的斥力越强;f(v )为速度影                          如何移动(例如转向、后退、加速或减速)。
                                                 obs
              响函数,其根据障碍物移动速度调整斥力场的强                                               a t ∼ π θ (a t |s t )     (7)
              度,障碍物的移动速度越高,所生成的斥力越强。                            式中:π (a |s )表示策略函数,θ为深度神经网络的
                                                                          t t
                                                                        θ
              温度影响函数和速度影响函数可分别表示为:                              权重,用于描述在状态s 下选择动作a 的概率分布。
                                                                                                  t
                                                                                      t
                            
                             f(T obs ) = 1+χ·T obs                 奖励函数r 是机器人在采取动作a 后根据环境
                                                                             t                    t
                                                          (4)
                            
                                                               反馈获得的奖励值。该奖励值根据机器人与障碍
                              f(v obs ) = 1+φ·v obs
              式中:χ为温度系数,典型取值范围为0.05~0.1,用                       物、目标点之间的相对距离以及避障情况来设定。
              于调整温度对斥力场的影响;               φ为速度系数,典型             具体地,接近目标点会获得正向奖励,避开障碍物
              取值范围为0.1~0.3,用于调整速度对斥力场的影响。                       也会增加奖励,而碰撞或远离目标点则会导致负向
                  环境所构成的总势场是机器人在位置q所受到                          奖励。为了激励机器人探索不确定的区域,将不确
              的合力场,表示机器人在目标点引力和障碍物斥力                            定性度量引入PPO的奖励函数,当机器人进入动态
              的共同作用下的行为。机器人在复杂环境中所受到                            环境中某些不确定性较高的区域时,PPO可以自动
              的合力可表示为总势场对机器人所在位置q的负                             增强探索行为。可以通过增加策略的熵来提升探索
              梯度:                                               性,同时将奖励反馈及时传回到策略网络,调整未
                                                             123
   4   5   6   7   8   9   10   11   12   13   14