Page 10 - 《中国医疗器械杂志》2026年第2期

P. 10

Chinese Journal of Medical Instrumentation 2026年第50卷第2期

医疗机器人

来的动作选择。机器人运动红外感应与激光雷达
开始数据融合与权重调节改进人工势场
r t = −α·d goal +β·d obs +δ· H (s t )+κ · F att −γ · F rep (8)
式中：α是与目标点的距离惩罚系数；d 是机器
goal 否
人当前与目标点的距离；β是障碍物距离的奖励系环境是否复杂? 全局规划
数；d 是机器人与障碍物的最短距离；δ是一个控
obs
制探索强度的权重因子，决定了机器人在不确定区是人工势场
域的探索力度；δ·H(s )是探索奖励函数；κ是引力否局部规划路径规划
t
场的奖励系数；F 是引力场的强度；γ是斥力场的强化学习
att
惩罚系数；F 是斥力场的强度。路径规划
rep
通过主动探索和不确定性估计，强化学习的策
略更新基于探索获得的反馈，从而不断优化路径规是
划。PPO的目标函数限制策略更新的幅度，防止策是否到达目标点？机器人运动
结束
略更新得过快，导致策略陷入不稳定状态。目标函
数通常使用裁剪的概率比率来保持稳定：图6 轨迹规划设计
Fig.6 Trajectory planning and design
[
π θ
L PPO (θ) = E t min(r t (θ)· A (s t ,a t ),
环境复杂度的总体评分C 为以下环境关
] complexity
clip(r t (θ),1−ϵ,1+ϵ)· A (s t ,a t )) (9)
π θ
/ 键参数的加权和，定义为：
式中： r t (θ) = π θ (a t |s t ) π θ old (a t |s t )是新策略和旧策略
C complexity =
的比率； ϵ是控制策略更新幅度的裁剪参数，通常设
1
为0.1~0.3，防止比率偏离过大； clip(r t (θ),1−ϵ,1+ϵ) w 1 ·d density +w 2 · +w 3 ·v obs +w 4 ·T obs (10)
d obs
限制了更新步长，使得策略不会过度变化； A (s t ,a t ) 式中：w 、w 、w 、w 是各关键参数的权重，可以
π θ
1 2 3 4
是反映在给定状态下选择某一动作相较于其他动作根据具体应用场景进行调整；d density 为障碍物密集
的优势的函数。度，可根据激光雷达检测到的障碍物数量和它们的
通过PPO算法，在每个时间步中，机器人感知分布范围来计算，障碍物数量越多，密集度越高，
环境状态（状态函数s ），根据当前策略选择动作环境越复杂；d 是机器人与障碍物的最短距离，
t
obs
（动作函数a ），并根据反馈的奖励信号（奖励函越接近障碍物，复杂度越高；T 为障碍物的温
t
obs
数r ），通过最大化裁剪目标函数 L PPO (θ)更新策略。度，由红外感应器采集得到；v 为障碍物的移动
t
obs
通过主动探索与不确定性估计，机器人不仅能够在速度，由激光雷达采集得到。
已知环境中规划路径，还能够动态应对未知环境系统基于机器人上集成的红外感应器和激光雷
的变化，从而优化整体的路径规划过程。这种机制达，将人工势场法与强化学习有机结合，使得机器
有效避免了机器人陷入局部最优点，并提高了探索人能够在全局路径规划和局部避障决策中实现高效
效率。协同，能够有效处理医院走廊转角、门口拥堵、人
基于以上方法，轨迹规划设计如图6所示。首群干扰等高频动态事件，提升导航成功率与任务完
先，机器人基于融合感知模型获取当前环境的整体成效率，为机器人在中医门诊、康复社区等非结构
信息，并通过环境复杂度评估模型，判断环境中障化动态环境中稳定运行提供了技术保障。
碍物的分布、密集程度以及是否存在动态障碍物。
5 硬件建设
然后，基于评估结果，机器人可以选择全局规划或
局部规划。全局规划：适用于障碍物较少、距离较 Multi-RevRobot定位为面向中医药证据转化与
长的路径。此时，机器人可以使用较为简单的引力临床服务场景的服务型机器人，整体设计注重系统
场模型，向目标点快速前进，同时使用斥力场模型运行的稳定性、功能模块的拓展性及人机交互的自
避开静态障碍物。局部规划：当机器人靠近障碍物然性。其硬件系统围绕三大核心模块展开，分别
密集区域或动态障碍物时，系统会切换到局部规划为：移动导航系统、通用感知模块、中医交互终
模式，通过高精度的局部势场模型实时更新机器人端。各模块协同工作，构建了面向临床、科研、社
的避障路径。区等多场景的中医药证据转化平台。Multi-RevRobot

124

5 6 7 8 9 10 11 12 13 14 15