Page 200 - 《软件学报》2020年第10期

P. 200

3176 Journal of Software 软件学报 Vol.31, No.10, October 2020

(a) 医疗资源推荐 (b) 疾病详情
Fig.5 Medical resource recommendation and disease details
图 5 医疗资源推荐及疾病详细信息

4 方法评价
为了对本文建设的领域语义知识库和提出的疾病辅助诊断方法进行评价,本文从某个地市的健康医疗大
数据中心随机选取了 6 种常见疾病的临床病历数据,这些病历数据来自多个不同的三甲医院,每份病历数据包
括患者的性别、年龄、主诉、现病史、既往史、个人史、家族史、过敏史、查体、辅助检查、诊断等信息,
这里只用到了主诉、现病史和诊断信息.但病历数据的质量并不高,比如,很多病历数据的主诉字段的值为空,或
者为“未填写”,有些病历数据的主诉内容为“急性咽炎复查”“咨询”“要求彩超”等.这里在选取病历数据时,首先
过滤掉了这几种情况的无效病历数据,然后组织医学专家对选取的病历数据做了进一步的筛查,过滤掉了一些
质量不高的病历数据,即基于这些病历数据中的主诉和现病史中的症状描述很难得出相应的诊断.
从病历数据的主诉和现病史中抽取相关症状,作为患者输入的症状集 S,以病历数据中的诊断作为参考诊
断,基于本文建设的领域语义知识库、公式(1)和公式(2)获取相关疾病列表及其相关度排名,分别选取 Top-1 诊
断(第 1 诊断)和 Top-3 诊断(前 3 诊断)与参考诊断进行比较,如果 Top-1 诊断和参考诊断一致,表明 Top-1 命中;
否则,如果 Top-3 中的某个诊断和参考诊断相一致,则表明 Top-3 命中.以病种为单位,分别统计 Top-1 和 Top-3
的命中率.然后从如下两个方面对本文建设的领域语义知识库和提出的疾病辅助诊断方法进行评价.
1) 与文献[1]中的方法就诊断命中率进行比较
采用本文建设的领域语义知识库和选取的 6 种常见疾病的临床病历数据,分别基于本文的方法和文献[1]
中的方法统计 Top-1 和 Top-3 命中率,比较在不同病历规模情况下的命中率及其变化趋势,如图 6 所示.
从图 6 可见,针对随机选取的 6 种常见疾病的 Top-1 和 Top-3 命中率,本文的方法均高于文献[1]中的方法.在本
文开始部分已对文献[1]中方法存在的问题进行了详细分析,采用文献[1]中的方法,主诉和现病史中的症状与知识库
中对应参考诊断关联的症状越不相关(当然,必须至少有一个症状相关),得到的疾病相关度 w i 反而越大.由于本文在

195 196 197 198 199 200 201 202 203 204 205