Page 202 - 《软件学报》2020年第10期
P. 202

3178                                  Journal of Software  软件学报 Vol.31, No.10, October 2020

         属性的取值划分,以病历中的参考诊断作为分类标记,从筛选的 6 种疾病的病历数据中分别先后选取 1 000、
         4 000 和 8 000 份病历数据作为训练样本,即合计的训练样本数分别为 6 000、24 000 和 48 000,并使用朴素贝叶
         斯分类   [57] 和决策树分类  [58] 算法进行训练,然后使用不同训练样本规模下训练的模型分别对 6 种疾病的各 2 000
         份病历(作为测试样本)进行 Top-1 和 Top-3 命中率的统计,结果见表 1 和表 2.

                            Table 1    Hit rate statistics based on naive Bayesian classification
                                    表 1   基于朴素贝叶斯分类的命中率统计
                                                             训练样本数
                                 命中率(%)
                                                   6 000      24 000      48 000
                                          Top-1     37.6       53.5       61.7
                          急性上呼吸道感染
                                          Top-3     63.1       73.2       76.4
                                          Top-1     22.3       38.5       48.3
                            急性支气管炎
                                          Top-3     53.7       61.8       64.3
                                          Top-1     36.3       41.2       45.7
                             急性咽炎
                                          Top-3     55.9       66.7       75.1
                                          Top-1     35.6       40.8       43.2
                             慢性咽炎
                                          Top-3     53.7       65.2       70.8
                                          Top-1     35.7       41.3       44.6
                             慢性胃炎
                                          Top-3     54.8       63.2       73.7
                                          Top-1     42.6       68.3       65.8
                             卵巢囊肿
                                          Top-3     68.6       78.4       85.7
                             Table 2    Hit rate statistics based on decision tree classification
                                      表 2   基于决策树分类的命中率统计
                                                            训练样本数
                                 命中率(%)
                                                   6 000      24 000     48 000
                                           Top-1    35.3       51.9      60.3
                            急性上呼吸道感染
                                           Top-3    62.6       70.7      75.6
                                           Top-1    22.5       37.3      45.8
                             急性支气管炎
                                           Top-3    52.3       60.1      63.2
                                           Top-1    36.1       40.6      44.7
                               急性咽炎
                                           Top-3    54.5       67.3      73.8
                                           Top-1    31.9       39.5      41.7
                               慢性咽炎
                                           Top-3    52.7       64.5      69.9
                                           Top-1    31.3       41.7      43.4
                               慢性胃炎
                                           Top-3    53.8       61.9      72.4
                                           Top-1    41.8       57.5      65.3
                               卵巢囊肿
                                           Top-3    67.8       77.7      84.9

             基于表 1 和表 2 的统计结果可见,朴素贝叶斯分类和决策树分类的命中率结果基本接近,整体上,朴素贝叶
         斯分类的命中率稍高,但针对其中卵巢囊肿疾病的命中率,两者基本相当,主要原因仍是卵巢囊肿疾病的临床表
         现症状更加聚焦.在训练样本数为 6 000 时,Top-1 和 Top-3 的命中率不及本文的方法;在训练样本数为 24 000
         时,Top-1 和 Top-3 的命中率有了显著提升,但仍不及本文的方法;在训练样本数为 48 000 时,Top-1 和 Top-3 的命
         中率接近本文的方法,其中,基于朴素贝叶斯分类的方法,急性咽炎和慢性胃炎的 Top-3 命中率稍高于本文的方
         法 0.1%和 0.7%,卵巢囊肿的 Top-1 命中率高于本文的方法 0.8%;基于决策树分类的方法,卵巢囊肿的 Top-1 命
         中率高于本文的方法 0.3%.
             综上,文献[1]中的方法存在明显的问题和不足,基于朴素贝叶斯分类和决策树分类的方法,在训练样本较少
         时,明显不及本文的方法,在训练样本足够大时,与本文的方法接近甚至高于本文的方法.当然,除了样本的规模
         以外,朴素贝叶斯分类和决策树分类方法的准确性依赖于特征属性选取的有效性和样本的质量.本文方法的准
         确性也依赖于两个关键因素:领域语义知识库的规模和质量,以及公式(1)和公式(2)的有效性,但是通过回顾性
         验证可以提升本文方法的准确性.与朴素贝叶斯分类和决策树分类方法相比,本文的方法具有如下优势.
             1)  避免“冷启动”问题:即在没有或没有足够的训练样本时,基于本文的方法可以达到更好的效果.
             2)  可以快速支撑大量常见疾病的辅助诊断:采用朴素贝叶斯分类和决策树分类的方法,需要针对每种疾病
         选取有效的特征属性,并准备足够多的训练样本,结果的准确性对特征属性的有效性和训练样本的质量比较敏
   197   198   199   200   201   202   203   204   205   206   207