Page 15 - 《软件学报》2021年第7期

P. 15

檀超等:复杂软件系统的不确定性 1933

量的质量得分值.如果回答“是(Y)”,那么回答这个问题的得分为 1 分;如果回答“否(N)”,那么回答这个问题的得
分是 0 分.其中 8 个文献质量指标(Q1、Q3、Q4、Q5、Q6、Q10、Q11 和 Q12)如果不能充分且自信地回答“是”
或者“否”,那么回答这个问题的得分是 0.5 分.其中一个文献质量指标(Q7)中度量文献利用数据集和案例进行验
证的数量.考虑到当数据集或者案例大于 1 时,更有说服力,所以制定:在该质量指标中,当只有一个数据集或者
案例时,该问题的评分为 1 分;当有多个数据集或者案例时,该问题的评分为 2 分;当没有数据集或者案例时,该问
题的评分为 0 分.
当获得每个文献的所有质量指标得分之后,我们计算这 12 个问题的回答得分的总和来评估该文献的质量.
在进行文献质量评估过程中,与文献筛选的过程类似,每篇文献均由本文的两位不同的作者独立进行评估,当未
达到共识时,需要对该文献进行重新质量评估和充分讨论,最终得到一致的结果.
根据文献[22,27]中给出的实验结果,上述文献质量指标可以有效地度量文献的质量.为了保障文献分析的
质量和有效性,与文献[24,27,28]类似,我们设定了最小文献质量阈值为 8 分.如果文献的整体质量得分少于 8 分,
则进一步将这些文献删除.这样,我们只保留质量得分不小于 8 分的文献作为最终的文献数据集.最终,通过对文
献的质量进行评估,筛选得到了 142 篇相关文献(https://chaotan201.github.io/ComplexSystemUncertaintyPapers.
html),并将这些相关文献作为最终的文献数据集进行调研.

Table 2 The metrics for measuring the quality of the primary studies and scores
表 2 文献质量度量指标及对应的得分值

序号维度质量指标质量得分值
Q1 该文献是否有清晰明确的目标? [27] Y=1,N=0,P=0.5
Q2 该文献是否开展了一系列的相关实验或是报告了经验? [22] Y=1,N=0
质量报告
Q3 该文献有没有对研究上下文进行充分的介绍(如某个行业、实验环境等)? [22,27] Y=1,N=0,P=0.5
Q4 该文献是否明确说明了研究目标? [22] Y=1,N=0,P=0.5
Q5 该文献是否清晰地描述了所使用的技术? [24] Y=1,N=0,P=0.5
Q6 该文献是否详细介绍了研究设计的理由? [27] Y=1,N=0,P=0.5
Q7 严谨性该文献中的实验是否收集了足够多的项目数据集或案例研究? [24] Y=1 or 2,N=0
Q8 该文献是否有工具支持? [28] Y=1,N=0
Q9 该文献是否经过实证评估? [28] Y=1,N=0
Q10 该文献是否明确讨论了这项研究的局限性? [25] Y=1,N=0,P=0.5
可信性
Q11 该文献是否有关于研究结果的讨论? [28] Y=1,N=0,P=0.5
Q12 相关性该文献是否对工业界或学术界有价值? [22,24] Y=1,N=0,P=0.5
3.5 属性抽取与细化
本模块包括 3 个子模块,分别为:文献属性定义、文献属性抽取、文献属性清洗和细化.
在文献属性定义子模块,我们定义了 12 个文献属性,见表 3.前 4 个属性为全局属性,各个研究问题都需要使
用这 4 个属性.属性 5~属性 12 分别对应我们已给出定义的 8 个研究问题(详见第 3.1 节).
在文献属性抽取子模块,基于上述已定义的属性,我们对所有文献进行各个属性值的抽取.从表格中可以看
出,部分文献属性(属性 1~属性 7)为客观属性,可以很容易地通过工具自动获取.还有部分属性为主观属性(属性
8~属性 12),需要人工对文献进行阅读和分析,从而获得该属性的正确值.为了保证主观属性值抽取的正确性,我
们采取了以下措施.
(1) 同一篇文献由本文的两位不同作者同时进行属性值的抽取,两位作者不知道对方的属性值抽取结果.
(2) 如果他们的属性值抽取的结果一致,该文献属性值的最终结果即为两位作者的一致结果.
(3) 如果他们抽取到了不同的属性值,则两位作者需要进行协商以得到一致的结果.
在文献属性清洗和细化子模块,针对客观属性(属性 1~属性 7),我们对文献的部分属性进行了清洗和细化,
使这些属性的值在各个文献的书写形式上保持统一,比如作者姓名、作者机构、出版物类型以及关键词.为了

10 11 12 13 14 15 16 17 18 19 20