Page 220 - 《软件学报》2021年第5期
P. 220
1444 Journal of Software 软件学报 Vol.32, No.5, May 2021
5 评价指标
数字病理图像检测与分割算法性能的客观评价是算法应用于实际病理诊断的关键.检测与分割结果的好
坏需要定性和定量的评价.有效的定量评价应该包含像素级和目标级两个方面,且评价标准需要惩罚以下 4 种
错误.
(1) Ground Truth(人工标注)目标的漏检测;
(2) 伪目标的误检测;
(3) 正确检测目标的欠分割;
(4) 正确检测目标的过分割.
常用的目标检测度量指标包括敏感度(sensitivity,简称 Se)、特异性(specificity,简称 Sp)、准确率(accuracy,
简称 Acc)、曲线下的面积(area under curve,简称 AUC)和 F1 分数(F1 score,简称 F1).不妨将 i 索引的 ground truth
目标记为 G i ,j 索引的分割(或检测)目标记为 S j .通过计算真正(true positive,简称 TP)、真负(true negative,简称 TN)
假正(false positive,简称 FP)和假负(false negative,简称 FN),可定义 Se,Sp,Acc 以及 F1 如下:
Se = TP (1)
TP + FN
Sp = TN (2)
TN + FP
+
Acc = TP TN (3)
N
⋅
⋅
F 1= 2 PR RC = 2TP (4)
PR + RC 2TP + FP + FN
其中,TP 表示有对应 S j 的所有 G i 的个数;FP 表示无对应 G i 的所有 S j 的个数;FN 表示无对应 S j 的所有 G i 的个
数,N=TN+TP+FN+FP;Se 表示正确分类的血管像素占真实像素的百分率;Sp 表示正确分类的非血管像素占真实
非血管像素的百分率;Acc 表示正确分类血管和非血管像素占整个图像总像素的百分率.
虽然 F1 能够有效评估目标间的关联程度,但它往往没有考虑像素级的错误.因此,为了计算 G i 与 S j 间的形
状和尺寸一致性,研究者提出了系列像素级评价指标,包括 Jaccard 相似性系数(Jaccard index,简称 JI) [147] 、Dice
相似性系数(Dice similarity coefficient,简称 DSC) [148] 以及平均边缘距离(average boundary distance,简称
b
b
ABD) [149] .其中,ABD 是基于像素级边缘的评价方法,它表示 S j 的边缘 S 与 G i 边缘 G 间的平均距离.
j
i
1 ∑ uS b du b i ) ∑ b dv b j ) ⎞
⎛
(,G
(,S
∈
∈
ABD = ⎜ j + vG i ⎟ (5)
2C ⎜ |S b | |G b | ⎟
⎝ j i ⎠
b
b
b
b
其中, (,du G i b ) 表示 S 上的像素 u 到 G 的最小距离, (,dv S b j ) 表示 G 上的像素 v 到 S 的最小距离,C 表示细胞
i
j
j
i
(或细胞核)的个数.JI 和 DSC 是基于像素级面积的评价指标,通常被用于测量两个像素集合之间的重叠面积.其
中,前者通常也称为交并比(intersection over union,简称 IoU).假设 G i 的像素集合为G i ,S j 的像素集合为S j ,则 JI(或
IoU)和 DSC 可定义如下:
|G ∩ | 2 |G ∩ S S |
IoU = JI = i j ,DSC = i j (6)
|G i ∪ j | | | | + S G i S j |
其中,两者的取值范围均为 0~1.mIoU 是 IoU 的变种指标,表示所有类别的 IoU 均值,被广泛应用于现在的深度学
习分割算法评估中.AJI(aggregated Jaccard index)是推广的 JI 指标,其通过最大化 JI,将 ground truth 与检测结果
进行匹配.这样,AJI 就对应于这些匹配成分的交并比的基数和的比率,并将所有不匹配的检测到的成分添加到
分母中.与 IoU 相比,AJI 更加适合于评估细胞核分割结果,其定义如下:
∑ L | G ∩ S * ( ) |i
AJI = i= 1 i k (7)
L | G ∪ ∑ S * ( ) |i + ∑ | S |
∈
i= 1 i k l U l