Page 491 - 《软件学报》2025年第10期
P. 491
4888 软件学报 2025 年第 36 卷第 10 期
300
λ 0
λ 0.0001
250
λ 0.0002
λ 0.0003
#Retained channels 150 λ 0.0005
200
λ 0.0004
λ 0.0010
100
50
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Layer
图 4 CIFAR-100 数据集上二值网络在不同正则化系数 λ 下的通道数结果
70 表 7 CIFAR-100 数据集上不同正则化系数 λ 的结果
正则化系数 λ 通道去除率 参数量 (M) 准确率 (%)
准确率 (%) 69 我们的方法 0.000 1 10.32 3.54 69.54
17.11
2.98
69.36
0.000 2
68
全精度网络 0.000 3 20.97 2.73 68.46
67 0.000 4 26.31 2.37 68.28
0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 0.000 5 31.36 2.03 67.98
存储量 (MB) 0.001 50.84 0.99 62.07
图 5 CIFAR-100 数据集上我们的方法得到的
二值神经网络和全精度网络对比
我们利用知识蒸馏进一步提高了我们模型的性能. 宽度为 8 的二值化 ResNet-20 被用作教师网络, 其准确率为
74.68%. 温度 τ 和平衡系数分别设置为 3.0 和 0.8. 我们模型的准确率提高到 70.52%, 高于全精度基线的准确率
69.78%.
为了更直观地对比我们的方法和全精度网络的效果, 我们在图 5 中对比了准确率、存储开销的关系曲线. 计
算开销和存储开销成正比, 这里不再列出. 从图中可以看出, 我们的方法只需要 40% 以内的存储量就能达到和全
精度网络接近的准确率.
4.5 ImageNet 实验
(1) 不同宽度的结果
对于 ImageNet, 我们在二值化 ResNet-18 和 VGG16 网络上做了实验. 首先, 网络加宽后的结果如表 8 和表 9
所示. 对于 ResNet-18, 加宽 5 倍的二值网络的准确率超过了全精度网络. 对于 VGG16, 加宽 4 倍的二值网络的准
确率与全精度网络相当. 这些实验也验证了更多的量化特征有利于量化网络性能的提高.
表 8 ImageNet 数据集上 ResNet-18 加宽 表 9 ImageNet 数据集上 VGG16 加宽
不同宽度的结果 不同宽度的结果
比特数 宽度 top-1准确率 (%) top-5准确率 (%) 比特数 宽度 top-1准确率 (%) top-5准确率 (%)
32 1 70.79 89.5 32 1 71.41 90.47
1 1 52.6 76.84 1 1 65.99 86.57
1 2 63.73 85.3 1 2 69.85 89.33
1 3 68.07 87.92 1 4 71.01 90.02
1 4 69.74 89.05
1 5 71.08 89.74

