Page 111 - 《软件学报》2021年第8期
P. 111
龚成 等:一种超低损失的深度神经网络量化压缩方法 2393
工实验次数,为模型量化提供了新的实现途径.
Fig.1 Distributions of layer weights of four DNN models
图 1 4 种 DNN 模型中各层的权值数据分布
本文的主要贡献包括 3 点:
• 提出了一种有效的超低损失量化方法,该方法可在给定位宽下,根据模型输入数据的分布规律,通过求
解解析式的极值来获得最优量化参数配置,有效降低数据量化损失,以保证量化后的 DNN 模型推理
精度;
• 设计了最优量化参数表,通过呈现各种位宽条件下的最低量化损失方案,为量化服从正态分布的权值
数据提供了参考依据,有效地减少了启发式参数搜索的实验次数;
• 实现了基于μL2Q 的 DNN 模型训练方法,将μL2Q 嵌入到主流机器学习框架(如 Caffe,Keras)中进行推
理精度的实验验证,以便捷的调用方式加速了 DNN 模型量化的端到端设计与训练流程.
1 相关工作与研究动机
首先,本节阐明了 DNN 模型权值数据的分布规律;然后,总结现有典型的模型量化方法的特点;最后讨论了
d
d
本文的研究动机.为表达上简洁明了,本文采用 w f ∈\ 表示权值向量,即全精度模型的权值数据;采用 w q ∈\ 来表
示经过量化后的权值向量,其中,d 代表权值数据的维度.
1.1 DNN权值数据分布
在 DNN 研究领域的权威著作《Pattern recognition and machine learning》 [24] 和《Machine learning: A
[25]
probabilistic perspective》 中,皆假设 DNN 权值数据服从正态分布来进行相关研究.具体来讲,对于任意给定的
DNN 模型,设其输入特征为 X,分类结果为 y,w 为模型的权值,根据贝叶斯后验概率理论 [24,25] ,则有:
p(w|X,y)∝p(X,y|w)p(w) (1)
其中,p(w|X,y)是在数据集{X,y}上计算得到 w 的最大后验概率,p(X,y|w)是似然函数,p(w)是 w 的先验概率.假设 w
2
满足正态分布,即 p(w i )=N(w i |μ,σ ),则式(1)中的最大似然对数函数为