Page 222 - 《软件学报》2021年第12期
P. 222
3886 Journal of Software 软件学报 Vol.32, No.12, December 2021
增强任务中,相应的实验结果表明:在原始数据增强基础上,结合进高效增量采样处理后,训练数据多样性增加,
在不改变总训练数据集规模的情况下,新方法介入所获得的模型质量可实现显著的提升.
本文的主要贡献:
(1) 提出了一种基于动态赋权近邻传播的数据增量采样算法,引入分层增量处理和样本点动态赋权策略,
良好地实现了数据采样质量和效率的平衡;
(2) 在人工合成数据集、UCI 标准数据集和图像数据集上进行代表性样本采样任务,本文方法在提高采样
效率的同时,保证了代表性样本的显著性和覆盖性;
(3) 将本文方法应用于深度学习的数据增强任务中,实验结果表明:在保持训练数据集规模不变的情况
下,本文方法介入所获得的模型质量有显著提升.
本文第 1 节将介绍方法框架.第 2 节、第 3 节介绍标准 AP 算法及基于动态赋权近邻传播的数据增量采样
算法 ISAP.第 4 节对算法进行相关分析.第 5 节通过实验评估算法的效果.第 6 节对本文进行总结,对未来工作进
行展望.
1 基于动态赋权近邻传播的数据增量采样方法 ISAP 框架
本文提出的基于动态赋权近邻传播的数据增量采样算法框架如图 1 所示,主要包含以下内容.
(1) 动态赋权的 AP 算法.本文提出一种用于代表点采样的动态赋权 AP 算法,在 AP 算法的迭代过程中,
利用样本点单次迭代聚类结果计算样本点自身轮廓系数(silhouette coefficient),对样本点的偏向参数
做动态调整,不断赋予新的权值直至方法收敛,使最终采样结果能够包含更多的潜在性样本;
(2) 分层增量采样.基于上述偏向参数动态赋权算法,结合整体样本点的全局初始偏向参数和局部代表点
之间的相对于整体数据集的局部初始偏向参数,提出了分层增量的代表点采样算法 ISAP.算法架构如
图 1 所示:首先,将样本集合划分为规模上大小均匀的子集,在每个子集上执行全局偏向参数动态赋权
的 AP 算法,得到每个子集产生的局部代表点,所有子集产生的局部代表点组成局部代表点集,本文将
该过程称为增量局部推选层;然后,在局部代表点集上利用动态赋权 AP 算法对局部代表点进行合并,
产生数据集整体代表点,本文将该过程称为合并推选层;最后,将数据集中的非代表点划分给与其相
似度最大的代表点,完成全局簇划分.
局部代表点集合R
样本子
集ܦ ଵ ݎ ଵଵ ݎ ଵଶ
子集ܦ ଵ 代表点集合
样本子 …
样本 划分为规模 集ܦ ଶ 全局偏向参数动 局部偏向参数动
集合 均匀的子集 … 态赋权的AP方法 ݎ ଵ ݎ ଶ 态赋权的AP方法
…
样本子 ݎ ௫
集ܦ ୬ 子集ܦ ୬ 代表点集合
ᇱ
ݎ ଶ ᇱ
ݎ ଵ
ᇱ ᇱ
ݎ ଵ ݎ ଷ ݊ݎ ଶ ݊ݎ ହ ݊ݎ ଵ ݊ݎ ସ
ᇱ ᇱ ݊ݎ
ݎ ଶ ݎ ସ 非代表点集NR基 …
于最大相似度划
分给一个代表点
…
ᇱ ᇱ …
ݎ ݎ ݊ݎ ௬
整体代表点集合ܴ ᇱ
最终簇划分
Fig.1 Flow chart of proposed incremental data sampling method
图 1 本文数据增量采样算法流程图