Page 222 - 《软件学报》2021年第12期
P. 222

3886                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         增强任务中,相应的实验结果表明:在原始数据增强基础上,结合进高效增量采样处理后,训练数据多样性增加,
         在不改变总训练数据集规模的情况下,新方法介入所获得的模型质量可实现显著的提升.
             本文的主要贡献:
             (1)  提出了一种基于动态赋权近邻传播的数据增量采样算法,引入分层增量处理和样本点动态赋权策略,
                 良好地实现了数据采样质量和效率的平衡;
             (2)  在人工合成数据集、UCI 标准数据集和图像数据集上进行代表性样本采样任务,本文方法在提高采样
                 效率的同时,保证了代表性样本的显著性和覆盖性;
             (3)  将本文方法应用于深度学习的数据增强任务中,实验结果表明:在保持训练数据集规模不变的情况
                 下,本文方法介入所获得的模型质量有显著提升.
             本文第 1 节将介绍方法框架.第 2 节、第 3 节介绍标准 AP 算法及基于动态赋权近邻传播的数据增量采样
         算法 ISAP.第 4 节对算法进行相关分析.第 5 节通过实验评估算法的效果.第 6 节对本文进行总结,对未来工作进
         行展望.

         1    基于动态赋权近邻传播的数据增量采样方法 ISAP 框架

             本文提出的基于动态赋权近邻传播的数据增量采样算法框架如图 1 所示,主要包含以下内容.
             (1)  动态赋权的 AP 算法.本文提出一种用于代表点采样的动态赋权 AP 算法,在 AP 算法的迭代过程中,
                 利用样本点单次迭代聚类结果计算样本点自身轮廓系数(silhouette coefficient),对样本点的偏向参数
                 做动态调整,不断赋予新的权值直至方法收敛,使最终采样结果能够包含更多的潜在性样本;
             (2)  分层增量采样.基于上述偏向参数动态赋权算法,结合整体样本点的全局初始偏向参数和局部代表点
                 之间的相对于整体数据集的局部初始偏向参数,提出了分层增量的代表点采样算法 ISAP.算法架构如
                 图 1 所示:首先,将样本集合划分为规模上大小均匀的子集,在每个子集上执行全局偏向参数动态赋权
                 的 AP 算法,得到每个子集产生的局部代表点,所有子集产生的局部代表点组成局部代表点集,本文将
                 该过程称为增量局部推选层;然后,在局部代表点集上利用动态赋权 AP 算法对局部代表点进行合并,
                 产生数据集整体代表点,本文将该过程称为合并推选层;最后,将数据集中的非代表点划分给与其相
                 似度最大的代表点,完成全局簇划分.
                                                          局部代表点集合R
                                        样本子
                                         集ܦ ଵ               ݎ ଵଵ  ݎ ଵଶ
                                                          子集ܦ ଵ 代表点集合
                                        样本子                    …
                           样本  划分为规模     集ܦ ଶ  全局偏向参数动                 局部偏向参数动
                           集合  均匀的子集      …   态赋权的AP方法     ݎ ௡ଵ  ݎ ௡ଶ  态赋权的AP方法
                                                                  …
                                        样本子                      ݎ ௡௫
                                         集ܦ ୬             子集ܦ ୬ 代表点集合

                                                            ᇱ
                                                           ݎ ଶ         ᇱ
                                                                      ݎ ଵ
                                 ᇱ    ᇱ
                                ݎ ଵ  ݎ ଷ                ݊ݎ ଶ  ݊ݎ ହ  ݊ݎ ଵ  ݊ݎ ସ
                                 ᇱ    ᇱ                                ݊ݎ ଺
                                ݎ ଶ  ݎ ସ   非代表点集NR基         …
                                           于最大相似度划
                                           分给一个代表点
                                      …
                                      ᇱ                     ᇱ …
                                     ݎ ௞                    ݎ ௞  ݊ݎ ௬
                              整体代表点集合ܴ  ᇱ
                                                              最终簇划分
                            Fig.1    Flow chart of proposed incremental data sampling method
                                      图 1   本文数据增量采样算法流程图
   217   218   219   220   221   222   223   224   225   226   227