Page 235 - 《软件学报》2021年第12期

P. 235

陈晓琪等:基于动态赋权近邻传播的数据增量采样方法 3899

代表点集,ISAP 算法在调整参数的情况下可以控制输出代表点的规模.而在最终样本规模相近的情况下,ISAP
算法数据增强策略相对于 HAP 算法数据增强策略获得的模型识别率也较为接近.而在实际使用时,由于 ISAP
算法计算效率显著较高,显然具有更高的实用价值.
综上表明,数据增强手段结合进高效增量采样处理后,在不改变总训练数据集规模的情况下,ISAP 算法介
入所获得的模型质量可实现显著的提升.且 ISAP 算法能够控制约简后数据集的规模,有效地在减小数据规模的
同时,保证数据集的多样性;在保持数据集规模不变的情况下有效提升数据质量,增加样本多样性.此外,因为
ISAP 高效的处理速度,可以快速地处理更大规模的数据增强数据集,更好地满足现实应用需求.
6 结论与展望

本文针对数据集代表点采样的一般性问题,提出了一种基于动态赋权近邻传播的数据增量采样算法 ISAP.
算法通过引入分层增量处理和样本点动态赋权策略,结合偏向参数动态赋权的 AP 算法,有效地实现了处理效
率和采样质量的兼顾,更好地满足大规模数据集上的高效代表点选择.设计实验分别使用人工数据集、UCI 标准
数据集和图像数据集进行性能分析,与其他方法相比,ISAP 算法在获得了采样划分质量与其他方法处于同一水
平的同时,计算效率获得了大幅提升.进一步将 ISAP 算法应用于深度学习的数据增量任务中,相应实验结果表
明:基本数据增强策略结合进高效处理的 ISAP 算法后,在不改变总训练数据集规模的情况下增加了样本的多样
性,在保留样本多样性的同时约简了训练数据集的规模,新数据增强后所获得的模型质量可实现显著的提升.
在下一阶段,我们将从以下几个方面进行尝试.
(1) 本文中使用的数据规模与实际情况可能会面临的数据规模相比,规模还不够大.当数据规模扩大到一
层增量局部推选加一层合并推选的“1+1”模式的采样无法处理时,研究如何将该方法扩充至 n 层增量
局部推选加一层最终合并推选的“n+1”模式的采样;
(2) 类似于标准的 AP 算法,本文方法还不能很好地适应于类规模差别较大的数据集,在不平衡数据集上
的采样效果不太理想.对算法过程作何改进,能够使其适用于不平衡数据集,是一个值得思考的问题;
(3) 作为一种同步约简的增量式采样算法,关于其中理论性能的分析研究还不够深入,这也将在我们的后
续研究中进一步展开.

References:
[1] Liu XB, Zhang B. Automatic collecting representative logo images from the Internet. Tsinghua Science and Technology, 2013,
18(6):606−617. [doi: 10.1109/TST.2013.6678906]
[2] Kennedy L, Naaman M. Generating diverse and representative image search results for landmarks In: Proc. of the 17th Int’l Conf.
on World Wide Web. 2008. 297−306. [doi: 10.1145/1367497.1367539]
[3] Kim EY, Ko E. Generating summaries for photographic images based on human affects. In: Proc. of the IEEE 14th Int’l Conf. on
Cognitive Informatics & Cognitive Computing (ICCI*CC). 2015. 360−367. [doi: 10.1109/ICCI-CC.2015.7259411]
[4] Samani ZR, Moghaddam ME. A knowledge-based semantic approach for image collection summarization. Multimedia Tools and
Applications, 2017,76(9):11917−11939. [doi: 10.1007/S11042-016-3840-1]
[5] Yang CL, Shen JL, Peng JY, et al. Image collection summarization via dictionary learning for sparse representation. Pattern
Recognition, 2013,46(3):948−961. [doi: 10.1016/J.PATCOG.2012.07.011]
[6] Zhao Y, Hong RC, Jiang JG. Visual summarization of image collections by fast RANSAC. Neurocomputing, 2016,172(172):48−52.
[doi: 10.1016/J.NEUCOM.2014.09.095]
[7] Qi MB, Zhu JJ, Ji P, et al. Representative image selection from image dataset. Acta Automatica Sinica, 2014,40(4):706−712 (in
Chinese with English abstract). [doi: 10.3724/SP.J.1004.2014.00706]
[8] Xue Y, Qian XM. Visual summarization of landmarks via viewpoint modeling. In: Proc. of the 19th IEEE Int’l Conf. on Image
Processing (ICIP). 2012. 2873−2876. [doi: 10.1109/ICIP.2012.6467499]
[9] Li H, Peng SF, Samet H. Streaming news image summarization. In: Proc. of the 23rd Int’l Conf. on Pattern Recognition (ICPR).
2016. 1279−1284. [doi: 10.1109/ICPR.2016.7899813]
[10] Xu H, Wang JD, Hua XS, et al. Hybrid Image Summarization. In: Proc. of the 19th ACM Int’l Conf. on Multimedia. 2011.
1217−1220. [doi: 10.1145/2072298.2071978]

230 231 232 233 234 235 236 237 238 239 240