Page 332 - 《软件学报》2025年第7期
P. 332
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(7):3253−3270 [doi: 10.13328/j.cnki.jos.007233] [CSTR: 32375.14.jos.007233] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
融合扩增技术的无监督域适应方法
曹 艺 1 , 郭茂祖 2 , 吴伟宁 1
1
(哈尔滨工程大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001)
2
(北京建筑大学 电气与信息工程学院, 北京 102616)
通信作者: 吴伟宁, E-mail: wuweining@hrbeu.edu.cn
摘 要: 域适应 (domain adaptation, DA) 是一类训练集 (源域) 和测试集 (目标域) 数据分布不一致条件下的机器学
习任务. 其核心在于如何克服数据域的分布差异对分类器泛化能力的负面影响, 即设计合理而有效的训练策略, 通
过最小化数据域之间的差异, 获得高泛化能力的分类模型. 研究了源域中包含标注信息, 目标域中缺少标注信息条
件下的无监督域适应 (unsupervised domain adaptation, UDA) 任务. 将其形式化为如何利用部分标注样本和其余未
标注样本进行分类器训练的半监督学习问题, 进而引入伪标签 (pseudo label, PL) 和一致性正则化 (consistent
regularization, CR) 这两种半监督学习技术, 对所观测数据域有目的进行标记和样本扩增, 使用扩增后的训练样本
学习分类器, 从而, 在无监督域适应任务上取得了良好的泛化能力. 提出一种融合扩增技术的无监督域适应
(augmentation-based unsupervised domain adaptation, A-UDA) 方法, 在分类器的训练过程中: 首先, 使用随机数据增
强技术 (random augmentation) 对目标域中的未标注样本进行扩增, 即样本扩增; 其次, 利用模型的预测输出结果,
对高置信度的未标注样本添加伪标记, 即标注扩增; 最后, 使用扩增后的数据集训练分类模型, 利用最大均值差异
(maximum mean difference, MMD) 计算源域和目标域的分布距离, 通过最小化该分布距离获得具有高泛化能力的
分类器. 在 MNIST-USPS, Office-Home 和 ImageCLEF-DA 等多个无监督域适应任务上对所提出方法进行比较, 与
现有其他工作相比, 获得了更好的分类效果.
关键词: 无监督域适应; 半监督学习; 数据扩增; 伪标签; 一致性正则化
中图法分类号: TP18
中文引用格式: 曹艺, 郭茂祖, 吴伟宁. 融合扩增技术的无监督域适应方法. 软件学报, 2025, 36(7): 3253–3270. http://www.jos.org.
cn/1000-9825/7233.htm
英文引用格式: Cao Y, Guo MZ, Wu WN. Unsupervised Domain Adaptation Method with Augmentation Technology. Ruan Jian Xue
Bao/Journal of Software, 2025, 36(7): 3253–3270 (in Chinese). http://www.jos.org.cn/1000-9825/7233.htm
Unsupervised Domain Adaptation Method with Augmentation Technology
1
2
CAO Yi , GUO Mao-Zu , WU Wei-Ning 1
1
(College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China)
2
(School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture, Beijing 102616, China)
Abstract: Domain adaptation (DA) is a group of machine learning tasks where the training set (source domain) and the test set (target
domain) exhibit different distributions. Its key idea lies in how to overcome the negative impact given by these distributional differences,
in other words, how to design an effective training strategy to obtain a classifier with high generalization performance by minimizing the
difference between data domains. This study focuses on the tasks of unsupervised DA (UDA), where annotations are available in the
source domain but absent in the target domain. This problem can be considered as how to use partially annotated data and unannotated
data to train a classifier in a semi-supervised learning framework. Then, two kinds of semi-supervised learning techniques, namely pseudo
* 基金项目: 国家自然科学基金 (61976067, 62271036)
曹艺和郭茂祖对本文有同等贡献.
收稿时间: 2023-04-20; 修改时间: 2023-09-01; 采用时间: 2024-06-05; jos 在线出版时间: 2024-08-28
CNKI 网络首发时间: 2024-08-29

