Page 332 - 《软件学报》2025年第7期
P. 332

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(7):3253−3270 [doi: 10.13328/j.cnki.jos.007233] [CSTR: 32375.14.jos.007233]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                           *
                 融合扩增技术的无监督域适应方法

                 曹    艺  1 ,    郭茂祖  2 ,    吴伟宁  1


                 1
                  (哈尔滨工程大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001)
                 2
                  (北京建筑大学 电气与信息工程学院, 北京 102616)
                 通信作者: 吴伟宁, E-mail: wuweining@hrbeu.edu.cn

                 摘 要: 域适应    (domain adaptation, DA) 是一类训练集  (源域) 和测试集  (目标域) 数据分布不一致条件下的机器学
                 习任务. 其核心在于如何克服数据域的分布差异对分类器泛化能力的负面影响, 即设计合理而有效的训练策略, 通
                 过最小化数据域之间的差异, 获得高泛化能力的分类模型. 研究了源域中包含标注信息, 目标域中缺少标注信息条
                 件下的无监督域适应        (unsupervised domain adaptation, UDA) 任务. 将其形式化为如何利用部分标注样本和其余未
                 标注样本进行分类器训练的半监督学习问题, 进而引入伪标签                      (pseudo label, PL) 和一致性正则化   (consistent
                 regularization, CR) 这两种半监督学习技术, 对所观测数据域有目的进行标记和样本扩增, 使用扩增后的训练样本
                 学习分类器, 从而, 在无监督域适应任务上取得了良好的泛化能力. 提出一种融合扩增技术的无监督域适应
                 (augmentation-based unsupervised domain adaptation, A-UDA) 方法, 在分类器的训练过程中: 首先, 使用随机数据增
                 强技术   (random augmentation) 对目标域中的未标注样本进行扩增, 即样本扩增; 其次, 利用模型的预测输出结果,
                 对高置信度的未标注样本添加伪标记, 即标注扩增; 最后, 使用扩增后的数据集训练分类模型, 利用最大均值差异
                 (maximum mean difference, MMD) 计算源域和目标域的分布距离, 通过最小化该分布距离获得具有高泛化能力的
                 分类器. 在  MNIST-USPS, Office-Home 和  ImageCLEF-DA  等多个无监督域适应任务上对所提出方法进行比较, 与
                 现有其他工作相比, 获得了更好的分类效果.
                 关键词: 无监督域适应; 半监督学习; 数据扩增; 伪标签; 一致性正则化
                 中图法分类号: TP18

                 中文引用格式: 曹艺, 郭茂祖, 吴伟宁. 融合扩增技术的无监督域适应方法. 软件学报, 2025, 36(7): 3253–3270. http://www.jos.org.
                 cn/1000-9825/7233.htm
                 英文引用格式: Cao Y, Guo MZ, Wu WN. Unsupervised Domain Adaptation Method with Augmentation Technology. Ruan Jian Xue
                 Bao/Journal of Software, 2025, 36(7): 3253–3270 (in Chinese). http://www.jos.org.cn/1000-9825/7233.htm
                 Unsupervised Domain Adaptation Method with Augmentation Technology
                       1
                                  2
                 CAO Yi , GUO Mao-Zu , WU Wei-Ning 1
                 1
                 (College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China)
                 2
                 (School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture, Beijing 102616, China)
                 Abstract:  Domain  adaptation  (DA)  is  a  group  of  machine  learning  tasks  where  the  training  set  (source  domain)  and  the  test  set  (target
                 domain)  exhibit  different  distributions.  Its  key  idea  lies  in  how  to  overcome  the  negative  impact  given  by  these  distributional  differences,
                 in  other  words,  how  to  design  an  effective  training  strategy  to  obtain  a  classifier  with  high  generalization  performance  by  minimizing  the
                 difference  between  data  domains.  This  study  focuses  on  the  tasks  of  unsupervised  DA  (UDA),  where  annotations  are  available  in  the
                 source  domain  but  absent  in  the  target  domain.  This  problem  can  be  considered  as  how  to  use  partially  annotated  data  and  unannotated
                 data  to  train  a  classifier  in  a  semi-supervised  learning  framework.  Then,  two  kinds  of  semi-supervised  learning  techniques,  namely  pseudo


                 *    基金项目: 国家自然科学基金  (61976067, 62271036)
                  曹艺和郭茂祖对本文有同等贡献.
                  收稿时间: 2023-04-20; 修改时间: 2023-09-01; 采用时间: 2024-06-05; jos 在线出版时间: 2024-08-28
                  CNKI 网络首发时间: 2024-08-29
   327   328   329   330   331   332   333   334   335   336   337