摘要:域适应(domain adaptation, DA)是一类训练集(源域)和测试集(目标域)数据分布不一致条件下的机器学习任务. 其核心在于如何克服数据域的分布差异对分类器泛化能力的负面影响, 即设计合理而有效的训练策略, 通过最小化数据域之间的差异, 获得高泛化能力的分类模型. 研究了源域中包含标注信息, 目标域中缺少标注信息条件下的无监督域适应(unsupervised domain adaptation, UDA)任务. 将其形式化为如何利用部分标注样本和其余未标注样本进行分类器训练的半监督学习问题, 进而引入伪标签(pseudo label, PL)和一致性正则化(consistent regularization, CR)这两种半监督学习技术, 对所观测数据域有目的进行标记和样本扩增, 使用扩增后的训练样本学习分类器, 从而, 在无监督域适应任务上取得了良好的泛化能力. 提出一种融合扩增技术的无监督域适应(augmentation-based unsupervised domain adaptation, A-UDA)方法, 在分类器的训练过程中: 首先, 使用随机数据增强技术(random augmentation)对目标域中的未标注样本进行扩增, 即样本扩增; 其次, 利用模型的预测输出结果, 对高置信度的未标注样本添加伪标记, 即标注扩增; 最后, 使用扩增后的数据集训练分类模型, 利用最大均值差异(maximum mean difference, MMD)计算源域和目标域的分布距离, 通过最小化该分布距离获得具有高泛化能力的分类器. 在MNIST-USPS, Office-Home和ImageCLEF-DA等多个无监督域适应任务上对所提出方法进行比较, 与现有其他工作相比, 获得了更好的分类效果.