查 询 高级检索+
共找到相关记录3条
    全 选
    显示方式:|
    • 基于最优传输理论的深度半监督学习伪标签生成算法

      2024, 35(11):5196-5209.DOI: 10.13328/j.cnki.jos.007054

      关键词:半监督学习伪标签生成最优传输图像分类深度学习
      摘要 (525)HTML (529)PDF 8.16 M (2721)收藏

      摘要:目前, 深度学习广泛应用于各个领域并取得了优异的表现, 这通常需要大量标注数据的支持, 而大量标注数据的获取往往意味着高昂的成本与苛刻的应用条件. 因此, 随着深度学习的发展, 如何在实际场景下突破数据限制, 成为目前重要的研究目标, 而半监督学习正是其中一大研究方向. 半监督学习通过利用大量的未标记数据辅助少量的标记数据进行学习, 很好地减轻了深度学习的数据需求压力. 伪标签生成方法是当前半监督学习的重要组成部分, 所生成的伪标签质量的优劣会很大程度影响半监督学习的最终效果. 聚焦半监督学习中的伪标签生成问题, 提出基于最优传输理论的伪标签生成方法. 所提方法在将有标签信息作为生成过程引导的同时引入类别均衡约束, 在此基础上将半监督学习的伪标签生成过程转换成最优传输优化问题, 给出新的求解伪标签生成问题的形式. 为求解该优化问题, 引入Sinkhorn-Knopp算法进行近似快速求解, 避免不可计算问题. 所提伪标签生成方法作为半监督学习中的独立过程可结合当前一致性正则等半监督学习技巧构成完整的半监督学习过程. 最终, 在CIFAR-10、SVHN、MNIST、FashionMNIST这4大公共经典图像分类数据集上进行实验, 验证方法的有效性. 实验结果显示, 所提方法与当前先进的半监督学习方法相比, 均取得更优异的结果, 尤其是在标签情况较少的情况下提升显著.

    • 伪标签不确定性估计的源域无关鲁棒域自适应

      2022, 33(4):1183-1199.DOI: 10.13328/j.cnki.jos.006467

      关键词:无监督域自适应源域无关的域自适应伪标签学习信息熵能量函数不确定性估计
      摘要 (1751)HTML (3435)PDF 612.80 K (5355)收藏

      摘要:无监督域自适应是解决训练集(源域)和测试集(目标域)分布不一致的有效途径之一.现有的无监督域自适应的理论和方法在相对封闭、静态的环境下取得了一定成功,但面向开放动态任务环境时,在隐私保护、数据孤岛等限制条件下,源域数据往往不可直接获取,现有无监督域自适应方法的鲁棒性将面临严峻的挑战.鉴于此,研究了一个更具挑战性却又未被充分探索的问题:源域无关的无监督域自适应,目标是仅依据预训练的源域模型和无标签目标域数据,实现源域向目标域的正向迁移.提出一种基于伪标签不确定性估计的源域无关鲁棒域自适应的方法PLUE-SFRDA (pseudo label uncertainty estimation for source free robust domain adaptation).PLUE-SFRDA的核心思想是:根据源域模型的预测结果,联合信息熵和能量函数充分挖掘目标域数据的隐含信息,探索类原型和类锚点,以准确估计目标域数据的伪标签,进而调优域自适应模型,实现源域数据无关的鲁棒域自适应.PLUE-SFRDA包含提出的二元软约束信息熵,解决了标准信息熵不能有效估计处于决策边界样本的不确定性的问题,增强了所挖掘的类原型和类锚点的可信度,进而提高了目标域伪标签估计的准确率.PLUE-SFRDA包含了提出的加权对比过滤方法,通过比较每个样本距离该类的类锚点和其他类的类锚点的加权距离,过滤掉处于决策边界的类别信息模糊样本,进一步提高了伪标签不确定性估计的安全性.PLUE-SFDRA还包含一个信息最大化损失,实现源域分类器和伪标签估计器迭代优化,逐渐将源域模型中蕴含的源域知识迁移至目标域,进一步提高了伪标签不确定性估计的鲁棒性.在Office-31,Office-Home和VisDA-C这3个公开的基准数据集上的大量实验表明:PLUE-SFRDA不仅超过了最新的源域无关的域自适应方法的表现,还显著优于现有的依赖源域数据的域自适应方法.

    • 融合扩增技术的无监督域适应方法

      :1-18.DOI: 10.13328/j.cnki.jos.007233

      关键词:无监督域适应半监督学习数据扩增伪标签一致性正则化
      摘要 (213)HTML (0)PDF 4.99 M (1433)收藏

      摘要:域适应(domain adaptation, DA)是一类训练集(源域)和测试集(目标域)数据分布不一致条件下的机器学习任务. 其核心在于如何克服数据域的分布差异对分类器泛化能力的负面影响, 即设计合理而有效的训练策略, 通过最小化数据域之间的差异, 获得高泛化能力的分类模型. 研究了源域中包含标注信息, 目标域中缺少标注信息条件下的无监督域适应(unsupervised domain adaptation, UDA)任务. 将其形式化为如何利用部分标注样本和其余未标注样本进行分类器训练的半监督学习问题, 进而引入伪标签(pseudo label, PL)和一致性正则化(consistent regularization, CR)这两种半监督学习技术, 对所观测数据域有目的进行标记和样本扩增, 使用扩增后的训练样本学习分类器, 从而, 在无监督域适应任务上取得了良好的泛化能力. 提出一种融合扩增技术的无监督域适应(augmentation-based unsupervised domain adaptation, A-UDA)方法, 在分类器的训练过程中: 首先, 使用随机数据增强技术(random augmentation)对目标域中的未标注样本进行扩增, 即样本扩增; 其次, 利用模型的预测输出结果, 对高置信度的未标注样本添加伪标记, 即标注扩增; 最后, 使用扩增后的数据集训练分类模型, 利用最大均值差异(maximum mean difference, MMD)计算源域和目标域的分布距离, 通过最小化该分布距离获得具有高泛化能力的分类器. 在MNIST-USPS, Office-Home和ImageCLEF-DA等多个无监督域适应任务上对所提出方法进行比较, 与现有其他工作相比, 获得了更好的分类效果.

    上一页1下一页
    共1页3条记录 跳转到GO

您是第19771211位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号