基于自引导进化策略的高效自动化数据增强算法
作者:
作者单位:

作者简介:

朱光辉(1987-), 男, 博士, 助理研究员, CCF专业会员, 主要研究领域为自动化机器学习, 数据挖掘.
陈文忠(1996-), 男, 硕士生, 主要研究领域为自动化机器学习.
朱振南(1999-), 男, 硕士生, 主要研究领域为数据挖掘, 图机器学习.
袁春风(1963-), 女, 博士, 教授, CCF高级会员, 主要研究领域为大数据, 信息检索, 计算机体系结构.
黄宜华(1962-), 男, 博士, 教授, 博士生导师, CCF高级会员, 主要研究领域为大数据, 分布式与并行计算, 机器学习.

通讯作者:

朱光辉, E-mail: zgh@nju.edu.cn;黄宜华, E-mail: yhuang@nju.edu.cn

中图分类号:

TP391

基金项目:

国家自然科学基金(62102177, U1811461); 江苏省自然科学基金(BK20210181); 江苏省重点研发计划(BE2021729)


Efficient Automated Data Augmentation Algorithm Based on Self-guided Evolution Strategy
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    深度学习在图像、文本、语音等媒体数据的分析任务上取得了优异的性能. 数据增强可以非常有效地提升训练数据的规模以及多样性, 从而提高模型的泛化性. 但是, 对于给定数据集, 设计优异的数据增强策略大量依赖专家经验和领域知识, 而且需要反复尝试, 费时费力. 近年来, 自动化数据增强通过机器自动设计数据增强策略, 已引起了学界和业界的广泛关注. 为了解决现有自动化数据增强算法尚无法在预测准确率和搜索效率之间取得良好平衡的问题, 提出一种基于自引导进化策略的自动化数据增强算法SGES AA. 首先, 设计一种有效的数据增强策略连续化向量表示方法, 并将自动化数据增强问题转换为连续化策略向量的搜索问题. 其次, 提出一种基于自引导进化策略的策略向量搜索方法, 通过引入历史估计梯度信息指导探索点的采样与更新, 在能够有效避免陷入局部最优解的同时, 可提升搜索过程的收敛速度. 在图像、文本以及语音数据集上的大量实验结果表明, 所提算法在不显著增加搜索耗时的情况下, 预测准确率优于或者匹配目前最优的自动化数据增强方法.

    Abstract:

    Deep learning has achieved great success in image classification, natural language processing, and speech recognition. Data augmentation can effectively increase the scale and diversity of training data, thereby improving the generalization of deep learning models. However, for a given dataset, a well-designed data augmentation strategy relies heavily on expert experience and domain knowledge and requires repeated attempts, which is time-consuming and labor-intensive. In recent years, automated data augmentation has attracted widespread attention from the academic community and the industry through the automated design of data augmentation strategies. To solve the problem that existing automated data augmentation algorithms cannot strike a good balance between prediction accuracy and search efficiency, this study proposes an efficient automated data augmentation algorithm SGES AA based on a self-guided evolution strategy. First, an effective continuous vector representation method is designed for the data augmentation strategy, and then the automated data augmentation problem is converted into a search problem of continuous strategy vectors. Second, a strategy vector search method based on the self-guided evolution strategy is presented. By introducing historical estimation gradient information to guide the sampling and updating of exploration points, it can effectively avoid the local optimal solution while improving the convergence of the search process. The results of extensive experiments on image, text, and speech datasets show that the proposed algorithm is superior to or matches the current optimal automated data augmentation methods without significantly increasing the time consumption of searches.

    参考文献
    相似文献
    引证文献
引用本文

朱光辉,陈文忠,朱振南,袁春风,黄宜华.基于自引导进化策略的高效自动化数据增强算法.软件学报,2024,35(6):3013-3035

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-06-27
  • 最后修改日期:2022-09-12
  • 录用日期:
  • 在线发布日期: 2023-05-24
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号