基于掩码语言模型的中文BERT攻击方法
作者:
作者单位:

作者简介:

张云婷(1997-),女,博士生,主要研究领域为人工智能安全,文本对抗;叶麟(1982-),男,博士,副教授,CCF专业会员,主要研究领域为P2P网络,网络安全,网络测量,云计算;唐浩林(1998-),男,学士,主要研究领域为机器学习,图像处理;张宏莉(1973-),女,博士,教授,博士生导师,CCF专业会员,主要研究领域为网络与信息安全,云安全,隐私保护;李尚(1989-),男,博士生,CCF学生会员,主要研究领域为人工智能,信息安全

通讯作者:

叶麟, E-mail: hityelin@hit.edu.cn

中图分类号:

TP18

基金项目:

国家自然科学基金(61872111)


Chinese BERT Attack Method Based on Masked Language Model
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本, 敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本. 研究对抗文本生成方法, 能对深度神经网络的鲁棒性进行评价, 并助力于模型后续的鲁棒性提升工作. 当前针对中文文本设计的对抗文本生成方法中, 很少有方法将鲁棒性较强的中文BERT模型作为目标模型进行攻击. 面向中文文本分类任务, 提出一种针对中文BERT的攻击方法Chinese BERT Tricker. 该方法使用一种汉字级词语重要性打分方法——重要汉字定位法; 同时基于掩码语言模型设计一种包含两类策略的适用于中文的词语级扰动方法实现对重要词语的替换. 实验表明, 针对文本分类任务, 所提方法在两个真实数据集上均能使中文BERT模型的分类准确率大幅下降至40%以下, 且其多种攻击性能明显强于其他基线方法.

    Abstract:

    Adversarial texts are malicious samples that can cause deep learning classifiers to make errors. The adversary creates an adversarial text that can deceive the target model by adding subtle perturbations to the original text that are imperceptible to humans. The study of adversarial text generation methods can evaluate the robustness of deep neural networks and contribute to the subsequent robustness improvement of the model. Among the current adversarial text generation methods designed for Chinese text, few attack the robust Chinese BERT model as the target model. For Chinese text classification tasks, this study proposes an attack method against Chinese BERT, that is Chinese BERT Tricker. This method adopts a character-level word importance scoring method, important Chinese character positioning. Meanwhile, a word-level perturbation method for Chinese based on the masked language model with two types of strategies is designed to achieve the replacement of important words. Experimental results show that for the text classification tasks, the proposed method can significantly reduce the classification accuracy of the Chinese BERT model to less than 40% on two real datasets, and it outperforms other baseline methods in terms of multiple attack performance.

    参考文献
    相似文献
    引证文献
引用本文

张云婷,叶麟,唐浩林,张宏莉,李尚.基于掩码语言模型的中文BERT攻击方法.软件学报,2024,35(7):3392-3409

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-06-16
  • 最后修改日期:2022-09-20
  • 录用日期:
  • 在线发布日期: 2023-08-23
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号