摘要:随着音频对抗攻击研究的深入, 如何确保对抗音频隐蔽性(即与原始音频在听觉上高度相似)的同时, 提高其在不同模型之间的迁移性, 已成为研究热点之一. 提出一种能够同时提高对抗音频隐蔽性和迁移性的方法SIAttack (speak information attack). 该方法的核心思想是解耦音频中的说话人信息与内容信息, 并仅对说话人信息施加轻微扰动, 从而可以在保持内容信息不变的前提下实现对说话人识别系统的高效攻击. 在4个说话人识别模型以及3个主流商业API上的实验表明, SIAttack生成的音频在听觉上几乎无法与原始音频区分, 且能以较高的成功率误导所有测试模型, 在说话人识别模型上迁移成功率最高可达100%.