近年来, 以Deepfakes[1]为代表的换脸技术开始在网络兴起.此类技术可将视频中的人脸替换成目标人物, 从而制作出目标人物做特定动作的假视频.随着深度学习技术的发展, 自动编码器、生成对抗网络等技术逐渐被应用到深度伪造中.由于Deepfakes技术只需要少量的人脸照片便可以实现视频换脸, 一些恶意用户利用互联网上可获取的数据, 生成众多的假视频并应用在灰色地带, 如将色情电影的女主角替换成女明星, 给政客、公司高管等有影响力的人伪造一些视频内容, 从而达到误导舆论、赢得选取、操纵股价等目的.这些虚假视频内容极其逼真, 在制作的同时往往伴随着音频的篡改, 使得互联网用户几乎无法鉴别.如果这些深度伪造的内容作为新闻素材被制作传播, 这会损害新闻机构的声誉和公众对媒体的信心.更深层次的, 当遇到案件侦查和事故取证时, 如果缺乏对Deepfakes类虚假影像资料的鉴别, 将对司法体系产生巨大的挑战.尽管深度伪造技术有其积极的一面, 如“复活”一些去世的人进行影视创作, 以及Zao APP[2]提供大众换脸娱乐服务等, 但是目前负面影响远远大于正面, 拥有鉴别此类深度伪造视频的能力变得尤为重要.
为了尽量减少深度伪造技术带来的影响, 消除虚假视频的传播, 学术界和工业界开始探索不同的深度伪造检测技术.相继有学者构造数据集, 展开对Deepfakes检测的多角度研究.脸书公司也联合微软一起举办全球Deepfakes检测竞赛[3]以推动检测技术的发展.然而这些Deepfakes检测工作各有侧重, 存在众多局限性.针对本领域的综述工作还比较缺乏, 只有针对早期图像篡改工作的一些总结[4, 5], 亟需对现有工作进行系统的整理和科学的总结、归类, 以促进该领域的研究.
本文第1节介绍深度伪造的各种相关技术.第2节列举出当下深度伪造研究的数据集.第3节对现有的深度伪造检测技术进行系统的总结和归类.第4节讨论深度伪造生成和检测技术的双面对抗性.第5节总结面临的挑战和未来可行的研究方向.最后, 第6节对全文的工作进行总结.
1 深度伪造生成技术
现有的深度伪造图像主要是指脸部的篡改, 而脸部篡改伪造主要分为两大类: 一类是换脸伪造, 通过交换两张图像的人脸达到人身份修改的目的, 其技术从传统的3D重建方法发展到现在以生成对抗网络为基础的深度伪造; 另一类是脸部表情属性伪造, 迁移指定表情等动作到目标图像而不修改目标人脸标志, 达到伪造表情或者特定动作目的, 其技术也从基于3D的图形学方法演变到最新的深度学习方法.此外, 制作深度伪造素材时通常还包含了语音的伪造, 使得欺骗效果更佳.本节将对这些伪造生成技术进行概述, 其中重点关注深度伪造技术, 并总结了一些开源的生成工具.
1.1 换脸伪造技术
1.1.1 基于图形学的伪造
在过去10多年里, 基于图形学的人脸篡改技术一直被研究者所关注, Zollhofer等人[6]综述了当前比较主流的3D模型重建追踪等技术.FaceSwap[7]是基于图形学的换脸方法, 首先获取人脸关键点, 然后通过3D模型对获取到的人脸关键点位置进行渲染, 不断缩小目标形状和关键点定位间的差异, 最后将渲染模型的图像进行混合, 并利用色彩校正技术获取最终的图像.Kevin等人[8]提出了在视频里自动换脸的3D方法, 不需要大量的手动操作和硬件采集, 只需要一个单相机视频, 通过用3D多线性模型追踪视频中的人脸, 并用相应的3D形状将源人脸仿射到目标人脸.Pablo等人[9]用类似的3D方法来替换目标视频中演员的人脸, 而保留原始的表情.Pablo等人[10]还设计了一个系统, 通过高质量的3D人脸捕捉技术, 改变人脸从而匹配嘴巴的动作.Nirkin等人[11]用分割的思路促进换脸, 通过网络分割出来的人脸估计3D人脸形状, 最后融合源和目标这两个对齐的3D人脸形状.
1.1.2 基于学习的伪造
尽管基于图形学的脸部篡改方法研究了多年, 但是时间开销大、门槛高、成本大, 使得这项技术很难普及.随着深度学习技术的飞速发展, 研究者们开始关注深度学习在人脸篡改上的应用[12].Deepfakes[1]是网络上较早开源的基于深度学习的换脸项目, 如图 1所示, 训练两个自动编码器, 两个编码器共享权重参数, 使得两个解码器学会重建人脸的能力.训练结束后, 在换脸阶段, 交换两个解码器, 从而使得换脸效果达成.这只需要具备原人物和目标人物的人脸图片即可训练, 大大降低了使用门槛.但是也需要一定的训练技巧, 否则生成器的生成质量无法保障.鉴于此, 研究者们开始关注GAN[13]技术的融合, Faceswap-GAN[14]就是增加了GAN技术的Deepfakes, 引入判别器的对抗损失函数, 在生成的时候判别生成图像和原图的相似度, 使得生成的图像质量有大幅度提高, 另外引入了感知损失函数增加眼珠的转动效果.GAN技术的加入使得换脸更加逼真自然, 也一定程度增加了深度伪造技术的流行度.
Korshunova等人[15]将换脸问题视为风格迁移问题, 训练一个卷积神经网络, 从非结构化的图片中学习这种外观, 并设计内容损失和风格损失函数来保障生成高质量真实度的人脸图像.这些人脸转换还是依赖于大量的源和目标人物的人脸图片训练, 泛化性不强.Yuval等人[16]基于GAN技术提出了一个主体无关的人脸替换和重建方法, 通过引入特定域感知损失、重建损失和对抗损失, 可以应用于成对的人脸, 不需要在大量人脸上训练.除换脸外, GAN技术还被广泛用于生产虚拟的人脸和篡改人脸属性.如StarGAN[17]、Stackgan[18]、PGAN[19]等一系列GAN技术可以生成虚假的人脸, Grigory等人[20]利用conditional-GAN[21]技术改变人的年龄, Rui等人[22]利用GAN生成不同的人脸视角而保持全局的结构和局部细节.GAN技术的发展使得人脸的生成和属性篡改都越来越真实, 这也给人脸伪造的滥用留下了空间.
1.2 表情伪造技术
表情伪造是指不改变人脸的属性, 迁移其他人脸图像的表情到目标人脸, 从而达到目标人物做指定表情的目的.Thies等人[23]基于一个消费级的RGB-D相机, 重建、追踪源和目标演员的3D模型并最后融合, 从而进行实时的表情迁移.另外, Thies等人[24]提出了Face2Face, 通过利用3D重建技术和图像渲染技术, 能够在商业视频流中进行人脸移动表情的修改.Head on[25]通过修改视角和姿态独立的纹理实现视频级的渲染方法, 从而实现完整的人重建方法, 包括表情眼睛、头部移动等.Kim等人[26]利用含有时空架构的生成网络将合成的渲染图转换成真实图, 并能迁移头部表情等动作.尽管现有的图形学方法可以较好地合成或重建图像, 但是严重依赖于高质量的3D内容.Thies等人[27]提出了延迟神经渲染的框架, 与渲染网络一起优化神经纹理而生成合成的图像, 此方法可以在不完美的3D内容上操作.Suwajanakorn等人[28]利用循环神经网络建立语音到嘴型动作的映射, 可以匹配输入的语音合成嘴型指定纹理动作.此外, 还有针对人物特写镜头中的图像合成[29, 30]、基于2D仿射的源演员表情匹配[31]、基于网络编码空间的属性修改的表情迁移[32]等相继被研究者提出, 不同场景的表情伪造技术日益成熟.
1.3 语音伪造技术
语音伪造也叫做语音版Deepfakes, 利用AI技术合成虚假语音.通常有文本到语音合成(text-to-speech synthesis, 简称TTS)和语音转换(voice conversion)两种形式: 文本到语音合成主要完成指定文本的语音信息输出, 而语音转换是指转换人的音色到目标音色.这些语音的合成不仅可以欺骗人的听觉, 还可以欺骗一些自动语音认证系统.早期的语音合成主要依赖隐马尔科夫模型和高斯混合模型, 而随着深度学习技术的发展, 语音合成和转化技术的质量有了大幅度提高.来自谷歌的Oord等人提出了WaveNet[33], 这是第一个端到端的语音合成器, 一种基于音频生成模型, 能够产生于人相似的音频.相似的文本到语音合成系统有Deep voice[34]和Tacotron[35], 均在原始语音材料上训练, 速度比WaveNet更快.随后, 百度对Deep voice进行了扩展, 提出了Deep voice2[36], 通过使用低维度可训练的说话者编码来增强文本到语音的转换, 使得单个模型能生成不同的声音. Ping等人提出的Deep voice3[37]进一步改进了之前的Deep voice系列, Deep voice3是一个基于注意力机制的全卷积TTS系统, 通过设计字符到频谱图的结构, 能够实现完全并行的计算, 在不降低合成性能的情况下, 速度更加快.Santiago等人[38]则利用GAN技术对语音的噪音进行过滤, 提高了生成语音的质量.Chris等人[39]提出了无监督音频合成模型, 能够从小规模语音库中学习生成可理解的词汇.语音合成技术愈发成熟, 且与视频中的换脸伪造往往同时出现, 使得鉴别的难度更大.
1.4 开源工具与商业软件
随着对深度伪造生成技术的深入研究, 网络上逐渐出现了众多开源软件和商业应用.已有文献[40]做了部分总结, 但是不够全面.本文对其进行扩充和比较, 结果见表 1, 主要分为人脸伪造和语音伪造.其中, 人脸伪造主要分为两类: 一类是以Faceswap为代表的在GitHub网站上开源的伪造项目, 此类项目均是对原始项目进行改进, 或在新的深度学习框架下实现; 另一类是商业化的APP, 如Zao[1]、FakeAPP[41]、FaceApp[42]等提供换脸、修改表情或者人类属性等功能.网上开源软件需要使用者对深度学习相关知识比较熟悉, 需要使用者拥有一定数量的人物图像并在GPU上进行训练, 训练的稳定结果取决于使用者的专业水平.而商业化软件的使用门槛很低, 只需使用者上传一张图像就可以实现伪造目的.其中, FakeAPP需要用户安装在有GPU的电脑上使用.总的来说, 开源软件使用复杂, 适合专业人士, 并对生成效果进行改造; 而商业软件适合大部分普通非专业用户, 但是生成效果也取决于开发软件的公司或组织.语音合成伪造已逐渐成熟, 被大多数云服务厂商开发为接口服务向大众开发, 这里选取有代表性的软件展示.这些软件的流行和传播使得深度伪造变得更加低门槛、大众化, 也进一步加剧了恶意用户带来的负面影响.
表 1(Table 1)
Table 1 Summary of Deepfakes tools
表 1 深度伪造工具汇总
人脸伪造 |
功能及特点 |
使用者要求, GPU |
素材 |
支持换脸 |
FaceSwap[7] |
采用3D图形学 |
掌握基本的图形学指示, 要GPU |
大量人脸 |
1对1 |
Deepfakes[1] |
采用自动编码器 |
掌握深度学习专业知识, 要GPU |
大量人脸 |
1对1 |
Faceswap-GAN[14] |
在Faceswap项目的基础上增加GAN的判别器, 并做了后期融合处理. |
掌握深度学习专业知识, 要GPU |
大量人脸照片 |
1对1 |
DeepfaceLab[43] |
对Faceswap项目的模型进行扩充, 对人脸模型进行扩充 |
掌握深度学习专业知识, 要GPU |
大量人脸照片 |
1对1 |
DFaker[44] |
使用DSSIM loss函数 |
掌握深度学习专业知识, 要GPU |
大量人脸照片 |
1对1 |
DeepFake-tf[45] |
同Dfakeer项目, 使用tensorflow实现 |
掌握深度学习专业知识, 要GPU |
大量人脸照片 |
1对1 |
Faceswap-Deepfake-Pytorch[46] |
原理同Faceswap项目, 使用Pytorch实现 |
掌握深度学习专业知识, 要GPU |
大量人脸照片 |
1对1 |
Zao[1] |
提供指定的影视模板换脸, 只需要一张目标人脸即可换脸 |
无门槛, 不需要GPU |
1张人脸照片 |
1对多 |
FakeAPP[41] |
Windows上安装的软件, 原理同Faceswap |
无门槛, 需要GPU |
大量人脸照片 |
1对1 |
Faceapp[42] |
人脸编辑器, 可以换脸, 换表情, 编辑人脸属性 |
无门槛, 不需要GPU |
1张人脸照片 |
1对多 |
语音伪造 |
功能及特点 |
使用者要求, GPU |
素材 |
语音转换 |
Deep-voicev-conversion[47] |
只需要目标说话者的音波素材, 即可转换成特定目标人物的声音 |
掌握深度学习专业知识, 要GPU |
大量声波文件 |
多对1 |
MelNet[48] |
基于频谱图的端到端语音生成 |
掌握深度学习专业知识, 要GPU |
大量音频文件 |
多对多 |
|
Table 1 Summary of Deepfakes tools
表 1 深度伪造工具汇总
|
2 深度伪造数据集
随着深度伪造的泛滥, 研究人员开始了针对这些伪造视频、图像和语音的研究, 逐渐有新的数据集被开源以促进此领域的研究.数据集的质量和规模对深度伪造领域的研究尤为重要, 学术界和工业界均开源了部分数据集以促进该领域的研究.本节将逐一介绍这些数据集(见表 2).
表 2(Table 2)
Table 2 Open source dataset of the Deepfake
表 2 深度伪造开源数据集
数据集 |
篡改类型 |
描述 |
假: 真(比例) |
大小 |
获取源 |
UADFV[49] |
FakeAPP |
早期视频数据, 量小 |
1:1.00 |
98视频 |
Youtube |
FaceForensics(FF)[50] |
Face2Face |
FaceForensics++的前身, 只有一种篡改类型 |
1:1.00 |
2 008视频 |
Youtube |
FaceForensics++(FF++)[51] |
Deepfakes FaceSwap Face2face Neuraltexture |
每一类篡改视频均被C0, C23, C40这3种参数压缩 |
1:1.00 |
5 000视频 |
Youtube |
Deepfake-TIMIT[52] |
faceswap-GAN |
GAN版本Deepfakes换脸.有高清和低清两个版本 |
1:0.5 |
640视频, 高清和低清视频各320个 |
VidTIMIT[53] |
Mesonet data[54] |
Unknown |
网络搜集的不同渠道的Deepfake换脸图片 |
Unknown |
2W (图片) |
Youtube |
Celeb-DF[55] |
Deepfakes |
针对过去伪造视频的质量差、不稳定等缺点进行改进, 效果更好 |
1:0.51 |
1 203视频 |
Youtube |
Deepfake-Detection[56](DFD) |
Deepfakes |
363个不同场景下的原视频, 然后进行换脸.篡改视频均C0, C23, C40这3种参数压缩 |
1:0.12 |
363原始视频, 3 068个篡改视频 |
演员拍摄 |
DFDC previewdataset[57] |
Unknown |
Deepfakes竞赛的预赛数据 |
1:0.28 |
5 214视频 |
演员拍摄 |
DFDC[58] |
Unknown |
Deepfakes竞赛的正式全部数据 |
1:0.19 |
119 154视频 |
演员拍摄 |
DeeperForensics-1.0[59] |
DeepFake Variational Auto-Encoder |
改进的生成方式 |
5:1 |
60 000视频1 760万帧 |
演员拍摄 |
ASVspoof 2015database[60] |
synthetic and converted speech |
106 speakers |
14:1 |
16 651段原始音频, 246 500段合成转换视频 |
人说话片段 |
ASVspoof 2019database[61] |
synthetic and converted speech replayed speech |
107 speakers |
Unknown |
训练集: 15 928原视频, 117 996合成转换视频, 测试集未知 |
人说话片段 |
|
Table 2 Open source dataset of the Deepfake
表 2 深度伪造开源数据集
|
2.1 深度伪造视频数据集
● UADFV: 此数据集素材取自YouTube, 分别有49个真实视频和49个合成视频, 合成视频由FakeAPP[41]生成, 每个视频的平均长度是大约11s.然而, 作为早期深度伪造研究的数据集之一, 视频分辨率较低、生成质量差, 有较明显的换脸痕迹, 数量规模过于少, 篡改类型比较单一.
● FaceForensics(FF): 早期的大规模深度伪造数据集之一, 素材来源于Youtube8M[62], 选取该数据集中标签为人脸、新闻播报员、新闻联播的视频以及YouTube上有类似标签的视频共1 004个, 所有选取的视频分辨率大于480p.除此之外, 作者用人脸检测器抽取视频中的人脸序列, 确保所选视频连续300帧中含有人脸, 并手动过滤掉人脸遮挡过多的视频以确保视频质量.最后, 采用Face2Face的换表情的方法构造1 004个假视频.此数据集视频规模大、源视频人脸质量高, 但是篡改痕迹明显, 篡改方式单一.
● FaceForensics++(FF++): 目前较大规模、种类最多的深度伪造数据集之一.素材与FaceForensics相似, 取自YouTube的1 000个视频.在筛选素材的过程中, 同样用人脸检测器进行检测, 确保连续帧含有人脸, 并手动过滤掉人脸遮挡过多的视频以确保视频质量.在这个数据集中, 作者共采用4种类型的人脸篡改来制作假视频.
Deepfakes: 采用基于自动编码器的Deepfakes方法实现, 训练一对一的生成模型, 可以实现一对一的换脸.
Face2Face: 采用Face2Face方法实现.
FaceSwap: 采用FaceSwap方法实现, 基于3D图像的方法.
Neural Textures: 利用延迟神经渲染网络优化纹理的方法实现.
其中, Deepfakes与FaceSwap属于换脸伪造, Face2Face与Neural Textures属于换表情伪造.4种类型均在1 000个原始视频上生成对应的1 000个假视频, 并对真假视频均做了H.264 codec压缩方式中的C0、C23、C40这3种压缩水平的压缩.另外, 数据集中还提供了对应人脸篡改位置的mask.然而这些篡改的质量不是很高, 人眼能明显观察出篡改痕迹, 修改的轮廓很明显; 同时, 在合成的假视频中还存在人脸闪烁现象.
● Deepfake-TIMIT: 由Faceswap-GAN方法生成, 是第一个GAN版本的Deepfakes数据集.源数据是在VidTIMIT中选取的32个人(16对相似的人)两两相互替换组成的视频, 每个人有10个动作视频, 生成的假视频有高清(128×128)和低清(64×64)两个版本, 共有640段假视频.生成质量比FaceForensics++要好, 但是视频分辨率不高, 在脸部边界处有少量痕迹.
● Mesonet data: 早期深度伪造研究数据集, 数据量较小, 由YouTube渠道搜集的网络爱好者制作的伪造视频与图像.
● Celeb-DF: 针对UADFV、FaceForensics++、Deepfake-TIMIT等数据集的一些缺陷, 如图片分辨率不高、合成的视频质量差、篡改痕迹粗糙、视频人脸闪烁感过多等缺陷, 对Deepfakes生成方法进行改进, 增大生成图像的大小, 并在训练阶段增加色调亮度、对比度等, 以减小篡改区域与周边区域的不一致性.此外, 使用更加精准的人脸关键点定位信息减轻人脸闪烁现象.数据集由从YouTube渠道下载的408个原始视频和生成的795假视频组成, 视频的平均长度是13s, 帧率是30.
● DeepfakeDetection(DFD): 为了填充深度伪造数据的多样性, 谷歌公司征集28个演员拍摄了363个原始视频, 并将这些视频截取成一个个场景不同的片段, 最后对这些片段进行相互换脸, 生成3 068个假视频.同样, 此数据集也提供了H.264 codec压缩方式中的C0, C23, C40这3种压缩水平的压缩版本.
● DFDC preview Dataset: 为了推进深度伪造领域的研究, Facebook举办了The Deepfake Detection Challenge, 在比赛前夕公开了预赛数据集, 由5 214个视频组成, 真假比例1:0.28, 原始视频均由66个演员拍摄而成, 假视频有两种篡改方式, 大量的替换在相似人脸之间进行, 如皮肤颜色、头发、眼睛等.每个视频均是15s左右的小片段.
● DFDC: The Deepfake Detection Challenge的正式数据集, 共有119 196个视频, 真假视频比例约为1:5.原始视频均由演员拍摄, 视频长度约为10s.视频分辨率跨度很大, 视频场景涵盖了多种复杂场景, 如黑人黑背景、侧脸、走动、强光、多人等.
● DeeperForensics-1.0:为了应对深度伪造研究数据量少的问题, 南洋理工大学和商汤科技推出了大规模深度伪造数据集.研究人员从26个国家收集了100名演员的面部数据, 演员在9种灯光条件下转头做各种表情, 并使用FaceForensics++中的1 000个原始视频作为目标视频, 其中, 100个演员的脸中的每一个都被交换为10个目标.他们故意以35种不同的方式扭曲每个视频, 以模拟现实情况, 从而最终数据集包含50 000个未修改的视频和10 000个修改的视频.
以上深度伪造数据集的示例如图 2所示.
2.2 深度伪造语音数据集
● ASVspoof 2015 database
为了应对语音合成欺骗的攻击威胁, 2015年举办了第1届自动说话人认证竞赛.该竞赛上开放了第一个大规模伪造语音数据集, 以期发现多样的防御应对策略.数据集由10种不同的语音合成和语音转换欺骗算法生成, 包含原始的和欺骗的语音数据.原始语音是由106个人(45男与61女)说话记录构成, 这些记录没有噪音影响.其中, 训练集由3 750个原始话语片段和12 625个欺骗话语片段组成, 验证集由3 497个原始话语片段和49 875个欺骗话语片段组成, 测试集由9 404个原始话语片段和184 000个欺骗话语片段组成.
● ASVspoof 2019 database
2019年, 自动说话人认证竞赛包含了所有语音欺骗类型的攻击, 如语音合成、语音转换、语音重放等.将攻击分类为两种场景: 第1种场景是逻辑访问, 即直接将欺骗攻击的语音注入到自动说话人认证系统, 这些语音由最新的语音合成和语音转换技术生成; 另一种是物理访问场景, 语音数据由麦克风等设备捕捉到, 再经一些专业设备重放.这些语音数据由107个人(46男与61女)说话组成, 其中, 训练集、验证集、和测试集分别由20, 10, 48个人的语音数据构成.测试集中的攻击类型与训练验证集中均不相同.
3 深度伪造检测技术
随着深度伪造技术的发展, 互联网上充斥着大量包含伪造人脸和语音的虚假视频, Deepfakes类技术的滥用带来巨大的负面影响, 如损坏他人名誉、伪造证据、传播谣言, 影响政客形象干涉选举等.这也吸引了一批研究者对深度伪造检测技术的重视.本节将综述现有的一些代表性检测工作, 其中, 前5小节重点介绍研究较多的深度伪造视频检测, 第6小节概述伪造语音的检测工作, 并在第7小节对这些工作进行总结.
3.1 基于传统图像取证的方法
传统的图像取证初始主要是基于传统的信号处理方法, 大多数依赖于特定篡改的证据, 利用图像的频域特征和统计特征进行区分, 如局部噪音分析、图像质量评估、设备指纹、光照等, 解决复制-移动[63]、拼接[64]、移除这些图像篡改问题.而深度伪造视频本质也是一系列伪造合成的图片合成, 因此可以将此类方法应用到深度伪造检测.Lukas等人[65]提出了数字图像的相机设备指纹光响应不均匀性(PRNU), Chierchia等人[66]进一步利用光响应不均匀性检测小的篡改图像.Jessica等人[67]通过组装噪声分量模型提出了数字图像的隐写特征, 随后, 噪声特征被广泛运用在图像取证领域.此外, 还存在诸多基于信号处理的取证方法, 如利用JPEG压缩分析篡改痕迹[68]、向JPEG压缩的图像中添加噪声提升检测性能[69, 70]、利用局部噪音方差分析拼接痕迹[71]、利用色彩过滤矩阵(color filter array, 简称CFA)模型[72]进行篡改定位等.然而随着人工智能技术的发展, 基于卷积神经网络的深度学习技术在诸多任务上均超过了传统方法, 取证方法逐渐融合了机器学习方法特别是深度学习技术.此类方法检测成功率高, 不依赖特定类型的篡改痕迹, 比传统的信号处理方法鲁棒性更好.Cozzolino等人[73]设计了一个孪生网络, 在来自不同相机的图像块上训练来提取图片的噪音指纹, 从而实现检测.Zhou等人[74]提出了基于双流的Faster R-CNN网络, 其中, RGB流主要从RGB图像中输入提取特征, 从而发现强烈对比差异与不自然的篡改痕迹; 而噪音流利用噪声特征发现篡改区域与源区域的噪声不一致性.最后, 融合两条流的特征进行学习两个模态空间的信息.利用深度学习技术提取关键取证特征的工作也被不断探究[75].Liu等人[76]提出一个新的深度融合网络通过追踪边界来定位篡改区域.Minyoung等人[77]通过训练照片所包含的相机EXIF源数据指纹信息来区分图片是否被拼接.Xiaodong等人[78]根据全局与局部块的特征不一致性学习一个半-全局网络实现拼接定位.Cozzolino等人[79]提出使用卷积神经网络来学习基于残差的特征, 此类特征可以有效提升取证检测和定位的性能.Chen等人[80]则利用神经网络学习自然模糊和人为模糊带来的光直方图不一致性.Zhou等人[81]将隐写噪声特征和卷积网络学习边界特征结合, 提出了一个双流神经网络的方法.具体是用一个脸分类流训练一个GoogleNet[82]检测篡改的人工痕迹, 利用捕捉的局部噪音特征和拍照特征训练一个基于块的三元组(triplet)网络, 用这两条流的得分, 综合判断是否图像被篡改.这是因为基于同一张图像的隐藏特征是相似的, 距离小; 不同图像的块之间的隐藏特征距离大, 用三元组训练出块的距离编码后, 用一个SVM分类得到概率分数.
尽管基于取证的技术很成熟, 但是在应对新的深度伪造视频时仍存在很多短板, 因为此类伪造视频通常会被不同的后处理, 如不同的压缩方式、不同的压缩率、不同的放缩合成.针对图片级的取证技术更多关注局部的异常特征, 仍然应对乏力, 很容易被绕过, 并不能直接应用到日益升级的深度伪造视频检测上.
3.2 基于生理信号特征的方法
生成的伪造视频往往忽略人的真实生理特征, 无法做到在整体上与真人一致, 因此, 基于生理信号的特征不断被研究者挖掘.Yang等人[83]认为Deepfakes创造的是分离的合成脸区域, 这样在计算3D头部姿态评估的时候就会引入错误.因为Deepfakes是交换中心脸区域的脸, 脸外围关键点的位置仍保持不变, 中心和外围位置的关键点坐标不匹配, 会导致3D头部姿态评估的不一致, 故用中心区域的关键点计算一个头方向向量, 整个脸计算的头方向向量, 衡量这两个向量之间的差异.针对视频计算所有帧的头部姿态差异, 最后训练一个支持向量机(SVM)分类器来学习这种差异.Yang等人[84]同时发现, GAN网络生成的假人脸在关键点位置分布上与真实人脸不尽相同, 尽管生成的假人脸在脸部细节上与真人相似, 但是自然性和连贯性还是与真人有很大的不同之处, 通过将关键点归一化的位置坐标作为特征喂入SVM分类器进行学习.Li等人[85]发现, 正常人的眨眼频率和时间都有一定的范围, 而Deepfakes伪造视频的人基本没有眨眼现象, 或者频率跟正常视频有较大差别, 这可能是伪造视频在生成时没有丰富多样的眨眼素材导致的.因此, 作者将CNN和循环神经网络联合一起, 设计了长期循环卷积网络来识别视频中的状态是否闭眼, 从而最终判断是否是伪造的假视频.Ciftci等人[86]从脸部抽取3块区域来测量光电容积脉搏波信号, 并将信号转换为一致性和连贯性特征, 最后使用SVM对特征进行二分类.类似的, Fernandes等人[87]利用心率生物信号来区分伪造视频, 先通过血流造成的脸部皮肤颜色变化、前额的平均光密度、欧拉影像变化等3种方法来提取心率, 然后采用神经常微分方程模型训练, 最后测试Deepfakes视频时, 主要依据正常视频与异常视频的心率分布不同.
基于生理信号特征的检测方法大部分利用深度伪造技术的局限性, 但是随着生成技术的改进, 如眨眼数据、头部转动、眼球转动等的加入, 使得此类方法失效.此外基于脉搏、心率等生物信号的方法会因为伪造视频的压缩等处理而准确度大大降低.
3.3 基于图像篡改痕迹的方法
深度伪造图像受限于早期深度网络的生成技术, 在生成的人脸在细节上存在很多不足.因此, 有研究者对此展开了探索.Li等人[88]认为Deepfakes算法生成的图像分辨率有限, 之后需要被转换到匹配替换的脸, 这使得Deepfakes的视频中留下更多可以辨别的人工痕迹, 这个可以被深度神经网络有效地捕捉.作者人工构造了大量的负样本, 如将要替换的人脸进行高斯模糊、旋转等操作后放缩到源位置, 这个扭曲的人脸人工痕迹就保存了, 最后使用Resnet50[89]网络区分这些伪造视频或图像.同标记视觉人工痕迹篡改视频类似, Matern等人[49]利用真假脸的不一致性来区分, 如:
(1) 全局不一致性: 新的人脸的生成, 图像的数据点插值是随机的, 并不是很有意义, 这会导致的全局眼睛的左、右颜色不一致, 鼻子的左、右色彩等.
(2) 光照不一致性: 篡改区域和正常区域对光照的反射不一样, 如眼睛区域, Deepfakes生成的视频大多丢失这个眼睛反射细节.
(3) 几何位置不一致: 细节位置缺失, 如牙齿, 只有一些白色斑点, 这个细节没有建模.通过对这些特定区域(牙齿、眼睛等)提取的特征向量训练多层感知机进行分类.
尽管基于篡改痕迹的方法在一些数据集上表现良好的检测能力, 但是这些数据集大多是早期的生成器生成的, 随着生成技术的提升, 高分辨率和更多细节处理的伪造图像不断出现, 同时容易受到一些对抗措施的影响, 如加噪、压缩、放缩, 会使得这类方法的检测能力大大减弱.
3.4 基于GAN图像特征的方法
由于当前的深度伪造视频大部分借助了GAN[13]技术, 因此研究GAN生成技术的特点也成为了检测伪造图像的方法之一.研究[90, 91]发现: GAN生成技术改变了图像的像素和色度空间统计特征, 通过对特征共生矩阵的学习来区分生成图像的差异.Xuan等人[92]使用图像预处理, 如滤波、噪音等预处理方法破坏GAN图像低级别的生成缺陷, 迫使模型学习高级别的固有的线索.Scott等人[93]发现: GAN生成器的中间值通常通过归一化来限制输出, 这一定程度上也会限制饱和像素的频率.此外, 生成器在多通道使用的权重与真实相机的光敏感度有很大不同, 通过对这两个指标进行量化提取分类特征.也有相关研究尝试用GAN指纹[94, 95]来区分伪造, 不同的GAN生成的图片在中间分类层具有唯一的特征, 可以作为GAN生成器的辨别指纹.
Wang等人[96]提出了FakeSpotter, 利用神经元监控的方法来进行分类, 原理如图 3所示.使用神经元覆盖的方法观察真假图像经过人脸识别器中的神经元激活变化情况, 用SVM去学习神经元激活的差异, 而假脸在神经元覆盖的行为上表示相似.
此类基于GAN特征的方法会依赖GAN的结构, 使得特征分类器在已有的生成器行为上过拟合, 而无法处理未知的生成器, 泛化能力很差.研究不同GAN结构生成伪造图像的共同特点, 依然是一个研究难题.
3.5 基于数据驱动的方法
新的伪造生成算法和数据量的规模都在不断增加, 使得研究者开始关注用基于数据驱动的方式来学习这些Deepfakes.基于数据驱动的学习方法主要分为两大类: 一类是图片级, 将视频处理成帧, 设计不同的网络结构, 对帧进行判别, 实现帧级的识别, 最终对视频的帧进行综合决策; 另一类视频级, 利用循环神经网络学习帧序列的时序特征对一个视频进行整体判断.
3.5.1 基于图片级学习的方法
Afchar等人[54]设计了多个小的卷积模块来捕捉篡改图像的微观特征, Rossler等人[51]利用Xception[97]架构对视频的全帧和人脸分别训练.结果显示, 基于人脸训练的模型效果远远好于全帧模型.同时, 实验结果显示: 在面对高度压缩的图片时, 模型的训练难度会上升且检测率会下降.其中, 利用人脸关键点信息提升性能的结论也被Songsri-in等人[98]实验证实.Nguyen等人[99]设计了胶囊网络来判别造假的图片或视频, 通过抽取人脸, 用VGG-19[100]提取特征编码, 然后输入胶囊网络进行分类.Mo等人[101]增加高通滤波和背景作为CNN输入, 对检测结果有提升.Durall等人[102]通过离散傅里叶变换提取特征学习, 显示了很好的效果.Ding等人[103]利用迁移学习, 使用Resnet18进行调优; 同时对于这些部署的关键系统, 对每个预测提供一个不确定水平, 如每个神经网层络输出值差异.现有的神经网络能够快速地过拟合特定的篡改痕迹, 学习到的features有高度的区分性, 但是缺乏迁移性.Cozzolino等人[104]设计了一个新的基于自动编码器的神经网络结构, 能够学习在不同的扰动域下的编码能力, 只需要在一个数据集上训练, 在另一个数据集上获取小规模进行调优, 就能达到很好的效果.在此基础上, Nguyen等人[105]设计了Y型解码器, 在分类的同时融入分割和重建损失, 通过分割辅助分类效果.此外, 一些针对现有神经网络结构的修改也被研究: Hsu等人[106, 107]采用对比损失寻找不同生成器生成的图像的特征, 后面再连接一个分类器进行分类; Dang等人[108]设计了特定的CGFace网路, 专门检测计算机生成的人脸; Bayar等人[109]设计了受限制的卷积层学习特定的篡改特征; Stehouwer等人[110]通过在主干网络增加注意力机制来聚焦篡改区域; Rahmouni等人[111]加入了计算统计数据的全局池化层.Li等人[112]则设计了基于图片块的双流网路框架, 如图 4所示, 一条流学习人脸块的微观特征, 另一条流学习人脸和背景区域的差异性.通过多任务学习, 能够较好地提升模型的泛化能力.
基于图片级的学习方法是现有研究较多的方向之一, 借助深度学习强大的学习能力和日益大幅增长的数据集, 学习篡改图片的特点可行且高效.此类方法不仅可以判断单帧图像的真伪, 还可以利用组合策略检测视频帧, 应用范围较广, 但是也存在很多局限性, 学习到的模型大多数依赖相同的数据分布, 在面对未知篡改类型时很乏力[113, 114]; 同时, 对高度压缩的视频帧检测能力会大幅下降.此外, 如果视频中的篡改人脸非常少, 这对基于图片级方法的综合决策策略提出了挑战.
3.5.2 基于视频级学习的方法
Agarwal等人[115]发现: 作为个体, 他们有不一致的面部表情和移动, 通过追踪面部和头部移动然后抽取特定动作集合的存在和强度, 脸部肌肉的移动可以编码成动作单元, 再利用皮尔森系数对特征之间的相关性进行扩充, 最后在扩充后的特征集合上建立一个新的单分类SVM来区分各类造假视频.然而实验结果显示: 虽然AUC达到0.9以上, 但是召回普遍不高, 实用性较差.
Amerini等人[116]探索帧间光流的不同, 采用VGG16学习光流的差异并进行分类, 因为光流是连续帧间的运动差异计算的, 自然拍摄和伪造的视频之间的运动差异很大.
Guera等人[117]考虑用循环神经网络处理深度伪造的序列数据, 因为多个相机视角, 光照条件的不同, 不同的视频压缩率使得生成器很难产生实际真实的在不同条件下的脸, 这个会导致交换的脸在剩下的场景下看起来不一致.此外, 因为生成器没办法意识到皮肤或者其他场景信息, 所以新脸和剩下帧之间的融合性差, 不同帧场景间的光源会引起大多数脸部闪烁现象, 这个可以被时序网络较好地捕捉到.
整体框架如图 5所示, 分为两阶段分析器, 一个CNN抽取帧内feature, 输入一个测试序列, CNN获取一个每一帧的特征集合, 然后将这些多个连续的帧特征集串联传输到LSTM分析, 并产生一个概率估计.
相似地, Sabir等人[118]采用双向时序网络和人脸对齐结合的方法学习伪造序列, 结果显示, 基于关键点的人脸对齐与Bidrectional-recurrent-denset对视频的篡改检测最佳.
基于视频级的学习方法可以学习到视频的时序特征, 如前后帧的不一致、人脸区域的不稳定等一些篡改视频均会出现的缺陷, 泛化性较好; 同时, 也能检测到视频中的少量篡改.但是基于时序特征的检测依然对视频的预处理很敏感, 如视频压缩、背景光线的变化等, 也无法判断单帧的真伪.
3.6 深度伪造语音检测
随着合成伪造语音技术的发展, 对伪造语音的检测工作也在兴起.尤其是2019年自动说话人语音认证竞赛(ASVspoof2019)的举办, 产出了一些针对性的语音欺骗工作.初始伪造语音检测主要是传统的信号处理方法, 研究者尝试对不同低水平的频谱特征进行建模, 如Todisco等人[119]提出的常量Q倒谱系数(constant-Q cepstral coefficients, 简称CQCC)、Wu等人提出的归一化的余弦相位和修改的群延迟[120, 121], 在一些音频处理技术上有效, 但是在ASVspoof2019数据集上泛化性很差.有研究[122]针对ASVspoof2019数据集进行了数十种声学特征分析, 结果显示, 这些声学特征均不能在未知类型欺骗攻击有很好的泛化性.随后, 基于深度学习的检测方法逐渐被研究者所关注.Zeinal等人[123]利用CQT特征[124]和功率谱图特征进行学习, 并分别使用网络混合、VGG与light CNN、VGG与Sincnet应对物理访问和逻辑访问场景的攻击.目前, 语音欺骗系统检测的最大问题是泛化能力, Alejandro等人[125]提出了基于光卷积门的循环神经网络来同时抽取帧级的浅层特征和序列依赖的深层特征, 检测率在ASVspoof2019数据集上显示有很大提升.Chen等人[126]通过随机掩去相邻的频率频道、加入背景噪音和混合噪声提高检测系统的泛化性.
伪造语音的检测从传统信号处理方法发展到深度学习方法, 在应对语音欺骗领域取得了一定的成果, 但是现有方法还是依赖特定攻击类型, 对未知类型攻击检测的泛化性提升还有很大的空间.
3.7 检测技术总结
前述研究工作在提出的同时, 大多在开源数据集上进行了评测, 本文将主流的深度伪造检测算法在公开数据集上的检测表现总结见表 3.所有数据均由论文的实验整理而得, 大多数是深度伪造视频检测的工作.其中, 主要评估指标有准确率(Acc)、ROC曲线面积(AUC)、等错误率(EER); Raw、HQ、LQ分别代表原生态、高清和低清; DF/F2F/FS/NT分别是FF+中4种篡改类型的缩写.
表 3(Table 3)
Table 3 Performance evaluation of representative methods on major test sets
表 3 代表性方法在主要测试集上的性能评估
研究工作 |
模型 |
特点 |
数据集 |
性能: Acc%, AUC% |
Jessica等人[67] |
SVM |
高通图像的隐写特征 |
FF++(DF/F2F/FS/NT) Raw HQ LQ |
Acc% 99.03 99.1 98.27 99.8877.12 74.68 79.51 76.94 65.58 57.55 60.58 60.69 |
Cozzolino等人[79] |
CNN |
残差特征的学习 |
FF++(DF/F2F/FS/NT) Raw HQ LQ |
Acc% 98.83 98.56 98.89 99.88 81.78 85.32 85.69 80.60 68.26 59.38 62.08 62.42 |
Afchar等人[54] |
CNN |
微观特征的学习 |
FF++ Raw(DF/F2F/FS/NT) HQ(DF/F2F/FS/NT) LQ(DF/F2F/FS/NT) Mesonet Data UADFVD eepfakeTIMIT-HQ DeepfakeTIMIT-LQ Cele-DF |
Acc% 99.59 99.61 99.14 99.36 98.85 98.36 98.23 94.5 94.28 91.56 93.7 82.11 Acc=98.4% AUC=84.3% AUC=87.8% AUC=68.4% AUC=53.6% |
Rossler等人[51] |
Xception |
对整帧的人脸区域学习 |
FF++(DF/F2F/FS/NT) Raw HQ LQ UADFV DeepfakeTIMIT-HQ DeepfakeTIMIT-LQ Cele-DF DFDC preview |
Acc% 99.59 99.61 99.14 99.36 98.85 98.36 98.23 94.5 94.28 91.56 93.7 82.11 AUC% 80.4 54.0 56.7 38.7 Precision=93% recall=8.4% |
Nguyen等人[99] |
CNN+胶囊网络 |
胶囊网络分类 |
FF++/F2F-raw FF++/F2F-HQ FF++/F2F-LQ |
99.33 98 83.33 |
Cozzolino等人[104] |
Autoencoder |
分类和分割双任务 |
FF++(HQ) F2F FS |
Acc% 94.47 72.57 |
Nguyen等人[105] |
Autoencoder |
分类和分割、重建融合 |
UADFV DeepfakeTIMIT-HQ DeepfakeTIMIT-LQ FF++/DF Cele-DF |
AUC=65.8% AUC=55.3% AUC=62.2% AUC=76.3% AUC=36.5% |
Agarwal等人[115] |
SVM |
动作单元编码 |
Own (FaceSwap, HQ) |
AUC=96.3% |
Guera等人[117] |
CNN+RNN |
图片的时序信息 |
Own |
Acc=97.1% |
Sabir等人[118] |
CNN+Bi-LSTM |
图片的时序信息 |
FF++/LQ DF/F2F/FS |
AUC 96.9%94.4%96.3% |
Zhou等人[81] |
CNN+SVM |
人脸和隐写特征结合 |
UADFV DeepfakeTIMIT-HQ DeepfakeTIMIT-LQ FF+/DF Celeb-DF |
AUC=85.1% AUC=73.5% AUC=83.5% AUC=70.1% AUC=55.7% |
Li等人[88] |
CNN |
学习人脸边框篡改遗留痕迹 |
UADFV DeepfakeTIMIT-HQ DeepfakeTIMIT-LQ FF+/DF Celeb-DF |
AUC=97.4 AUC=93.2 AUC=99.9 AUC=79.2 AUC=53.8 |
Matern等人[49] |
Logistic Regression MLP |
学习篡改痕迹的细节缺失 |
UADFV DeepfakeTIMIT-LQ DeepfakeTIMIT-HQ FF++/F2F FF++/DF Celeb-DF |
AUC=70.2% AUC=77.0% AUC=77.3% AUC=86.6% AUC=78.0% AUC=48.8% |
Yang等人[83] |
SVM |
头部姿态评估 |
UADFV DeepfakeTIMIT-HQ DeepfakeTIMIT-LQ FF+/DF Celeb-DF |
AUC=89.0% AUC=53.2% AUC=55.1% AUC=47.3% AUC=54.8% |
Korshunov等人[52] |
PCA+RNN PCA+LDA |
图像质量, 声频校对 |
DeepfakeTIMIT (LQ) DeepfakeTIMIT (HQ) |
EER=3.3% EER=8.9% |
Bayar等人[109] |
- |
- |
FF++(DF/F2F/FS/NT) Raw HQ LQ |
Acc %99.28 98.79 98.98 98.78 90.18 94.93 93.14 86.04 80.95 77.30 76.83 72.38 |
Stehouwer等人[110] |
CNN+Attention |
增加注意力机制 |
DFFD |
AUC=99.4%, EER=3.1% |
Chen等人[126] |
Deep Residual Network+ Frequency Masking |
大边际距离损失函数 |
ASVspoof2019 |
LA: EER=4.04% PA: |
Alejandro等人[125] |
LightCNN+RNN |
混合光卷积和门递归单元 |
ASVspoof2015 ASVspoof2019 |
EER=0.69% LA: EER=6.28% PA: =2.23% |
Li等人[127] |
Butterfly Unit Multi-Task |
多特征融合多任务学习 |
ASVspoof2019 |
LA: EER=7.63% PA: EER=0.96% |
Zeinali等人[123] |
Light CNN VGG, SincNet |
多网络融合 |
ASVspoof2019 |
LA: EER=8.01% PA: EER=1.51% |
|
Table 3 Performance evaluation of representative methods on major test sets
表 3 代表性方法在主要测试集上的性能评估
|
此外, 如前文所述, 深度伪造视频检测归纳为5大类的检测算法适用于不同的场景, 也在不断的推进发展中, 但是都存在一定的局限性, 各有优劣, 总结见表 4.
表 4(Table 4)
Table 4 Advantages and disadvantages of various detection methods are summarized
表 4 各类检测方法优劣总结
方法 |
特点 |
缺陷 |
基于图像取证的方法 |
技术成熟, 特征可解释 |
主要面向图像, 压缩等预处理会加大提取难度 |
基于生理信号的方法 |
捕获特定的生理特征, 关注图像的局部信息 |
在压缩的视频里特征提取误差大一些特征在新技术中被隐藏.准确度不高 |
基于图像篡改痕迹的方法 |
学习局部信息, 针对粗糙的Deepfakes有效 |
通用性不强, 精准度不高 |
基于GAN图像特征的方法 |
聚焦GAN指纹信息 |
数据依赖性强, 依赖生成算法, 通用性不好 |
基于数据驱动的方法 |
数据量大、可学习信息多, 准确度高 |
依赖同分布数据集, 未知类型以及压缩对性能影响大 |
|
Table 4 Advantages and disadvantages of various detection methods are summarized
表 4 各类检测方法优劣总结
|
4 深度伪造的对抗性研究
4.1 深度伪造生成的对抗性
基于深度伪造生成的人脸能够修改人的身份属性, 还可以操控人脸做不同的表情, 这使得依赖人脸识别的应用存在着重大威胁.而针对人脸识别的对抗性攻击一直层出不穷.Goswami等人[128]研究发现: 对人脸图片的遮挡和加噪等操作, 能够一定程度欺骗人脸检测器VGGface[129]和Openface[130].文献[131, 132]利用查询优化的方式对人脸图片进行加噪, 以此来绕过人脸识别引擎.Song等人[133]使用注意力机制和生成对抗网络生成指定语义信息的假人脸, 使得人脸识别器误判.Majumdar等人[134]研究发现: 对人脸部分区域的修改和变形, 可以让人脸识别器有很高的误识率.人脸识别系统的脆弱性, 使得基于深度伪造的Deepfakes类技术更容易攻击成功. Korshunov等人[52, 135]测试了基于VGGnet[100]和FaceNet[136]的人脸检测器的安全性, 通过输入生成的Deepfakes视频, 发现这两类人脸检测器分别有85.62%和95.00%的错误接受率, 说明人脸检测器分辨不出深度伪造人脸和源人脸.
4.2 深度伪造检测的对抗性
深度伪造检测算法大部分均采用了神经网络技术, 而神经网络本身存在着对抗样本攻击[137-139].对抗样本攻击是一种对模型输入进行扰动, 从而使模型产生误判的技术.这使得深度伪造技术在生成的时候可以隐藏自身的一些特征从而绕过检测, 因此对检测算法进行对抗性评估也十分必要.Wang等人[140]研究发现: 不同的GAN生成的伪造图像都留下特定的指纹特征, 虽然依赖于指纹特征训练的检测器泛化能力不好, 但是对训练数据进行预处理, 如增加JPEG压缩、模糊等操作, 大大提高模型的泛化性能, 同时在检测时对图片进行后处理, 可以增加模型的鲁棒性.但是Neves等人[141]设计了一个自动编码器能够将合成的伪造图像移除指纹等信息, 让现有的伪造检测系统失效.Brockschmidt等人[113]对深度伪造检测器(Xception[51]、Mesonet[54])进行了对抗性评估, 作者采用6个伪造数据集对检测器的可靠性进行探测, 结果显示: 在同分布的数据集上, 检测器均能达到非常高的检测率; 但是在未知篡改类型数据集上, 只有特征重合程度高的数据集之间迁移性较好, 否则检测效果非常差. Marra等人[142]则模拟了篡改图片在社交网络的场景中的检测, 结果显示, 现有的检测器在现实网络对抗环境下(未知压缩和未知类型等)表现很差.Zhang等人[143]寻找GAN的共有痕迹, 提高检测器的鲁棒性.现有的检测器对数据依赖强, 泛化性不够, Du等人[144]利用局部性感知的自动编码器实现造检测, 使得模型聚焦篡改区域, 通用性更强.Huang等人[145]则借鉴了对抗样本的思想, 对这些基于神经网络的检测器进行对抗性攻击, 设计了单个对抗攻击和通用对抗攻击两种方式, 使得检测器的篡改分类和定位失效.尽管现在已经存在众多的检测器, 在一些数据集上表现很好, 但是攻击者依然可以完善生成方法, 隐藏一些标志性特征从而绕过检测器, 这是一个长期的攻防博弈过程.
5 总结与展望
5.1 技术风险
深度伪造技术的发展给社会带来了巨大的负面影响, 从社会国家领导人到普通的互联网公民, 都有被此类技术侵害的可能性[146].对深度伪造技术带来的技术风险如下.
(1) 舆论负面影响: 如色情电影的制作、政治家的谣言传播, 会严重损害个人名誉.
(2) 对人脸认证的影响: 目前大多依赖活体检测来识别视频攻击, 如果在没有活体检测的应用场景以及活体功能失效的场景, 如端劫持, 对换脸的人与本人的识别面临挑战.
(3) 对视频人脸识别系统的影响: 通过追踪视频人脸并识别的技术面对挑战, 换脸的视频与真人的视频分辨不出来.
(4) 影响司法体系: 由于缺乏完全可靠的鉴别深度伪造数据的能力, 法院需要重新审视图片或者视频证据的效力.
(5) 影响经济活动: 名人的假视频能让股市瞬间暴跌.
而这些风险后面还隐藏着国家治安稳定、伦理道德、经济发展、信任危机等更深层次的社会问题, 亟需研究更有效的应对措施.
5.2 研究难点
从深度伪造技术诞生至今, 有不少的研究工作展开对伪造图像或视频进行检测, 但是依然没有完美的解决方案[40], 在检测领域依然存在着诸多研究难点问题.
(1) 压缩方式的不同、压缩率的不同: 视频不同于图片, 在上传到网站时会做不同的压缩方式处理; 同样, 视频在线下制作时也可以做不同的后处理裁剪压缩, 这会使得很多篡改特征模糊甚至消失.制作者甚至可以对视频中的部分帧进行压缩处理, 人为地增加检测难度.此外, 不同的压缩方式和压缩率下的数据分布也有很大不同, 这也意味着基于学习的方法会很容易在已有的训练集上过拟合.现有的检测方法还无法有效地检测未知压缩的视频, 大多是在训练集中扩充压缩的数据, 增加模型的决策边界以此来应对压缩[51].此类方法本质还是基于同分布压缩的假设.
(2) 视频分辨率的不同: 互联网上的视频质量和大小各异, 不同的视频有着不同的分辨率, 人脸大小跨度从几百像素到百万像素级别.如果统一放缩到指定大小处理, 会丧失部分特征, 在一定程度上影响着检测器的特征提取, 这就需要检测算法从根本上考虑不同尺度特征的融合.
(3) 篡改算法未知: 生成算法层出不穷, 不同的生成算法篡改的侧重点不同, 所具有的特征也不尽相同.基于学习的方法虽然能快速捕捉到训练集中的人脸篡改特征, 但是大多是拟合已有的生成器特征, 对未知的篡改类型不鲁棒.现有的应对方法大多是将新的生成算法数据集加入到训练集[51, 112], 以此来提高跨生成算法之间的检测率.如何设计鲁棒性强、泛化性能高的检测算法, 依然是难点.
(4) 一些复杂的对抗场景: 真实网络世界中的视频远远比公开数据集的复杂度要高的多, 而且存在较强的对抗性.一些在实验数据上表现很好的模型, 在面对真实网络伪造数据集时可能束手无策.如多人脸的视频如何无误地检测、针对只有部分帧部分区域篡改的视频如何区分、视频里过强或过暗的光线对人脸检测的影响如何评估等, 人脸生成伪造者在制作的同时也会考虑加入这些对抗性场景, 以此来降低检测效果, 这些复杂场景对伪造检测算法带来巨大的挑战.
5.3 未来研究方向
虽然针对伪造图像或语音的检测已经取得了一部分研究成果, 但目前该领域的研究依然存在诸多关键问题尚待解决.同时, 一些新的生成技术的发展成熟, 会让此类深度伪造的鉴别工作越来越困难.针对以上的难点和问题, 我们可以考虑从多角度多层次来探索深度伪造检测未来可行的方向.
(1) 研究泛化性好的检测算法: 已有的检测方法容易依赖特定的数据集和生成算法, 泛化能力很弱.这往往是由于训练数据的单一同分布所致.仅仅粗暴地对数据直接学习并不能满足多样的伪造类型, 需要探索尽可能多的深度伪造类型, 寻找其中的共性特征, 如生成器的指纹[94, 95]、不同伪造数据中人脸与嘴唇一致性差异等.通过对共性特征的学习, 使得检测模型能够适用于更多的深度伪造类型.
(2) 研究鲁棒性强的检测算法: 论文中展现的检测算法大多在单一的场景下测试, 而现实世界中常常面对压缩、噪音等复杂情况, 使得检测算法不鲁棒.可以在训练阶段和测试阶段对数据进行压缩、放缩等预处理, 探索不同预处理对检测算法鲁棒性的影响.同时, 还可以将对抗样本技术应用到检测模型的鲁棒性提升上, 探索检测模型在对抗样本攻击下的缺陷, 进而可以利用对抗环境下生产的对抗样本对模型进行对抗训练以增加模型的鲁棒性.此外, 已有的数据集大多数都为单人脸的真伪鉴别, 检测模型缺乏应对视频中多人脸的复杂场景.如何在保证准确率的同时对视频中多人脸的篡改进行判断, 是一个具有挑战性的课题.
(3) 研究主动防御算法: 现有的检测算法总是依赖已发现的深度伪造类型, 对未知类型的伪造数据检测很被动, 这使得检测算法总是落后于生成技术.可以从两个角度进行主动防御: 第1种思路是利用对抗样本技术对上传到互联网上的媒体数据注入对抗噪音, 如注入对抗人脸检测的噪音, 使得人脸检测技术在预处理人脸数据时检测错位或失败, 从而使得依赖人脸检测技术的深度伪造换脸技术不再精准, 导致换脸异常或失败; 第2种思路是控制视频传播的源头, 对互联网上的视频进行溯源, 研究视频网站上的视频追踪技术, 如Hasan等人[147]尝试用区块链技术对互联网上的视频进行追踪.
(4) 研究深度伪造图像和伪造语音的融合检测技术: 现有针对深度伪造的检测技术基本只关注了一个单一的伪造领域, 而伪造的多媒体数据通过图像和语音结合能达到更逼真的效果.因此, 对伪造数据进行图像语音多模态的检测是一个有意义的方向.如, Facebook举办的深度伪造检测竞赛[58]已经增加了同时篡改音频和图像的数据类型.这种伪造类型将会越来越普遍, 带来的负面影响也会更大.针对此类伪造的检测研究也给单模态(图像或语音)伪造的检测提供了思路.
(5) 建立研究性社区: 现有的研究资源没有得到很好地共享, 缺乏如全球研究者认可维护的研究性网站.对现有的研究数据集共享, 需要建立统一的社区, 集中现有零散的数据资源, 让研究者们能更好地利用已有的资源和成果.现有网站[56]在开源部分数据集, 但是力度不够, 需要集成大规模数据集并公开现有最好的评估指标, 定期举办学术研讨会和比赛, 增加研究者们对深度伪造检测领域的关注度.
(6) 进行司法立法: 深度伪造的检测仅仅依靠技术手段可能不能完美地解决问题, 因为生成与检测是一个永恒博弈的过程, 仅依靠一门检测技术来杜绝深度伪造现象不太现实, 需要社会建立完整的法律体系, 对恶意制作或传播的互联网用户进行一定的惩戒.如美国加州[148]已经立法, 禁止制作政治人物的伪造视频, 同时也明确规定了制作色情伪造人物视频属于违法行为.中国的互联网信息办公室也发行了《网络信息内容生态治理规定》[149], 其中明确规定, 网络信息内容服务使用者、内容生产者和内容服务平台不得利用深度学习、虚拟现实等新技术新应用从事法律、行政法规禁止的活动.尽管已出台了相关法律抑制深度伪造的滥用, 但是此类法律还不健全, 如何区分伪造视频是属于娱乐和恶性传播等在法律边界游走的现象, 还需要相关部门建立更加完整细致的法律体系.
(7) 培训新闻工作者: 法律和技术检测能一定程度增加恶意伪造传播的代价, 但是给社会带来的负面影响无法挽回, 这需要在视频传播的源头进行控制, 如一些社交媒体, 特别是主流媒体承担着大量的视频图像的传播任务, 需要对这些新闻工作者进行专业培训, 培养鉴别一些假视频的能力, 从源头减少伪造视频的传播, 降低负面影响.同时, 对本身制作视频的新闻工作者, 要明确在视频上打上是否伪造的标签, 以减少新闻媒体的误导能力.
6 结束语
随着深度学习技术的发展, 深度伪造技术会不断完善, 生成更加逼真难以鉴别的视频和语音数据.这对深度伪造的检测提出了巨大的挑战.尽管已存在有一些针对深度伪造检测的工作, 但是都依赖特定的数据集或者场景, 依然存在许多关键的科学问题尚待解决.为了理清现有研究的进展, 明确未来研究方向, 本文从生成技术、研究数据集、主流检测方法进行总结, 回顾了大量极具影响力的研究成果, 并对相关研究进行了科学的分类、总结和分析.同时, 本文指出了深度伪造检测领域当前面临的挑战, 探讨了未来可行的研究方向, 旨在为推动深度伪造检测领域的进一步发展和应用提供指导和参考.