深度学习在计算机视觉领域取得了重大成功,超越了众多传统的方法.然而近年来,深度学习技术被滥用在假视频的制作上,使得以Deepfakes为代表的伪造视频在网络上泛滥成灾.这种深度伪造技术通过篡改或替换原始视频的人脸信息,并合成虚假的语音来制作色情电影、虚假新闻、政治谣言等.为了消除此类伪造技术带来的负面影响,众多学者对假视频的鉴别进行了深入的研究,并提出一系列的检测方法来帮助机构或社区去识别此类伪造视频.尽管如此,目前的检测技术仍然存在依赖特定分布数据、特定压缩率等诸多的局限性,远远落后于假视频的生成技术.并且不同学者解决问题的角度不同,使用的数据集和评价指标均不统一.迄今为止,学术界对深度伪造与检测技术仍缺乏统一的认识,深度伪造和检测技术研究的体系架构尚不明确.回顾了深度伪造与检测技术的发展,并对现有研究工作进行了系统的总结和科学的归类.最后讨论了深度伪造技术蔓延带来的社会风险,分析了检测技术的诸多局限性,并探讨了检测技术面临的挑战和潜在研究方向,旨在为后续学者进一步推动深度伪造检测技术的发展和部署提供指导.
Deep learning has achieved great success in the field of computer vision, surpassing many traditional methods. However, in recent years, deep learning technology has been abused in the production of fake videos, making fake videos represented by Deepfakes flooding on the Internet. This technique produces pornographic movies, fake news, political rumors by tampering or replacing the face information of the original videos and synthesizes fake speech. In order to eliminate the negative effects brought by such forgery technologies, many researchers have conducted in-depth research on the identification of fake videos and proposed a series of detection methods to help institutions or communities to identify such fake videos. Nevertheless, the current detection technology still has many limitations such as specific distribution data, specific compression ratio, and so on, far behind the generation technology of fake video. In addition, different researchers handle the problem from different angles. The data sets and evaluation indicators used are not uniform. So far, the academic community still lacks a unified understanding of deep forgery and detection technology. The architecture of deep forgery and detection technology research is not clear. In this review, the development of deep forgery and detection technologies are reviewed. Besides, existing research works are systematically summarize and scientifically classified. Finally, the social risks posed by the spread of Deepfakes technology are discussed, the limitations of detection technology are analyzed, and the challenges and potential research directions of detection technology are discussed, aiming to provide guidance for follow-up researchers to further promote the development and deployment of Deepfakes detection technology.
近年来, 以Deepfakes[
为了尽量减少深度伪造技术带来的影响, 消除虚假视频的传播, 学术界和工业界开始探索不同的深度伪造检测技术.相继有学者构造数据集, 展开对Deepfakes检测的多角度研究.脸书公司也联合微软一起举办全球Deepfakes检测竞赛[
本文第1节介绍深度伪造的各种相关技术.第2节列举出当下深度伪造研究的数据集.第3节对现有的深度伪造检测技术进行系统的总结和归类.第4节讨论深度伪造生成和检测技术的双面对抗性.第5节总结面临的挑战和未来可行的研究方向.最后, 第6节对全文的工作进行总结.
现有的深度伪造图像主要是指脸部的篡改, 而脸部篡改伪造主要分为两大类: 一类是换脸伪造, 通过交换两张图像的人脸达到人身份修改的目的, 其技术从传统的3D重建方法发展到现在以生成对抗网络为基础的深度伪造; 另一类是脸部表情属性伪造, 迁移指定表情等动作到目标图像而不修改目标人脸标志, 达到伪造表情或者特定动作目的, 其技术也从基于3D的图形学方法演变到最新的深度学习方法.此外, 制作深度伪造素材时通常还包含了语音的伪造, 使得欺骗效果更佳.本节将对这些伪造生成技术进行概述, 其中重点关注深度伪造技术, 并总结了一些开源的生成工具.
在过去10多年里, 基于图形学的人脸篡改技术一直被研究者所关注, Zollhofer等人[
尽管基于图形学的脸部篡改方法研究了多年, 但是时间开销大、门槛高、成本大, 使得这项技术很难普及.随着深度学习技术的飞速发展, 研究者们开始关注深度学习在人脸篡改上的应用[
Depefakes生成框架[
Framework for Deepfakes generation[
Korshunova等人[
表情伪造是指不改变人脸的属性, 迁移其他人脸图像的表情到目标人脸, 从而达到目标人物做指定表情的目的.Thies等人[
语音伪造也叫做语音版Deepfakes, 利用AI技术合成虚假语音.通常有文本到语音合成(text-to-speech synthesis, 简称TTS)和语音转换(voice conversion)两种形式: 文本到语音合成主要完成指定文本的语音信息输出, 而语音转换是指转换人的音色到目标音色.这些语音的合成不仅可以欺骗人的听觉, 还可以欺骗一些自动语音认证系统.早期的语音合成主要依赖隐马尔科夫模型和高斯混合模型, 而随着深度学习技术的发展, 语音合成和转化技术的质量有了大幅度提高.来自谷歌的Oord等人提出了WaveNet[
随着对深度伪造生成技术的深入研究, 网络上逐渐出现了众多开源软件和商业应用.已有文献[
深度伪造工具汇总
Summary of Deepfakes tools
人脸伪造 | 功能及特点 | 使用者要求, GPU | 素材 | 支持换脸 |
FaceSwap[ |
采用3D图形学 | 掌握基本的图形学指示, 要GPU | 大量人脸 | 1对1 |
Deepfakes[ |
采用自动编码器 | 掌握深度学习专业知识, 要GPU | 大量人脸 | 1对1 |
Faceswap-GAN[ |
在Faceswap项目的基础上增加GAN的判别器, 并做了后期融合处理. | 掌握深度学习专业知识, 要GPU | 大量人脸照片 | 1对1 |
DeepfaceLab[ |
对Faceswap项目的模型进行扩充, 对人脸模型进行扩充 | 掌握深度学习专业知识, 要GPU | 大量人脸照片 | 1对1 |
DFaker[ |
使用DSSIM loss函数 | 掌握深度学习专业知识, 要GPU | 大量人脸照片 | 1对1 |
DeepFake-tf[ |
同Dfakeer项目, 使用tensorflow实现 | 掌握深度学习专业知识, 要GPU | 大量人脸照片 | 1对1 |
Faceswap-Deepfake-Pytorch[ |
原理同Faceswap项目, 使用Pytorch实现 | 掌握深度学习专业知识, 要GPU | 大量人脸照片 | 1对1 |
Zao[ |
提供指定的影视模板换脸, 只需要一张目标人脸即可换脸 | 无门槛, 不需要GPU | 1张人脸照片 | 1对多 |
FakeAPP[ |
Windows上安装的软件, 原理同Faceswap | 无门槛, 需要GPU | 大量人脸照片 | 1对1 |
Faceapp[ |
人脸编辑器, 可以换脸, 换表情, 编辑人脸属性 | 无门槛, 不需要GPU | 1张人脸照片 | 1对多 |
语音伪造 | 功能及特点 | 使用者要求, GPU | 素材 | 语音转换 |
Deep-voicev-conversion[ |
只需要目标说话者的音波素材, 即可转换成特定目标人物的声音 | 掌握深度学习专业知识, 要GPU | 大量声波文件 | 多对1 |
MelNet[ |
基于频谱图的端到端语音生成 | 掌握深度学习专业知识, 要GPU | 大量音频文件 | 多对多 |
随着深度伪造的泛滥, 研究人员开始了针对这些伪造视频、图像和语音的研究, 逐渐有新的数据集被开源以促进此领域的研究.数据集的质量和规模对深度伪造领域的研究尤为重要, 学术界和工业界均开源了部分数据集以促进该领域的研究.本节将逐一介绍这些数据集(见
深度伪造开源数据集
Open source dataset of the Deepfake
数据集 | 篡改类型 | 描述 | 假: 真(比例) | 大小 | 获取源 |
UADFV[ |
FakeAPP | 早期视频数据, 量小 | 1:1.00 | 98视频 | Youtube |
FaceForensics(FF)[ |
Face2Face | FaceForensics++的前身, 只有一种篡改类型 | 1:1.00 | 2 008视频 | Youtube |
FaceForensics++(FF++)[ |
Deepfakes |
每一类篡改视频均被C0, C23, C40这3种参数压缩 | 1:1.00 | 5 000视频 | Youtube |
Deepfake-TIMIT[ |
faceswap-GAN | GAN版本Deepfakes换脸.有高清和低清两个版本 | 1:0.5 | 640视频, 高清和低清视频各320个 | VidTIMIT[ |
Mesonet data[ |
Unknown | 网络搜集的不同渠道的Deepfake换脸图片 | Unknown | 2W (图片) | Youtube |
Celeb-DF[ |
Deepfakes | 针对过去伪造视频的质量差、不稳定等缺点进行改进, 效果更好 | 1:0.51 | 1 203视频 | Youtube |
Deepfake-Detection[ |
Deepfakes | 363个不同场景下的原视频, 然后进行换脸.篡改视频均C0, C23, C40这3种参数压缩 | 1:0.12 | 363原始视频, 3 068个篡改视频 | 演员拍摄 |
DFDC previewdataset[ |
Unknown | Deepfakes竞赛的预赛数据 | 1:0.28 | 5 214视频 | 演员拍摄 |
DFDC[ |
Unknown | Deepfakes竞赛的正式全部数据 | 1:0.19 | 119 154视频 | 演员拍摄 |
DeeperForensics-1.0[ |
DeepFake |
改进的生成方式 | 5:1 | 60 000视频1 760万帧 | 演员拍摄 |
ASVspoof 2015database[ |
synthetic and converted speech | 106 speakers | 14:1 | 16 651段原始音频, 246 500段合成转换视频 | 人说话片段 |
ASVspoof 2019database[ |
synthetic and converted speech replayed speech | 107 speakers | Unknown | 训练集: 15 928原视频, 117 996合成转换视频, 测试集未知 | 人说话片段 |
● UADFV: 此数据集素材取自YouTube, 分别有49个真实视频和49个合成视频, 合成视频由FakeAPP[
● FaceForensics(FF): 早期的大规模深度伪造数据集之一, 素材来源于Youtube8M[
● FaceForensics++(FF++): 目前较大规模、种类最多的深度伪造数据集之一.素材与FaceForensics相似, 取自YouTube的1 000个视频.在筛选素材的过程中, 同样用人脸检测器进行检测, 确保连续帧含有人脸, 并手动过滤掉人脸遮挡过多的视频以确保视频质量.在这个数据集中, 作者共采用4种类型的人脸篡改来制作假视频.
其中, Deepfakes与FaceSwap属于换脸伪造, Face2Face与Neural Textures属于换表情伪造.4种类型均在1 000个原始视频上生成对应的1 000个假视频, 并对真假视频均做了H.264 codec压缩方式中的C0、C23、C40这3种压缩水平的压缩.另外, 数据集中还提供了对应人脸篡改位置的mask.然而这些篡改的质量不是很高, 人眼能明显观察出篡改痕迹, 修改的轮廓很明显; 同时, 在合成的假视频中还存在人脸闪烁现象.
● Deepfake-TIMIT: 由Faceswap-GAN方法生成, 是第一个GAN版本的Deepfakes数据集.源数据是在VidTIMIT中选取的32个人(16对相似的人)两两相互替换组成的视频, 每个人有10个动作视频, 生成的假视频有高清(128×128)和低清(64×64)两个版本, 共有640段假视频.生成质量比FaceForensics++要好, 但是视频分辨率不高, 在脸部边界处有少量痕迹.
● Mesonet data: 早期深度伪造研究数据集, 数据量较小, 由YouTube渠道搜集的网络爱好者制作的伪造视频与图像.
● Celeb-DF: 针对UADFV、FaceForensics++、Deepfake-TIMIT等数据集的一些缺陷, 如图片分辨率不高、合成的视频质量差、篡改痕迹粗糙、视频人脸闪烁感过多等缺陷, 对Deepfakes生成方法进行改进, 增大生成图像的大小, 并在训练阶段增加色调亮度、对比度等, 以减小篡改区域与周边区域的不一致性.此外, 使用更加精准的人脸关键点定位信息减轻人脸闪烁现象.数据集由从YouTube渠道下载的408个原始视频和生成的795假视频组成, 视频的平均长度是13s, 帧率是30.
● DeepfakeDetection(DFD): 为了填充深度伪造数据的多样性, 谷歌公司征集28个演员拍摄了363个原始视频, 并将这些视频截取成一个个场景不同的片段, 最后对这些片段进行相互换脸, 生成3 068个假视频.同样, 此数据集也提供了H.264 codec压缩方式中的C0, C23, C40这3种压缩水平的压缩版本.
● DFDC preview Dataset: 为了推进深度伪造领域的研究, Facebook举办了The Deepfake Detection Challenge, 在比赛前夕公开了预赛数据集, 由5 214个视频组成, 真假比例1:0.28, 原始视频均由66个演员拍摄而成, 假视频有两种篡改方式, 大量的替换在相似人脸之间进行, 如皮肤颜色、头发、眼睛等.每个视频均是15s左右的小片段.
● DFDC: The Deepfake Detection Challenge的正式数据集, 共有119 196个视频, 真假视频比例约为1:5.原始视频均由演员拍摄, 视频长度约为10s.视频分辨率跨度很大, 视频场景涵盖了多种复杂场景, 如黑人黑背景、侧脸、走动、强光、多人等.
● DeeperForensics-1.0:为了应对深度伪造研究数据量少的问题, 南洋理工大学和商汤科技推出了大规模深度伪造数据集.研究人员从26个国家收集了100名演员的面部数据, 演员在9种灯光条件下转头做各种表情, 并使用FaceForensics++中的1 000个原始视频作为目标视频, 其中, 100个演员的脸中的每一个都被交换为10个目标.他们故意以35种不同的方式扭曲每个视频, 以模拟现实情况, 从而最终数据集包含50 000个未修改的视频和10 000个修改的视频.
以上深度伪造数据集的示例如
深度伪造数据集示例
Exmaples of Deepfakes datasets
● ASVspoof 2015 database
为了应对语音合成欺骗的攻击威胁, 2015年举办了第1届自动说话人认证竞赛.该竞赛上开放了第一个大规模伪造语音数据集, 以期发现多样的防御应对策略.数据集由10种不同的语音合成和语音转换欺骗算法生成, 包含原始的和欺骗的语音数据.原始语音是由106个人(45男与61女)说话记录构成, 这些记录没有噪音影响.其中, 训练集由3 750个原始话语片段和12 625个欺骗话语片段组成, 验证集由3 497个原始话语片段和49 875个欺骗话语片段组成, 测试集由9 404个原始话语片段和184 000个欺骗话语片段组成.
● ASVspoof 2019 database
2019年, 自动说话人认证竞赛包含了所有语音欺骗类型的攻击, 如语音合成、语音转换、语音重放等.将攻击分类为两种场景: 第1种场景是逻辑访问, 即直接将欺骗攻击的语音注入到自动说话人认证系统, 这些语音由最新的语音合成和语音转换技术生成; 另一种是物理访问场景, 语音数据由麦克风等设备捕捉到, 再经一些专业设备重放.这些语音数据由107个人(46男与61女)说话组成, 其中, 训练集、验证集、和测试集分别由20, 10, 48个人的语音数据构成.测试集中的攻击类型与训练验证集中均不相同.
随着深度伪造技术的发展, 互联网上充斥着大量包含伪造人脸和语音的虚假视频, Deepfakes类技术的滥用带来巨大的负面影响, 如损坏他人名誉、伪造证据、传播谣言, 影响政客形象干涉选举等.这也吸引了一批研究者对深度伪造检测技术的重视.本节将综述现有的一些代表性检测工作, 其中, 前5小节重点介绍研究较多的深度伪造视频检测, 第6小节概述伪造语音的检测工作, 并在第7小节对这些工作进行总结.
传统的图像取证初始主要是基于传统的信号处理方法, 大多数依赖于特定篡改的证据, 利用图像的频域特征和统计特征进行区分, 如局部噪音分析、图像质量评估、设备指纹、光照等, 解决复制-移动[
尽管基于取证的技术很成熟, 但是在应对新的深度伪造视频时仍存在很多短板, 因为此类伪造视频通常会被不同的后处理, 如不同的压缩方式、不同的压缩率、不同的放缩合成.针对图片级的取证技术更多关注局部的异常特征, 仍然应对乏力, 很容易被绕过, 并不能直接应用到日益升级的深度伪造视频检测上.
生成的伪造视频往往忽略人的真实生理特征, 无法做到在整体上与真人一致, 因此, 基于生理信号的特征不断被研究者挖掘.Yang等人[
基于生理信号特征的检测方法大部分利用深度伪造技术的局限性, 但是随着生成技术的改进, 如眨眼数据、头部转动、眼球转动等的加入, 使得此类方法失效.此外基于脉搏、心率等生物信号的方法会因为伪造视频的压缩等处理而准确度大大降低.
深度伪造图像受限于早期深度网络的生成技术, 在生成的人脸在细节上存在很多不足.因此, 有研究者对此展开了探索.Li等人[
(1) 全局不一致性: 新的人脸的生成, 图像的数据点插值是随机的, 并不是很有意义, 这会导致的全局眼睛的左、右颜色不一致, 鼻子的左、右色彩等.
(2) 光照不一致性: 篡改区域和正常区域对光照的反射不一样, 如眼睛区域, Deepfakes生成的视频大多丢失这个眼睛反射细节.
(3) 几何位置不一致: 细节位置缺失, 如牙齿, 只有一些白色斑点, 这个细节没有建模.通过对这些特定区域(牙齿、眼睛等)提取的特征向量训练多层感知机进行分类.
尽管基于篡改痕迹的方法在一些数据集上表现良好的检测能力, 但是这些数据集大多是早期的生成器生成的, 随着生成技术的提升, 高分辨率和更多细节处理的伪造图像不断出现, 同时容易受到一些对抗措施的影响, 如加噪、压缩、放缩, 会使得这类方法的检测能力大大减弱.
由于当前的深度伪造视频大部分借助了GAN[
Wang等人[
利用神经元覆盖方法追踪假脸特征[
Using neuron coverage method to track fake face features[
此类基于GAN特征的方法会依赖GAN的结构, 使得特征分类器在已有的生成器行为上过拟合, 而无法处理未知的生成器, 泛化能力很差.研究不同GAN结构生成伪造图像的共同特点, 依然是一个研究难题.
新的伪造生成算法和数据量的规模都在不断增加, 使得研究者开始关注用基于数据驱动的方式来学习这些Deepfakes.基于数据驱动的学习方法主要分为两大类: 一类是图片级, 将视频处理成帧, 设计不同的网络结构, 对帧进行判别, 实现帧级的识别, 最终对视频的帧进行综合决策; 另一类视频级, 利用循环神经网络学习帧序列的时序特征对一个视频进行整体判断.
Afchar等人[
基于图像块的多任务伪造分类框架[
Multi-task forgery classification framework based on image patches[
基于图片级的学习方法是现有研究较多的方向之一, 借助深度学习强大的学习能力和日益大幅增长的数据集, 学习篡改图片的特点可行且高效.此类方法不仅可以判断单帧图像的真伪, 还可以利用组合策略检测视频帧, 应用范围较广, 但是也存在很多局限性, 学习到的模型大多数依赖相同的数据分布, 在面对未知篡改类型时很乏力[
Agarwal等人[
Amerini等人[
Guera等人[
整体框架如
循环神经网络和卷积神经网络学习帧序列
Frame sequences are learned by recurrent neural networks and convolutional neural networks
相似地, Sabir等人[
基于视频级的学习方法可以学习到视频的时序特征, 如前后帧的不一致、人脸区域的不稳定等一些篡改视频均会出现的缺陷, 泛化性较好; 同时, 也能检测到视频中的少量篡改.但是基于时序特征的检测依然对视频的预处理很敏感, 如视频压缩、背景光线的变化等, 也无法判断单帧的真伪.
随着合成伪造语音技术的发展, 对伪造语音的检测工作也在兴起.尤其是2019年自动说话人语音认证竞赛(ASVspoof2019)的举办, 产出了一些针对性的语音欺骗工作.初始伪造语音检测主要是传统的信号处理方法, 研究者尝试对不同低水平的频谱特征进行建模, 如Todisco等人[
伪造语音的检测从传统信号处理方法发展到深度学习方法, 在应对语音欺骗领域取得了一定的成果, 但是现有方法还是依赖特定攻击类型, 对未知类型攻击检测的泛化性提升还有很大的空间.
前述研究工作在提出的同时, 大多在开源数据集上进行了评测, 本文将主流的深度伪造检测算法在公开数据集上的检测表现总结见
代表性方法在主要测试集上的性能评估
Performance evaluation of representative methods on major test sets
研究工作 | 模型 | 特点 | 数据集 | 性能: |
Jessica等人[ |
SVM | 高通图像的隐写特征 | FF++(DF/F2F/FS/NT) |
|
Cozzolino等人[ |
CNN | 残差特征的学习 | FF++(DF/F2F/FS/NT) |
|
Afchar等人[ |
CNN | 微观特征的学习 | FF++ |
|
Rossler等人[ |
Xception | 对整帧的人脸区域学习 | FF++(DF/F2F/FS/NT) |
|
Nguyen等人[ |
CNN+胶囊网络 | 胶囊网络分类 | FF++/F2F-raw |
99.33 |
Cozzolino等人[ |
Autoencoder | 分类和分割双任务 | FF++(HQ) |
|
Nguyen等人[ |
Autoencoder | 分类和分割、重建融合 | UADFV |
|
Agarwal等人[ |
SVM | 动作单元编码 | Own (FaceSwap, HQ) | |
Guera等人[ |
CNN+RNN | 图片的时序信息 | Own | |
Sabir等人[ |
CNN+Bi-LSTM | 图片的时序信息 | FF++/LQ |
|
Zhou等人[ |
CNN+SVM | 人脸和隐写特征结合 | UADFV |
|
Li等人[ |
CNN | 学习人脸边框篡改遗留痕迹 | UADFV |
|
Matern等人[ |
Logistic |
学习篡改痕迹的细节缺失 | UADFV |
|
Yang等人[ |
SVM | 头部姿态评估 | UADFV |
|
Korshunov等人[ |
PCA+RNN |
图像质量, 声频校对 | DeepfakeTIMIT (LQ) |
|
Bayar等人[ |
- | - | FF++(DF/F2F/FS/NT) |
|
Stehouwer等人[ |
CNN+Attention | 增加注意力机制 | DFFD | |
Chen等人[ |
Deep Residual Network+ |
大边际距离损失函数 | ASVspoof2019 | |
Alejandro等人[ |
LightCNN+RNN | 混合光卷积和门递归单元 | ASVspoof2015 |
|
Li等人[ |
Butterfly Unit |
多特征融合多任务学习 | ASVspoof2019 | |
Zeinali等人[ |
Light CNN |
多网络融合 | ASVspoof2019 |
此外, 如前文所述, 深度伪造视频检测归纳为5大类的检测算法适用于不同的场景, 也在不断的推进发展中, 但是都存在一定的局限性, 各有优劣, 总结见
各类检测方法优劣总结
Advantages and disadvantages of various detection methods are summarized
方法 | 特点 | 缺陷 |
基于图像取证的方法 | 技术成熟, 特征可解释 | 主要面向图像, 压缩等预处理会加大提取难度 |
基于生理信号的方法 | 捕获特定的生理特征, 关注图像的局部信息 | 在压缩的视频里特征提取误差大一些特征在新技术中被隐藏.准确度不高 |
基于图像篡改痕迹的方法 | 学习局部信息, 针对粗糙的Deepfakes有效 | 通用性不强, 精准度不高 |
基于GAN图像特征的方法 | 聚焦GAN指纹信息 | 数据依赖性强, 依赖生成算法, 通用性不好 |
基于数据驱动的方法 | 数据量大、可学习信息多, 准确度高 | 依赖同分布数据集, 未知类型以及压缩对性能影响大 |
基于深度伪造生成的人脸能够修改人的身份属性, 还可以操控人脸做不同的表情, 这使得依赖人脸识别的应用存在着重大威胁.而针对人脸识别的对抗性攻击一直层出不穷.Goswami等人[
深度伪造检测算法大部分均采用了神经网络技术, 而神经网络本身存在着对抗样本攻击[
深度伪造技术的发展给社会带来了巨大的负面影响, 从社会国家领导人到普通的互联网公民, 都有被此类技术侵害的可能性[
(1) 舆论负面影响: 如色情电影的制作、政治家的谣言传播, 会严重损害个人名誉.
(2) 对人脸认证的影响: 目前大多依赖活体检测来识别视频攻击, 如果在没有活体检测的应用场景以及活体功能失效的场景, 如端劫持, 对换脸的人与本人的识别面临挑战.
(3) 对视频人脸识别系统的影响: 通过追踪视频人脸并识别的技术面对挑战, 换脸的视频与真人的视频分辨不出来.
(4) 影响司法体系: 由于缺乏完全可靠的鉴别深度伪造数据的能力, 法院需要重新审视图片或者视频证据的效力.
(5) 影响经济活动: 名人的假视频能让股市瞬间暴跌.
而这些风险后面还隐藏着国家治安稳定、伦理道德、经济发展、信任危机等更深层次的社会问题, 亟需研究更有效的应对措施.
从深度伪造技术诞生至今, 有不少的研究工作展开对伪造图像或视频进行检测, 但是依然没有完美的解决方案[
(1) 压缩方式的不同、压缩率的不同: 视频不同于图片, 在上传到网站时会做不同的压缩方式处理; 同样, 视频在线下制作时也可以做不同的后处理裁剪压缩, 这会使得很多篡改特征模糊甚至消失.制作者甚至可以对视频中的部分帧进行压缩处理, 人为地增加检测难度.此外, 不同的压缩方式和压缩率下的数据分布也有很大不同, 这也意味着基于学习的方法会很容易在已有的训练集上过拟合.现有的检测方法还无法有效地检测未知压缩的视频, 大多是在训练集中扩充压缩的数据, 增加模型的决策边界以此来应对压缩[
(2) 视频分辨率的不同: 互联网上的视频质量和大小各异, 不同的视频有着不同的分辨率, 人脸大小跨度从几百像素到百万像素级别.如果统一放缩到指定大小处理, 会丧失部分特征, 在一定程度上影响着检测器的特征提取, 这就需要检测算法从根本上考虑不同尺度特征的融合.
(3) 篡改算法未知: 生成算法层出不穷, 不同的生成算法篡改的侧重点不同, 所具有的特征也不尽相同.基于学习的方法虽然能快速捕捉到训练集中的人脸篡改特征, 但是大多是拟合已有的生成器特征, 对未知的篡改类型不鲁棒.现有的应对方法大多是将新的生成算法数据集加入到训练集[
(4) 一些复杂的对抗场景: 真实网络世界中的视频远远比公开数据集的复杂度要高的多, 而且存在较强的对抗性.一些在实验数据上表现很好的模型, 在面对真实网络伪造数据集时可能束手无策.如多人脸的视频如何无误地检测、针对只有部分帧部分区域篡改的视频如何区分、视频里过强或过暗的光线对人脸检测的影响如何评估等, 人脸生成伪造者在制作的同时也会考虑加入这些对抗性场景, 以此来降低检测效果, 这些复杂场景对伪造检测算法带来巨大的挑战.
虽然针对伪造图像或语音的检测已经取得了一部分研究成果, 但目前该领域的研究依然存在诸多关键问题尚待解决.同时, 一些新的生成技术的发展成熟, 会让此类深度伪造的鉴别工作越来越困难.针对以上的难点和问题, 我们可以考虑从多角度多层次来探索深度伪造检测未来可行的方向.
(1) 研究泛化性好的检测算法: 已有的检测方法容易依赖特定的数据集和生成算法, 泛化能力很弱.这往往是由于训练数据的单一同分布所致.仅仅粗暴地对数据直接学习并不能满足多样的伪造类型, 需要探索尽可能多的深度伪造类型, 寻找其中的共性特征, 如生成器的指纹[
(2) 研究鲁棒性强的检测算法: 论文中展现的检测算法大多在单一的场景下测试, 而现实世界中常常面对压缩、噪音等复杂情况, 使得检测算法不鲁棒.可以在训练阶段和测试阶段对数据进行压缩、放缩等预处理, 探索不同预处理对检测算法鲁棒性的影响.同时, 还可以将对抗样本技术应用到检测模型的鲁棒性提升上, 探索检测模型在对抗样本攻击下的缺陷, 进而可以利用对抗环境下生产的对抗样本对模型进行对抗训练以增加模型的鲁棒性.此外, 已有的数据集大多数都为单人脸的真伪鉴别, 检测模型缺乏应对视频中多人脸的复杂场景.如何在保证准确率的同时对视频中多人脸的篡改进行判断, 是一个具有挑战性的课题.
(3) 研究主动防御算法: 现有的检测算法总是依赖已发现的深度伪造类型, 对未知类型的伪造数据检测很被动, 这使得检测算法总是落后于生成技术.可以从两个角度进行主动防御: 第1种思路是利用对抗样本技术对上传到互联网上的媒体数据注入对抗噪音, 如注入对抗人脸检测的噪音, 使得人脸检测技术在预处理人脸数据时检测错位或失败, 从而使得依赖人脸检测技术的深度伪造换脸技术不再精准, 导致换脸异常或失败; 第2种思路是控制视频传播的源头, 对互联网上的视频进行溯源, 研究视频网站上的视频追踪技术, 如Hasan等人[
(4) 研究深度伪造图像和伪造语音的融合检测技术: 现有针对深度伪造的检测技术基本只关注了一个单一的伪造领域, 而伪造的多媒体数据通过图像和语音结合能达到更逼真的效果.因此, 对伪造数据进行图像语音多模态的检测是一个有意义的方向.如, Facebook举办的深度伪造检测竞赛[
(5) 建立研究性社区: 现有的研究资源没有得到很好地共享, 缺乏如全球研究者认可维护的研究性网站.对现有的研究数据集共享, 需要建立统一的社区, 集中现有零散的数据资源, 让研究者们能更好地利用已有的资源和成果.现有网站[
(6) 进行司法立法: 深度伪造的检测仅仅依靠技术手段可能不能完美地解决问题, 因为生成与检测是一个永恒博弈的过程, 仅依靠一门检测技术来杜绝深度伪造现象不太现实, 需要社会建立完整的法律体系, 对恶意制作或传播的互联网用户进行一定的惩戒.如美国加州[
(7) 培训新闻工作者: 法律和技术检测能一定程度增加恶意伪造传播的代价, 但是给社会带来的负面影响无法挽回, 这需要在视频传播的源头进行控制, 如一些社交媒体, 特别是主流媒体承担着大量的视频图像的传播任务, 需要对这些新闻工作者进行专业培训, 培养鉴别一些假视频的能力, 从源头减少伪造视频的传播, 降低负面影响.同时, 对本身制作视频的新闻工作者, 要明确在视频上打上是否伪造的标签, 以减少新闻媒体的误导能力.
随着深度学习技术的发展, 深度伪造技术会不断完善, 生成更加逼真难以鉴别的视频和语音数据.这对深度伪造的检测提出了巨大的挑战.尽管已存在有一些针对深度伪造检测的工作, 但是都依赖特定的数据集或者场景, 依然存在许多关键的科学问题尚待解决.为了理清现有研究的进展, 明确未来研究方向, 本文从生成技术、研究数据集、主流检测方法进行总结, 回顾了大量极具影响力的研究成果, 并对相关研究进行了科学的分类、总结和分析.同时, 本文指出了深度伪造检测领域当前面临的挑战, 探讨了未来可行的研究方向, 旨在为推动深度伪造检测领域的进一步发展和应用提供指导和参考.
https://github.com/deepfakes/faceswap]]>
https://zao-app.com/]]>
https://www.kaggle.com/c/deepfake-detection-challenge]]>
Girish N, Nandini C. A review on digital video forgery detection techniques in cyber forensics. Science, Technology and Development, 2019, 3(6): 235-239.
Nguyen TT, Nguyen CM, Nguyen DT, Nguyen DT, Nahavandi S. Deep learning for Deepfakes creation and detection. arXiv preprint arXiv: 1909.11573, 2019.
Zollhöfer M, Thies J, Garrido P, Bradley D, Beeler T, Perez P, Stamminger M, Niessner M, Theobalt C. State of the art on monocular 3D face reconstruction, tracking, and applications. Computer Graphics Forum, 2018, 37(2): 523-550.
https://github.com/MarekKowalski/FaceSwap/]]>
Dale K, Sunkavalli K, Johnson MK, Vlasic D, Matusik W, Pfister H. Video face replacement. In: Proc. of the SIGGRAPH Asia Conf. 2011. 1-10.
Garrido P, Valgaerts L, Rehmsen O, Thormae T, Perez P, Theobalt C. Automatic face reenactment. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2014. 4217-4224.
Garrido P, Valgaerts L, Sarmadi H, Steiner I, Varanasi K, Perez P, Theobalt C. VDub: Modifying face video of actors for plausible visual alignment to a dubbed audio track. Computer Graphics Forum, 2015, 34(2): 193-204.
Nirkin Y, Masi I, Tuan AT, Hassner T, Medioni G. On face segmentation, face swapping, and face perception. In: Proc. of the 13th IEEE Int'l Conf. on Automatic Face and Gesture Recognition (FG 2018). IEEE, 2018. 98-105.
Lu Z, Li Z, Cao J, He R, Sun Z. Recent progress of face image synthesis. In: Proc. of the 4th IAPR Asian Conf. on Pattern Recognition (ACPR). IEEE, 2017. 7-12.
Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courvile A, Bengio Y. Generative adversarial nets. In: Proc. of the Advances in Neural Information Processing Systems. 2014. 2672-2680.
https://github.com/shaoanlu/faceswap-GAN]]>
Korshunova I, Shi W, Dambre J, Theis L. Fast face-swap using convolutional neural networks. In: Proc. of the IEEE Int'l Conf. on Computer Vision. 2017. 3677-3685.
Nirkin Y, Keller Y, Hassner T. FSGAN: Subject agnostic face swapping and reenactment. In: Proc. of the IEEE Int'l Conf. on Computer Vision. 2019. 7184-7193.
Choi Y, Choi M, Kim M, Ha J, Kin S, Choo J. StarGAN: Unified generative adversarial networks for multi-domain image-to- image translation. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2018. 8789-8797.
Zhang H, Xu T, Li H, Zhang S, Wang X, Huang X, Netaxas D. StackGAN++: Realistic image synthesis with stacked generative adversarial networks. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018, 41(8): 1947-1962.
Karras T, Aila T, Laine S, Lehtinen J. Progressive growing of GANs for improved quality, stability, and variation. In: Proc. of the 6th Int'l Conf. on Learning Representations (ICLR). 2018.
Antipov G, Baccouche M, Dugelay JL. Face aging with conditional generative adversarial networks. In: Proc. of the IEEE Int'l Conf. on Image Processing (ICIP). IEEE, 2017. 2089-2093.
Mirza M, Osindero S. Conditional generative adversarial nets. arXiv preprint arXiv: 1411.1784, 2014.
Huang R, Zhang S, Li T, He R. Beyond face rotation: Global and local perception GAN for photorealistic and identity preserving frontal view synthesis. In: Proc. of the IEEE Int'l Conf. on Computer Vision. 2017. 2439-2448.
Thies J, Zollhöfer M, Nießner M, Valgaerts L, Stamminger M, Theobalt C. Real-time expression transfer for facial reenactment. ACM Trans. on Graphics (TOG), 2015, 34(6): Article No. 183.
Thies J, Zollhofer M, Stamminger M, Theobalt C, Niebner M. Face2face: Real-time face capture and reenactment of RGB videos. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2016. 2387-2395.
Thies J, Zollhöfer M, Theobalt C, Stamminger M, Niessner M. Headon: Real-time reenactment of human portrait videos. ACM Trans. on Graphics (TOG), 2018, 37(4): 1-13.
Kim H, Garrido P, Tewari A, Xu W, Thies J, Niessner M, Perez P, Richardt C, Zollhofer M, Theobalt C. Deep video portraits. ACM Trans. on Graphics (TOG), 2018, 37(4): 1-14.
Thies J, Zollhöfer M, Nießner M. Deferred neural rendering: Image synthesis using neural textures. ACM Trans. on Graphics (TOG), 2019, 38(4): 1-12.
Suwajanakorn S, Seitz SM, Kemelmacher-Shlizerman I. Synthesizing Obama: Learning lip sync from audio. ACM Trans. on Graphics (TOG), 2017, 36(4): 1-13.
Zakharov E, Shysheya A, Burkov E, Lempitsky V. Few-shot adversarial learning of realistic neural talking head models. In: Proc. of the IEEE Int'l Conf. on Computer Vision. 2019. 9459-9468.
Fried O, Tewari A, Zollhöfer M, Finkelstein A, Shechtman E, Goldman D, Genova K, Jin Z, Theobalt C, Agrawala M. Text-based editing of talking-head video. ACM Trans. on Graphics (TOG), 2019, 38(4): 1-14.
Averbuch-Elor H, Cohen-Or D, Kopf J, Cohen M. Bringing portraits to life. ACM Trans. on Graphics (TOG), 2017, 36(6): Article No. 196.
Lample G, Zeghidour N, Usunier N, Bordes A, Denoyer L, Ranzato M. Fader networks: Manipulating images by sliding attributes. In: Proc. of the Advances in Neural Information Processing Systems. 2017. 5967-5976.
Van Den Oord A, Dieleman S, Zen H, Simonyan K, Vinyals O, Graves A, Kalchbrenner N, Senior AW, Kavukcuoglu K. Wavenet: A generative model for raw audio. In: Proc. of the 9th Speech Synthesis Workshop. 2016.
Arik S, Chrzanowski M, Coates A, Diamos G, Kang Y, Li X, Miller J, Ng A, Raiman J, Sengupta S, Shoeybi M. Deep voice: Real-time neural text-to-speech. In: Proc. of the 34th Int'l Conf. on Machine Learning. 2017. 195-204.
Wang Y, Skerry-Ryan RJ, Stanton D, Wu Y, Weiss R, Jaitly N, Yang Z, Xiao Y, Chen Z, Bengio S, Le Q, Agiomyrgiannakis Y, Clark B, Saurous R. Tacotron: Towards end-to-end speech synthesis. In: Proc. of the Interspeech 2017, 18th Annual Conf. of the Int'l Speech Communication Association. 2017. 4006-4010.
Arik S, Diamos G, Gibiansky A, Miller J, Peng K, Ping W, Raiman J, Zhou Y. Deep voice 2: Multi-speaker neural text-to-speech. In: Proc. of the Advances in Neural Information Processing Systems. 2017. 2962-2970.
Ping W, Peng K, Gibiansky A, Arik S, Kannan A, Narang S. Deep voice 3: 2000-speaker neural text-to-speech. In: Proc. of the ICLR. 2018. 214-217.
Pascual S, Bonafonte A, Serra J. SEGAN: Speech enhancement generative adversarial network. In: Proc. of the Interspeech 2017, 18th Annual Conf. of the Int'l Speech Communication Association. 2017. 3642-3646.
Donahue C, McAuley J, Puckette M. Adversarial audio synthesis. In: Proc. of the 7th Int'l Conf. on Learning Representations (ICLR). 2019.
Li XR, Yu K. A Deepfakes detection technique based on two-stream network. Journal of Cyber Security, 2020, 5(2): 84-91(in Chinese with English abstract).
李旭嵘, 于鲲. 一种基于双流网络的Deepfakes检测技术. 信息安全学报, 2020, 5(2): 84-91.
https://www.deepfakescn.com]]>
https://www.faceapp.com/]]>
https://github.com/iperov/DeepFaceLab]]>
https://github.com/dfaker/df]]>
https://github.com/StromWine/DeepFake-tf]]>
https://github.com/Oldpan/Faceswap-Deepfake-Pytorch]]>
https://github.com/andabi/deep-voice-conversion]]>
https://sjvasquez.github.io/blog/melnet/]]>
Matern F, Riess C, Stamminger M. Exploiting visual artifacts to expose Deepfakes and face manipulations. In: Proc. of the IEEE Winter Applications of Computer Vision Workshops (WACVW). IEEE, 2019. 83-92.
Rössler A, Cozzolino D, Verdoliva L, Christian R, Justus T, Matthias N. Faceforensics: A large-scale video dataset for forgery detection in human faces. arXiv preprint arXiv: 1803.09179, 2018.
Rossler A, Cozzolino D, Verdoliva L, Riess C, Thies J, Niessner M. Faceforensics++: Learning to detect manipulated facial images. In: Proc. of the IEEE Int'l Conf. on Computer Vision. 2019. 1-11.
Korshunov P, Marcel S. Deepfakes: A new threat to face recognition? Assessment and detection. arXiv preprint arXiv: 1812.08685, 2018.
http://conradsanderson.id.au/vidtimit/]]>
Afchar D, Nozick V, Yamagishi J, Echizen I. Mesonet: A compact facial video forgery detection network. In: Proc. of the IEEE Int'l Workshop on Information Forensics and Security (WIFS). IEEE, 2018. 1-7.
Li Y, Yang X, Sun P, Qi H, Lyu S. Celeb-DF: A new dataset for Deepfake forensics. arXiv preprint arXiv: 1909.12962, 2019.
https://github.com/ondyari/FaceForensics]]>
Dolhansky B, Howes R, Pflaum B, Baram N, Ferrer C. The Deepfake detection challenge (DFDC) preview dataset. arXiv preprint arXiv: 1910.08854, 2019.
https://www.kaggle.com/c/deepfake-detection-challenge/data]]>
Jiang L, Li R, Wu W, Qian C, Loy C. DeeperForensics-1.0: A large-scale dataset for real-world face forgery detection. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2020. 2886-2895.
https://datashare.is.ed.ac.uk/handle/10283/853]]>
https://datashare.is.ed.ac.uk/handle/10283/3336]]>
Abu-El-Haija S, Kothari N, Lee J, Natsev P, Toderici G, Varadarajan B, Vijayanarasimhan S. Youtube-8m: A large-scale video classification benchmark. arXiv preprint arXiv: 1609.08675, 2016.
Amerini I, Ballan L, Caldelli R, Bimbo AD, Serra G. A sift-based forensic method for copy-move attack detection and transformation recovery. IEEE Trans. on Information Forensics and Security, 2011, 6(3): 1099-1110.
De Carvalho TJ, Riess C, Angelopoulou E, Pedrini H, Rocha A. Exposing digital image forgeries by illumination color classification. IEEE Trans. on Information Forensics and Security, 2013, 8(7): 1182-1194.
Lukáš J, Fridrich J, Goljan M. Detecting digital image forgeries using sensor pattern noise. In: Proc. of the Security, Steganography, and Watermarking of Multimedia Contents VⅢ, Vol.6072. Int'l Society for Optics and Photonics, 2006.
Chierchia G, Parrilli S, Poggi G, Verdoliva L, Sansone C. PRNU-based detection of small-size image forgeries. In: Proc. of the 17th Int'l Conf. on Digital Signal Processing (DSP). IEEE, 2011. 1-6.
Fridrich J, Kodovsky J. Rich models for steganalysis of digital images. IEEE Trans. on Information Forensics and Security, 2012, 7(3): 868-882.
Wang W, Dong J, Tan T. Exploring DCT coefficient quantization effects for local tampering detection. IEEE Trans. on Information Forensics and Security, 2014, 9(10): 1653-1666.
Nataraj L, Sarkar A, Manjunath BS. Adding gaussian noise to "denoise" JPEG for detecting image resizing. In: Proc. of the 16th IEEE Int'l Conf. on Image Processing (ICIP). IEEE, 2009. 1493-1496.
Bianchi T, De Rosa A, Piva A. Improved DCT coefficient analysis for forgery localization in JPEG images. In: Proc. of the IEEE Int'l Conf. on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2011. 2444-2447.
Pan X, Zhang X, Lyu S. Exposing image splicing with inconsistent local noise variances. In: Proc. of the IEEE Int'l Conf. on Computational Photography (ICCP). IEEE, 2012. 1-10.
Ferrara P, Bianchi T, De Rosa A, Piva A. Image forgery localization via fine-grained analysis of CFA artifacts. IEEE Trans. on Information Forensics and Security, 2012, 7(5): 1566-1577.
Cozzolino D, Verdoliva L. Noiseprint: A CNN-based camera model fingerprint. IEEE Trans. on Information Forensics and Security, 2019, 15: 144-159.
Zhou P, Han X, Morariu VI, Davis LS. Learning rich features for image manipulation detection. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2018. 1053-1061.
Rao Y, Ni J. A deep learning approach to detection of splicing and copy-move forgeries in images. In: Proc. of the IEEE Int'l Workshop on Information Forensics and Security (WIFS). IEEE, 2016. 1-6.
Liu B, Pun CM. Deep fusion network for splicing forgery localization. In: Proc. of the European Conf. on Computer Vision (ECCV). 2018. 237-251.
Huh M, Liu A, Owens A, Efros A. Fighting fake news: Image splice detection via learned self-consistency. In: Proc. of the European Conf. on Computer Vision (ECCV). 2018. 101-117.
Cun X, Pun CM. Image splicing localization via semi-global network and fully connected conditional random fields. In: Proc. of the European Conf. on Computer Vision (ECCV). 2018. 252-266.
Cozzolino D, Poggi G, Verdoliva L. Recasting residual-based local descriptors as convolutional neural networks: An application to image forgery detection. In: Proc. of the 5th ACM Workshop on Information Hiding and Multimedia Security. 2017. 159-164.
Chen C, McCloskey S, Yu J. Focus manipulation detection via photometric histogram analysis. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2018. 1674-1682.
Zhou P, Han X, Morariu VI, Davis LS. Two-stream neural networks for tampered face detection. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2017. 1831-1839.
Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2015. 1-9.
Yang X, Li Y, Lyu S. Exposing deep fakes using inconsistent head poses. In: Proc. of the IEEE Int'l Conf. on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019. 8261-8265.
Yang X, Li Y, Qi H, Lyu S. Exposing GAN-synthesized faces using landmark locations. In: Proc. of the ACM Workshop on Information Hiding and Multimedia Security. 2019. 113-118.
Li Y, Chang MC, Lyu S. In ictu oculi: Exposing AI created fake videos by detecting eye blinking. In: Proc. of the IEEE Int'l Workshop on Information Forensics and Security (WIFS). IEEE, 2018. 1-7.
Ciftci UA, Demir I. FakeCatcher: Detection of synthetic portrait videos using biological signals. arXiv preprint arXiv: 1901.02212, 2019.
Fernandes S, Raj S, Ortiz E, Vintila I, Salter M, Urosevic G, Jha S. Predicting heart rate variations of Deepfake videos using neural ODE. In: Proc. of the IEEE Int'l Conf. on Computer Vision Workshops. 2019. 1721-1729.
Li Y, Lyu S. Exposing Deepfake videos by detecting face warping artifacts. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR) Workshops, 2019. 46-52.
He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2016. 770-778.
Nataraj L, Mohammed TM, Chandrasekaran S, Flenner A, Bappy JH, Roy-Chowdhury AK, Manjunath BS. Detecting GAN generated fake images using co-occurrence matrices. Electronic Imaging, 2019, 2019(5): 532-1-532-7.
Li H, Li B, Tan S, Huang J. Identification of deep network generated images using disparities in color components. arXiv preprint arXiv: 1808.07276, 2018.
Xuan X, Peng B, Wang W, Dong J. On the generalization of GAN image forensics. In: Proc. of the Chinese Conf. on Biometric Recognition. Cham: Springer-Verlag, 2019. 134-141.
McCloskey S, Albright M. Detecting GAN-generated imagery using color cues. arXiv preprint arXiv: 1812.08247, 2018.
Marra F, Gragnaniello D, Verdoliva L, Poggi G. Do GANs leave artificial fingerprints? In: Proc. of the IEEE Conf. on Multimedia Information Processing and Retrieval (MIPR). IEEE, 2019. 506-511.
Yu N, Davis LS, Fritz M. Attributing fake images to GANs: Learning and analyzing GAN fingerprints. In: Proc. of the IEEE Int'l Conf. on Computer Vision. 2019. 7556-7566.
Wang R, Ma L, Juefei-Xu F, Xie X, Wang J, Liu Y. Fakespotter: A simple baseline for spotting ai-synthesized fake faces. In: Proc. of the 29th Int'l Joint Conf. on Artifical Intelligence (IJCAI). 2020. 3444-3451.
Chollet F. Xception: Deep learning with depthwise separable convolutions. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2017. 1251-1258.
Songsri-in K, Zafeiriou S. Complement face forensic detection and localization with faciallandmarks. arXiv preprint arXiv: 1910. 05455, 2019.
Nguyen HH, Yamagishi J, Echizen I. Capsule-forensics: Using capsule networks to detect forged images and videos. In: Proc. of the IEEE Int'l Conf. on Acoustics, Speech and Signal Processing (ICASSP 2019). IEEE, 2019. 2307-2311.
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. In: Proc. of the 3rd Int'l Conf. on Learning Representations (ICLR). 2015.
Mo H, Chen B, Luo W. Fake faces identification via convolutional neural network. In: Proc. of the 6th ACM Workshop on Information Hiding and Multimedia Security. 2018. 43-47.
Durall R, Keuper M, Pfreundt FJ, Keuper J. Unmasking DeepFakes with simple features. arXiv preprint arXiv: 1911.00686, 2019.
Ding X, Raziei Z, Larson EC, Olinick EV, Krueger PS, Hahsler M. Swapped face detection using deep learning and subjective assessment. EURASIP Journal on Information Security, 2020(2020): Article No. 6.
Cozzolino D, Thies J, Rössler A, Riess C, Niebner M, Verdoliva L. Forensictransfer: Weakly-supervised domain adaptation for forgery detection. arXiv preprint arXiv: 1812.02510, 2018.
Nguyen HH, Fang F, Yamagishi J, Echizen I. Multi-task learning for detecting and segmenting manipulated facial images and videos. arXiv preprint arXiv: 1906.06876, 2019.
Hsu CC, Lee CY, Zhuang YX. Learning to detect fake face images in the wild. In: Proc. of the Int'l Symp. on Computer, Consumer and Control (IS3C). IEEE, 2018. 388-391.
Hsu CC, Zhuang YX, Lee CY. Deep fake image detection based on pairwise learning. Applied Sciences, 2020, 10(1): Article No.370.
Dang LM, Hassan SI, Im S, Lee J, Lee S, Moon H. Deep learning based computer generated face identification using convolutional neural network. Applied Sciences, 2018, 8(12): Article No.2610.
Bayar B, Stamm MC. A deep learning approach to universal image manipulation detection using a new convolutional layer. In: Proc. of the 4th ACM Workshop on Information Hiding and Multimedia Security. 2016. 5-10.
Dang H, Liu F, Stehouwer J, Liu X, Jain A. On the detection of digital face manipulation. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2020. 5780-5789.
Rahmouni N, Nozick V, Yamagishi J, Echizen I. Distinguishing computer graphics from natural images using convolution neural networks. In: Proc. of the IEEE Workshop on Information Forensics and Security (WIFS). IEEE, 2017. 1-6.
Li X, Yu K, Ji S, Wang Y, Wu C, Xue H. Fighting against Deepfake: Patch&Pair convolutional neural networks (PPCNN). In: Proc. of the Companion Web Conf. 2020. 2020. 88-89.
Brockschmidt J, Shang J, Wu J. On the generality of facial forgery detection. In: Proc. of the IEEE 16th Int'l Conf. on Mobile Ad Hoc and Sensor Systems Workshops (MASSW). IEEE, 2019. 43-47.
Sohrawardi SJ, Chintha A, Thai B, Seng S, Hickerson A, Ptucha R, Wright M. Poster: Towards robust open-world detection of Deepfakes. In: Proc. of the ACM SIGSAC Conf. on Computer and Communications Security. 2019. 2613-2615.
Agarwal S, Farid H, Gu Y, He M, Nagano K, Li H. Protecting world leaders against deep fakes. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition Workshops. 2019. 38-45.
Amerini I, Galteri L, Caldelli R, Bimbo AD. Deepfake video detection through optical flow based CNN. In: Proc. of the IEEE Int'l Conf. on Computer Vision Workshops. 2019. 1205-1207.
Güera D, Delp EJ. Deepfake video detection using recurrent neural networks. In: Proc. of the 15th IEEE Int'l Conf. on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2018. 1-6.
Sabir E, Cheng J, Jaiswal A, AbdAlmageed W, Masi I, Natarajan P. Recurrent convolutional strategies for face manipulation detection in videos. arXiv preprint arXiv: 1905.00582, 2019.
Todisco M, Delgado H, Evans NWD. A new feature for automatic speaker verification anti-spoofing: Constant Q cepstral coefficients. In: Proc. of the Odyssey. 2016. 283-290.
Wu Z, Kinnunen T, Chng ES, Li H, Ambikairajah E. A study on spoofing attack in state-of-the-art speaker verification: The telephone speech case. In: Proc. of the Asia Pacific Signal and Information Processing Association Annual Summit and Conf. IEEE, 2012. 1-5.
Wu Z, Chng ES, Li H. Detecting converted speech and natural speech for anti-spoofing attack in speaker recognition. In: Proc. of the 13th Annual Conf. of the Int'l Speech Communication Association. 2012. 1700-1703.
Das RK, Yang J, Li H. Long range acoustic and deep features perspective on ASVspoof 2019. In: Proc. of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2019. 1018-1025.
Zeinali H, Stafylakis T, Athanasopoulou G, Rohdin J, Gkinis I, Burget L, Cernocky JH. Detecting spoofing attacks using VGG and SincNet: BUT-Omilia submission to ASVspoof 2019 challenge. In: Proc. of the 20th Annual Conf. of the Int'l Speech Communication Association. 2019. 1073-1077.
Schörkhuber C, Klapuri A. Constant-Q transform toolbox for music processing. In: Proc. of the 7th Sound and Music Computing Conf. Barcelona, 2010. 3-64.
Gomez-Alanis A, Peinado AM, Gonzalez JA, Gomez AM. A light convolutional GRU-RNN deep feature extractor for ASV spoofing detection. In: Proc. of the Interspeech 2019. 2019. 1068-1072.
Chen T, Kumar A, Nagarsheth P, Sivaraman G, Khoury E. Generalization of audio Deepfake detection. In: Proc. of the Odyssey 2020 Speaker and Language Recognition Workshop. 2020. 132-137.
Li R, Zhao M, Li Z, Li L, Hong Q. Anti-spoofing speaker verification system with multi-feature integration and multi-task learning. In: Proc. of the Interspeech. 2019. 1048-1052.
Goswami G, Ratha N, Agarwal A, Singh R, Vatsa M. Unravelling robustness of deep learning based face recognition against adversarial attacks. In: Proc. of the 32nd AAAI Conf. on Artificial Intelligence. 2018. 6829-6836.
Parkhi OM, Vedaldi A, Zisserman A. Deep face recognition. In: Proc. of the British Machine Vision Conf. (BMVC). BMVA Press, 2015. 41.1-41.12.
Baltrušaitis T, Robinson P, Morency LP. Openface: An open source facial behavior analysis toolkit. In: Proc. of the IEEE Winter Conf. on Applications of Computer Vision (WACV). IEEE, 2016. 1-10.
Li X, Ji S, Han M, Ji J, Ren Z, Liu Y, Wu C. Adversarial examples versus cloud-based detectors: A black-box empirical study. arXiv preprint arXiv: 1901.01223, 2019.
Dong Y, Su H, Wu B, Li Z, Liu W, Zhang T, Zhu J. Efficient decision-based black-box adversarial attacks on face recognition. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2019. 7714-7722.
Song Q, Wu Y, Yang L. Attacks on state-of-the-art face recognition using attentional adversarial attack generative network. arXiv preprint arXiv: 1811.12026, 2018.
Majumdar P, Agarwal A, Singh R, Vatsa M. Evading face recognition via partial tampering of faces. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition Workshops. 2019. 11-20.
Korshunov P, Marcel S. Vulnerability of face recognition to deep morphing. arXiv preprint arXiv: 1910.01933, 2019.
Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2015. 815-823.
Szegedy C, Zaremba W, Sutskever I, Bruna J. Intriguing properties of neural networks. In: Proc. of the 2nd Int'l Conf. on Leaning Representations (ICLR). 2014.
Goodfellow IJ, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. In: Proc. of the 3rd Int'l Conf. on Leaning Representations (ICLR). 2015.
Kurakin A, Goodfellow I, Bengio S. Adversarial examples in the physical world. In: Proc. of the 5th Int'l Conf. on Leaning Representations (ICLR) Workshop. 2017.
Wang SY, Wang O, Zhang R, Owens A, Efros AA. CNN-generated images are surprisingly easy to spot for now. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2020. 8692-8701.
Neves JC, Tolosana R, Vera-Rodriguez R, Vera-Rodriguez R, Lopes V, Proena H, Fierrez J. Ganprintr: Improved fakes and evaluation of the state-of-the-art in face manipulation detection. IEEE Journal of Selected Topics in Signal Processing, 2020, 14(5): 1038-1048.
Marra F, Gragnaniello D, Cozzolino D, Verdoliva L. Detection of GAN-generated fake images over social networks. In: Proc. of the IEEE Conf. on Multimedia Information Processing and Retrieval (MIPR). IEEE, 2018. 384-389.
Zhang X, Karaman S, Chang SF. Detecting and simulating artifacts in GAN fake images. In: Proc. of the IEEE Int'l Workshop on Information Forensics and Security (WIFS). 2019. 1-6.
Du M, Pentyala S, Li Y, Hu X. Towards generalizable forgery detection with locality-aware autoencoder. arXiv preprint arXiv: 1909.05999, 2019.
Huang R, Fang F, Nguyen HH, Yamagishi J, Echizen I. Security of facial forensics models against adversarial attacks. arXiv preprint arXiv: 1911.00660, 2019.
Hall HK. Deepfake videos: When seeing isn't believing. Catholic University Journal of Law and Technology, 2018, 27(1): Article No. 51.
Hasan HR, Salah K. Combating deepfake videos using blockchain and smart contracts. IEEE Access, 2019, 7: 41596-41606.
https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=201920200AB730]]>
http://www.cac.gov.cn/2019-12/20/c_1578375159509309.htm]]>
http://www.cac.gov.cn/2019-12/20/c_1578375159509309.htm]]>