石泽男(1993-), 女, 博士, CCF学生会员, 主要研究领域为计算机视觉, 医学图像分割, 多媒体取证
陈海鹏(1978-), 男, 博士, 教授, 博士生导师, CCF专业会员, 主要研究领域为机器学习与视觉推理
张冬(1989-), 男, 博士, 主要研究领域为目标检测, 语义分割, 视频对象分割, 跨场景分割
申铉京(1958-), 男, 博士, 教授, 博士生导师, 主要研究领域为医学图像分割, 多媒体取证, 光电及混合系统, 智能测量系统, 视频理解技术
卷积神经网络(convolutional neural network, CNN)在图像篡改检测任务中不断取得性能突破, 但在面向真实场景下篡改手段未知的情况时, 现有方法仍然无法有效地捕获输入图像的长远依赖关系以缓解识别偏差问题, 从而影响检测精度. 此外, 由于标注困难, 图像篡改检测任务通常缺乏精准的像素级图像标注信息. 针对以上问题, 提出一种预训练驱动的多模态边界感知视觉Transformer. 首先, 为捕获在RGB域中不可见的细微伪造痕迹, 引入图像的频域模态并将其与RGB空间域结合作为多模态嵌入形式. 其次利用ImageNet对主干网络的编码器进行训练以缓解当前训练样本不足的问题. 然后, Transformer模块被整合到该编码器的尾部, 以达到同时捕获低级空间细节信息和全局上下文的目的, 从而提升模型的整体表征能力. 最后, 为有效地缓解因伪造区域边界模糊导致的定位难问题, 构建边界感知模块, 其可以通过Scharr卷积层获得的噪声分布以更多地关注噪声信息而不是语义内容, 并利用边界残差块锐化边界信息, 从而提升模型的边界分割性能. 大量实验结果表明, 所提方法在识别精度上优于现有的图像篡改检测方法, 并对不同的篡改手段具有较好的泛化性和鲁棒性.
Convolutional neural networks (CNN) have continuously achieved performance breakthroughs in image forgery detection, but when faced with realistic scenarios where the means of tampering is unknown, the existing methods are still unable to effectively capture the long-term dependencies of the input image to alleviate the recognition bias problem, which affects the detection accuracy. In addition, due to the difficulty in labeling, image forgery detection usually lacks accurate pixel-level image labeling information. Considering the above problems, this study proposes a pre-training-driven multimodal boundary-aware vision transformer. To capture the subtle forgery traces invisible in the RGB domain, the method first introduces the frequency-domain modality of the image and combines it with the RGB spatial domain as a form of multimodal embedding. Secondly, the encoder of the backbone network is trained with ImageNet to alleviate the current problem of insufficient training samples. Then, the transformer module is integrated into the tail of this encoder to capture both low-level spatial details and global contexts, which improves the overall representation ability of the model. Finally, to effectively alleviate the problem of difficult localization caused by the blurred boundary of the forged regions, this study establishes a boundary-aware module, which can use the noise distribution obtained by the Scharr convolutional layer to pay more attention to the noise information rather than the semantic content and utilize the boundary residual block to sharpen the boundary information. In this way, the boundary segmentation performance of the model can be enhanced. The results of extensive experiments show that the proposed method outperforms existing image forgery detection methods in terms of recognition accuracy and has better generalization and robustness to different forgery methods.
视觉信号是人类感知外界信息最主要的途径之一. 近年来, 随着图像编辑和处理技术的发展, 人们借助Photoshop、FakeApp等工具可以轻松地获取、编辑图像的内容并以极低的成本生成篡改图像[
早期的图像篡改检测方法主要集中在利用传统特征来判别图像是否被篡改的问题上, 仅有少数工作关注到像素级别的图像篡改检测[
不同篡改手段制造的伪造图像及对应的篡改区域示例图
近年来, 深度学习在计算机视觉等领域引领技术进步的潮流. 在此过程中, 国内外研究学者也逐渐将深度学习技术引入到图像篡改检测领域. 其中, MFCN[
上述方法虽然在图像篡改检测任务中取得良好的检测效果, 但仍存在以下两个问题: (1)一方面, 基于SRM或注意力机制的编码-解码网络及其变体在特征提取过程中容易丢失部分全局上下文信息. 由于任何篡改行为都会在一定程度上破坏原始图像数据本身固有特征的完整性, 由此图像具有的一致性和独特性可作为自身的“固有指纹”用于鉴别伪造篡改. 因此, 对于图像篡改检测任务, 全局信息的提取是至关重要的[
针对上述问题, 本文提出一种预训练驱动的多模态边界感知视觉Transformer, 其能够精准地检测图像中伪造区域. 该模型主要包含以下4个模块: 频域模态、基于预训练的局部-全局特征增强模块、边界感知模块和渐进式语义生成模块. 本文首先基于RGB图像生成频域模态, 将多模态信息作为特征增强模块的输入, 其次利用模型预训练技术, 在不使用数据增强策略的前提下, 有效缓解图像编码器训练时样本不足的问题. 然后, 在主干网络的CNN编码器利用卷积层提取图像的高级语义特征后, 引入Transformer编码器进一步提取全局上下文信息. 最后, 将边界感知模块生成的特征图与伪造特征表示模块的输出作为输入送入渐进式语义生成模块, 逐步捕获空间和通道间的相关性, 引导网络关注目标区域, 从而提升篡改区域的检测精度. 本文的主要贡献如下.
(1) 在图像篡改检测任务中利用现有的图像分类数据集对主干编码网络进行预训练, 促进模型参数优化的同时又缓解训练数据不足的问题.
(2) 将多模态图像作为主干编码网络的输入, 并在编码器的尾部引入Transformer模块, 通过对CNN输出的高级语义特征进行再提取, 达到在空间上构建篡改图像全局上下文依赖关系的目的, 从而提升模型的表征能力.
(3) 为应对伪造区域边界模糊问题, 提出一种边界感知模块, 通过Scharr卷积层和边界残差块更多地关注图像噪声信息并捕捉篡改区域周围的边界伪影, 提升网络的边界分割性能.
(4) 实验结果表明, 本文提出的预训练驱动的多模态边界感知视觉Transformer在多个图像篡改数据集上取得的检测精度均优于基准模型和当前性能最优的方法, 并通过消融实验验证了本文方法的有效性.
与传统方法相比, 基于深度学习的图像篡改检测方法对复杂数据具有更强的表征能力, 能够通过深度网络自动地提取具有判别能力的图像篡改特征. 目前, 基于深度学习的图像篡改检测方法主要包括噪声视图、边界监督和注意力机制方法等.
基于噪声视图的方法旨在利用拼接或移除篡改引入的新元素在噪声分布方面与真实部分存在不同的这一线索捕捉图像伪造痕迹, 以检测篡改区域. 针对一幅输入图像, 首先通过预先设定的高通滤波器或约束卷积层生成噪声视图, 然后以单独的[
基于边界监督的方法旨在增加一个辅助边界分支以捕捉被篡改区域周围的伪造痕迹. 其中北京邮电大学牛少彰团队应用基于Sobel边缘检测滤波器的Mask R-CNN检测篡改区域, 使预测的篡改掩码与真实掩码拥有相似的图像梯度[
此外, 一些利用注意力模块来关注目标图像重要区域的图像篡改检测方法相继被提出, 其中, Islam等人[
除模型本身的架构之外, 成功训练出优秀的网络模型的关键因素之一是对大规模数据集的良好利用. 与图像分类任务中的数据集规模相比, 其他图像处理任务的公开数据量相对较少, 如医学图像语义分割任务中的皮肤癌病灶数据集ISIC仅有2594张图像, 图像复制-粘贴篡改数据集COVERAGE仅有100张伪造图像. 众所周知, 大规模数据集ImageNet中的图像多种多样, 且具有丰富的纹理和颜色信息. 随着深度学习在图像处理领域的广泛应用, 预训练已逐渐成为一种比较常规的策略, 如GFFD[
基于自注意力机制的架构, 尤其是Transformer[
尽管近段时间以来Transformer已经在上述视觉领域中出现并取得一定的成果, 然而在图像篡改检测方法的应用上仍未被充分开发. 因此, 受其在图像分类与分割任务中成功应用的启发, 本文提出在编码器中引入Transformer架构以提取全局上下文依赖关系, 从而形成局部-全局特征增强模块, 并作为解码器的输入进一步细化网络的检测结果.
本文提出的预训练驱动的多模态边界感知视觉Transformer主要由4个模块组成: (1)频域模态(frequency domain modality, FDM). (2)基于预训练的局部-全局特征增强模块. (3)边界感知模块(boundary awareness module, BAM). (4)渐进式语义生成模块(progressive semantic generation module, PSGM). 总体网络结构如
预训练驱动的多模态边界感知视觉Transformer网络结构图
研究表明图像频域模态有利于感知篡改图像中的伪影信息, 即便是经过压缩操作(例如JPEG压缩)后不易发现的细微操纵线索[
频域模态生成示意图
其中,
作为本文的主干编码网络, 该模块利用预训练技术, 融合经典的CNN编码器和Transformer模型, 并通过两个步骤达到特征增强的目的: (1)基于预训练的多模态图像向量化和(2)局部-全局特征增强. 在图像向量化这一重要的步骤中, 图像被转换为一维序列的嵌入形式, 以适应后续序列转换操作. 局部-全局特征增强的设计是为了有效弥补图像向量化表示时忽略的全局语义信息, 并在图像块的级别上考虑块间的依赖性.
● 基于预训练的多模态图像向量化. 为降低因创建强注释带来的高成本, 缓解训练数据不足问题, 本文提出在特征增强模块中采用大规模ImageNet数据集进行模型预训练, 通过迁移训练好的参数, 代替随机化操作进行权重初始化, 以更好地学习输入图像的语义特征.
目前, 图像序列化方法主要包括: (1) CNN编码器和(2)线性投影方法. 尽管线性投影方法在一些计算机视觉任务中取得一定成功, 但仍然存在一定缺陷, 即对图像数据量具有高度的依赖性. 为此, 我们选择通过CNN编码器进行图像序列化处理, 并将ResNet50网络作为局部-全局特征增强模块的主干网络. 其中, 给定一幅输入图像
其中,
● 局部-全局特征增强. 在图像序列化步骤中, 虽然基于ResNet50的CNN编码器输出的特征图包含丰富的局部空间信息和细节信息, 但仍缺少全局上下文信息. 考虑到伪造图像与自然图像存在的差异, 为更好地区分篡改区域与真实区域, 局部与全局等上下文信息对于目标区域的识别至关重要. 因此, 本文在主干网络ResNet50的最后一个bottleneck处引入Transformer编码器用于捕获整个伪造图像中的长远依赖关系, 以实现局部-全局特征增强的效果. 遵循现有的设计[
其中,
为了在多个尺度上分割篡改区域, 本文将经过自注意力机制后的转换特征
其中,
尽管特征增强模块较好地提取图像浅层和深层的语义信息, 但因伪造图像中篡改区域的形状不规则、尺度变化多样以及边界模糊等因素, 给伪造图像的检测带来一定挑战. 为了缓解这一问题, 受文献[
尽管Sobel算子[
Scharr卷积层和边界残差块的示意图
其中,
受文献[
其中,
SCCM示意图.
其中,
其中,
由于伪造图像中被篡改的像素通常是少数的, 因此本文选择能够在极端不平衡数据中进行有效学习的Dice损失, 以最小化
其中,
其中,
我们使用DEFACTO数据集[
(1) 预训练数据集
● DEFACTO是基于MSCOCO[
(2) 标准测试集
● NIST16是一个由564个样本组成的挑战性数据集, 涉及拼接、复制-粘贴和移除3种伪造类型. 此外, 所有图像都经过后处理, 使隐藏在数据中的篡改线索更难被发现. 且该数据集提供ground truth.
● COVERAGE专注于复制-粘贴篡改, 是一个包含100张伪造图像的小数据集. 所有图像都经过后处理以去除视觉伪造痕迹, 并提供ground truth.
● Columbia提供180幅带有边缘掩码的拼接图像, 其ground truth是由我们基于相应边缘掩码生成的.
● CASIA主要关注拼接和复制-粘贴图像, 其所选择的篡改区域小而精细, 且部分伪造图像经过滤波和模糊等后处理操作. 它分为用于训练的CASIA v2.0 (5123个样本)和用于测试的CASIA v1.0 (921个样本)两个版本. 两者都提供用于评估的二进制ground truth.
为公平的比较, 我们遵循RGB-N[
预训练与标准数据集上图像训练-测试数量的划分
数据集 | DEFACTO[ |
NIST16[ |
COVERAGE[ |
Columbia[ |
CASIA[ |
Training
|
80000 | 404 | 75
|
- | 5123 (v2.0) |
10000 | 160 | 180 | 921 (v1.0) |
本文实验由开源的PyTorch深度学习框架实现并使用单个NVIDIA GeForce RTX 3090进行训练. 考虑到服务器的配置, 我们将图片大小调整为512×512. 模型训练过程中, 采用初始学习率为0.0001的Adam来优化网络模型. 当验证集的损失未能在10个epoch内下降时, 则学习率将下降10%, 直至达到1E–8. 本文算法的骨干网络在ImageNet上进行预训练, 其所有参数共经历500个epoch的微调.
本文使用图像篡改检测任务中常用的两种评估指标来验证算法的性能, 主要包括: 像素级
本节主要在DEFACTO数据集上进行消融实验研究, 以验证本文使用的预训练策略和各个模块组件的有效性. 我们采取建立不同模块组合形式来评估相应模块对网络模型的贡献和检测能力. 具体组合形式说明如下.
● Baseline. 该Baseline模型主要包含基于图像RGB模态的ResNet50主干编码网和伪造特征表示模块, 利用顺序为
● Baseline+FDM. 该组合表示在Baseline模型的基础上, 引入图像频域模态, 与图像RGB模态共同作为主干编码网络的输入, 从多模态的角度更好地学习和捕捉图像的篡改伪影信息.
● Baseline+FDM+P. 该组合表示在Baseline
● Baseline+FDM+P+Trans. 该组合表示在Baseline+FDM+P组合的基础上加入Transformer编码器, 因此与ResNet50编码网形成局部-全局特征增强模块, 从而进一步提取空间上下文的依赖关系.
● Baseline+FDM+P+Trans+BAM. 该组合表示在Baseline+FDM+P+Trans组合的基础上增加边界感知模块, 其目的是捕捉篡改区域周围细微的边界伪影以加强篡改区域边界的特征感知能力, 使网络更关注伪造与真实区域间不确定分类区域的学习.
● Baseline+FDM+P+Trans+BAM+PSGM. 该组合为本文提出的网络结构, 将基于预训练的局部-全局特征增强模块得到的伪造特征和边界感知模块输出的特征一并送入渐进式语义生成模块, 通过空间-通道相关性模块渐进式的计算空间和通道特征映射之间的相关性, 以增强感兴趣区域的表示, 对每个层级特征的进行明确监督, 实现由粗到细的掩码预测结构.
所有模型都使用相同的设置进行训练, 结果如
DEFACTO数据集上各模块组合的消融实验对比结果
模型变体 | 模块 | AUC | |||||
FDM | Pre-trained | Transformer | BAM | PSGM | |||
Baseline | 0.956 | 0.856 | |||||
Baseline+FDM | √ | 0.965 | 0.871 | ||||
Baseline+FDM+P | √ | √ | 0.978 | 0.887 | |||
Baseline+FDM+P+Trans | √ | √ | √ | 0.987 | 0.909 | ||
Baseline+FDM+P+Trans+BAM | √ | √ | √ | √ | 0.992 | 0.932 | |
Baseline+FDM+P+Trans+BAM+PSGM | √ | √ | √ | √ | √ |
为证明本文提出的预训练驱动的多模态边界感知视觉Transformer在图像篡改检测方面的优势, 我们在4个基准图像库(NIST16[
● Pre-trained.
Pre-trained设置下AUC的定量比较
方法 | NIST16[ |
COVERAGE[ |
Columbia[ |
CASIA[ |
Mean |
ManTra-Net[ |
0.795 | 0.819 | 0.824 | 0.817 | 0.814 |
SPAN[ |
0.840 | 0.936 | 0.797 | 0.874 | |
PSCC-Net[ |
0.855 | 0.847 | 0.982 | 0.829 | 0.878 |
本文方法 | 0.866 |
● Fine-tuned. 我们进一步利用标准测试数据集中的训练数据对预训练模型进行微调, 通过不同训练数据集的交叉验证在每个测试数据集上选择最佳的微调模型.
Fine-tuned设置下与其他方法比较的定量结果
方法 | 训练设置 | NIST16[ |
COVERAGE[ |
CASIA[ |
Mean | |||||||
AUC | AUC | AUC | AUC | |||||||||
ELA[ |
unsupervised | 0.429 | 0.236 | 0.583 | 0.222 | 0.613 | 0.214 | 0.542 | 0.224 | |||
NOI1[ |
unsupervised | 0.487 | 0.285 | 0.587 | 0.269 | 0.612 | 0.263 | 0.562 | 0.272 | |||
CFA1[ |
unsupervised | 0.501 | 0.174 | 0.485 | 0.190 | 0.522 | 0.207 | 0.503 | 0.190 | |||
J-LSTM[ |
fine-tuned | 0.764 | - | 0.614 | - | - | - | 0.689 | - | |||
H-LSTM[ |
fine-tuned | 0.794 | - | 0.712 | - | - | - | 0.753 | - | |||
RGB-N[ |
fine-tuned | 0.937 | 0.722 | 0.817 | 0.437 | 0.795 | 0.408 | 0.850 | 0.522 | |||
GSR-Net[ |
fine-tuned | 0.945 | 0.736 | 0.768 | 0.489 | 0.796 | 0.574 | 0.836 | 0.600 | |||
SPAN[ |
fine-tuned | 0.961 | 0.582 | 0.937 | 0.558 | 0.838 | 0.382 | 0.912 | 0.507 | |||
PSCC-Net[ |
fine-tuned | 0.996 | 0.819 | 0.941 | 0.723 | 0.875 | 0.554 | 0.937 | 0.699 | |||
SAT[ |
fine-tuned | 0.990 | 0.878 | 0.985 | 0.843 | 0.843 | 0.592 | 0.939 | 0.771 | |||
本文方法 | fine-tuned |
(1) NIST16数据集上有无微调操作的定性实验结果
NIST16数据集上的定性可视化结果
(2) NIST16数据集上不同模块组合的定性实验结果
NIST16数据集上不同模块组合的定性可视化结果
(3) COVERAGE、CASIA和Columbia数据集上本文方法的定性实验结果
COVERAGE、CASIA和Columbia数据集上的定性可视化结果
为评估本文方法在检测任务方面的鲁棒性, 我们按照SPAN[
4种不同失真操作的鲁棒性比较
面向图像篡改检测任务, 本文提出一种预训练驱动的多模态边界感知视觉Transformer. 除原始图像RGB空间域以外, 首先引入基于离散余弦变换的图像频域信息共同作为模型主干网络的多模态输入. 其次, 利用图像分类领域中大规模的数据集ImageNet对局部-全局特征增强模块进行预训练, 从而缓解训练数据不足问题, 并在CNN编码器的bottleneck处引入Transformer模块, 从而提取全局上下文信息, 增强模型的表征能力. 然后边界感知模块通过Scharr卷积层和残差模块捕捉篡改区域周围的边界伪影, 以提升网络的边界分割性能. 最后本文将边界感知模块生成的特征图与伪造特征图作为监督信息送入渐进式语义生成模块, 利用SSCM模块更好地探索空间和通道方面的相关性, 以渐进的方式逐级生成最终的检测结果图. 实验结果表明, 本文提出的方法在不同基准数据集上的检测性能均优于目前先进的方法.
随着深度学习技术的持续发展, 真实场景中伪造手段必然越来越复杂且呈多样性, 给图像篡改检测带来更多新挑战. 同时人脸深度伪造(DeepFake)检测也是目前众多学者的研究方向之一. 展望未来, 为遏制图像篡改行为, 我们将继续在基准图像库的构建、模型泛化能力及鲁棒性的提升、深度伪造检测方面进行探索研究.
http://www.jos.org.cn/1000-9825/6140.htm]]>
http://www.jos.org.cn/1000-9825/6140.htm]]>
李晓龙, 俞能海, 张新鹏, 张卫明, 李斌, 卢伟, 王伟, 刘晓龙. 数字媒体取证技术综述. 中国图象图形学报, 2021, 26(6): 1216–1226. [doi: 10.11834/jig.210081]
Li XL, Yu NH, Zhang XP, Zhang WM, Li B, Lu W, Wang W, Liu XL. Overview of digital media forensics technology. Journal of Image and Graphics, 2021, 26(6): 1216–1226 (in Chinese with English abstract). [doi: 10.11834/jig.210081]
Verdoliva L. Media forensics and deepfakes: An overview. IEEE Journal of Selected Topics in Signal Processing, 2020, 14(5): 910–932. [doi: 10.1109/JSTSP.2020.3002101]
Bik EM, Casadevall A, Fang FC. The prevalence of inappropriate image duplication in biomedical research publications. MBio, 2016, 7(3): e00809-16. [doi: 10.1128/mBio.00809-16]
Zhuo L, Tan SQ, Li B, Huang JW. Self-Adversarial training incorporating forgery attention for image forgery localization. IEEE Transactions on Information Forensics and Security, 2022, 17: 819–834. [doi: 10.1109/TIFS.2022.3152362]
Liu YQ, Zhu XB, Zhao XF, Cao Y. Adversarial learning for constrained image splicing detection and localization based on atrous convolution. IEEE Transactions on Information Forensics and Security, 2019, 14(10): 2551–2566. [doi: 10.1109/TIFS.2019.2902826]
Zhu XS, Qian YJ, Zhao XF, Sun B, Sun Y. A deep learning approach to patch-based image inpainting forensics. Signal Processing: Image Communication, 2018, 67: 90–99. [doi: 10.1016/j.image.2018.05.015]
Salloum R, Ren YZ, Kuo CCJ. Image splicing localization using a multi-task fully convolutional network (MFCN). Journal of Visual Communication and Image Representation, 2018, 51: 201–209. [doi: 10.1016/j.jvcir.2018.01.010]
Bappy JH, Simons C, Nataraj L, Manjunath BS, Roy-Chowdhury AK. Hybrid LSTM and encoder–decoder architecture for detection of image forgeries. IEEE Transactions on Image Processing, 2019, 28(7): 3286–3300. [doi: 10.1109/TIP.2019.2895466]
Fridrich J, Kodovsky J. Rich models for steganalysis of digital images. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868–882. [doi: 10.1109/TIFS.2012.2190402]
Zhu Y, Chen CF, Yan G, Guo YC, Dong YF. AR-Net: Adaptive attention and residual refinement network for copy-move forgery detection. IEEE Transactions on Industrial Informatics, 2020, 16(10): 6714–6723. [doi: 10.1109/TII.2020.2982705]
Wang XY, Wang H, Niu SZ, Zhang JW. Detection and localization of image forgeries using improved mask regional convolutional neural network. Mathematical Biosciences and Engineering, 2019, 16(5): 4581–4593. [doi: 10.3934/mbe.2019229]
Zhou P, Chen BC, Han XT, Najibi M, Shrivastava A, Lim SN, Davis L. Generate, segment, and refine: Towards generic manipulation segmentation. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 13058–13065. [doi: 10.1609/aaai.v34i07.7007]
Chen S, Yao TP, Chen Y, Ding SH, Li JL, Ji RR. Local relation learning for face forgery detection. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(2): 1081–1088. [doi: 10.1609/aaai.v35i2.16193]
Liu XH, Liu YJ, Chen J, Liu XM. PSCC-Net: Progressive spatio-channel correlation network for image manipulation detection and localization. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(11): 7505–7517. [doi: 10.1109/TCSVT.2022.3189545].
http://www.jos.org.cn/1000-9825/6469.htm]]>
http://www.jos.org.cn/1000-9825/6469.htm]]>
Krawetz N, Solutions HF. A picture’s worth. Hacker Factor Solutions, 2007, 6(2): 1–31.
Mahdian B, Saic S. Using noise inconsistencies for blind image forensics. Image and Vision Computing, 2009, 27(10): 1497–1503. [doi: 10.1016/j.imavis.2009.02.001]
Ferrara P, Bianchi T, de Rosa A, Piva A. Image forgery localization via fine-grained analysis of CFA artifacts. IEEE Transactions on Information Forensics and Security, 2012, 7(5): 1566–1577. [doi: 10.1109/TIFS.2012.2202227]