摘要:图像级标注下的弱监督语义分割方法通常采用卷积神经网络(CNN)生成类激活图以精确定位目标位置, 其面临的主要挑战在于CNN对全局信息感知能力的不足导致前景区域过小的问题. 近年来, 基于Transformer的弱监督语义分割方法利用自注意力机制捕捉全局依赖关系, 解决了CNN的固有缺陷. 然而, Transformer生成的初始类激活图会在目标区域周围引入大量背景噪声, 此时直接对初始类激活图进行使用并不能取得令人满意的效果. 通过综合利用Transformer生成的类与块间注意力(class-to-patch attention)以及区域块间注意力(patch-to-patch attention)对初始类激活图进行联合优化, 同时, 由于原始的类与块间注意力存在误差, 对此设计一种语义调制策略, 利用区域块间注意力的语义上下文信息对类与块间注意力进行调制, 修正其误差, 最终得到能够准确覆盖较多目标区域的类激活图. 在此基础上, 构建一种新颖的基于Transformer的弱监督语义分割模型. 所提方法在PASCAL VOC 2012验证集和测试集上mIoU值分别达到72.7%和71.9%, MS COCO 2014验证集上mIoU为42.3%, 取得了目前较为先进的弱监督语义分割结果.