面向遥感视觉问答的尺度引导融合推理网络
赵恩源
,
宋宁,
聂婕
,
王鑫
,
郑程予
,
魏志强
软件学报 ![]() ![]() |
![]() |
随着深度学习和卫星传感器系统的不断发展, 遥感技术在许多实际应用中扮演着重要角色, 例如灾害监测、农业管理和军事安全[1,2]. 近年来, 遥感图像解读和分析的主流技术包括对象检测[3,4]、场景分类[5−9]、图像匹配[10−12]以及语义分割[13−16]. 以上任务旨在识别图像中的各种目标并提取有用信息. 然而, 以上技术无法捕捉遥感图像中目标之间的视觉关系, 包括空间关系和语义关系, 以上关系依赖于图像中隐含的高层信息. 随着遥感技术的不断发展, 为了更好地理解场景的高级语义信息并学习物体之间的关系, 一些基于语言的视觉理解工作逐渐兴起. 此类任务包括图像描述[17−19]、图像文本检索[20−22]和视觉问答[23−26]. 通过此类任务, 可以深入挖掘遥感图像中隐含的信息, 并实现更精准、更全面的遥感应用. 随着多模态深度学习和自然语言处理技术的发展, 视觉问答(visual question answering, VQA)作为一种多模态视觉理解任务, 受到研究者的广泛关注. 在VQA任务中, 系统需要基于图像的文本问题推断出答案[27]. VQA模型包括3个基本步骤[28]: 1)分别为图像和问题构建具有表达能力的表示; 2)将视觉特征和文本特征进行融合, 生成图像-文本联合表示; 3)将融合的图像-问题特征输入到多分类器中, 从答案空间中预测最佳匹配答案.
回答有关卫星图像的自然语言问题是智能系统认知能力的体现. 如Lobry等人[23]首次将VQA系统引入遥感领域. 这项先驱性工作的主要贡献是发布了两个数据集, 其中包括低分辨率和超高分辨率遥感图像及相应的问题答案对以用于各种任务, 例如存在/缺失判断、农村/城市场景分类、目标计数等. 此外, 该工作提出了一种简单的联合嵌入方法, 并探讨遥感数据中VQA任务的痛难点. 该方法没有考虑遥感图像的空间信息和图像-问题的交互作用, 仅将图像特征和问题特征简单融合成单个向量, 然后输入到全连接层以预测答案. 而后续工作都致力于图文表征的深度融合, 以挖掘多模态特征的信息价值. 例如, Bazi等人[25]提出了一种改进方案, 使用注意力机制和双线性技术增强多模态联合表征. 考虑到图像特征和语言信息之间的对齐, 受到人类学习过程的启发, Yuan等人[24]开发了一种渐进式学习方法, 从易到难地构建训练过程, 以提高模型对知识的认知. Zhang等人[26]提出一种基于哈希编码的空间多尺度视觉表示模块来处理遥感图像以丰富其空间信息, 并通过空间分层推理模块学习文本引导的内部组视觉和语义关系.
遥感图像与自然图像的视觉特征有很大的差异, 主要体现在地理空间对象的多样性和尺度差异维度. 现以RSVQA数据集[23]为例, 如图1所示, 其中图1(a)中, 文本端蓝色字体所代表的实体, 即图1(a)中框选的视觉实体, 在尺度上存在较大差异. 在图1(b)中, 许多问题都涉及实体间关系的推理, 如卫星图像中地理空间对象的数量或位置关系(相邻、右侧、蕴含), 即红色字体标注部分. 尽管既有工作在推动遥感视觉问答研究方面取得了一定的进展, 但现有方法仍然存在以下限制.
![]() |
图 1 遥感视觉问答任务示例 |
(1)尺度差异导致无效表征. 缺乏对多尺度视觉信息的有效表征, 使得模型在不同尺度下的特征提取和匹配能力不足, 难以准确推断出具有尺度差异的地理空间对象之间的空间关系. 此外, 遥感图像中前景比例远小于自然图像, 因此视觉问答模型还需要解决前景-背景不平衡问题, 并增强对小目标的识别能力.
(2)视觉空间推理能力不足. 遥感视觉问题的特点之一是卫星图像中包含了大量且分布复杂的地理空间对象, 这就对遥感VQA模型提出了更高的视觉空间推理能力的要求. 然而, 现有模型大多采用简单的注意力机制来提取与问题相关的视觉特征, 而忽略了在推理阶段对地理空间对象之间的空间和语义关系进行建模和学习. 这就导致模型难以处理涉及多个尺度、位置、方向、数量等空间信息的问题.
(3)遥感数据多模态融合效率低下. 融合不充分是视觉问答的领域问题, 即使抽取到有效特征并得到丰富的高阶信息, 但如不能将其映射到共现语义空间内, 则会影响下游的回答质量. 且遥感数据往往会受到各种环境因素如干扰、遮挡、光照变化等的影响, 导致数据质量不稳定和不一致. 为了提高模型的鲁棒性和泛化能力, 需要对不同模态的数据进行有效的融合, 以减轻数据之间的差异和冲突, 并削弱噪声减益. 然而, 现有模型大多采用简单的融合机制来整合与问题相关的视觉特征, 而忽略了对不同模态之间内在联系和相互补充性的挖掘和利用.
针对上述问题, 本文提出了一种多尺度引导的融合推理网络(multi-scale guided fusion inference network, MGFIN), 以提升RSVQA的性能. 通过抽取多尺度特征并对其关系进行统一建模后融入到RSVQA框架, 提升模型对遥感场景下多尺度特征及其高阶关系等丰富语义的理解. 具体来说, 在多尺度特征的构建过程中, 本文加入了全局和局部位置编码并通过软硬注意力机制对多尺度特征进行有效抽取, 确保空间信息的精准刻画. 在推理过程中, MGFIN构建了多尺度特征的空间关系, 有效对多尺度对象间细粒度的空间关系进行丰富表达. 在融合过程中, MGFIN把推理模块作为桥梁, 通过交叉注意力机制, 又引入对比学习损失, 文本匹配损失, 语言掩码损失等目标函数实现单模态数据流与多模态数据流的对齐和融合. 总之, MGRIN在问题文本信息的指导下学习遥感多尺度对象的高阶关系, 并收集丰富的关系感知视觉特征, 并进一步学习更强大的图像-问题联合嵌入来预测答案. 本文主要贡献如下.
(1)提出了一种多尺度引导的融合推理网络, 通过对多尺度关系的推理融合, 获得了更丰富的信息表示.
(2)建模了多尺度对象间空间关系与文本间的语义关联这两种互补的先验知识, 以文本语义为线索, 实现了模型对多尺度对象间关系的推理.
(3)构建了融合编码器, 通过在单模态编码器顶层和交叉编码器层加入推理机制, 实现多尺度视觉和文本表示在交叉模态编码器中自底向上地对齐和融合.
(4)在RSVQA-LR数据集和RSVQA-HR数据集上进行了充分的对比实验和消融实验. 实验结果表明, MGFIN与现有最好方法相比具有更出色的表现.
本文第1节回顾自然图像和遥感图像视觉问答任务相关工作并提出限制与挑战. 第2节刻画MGRIN模型细节, 展示子模块, 给出数据流与损失函数. 第3节进行实验结果分析. 第4节进行总结并讨论未来研究方向.
1 相关工作 1.1 视觉问答视觉问答(visual question answering, VQA)是一类跨学科综合性问题, 涉及计算机视觉(computer vision, CV)和自然语言处理(natural language processing, NLP)技术, 并在近年来持续发展. 目前, VQA研究主要集中在多模态联合表示[27,28]和视觉注意机制[25,26]两个方面. 早期工作[23]通常采用简单的逐元素求和/乘积或直接串联来融合多模态特征. 而现有工作则使用更复杂和富有表现力的融合策略, 如多模态紧凑双线性池化(multimodal compact bilinear pooling, MCB)[29]、多模态低秩双线性注意网络(multimodal low-rank bilinear attention network, MLB)[30]和多模态分解双线性池化(multimodal factorized bilinear pooling, MFB)[31]等, 它们利用双线性技术来学习高级别的多模态联合表示. 此外, 许多研究人员也探索了注意机制, 并将其应用于VQA模型中, 以增强智能性和可解释性. 例如, Yang等人[32]提出了多层堆叠注意力网络(stacked attention networks, SANs), 利用问题中的语义表示作为查询来定位图像中相关的视觉区域; Anderson等人[33]构建了一种结合了自下而上和自顶向下的注意机制, 以学习Faster R-CNN[34]检测到的对象级别的图像区域特征; Song等人[35]提出了立体视觉注意力(cubic visual attention, CVA), 对问题相关的视觉语义属性进行通道级别的注意选择, 从而进一步丰富图像表示. 然而, 大部分基于注意力的VQA方法关注图像中的视觉内容, 而忽略了自然语言问题中隐含的语义信息. 与此不同, 一些协同注意力网络[36]被提出来模拟问题关键词和图像关键对象之间的密集交互.
1.2 遥感域视觉问答尽管自然图像上的视觉问答(VQA)已经取得长足进步, 但在遥感场景上的该任务仍处于起步阶段. Lobry等人[23]首次将VQA系统引入遥感领域, 其主要贡献是发布了两个数据集, 包括低分辨率和高分辨率的遥感图像, 以及相应的问答对, 涵盖了各种任务, 如存在/不存在判断、乡村/城市场景分类、目标计数等. 此外, 该工作采用了一种简单的联合嵌入方法并探讨遥感数据上VQA任务的难点. 然而, 该方法没有考虑到图像的空间信息和图像-问题的交互, 仅将图像特征和问题特征简单合并为统一的图文向量, 然后输入至全连接层以预测答案. 随后, 受人类学习过程的启发, Yuan等人[24]开发了一种渐进式VQA学习方法, 按照由易到难的回答逻辑, 调节问题-答案对的难度以训练模型. 与依赖于视觉和文本信息的联合表示不同, Chappuis等人[37]提出了一种名为Prompt-RSVQA的方法, 将视觉信息翻译成单词, 然后注入到仅包含语言的模型中. 最近, Bazi等人[25]提出了一种针对遥感图像的VQA方法, 利用视觉-语言Transformer作为图像和问题的编码器, 并通过协同注意力机制建模跨模态依赖性. 值得注意的是, 提取地表覆盖变化信息一直是遥感图像理解的焦点. 最近, 引入了一项新颖而有意义的任务: 基于多时相航拍图像的变化检测视觉问答(change detection visual question answering, CDVQA)[38], 为遥感场景中的VQA任务提供了一条有价值的新研究方向. Zhang等人[26]提出了基于哈希的空间多尺度视觉表征模块来弥合遥感图像的尺度差异和空间位置敏感性造成的语义鸿沟, 并通过空间分层推理模块学习文本引导的内部组视觉和语义关系.
1.3 关系推理网络基于实体及其属性之间关系的推理能力是智能系统的关键能力. 近年来, 关系网络作为一种通用的解决方案被广泛应用于各种依赖于关系推理的任务[39−43], 特别是视觉问答任务. 具体而言, 文献[39]提出了一种简单而有效的神经网络模块——关系网络, 它可以隐式地推理实体及其关系, 并在视觉问答任务上成功地超越了人类水平. 受到关系推理的启发, Zhou等人[40]设计了时序关系网络, 它可以在多个时间尺度上进行时序关系推理, 用于活动识别任务. 文献[41]提出了一种分层条件架构, 用于视频问答任务, 它允许以阶段性的方式进行高阶关系推理. 随后, Hu等人[42]提出了一种目标检测网络, 它通过物体外观和几何特征间的特征交互来建模物体之间的关系. 文献[43]对航空影像上的语义分割性能进行了改进, 建模并强化了上下文空间关系和通道关系. 以上工作都从一种统一的视角审视, 尽皆采用了关系推理来增强特征表示. 对于遥感视觉问答任务而言, 地理空间对象之间的关系是主要问题. 因此, 在遥感视觉问答模型中获得一种增强了关系信息的视觉表示是必要的. 受此启发, 在本文中, MGFIN专注于在文本信息的指导下学习推理多尺度对象之间的高阶关系, 以获得丰富的关系感知视觉特征.
2 多尺度引导的融合推理网络针对遥感视觉问答任务, 本文提出了多尺度引导的融合推理网络(MGFIN), 通过对多尺度空间关系的建模、推理与融合, 构建知识表征增强的视觉问答模型.
2.1 MGFIN模型概述给定图像表征
˜a=argmaxa∈Afθ(a|Q,V) | (1) |
其中,
MGFIN模型同样以问题和图像两种模态的数据作为输入, 在进行多尺度推理得到多模态数据统一表征后, 输入到多层编码器网络对多模态信息深度融合, 最后输入答案空间进行预测. 其整体架构如图2所示, MGFIN分别对文本和遥感图像进行向量表征, 经多尺度空间筛选模块滤波清洗后, 再进行多尺度关系推理, 随后经过跨模态桥接融合编码器, 在多种损失函数监督下进行多模态信息的对齐融合.
![]() |
图 2 MGFIN 整体框架图 |
如图3所示, MGFIN为了进行多尺度特征提取, 采用了Swin Transformer[44]作为视觉编码器. Swin Transformer是一种基于滑动窗口自注意力机制的vision Transformer (ViT), 能够有效地捕捉图像中不同尺度的特征. 它的核心思想是将输入图像划分为若干像素块, 并在每个滑动窗口内进行局部自注意力运算, 从而建模局部依赖关系. 同时, 它还利用图像块合并操作, 将相邻的小块合并成更大的小块, 实现跨尺度特征的提取和融合. 不同尺度的图像块在特征提取上具有互补性; 较大的图像块可以更好地表达粗粒度特征, 较小的区块可以更好地细化细粒度特征. 具体来说, MGFIN通过图像块分割将图像块大小初始化为4, 并在多个尺度层次上进行特征提取. 通过图像块合并操作, 分别得到了H/8 × H/8、H/16 × H/16和H/32 × H/32分辨率的多尺度特征. 对于每个输入2D图像
![]() |
图 3 多尺度表征流程示意图 |
Vms=[E[class];p1W1p;…;pNWip]+Vpos | (2) |
其中,
在Swin Transformer中, 滑动窗口机制可以解释为一种局部到全局(local-to-global)的策略, 它通过逐步扩大感受野来捕捉图像中不同尺度和位置的信息, 有了这种移位的窗口划分机制, SW-MSA和MLP模块的输出可以写成:
ˆzl+1=SW-MSA(LN(zl))+zl | (3) |
zl+1=MLP(LN(ˆzl+1))+ˆzl+1 | (4) |
本文使用
Attention(Q,K,V)=Softmax(QKT√d+B)V | (5) |
本文选用BERTBASE作为文本编码器, 其在广泛NLP任务上具有较高性能. 首先将输入序列
T=[E[<s>];Ew1;…;EwM;E[</s>]]+Tpos | (6) |
其中,
MGFIN旨在为多尺度对象关系建模并进行推理, 以挖掘多尺度信息, 获得鲁棒且丰富的表征. 在进行推理前, 为降低计算量并充分提取多尺度特征, 本文首先建立软硬注意力结合的筛选机制, 旨在清除冗余特征. 筛选模块由软注意力部分和硬注意力部分组成. 软注意力部分负责评估不同区域特征的信息权重, 并筛选出重要区域. 硬注意力部分则根据软注意力部分得到的权重, 在重要区域中进一步选择信息. 这样做既可以减少冗余区域带来的计算量, 又可以根据输入问题对不同区域特征赋予不同权重. 本文将软注意力和硬注意力机制结合起来进行多尺度关系推理, 以实现更高效和准确地回答视觉问题.
为了实现上述目标, MGFIN首先从输入图像经过视觉编码器得到的视觉向量
α=Softmax(W2×(ReLU(W1×([Vms,T])+b))) | (7) |
其中, [·]为串联运算, 矩阵W1和W2分别代表线性层和非线性层中的权重参数, b为偏差向量, ReLU(·)和Softmax(·)分别代表ReLU和Softmax函数. 在确定权重向量α后, 计算加权区域特征
˜v=fs(Vms,K) | (8) |
其中, K是实验中的超参数, 函数
![]() |
图 4 多尺度空间筛选模块示意图 |
全局视角利用整幅图像的信息隐式地回答问题; 局部视角模拟多个目标间的关系显式地获得答案. 本文认为这两种模式从不同维度分析视觉信息, 构成了本文提出的关系推理体系结构的基础. 为了适应不同问题带来的挑战, 视觉问答需要在多尺度上进行关系推理, 以实现全面准确地回答问题. 也就是说, 问题的动态变化要求局部关系推理方案预先生成多个目标间的关系描述符, 以降低运行时间和提高反馈速度. 如何进行目标间的关系推理是视觉问答领域广泛讨论的问题, 其常见思路是通过神经网络构造函数描述关系. MGFIN提出在多尺度上生成尽可能多的关系描述符, 而不是动态地建模关系, 从而解决了目标不稳定带来的复杂性, 并隐式地增强了对不同目标间关系的推理能力. 综上所述, 本文提出的关系推理体系结构基于全局和局部关系推理方案, 并将其输出特征定义为:
Vk=fg(ˆv)+fl(˜v,T) | (9) |
其中,
{f}_{g}\left(\hat{v}\right)=\textit{ReLU}\left({W}_{g}\times\left({\sum }_{i=0}^{K} {\hat{v}}_{i}\right)+{b}_{g}\right) | (10) |
为了更好地解释局部关系推理方案的工作原理, 本文在图5中给出了第3个尺度上的关系推理示例. 在这个示例中, 模型首先通过区域注意模块提取问题相关区域, 然后将尺度指标定义为一类组合中包含问题相关区域数量. 实验发现, 在3个区域和问题特征构成一种组合时效果最佳. 此外, 本文只计算了M个区域组合(其中M是一种超参数), 而不是所有可能的组合, 从而大大节省了计算成本. 将尺度数量S 定义为用户需要确定的超参数, 所提出的总尺度为S的局部关系推理方案可表示为:
![]() |
图 5 多尺度关系推理流程示例图 |
{f}_{l}\left(\tilde{v}, {T_s}\right)={R}_{1}\left(\tilde{v}, {T_1}\right)+{R}_{2}\left(\tilde{v}, {T_2}\right)+\ldots +{R}_{s}\left(\tilde{v}, {T_s}\right) | (11) |
其中, 函数
{R}_{s}\left(\tilde{v}, {T_s}\right)=r\left({c}_{1}, {T_1}\right)+r\left({c}_{2}, {T_2}\right)+\ldots +r\left({c}_{M}, {T_s}\right) | (12) |
其中,
r\left({c}_{m}, {T_s}\right)={W}_{c, 2} \times \left(\textit{ReLU}\left({W}_{c, 1} \times \left(\left[{c}_{m}, {T_s}\right]\right)+{b}_{c, 1}\right)\right)+{b}_{{c,2}} | (13) |
其中,
针对遥感视觉问答任务, 还需要一种良好的融合机制以挖掘丰富的尺度关系表征. 本文受BridgeTower[45]模型启发, 将多尺度关系推理模块作为模态间交互的桥梁(桥接层). 具体来说, 桥接层在单模态编码器顶层和跨模态编码器各层之间建立连接. 这样可以在跨模态编码器与单模态编码器的有效自下而上的跨模态对齐和融合形式, 本文将跨模态编码器的第
{\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{V}}={\mathbf{Z}}_{\ell-1}^{\mathrm{V}} | (14) |
{\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{T}}={\mathbf{Z}}_{\ell-1}^{\mathrm{T}} | (15) |
{\mathbf{Z}}_{\ell}^{\mathrm{V}}, {\mathbf{Z}}_{\ell}^{\mathrm{T}}={\text{Encoder}}_{\ell}^{\mathrm{Z}}\left({\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{V}}, {\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{T}}\right), \ell=1 , \dots , {L}_{{\rm{Z}}} | (16) |
其中,
{\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{V}}={\text{BridgeLayer}}_{\ell}^{\mathrm{V}}\left({\mathbf{Z}}_{\ell-1}^{\mathrm{V}}, {\mathbf{T}}_{k}{\mathbf{W}}_{{\rm{T}}}+{\mathbf{T}}^{\text{type}}\right) | (17) |
{\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{T}}={\text{BridgeLayer}}_{\ell}^{\mathrm{T}}\left({\mathbf{Z}}_{\ell-1}^{\mathrm{T}}, {\mathbf{V}}_{k}{\mathbf{W}}_{{\rm{V}}}+{\mathbf{V}}^{\text{type}}\right) | (18) |
在深度学习中, 层归一化(LayerNorm)是一种常见的归一化方法, 可用于调节神经网络层内部的输出和梯度. 它可以使得每个神经元的输出都具有相同的统计特性, 从而使得神经网络的训练更加稳定. 受其启发, 本文利用提出的桥接层将单模态编码器顶层表征与跨模态编码器的每一层相连接, 从而将不同语义层次的单模态表示融入到跨模态交互中. 而第2.3.2节提出的多尺度推理桥桥接层本质上就是一种多尺度特征与文本特征间关系的一种跨模态表示, 以各种非线性层的排布, 来对尺度关系进行建模. 而各种非线性层的隐式建模实际上也符合跨模态交互融合极致交互的思想. 因此MGFIN采用多尺度关系推理桥作为跨模态编码器与单模态编码器的桥梁, 其简单的形式定义如下:
{\text{BridgeLayer}}_{\text{1st}}\text{}\left({\mathbf{V}}_{{\rm{ms}}}, \mathit{T}\right)=\text{}{f}_{g}\left(\hat{v}\right)+{f}_{l}\left(\tilde{v}, \mathit{T}\right) | (19) |
{\text{BridgeLayer}}_{\text{ot}\text{h}}\left({\mathbf{V}}_{{\rm{ms}}}, \mathit{T}\right)=\text{}\text{LayerNorm}\text{}\left({\mathbf{V}}_{{\rm{ms}}}+\mathit{T}\right) | (20) |
其中,
本文提出了一种多尺度推理融合视觉问答模型, 该模型能够有效利用多尺度推理来提高问题和答案之间的一致性和可信度. 然而, 这种机制也会增加模型结构和参数的复杂度, 降低模型训练和测试时的效率和稳定性, 并可能引入一些错误或不相关的知识或假设. 为解决以上问题, 受ALBEF[46]预训练过程启发, MGFIN采用了4个损失函数约束来保证多模态信息的语义空间一致性, 并增强图像和文本之间的语义相似度的衡量能力. 除了传统视觉问答损失函数, 本文还使用了图像文本对比学、掩码语言建模和图像文本匹配损失作用于多模态信息的表征与融合.
2.4.1 掩码语言模型损失掩码语言模型(masked language modeling, MLM)利用图像和上下文文本共同预测被掩码的词语. MGFIN以15%的概率随机地对输入词语进行掩码, 并用特殊符号<MASK> 替换被掩码的词语. 预测过程既依赖于周围的文本信息, 也依赖于被掩码的图像特征. MLM最小化交叉熵损失函数可定义为:
{\mathcal{L}}_{\mathrm{m}\mathrm{l}\mathrm{m}}={\mathbb{E}}_{\left(v, \widehat{T}\right)}\mathrm{H}\left({\mathit{y}}^{\mathrm{m}\mathrm{s}\mathrm{k}}, {\mathit{p}}^{\mathrm{m}\mathrm{s}\mathrm{k}}\left({\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{V}}, \widehat{{\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{T}}}\right)\right) | (21) |
其中,
图文匹配(image-text matching, ITM)预测一对图像和文本是否为正例(匹配)或负例(不匹配). MGFIN使用多模态编码器的[CLS]词语的输出嵌入作为图文对的联合表示, 并在其后添加一层全连接层和Softmax层, 来预测两类概率
{\mathcal{L}}_{\mathrm{i}\mathrm{t}\mathrm{m}}={\mathbb{E}}_{\left(v, T\right)}\mathrm{H}\left({\mathit{y}}^{\mathrm{i}\mathrm{t}\mathrm{m}}, {\mathit{p}}^{\mathrm{i}\mathrm{t}\mathrm{m}}\left({\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{V}}, {\tilde{\mathbf{Z}}}_{\ell}^{\mathrm{T}}\right)\right) | (22) |
其中,
图文对比学习(image-text contrastive learning, ITC)旨在在融合之前学习更好的单模态表示. 它通过学习一种相似度函数, 使得成对图像和文字之间有更高的相似度分数. 其中,
{\mathcal{L}}_{\mathrm{i}\mathrm{t}\mathrm{c}}=\frac{1}{2}{\mathbb{E}}_{\left(v, T\right)}\left[\mathrm{H}\left({\mathit{y}}^{\mathrm{v}2\mathrm{t}}\left({\mathbf{Z}}_{0}^{\mathrm{V}}\right), {\mathit{p}}^{\mathrm{v}2\mathrm{t}}\left({\mathbf{Z}}_{0}^{\mathrm{V}}\right)\right)+\mathrm{H}\left({\mathit{y}}^{\mathrm{t}2\mathrm{v}}\left({\mathbf{Z}}_{0}^{\mathrm{T}}\right), {\mathit{p}}^{\mathrm{t}2\mathrm{v}}\left({\mathbf{Z}}_{0}^{\mathrm{T}}\right)\right)\right] | (23) |
MGFIN最终的损失函数为:
\mathcal{L}={\mathcal{L}}_{{{\rm{vqa}}}}+{\mathcal{L}}_{{\rm{mlm}}}+{\mathcal{L}}_{{\rm{itm}}}+{\mathcal{L}}_{{\rm{itc}}} | (24) |
本文使用如下两种遥感VQA数据集来评估MGFIN模型的性能.
RSVQA-LR是最早提出的低光谱分辨率遥感视觉问答数据集. LR数据集包含772张256×256大小的图像, 来自分辨率为10 m的Sentinel-2卫星图像. 该数据集包含77232个自然语言问题和相应的多选答案. 此数据集中分为4类问题, 即城市/农村、计数、存在和比较. 此外, 77.8%、11.1%、11.1%的图像及其相关问题-答案对分别用于训练、验证和测试.
RSVQA-HR是另一种最早的高光谱分辨率遥感视觉问答数据集, 采集自分辨率为15 cm的USGS航空RGB图像, 包括10659张512×512大小的图像和1066316个问题-答案对. 对于HR数据集, 问题-答案样本分为4种类型: 面积、计数、存在和比较. 此外, 61.5%、11.2%、20.5%、6.8%的图像样本及其相应的问题-答案对分别被分成训练集、验证集、测试集1和测试集2. 其中测试集1覆盖了与训练集和验证集相似的区域, 而测试集2覆盖了其他区域的遥感信息, 且该区域在训练过程不可见.
3.2 参数设置在视觉表征阶段, MGFIN使用Swin Transformer提取多尺度视觉特征. 关于图像的输入大小, 本文采用原始图像大小, 即RSVQA数据集包含256×256的LR数据集和512×512的HR数据集. 尺度种类设置为2, 关系类型设置为1, 融合编码曾是设置为2. 在语言表征阶段, MGFIN采用BERTbase作为文本编码器, 每个问题嵌入到512维向量中. 在训练阶段, 采用Adam优化器, 基础学习率分别为1×10−4 (RSVQA-LR数据集)和1×10−5 (HR数据集). 训练和推理的批量大小在RSVQA-LR上设置为70, 在RSVQA-HR数据集上设置为16. 为了防止过拟合, 每个线性变换后都实现了0.5的dropout. 分别在50个epochs (LR数据集)、30个epochs (HR数据集)后终止实验, 所有实验都是在一台配备GeForce RTX 3090显卡的服务器上运行. 为了全面评估VQA模型, 评估指标包括平均准确率(average accuracy)、总体准确率(overall accuracy)和每种问题类型的准确率. 为了与以前的工作保持一致并显示系统偏差, 本文对比实验指标面向准确率的均值与标准差, 以体现实验结果指标的统计显著性, 继而忽略实验随机性扰动, 以明确模型效果.
3.3 对比实验结果及分析在本节中, 本文将提出的MGFIN与当前列出的4种遥感VQA方法进行比较, 具体如下所示. 在RSVQA-LR、RSVQA-HR数据集上进行比较研究.
• RSVQA[23]: 一种基本方法, 简单地提取并组合视觉特征和问题特征以进行答案预测.
• EasyToHard[24]: 一种渐进式学习方法, 按照从易到难的顺序训练模型, 是一种契合模型感知与收敛的训练过程.
• Bi-modal[25]: 一种基于视觉语言Transformer的方法, 通过自我注意和协同注意机制对内部依赖性和跨模态依赖性进行建模.
• SHRNet[26]: 一种空间层次推理网络模型, 采用哈希空间位置编码和注意力机制引导推理来增强图像文本联合特征表示.
表1比较了以上模型在RSVQA-LR数据集上的性能. 展示了总体准确率、平均准确率和每种问题类型的准确率. 从比较结果来看, MGFIN明显优于其他变体模型. 模型MGFIN实现了最佳的平均准确率87.80%, 分别比新的可用方SHRNet和原始基线RSVQA提高了0.53%和7.74%. 对于不同的问题类别, MGFIN在存在、比较和农村/城市上也表现最佳. 特别是对于农村/城市问题类型, MGFIN模型相对于现有最佳模型实现了3.19%的准确率提高. 虽然本文的方法在计数和总体准确率类别上略逊于SHRNet方法, 但两种类型的准确率差距都不大. 由于MGFIN模型是针对空间多尺度的推理模型. 模型相对其他工作参数更多, 架构更复杂. 在小规模低分辨率数据集下, 对于多尺度特征的提取会受到分辨率的自然限制, 使得MGFIN抽取的多尺度特征不够鲁棒. 而在大规模高分数据集下, MGFIN模型对多尺度特征的抽取, 对高阶特征推理融合的信息表征与挖掘优势才会有所体现.
![]() |
表 1 RSVQA-LR数据集上与现有先进方法的对比结果 (%) |
表2和表3分别展示了RSVQA-HR数据集的两个测试集的比较结果. 在测试集1上, MGFIN的总体准确率优于基线方法RSVQA 2.68%, 并实现了最高的平均准确率85.15%. MGFIN在计数和存在类别上略逊于SHRNet方法, 但两种类型的准确率差距都不大. 在测试集2上, MGFIN的总体准确率优于基线方法RSVQA 4.15%, 平均准确率优于基线方法RSVQA 4.22%. 然而MGFIN在计数和农村/城市类别上略逊于SHRNet方法, 但差距不大. 结合两表不难看出, 测试集2的总体性能不如测试集1的性能. 可能的原因是测试集2涵盖的区域与训练和验证集相对不同, 但在测试集2的性能也展示出MGFIN不俗的泛化性.
![]() |
表 2 RSVQA-HR-Test01数据集上与现有先进方法的对比结果 (%) |
![]() |
表 3 RSVQA-HR-Test02数据集上与现有先进方法的对比结果 (%) |
总之, 与其他方法相比, 所提出的模型MGFIN在以上3个数据集上都获得了最佳实验结果, 这证明了本文的模型在遥感VQA任务中的竞争优势. 从某种意义上说, 既有方法, 包括原始模型RSVQA、改进版本Bi-Modal和最新的SHRNet, 都与本文模型相关. 只因先前的方法和本文的方法都采用了类似的双通道结构和先进的技术, 包括CNN和RNN抑或多模态预训练模型CLIP来表征图像和文本. 然而, 此类的方法受到了视觉表示不足的限制, 并忽略了卫星图像中地理空间对象之间固有的细粒度视觉关系. 我们的模型带来显著改进的关键原因是MGFIN灵活地捕捉了多尺度对象特征之间的高阶关系, 并在语言线索的指导下进行空间分层推理. 另一方面, 虽然方法Bi-modal采用了先进的基于Transformer的编码器-解码器结构, 但可能不适合直接采用CLIP模型对遥感数据上的视觉和文本表示进行编码. 因为CLIP模型是在大规模自然图像-文本对通过预训练构建, 这与遥感图像-文本对存在明显的领域漂移. 也许正是由于这个原因, 本文提出的方法MGFIN比先进的基于Transformer的方法Bi-modal实现了更令人印象深刻的性能. 此外SHRNet通过哈希编码的方式引入空间信息, 可以很好地保留空间位置信息, 但其推理阶段还是采取了文本引导的注意力机制来得到融合表征, 最终得到的知识相对与MGFIN的关系建模稍显匮乏, 且缺乏多模态推理过程中的深度融合与各种模态知识的互相监督来为下游任务保驾护航.
3.4 消融实验结果及分析本文的完整VQA模型的架构由多个基本模块组成, 也有重要的超参数需要讨论和验证.
3.4.1 模块消融实验在本节中, 本文首先使用以下MGFIN的变体实施多个消融实验, 以验证每个组件对整体预测性能的贡献.
• MGFIN w/o尺度: 该变体在视觉编码阶段删除多尺度表示模块, 使模型能够在属于单一尺度的对象外观特征之间执行关系推理.
• MGFIN w/o位置编码: 该变体删除了空间位置嵌入, 这有助于保留视觉特征中的空间信息. 模型仅使用视觉外观特征在不同尺度上进行空间分层推理.
• MGFIN w/o空间筛选: 该变体删除了多尺度空间筛选模块, 由于多尺度特征没有经过过滤, 将有助于保留视觉特征中的语义信息, 语义特征较过滤后更加完备, 但会保留冗余语义信息.
• MGFIN w/o空间推理: 该变体删除了空间分层推理模块. 模型直接执行多模态特征融合, 而不考虑推理视觉空间关系.
• MGFIN w/o桥融合: 该变体删除了Bridge交互模块, 该模块有助于增强视觉文本联合嵌入. 模型直接将视觉特征与问题特征组合以进行最终答案推理.
• MGFIN w/o对齐监督: 该变体删除了对比学习、图文匹配和掩码语言模型这3个监督损失函数, 只保留视觉问答损失函数.
表4显示了RSVQA-LR数据集上6个变体的消融比较.
![]() |
表 4 RSVQA-LR数据集上的模块消融实验 (%) |
显然, 全模型MGFIN优于其他变体并取得了显著的改进. 与MGFIN w/o多尺度和MGFIN w/o位置编码相比, 全模型MGFIN具有更高的性能, 这表明多尺度视觉表示和特别设计的空间位置编码都是有效的. 此外, MGFIN w/o MS的整体准确率下降更为显著, 这表明提取多尺度特征对于表示高分辨率图像具有更大的影响. 此外, 全模型MGFIN在MGFIN w/o空间推理、桥融合、对齐监督上实现了约1%–2%的改进, 证明采用以上3种模块对增强问题-图像联合嵌入也是有帮助的. 但在计数任务中, 位置编码与空间推理和空间筛选却起到负效果, 其共性在于增加模型对空间的感知, 增加模型复杂度, 间接证明计数任务对于模型复杂度和信息冗余度的敏感性. 且通过实验可证, 模型在缺少多尺度特征、空间位置编码、空间筛选的基础上缺乏对于空间信息的精准刻画, 在除计数的各项指标均逊于完整模型. 图6显示了RSVQA-HR数据集上5个变体模型对不同问题类型的准确率. 浅红色条形图反映了所提出的MGFIN的性能. 其余条形图对应于MGFIN的4个变体. 可以看出, MGFIN w/o多尺度(黄色)在所有4种问题类型上都表现最差, 这表明空间分层推理模块对遥感VQA有突出贡献. 与其余4个变体相比, 全模型MGFIN实现了最佳性能也证明了MGFIN中设计的组件的有效性.
![]() |
图 6 RSVQA-HR 数据集上5种变体模型对各类问题准确率 |
如表5所示, 本文进行了多次实验以确定超参数的值, 结合公式(11)与公式(12), 其中S与M分别指视觉特征的尺度种类数和多尺度推理中的高阶关系组合数. 除以上两组超参数, 本文还对融合编码器层数进行消融实验, 值得注意的是, 本文首先固定了最优参数, 然后改变其他参数并测试性能.
![]() |
表 5 RSVQA-LR数据集上的参数消融实验 (%) |
具体来说, 当S (尺度种类)的值过小时, 信息通过空间筛选模块的能力不足, 无法生成正确的答案. 同时, 恰当的S值有助于更好地描述更多的全局关系. 然而, 过大的S设置可能会在很大程度上削弱局部关系, 从而导致整体和单个项目性能较低. 换句话说, 大多数VQA问题都与局部关系的建模有关, 并且可以通过对局部关系的建模来回答, 而不是对全局关系的描述. 此外, 较大的T为该方法带来了更大的计算量. 因此, 本文通过参数消融把最终的S定义为2, 以获得平衡的全局尺度与局部尺度表征.
在表5中, 还可以观察到高阶关系的推理会为问答系统提供知识增益, 然而, 更多的关系建模并不会提高性能. 归因于VQA任务的固有属性, 其中RSVQA通常涉及有限数量的对象进行回答. 因此, 更大的M并不是性能更好的必要条件, 驳杂的高阶关系建模会导致模型冗余以及软关系噪声的引入. 根据实验, 对于每个尺度, 推断所有可能的信息区域组合将带来巨大的计算负担. 因此, 本文定义M = 1以在性能和计算成本之间保持平衡.
对于编码器层数来说, 当模型不采用融合机制时, 模型在多数任务的效果都不理想, 但在计数任务上却取得不错的效果. 融合编码器可以促进单模态表征与多模态表征的融合, 但过多的层数会造成模型冗余, 过多的融合机制下驳杂的高阶关系建模会导致模型冗余以及软关系噪声的引入, 从而忽略候选区域的计数表征. 导致在映射过程中映射候选图像区域和问题的关系失真. 但根据其他任务的数据, 丰富的语义确实提升最终的映射效果. 因此, 本文定义融合编码层的层数为2, 以在性能和模型参数之间保持平衡.
3.5 可视化展示MGFIN在空间层次推理融合阶段, 通过文本信息的引导注意力进一步增强了与问题相关的关系特征, 同时相应地抑制了不相关的关系特征. 为了发现包含在问题相关关系特征中并对视觉空间关系推理过程重要的图像区域, 本文通过累加分布在多个关系子集上的注意力权重并在可视化之前对其进行归一化来计算特征图上的注意力权重, 并对3个层次的注意力权重取平均值.
在图7中, 模型展示了在空间尺度推理阶段生成的注意力图的可视化.
![]() |
图 7 RSVQA-LR 数据集注意力图可视化 |
对于图7左边的示例, 问题涉及多个对象, 包括“住宅建筑”和“马路”, 需要比较它们的数量. 如注意力图所示, 网络关注所涉及的两个对象, 但具有不同程度的显著性, 然后推断出正确答案. 有趣的是, 在图7中间的示例中可以观察到类似的模式, 其中一类所涉及的对象“住宅建筑”用大面积突出显示, 而另一类所涉及的比较对象“水域”则用较小的权重和一小块区域集中. 此外, 对于图7右侧的查询“住宅建筑”的示例, 模型成功地突出了目标区域并过滤掉了不相关区域. 总之, 注意力图的可视化显示了文本问题和模型强调区域之间的一致性, 显著性程度显示了推断参考对象关系的证据.
4 总 结本文提出了一种新颖的多尺度引导融合推理网络(MGFIN), 为遥感视觉问答系统赋予了跨越多个尺度的视觉空间推理能力. 首先, 本文提出了一种基于空间位置和多尺度视觉表征模块, 用于编码嵌入空间位置信息的多尺度视觉特征. 其次, 通过多尺度空间层次推理模块学习文本引导下的多尺度视觉特征及其高阶语义关系, 得到丰富的语义表征. 最后, 本文通过引入多种监督信息, 结合交叉注意力机制获得融合充分的多模态表征继而推理出准确答案. 本文在两个公开可用的遥感VQA数据集上将提出的模型与既有方法进行比较, 并通过大量实验来评估MGFIN的有效性. 实验结果表明, MGFIN在遥感VQA领域取得了最新的先进性能. 但受限于遥感域匮乏的知识表征与复杂的关系涌现, 在未来的工作中, 我们将探索对象级别注释的图像-问题-答案三元组, 或知识图谱等高阶知识驱动的工作, 以抽取目标的高阶特征, 继而更高效地问答推理. 此外, 由于遥感数据的稀缺性, 标注优质数据集或微调传统多模态大模型并将知识迁移至遥感域进行推理也是值得探索的方向.
[1] |
Zador A, Escola S, Richards B, et al. Catalyzing next-generation Artificial Intelligence through NeuroAI. Nature Communications, 2023, 14(1): 1597.
[doi:10.1038/s41467-023-37180-x] |
[2] |
Cavender-Bares J, Schneider FD, Santos MJ, Armstrong A, Carnaval A, Dahlin KM, Fatoyinbo L, Hurtt GC, Schimel D, Townsend PA, Ustin SL, Wang ZH, Wilson AM. Integrating remote sensing with ecology and evolution to advance biodiversity conservation. Nature Ecology & Evolution, 2022, 6(5): 506-519.
[doi:10.1038/s41559-022-01702-5] |
[3] |
Zhang H, Li F, Liu SL, Zhang L, Su H, Zhu J, Ni LM, Shum HY. DINO: DETR with improved denoising anchor boxes for end-to-end object detection. In: Proc. of the 11th Int’l Conf. on Learning Representations. Kigali: OpenReview.net, 2023.
|
[4] |
Li MY, Cao CQ, Feng ZJ, Xu XK, Wu ZY, Ye SB, Yong JW. Remote sensing object detection based on strong feature extraction and prescreening network. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 8000505.
[doi:10.1109/LGRS.2023.3236777] |
[5] |
Li G, Li LL, Zhu H, Liu X, Jiao LC. Adaptive multiscale deep fusion residual network for remote sensing image classification. IEEE Trans. on Geoscience and Remote Sensing, 2019, 57(11): 8506-8521.
[doi:10.1109/TGRS.2019.2921342] |
[6] |
Liu X, Jiao LC, Li LL, Cheng L, Liu F, Yang SY, Hou B. Deep multiview union learning network for multisource image classification. IEEE Trans. on Cybernetics, 2022, 52(6): 4534-4546.
[doi:10.1109/TCYB.2020.3029787] |
[7] |
Liu X, Li LL, Liu F, Hou B, Yang SY, Jiao LC. GAFnet: Group attention fusion network for PAN and MS image high-resolution classification. IEEE Trans. on Cybernetics, 2022, 52(10): 10556-10569.
[doi:10.1109/TCYB.2021.3064571] |
[8] |
Cheng G, Han JW, Lu XQ. Remote sensing image scene classification: Benchmark and state of the art. Proc. of the IEEE, 2017, 105(10): 1865-1883.
[doi:10.1109/JPROC.2017.2675998] |
[9] |
Zhang F, Du B, Zhang LP. Saliency-guided unsupervised feature learning for scene classification. IEEE Trans. on Geoscience and Remote Sensing, 2015, 53(4): 2175-2184.
[doi:10.1109/TGRS.2014.2357078] |
[10] |
Zhu H, Jiao LC, Ma WP, Liu F, Zhao W. A novel neural network for remote sensing image matching. IEEE Trans. on Neural Networks and Learning Systems, 2019, 30(9): 2853-2865.
[doi:10.1109/TNNLS.2018.2888757] |
[11] |
Quan D, Wang S, Li Y, Yang BW, Huyan N, Chanussot J, Hou B, Jiao LC. Multi-relation attention network for image patch matching. IEEE Trans. on Image Processing, 2021, 30: 7127-7142.
[doi:10.1109/TIP.2021.3101414] |
[12] |
Ma WP, Wen ZL, Wu Y, Jiao LC, Gong MG, Zheng YF, Liu L. Remote sensing image registration with modified SIFT and enhanced feature matching. IEEE Geoscience and Remote Sensing Letters, 2017, 14(1): 3-7.
[doi:10.1109/LGRS.2016.2600858] |
[13] |
Ma AL, Wang JJ, Zhong YF, Zheng Z. FactSeg: Foreground activation-driven small object semantic segmentation in large-scale remote sensing imagery. IEEE Trans. on Geoscience and Remote Sensing, 2022, 60: 5606216.
[doi:10.1109/TGRS.2021.3097148] |
[14] |
Zheng CY, Nie J, Wang ZX, Song N, Wang JY, Wei ZQ. High-order semantic decoupling network for remote sensing image semantic segmentation. IEEE Trans. on Geoscience and Remote Sensing, 2023, 61: 5401415.
[doi:10.1109/TGRS.2023.3249230] |
[15] |
Xie YX, Tian JJ, Zhu XX. Linking points with labels in 3D: A review of point cloud semantic segmentation. IEEE Geoscience and Remote Sensing Magazine, 2020, 8(4): 38-59.
[doi:10.1109/MGRS.2019.2937630] |
[16] |
Li AJ, Jiao LC, Zhu H, Li LL, Liu F. Multitask semantic boundary awareness network for remote sensing image segmentation. IEEE Trans. on Geoscience and Remote Sensing, 2022, 60: 5400314.
[doi:10.1109/TGRS.2021.3050885] |
[17] |
Zhang ZY, Zhang WK, Yan ML, Gao X, Fu K, Sun X. Global visual feature and linguistic state guided attention for remote sensing image captioning. IEEE Trans. on Geoscience and Remote Sensing, 2022, 60: 5615216.
[doi:10.1109/TGRS.2021.3132095] |
[18] |
Zhao R, Shi ZW, Zou ZX. High-resolution remote sensing image captioning based on structured attention. IEEE Trans. on Geoscience and Remote Sensing, 2022, 60: 5603814.
[doi:10.1109/TGRS.2021.3070383] |
[19] |
Li YP, Zhang XR, Gu J, Li C, Wang X, Tang X, Jiao LC. Recurrent attention and semantic gate for remote sensing image captioning. IEEE Trans. on Geoscience and Remote Sensing, 2022, 60: 5608816.
[doi:10.1109/TGRS.2021.3102590] |
[20] |
Cheng QM, Zhou YZ, Fu P, Xu Y, Zhang L. A deep semantic alignment network for the cross-modal image-text retrieval in remote sensing. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 4284-4297.
[doi:10.1109/JSTARS.2021.3070872] |
[21] |
Yuan ZQ, Zhang WK, Rong XE, Li X, Chen JL, Wang HQ, Fu K, Sun X. A lightweight multi-scale crossmodal text-image retrieval method in remote sensing. IEEE Trans. on Geoscience and Remote Sensing, 2022, 60: 5612819.
[doi:10.1109/TGRS.2021.3124252] |
[22] |
Zheng G, Li XF, Zhou LZ, Yang JS, Ren L, Chen P, Zhang HG, Lou XL. Development of a gray-level co-occurrence matrix-based texture orientation estimation method and its application in sea surface wind direction retrieval from SAR imagery. IEEE Trans. on Geoscience and Remote Sensing, 2018, 56(9): 5244-5260.
[doi:10.1109/TGRS.2018.2812778] |
[23] |
Lobry S, Marcos D, Murray J, Tuia D. RSVQA: Visual question answering for remote sensing data. IEEE Trans. on Geoscience and Remote Sensing, 2020, 58(12): 8555-8566.
[doi:10.1109/TGRS.2020.2988782] |
[24] |
Yuan ZH, Mou LX, Wang Q, ZHU XX. From easy to hard: Learning language-guided curriculum for visual question answering on remote sensing data. IEEE Trans. on Geoscience and Remote Sensing, 2022, 60: 5623111.
[doi:10.1109/TGRS.2022.3173811] |
[25] |
Bazi Y, Al Rahhal MM, Mekhalfi ML, Al Zuair MA, Melgani F. Bi-modal Transformer-based approach for visual question answering in remote sensing imagery. IEEE Trans. on Geoscience and Remote Sensing, 2022, 60: 4708011.
[doi:10.1109/TGRS.2022.3192460] |
[26] |
Zhang ZX, Jiao LC, Li LL, Liu X, Chen PH, Liu F, Li YX, Guo ZC. A spatial hierarchical reasoning network for remote sensing visual question answering. IEEE Trans. on Geoscience and Remote Sensing, 2023, 61: 4400815.
[doi:10.1109/TGRS.2023.3237606] |
[27] |
Antol S, Agrawal A, Lu JS, Mitchell M, Batra D, Zitnick CL, Parikh D. VQA: Visual question answering. In: Proc. of the 2015 IEEE Int’l Conf. on Computer Vision. Santiago: IEEE, 2015. 2425–2433. [doi: 10.1109/ICCV.2015.279]
|
[28] |
Goyal Y, Khot T, Summers-Stay D, Batra D, Parikh D. Making the V in VQA matter: Elevating the role of image understanding in visual question answering. In: Proc. of the 2017 IEEE Conf. on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. 6325–6334. [doi: 10.1109/CVPR.2017.670]
|
[29] |
Fukui A, Park DH, Yang D, Rohrbach A, Darrell T, Rohrbach M. Multimodal compact bilinear pooling for visual question answering and visual grounding. In: Proc. of the 2016 Conf. on Empirical Methods in Natural Language Processing. Austin: Association for Computational Linguistics, 2016. 457–468. [doi: 10.18653/v1/D16-1044]
|
[30] |
Kim JH, On KW, Lim W, Jeonghee Kim, Ha JW, Zhang BT. Hadamard product for low-rank bilinear pooling. In: Proc. of the 5th Int’l Conf. on Learning Representations. Toulon: OpenReview.net, 2017.
|
[31] |
Yu Z, Yu J, Fan JP, Tao DC. Multi-modal factorized bilinear pooling with co-attention learning for visual question answering. In: Proc. of the 2017 IEEE Int’l Conf. on Computer Vision. Venice: IEEE, 2017. 1839–1848.
|
[32] |
Yang ZC, He XD, Gao JF, Deng L, Smola A. Stacked attention networks for image question answering. In: Proc. of the 2016 IEEE Conf. on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016. 21–29. [doi: 10.1109/CVPR.2016.10]
|
[33] |
Anderson P, He XD, Buehler C, Teney D, Johnson M, Gould S, Zhang L. Bottom-up and top-down attention for image captioning and visual question answering. In: Proc. of the 2018 IEEE/CVF Conf. on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 6077–6086. [doi: 10.1109/CVPR.2018.00636]
|
[34] |
Ren SQ, He KM, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[doi:10.1109/TPAMI.2016.2577031] |
[35] |
Song JK, Zeng PP, Gao LL, Shen HT. From pixels to objects: Cubic visual attention for visual question answering. In: Proc. of the 27th Int’l Joint Conf. on Artificial Intelligence. Stockholm: IJCAI.org, 2018. 906–912. [doi: 10.24963/ijcai.2018/126]
|
[36] |
Yu Z, Yu J, Cui YH, Tao DC, Tian Q. Deep modular co-attention networks for visual question answering. In: Proc. of the 2019 IEEE/CVF Conf. on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 6274–6283. [doi: 10.1109/CVPR.2019.00644]
|
[37] |
Chappuis C, Zermatten V, Lobry S, Le Saux B, Tuia D. Prompt-RSVQA: Prompting visual context to a language model for Remote Sensing Visual Question Answering. In: Proc. of the 2022 IEEE/CVF Conf. on Computer Vision and Pattern Recognition Workshops. New Orleans: IEEE, 2022. 1371–1380. [doi: 10.1109/CVPRW56347.2022.00143]
|
[38] |
Yuan ZH, Mou LC, Xiong ZT, Zhu XX. Change detection meets visual question answering. IEEE Trans. on Geoscience and Remote Sensing, 2022, 60: 5630613.
[doi:10.1109/TGRS.2022.3203314] |
[39] |
Santoro A, Raposo D, Barrett DGT, Malinowski M, Pascanu R, Battaglia P, Lillicrap T. A simple neural network module for relational reasoning. In: Proc. of the 31st Int’l Conf. on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017. 4974–4983. [doi: 10.5555/3295222.3295250]
|
[40] |
Zhou BL, Andonian A, Oliva A, Torralba A. Temporal relational reasoning in videos. In: Proc. of the 15th European Conf. on Computer Vision. Munich: Springer, 2018. 831–846. [doi: 10.1007/978-3-030-01246-5_49]
|
[41] |
Le TM, Le V, Venkatesh S, Tran T. Hierarchical conditional relation networks for video question answering. In: Proc. of the 2020 IEEE/CVF Conf. on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020. 9969–9978. [doi: 10.1109/CVPR42600.2020.00999]
|
[42] |
Hu H, Gu JY, Zhang Z, Dai JF, Wei YC. Relation networks for object detection. In: Proc. of the 2018 IEEE/CVF Conf. on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 3588–3597. [doi: 10.1109/CVPR.2018.00378]
|
[43] |
Mou LC, Hua YS, Zhu XX. A relation-augmented fully convolutional network for semantic segmentation in aerial scenes. In: Proc. of the 2019 IEEE/CVF Conf. on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 12408–12417. [doi: 10.1109/CVPR.2019. 01270]
|
[44] |
Liu Z, Hu H, Lin YT, Yao ZL, Xie ZD, Wei YX, Ning J, Cao Y, Zhang Z, Dong L, Wei FR, Guo BN. Swin Transformer V2: Scaling up capacity and resolution. In: Proc. of the 2022 IEEE/CVF Conf. on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022. 11999–12009. [doi: 10.1109/CVPR52688.2022.01170]
|
[45] |
Xu X, Wu CF, Rosenman S, Lal V, Che WX, Duan N. BridgeTower: Building bridges between encoders in vision-language representation learning. In: Proc. of the 37th AAAI Conf. on Artificial Intelligence. Washington: AAAI, 2023. 10637–10647. [doi: 10.1609/aaai.v37i9.26263]
|
[46] |
Li JM, Selvaraju RR, Gotmare AD, Joty S, Xiong CM, Hoi SCH. Align before fuse: Vision and language representation learning with momentum distillation. In: Proc. of the 35th Conf. on Neural Information Processing Systems. NeurIPS, 2021. 9694–9705.
|