摘要:文本-图像行人重识别旨在使用文本描述检索图像库中的目标行人, 该技术的主要挑战在于将图像和文本特征嵌入到共同的潜在空间中以实现跨模态对齐. 现有的许多工作尝试利用单独预训练的单峰模型来提取视觉和文本特征, 再利用切分或者注意力机制来获得显式的跨模态对齐. 然而, 这些显式对齐方法通常缺乏有效匹配多模态特征所需的底层对齐能力, 并且使用预设的跨模态对应关系来实现显式对齐可能会导致模态内信息失真. 提出了一种隐式多尺度对齐与交互的文本-图像行人重识别方法. 首先利用语义一致特征金字塔网络提取图像的多尺度特征, 并使用注意力权重融合包含全局和局部信息的不同尺度特征. 其次, 利用多元交互注意机制学习图像和文本之间的关联. 该机制可以有效地捕捉到不同视觉特征和文本信息之间的对应关系, 缩小模态间差距, 实现隐式多尺度语义对齐. 此外, 利用前景增强判别器来增强目标行人, 提取更纯洁的行人特征, 有助于缓解图像与文本之间的信息不平等. 在3个主流的文本-图像行人重识别数据集CUHK-PEDES、ICFG-PEDES及RSTPReid上的实验结果表明, 所提方法有效提升了跨模态检索性能, 比SOTA算法的Rank-1高出2%–9%.