基于跨模态自蒸馏的零样本草图检索
CSTR:
作者:
作者单位:

作者简介:

田加林(1998-), 男, 硕士生, 主要研究领域为多媒体信息检索, 机器学习;徐行(1988-), 男, 博士, 副教授, 主要研究领域为多媒体信息检索, 模式识别, 计算机视觉;沈复民(1985-), 男, 博士, 教授, 博士生导师, 主要研究领域为计算机视觉, 人工智能;申恒涛(1977-), 男, 博士, 教授, 博士生导师, CCF专业会员, 主要研究领域为多媒体, 计算机视觉, 人工智能

通讯作者:

申恒涛, E-mail: shenhengtao@hotmail.com

中图分类号:

TP391

基金项目:

国家自然科学基金(61976049, 62072080, 61632007)


Cross-modal Self-distillation for Zero-shot Sketch-based Image Retrieval
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    零样本草图检索将未见类的草图作为查询样本, 用于检索未见类的图像. 因此, 这个任务同时面临两个挑战: 草图和图像之间的模态差异以及可见类和未见类的不一致性. 过去的方法通过将草图和图像投射到一个公共空间来消除模态差异, 还通过利用语义嵌入(如词向量和词相似度)来弥合可见类和未见类的语义不一致. 提出了跨模态自蒸馏方法, 从知识蒸馏的角度研究可泛化的特征, 无需语义嵌入参与训练. 具体而言, 首先通过传统的知识蒸馏将预训练的图像识别网络的知识迁移到学生网络. 然后, 通过草图和图像的跨模态相关性, 跨模态自蒸馏将上述知识间接地迁移到草图模态的识别上, 提升草图特征的判别性和泛化性. 为了进一步提升知识在草图模态内的集成和传播, 进一步地提出草图自蒸馏. 通过为数据学习辨别性的且泛化的特征, 学生网络消除了模态差异和语义不一致性. 在3个基准数据集, 即Sketchy、TU-Berlin和QuickDraw, 进行了广泛的实验, 证明了所提跨模态自蒸馏方法与当前方法相比较的优越性.

    Abstract:

    Zero-shot sketch-based image retrieval uses sketches of unseen classes as query samples for retrieving images of those classes. This task is thus faced with two challenges: the modal gap between a sketch and the image and inconsistencies between seen and unseen classes. Previous approaches tried to eliminate the modal gap by projecting the sketch and the image into a common space and bridge the semantic inconsistencies between seen and unseen classes with semantic embeddings (e.g., word vectors and word similarity). This study proposes a cross-modal self-distillation approach to investigate generalizable features from the perspective of knowledge distillation without the involvement of semantic embeddings in training. Specifically, the knowledge of the pre-trained image recognition network is transferred to the student network through traditional knowledge distillation. Then, according to the cross-modal correlation between a sketch and the image, cross-modal self-distillation indirectly transfers the above knowledge to the recognition of the sketch modality to enhance the discriminative and generalizable features of sketch features. To further promote the integration and propagation of the knowledge within the sketch modality, this study proposes sketch self-distillation. By learning discriminative and generalizable features from the data, the student network eliminates the modal gap and semantic inconsistencies. Extensive experiments conducted on three benchmark datasets, namely Sketchy, TU-Berlin, and QuickDraw, demonstrate the superiority of the proposed cross-modal self-distillation approach to the state-of-the-art ones.

    参考文献
    相似文献
    引证文献
引用本文

田加林,徐行,沈复民,申恒涛.基于跨模态自蒸馏的零样本草图检索.软件学报,2022,33(9):3152-3164

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-06-27
  • 最后修改日期:2021-08-15
  • 录用日期:
  • 在线发布日期: 2022-02-22
  • 出版日期: 2022-09-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号