跨域和跨模态适应学习的无监督细粒度视频分类
作者:
作者单位:

作者简介:

何相腾(1991-),男,博士,主要研究领域为细粒度图像分类,细粒度跨媒体检索,多模态内容理解.
彭宇新(1974-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为跨媒体分析与推理,图像视频识别与理解,计算机视觉,人工智能.

通讯作者:

彭宇新,E-mail:pengyuxin@pku.edu.cn

中图分类号:

TP181

基金项目:

国家自然科学基金(61925201,61771025)


Unsupervised Fine-grained Video Categorization via Adaptation Learning Across Domains and Modalities
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61925201, 61771025)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    细粒度视频分类旨在识别粗粒度大类中的细粒度子类,是计算机视觉中一个极具挑战的任务.考虑到视频数据的标注成本巨大,而图像的标注成本相对较小,且细粒度图像分类已经取得了较为显著的进展,一个自然的想法是不用标注,以无监督的方式将细粒度图像分类中学习到的知识自适应地迁移到细粒度视频分类中.然而,来源不同的图像和视频之间存在着域差异和模态差异,这导致细粒度图像分类的模型不能直接应用于细粒度视频分类.为了实现无监督的细粒度视频分类,提出一种无监督辨识适应网络,能够将辨识性定位能力从细粒度图像分类迁移到细粒度视频分类.进一步,提出一种渐进式伪标签策略来迭代地引导无监督辨识适应网络学习目标域视频的数据分布.在CUB-200-2011、Cars-196图像数据集和YouTube Birds、YouTube Cars视频数据集上验证该方法跨域、跨模态的适应能力,实验结果证明了该方法在无监督细粒度视频分类上的优势.

    Abstract:

    Fine-grained video categorization is a highly challenging task to discriminate similar subcategories that belong to the same basic-level category. Due to the significant advances in fine-grained image categorization and expensive cost of labeling video data, it is intuitive to adapt the knowledge learned from image to video in an unsupervised manner. However, there is a clear gap to directly apply the models learned from image to recognize the fine-grained instances in video, due to domain distinction and modality distinction between image and video. Therefore, this study proposes the unsupervised discriminative adaptation network (UDAN), which transfers the ability of discrimination localization from image to video. A progressive pseudo labeling strategy is adopted to iteratively guide UDAN to approximate the distribution of the target video data. To verify the effectiveness of the proposed UDAN approach, adaptation tasks between image and video are performed, adapting the knowledge learned from CUB-200-2011/Cars-196 datasets (image) to YouTube Birds/YouTube Cars datasets (video). Experimental results illustrate the advantage of the proposed UDAN approach for unsupervised fine-grained video categorization.

    参考文献
    相似文献
    引证文献
引用本文

何相腾,彭宇新.跨域和跨模态适应学习的无监督细粒度视频分类.软件学报,2021,32(11):3482-3495

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-09-09
  • 最后修改日期:2020-03-09
  • 录用日期:
  • 在线发布日期: 2021-11-05
  • 出版日期: 2021-11-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号