视觉场景描述及其效果评价
CSTR:
作者:
作者单位:

作者简介:

马苗(1977-),女,山东聊城人,博士,教授,CCF高级会员,主要研究领域为图像处理,模式识别,视频分析;武杰(1985-),男,博士,讲师,主要研究领域为遥感影像处理;王伯龙(1993-),男,硕士,主要研究领域为视频分析与描述;郭敏(1964-),女,博士,教授,博士生导师,主要研究领域为图像处理,模式识别,智能信息处理;吴琦(1987-),男,博士,助理教授,博士生导师,主要研究领域为计算机视觉,机器学习,视觉问答.

通讯作者:

马苗,E-mail:mmthp@snnu.edu.cn

中图分类号:

基金项目:

国家自然科学基金(61877038,61801282,61601274);陕西省自然科学基金(2018JM6068);中央高校基本科研业务经费(GK201703054,GK201703058)


Visual Scene Description and Its Performance Evaluation
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61877038, 61801282, 61601274); Natural Science Foundation of Shaanxi Province, China (2018JM6068); Fundamental Research Funds for the Central Universities of Shaanxi Normal University (GK201703054, GK201703058)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    作为计算机视觉、多媒体、人工智能和自然语言处理等领域的交叉性研究课题,视觉场景描述的研究内容是自动生成一个或多个语句用于描述图像或视频中呈现的视觉场景信息.视觉场景中内容的丰富性和自然语言表达的多样性使得视觉场景描述成为一项充满挑战的任务,综述了现有视觉场景描述方法及其效果评价.首先,论述了视觉场景描述的定义、研究任务及方法分类,简要分析了视觉场景描述与多模态检索、跨模态学习、场景分类、视觉关系检测等相关技术的关系;然后分类讨论视觉场景描述的主要方法、模型及研究进展,归纳日渐增多的基准数据集;接下来,梳理客观评价视觉场景描述效果的主要指标和视觉场景描述技术面临的问题与挑战,最后讨论未来的应用前景.

    Abstract:

    As a cross-domain research topic related to Computer Vision, Multimedia, Artificial Intelligence and Natural Language Processing, the task of visual scene description is to produce automatically one or more sentences to describe the content of visual scene from an image or a video snippet. The richness of the content in the visual scene and the diversity of the expression of natural language make visual scene description a challenging task. This paper gives a review about the generation methods and performance evaluation on the recently developed visual scene description methods. Specifically, the research object and main tasks of visual scene description are firstly defined; the relationships between visual scene description and multi-modal retrieval, cross-modal learning, scene classification, visual relationship detection and other related technologies are discussed sequentially. And then, main methods and research progress of visual scene description are summarized in three categories, while the increasing benchmark datasets are discussed. Besides, some widely-used evaluation metrics and the corresponding challenges on the visual scene description are discussed. Finally, some potential applications in future are suggested.

    参考文献
    相似文献
    引证文献
引用本文

马苗,王伯龙,吴琦,武杰,郭敏.视觉场景描述及其效果评价.软件学报,2019,30(4):867-883

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-04-15
  • 最后修改日期:2018-06-13
  • 录用日期:
  • 在线发布日期: 2019-04-01
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号