基于空时变换网络的视频摘要生成
CSTR:
作者:
作者单位:

作者简介:

李群(1984-), 女, 博士, 副教授, 主要研究领域为计算机视觉;肖甫(1980-), 男, 博士, 教授, 博士生导师, CCF高级会员, 主要研究领域为计算机网络;张子屹(1998-), 男, 硕士生, 主要研究领域为深度学习, 人体姿态估计;张锋(1989-), 男, 博士, 讲师, CCF专业会员, 主要研究领域为模式识别, 计算机视觉;李延超(1990-), 男, 博士, 讲师, CCF专业会员, 主要研究领域为机器学习, 人体动作识别

通讯作者:

肖甫, E-mail: xiaof@njupt.edu.cn

中图分类号:

TP391

基金项目:

国家自然科学基金(61906099, 61906098)


Video Summarization Based on Spacial-temporal Transform Network
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    视频摘要生成是计算机视觉领域必不可少的关键任务, 这一任务的目标是通过选择视频内容中信息最丰富的部分来生成一段简洁又完整的视频摘要, 从而对视频内容进行总结. 所生成的视频摘要通常为一组有代表性的视频帧(如视频关键帧)或按时间顺序将关键视频片段缝合所形成的一个较短的视频. 虽然视频摘要生成方法的研究已经取得了相当大的进展, 但现有的方法存在缺乏时序信息和特征表示不完备的问题, 很容易影响视频摘要的正确性和完整性. 为了解决视频摘要生成问题, 提出一种空时变换网络模型, 该模型包括3大模块, 分别为: 嵌入层、特征变换与融合层、输出层. 其中, 嵌入层可同时嵌入空间特征和时序特征, 特征变换与融合层可实现多模态特征的变换和融合, 最后输出层通过分段预测和关键镜头选择完成视频摘要的生成. 通过空间特征和时序特征的分别嵌入, 以弥补现有模型对时序信息表示的不足; 通过多模态特征的变换和融合, 以解决特征表示不完备的问题. 在两个基准数据集上做了充分的实验和分析, 验证了所提模型的有效性.

    Abstract:

    Video summarization is an indispensable and critical task in computer vision, the goal of which is to generate a concise and complete video summary by selecting the most informative part of a video. A generated video summary is a set of representative video frames (such as video keyframes) or a short video formed by stitching key video segments in time sequence. Although the study on video summarization has made considerable progress, the existing methods have the problems of deficient temporal information and incomplete feature representation, which can easily affect the correctness and completeness of a video summary. To solve the problems, this study proposes a model based on a spatiotemporal transform network, which includes three modules, i.e., the embedding layer, the feature transformation and fusion layer, and the output layer. Specifically, the embedding layer can simultaneously embed spatial and temporal features, and the feature transformation and fusion layer can realize the transformation and fusion of multi-modal features; finally, the output layer generates the video summary by segment prediction and key shot selection. The spatial and temporal features are embedded separately to fix the problem of deficient temporal information in existing models, and the transformation and fusion of multi-modal features can solve the problem of incomplete feature representation. Sufficient experiments and analyses on two benchmark datasets are conducted, and the results verify the effectiveness of the proposed model.

    参考文献
    相似文献
    引证文献
引用本文

李群,肖甫,张子屹,张锋,李延超.基于空时变换网络的视频摘要生成.软件学报,2022,33(9):3195-3209

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-06-29
  • 最后修改日期:2021-08-15
  • 录用日期:
  • 在线发布日期: 2022-02-22
  • 出版日期: 2022-09-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号