基于数据合成和度量学习的台标检测与识别
CSTR:
作者:
作者单位:

作者简介:

张广朋(1997-), 男, 硕士, 主要研究领域为人工智能系统设计与集成;张冬明(1977-), 男, 博士, 研究员, 博士生导师, CCF专业会员, 主要研究领域为视频编码, 多媒体内容检索;张菁(1975-), 女, 博士, 教授, 博士生导师, CCF专业会员, 主要研究领域为多媒体内容分析与处理;王川宁(1997-), 男, 硕士, 主要研究领域为人工智能系统设计与应用;王立冬(1967-), 女, 教授级高级工程师, 主要研究领域广播电视工程技术, 视音频信号处理, 媒体网络;邹学强(1978-), 男, 博士, 高级工程师, 主要研究领域为网络安全

通讯作者:

张冬明, E-mail: zhdm@cert.org.cn

中图分类号:

TP391

基金项目:

国家重点研发计划(2018YFB080402); 国家自然科学基金(61672495, 61971016); 北京市自然科学基金-市教委联合资助项目(KZ201910005007)


TV Logo Detection and Recognition Based on Data Synthesis and Metric Learning
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    台标是视频的重要语义信息, 其检测与识别面临类别多、结构复杂、区域小、信息量低、背景干扰大等难题. 为提高模型的泛化能力, 提出将台标图像叠加到背景图像中合成台标数据, 来构建训练数据集. 进一步, 提出两阶段可伸缩台标检测与识别(scalable logo detection and recognition, SLDR)方法, 其采用batch-hard度量学习方法快速训练匹配模型, 确定台标类别. SLDR的检测与识别分离机制使得其可将检测目标扩展到未知类别. 实验结果表明, 合成数据可以有效提升模型的泛化能力和检测精度. 实验亦显示SLDR方法在不更新检测模型的情况下, 即可获得与端到端模型相当的精度.

    Abstract:

    A TV logo represents important semantic information of videos. However, its detection and recognition are faced with many problems, including varied categories, complex structures, limited areas, low information content, and severe background disturbance. To improve the generalization ability of the detection model, this study proposes synthesizing TV logo data to construct a training dataset by superimposing TV logo images on background images. Further, a two-stage scalable logo detection and recognition (SLDR) method is put forward, which uses the batch-hard metric learning method to rapidly train the matching model and determine the category of TV logos. In addition, the detection targets can be expanded to unknown categories due to the separation mechanism of detection and recognition in SLDR. The experimental results reveal that synthetic data can effectively improve the generalization ability and detection precision of models, and the SLDR method can achieve comparable precision with the end-to-end model without updating the detection model.

    参考文献
    相似文献
    引证文献
引用本文

张广朋,张冬明,张菁,王川宁,王立冬,邹学强.基于数据合成和度量学习的台标检测与识别.软件学报,2022,33(9):3180-3194

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-06-23
  • 最后修改日期:2021-08-15
  • 录用日期:
  • 在线发布日期: 2022-02-22
  • 出版日期: 2022-09-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号