张广朋(1997-), 男, 硕士, 主要研究领域为人工智能系统设计与集成
张冬明(1977-), 男, 博士, 研究员, 博士生导师, CCF专业会员, 主要研究领域为视频编码, 多媒体内容检索
张菁(1975-), 女, 博士, 教授, 博士生导师, CCF专业会员, 主要研究领域为多媒体内容分析与处理
王川宁(1997-), 男, 硕士, 主要研究领域为人工智能系统设计与应用
王立冬(1967-), 女, 教授级高级工程师, 主要研究领域广播电视工程技术, 视音频信号处理, 媒体网络
邹学强(1978-), 男, 博士, 高级工程师, 主要研究领域为网络安全
台标是视频的重要语义信息, 其检测与识别面临类别多、结构复杂、区域小、信息量低、背景干扰大等难题. 为提高模型的泛化能力, 提出将台标图像叠加到背景图像中合成台标数据, 来构建训练数据集. 进一步, 提出两阶段可伸缩台标检测与识别(scalable logo detection and recognition, SLDR)方法, 其采用batch-hard度量学习方法快速训练匹配模型, 确定台标类别. SLDR的检测与识别分离机制使得其可将检测目标扩展到未知类别. 实验结果表明, 合成数据可以有效提升模型的泛化能力和检测精度. 实验亦显示SLDR方法在不更新检测模型的情况下, 即可获得与端到端模型相当的精度.
A TV logo represents important semantic information of videos. However, its detection and recognition are faced with many problems, including varied categories, complex structures, limited areas, low information content, and severe background disturbance. To improve the generalization ability of the detection model, this study proposes synthesizing TV logo data to construct a training dataset by superimposing TV logo images on background images. Further, a two-stage scalable logo detection and recognition (SLDR) method is put forward, which uses the batch-hard metric learning method to rapidly train the matching model and determine the category of TV logos. In addition, the detection targets can be expanded to unknown categories due to the separation mechanism of detection and recognition in SLDR. The experimental results reveal that synthetic data can effectively improve the generalization ability and detection precision of models, and the SLDR method can achieve comparable precision with the end-to-end model without updating the detection model.
融合媒体发展是国家战略. 融合媒体业务中的媒体数据来源和内容将更为复杂, 移动终端短视频、网络视频分享、视频直播、广播电视等都将逐渐融合, 形成统一的内容服务平台, 如何进行高效的分析、管理和推荐, 是一个极具挑战性的问题. 台标是特定广播电台或组织的重要标志, 广播电台通过台标声明其对视频内容的所有权, 台标能够体现视频来源, 并协助进行视频内容分析. 台标检测与识别技术可以为视频内容分析提供丰富的语义信息, 因此其得到了广泛的应用[
视频台标类别丰富, 而且仍在不断增长, 成为台标检测识别面临的首要问题. 同时, 台标作为嵌入式标志, 有别于其他标志, 多采用镂空、半透明设计, 受背景影响较大, 受视频编辑等重编码手段影响, 标志所在区域还可能出现模糊或变形, 这进一步加大了台标检测的难度. 基于此, 本文提出了数据合成方法, 来提高训练数据的多样性, 在无需大量人工标注的情况下, 提高网络模型的性能.
此外, 基于端到端深度网络的标志检测属于闭集(close-set)方法, 即基于封闭的训练数据并采用端到端网络, 直接完成目标的定位和检测. 闭集方法虽然可获得较高的识别精度, 但在可迁移性方面主要存在以下缺点: (1)其所有支持的检测类别都是已知的, 如果新增台标类别, 需要重新训练网络更新模型. (2)模型性能高度依赖训练样本, 既要大量标注数据, 还要注意类平衡的问题.
借鉴人脸识别[
本文主要贡献总结如下:
(1) 针对台标类别较多、现有标注数据较少的问题, 我们提出一种台标数据合成方法. 根据台标外形特点, 将标准台标区域直接叠加到背景中. 该方法有效减少了台标数据的人工标注. 结果表明台标数据合成方法可以有效提高模型检测能力, 提供可伸缩台标检测与识别模型训练所需的大量数据, 有效提升模型泛化能力和鲁棒性.
(2) 台标多采用镂空、半透明设计, 识别效果受背景影响较大. 本文在台标区域定位阶段引入实例分割分支获取台标掩码(mask), 依赖台标掩码对图像进行预处理, 削减背景对台标类别匹配的影响, 提高台标识别精度.
(3) 针对闭集方法新增台标类型需对模型重新训练的缺点, 进一步提出一种可伸缩台标检测与识别方法, 适应多种台标类型, 提高台标检测与识别系统部署的灵活性. 其中针对台标的深度度量学习方法, 采用三元组损失训练匹配网络, 平衡批次样本, 使用batch-hard样本计算三元组损失, 快速收敛模型, 结合欧氏距离度量方法, 有效提高针对台标的识别能力.
本文第1节介绍台标检测与识别的相关工作. 第2节介绍台标数据合成工作. 第3节介绍可伸缩台标识别网络SLDR. 第4节为实验设置与结果分析. 最后为本文结论.
台标检测与识别是对视频画面中的台标进行定位和分类. 所采用的方法可分为基于传统手工特征的分类器方法和使用YOLO[
顾名思义, 两阶段方法, 包括检测和识别两个阶段. 第1阶段实现目标的定位, 第2阶段进行匹配确定目标类别, 当新增识别类别时不需要重新训练模型, 是一种可以更灵活应对实际应用问题的开放数据集方法. 其实, 两阶段深度网络并不少见, 比如R-CNN[
与以上这些两阶段方法相比, 台标检测与识别有自身的难点和特点. 1)与人脸具有相似“眼鼻嘴”分布模型相比, 台标类别较多, 组成元素也复杂多样, 往往含有矢量图、字符或图片等多种元素. 2)台标可采用镂空或半透明设计, 其识别效果易受背景影响.
本文设计针对台标的可扩展检测与识别方案, 有效应对台标检测与识别存在的问题. 目前也有学者进行可泛化的目标检测与识别研究. Tian等人[
台标作为电视台、组织的特定标志, 每类都具有独特的风格, 往往在较小区域内采用了大量规则图形、线段等元素, 同时例如CCTV系列台标、卫视台标及与其对应的二级电视台台标都较难区分, 涉及了细微的目标识别任务. 台标多采用镂空、半透明设计, 在图形、线段之间有大量的间隙, 台标图像如
台标图像
深度目标检测方法为解决台标检测中的镂空、半透明问题提供了新思路. 但目前, 该领域缺少公认的台标数据集, 现有文献中提及的数据集数据量少、缺少有效标注.
针对台标检测与识别任务, 本文构建了两个数据集, 其一为真实标注的数据集, 其二为合成数据集.
首先介绍真实标注的数据集. 为保证台标数据集的数量和种类, 对收集到的视频样本库采用Sony Vegas Pro进行解码, 并按照设定的抽帧策略从包含同种台标的不同视频中抽取代表帧. 所抽取的代表帧内容可能非常相似, 为保证模型的泛化能力, 通过相似度检测删除近似代表帧, 并侧重于选择背景丰富的代表帧. 为了减少画面清晰度、背景等因素给网络训练带来的干扰, 根据统计得到台标在画面中的位置规律, 只截取代表帧中相应台标区域.
在获取真实的台标数据后, 为了给深度学习网络提供足够的监督信息, 需要为台标图片提供像素级的标注. 为了减少标注工作量, 我们依据同类台标出现的位置、大小, 将同类的台标分为不同组. 如
真实台标数据标注组
第2个数据集为合成台标数据集. 很多学者在标志检测与识别研究中涉及了数据合成研究[
合成数据过程主要包括4个部分, 即标准台标的获取、台标掩码获取、背景图像选取以及台标与背景合成.
我们搜集了1198张标准台标图像,
台标图像合成示例
为了获得台标掩码, 首先采用SLIC方法处理台标图像, 自动获得超像素分割结果图, 作为粗糙的标签图像. 接着对较为粗糙的图像进行人工矫正, 背景区域像素值设置为0, 以此获得最终的像素级标注. 我们共完成了1198类台标的掩码生成.
电视台播放的视频背景丰富多样, 我们搜集了20900张背景图像, 结合FlickrLogos-32[
台标合成即利用标准台标的像素级标注将标准台标叠加到背景图像中, 叠加过程包括如下步骤:
1) 按设计的缩放比例, 对台标图像
2) 按设计的叠加位置, 获取叠加图像
3) 按照下述公式修改图像
我们为每类台标合成100张图像. 传统图像数据增强方法已经被证明能够有效提升检测模型的鲁棒性, 我们对标准台标进行了预处理操作, 同时考虑同类台标颜色、形状基本无变化的特殊性, 在合成时只对台标进行了放缩处理, 为了保证台标数据的有效性, 对放缩处理进行了限定, 保证每张台标都能够完整出现在背景图像中, 同时对于台标缩小时分辨率小于10×10的台标不予叠加. 考虑到电视台视频中台标出现的位置随机性, 在叠加台标时随机选择位置, 同时, 除本类标准台标外, 对每次选择的背景图像随机叠加1–2类其他台标. 在台标图像合成后, 算法会自动生成合成图像的像素级标注.
合成数据实例如
通过数据合成技术, 可以显著提高台标检测与识别网络模型的泛化能力. 但对于端到端模型来说, 一旦目标台标集合发生变化, 即需要识别新的台标种类时, 需要更新模型, 而模型更新一般需要离线增量学习甚至完全重新训练, 无法满足目标台标集合经常改变的应用需求.
本文使用可伸缩开集方法进行台标的检测与识别, 具体方案流程如
可伸缩开集台标检测与识别方案
台标检测即对台标所在区域进行定位, 其使用边界框和掩码定位候选区域, 而不识别台标的具体类别. 我们期望能够快速、准确地获取台标的像素级区域, 考虑到之后匹配需要得到台标的具体类别, 在此处的检测分割模型选择实例分割模型. 目前主要的实例分割模型和目标检测模型类似, 主要分为单阶段和两阶段的模型. 两阶段的实例分割模型主要为Mask R-CNN[
YOLACT检测网络结构如
YOLACT结构
在模型训练过程中, 共使用4个loss函数, 分别是类别损失
其中,
台标多镂空、半透明设计, 使用YOLACT实例分割模型能够对图像中的台标进行像素级分割, 削弱背景对台标识别的影响, 提升后续匹配的精度. 同时, 使用单阶段的实例分割模型, 可以更快速地完成台标的检测任务. YOLACT实例分割模型在原型生成分支输出的32个原型掩码如
台标分割示例
台标匹配即对提取的候选台标区域与目标台标进行匹配并判定其相似性, 该阶段使用深度度量学习方法. 图像深度度量学习的目的是学习一种低维的图像嵌入, 将相似的图像映射到嵌入空间的较近位置, 而将不同的图像映射到更远的位置, 以此区分不同类别的图像.
深度度量学习依赖于图像的正负对或三元组来优化损失函数, 本文选择使用三元组损失函数. 设(
通过triplet loss的学习后使得
匹配网络训练时使用三元组损失函数, 基础特征提取网络使用ResNet-50. 在训练深度度量网络时, 每个批次的训练样本选择是非常重要的[
在线训练模式中, 每个批次的样本可以使用semi-hard、hard或batch-hard等样本. 对应公式(5), semi-hard样本选择方法如下所示:
其中, semi-hard样本代表
Hard样本即
Semi-hard样本方案和hard样本方案是选择批次样本中的所有triplet, 对其中的semi-hard和hard三元组样本的损失取均值. Batch-hard样本选择方法与前两者不同, 其是遍历批次样本, 选择批次中最难的样本进行模型参数更新, 倾向于学习学不会的问题, 使用这种困难样本挖掘策略能够有效促进模型收敛. Batch-hard样本即对于每一个
公式(5)中的
在第4.3节, 对不同的距离度量方法进行了实验对比, 最终选择了欧氏距离作为相似性度量的方法.
数据集: 为验证本文方法的有效性, 在真实数据集和合成数据集进行评估.
真实数据集含有17类82372张图像, 随机选择其中74134张作为训练集, 8 238张作为测试集. 在训练匹配网络时, 根据真实标注框对台标图像进行裁剪, 真实数据集中每张图像包含一个台标.
合成数据集共含有1 198类112246张图像, 使用其中1 178类111195张图像作为训练集, 测试集为37类1 051张图像. 训练匹配网络时, 同样依据真实标注框对台标进行裁剪. 在测试集中包含有训练集中没有的20类图像, 此举是为了验证可伸缩开集方法检测的有效性, 完成可扩展的台标检测与识别.
实验环境: 实验中采用的机器配置为NVIDIA GeForce RTX 2080 Ti GPU, 所有网络模型的训练和测试均在PyTorch框架下进行, 测试时使用COCO数据集的评价方法.
为验证合成数据的效果, 本节做了两组实验, 即在闭集检测器和通用检测器进行分别测试. 闭集检测器只能检测对应训练数据的类别, 即训练集和测试集的类别需严格一致; 通用检测器为可伸缩台标识别中台标定位阶段所使用的检测器. 通用检测器使用YOLACT实例分割网络, 在选择闭集检测模型时, 选择使用YOLACT的基础架构网络RetinaNet.
(1)在闭集检测器的效果测试. 测试集选择真实数据测试集. 参考其他研究对合成数据测试的方法[
如
使用合成数据的性能结果(%)
方法 | AP (Box) | AP50(Box) | AP75(Box) |
RealImg | 92.3 | 98.9 | 97.4 |
SynImg | 31.2 | 56.4 | 31.0 |
SynImg+RealImg | 95.6 | 99.4 | 97.5 |
(2)在通用检测器的效果测试. 通用台标检测网络只检测台标候选区域, 我们将所用训练集和测试集的不同类别台标标注统一为台标类. 在检测网络中添加了分割分支, 因此需要模型拥有更好的泛化性能, 才能够有效针对丰富类别的台标数据. 为了展现联合合成数据训练的效果, 本节设计了两种训练方法, 其一仅使用真实数据训练集进行训练, 其二使用真实数据训练集和合成数据训练集进行联合训练, 并分别在真实数据测试集和合成数据测试集测试模型效果. 通用检测器使用YOLACT, 输入图像的分辨率选择550×550, 输入图像的标注为像素级标注, 训练的检测器只需要检测出台标候选区域, 使用Adam优化器进行训练, 初始学习率为0.000 01. 训练的模型在测试集的结果如
台标检测器在真实数据集和合成数据集的检测性能(%)
测试集 | 训练集 | AP (Box) | AP50 (Box) | AP75 (Box) | AP (Mask) | AP50 (Mask) | AP75 (Mask) |
真实数据 | 真实 | 84.4 | 99.0 | 98.9 | 55.3 | 98.9 | 58.8 |
真实+合成 | 87.1 | 99.0 | 98.0 | 56.0 | 97.8 | 63.1 | |
合成数据 | 真实 | 44.8 | 77.1 | 48.7 | 20.5 | 63.5 | 4.4 |
真实+合成 | 91.0 | 99.0 | 98.0 | 50.7 | 94.3 | 46.8 |
在真实数据的测试集上进行测试时, 联合合成数据训练的模型得到的AP (Box)提升了2.7%, AP (Mask)提升了0.7%; 在合成数据的测试集进行测试时, 联合合成数据训练的模型得到的AP (Box)提升了46.2%, 而AP (Mask)提升了30.2%. 如
台标检测网络中添加了实例分割分支,
YOLACT台标图像分割结果
本节评估不同距离度量方法、不同样本选择方案对台标匹配网络效果的影响. 训练时, 联合使用了合成数据和真实数据, 设置图像输入的大小为224×224, 在进行相似性度量时生成的特征向量为512维, 输入图像源为对真实数据和合成数据根据真实框标注裁剪的目标区域, 使用Adam优化器进行训练, 初始学习率为0.001. 测试时随机抽取每类的2张图像作为目标图像, 其余图像为待匹配图像. 匹配效果使用精度
以此得到各种状态的图像数量
召回率计算方式如下:
在本节的测试中, 每张待匹配图像都有对应的目标图像, 我们在每次测试的
不同距离度量方法的匹配精度(%)
距离度量方法 | ||
欧氏距离 | 98.16 | 99.03 |
欧氏距离的平方 | 43.61 | 58.23 |
余弦距离 | 80.91 | 87.93 |
不同样本选择方法的匹配精度 (%)
样本选择方法 | ||
Semi-hard | 84.51 | 85.59 |
Hard | 98.16 | 98.73 |
Batch-hard | 98.16 | 99.03 |
Batch-hard* | 99.45 | 99.51 |
台标图像预处理示例
本节分别实现了开集方法SLDR和闭集方法进行台标检测与识别任务. SLDR使用实例分割网络定位台标区域, 使用掩码信息对台标区域预处理去除杂乱背景的干扰, 然后匹配得到台标的具体类别. 为了对比体现YOLACT在台标数据集进行实例分割的优势, 我们同时使用Mask R-CNN实现了SLDR来进行效果的对比. 经过实验测试, 在匹配时阈值
在
SLDR和闭集方法在真实数据集的指标衡量结果
检测方法 | 平均每幅图像预测时间 (ms) | AP (%) | AP50 (%) | AP75 (%) | |
闭集方法 | YOLOv4 | 23.5 | 84.5 | 99.1 | 97.9 |
Faster R-CNN | 42.2 | 88.6 | 99.7 | 99.4 | |
RetinaNet | 23.3 | 99.4 | 99.8 | 99.3 | |
SLDR | (Mask R-CNN)SLDR | 77.3 | 86.3 | 95.4 | 95.0 |
(Mask R-CNN)SLDR* | 77.4 | 87.4 | 96.9 | 96.2 | |
(YOLACT)SLDR | 24.3 | 91.9 | 96.6 | 96.1 | |
(YOLACT)SLDR* | 24.3 | 93.5 | 98.5 | 97.9 |
SLDR和闭集方法在合成数据集的指标衡量结果
检测方法 | 平均每幅图像预测时间 (ms) | AP (%) | AP50 (%) | AP75 (%) | |
闭集方法 | YOLOv4 | 26.4 | 70.2 | 97.5 | 85.9 |
Faster R-CNN | 51.8 | 76.5 | 97.0 | 93.4 | |
RetinaNet | 26.1 | 92.5 | 99.3 | 96.8 | |
SLDR | (Mask R-CNN)SLDR | 84.5 | 78.5 | 90.7 | 89.9 |
(Mask R-CNN)SLDR* | 85.0 | 79.7 | 92.4 | 91.3 | |
(YOLACT)SLDR | 30.6 | 93.4 | 97.8 | 97.5 | |
(YOLACT)SLDR* | 31.0 | 93.6 | 98.0 | 97.7 |
同时, 为了说明SLDR方法的可扩展性, 在其训练数据中并不包含合成数据测试集的20类图像, 而从
基于YOLACT实现的SLDR方法可以获得更高的精度以及更快的检测速度, 我们在
台标图像检测结果预处理示例
SLDR和闭集方法在300类合成数据集的指标衡量结果
检测方法 | 训练时间 (min) | AP (%) | AP50 (%) | AP75 (%) |
闭集1 | 48 | 3.0 | 4.0 | 3.5 |
闭集4 | 192 | 58.3 | 66.3 | 65.4 |
闭集7 | 336 | 78.4 | 85.9 | 85.2 |
闭集10 | 480 | 83.6 | 89.8 | 89.0 |
闭集11 | 528 | 83.7 | 90.2 | 89.2 |
SLDR* | - | 79.5 | 83.8 | 83.7 |
SLDR和闭集方法在600类合成数据集的指标衡量结果
检测方法 | 训练时间 (min) | AP (%) | AP50 (%) | AP75 (%) |
闭集11+ | 146 | 66.8 | 72.5 | 72.1 |
SLDR* | - | 72.3 | 76.0 | 75.9 |
SLDR*+ | 69 | 72.3 | 75.9 | 75.8 |
目标集合在出现变化时, 可以对模型进行微调, 本节评估了两种检测方法在更新模型时需要的代价和达到的效果. 本实验测试集在300类合成数据的基础上新增300类图片, 新增300类图片的训练集包括20990张图片, 测试集包括5032张图片. 模型测试结果如
微调闭集模型时, 时间相较于在300类数据上迭代一次增加了98 min, 最终达到了66.8%的AP. 初始SLDR模型是基于丰富类别的训练集进行训练的, 在检测时具有较好的泛化能力, 其在600类数据集上取得了72.3%的AP. 在将初始SLDR模型在600类模型上进行更新时, 精度基本无变化, 其单次迭代训练时间相较于闭集模型减少了77分钟. SLDR更新模型只需要更新定位网络参数, 台标度量网络学习一种低维的图像嵌入, 将相似的图像映射到嵌入空间的较近位置, 因此在台标集变化时不需要重新训练SLDR中的匹配模型. 根据
针对台标检测与识别任务, 我们提出了数据合成方法来创建合成数据集, 自动生成标注样本, 有效应对台标类别多、标注数据少的问题. 进一步提出一种面向开集的两阶段网络SLDR, 应用数据合成和度量学习方法, 实现可伸缩的台标检测与识别, 一阶段使用台标检测网络定位台标区域, 二阶段使用度量学习获得台标类别. 在大量合成数据训练的基础上, SLDR拥有了强大的泛化能力, 可以在台标定位阶段精确获取台标区域及台标掩码. 针对台标背景对识别影响较大的问题, 使用定位阶段获取的台标掩码预处理台标图像, 可以有效提高检测的精度. SLDR可伸缩的特点有效提高了台标检测的灵活性, 该方法同样可适用于其他目标检测任务.
为了进一步提高台标检测与识别的鲁棒性和灵活性, 可在以下几方面开展工作: (1) 在数据合成工作中, 可以对台标模板模糊处理来进一步增加数据多样性; (2) 本文在台标检测网络中添加了分割分支, 但是分割分支训练在只有台标一类标注的数据集中没有取得预想的效果, 而预测框的效果表现较好, 可以考虑在预测出目标框之后再进行台标的分割, 从而更有效地去除背景的干扰, 提高台标识别的精度; (3) 本文着重研究了静态台标检测与识别, 动态的台标检测与识别也是亟需解决的问题, 可以引入时序关系辅助进行动态台标的检测; (4) 文字信息识别同样有助于台标识别精度提高, 可通过增加文字识别网络来进一步提升包含字符的台标识别精度.
徐佳宇, 张冬明, 靳国庆, 包秀国, 袁庆升, 张勇东. PNET: 像素级台标识别网络. 计算机辅助设计与图形学学报, 2018, 30(10): 1878–1889. [doi: 10.3724/SP.J.1089.2018.16944]
Xu JY, Zhang DM, Jin GQ, Bao XG, Yuan QS, Zhang YD. PNET: Pixel-wise TV logo recognition network. Journal of Computer-Aided Design & Computer Graphics, 2018, 30(10): 1878–1889 (in Chinese with English abstract). [doi: 10.3724/SP.J.1089.2018.16944]
Wang M, Deng WH. Deep face recognition: A survey. Neurocomputing, 2021, 429: 215–244. [doi: 10.1016/j.neucom.2020.10.081]
Wu D, Zheng SJ, Zhang XP, Yuan CA, Cheng F, Zhao Y, Lin YJ, Zhao ZQ, Jiang YL, Huang DS. Deep learning-based methods for person re-identification: A comprehensive review. Neurocomputing, 2019, 337: 354–371. [doi: 10.1016/j.neucom.2019.01.079]
Ren SQ, He KM, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. [doi: 10.1109/tpami.2016.2577031]
Bhunia AK, Bhunia AK, Ghose S, Das A, Roy PP, Pal U. A deep one-shot network for query-based logo retrieval. Pattern Recognition, 2019, 96: 106965. [doi: 10.1016/j.patcog.2019.106965]
Montserrat DM, Lin Q, Allebach J, Delp EJ. Logo detection and recognition with synthetic images. Electronic Imaging, 2018, 30(10): 3371–3377. [doi: 10.2352/issn.2470-1173.2018.10.imawm-337]
Yu J, Yao JH, Zhang J, Yu Z, Tao DC. SPRNet: Single-pixel reconstruction for one-stage instance segmentation. IEEE Transactions on Cybernetics, 2021, 51(4): 1731–1742. [doi: 10.1109/TCYB.2020.2969046]