视频显著性检测是计算机视觉领域的一个热点研究方向,其目的在于通过联合空间和时间信息实现视频序列中与运动相关的显著性目标的连续提取.由于视频序列中目标运动模式多样、场景复杂以及存在相机运动等,使得视频显著性检测极具挑战性.对现有的视频显著性检测方法进行梳理,介绍相关实验数据集,并通过实验比较分析现有方法的性能.首先,介绍了基于底层线索的视频显著性检测方法,主要包括5类:基于变换分析的方法、基于稀疏表示的方法、基于信息论的方法、基于视觉先验的方法和其他方法.然后,对基于学习的视频显著性检测方法进行了总结,主要包括传统学习方法和深度学习方法,并着重对后一类方法进行了介绍.随后,介绍了常用的视频显著性检测数据集,给出了4种算法性能评价指标,并在不同数据集上对最新的几种算法进行了定性和定量的比较分析.最后,对视频显著性检测的关键问题进行了总结,并对未来的发展趋势进行展望.
As a hot topic in computer vision community, video saliency detection aims at continuously discovering the motion-related salient objects from the video sequences by considering the spatial and temporal information jointly. Due to the complex backgrounds, diverse motion patterns, and camera motions in video sequences, video saliency detection is a more challenging task than image saliency detection. This paper summarizes the existing methods of video saliency detection, introduces the relevant experimental datasets, and analyze the performance of some state-of-the-art methods on different datasets. First, an introduction of low-level cues based video saliency detection methods including transform analysis based method, sparse representation based method, information theory based method and visual prior based method, is presented. Then, the learning-based video saliency detection methods, which mainly include traditional methods and depth learning based methods, are discussed. Subsequently, the commonly used datasets for video saliency detection are presented, and four evaluation measures are introduced. Moreover, some state-of-the-art methods with qualitative and quantitative comparisons on different datasets are analyzed in experiments. Finally, the key issues of video saliency detection are summarized, and the future development trend is discussed.
人类通过视觉感知系统捕获客观世界中的重要物体和场景信息, 如景深、外貌、颜色、形状等属性.无论置身于简单场景或是复杂环境, 人类都可以迅速定位场景中的感兴趣区域, 抓住关键信息, 快速、有效地完成信息的处理和综合.为使计算机系统也具备快速定位重要目标、感知场景重要信息的功能, 视觉显著性检测任务应运而生.场景的显著性区域通常包含了人类感兴趣的重要目标或最能表达图像的内容, 是能够在较短时间内吸引人的视觉注意力的区域, 而显著性检测就是找出这些感兴趣目标或区域的过程.显著性检测作为一种有效的预处理技术已被广泛应用于检索[
根据处理对象的不同, 显著性检测可以分为图像显著性检测、协同显著性检测和视频显著性检测方法等.经过十余年的发展, 面向图像的显著性检测方法[
协同显著性目标(co-salient object)是指多张图像中重复出现的同一或近似的视觉显著性物体.与传统的图像显著性检测模型不同, 协同显著性检测的目的在于提取图像组中共有的显著性目标.由于图像组中显著性目标的类别、内部特性和位置等因素是完全未知的, 使得协同显著性检测成为一项更具挑战性的任务.基于此, 协同显著性目标需同时具备两个特性:(1)协同显著性目标在单张图像中应该是显著的; (2)协同显著性目标在同组图像之间应该具有较高的相似性.协同显著性目标检测方法[
显著性检测模型的区别与联系
Differences and relations between different saliency detection models
随着大数据时代的来临, 数据形式发生了翻天覆地的变化, 传统的图像数据已不足以满足人们日益增长的感官需求, 视频数据量呈现出井喷式的增长, 如何准确、一致地提取视频数据中的显著性目标成为亟待解决的新课题.鉴于视频显著性检测技术良好的可扩展性, 已被广泛应用于视频目标检测、视频摘要、基于内容的视频检索等领域.不同于图像显著性检测, 视频显著性检测需要同时结合时间信息和空间信息, 连续地定位视频序列中与运动相关的显著性目标.与协同显著性检测相比, 视频显著性检测还需考虑运动信息和时序特性, 而且具有“相邻视频帧之间相关性较大”的先验.几种不同的显著性检测模型之间的联系如
根据是否需要进行训练学习, 本文将视频显著性方法分为基于底层线索的方法和基于学习的方法两类.其中, 基于底层线索的视频显著性检测方法可以进一步划分为基于变换分析的方法、基于信息论的方法、基于稀疏表示的方法、基于视觉先验的方法和其他方法5类, 而基于学习的方法可以分为传统学习方法和深度学习方法两类, 具体分类方案如
视频显著性检测方法分类图
Classification chart of video saliency detection algorithms
从开始研究至今, 基于底层线索的方法一直是视频显著性检测领域的主流方法, 该类方法从底层线索出发, 提取视频的运动特征, 探索视频的视觉先验信息, 挖掘视频的帧间关系, 并结合视频的空时信息, 建立显著性检测模型.该类方法不需要进行训练学习, 操作简单、方便, 是一类基础的检测方法.但是, 由于运动场景的更新、目标尺寸的变化以及拍摄视角的切换, 使得该类方法的检测准确率远远没有达到理想的要求, 有待进一步的提高和完善.根据算法采用技术的不同, 该类方法又可以进一步划分为基于变换分析的方法、基于稀疏表示的方法、基于信息论的方法、基于视觉先验的方法和其他方法5类, 下面将具体展开介绍.
基于变换分析的方法通过数学变换提取视频序列的有用信息, 进而实现显著性检测.常用的数学变换有傅里叶变换、离散余弦变换等.在介绍具体方法之前, 我们首先回顾一下两种主要变换方法的数学模型.
傅里叶变换(Fourier transform, 简称FT)是一种非常重要的数学分析工具和信号处理方法.图像或视频帧可以看作是二维的离散信号, 因而, 可以对其进行二维离散傅里叶变换, 公式如下:
其中,
离散余弦变换(discrete cosine transform, 简称DCT)是一种与FT相关的变换, 它通过一组不同频率和幅值的余弦函数来近似一幅图像, 其本质上就是傅里叶变换的实数部分.同样, 如果将图像或视频帧看作是二维信号, 那么其二维离散余弦变换的公式可以表示为
其中,
Hou等人[
Cui等人[
Fang等人[
受静态图像的谱残差显著性计算方法启发, 刘宇光等人[
其中,
基于变换的视频显著性检测方法得到的结果仅能确定视频序列中显著性目标的大体位置和主要轮廓, 而显著性目标的内部区域的均匀性和完整性较差, 通常只能应用于检测、跟踪等领域.由于该类算法仅利用了一些简单的变换关系获取显著性信息, 所以算法的运算速度较快, 非常适合于大型的实时系统.
基于信息论的方法通常利用自信息、信息熵、条件熵等概念研究信息量与显著性的关系, 进而确定显著性目标.在日常生活中, 极少发生的事件一旦发生就容易引起人们的关注, 因而包含较多信息量.也就是说, 小概率事件所包含的信息量多.相反, 人们习以为常的事件包含的信息量相对较少.因此, 事件信息量与其发生的概率成反比.一个事件
其中,
此外, 可以利用信息熵来描述信源的不确定度, 其计算公式如下:
Qiu等人[
Hou等人[
Liu等人[
Li等人[
基于稀疏表示的方法以稀疏表示为基础, 通过挖掘显著性区域的稀疏系数特性计算显著性图.稀疏表示是一种有效的信号处理技术, 其目的在于利用给定的超完备字典中尽可能少的非零系数来表示信号的主要信息, 获得更简洁的信号表达方式, 进而更简便地提取信号中所包含的信息.鉴于其优异的数据表达能力, 该技术已广泛应用于分类、追踪、检测等领域.稀疏表示模型的一般形式如下:
其中,
其中,
Li等人[
Luo等人[
Ren等人在稀疏表示的视频显著性应用研究中做了多项十分有意义的工作.文献[
不同于图像的显著性检测, 视频中的移动目标比静态目标更容易引起人类的视觉关注.基于这一观察, Xue等人[
Chen等人[
受人类视觉感知系统启发, 许多视觉先验信息被应用于检测图像中的显著性目标, 如局部对比先验、全局对比先验、目标先验、背景先验、中心先验、紧致性先验、稀有性先验、独特性先验等.这些视觉先验信息符合人类的视觉感知机制, 是十分有效、便捷的目标描述方式.目前, 许多研究学者已将这些先验信息扩展至视频显著性检测领域, 并进一步挖掘了视频数据特有的先验信息, 如运动先验等.
人类具有无与伦比的快速定位复杂动态环境中重要事件的能力.研究发现, 在视觉注意力机制的快速指导下, 人们往往没有时间进行详细的视觉分析.因此, Itti等人[
Seo等人[
受基于运动的感知分组的生物学机理启发, Mahadevan等人[
许多视频显著性检测方法容易偏向于边缘或角落区域, 这在统计学上具有一定的意义, 但并不符合人类的视觉感知机制.此外, 由于显著性区域和高度纹理结构背景之间的模糊性, 使得现有方法往往不能在复杂场景中准确定位显著性区域.基于此, Kim等人[
Zhou等人[
以文献[
Xi等人[
● 根据“背景部分在视频中是刚性的, 前景和背景具有相反的运动轨迹, 且背景区域往往要比前景区域更大一些”的先验知识, 通过分析SIFT流确定初始背景先验.即不同视频帧中的同一位置像素的误差越小, 则说明该像素是背景的可能性越大.
● 利用多对约束和一致性传播确定背景区域.由于相邻两帧视频的时间间隔较短, 那么显著性目标可能只有一部分发生了明显的运动, 而静止部分很可能会被当作背景种子.因此, 作者通过累积多帧信息, 提取一个中间状态, 使得最终的背景选择结果尽可能地与这个中间状态接近, 该过程称为“多对约束”机制; 此外, 为了完整、连续地提取背景区域, Xi等人设计了“一致性传播”机制, 要求已选背景区域的前后相邻帧中的对应区域也应该被选择为背景.
通过空时背景先验确定出背景种子后, 首先, 构建空间图模型, 利用测地线距离计算得到空间显著性图.然后, 对空间显著性图进行阈值分割得到前景种子点, 在时间图模型上利用流形排序方法得到时间显著性图.最后, 将空间显著性图和时间显著性图取平均后得到最终的视频显著性检测结果.
除了上述介绍的几类方法外, 其他一些图像处理技术如超像素分割、随机游走、能量函数优化等也被应用于视频显著性检测中, 接下来将重点介绍几种典型算法.
Liu等人[
Wang等人[
Kim等人[
● 运动独特性(motion distinctiveness):将运动轮廓作为运动特征, 并以此构建运动图模型, 利用Tanimoto测度计算边权重, 并通过传统的随机游走模型计算稳态分布得到运动特征图.
● 时间一致性(temporal consistency):利用前一帧视频的空时显著性结果计算当前帧的时间一致性, 将当前帧某个块的时间显著性定义为在前一帧视频中的对应位置周围所有块中最匹配块内的所有像素的空时显著性的平均值.
● 突变特性(abrupt change):主要用于解决突然出现新目标的问题, 如果当前帧的某个块与前一帧中最匹配块的相似性小于特定阈值, 则将其定义为突变块.
Liu等人[
基于生物视觉特征和视觉信息学, 方志明等人[
除了上述基于底层线索的视频显著性检测方法以外, 基于学习的检测方法也受到了研究学者的广泛关注.特别是随着深度学习技术的发展和成熟, 已有多项工作利用深度学习实现了视频的显著性检测, 大幅度地提高了算法的性能.本节将介绍几种典型的基于学习的视频显著性检测方法, 并着重讨论两种利用深度学习实现视频显著性检测的方法.
Liu等人[
通过主摄像机运动去除(dominant camera motion removal)技术, Huang[
近年来, 深度学习技术蓬勃发展, 已被广泛应用于诸如分类、检测、识别、检索、语音处理等多个领域, 受到了学术界和工业界的广泛关注.目前, 常用的深度学习网络有:AlexNet网络、VGG网络、GoogleNet网络、ResNet网络、全卷积网络(fully convolutional network, 简称FCN)、反卷积网络(deconvolution network, 简称DN)等.本小节将重点介绍两种基于深度学习的视频显著性检测算法.
Wang等人[
文献[
Flowchart of the algorithms in Ref.[
另外一篇基于深度学习的视频显著性检测算法仅为预出版版本, 由Le等人[
文献[
Flowchart of the algorithms in Ref.[
本节将从实验的角度对几种最新的视频检测算法进行比较分析, 首先对常用的视频显著性检测数据库进行介绍, 然后给出算法性能的评价指标, 最后在不同数据库上比较和分析几种最新的视频检测算法的性能.
为了科学、有效地评价各类视频显著性检测算法的性能, 提出了许多标准的视频数据集供研究人员对算法进行测试和对比, 常用的数据集主要有:
(1) SegTrack数据集
SegTrack数据集包含两个版本.2010年, Tsai等人建立了SegTrackV1数据集[
(2) ViSal数据集
2015年, 北京理工大学组建了包括17个极具挑战性视频序列的ViSal数据集[
(3) MCL数据集
2015年, 高丽大学组建了MCL数据集[
(4) DAVIS数据集
2016年, 苏黎世联邦理工学院公开了一个稠密标记的视频目标分割数据集——DAVIS数据集[
(5) UVSD数据集
2017年, 上海大学公布了一个新的视频显著性检测数据集——UVSD数据集[
为了验证算法的有效性, 除了直观的与真图进行视觉对比外, 还需要利用评价指标定量分析算法的性能.本节将介绍4种常用的评价指标.
(1) 准确率-召回率
通过对比二值显著性图和真图, 可以计算出准确率(precision)和召回率(recall).二值显著性图采用对显著性图进行固定阈值分割的方式得到.像素的显著性值范围在[0, 255]之间变化, 将分割阈值依次从0变化到255, 大于等于阈值的像素值置1, 小于阈值的像素值置0, 进而生成256张二值显著性图.将每张二值显著性图与真图比较, 就可以计算出每个阈值下的准确率和召回率:
其中,
(2)
其中,
(3) ROC曲线下面积——AUC
ROC曲线(即受试者工作特性曲线)是以假阳性概率(false positive rate, 简称FPR)为横轴, 真阳性概率(true positive rate, 简称TPR)概率为纵轴所组成的坐标图, FPR和TPR的定义如下:
其中,
(4) 平均绝对误差——MAE
平均绝对误差描述了二值显著性图与真图的像素级的直接比较, 数值越小, 说明两张图像越接近, 算法性能越好, 其定义式如下:
其中,
本节在不同数据库下进行实验, 并对多种视频显著性检测的相关算法进行了比较和分析.实验所用视频显著性检测数据集包括SegTrackV1数据集、UVSD数据集和ViSal数据集.实验对比了9种显著性检测算法, 包括单图显著性检测算法(如DSR[
不同方法的可视化结果
Visual results of different methods
(1) 由于缺少运动信息和帧间信息约束, 单图显著性检测方法不能有效地提取视频中的显著性目标.
(2) 协同显著性检测算法虽然引入了帧间关系, 但缺少运动信息, 因而也不能获得较好地检测视频中的显著性目标.从
(3) 与其他算法相比, 视频显著性检测算法获得了相对较好的检测结果.对于相对简单的慢跑视频, CVS算法获得了最好的检测结果, 其次是SG算法.其余几种算法虽然可以确定显著性目标的大体位置, 但也存在背景区域抑制能力较差、前景目标检测不完整等问题.对于另外两个较难的视频, 多数视频显著性检测算法仅能大致定位显著性目标所在的区域, 而不能准确、完整的提取显著性目标.此外, 由于复杂背景区域的干扰, 导致许多背景区域被误检为显著性区域, 降低了算法的性能.换言之, 现有算法仍远远没有达到理想的效果.
3个数据集下的不同方法的定量结果比较
Quantitative comparisons with different methods on three datasets
方法 | 数据库 | |||||
SegTrackV1 | UVSD | ViSal | ||||
MAE | MAE | MAE | ||||
DSR[ |
0.444 5 | 0.130 5 | 0.386 6 | 0.116 0 | 0.692 3 | 0.106 1 |
RRWR[ |
0.326 7 | 0.196 3 | 0.391 8 | 0.183 9 | 0.670 7 | 0.169 0 |
CCS[ |
0.148 6 | 0.143 7 | 0.312 5 | 0.110 3 | 0.531 7 | 0.142 7 |
STBP[ |
0.658 3 | 0.034 2 | 0.491 4 | 0.084 0 | 0.681 5 | 0.098 7 |
SP[ |
0.215 9 | 0.119 5 | 0.229 6 | 0.149 0 | 0.572 3 | 0.151 0 |
CVS[ |
0.537 0 | 0.108 5 | 0.513 5 | 0.102 9 | 0.667 6 | 0.113 9 |
SG[ |
0.621 8 | 0.081 0 | 0.484 7 | 0.105 0 | 0.664 0 | 0.112 9 |
RWRV[ |
0.445 8 | 0.151 1 | 0.315 2 | 0.177 9 | 0.466 2 | 0.190 3 |
SGSP[ |
0.627 5 | 0.125 8 | 0.602 5 | 0.157 4 | 0.622 6 | 0.177 2 |
综上所述, 相对于单图显著性检测算法和协同显著性检测算法, 引入运动信息和帧间关系的视频显著性检测算法获得了较好的性能.这也间接说明了研究视频显著性检测算法的必要性, 证明了运动信息和帧间关系在定位视频中显著性目标的重要作用.在未来, 还需进一步深入挖掘视频运动信息, 探索更好的帧间关系描述方式, 进而辅助显著性目标判别, 这也是视频显著性检测领域的一个研究重点和难点.
视频显著性检测是计算机视觉领域的一项基础研究工作, 可以作为后续许多研究的先导性操作, 具有十分重要的理论研究意义和实际应用价值.本节将进一步总结梳理视频显著性检测的关键问题, 并对未来的发展趋势进行展望.
(1) 有效挖掘视频序列的运动信息, 探索运动与显著性之间的关系, 设计有效的运动显著性度量.现有方法往往借助光流信息描述物体的运动, 但光流计算过程十分耗时, 且获取的光流估计不准确, 这将极大地降低运动信息提取的准确性.深度学习技术可以通过设计有效的网络结构避免光流估计过程, 是一个值得考虑的研究切入点.此外, 对于视频背景杂乱、显著性目标小、前景背景对比度低等难度较大的场景, 运动信息的作用将更加重要.而且, 当单帧视频中存在多个显著性目标时, 还需要借助运动信息对目标进行筛选, 提取与运动相关的显著性目标.
(2) 充分提取视频帧间对应关系, 构建帧间约束机制, 设计简单、有效的时间显著性模型.现有方法通常利用视频前后帧的信息, 获取帧间关系.实际上, 帧间关系的提取可以借鉴协同显著性检测中的图间关系提取方法, 如相似性匹配、传播等技术.但需要注意的是, 视频序列的相邻帧的外貌、背景等信息变化不大, 这与协同显著性检测的处理场景是不一样的.
(3) 考虑视频显著性目标的一致性, 获得更加完整、统一的视频显著性检测结果.现有方法往往忽略了视频显著性目标的全局一致性和帧间相关性, 即显著性目标在整个视频序列中应该是反复出现的统一目标.因此, 可以通过设计优化模型(如能量函数优化、传播优化等)进一步优化显著性检测结果.
(4) 视频序列中并非每一帧中都存在显著性目标, 而且有可能单帧视频中的显著性目标并非是整个视频的显著目标, 因此还需要处理如下几种特殊情况.
① 某些视频帧中没有显著性目标, 可以通过设计一种判别机制来对视频帧进行预甄别来解决该问题.
② 某些视频帧中出现了新目标, 进而可能存在遮挡问题, 还需进一步对目标进行判别, 此时应考虑视频显著性目标的全局一致性.
③ 某些视频序列的目标运动过快, 这样容易产生运动模糊等问题, 还需进一步研究解决方案.
(5) 设计高效的视频显著性检测系统, 实现显著性区域的实时提取.作为前期预处理技术, 通常需要算法具有较高的实时性, 而现有方法在实时性和准确性方面往往不能兼得.因此, 需要在进一步提升检测效果的同时, 考虑进一步降低运算量, 节省算法运行时间.
经过多年的发展, 视频显著性检测技术已取得了一定的进展, 但其检测精度还远远没有达到人们的预期, 具有较大的发展空间.尤其是大数据时代的来临和深度学习技术的发展, 为视频显著性检测指明了一条新的道路.现有研究表明, 深度学习不仅可以获得更高的检测结果, 还可以有效避免光流估计过程, 实际测试环节表现出了较好的实时性, 可谓一举两得.在未来, 基于深度学习的视频显著性检测方法将会取得更大的进展.此外, 通过进一步挖掘运动信息和帧间关系, 探索融合底层线索和深度学习的视频显著性检测框架, 也具有较好的发展前景.
Gao Y, Shi MJ, Tao D, Xu C. Database saliency for fast image retrieval. IEEE Trans. on Multimedia, 2015, 17(3):359-369.
Ren ZX, Gao SH, Chia LT, Tsang IWH. Region-Based saliency detection and its application in object recognition. IEEE Trans. on Circuits and Systems for Video Technology, 2014, 24(5):769-779.
Fu HZ, Xu D, Lin S, Liu J. Object-Based RGBD image cosegmentation with mutex constraint. In: Proc. of the CVPR. 2015. 4428-4436.
Lei JJ, Wu M, Zhang CQ, Wu F, Ling N, Hou CP. Depth-Preserving stereo image retargeting based on pixel fusion. IEEE Trans. on on Multimedia, 2017, 19(7):1442-1453.
Lei JJ, Zhang CC, Fang YM, Gu ZY, Ling N, Hou CP. Depth sensation enhancement for multiple virtual view rendering. IEEE Trans. on Multimedia, 2015, 17(4):457-469.
Xiao DG, Xin C, Zhang T, Zhu H, Li XL. Saliency texture structure descriptor and its application in pedestrian detection. Ruan Jian Xue Bao/Journal of Software, 2014, 25(3):675-689(in Chinese with English abstract). http://www.jos.org.cn/1000-9825/4438.htm[doi:10.13328/j.cnki.jos.004438]
肖德贵, 辛晨, 张婷, 朱欢, 李小乐.显著性纹理结构特征及车载环境下的行人检测.软件学报, 2014, 25(3):675-689. http://www.jos.org.cn/1000-9825/4438.htm[doi:10.13328/j.cnki.jos.004438]
Gu K, Wang SQ, Yang H, Lin WS, Zhai GT, Yang XK, Zhang WJ. Saliency-Guided quality assessment of screen content images. IEEE Trans. on Multimedia, 2016, 18(6):1098-1110.
Han S, Vasconcelos N. Image compression using object-based regions of interest. In: Proc. of the ICIP. 2006. 3097-3100.
Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1998, 20(11):1254-1259.
Ma YF, Zhang HJ. Contrast-Based image attention analysis by using fuzzy growing. In: Proc. of the ACM MM. 2003. 374-381.
Zhang P, Wang RS. Detecting salient regions based on location shift and extent trace. Ruan Jian Xue Bao/Journal of Software, 2004, 15(6):891-898(in Chinese with English abstract). http://www.jos.org.cn/1000-9825/15/891.htm
张鹏, 王润生.基于视点转移和视区追踪的图像显著区域检测.软件学报, 2004, 15(6):891-898. http://www.jos.org.cn/1000-9825/15/891.htm
Harel J, Koch C, Perona P. Graph-Based visual saliency. In: Proc. of the ANIPS. 2006. 545-552.
Zhai Y, Shah M. Visual attention detection in video sequences using spatiotemporal cues. In: Proc. of the ACM MM. 2006. 815-824.
Hou XD, Zhang LQ. Saliency detection: A spectral residual approach. In: Proc. of the CVPR. 2007.
Liu T, Sun J, Zheng NN, Tang XO. Shum HY. Learning to detect a salient object. In: Proc. of the CVPR. 2007.
Achanta R, Hemami S, Estrada F, Susstrunk S. Frequency-Tuned salient region detection. In: Proc. of the CVPR. 2009. 1597-1604.
Cheng MM, Zhang GX, Mitra NJ, Huang X, Hu SM. Global contrast based salient region detection. In: Proc. of the CVPR. 2011. 409-416.
Zhu WJ, Liang S, Wei YC, Sun J. Saliency optimization from robust background detection. In: Proc. of the CVPR. 2014. 2814-2821.
Zhou L, Yang ZH, Yuan Q, Zhou ZT, Hu DW. Salient region detection via integrating diffusion-based compactness and local contrast. IEEE Trans. on Image Processing, 2015, 24(11):3308-3320.
Lei JJ, Wang BR, Fang YM, Lin WS, Callet PL, Ling N, Hou CP. A universal framework for salient object detection. IEEE Trans. on Multimedia, 2016, 18(9):1783-1795.
Li XH, Lu HC, Zhang LH, Ruan X, Yang MH. Saliency detection via dense and sparse reconstruction. In: Proc. of the ICCV. 2013. 2976-2983.
Chen TS, Lin L, Liu LB, Luo XN, Li XL. DISC:Deep image saliency computing via progressive representation learning. IEEE Trans. on Neural Networks and Learning Systems, 2015, 27(6):1135-1149.
He SF, Lau RW, Liu WX, Huang Z, Yang QX. SuperCNN:A superpixelwise convolutional neural network for salient object detection. International Journal of Computer Vision, 2015, 115(3):330-344.
Lee G., Ta YW, Kim J. Deep saliency with encoded low level distance map and high level features. In: Proc. of the CVPR. 2016. 660-668.
Li GB, Yu YZ. Deep contrast learning for salient object detection. In: Proc. of the CVPR. 2016. 478-487.
Liu N, Han JW. DHSNet: Deep hierarchical saliency network for salient object detection. In: Proc. of the CVPR. 2016. 678-686.
Zhang J, Dai YC, Porikli F. Deep salient object detection by integrating multi-level cues. In: Proc. of the WACV. 2017. 1-10.
Hou QB, Cheng MM, Hu XW, Borji A, Tu ZW, Torr P. Deeply supervised salient object detection with short connections. In: Proc. of the CVPR. 2017. 5300-5309.
Qin Y, Lu HC, Xu YQ, Wang H. Saliency detection via cellular automata. In: Proc. of the CVPR. 2015. 110-119.
Li CY, Yuan YC, Cai WD, Xia Y, Feng DD. Robust saliency detection via regularized random walks ranking. In: Proc. of the CVPR. 2015. 2710-2717.
Kim J, Han D, Tai YW, Kim J. Salient region detection via high-dimensional color transform and local spatial support. IEEE Trans. on Image Processing, 2015, 25(1):9-23.
Guo F, Shen JB, Li XL. Learning to detect stereo saliency. In: Proc. of the ICME. 2014. 1-6.
Lei JJ, Zhang HL, You L, Hou CP, Wang LH. Evaluation and modeling of depth feature incorporated visual attention for salient object segmentation. Neurocomputing, 2013, 120:24-33.
Cong RM, Lei JJ, Zhang CQ, Huang QM, Cao XC, Hou CP. Saliency detection for stereoscopic images based on depth confidence analysis and multiple cues fusion. IEEE Signal Processing Letters, 2016, 23(6):819-823.
Ju R, Liu Y, Ren TW, Ge L, Wu GS. Depth-Aware salient object detection using anisotropic center-surround difference. Signal Processing:Image Communication, 2015, 38:115-126.
Feng D, Barnes N, You SD, McCarthy C. Local background enclosure for RGB-D salient object detection. In: Proc. of the CVPR. 2016. 2343-2350.
Fu HZ, Cao XC, Tu ZW. Cluster-Based co-saliency detection. IEEE Trans. on Image Processing, 2013, 22(10):3766-3778.
Cao XC, Tao ZQ, Zhang B, Fu HZ, Feng W. Self-Adaptively weighted co-saliency detection via rank constraint. IEEE Trans. on Image Processing, 2014, 23(9):4175-4186.
Li YJ, Fu KR, Liu Z, Yang J. Efficient saliency-model-guided visual co-saliency detection. IEEE Signal Processing Letters, 2015, 22(5):588-592.
Huang R, Feng W, Sun JZ. Saliency and co-saliency detection by low-rank multiscale fusion. In: Proc. of the ICME. 2015. 1-6.
Song HK, Liu Z, Xie YF, Wu L, Huang MK. RGBD co-saliency detection via bagging-based clustering. IEEE Signal Processing Letters, 2016, 23(12):1722-1726.
Cong RM, Lei JJ, Fu HZ, Huang QM, Cao XC, Hou CP. Co-Saliency detection for RGBD images based on multi-constraint feature matching and cross label propagation. IEEE Trans. on Image Processing, 2018, 27(2):568-579.
Hou XD, Zhang LQ. Dynamic visual attention: Searching for coding length increments. In: Proc. of the NIPS. 2008. 681-688.
Seo HJ, Milanfar P. Static and space-time visual saliency detection by self-resemblance. Journal of Vision, 2009, 9(12):1-27.
Guo CL, Ma Q, Zhang LM. Spatio-Temporal saliency detection using phase spectrum of quaternion Fourier transform. In: Proc. of the CVPR. 2008. 1-8.
Guo C, Zhang L. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression. IEEE Trans. on Image Processing, 2010, 19(1):185-198.
Cui XY, Liu QS, Metaxas DN. Temporal spectral residual: Fast motion saliency detection. In: Proc. of the ACM MM. 2009. 617-620.
Fang YM, Lin WS, Chen ZZ, Tsai CM, Lin CW. A video saliency detection model in compressed domain. IEEE Trans. on Circuits and Systems for Video Technology, 2014, 24(1):27-38.
Liu YG, Chen YW. Video saliency detection algorithm based on motion spectral residual. Computer Engineering, 2014, 40(12):247-250, 257(in Chinese with English abstract).
刘宇光, 陈耀武.基于运动谱残差的视频显著性检测算法.计算机工程, 2014, 40(12):247-250, 257.
Qiu GP, Gu XD, Chen ZB, Chen QQ, Wang C. An information theoretic model of patiotemporal visual saliency. In: Proc. of the ICME. 2007. 1806-1809.
Liu C, Yuen PC, Qiu GP. Object motion detection using information theoretic spatio-temporal saliency. Pattern Recognition, 2009, 42(11):2897-2906.
Li Y, Zhou Y, Yan JC, Niu ZB, Yang J. Visual saliency based on conditional entropy. In: Proc. of the ACCV. 2009. 246-257.
Lu HC, Li XH, Zhang LH, Ruan X, Yang MH. Dense and sparse reconstruction error based saliency descriptor. IEEE Trans. on Image Processing, 2016, 25(4):1592-1603.
Li NY, Sun BL, Yu JY. A weighted sparse coding framework for saliency detection. In: Proc. of the CVPR. 2015. 5216-5223.
Yuan YC, Li CY, Kim J, Cai WD, Feng DD. Dense and sparse labeling with multi-dimensional features for saliency detection. IEEE Trans. on Circuits and Systems for Video Technology, 2018, 28(5):1130-1143.[doi:10.1109/TCSVT.2016.2646720]
Li Y, Zhou Y, Xu L, Yang XC, Yang J. Incremental sparse saliency detection. In: Proc. of the ICIP. 2009. 3093-3096.
Luo Y, Tian Q. Spatio-Temporal enhanced sparse feature selection for video saliency estimation. In: Proc. of the CVPRW. 2012. 33-38.
Ren ZX, Chia LT, Rajan D. Video saliency detection with robust temporal alignment and local-global spatial contrast. In: Proc. of the ACM ICMR. 2012. 1-8.
Ren ZX, Gao SH, Rajan D, Chia LT, Huang Y. Spatiotemporal saliency detection via sparse representation. In: Proc. of the ICME. 2012. 158-163.
Ren ZX, Gao SH, Chia LT, Rajan D. Regularized feature reconstruction for spatiotemporal saliency detection. IEEE Trans. on Image Processing, 2013, 22(8):3120-3132.
Xue YW, Guo XJ, Cao XC. Motion saliency detection using low-rank and sparse decomposition. In: Proc. of the ICASSP. 2012. 1485-1488.
Chen CLZ, Li S, Wang YG, Qin H, Hao AM. Video saliency detection via spatial-temporal fusion and low-rank coherency diffusion. IEEE Trans. on Image Processing, 2017, 26(7):3156-3170.
Itti L, Baldi P. A principled approach to detecting surprising events in video. In: Proc. of the CVPR. 2005. 631-637.
Mahadevan V, Vasconcelos N. Spatiotemporal saliency in dynamic scenes. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2010, 32(1):171-177.
Kim W, Kim C. Spatiotemporal saliency detection using textural contrast and its applications. IEEE Trans. on Circuits and Systems for Video Technology, 2014, 24(4):646-659.
Kim W, Han JJ. Video saliency detection using contrast of spatiotemporal directional coherence. IEEE Signal Processing Letters, 2014, 21(10):1250-1254.
Zhou F, Kang SB, Cohen MF. Time-Mapping using space-time saliency. In: Proc. of the CVPR. 2014. 3358-3365.
Le TN, Sugimoto A. Region-Based multiscale spatiotemporal saliency for video. arXiv: 1708. 01589, 2017.
Xi T, Zhao W, Wang H, Lin WS. Salient object detection with spatiotemporal background priors for video. IEEE Trans. on Image Processing, 2017, 26(7):3425-3436.
Liu Z, Zhang X, Luo SH, Meur OL. Superpixel-Based spatiotemporal saliency detection. IEEE Trans. on Circuits and Systems for Video Technology, 2014, 24(9):1522-1540.
Wang WG, Shen JB, Shao L. Consistent video saliency using local gradient flow optimization and global refinement. IEEE Trans. on Image Processing, 2015, 24(11):4185-4196.
Wang WG, Shen JB, Porikli F. Saliency-Aware geodesic video object segmentation. In: Proc. of the CVPR. 2015. 3395-3402.
Wang WG, Shen JB, Yang RG, Porikli F. A unified spatiotemporal prior based on geodesic distance for video object segmentation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018, 40(1):20-33.
Kim H, Kim Y, Sim JY, Kim CS. Spatiotemporal saliency detection for video sequences based on random walk with restart. IEEE Trans. on Image Processing, 2015, 24(8):2552-2564.
Liu Z, Li JH, Ye LW, Sun GL, Shen LQ. Saliency detection for unconstrained videos using superpixel-level graph and spatiotemporal propagation. IEEE Trans. on Circuits and Systems for Video Technology, 2017, 27(12):2527-2542.[doi:10.1109/TCSVT.2016.2595324]
Fang ZM, Cui RY, Jin JX. Video saliency detection algorithm based on biological visual feature and visual psychology theory. Acta Physica Sinica, 2017, 66(10):1-14(in Chinese with English abstract).
方志明, 崔荣一, 金璟璇.基于生物视觉特征和视觉心理学的视频显著性检测算法.物理学报, 2017, 66(10):1-14.
Liu T, Yuan ZJ, Sun J, Wang JD, Zheng NN, Tang XO, Shum HY. Learning to detect a salient object. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2011, 33(2):353-367.
Huang CR, Chang YJ, Yang ZX, Lin YY. Video saliency map detection by dominant camera motion removal. IEEE Trans. on Circuits and Systems for Video Technology, 2014, 24(8):1336-1349.
Wang WG, Shen JB, Shao L. Video salient object detection via fully convolutional networks. IEEE Trans. on Image Processing, 2018, 27(1):38-49.
Le TN, Sugimoto A. Video salient object detection using spatiotemporal deep features. arXiv: 1708. 01447, 2017. 1-13.
Tsai D, Flagg M, Rehg JM. Motion coherent tracking with multi-label MRF optimization. In: Proc. of the BMVC. 2010. 1-11.
Li FX, Kim T, Humayun A, Tsai D, Rehg JM. Video segmentation by tracking many figure-ground segments. In: Proc. of the ICCV. 2013. 2192-2199.
Perazzi F, Pont-Tuset J, McWilliams B, Gool LV, Gross M, Sorkine-Hornung A. A benchmark dataset and evaluation methodology for video object segmentation. In: Proc. of the CVPR. 2016. 724-732.