2019, 30(4):865-866. DOI: 10.13328/j.cnki.jos.005668 CSTR:
摘要:
2019, 30(4):867-883. DOI: 10.13328/j.cnki.jos.005665 CSTR:
摘要:作为计算机视觉、多媒体、人工智能和自然语言处理等领域的交叉性研究课题,视觉场景描述的研究内容是自动生成一个或多个语句用于描述图像或视频中呈现的视觉场景信息.视觉场景中内容的丰富性和自然语言表达的多样性使得视觉场景描述成为一项充满挑战的任务,综述了现有视觉场景描述方法及其效果评价.首先,论述了视觉场景描述的定义、研究任务及方法分类,简要分析了视觉场景描述与多模态检索、跨模态学习、场景分类、视觉关系检测等相关技术的关系;然后分类讨论视觉场景描述的主要方法、模型及研究进展,归纳日渐增多的基准数据集;接下来,梳理客观评价视觉场景描述效果的主要指标和视觉场景描述技术面临的问题与挑战,最后讨论未来的应用前景.
2019, 30(4):884-895. DOI: 10.13328/j.cnki.jos.005664 CSTR:
摘要:随着互联网与多媒体技术的迅猛发展,网络数据的呈现形式由单一文本扩展到包含图像、视频、文本、音频和3D模型等多种媒体,使得跨媒体检索成为信息检索的新趋势.然而,"异构鸿沟"问题导致不同媒体的数据表征不一致,难以直接进行相似性度量,因此,多种媒体之间的交叉检索面临着巨大挑战.随着深度学习的兴起,利用深度神经网络模型的非线性建模能力有望突破跨媒体信息表示的壁垒,但现有基于深度学习的跨媒体检索方法一般仅考虑图像和文本两种媒体数据之间的成对关联,难以实现更多种媒体的交叉检索.针对上述问题,提出了跨媒体深层细粒度关联学习方法,支持多达5种媒体类型数据(图像、视频、文本、音频和3D模型)的交叉检索.首先,提出了跨媒体循环神经网络,通过联合建模多达5种媒体类型数据的细粒度信息,充分挖掘不同媒体内部的细节信息以及上下文关联.然后,提出了跨媒体联合关联损失函数,通过将分布对齐和语义对齐相结合,更加准确地挖掘媒体内和媒体间的细粒度跨媒体关联,同时利用语义类别信息增强关联学习过程的语义辨识能力,提高跨媒体检索的准确率.在两个包含5种媒体的跨媒体数据集PKU XMedia和PKU XMediaNet上与现有方法进行实验对比,实验结果表明了所提方法的有效性.
包仁达 , 庾涵 , 朱德发 , 黄少飞 , 孙瑶 , 刘偲
2019, 30(4):896-913. DOI: 10.13328/j.cnki.jos.005666 CSTR:
摘要:自动上妆旨在通过计算机算法实现人脸妆容的编辑与合成,隶属于人脸图像分析领域.其在互动娱乐应用、图像视频编辑、辅助人脸识别等多方面起着重要作用.然而作为人脸编辑任务,其仍难以在保证图像的编辑结果自然、真实的同时又很好地满足编辑需求,并且仍有难以精确控制编辑区域、图像编辑前后一致性差、图像质量不够精细等问题.针对以上难点,创新性地提出了一种掩模控制的自动上妆生成对抗网络,该网络利用掩模方法,能够重点编辑上妆区域,约束人脸妆容编辑中无需编辑的区域不变,保持主体信息.同时其又能单独编辑人脸的眼影、嘴唇、脸颊等局部区域,实现特定区域上妆,丰富了上妆功能.此外,该网络能够进行多数据集联合训练,除妆容数据集外,还可以使用其他人脸数据集作为辅助,增强模型的泛化能力,得到更加自然的上妆结果.最后,依据多种评价标准,进行了充分的定性及定量实验,并与目前的主流算法进行了对比,综合评价了所提方法的性能.
2019, 30(4):914-926. DOI: 10.13328/j.cnki.jos.005661 CSTR:
摘要:遥感图像的多目标分类是一个具有挑战性的课题.首先,由于数据的复杂性以及算法对存储的高需求,传统分类方法很难兼顾到分类的精度和速度;其次,遥感成像过程中产生的仿射变换,使得目标的快速解译难以实现.为此,提出一种基于仿射不变离散哈希(AIDH)的遥感图像多目标分类方法.该方法采用具有低存储、高效率优势的监督离散哈希框架,结合仿射不变优化因子,构造仿射不变离散哈希,通过将具有相同语义信息的仿射变换样本约束到相似的二值码空间实现分类精度的提高.实验结果表明,在NWPU VHR-10和RSDO-dataset两个数据集下,相比于经典的哈希方法和分类方法,所提方法在具备了高效性的同时,其精度也得到了保证.
2019, 30(4):927-940. DOI: 10.13328/j.cnki.jos.005662 CSTR:
摘要:目标跟踪是计算机视觉领域众多应用中的重要组成部分之一.在实际环境中目标经常会因为形变、快速运动、背景杂波和遮挡而引起明显的表观变化,使得该问题具有一定的挑战性,因此如何对跟踪问题进行建模变得至关重要.基于深度卷积神经网络(convolutional neural network,简称CNN)的判别式相关滤波(discriminative correlation filter,简称DCF)跟踪方法自提出以来,就以兼顾准确率和速度的优势,吸引了大量研究者的关注,该方法通过相关滤波器获取目标候选区域的响应图,作为衡量目标位置的标准,理想响应图的最大值应该对应目标所在的位置.在此基础上,考虑到响应图中数值的连续性,对应的连续条件随机场(conditional random field,简称CRF)模型中极大似然对数存在闭式解,因此对响应值的求解可以定义为一个连续CRF的学习问题.基于以上研究,提出了一种基于条件随机场的鲁棒性深度相关滤波目标跟踪算法,将DCF与CRF结合,设计了一个端到端的深度卷积神经网络,嵌入了CRF中的一元状态函数与二元转移函数,用来获取图片的响应.通过结合一元状态函数中的初始响应和二元转移函数中的相似度矩阵,优化后的算法可以得到一个更平滑、更精确的响应图,从而提高跟踪的鲁棒性.最后,在OTB-2013和OTB-2015这两个数据集上进行了大量的测试,并且与近年来9种在国际上具有代表性的相关算法进行对比分析,结果显示,在OTB-2013中,所提出的算法比基准方法的跟踪成功率高3%,跟踪精度高6.1%;在OTB-2015中,所提出的算法比基准方法的跟踪成功率高3.5%,跟踪精度高4.8%.
段立娟 , 武春丽 , 恩擎 , 乔元华 , 张韵东 , 陈军成
2019, 30(4):941-953. DOI: 10.13328/j.cnki.jos.005663 CSTR:
摘要:单幅图像超分辨率(SISR)是指从一张低分辨率图像重建高分辨率图像.传统的神经网络方法通常在图像的空间域进行超分辨率重构,但这些方法常在重构过程中忽略重要的细节.鉴于小波变换能够将图像内容的"粗略"和"细节"特征进行分离,提出一种基于小波域的深度残差网络(DRWSR).不同于其他传统的卷积神经网络直接推导高分辨率图像(HR),该方法采用多阶段学习策略,首先推理出高分辨率图像对应的小波系数,然后重建超分辨率图像(SR).为了获取更多的信息,该方法采用一种残差嵌套残差的灵活可扩展的深度神经网络.此外,提出的神经网络模型采用结合图像空域与小波域的损失函数进行优化求解.所提出的方法在Set5、Set14、BSD100、Urban100等数据集上进行实验,实验结果表明,该方法的视觉效果和峰值信噪比(PSNR)均优于相关的图像超分辨率方法.
2019, 30(4):954-961. DOI: 10.13328/j.cnki.jos.005667 CSTR:
摘要:实例分割是一项具有挑战性的任务,它不仅需要每个实例的边界框,而且需要精确的像素级分割掩码.最近提出的端到端的全卷积实例感知分割网络(FCIS)在检测与分割的结合方面做得很好.但是,FCIS没有利用低层特征,而低层次的特征信息在检测和分割上都证明是有用的.在FCIS的基础上,提出了一种新的模型,充分利用了各层次的特征,并对实例分割模块进行了优化.该方法在检测分支中使用了具有大型卷积核的可分离卷积来获得更精确的边界框.同时,设计了一个包含边界细化操作的分割模块,以获得更精确的掩模.此外,将Resnet-101网络中的低级、中级和高级特征组合成4个不同级别的新特征,每个新特征都被用于生成实例的掩码.这些掩码被相加之后通过进一步细化以产生最终的最精确的掩模.通过这3项改进,实验结果表明,该方法明显优于基线方法FCIS,相比于FCIS,该方法在PASCAL VOC数据集上的评测指标mAPr@0.5和mAPr@0.7分别提高了4.9%和5.8%.
2019, 30(4):962-980. DOI: 10.13328/j.cnki.jos.005711 CSTR:
摘要:代码克隆(code clone),是指存在于代码库中两个及以上相同或者相似的源代码片段.代码克隆相关问题是软件工程领域研究的重要课题.代码克隆是软件开发中的常见现象,它能够提高效率,产生一定的正面效益.但是研究表明,代码克隆也会对软件系统的开发、维护产生负面的影响,包括降低软件稳定性,造成代码库冗余和软件缺陷传播等.代码克隆检测技术旨在寻找检测代码克隆的自动化方法,从而用较低成本减少代码克隆的负面效应.研究者们在代码克隆检测方面获得了一系列的检测技术成果,根据这些技术利用源代码信息的程度不同,可以将它们分为基于文本、词汇、语法、语义4个层次.现有的检测技术针对文本相似的克隆取得了有效的检测结果,但同时也面临着更高抽象层次克隆的挑战,亟待更先进的理论、技术来解决.着重从源代码表征方式角度入手,对近年来代码克隆检测研究进展进行了梳理和总结.主要内容包括:(1)根据源代码表征方式阐述并归类了现有的克隆检测方法;(2)总结了模型评估中使用的实验验证方法与性能评估指标;(3)从科学性、实用性和技术难点这3个方面归纳总结了代码克隆研究的关键问题,围绕数据标注、表征方法、模型构建和工程实践4个方面,阐述了问题的可能解决思路和研究的未来发展趋势.
李雁冰 , 赵荣彩 , 韩林 , 赵捷 , 徐金龙 , 李颖颖
2019, 30(4):981-1001. DOI: 10.13328/j.cnki.jos.005370 CSTR:
摘要:异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主要包括4个模块:任务划分模块用来识别适合进行加速计算的程序段,实现了嵌套循环的多维并行识别方法;数据布局模块完成数据在主存和SPM之间的布局,实现了数组边界分析和指针范围分析;传输优化模块实现了数据传输合并、传输外提、打包传输、数组转置等多种数据传输优化方法;收益评估模块在构建代价模型的基础上实现了一种动静结合的收益评估方法.并且,基于SW26010处理器,对该编译框架进行了实现,测试结果表明,该编译框架能够实现一些程序以面向异构众核结构的并行变换,且获得较好的加速效果.
2019, 30(4):1002-1014. DOI: 10.13328/j.cnki.jos.005371 CSTR:
摘要:针对当前基于机器学习的早期阿尔茨海默病(AD)诊断中有标记训练样本不足的问题,提出一种基于多模态特征数据的权值分布稀疏特征学习方法,并将其应用于早期阿尔茨海默病的诊断.具体来说,该诊断方法主要包括两大模块:基于权值分布的Lasso特征选择模型(WDL)和大间隔分布分类机模型(LDM).首先,为了获取多模态特征之间的数据分布信息,对传统Lasso模型进行改进,引入权值分布正则化项,从而构建出基于权值分布的Lasso特征选择模型;然后,为了有效地利用多模态特征之间的数据分布信息,以保持多模态特征之间的互补性,直接采用大间隔分布学习算法训练分类器.选取国际阿尔茨海默症数据库(ADNI)中202个多模态特征的被试者样本进行实验,分类AD最高平均精度为97.5%,分类轻度认知功能障碍(MCI)最高平均精度为83.1%,分类轻度认知功能障碍转化为AD(pMCI)最高平均精度为84.8%.实验结果表明,所提WDL特征学习方法可从串联的多模态特征学到性能更优的特征子集,并能根据权值分布获取多模态特征之间的数据分布信息,从而提高早期阿尔茨海默病诊断的性能.
2019, 30(4):1015-1030. DOI: 10.13328/j.cnki.jos.005380 CSTR:
摘要:事件抽取旨在从非结构化的文本中提取人们感兴趣的信息,并以结构化的形式呈现给用户.当前,大多数中文事件抽取系统采用连续的管道模型,即:先识别事件触发词,后识别事件元素.其容易产生级联错误,且处于下游的任务无法将信息反馈至上游任务,辅助上游任务的识别.将事件抽取看作序列标注任务,构建了基于CRF多任务学习的中文事件抽取联合模型.针对仅基于CRF的事件抽取联合模型的缺陷进行了两个扩展:首先,采用分类训练策略解决联合模型中事件元素的多标签问题(即:当一个事件提及中包含多个事件时,同一个实体往往会在不同的事件中扮演不同的角色).其次,由于处于同一事件大类下的事件子类,其事件元素存在高度的相互关联性.为此,提出采用多任务学习方法对各事件子类进行互增强的联合学习,进而有效缓解分类训练后的语料稀疏问题.在ACE 2005中文语料上的实验证明了该方法的有效性.
2019, 30(4):1031-1044. DOI: 10.13328/j.cnki.jos.005510 CSTR:
摘要:在时尚销售领域,如服饰、手袋、钱包等,准确的销售预测对企业非常重要.然而由于客户的需求受诸多因素的影响,要做到准确的销售预测一直是一个富有挑战性的问题.基于改进的多维灰色模型(GM(1,N))和神经网络(ANN)提出一种混合模型来预测销量,其中多维灰色模型对销售数据建模,神经网络对误差进行校正.该混合模型的优点是考虑了影响客户需求的因素与销量之间的关系.通过对阿里天猫销售数据来评估混合模型的表现,实验结果表明,所提出的混合模型的预测结果要优于其他几种销售预测模型.
韩忠明 , 刘雯 , 李梦琪 , 郑晨烨 , 谭旭升 , 段大高
2019, 30(4):1045-1061. DOI: 10.13328/j.cnki.jos.005387 CSTR:
摘要:社团结构划分对复杂网络研究在理论和实践上都非常重要.借鉴分布式词向量理论,提出一种基于节点向量表达的复杂网络社团划分方法(CDNEV).为了构建网络节点的分布式向量,提出启发式随机游走模型.利用节点启发式随机游走得到的节点序列作为上下文,采用SkipGram模型学习节点的分布式向量.选择局部度中心节点作为K-Means算法的聚类中心点,然后用K-Means算法进行聚类,最终得到社团结构.在真实和模拟两种网络上做了丰富的实验,与主流的全局社团划分算法和局部社团划分算法作了比较.在真实网络上CDNEV算法的F1指标比其他算法平均提高19%;在模拟网络上,F1指标则可以提高15%.实验结果表明,相对其他算法,CDNEV算法的精度和效率都较高.
2019, 30(4):1062-1077. DOI: 10.13328/j.cnki.jos.005390 CSTR:
摘要:关键字检索具有友好的用户操作体验,该检索方式已在文本信息检索领域得到了广泛而深入的应用.对XML数据采用关键字检索是目前研究的热点.基于查询语义的XML关键字检索方法存在返回大量与用户查询意图无关的查询片段或者丢失符合用户查询意图的片段这两个问题.针对这些问题,在考虑LCA横向和纵向两个维度的基础上,提出了用户查询意图与LCA相关性的两个规则,根据两个规则定义了LCA的边密度和路径密度,建立了综合的LCA节点评分公式,最后设计TopLCA-K算法对LCA进行排名,并利用中心位置索引CI提高了TopLCA-K算法的效率.实验结果显示,利用所提出的方法返回的查询节点更加符合用户需求.
2019, 30(4):1078-1093. DOI: 10.13328/j.cnki.jos.005419 CSTR:
摘要:多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流规模巨大且到达速度快,基于单机的集中式挖掘算法受到硬件资源的限制难以及时发现海量数据流中出现的频繁伴随模式.为此,提出面向大规模数据流频繁伴随模式发现的分布式挖掘算法.该算法首先将每个数据流划分成若干个segment片段,然后构建适合部署在分布式计算平台上的多层挖掘模型,并利用多计算节点以并行方式对大规模数据流进行处理,从而实时发现频繁伴随模式.最后,在真实数据集上进行充分实验以验证算法性能.
2019, 30(4):1094-1105. DOI: 10.13328/j.cnki.jos.005367 CSTR:
摘要:人类基因测序技术的快速发展,测序成本大幅降低,使基因数据得到广泛的应用,在全基因组的单核苷酸多态性与疾病关联研究中,单核苷酸多态性与患者的身份、表型和血缘关系等敏感信息相关联,单核苷酸多态性连锁不平衡容易导致患者的隐私信息泄露.为此,基于单核苷酸多态性连锁不平衡相关系数,提出矩阵差分隐私保护模型以实现基因数据和单核苷酸多态性连锁不平衡的隐私保护,同时确保基因数据具有一定的效用.该模型可以实现单核苷酸多态性连锁不平衡下全基因组关联研究中基因数据隐私与效用的权衡,并对单核苷酸多态性连锁不平衡下的基因隐私保护具有促进作用.
2019, 30(4):1106-1120. DOI: 10.13328/j.cnki.jos.005368 CSTR:
摘要:社交网络平台的快速普及使得社交网络中的个人隐私泄露问题愈发受到用户的关心,传统的数据隐私保护方法无法满足用户数量巨大、关系复杂的社交网络隐私保护需求.图修改技术是针对社交网络数据的隐私保护所提出的一系列隐私保护措施,其中不确定图是将确定图转化为概率图的一种隐私保护方法.主要研究了不确定图中边概率赋值算法,提出了基于差分隐私的不确定图边概率赋值算法,该算法具有双重隐私保障,适合社交网络隐私保护要求高的场景.同时提出了基于三元闭包的不确定图边概率分配算法,该算法在实现隐私保护的同时保持了较高的数据效用,适合简单的社交网络隐私保护场景.分析与比较表明:与(k,ε)-混淆算法相比,基于差分隐私的不确定图边概率赋值算法可以实现较高的隐私保护效果,基于三元闭包的不确定图边概率分配算法具有较高的数据效用性.最后,为了衡量网络结构的失真程度,提出了基于网络结构熵的数据效用性度量算法,该算法能够度量不确定图与原始图结构的相似程度.
2019, 30(4):1121-1135. DOI: 10.13328/j.cnki.jos.005374 CSTR:
摘要:智能车辆编组platoon的稳定运行需要车辆间实时可靠的信息传输来保证.针对应用专用短程通信(DSRC)技术来实现车载自组织网路(VANETs)车间通信的platoon架构,提出了一种车间通信网络性能的分析方法,分别对platoon组内智能车辆间通信和多个platoons组间通信的过程进行了分析.该方法采用长度有限的M/G/1/K排队模型分析数据包到达媒体访问控制(MAC)层的排队过程,得到不同网络负载下缓冲区排队状态的平稳分布;并且在缓冲区可能处于空闲状态时,利用Markov模型分析方法得到不同车辆位置的车间通信性能.研究结果表明:网络数据流量、信道条件、MAC层缓冲区排队过程、争用信道退避过程以及platoon参数对车间通信的包传输时延和包丢失概率等网络性能有显著影响,数值分析结果验证了专用短程通信技术下的车间通信具有较小的信息传输延时,能够满足platoon稳定运行的要求.
2019, 30(4):1136-1147. DOI: 10.13328/j.cnki.jos.005381 CSTR:
摘要:在众多的IEEE 802.11 DCF机制分析模型中,集中分析了同质业务(例如数据包到达速率相同)网络的性能,仅有少量的文献聚焦于异构混合业务(饱和与非饱和工作模式同时存在)网络,而在目前的研究中,对网络的不饱和性及退避时隙冻结等问题归纳分析得并不准确.结合M/G/1排队模型,考虑了DCF机制的退避冻结状态及有限的重传次数等问题,提出了一种全新的改进二维Markov链路模型,用于分析异构混合业务成分下的DCF机制的性能.通过对模型的稳态求解,提出的模型能够分析并计算协议中的3个重要的参数:系统吞吐量、传输时延和传输丢包率.理论仿真与分析结果表明,该模型不仅能够更为准确地分析同质业务下DCF机制的性能,同时充分考虑到了实际应用中的业务情况,还能够更准确、更完善地分析异构混合业务成分下的DCF机制的性能.
2019, 30(4):1148-1163. DOI: 10.13328/j.cnki.jos.005389 CSTR:
摘要:叶片图像的识别是计算机视觉的一个重要应用,其关键问题是如何对其进行有效的描述.提出了一种圆周特征描述方法.该方法用圆心在轮廓线上的圆与轮廓线和叶片形状区域分别相交所得到的圆心角、区域点的空间分布和灰度统计,分别表征叶片的轮廓、形状区域和灰度信息这3类特征,称其为叶片图像的圆周特征描述.通过改变圆的半径来产生由粗到细的圆周特征描述,给出了一种局部的多尺度安排,根据圆心到轮廓线其他各点的距离信息,确定半径的取值范围和各个尺度的半径取值.该方法描述全面,通过分析圆周与叶片图像相交的几何特性,自然地抽取了叶片的轮廓线、区域和灰度信息,且描述子满足对相似性变换的不变性.在公开的测试集上,对该方法进行叶片的分类和检索实验,取得了比现有流行方法更高的精确度,验证了该方法的有效性.
2019, 30(4):1164-1190. DOI: 10.13328/j.cnki.jos.005811 CSTR:
摘要:为了满足应用程序的多样化需求,异构多核处理器出现并逐渐进入市场,其中的处理核心(core)具有不同的微架构或者指令集架构(ISA),为应用提供多样化特性支持,比如指令级并行(ILP)、内存级并行(MLP),这些核心协同工作满足整个计算系统的优化目标,比如高性能、低功耗或者良好的能效.然而,目前主流的调度技术主要是针对传统同构处理器架构设计,没有考虑异构硬件能力的差异性.在异构多核处理器环境下,调度技术如何感知硬件的异构特性,为不同类型的应用程序提供更加合适和匹配的硬件资源,这是值得探索的问题.对近年来在该研究领域的成果进行了综述研究,特别是在性能非对称多核处理器架构下,异构调度技术面临的优化目标、分析模型、调度决策和算法评估等主要问题进行了分析和描述,并依次对相关技术进行了系统的总结,最后从软硬件融合的角度对今后的研究工作进行了展望.
2019, 30(4):1191-1202. DOI: 10.13328/j.cnki.jos.005372 CSTR:
摘要:通过提供高效且持续可用的容错服务以保障云应用系统的可靠运行是至关重要的.采用容错即服务的模式,提出了一种优化的云容错服务动态提供方法,从云应用组件的可靠性及响应时间等方面描述云应用容错需求,以常用的复制、检查点和NVP(N-version programming)等容错技术为基础,充分考虑容错服务动态切换开销,分别针对支撑容错服务的底层云资源是否足够的场景,给出可用容错即服务提供方案的最优化求解方法.实验结果表明,所提方法降低了云应用系统支付的容错服务费用及支撑容错服务的底层云资源的开销,提高了容错服务提供商为多个云应用实施高效、可靠容错即服务的能力.