2023年第34卷第5期文章目次

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  融合预训练技术的多模态学习研究专题前言
    宋雪萌,聂礼强,申恒涛,田奇,黄华
    2023, 34(5):1997-1999. DOI: 10.13328/j.cnki.jos.006776
    [摘要](1234) [HTML](1799) [PDF 862.28 K](2839)
    摘要:
    2  视觉语言预训练综述
    殷炯,张哲东,高宇涵,杨智文,李亮,肖芒,孙垚棋,颜成钢
    2023, 34(5):2000-2023. DOI: 10.13328/j.cnki.jos.006774
    [摘要](2918) [HTML](4324) [PDF 10.38 M](6003)
    摘要:
    近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能.
    3  面向视觉语言理解与生成的多模态预训练方法
    刘天义,吴祖煊,陈静静,姜育刚
    2023, 34(5):2024-2034. DOI: 10.13328/j.cnki.jos.006770
    [摘要](1815) [HTML](2244) [PDF 6.91 M](4567)
    摘要:
    大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation,UniVL).UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据.UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法.
    4  基于虚拟属性学习的文本-图像行人检索方法
    王成济,苏家威,罗志明,曹冬林,林耀进,李绍滋
    2023, 34(5):2035-2050. DOI: 10.13328/j.cnki.jos.006766
    [摘要](1540) [HTML](2254) [PDF 15.99 M](3914)
    摘要:
    文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像.近年来受到学术界和工业界的广泛关注.该任务同时面临两个挑战:细粒度检索以及图像与文本之间的异构鸿沟.部分方法提出使用有监督属性学习提取属性相关特征,在细粒度上关联图像和文本.然而属性标签难以获取,导致这类方法在实践中表现不佳.如何在没有属性标注的情况下提取属性相关特征,建立细粒度的跨模态语义关联成为亟待解决的关键问题.为解决这个问题,融合预训练技术提出基于虚拟属性学习的文本-图像行人检索方法,通过无监督属性学习建立细粒度的跨模态语义关联.第一,基于行人属性的不变性和跨模态语义一致性提出语义引导的属性解耦方法,所提方法利用行人的身份标签作为监督信号引导模型解耦属性相关特征.第二,基于属性之间的关联构建语义图提出基于语义推理的特征学习模块,所提模块通过图模型在属性之间交换信息增强特征的跨模态识别能力.在公开的文本-图像行人检索数据集CUHK-PEDES和跨模态检索数据集Flickr30k上与现有方法进行实验对比,实验结果表明了所提方法的有效性.
    5  预训练驱动的多模态边界感知视觉Transformer
    石泽男,陈海鹏,张冬,申铉京
    2023, 34(5):2051-2067. DOI: 10.13328/j.cnki.jos.006768
    [摘要](1555) [HTML](2628) [PDF 9.96 M](4346)
    摘要:
    卷积神经网络(convolutional neural network,CNN)在图像篡改检测任务中不断取得性能突破,但在面向真实场景下篡改手段未知的情况时,现有方法仍然无法有效地捕获输入图像的长远依赖关系以缓解识别偏差问题,从而影响检测精度.此外,由于标注困难,图像篡改检测任务通常缺乏精准的像素级图像标注信息.针对以上问题,提出一种预训练驱动的多模态边界感知视觉Transformer.首先,为捕获在RGB域中不可见的细微伪造痕迹,引入图像的频域模态并将其与RGB空间域结合作为多模态嵌入形式.其次利用ImageNet对主干网络的编码器进行训练以缓解当前训练样本不足的问题.然后,Transformer模块被整合到该编码器的尾部,以达到同时捕获低级空间细节信息和全局上下文的目的,从而提升模型的整体表征能力.最后,为有效地缓解因伪造区域边界模糊导致的定位难问题,构建边界感知模块,其可以通过Scharr卷积层获得的噪声分布以更多地关注噪声信息而不是语义内容,并利用边界残差块锐化边界信息,从而提升模型的边界分割性能.大量实验结果表明,所提方法在识别精度上优于现有的图像篡改检测方法,并对不同的篡改手段具有较好的泛化性和鲁棒性.
    6  多模态引导的局部特征选择小样本学习方法
    吕天根,洪日昌,何军,胡社教
    2023, 34(5):2068-2082. DOI: 10.13328/j.cnki.jos.006771
    [摘要](1848) [HTML](3128) [PDF 5.85 M](4288)
    摘要:
    深度学习模型取得了令人瞩目的成绩,但其训练依赖于大量的标注样本,在标注样本匮乏的场景下模型表现不尽人意.针对这一问题,近年来以研究如何从少量样本快速学习的小样本学习被提了出来,方法主要采用元学习方式对模型进行训练,取得了不错的学习效果.但现有方法:1)通常仅基于样本的视觉特征来识别新类别,信息源较为单一;2)元学习的使用使得模型从大量相似的小样本任务中学习通用的、可迁移的知识,不可避免地导致模型特征空间趋于一般化,存在样本特征表达不充分、不准确的问题.为解决上述问题,将预训练技术和多模态学习技术引入小样本学习过程,提出基于多模态引导的局部特征选择小样本学习方法.所提方法首先在包含大量样本的已知类别上进行模型预训练,旨在提升模型的特征表达能力;而后在元学习阶段,方法利用元学习对模型进行进一步优化,旨在提升模型的迁移能力或对小样本环境的适应能力,所提方法同时基于样本的视觉特征和文本特征进行局部特征选择来提升样本特征的表达能力,以避免元学习过程中模型特征表达能力的大幅下降;最后所提方法利用选择后的样本特征进行小样本学习.在MiniImageNet、CIFAR-FS和FC-100这3个基准数据集上的实验表明,所提的小样本学习方法能够取得更好的小样本学习效果.
    7  基于自监督图对比学习的视频问答方法
    姚暄,高君宇,徐常胜
    2023, 34(5):2083-2100. DOI: 10.13328/j.cnki.jos.006775
    [摘要](1438) [HTML](2433) [PDF 6.36 M](4089)
    摘要:
    视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性.
    8  基于多域VQGAN的文本生成国画方法研究
    孙泽龙,杨国兴,温静远,费楠益,卢志武,文继荣
    2023, 34(5):2116-2133. DOI: 10.13328/j.cnki.jos.006769
    [摘要](1163) [HTML](2343) [PDF 16.68 M](3833)
    摘要:
    随着生成式对抗网络的出现,从文本描述合成图像最近成为一个活跃的研究领域.然而,目前文本描述往往使用英文,生成的对象也大多是人脸和花鸟等,专门针对中文和中国画的研究较少.同时,文本生成图像任务往往需要大量标注好的图像文本对,制作数据集的代价昂贵.随着多模态预训练的出现与推进,使得能够以一种优化的方式来指导生成对抗网络的生成过程,大大减少了对数据集和计算资源的需求.提出一种多域VQGAN模型来同时生成多种域的中国画,并利用多模态预训练模型WenLan来计算生成图像和文本描述之间的距离损失,通过优化输入多域VQGAN的隐空间变量来达到图片与文本语义一致的效果.对模型进行了消融实验,详细比较了不同结构的多域VQGAN的FIDR-precisoin指标,并进行了用户调查研究.结果表示,使用完整的多域VQGAN模型在图像质量和文本图像语义一致性上均超过原VQGAN模型的生成结果.
    9  预训练模型特征提取的双对抗磁共振图像融合网络研究
    刘慧,李珊珊,高珊珊,邓凯,徐岗,张彩明
    2023, 34(5):2134-2151. DOI: 10.13328/j.cnki.jos.006772
    [摘要](1069) [HTML](2092) [PDF 12.09 M](3400)
    摘要:
    随着多模态医学图像在临床诊疗工作中的普及,建立在时空相关性特性基础上的融合技术得到快速发展,融合后的医学图像不仅可以保留各模态源图像的独有特征,而且能够强化互补信息、便于医生阅片.目前大多数方法采用人工定义约束的策略来实现特征提取和特征融合,这容易导致融合图像中部分有用信息丢失和细节不清晰等问题.为此,提出一种基于预训练模型特征提取的双对抗融合网络实现MR-T1/MR-T2图像的融合.该网络由一个特征提取模块、一个特征融合模块和两个鉴别网络模块组成.由于已配准的多模态医学图像数据集规模较小,无法对特征提取网络进行充分的训练,又因预训练模型具有强大的数据表征能力,故将预先训练的卷积神经网络模型嵌入到特征提取模块以生成特征图.然后,特征融合网络负责融合深度特征并输出融合图像.两个鉴别网络通过对源图像与融合图像进行准确分类,分别与特征融合网络建立对抗关系,最终激励其学习出最优的融合参数.实验结果证明了预训练技术在所提方法中的有效性,同时与现有的6种典型融合方法相比,所提方法融合结果在视觉效果和量化指标方面均取得最优表现.
    10  基于视觉区域聚合与双向协作的端到端图像描述生成
    宋井宽,曾鹏鹏,顾嘉扬,朱晋宽,高联丽
    2023, 34(5):2152-2169. DOI: 10.13328/j.cnki.jos.006773
    [摘要](1057) [HTML](2071) [PDF 4.77 M](3734)
    摘要:
    近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法(visual region aggregation and dual-level collaboration,VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能.
    11  区块链服务网络的构建机理与技术实现
    单志广,张延强,谭敏,何亦凡
    2023, 34(5):2170-2180. DOI: 10.13328/j.cnki.jos.006392
    [摘要](1287) [HTML](1769) [PDF 7.11 M](2712)
    摘要:
    联盟链技术是我国区块链发展和应用的主阵地.传统联盟链应用存在底层技术平台异构、应用技术门槛高、成链成本大、运维监管难等瓶颈问题,限制了区块链技术与应用发展.提出一种区块链公用基础设施——区块链服务网络(blockchain-based service network,BSN)的构建机理,阐述BSN的技术架构和实现机制.BSN已于2020年4月在中国正式商用,能够显著降低区块链开发、部署、运维、互通和监管成本,有利于区块链技术向企业、政府、行业等领域推广应用,为我国新型智慧城市建设和数字经济发展提供了可信可控的公用基础设施和服务载体.
    12  COMPSPEN:对形状性质与数据约束进行融合推理的分离逻辑求解器
    苏婉昀,高冲,古新才,吴志林
    2023, 34(5):2181-2195. DOI: 10.13328/j.cnki.jos.006407
    [摘要](1011) [HTML](1080) [PDF 6.42 M](2751)
    摘要:
    分离逻辑是经典霍尔逻辑的针对操作指针和动态数据结构的扩展,已经广泛用于对基础软件(比如操作系统内核等)的分析与验证.分离逻辑约束自动求解是提升对操作指针和动态数据结构的程序的验证的自动化程度的重要手段.针对动态数据结构的验证一般同时涉及形状性质(比如单链表、双链表、树等)和数据性质(比如有序性、数据不变性等).主要介绍能对动态数据结构的形状性质与数据约束进行融合推理的分离逻辑求解器COMPSPEN.首先介绍COMPSPEN的理论基础,包括能够同时描述线性动态数据结构的形状性质和数据约束的分离逻辑子集SLIDdataSLIDdata的可满足性和蕴涵问题的判定算法.然后,介绍COMPSPEN工具的基本框架.最后,使用COMPSPEN工具进行了实例研究.收集整理了600个测试用例,在这600个测试用例上将COMPSPEN与已有的主流分离逻辑求解器Asterix、S2S、Songbird、SPEN进行了比较.实验结果表明COMPSPEN是唯一能够求解含有集合数据约束的分离逻辑求解器,而且总体来讲,能对线性数据结构上的同时含有形状性质和线性算术数据约束的分离逻辑公式的可满足性问题进行高效的求解,另外,也能对蕴涵问题进行求解.
    13  版本失配和数据泄露对基于缺陷报告的缺陷定位模型的影响
    周慧聪,郭肇强,梅元清,李言辉,陈林,周毓明
    2023, 34(5):2196-2217. DOI: 10.13328/j.cnki.jos.006401
    [摘要](813) [HTML](1137) [PDF 9.20 M](2382)
    摘要:
    为了降低缺陷定位过程中的人力成本,研究者们在缺陷报告的基础上提出了许多基于信息检索的缺陷定位模型,包括使用传统特征和使用深度学习特征进行建模的定位模型.在评价不同缺陷定位模型时设计的实验中,现有研究大多忽视了缺陷报告所属的版本与目标源代码的版本之间存在的“版本失配”问题或/和在训练和测试模型时缺陷报告的时间顺序所引发的“数据泄露”问题.致力于报告现有模型在更加真实的应用场景下的性能表现,并分析版本失配和数据泄露问题对评估各模型真实性能产生的影响.选取6个使用传统特征的定位模型(BugLocator、BRTracer、BLUiR、AmaLgam、BLIA、Locus)和1个使用深度学习特征的定位模型(CodeBERT)作为研究对象.在5个不同实验设置下基于8个开源项目进行系统性的实证分析.首先,CodeBERT模型直接应用于缺陷定位效果并不理想,其定位的准确率依赖于目标项目的版本数目和源代码规模.其次,版本匹配设置下使用传统特征的定位模型在平均准确率均值(MAP)、平均序位倒数均值(MRR)两个指标上比版本失配实验设置下最高可以提高47.2%和46.0%,CodeBERT模型的效果也受到数据泄露和版本匹配的双重影响.使用传统特征的缺陷定位模型的性能被低估,而使用深度学习特征的CodeBERT模型在应用于缺陷定位任务时还需要更多的探索和验证.
    14  面向软件工程的情感分析技术研究
    陈震鹏,姚惠涵,曹雁彬,刘譞哲,梅宏
    2023, 34(5):2218-2230. DOI: 10.13328/j.cnki.jos.006428
    [摘要](1508) [HTML](1942) [PDF 6.59 M](3145)
    摘要:
    情感分析在软件工程领域具有广泛的应用场景,例如,从代码提交信息中检测开发者的情绪、从程序员问答论坛中识别开发者的观点等.但是,现有的“开箱即用”的情感分析工具无法在软件工程相关的任务中取得可靠的结果.已有研究表明,导致不可靠结果的最主要原因是,这些工具无法理解一些单词和短语在软件工程领域中的特定含义.此后,研究者们开始为软件工程领域定制监督学习和远程监督学习方法.为了验证这些方法的效果,研究者们使用软件工程相关的标注数据集来对它们进行数据集内验证,即,将同一数据集划分为训练集和测试集,分别用于方法的训练和测试.但是,对软件工程领域的某些情感分析任务来说,尚无标注数据集,且人工标注数据集耗时耗力.在此情况下,一种可选的方法就是使用为了相似任务从同一目标平台上提取的数据集或者使用从其他软件工程平台上提取的数据集.为了验证这两种做法的可行性,需要进一步以平台内设置和跨平台设置来验证现有情感分析方法.平台内设置指的是使用提取自同一平台的不同数据集作为训练集和测试集;跨平台设置指的是使用提取自不同平台的数据集作为训练集和测试集.目标旨在数据集内设置、平台内设置、跨平台设置这3种设置下,综合验证现有的为软件工程定制的情感分析方法.最终,实验结果为相关的研究者和从业者提供了具有现实指导意义的启示.
    15  Deep-SBFL:基于频谱的深度神经网络缺陷定位方法
    李铮,崔展齐,陈翔,王荣存,刘建宾,郑丽伟
    2023, 34(5):2231-2250. DOI: 10.13328/j.cnki.jos.006403
    [摘要](1232) [HTML](1360) [PDF 8.89 M](2893)
    摘要:
    深度神经网络已经在自动驾驶和智能医疗等领域取得了广泛的应用.与传统软件一样,深度神经网络也不可避免地包含缺陷,如果做出错误决定,可能会造成严重后果.因此,深度神经网络的质量保障受到了广泛关注.然而,深度神经网络与传统软件存在较大差异,传统软件质量保障方法无法直接应用于深度神经网络,需要设计有针对性的质量保障方法.软件缺陷定位是保障软件质量的重要方法之一,基于频谱的缺陷定位方法在传统软件的缺陷定位中取得了很好的效果,但无法直接应用于深度神经网络.在传统软件缺陷定位方法的基础上提出了一种基于频谱的深度神经网络缺陷定位方法Deep-SBFL.该方法首先通过收集深度神经网络的神经元输出信息和预测结果作为频谱信息;然后将频谱信息进行处理作为贡献信息,以用于量化神经元对预测结果所做的贡献;最后提出了针对深度神经网络缺陷定位的怀疑度公式,基于贡献信息计算深度神经网络中神经元的怀疑度并进行排序,以找出最有可能存在缺陷的神经元.为验证该方法的有效性,以EInspect@n(结果排序列表前n个位置内成功定位的缺陷数)和EXAM(在找到缺陷元素之前必须检查元素的百分比)作为评测指标,在使用MNIST数据集训练的深度神经网络上进行了实验.结果表明,该方法可有效定位深度神经网络中不同类型的缺陷.
    16  DeepRanger:覆盖制导的深度森林测试方法
    崔展齐,谢瑞麟,陈翔,刘秀磊,郑丽伟
    2023, 34(5):2251-2267. DOI: 10.13328/j.cnki.jos.006422
    [摘要](705) [HTML](1264) [PDF 8.38 M](2116)
    摘要:
    深度学习软件的结构特征与传统软件存在明显差异,因此即使展开了大量测试,依然无法有效衡量测试数据对深度学习软件的覆盖情况和测试充分性,并造成后续使用过程中依然可能存在大量未知错误.深度森林是一种新型深度学习模型,其克服了深度神经网络存在的一些缺点,例如:需要大量训练数据、需要高算力平台、需要大量超参数.但目前还没有相关工作对深度森林的测试方法进行研究.针对深度森林的结构特点,制定了一组由随机森林结点覆盖率RFNC、随机森林叶子覆盖率RFLC、级联森林类型覆盖率CFCC和级联森林输出覆盖率CFOC组成的测试覆盖率评价指标.在此基础上,基于遗传算法设计了覆盖制导的测试数据自动生成方法DeepRanger,可自动生成能有效提高模型覆盖率的测试数据集.为对所提出覆盖指标的有效性进行验证,在深度森林开源项目gcForest和MNIST数据集上设计并进行了一组实验.实验结果表明,所提出的4种覆盖指标均能有效评价测试数据集对深度森林模型的测试充分性.此外,与基于随机选择的遗传算法相比,使用覆盖信息制导的测试数据生成方法DeepRanger能达到更高的模型覆盖率.
    17  面向文本描述的CPS资源能力知识图谱构建
    李正洁,沈立炜,李弋,彭鑫
    2023, 34(5):2268-2285. DOI: 10.13328/j.cnki.jos.006410
    [摘要](1421) [HTML](1359) [PDF 6.70 M](3584)
    摘要:
    信息物理融合系统(cyber-physical system,CPS)在社会生活中发挥越来越广泛的作用.CPS资源的按需编排建立在CPS资源的软件定义基础上,软件接口的定义则依赖对CPS资源能力的充分描述.目前,CPS领域内缺少一个能规范表示资源及其能力的知识库和构建该知识库的有效方法.面向CPS资源的文本描述,提出构建CPS资源能力知识图谱并设计一种自底向上的自动构建方法.给定资源,所提方法先从其代码和文档中提取资源能力的文本描述信息,并基于预定义的表示模式生成规范化表示的能力短语.然后,基于动宾结构的关键成分对能力短语进行划分、聚合与抽象,生成不同类型资源的能力层次化抽象描述.最后,构建资源能力知识图谱.面向Home Assistant平台,构建了包含32个资源类别、957个资源能力的知识图谱.图谱构建实验从不同维度对比分析了手工构建和所提方法自动构建的结果.实验表明,所提方法为CPS资源能力知识图谱的自动化构建提供可行途径,有助于减少人工构建工作量,补充CPS领域内资源服务与能力的描述,并提高图谱的知识完备性.
    18  面向递增累积型缺陷的灰盒模糊测试变异优化
    杨克,贺也平,马恒太,董柯,谢异,蔡春芳
    2023, 34(5):2286-2299. DOI: 10.13328/j.cnki.jos.006491
    [摘要](713) [HTML](1077) [PDF 8.60 M](1917)
    摘要:
    大量访问越界、内存耗尽、性能故障等缺陷是输入中有效数据的规模过大,超过临界值引起的.而现有灰盒模糊测试技术中的数据依赖识别和变异优化技术大都针对固定规模输入数据格式,对规模递增输入数据的构造效率不高.为此,针对这类累积型缺陷模糊测试对应的状态特征值最优化问题,提出一种对特征值依赖的输入数据的格式判别和差分变异方法.根据引发特征值最值更新的有效变异的位置分布和发现频次特征,判别待发现缺陷状态优化是否依赖于输入中相关数据规模的增长,将引发最值更新的有效变异内容应用于规模递增输入数据生成,提升该类累积型缺陷的复现和定向测试效率.依据该思想,实现了模糊测试工具Jigsaw,在测评实验数据集上的实验结果表明提出的判别方法能够高效地区分特征值依赖的输入数据组织形式,且提出的差分变异方法显著提升了需要大量输入才能触发累积型缺陷的复现效率.
    19  强化学习可解释性基础问题探索和方法综述
    刘潇,刘书洋,庄韫恺,高阳
    2023, 34(5):2300-2316. DOI: 10.13328/j.cnki.jos.006485
    [摘要](5717) [HTML](3184) [PDF 5.93 M](8291)
    摘要:
    强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法.然而,作为一类机器学习算法,强化学习也面临着机器学习领域的公共难题,即难以被人理解.缺乏可解释性限制了强化学习在安全敏感领域中的应用,如医疗、驾驶等,并导致强化学习在环境仿真、任务泛化等问题中缺乏普遍适用的解决方案.为了克服强化学习的这一弱点,涌现了大量强化学习可解释性(explainable reinforcement learning,XRL)的研究.然而,学术界对XRL尚缺乏一致认识.因此,探索XRL的基础性问题,并对现有工作进行综述.具体而言,首先探讨父问题——人工智能可解释性,对人工智能可解释性的已有定义进行了汇总;其次,构建一套可解释性领域的理论体系,从而描述XRL与人工智能可解释性的共同问题,包括界定智能算法和机械算法、定义解释的含义、讨论影响可解释性的因素、划分解释的直观性;然后,根据强化学习本身的特征,定义XRL的3个独有问题,即环境解释、任务解释、策略解释;之后,对现有方法进行系统地归类,并对XRL的最新进展进行综述;最后,展望XRL领域的潜在研究方向.
    20  结合注意力CNN与GNN的信息融合推荐方法
    钱忠胜,赵畅,俞情媛,李端明
    2023, 34(5):2317-2336. DOI: 10.13328/j.cnki.jos.006405
    [摘要](2063) [HTML](1452) [PDF 6.71 M](2952)
    摘要:
    稀疏性问题一直是推荐系统面临的主要挑战,而信息融合推荐可以利用用户的评论、评分以及信任等信息发掘用户的偏好来缓解这一问题,从而为目标用户生成相应的推荐.用户、项目信息的充分学习是构建一个成功推荐系统的关键.但不同用户对不同项目有不同的偏好,且用户的兴趣偏好及社交圈是动态变化的.提出一种结合深度学习与信息融合的推荐方法来解决稀疏性等问题.特别地,构建了一种新的深度学习模型——结合注意力卷积神经网络(attention CNN)与图神经网络(GNN)的信息融合推荐模型ACGIF.首先,在CNN中加入注意力机制来处理评论信息,从评论信息中学习用户和项目的个性化表示.根据评论编码学习评论表示,通过用户/项目编码学习评论中用户/项目表示.加入个性化注意力机制来筛选不同重要性级别的评论.然后,利用GNN来处理评分和信任信息.对于每个用户来说,扩散过程从最初的嵌入开始,融合相关特性和捕获潜在行为偏好的自由用户潜在向量.设计了一个分层的影响传播结构,以模拟用户的潜在嵌入如何随着社交扩散过程的继续而演变.最后,对前两部分得到的用户对项目的偏好向量进行加权融合,获得最终的用户对于项目的偏好向量.在4组公开数据集上,以推荐结果的MAERMSE作为评估指标进行了实验验证.结果表明,与现有的7个典型推荐模型相比,所提模型的推荐效果和运行时间均占优.
    21  一种自适应混合权重的自步学习方法
    李豪,赵悦,公茂果,武越,刘洁怡
    2023, 34(5):2337-2349. DOI: 10.13328/j.cnki.jos.006438
    [摘要](788) [HTML](1380) [PDF 6.98 M](2682)
    摘要:
    自步学习是一种受人类和动物学习过程启发的学习机制,它赋予训练样本不同的权重,从而逐步将简单到更复杂的样本纳入训练集进行学习.自步学习在目标函数中加入自步正则项控制学习过程.目前存在多种形式的自步权重正则项,不同的正则项可能会导致不同的学习性能.其中,混合权重正则项同时具有硬权重和软权重的特点,因而被广泛应用在众多自步学习问题中.然而,当前的混合权重方法只结合了对数软权重,形式较为单一.此外,相较于软权重或硬权重方式,混合权重方法引入了更多的参数.提出一种自适应混合权重的自步正则方法来克服形式单一和参数难以调节的问题.一方面,在学习的过程中权重的表示形式能够自适应进行调整,另一方面,可以根据样本损失分布特点来自适应混合权重引入的自步参数,从而减少参数对人为经验的依赖.行为识别和多媒体事件检测上的实验结果表明提出的方法可以有效地解决权重形式和参数的自适应问题.
    22  基于多模态多粒度图卷积网络的老年人日常行为识别
    丁静,舒祥波,黄捧,姚亚洲,宋砚
    2023, 34(5):2350-2364. DOI: 10.13328/j.cnki.jos.006439
    [摘要](1476) [HTML](1761) [PDF 7.38 M](3545)
    摘要:
    随着人口老龄化问题日益严重,人们对家庭环境中老年人的安全问题越来越重视.目前,国内外一些研究机构正在试图研究通过家用摄像头对老年人的日常行为进行智能化看护,实现对一些危险行为的预警、报警与报备.为了助推这些技术的产业化,主要研究如何自动识别出老年人的日常行为,如“喝水”“洗手”“读书”“看报”等.通过对老年人的日常行为视频的调研发现,老年人的日常行为语义具有非常明显的细粒度特性,如“喝水”与“吃药”两种行为的语义高度相似,且只有少量的关键帧能准确体现出其类别语义.为了有效解决老年人行为识别问题,提出一种新的多模态多粒度图卷积网络(multimodal and multi-granularity graph convolutional networks,MM-GCN),通过利用图卷积网络分别从人体骨骼点(“点”)和人体骨架(“线”)、关键帧(“面”)和视频提名段(“段”)两种模态对老年人行为进行建模,捕捉“点-线-面-段”这4种颗粒度对象下的语义信息.最后,在目前最大规模的老年人日常行为数据集ETRI-Activity3D (11万+视频段、50+行为类别)上进行老年人行为识别性能评测,相比于当前最好的方法,提出的MM-GCN方法取得了最高的识别性能.此外,为了验证MM-GCN方法对常规人体行为识别任务的鲁棒性能,在业界标准的NTU RGB+D数据集上进行实验,MM-GCN方法也表现出了很不错的性能.
    23  面向关系型数据与知识图谱的数据集成技术综述
    高云君,葛丛丛,郭宇翔,陈璐
    2023, 34(5):2365-2391. DOI: 10.13328/j.cnki.jos.006808
    [摘要](2138) [HTML](4310) [PDF 7.38 M](5616)
    摘要:
    目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关重要的数据组织与存储形式,在现实生活中应用广泛.为此,聚焦关系型数据和知识图谱,归纳总结并分析实体解析、数据融合、数据清洗3方面的数据集成关键技术,最后展望未来研究方向与趋势.
    24  分布式数据库多级一致性统一建模理论研究
    水治禹,卢卫,赵展浩,何粤阳,张孝,杜小勇
    2023, 34(5):2392-2412. DOI: 10.13328/j.cnki.jos.006460
    [摘要](1122) [HTML](1088) [PDF 9.69 M](2251)
    摘要:
    分布式数据库系统出现了支持多协调器和多副本存储的新架构,这给事务调度的正确性带来了新的挑战,包括缺少中心协调器带来的新数据异常以及多副本机制带来的读取数据一致性等问题.基于事务隔离级别和分布式系统一致性协议的定义,为多协调器多副本分布式数据库的事务多级一致性构建了一个混合依赖图模型.该形式化模型为事务的正确调度提供具有鲁棒性的评价标准,可以方便地对数据库事务调度情况进行动态或静态分析检验.
    25  基于区域划分与降维的高维学习型索引
    张少敏,蔡盼,李翠平,陈红
    2023, 34(5):2413-2426. DOI: 10.13328/j.cnki.jos.006414
    [摘要](808) [HTML](1796) [PDF 6.15 M](2613)
    摘要:
    在数据量与数据复杂度不断增加的时代,大数据处理与分析成为当前的热门研究内容,高维空间数据的使用越来越频繁,数据检索和访问速度成了衡量数据处理系统性能的重要指标.因此,如何设计实现一种高效的高维索引结构,提高查询访问速率、降低内存占用,变得至关重要.近年,Kraska等人提出了学习型索引的方法.实验证明该方法在真实数据集上表现良好.之后机器学习与深度学习在数据库系统中的运用越来越广泛.众多研究者尝试在高维数据上构建学习型索引,来提升高维数据的查询速度.但是目前的高维学习型索引采用的方法并不能将数据分布的信息有效利用起来,而且过于复杂的深度学习模型使得索引初始化开销过大.结合空间区域划分与降维两种技术,提出一种新颖的高维学习型索引.它能更有效地利用数据分布信息提高索引的查询效率,并利用多段线性模型在保证查找精确度的前提下尽可能减少索引初始化的开销.分别在随机生成的数据集和开源街区地图数据集上进行实验验证.结果表明,与现有的高维索引相比,其在索引构建、查询效率、以及内存占用方面都有显著提高.
    26  Elsa:一种面向跨区域架构的无协调分布式键值存储系统
    崔玉龙,付国,张岩峰,于戈
    2023, 34(5):2427-2445. DOI: 10.13328/j.cnki.jos.006437
    [摘要](1085) [HTML](1644) [PDF 6.89 M](3472)
    摘要:
    作为具备高性能和高可伸缩性的分布式存储解决方案,键值存储系统近年来被广泛采用,例如Redis、MongoDB、Cassandra等.分布式存储系统中广泛使用的多副本机制一方面提高了系统吞吐量和可靠性,但同时也增加了系统协调和副本一致性的额外开销.对于跨域分布式系统来说,远距离的副本协调开销甚至可能成为系统的性能瓶颈,降低系统的可用性和吞吐量.提出分布式键值存储系统Elsa,这是一种面向跨区域架构的无协调键值存储系统.Elsa在保证高性能和高可拓展性的基础上,采用无冲突备份数据结构(CRDT)技术来无协调的保证副本间的强最终一致性,降低了系统节点间的协调开销.在阿里云上构建了跨4数据中心8节点的跨区域分布式环境,进行了大规模分布式性能对比实验,实验结果表明:在跨域的分布式环境下,对于高并发争用的负载,Elsa系统的性能具备明显的优势,最高达到MongoDB集群的7.37倍,Cassandra集群的1.62倍.
    27  一种基于Spark的频繁项集快速挖掘算法
    丁家满,李海滨,邓斌,贾连印,游进国
    2023, 34(5):2446-2464. DOI: 10.13328/j.cnki.jos.006404
    [摘要](888) [HTML](1402) [PDF 17.79 M](2651)
    摘要:
    如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark,Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率.
    28  可验证的属性基定时签名方案及其应用
    侯慧莹,宁建廷,黄欣沂,赵运磊
    2023, 34(5):2465-2481. DOI: 10.13328/j.cnki.jos.006396
    [摘要](1118) [HTML](1320) [PDF 7.14 M](2688)
    摘要:
    可验证定时签名(VTS)方案允许在给定的时间内对已知消息上的签名进行锁定,在执行时间为T的顺序计算后,任何人都可从时间锁(time-lock)中提取出该签名.可验证性保证了在无需解开时间锁的情况下,任何人都可以公开地验证时间锁中是否包含已知消息上的合理签名,且可以在执行时间T的顺序计算后获得该签名.提出了可验证的属性基定时签名(verifiable attribute-based timed signatures,VABTS)概念,并给出了一个可撤销和可追溯的VABTS方案(RT-VABTS)的具体构造.RT-VABTS方案可同时支持签名者身份隐私保护、动态的用户撤销、可追溯性和定时性,并能解决属性基密码中的密钥托管问题.VABTS具有非常广阔的应用前景,特别列举了VABTS的两种应用场景:构建准入区块链中隐私保护的支付通道网络和实现公平的隐私多方计算.最后,通过形式化的安全性分析和性能评估证明实例化的RT-VABTS方案是安全且高效的.
    29  抵抗恶意服务器的口令增强加密方案
    赵一,刘行,LIANG Kaitai,明洋,赵祥模,杨波
    2023, 34(5):2482-2493. DOI: 10.13328/j.cnki.jos.006440
    [摘要](889) [HTML](1265) [PDF 9.00 M](2193)
    摘要:
    口令增强加密是一个近年来新出现的原语,可以通过增加一个第三方密码服务提供商承担辅助解密的功能,抵抗已有的服务器猜测低熵口令即可解密带来的恶意离线攻击风险,即实现了对口令认证进行增强并增加加密的功能.结合近年来新出现的算法替换攻击威胁,对提出该原语工作中的方案给出了一种服务器积极攻击的方法,该攻击具有不可检测性且可以让服务器仍然能实施离线攻击,从而证明原方案不具备其声称的抵抗恶意服务器的功能.接着讨论与总结能够抵抗恶意服务器实施算法替换攻击的方案应当具备的性质与构造特点;随后,给出一个能够真正抵抗恶意服务器算法替换攻击的方案并给出了仿真结果;最后,对于复杂交互式协议受到算法替换攻击时的安全性影响需要的系统性研究进行了展望.
    30  基于深度多任务学习的图像美感与情感联合预测研究
    申朕,崔超然,董桂鑫,余俊,黄瑾,尹义龙
    2023, 34(5):2494-2506. DOI: 10.13328/j.cnki.jos.006487
    [摘要](843) [HTML](1307) [PDF 9.13 M](2144)
    摘要:
    图像美学评价和情感分析任务旨在使计算机可以辨认人类由受到图像视觉刺激而产生的审美和情感反应.现有研究通常将它们当作两个相互独立的任务.但是,人类的美感与情感反应并不是孤立出现的;相反,在心理认知层面上,两种感受的出现应是相互关联和相互影响的.受此启发,采用深度多任务学习方法在统一的框架下处理图像美学评价和情感分析任务,深入探索两个任务间的内在关联.具体来说,提出一种自适应特征交互模块将两个单任务的基干网络进行关联,以完成图像美学评价和情感分析任务的联合预测.该模块中引入了一种特征动态交互机制,可以根据任务间的特征依赖关系自适应地决定任务间需要进行特征交互的程度.在多任务网络结构的参数更新过程中,根据美学评价与情感分析任务的学习复杂度和收敛速度等差异,提出一种任务间梯度平衡策略,以保证各个任务可以在联合预测的框架下平衡学习.此外,构建了一个大规模的图像美学情感联合数据集UAE.据已有研究,该数据集是首个同时包含美感和情感标签的图像集合.本模型代码以及UAE数据集已经公布在https://github.com/zhenshen-mla/Aesthetic-Emotion-Dataset.

    当期目录


    文章目录

    过刊浏览

    年份

    刊期

    联系方式
    • 《软件学报 》
    • 主办单位:中国科学院软件研究所
                       中国计算机学会
    • 邮编:100190
    • 电话:010-62562563
    • 电子邮箱:jos@iscas.ac.cn
    • 网址:https://www.jos.org.cn
    • 刊号:ISSN 1000-9825
    •           CN 11-2560/TP
    • 国内定价:70元
    您是第位访问者
    版权所有:中国科学院软件研究所 京ICP备05046678号-3
    地址:北京市海淀区中关村南四街4号,邮政编码:100190
    电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
    技术支持:北京勤云科技发展有限公司

    京公网安备 11040202500063号