2021, 32(11):3331-3350. DOI: 10.13328/j.cnki.jos.006054
摘要:无重叠条件序列模式挖掘是一种间隙约束序列模式挖掘方法,与同类挖掘方法相比,该方法更容易发现有价值的频繁模式,其核心问题是计算给定模式在序列中的支持度或出现数,进而判定该模式的频繁性.而计算模式支持度问题实质是无重叠条件模式匹配.当前研究采用迭代搜索无重叠出现,然后剪枝无用结点的方式计算模式的支持度,其计算时间复杂度为O (m×m×n×W),其中,m,n和W分别为模式长度、序列长度及最大间隙.为了进一步提高无重叠条件模式匹配计算速度,从而有效地降低无重叠条件序列模式挖掘时间,提出了一种高效的算法,该算法将模式匹配问题转换为一棵网树,然后从网树的最小树根结点出发,采用回溯策略迭代搜索最左孩子方式计算无重叠最小出现,在网树上剪枝该出现后,无需进一步查找并剪枝无效结点即可实现问题的求解.理论证明了该算法的完备性,并将该算法的时间复杂度降低为O (m×n×W).在此基础上,继续指明该问题还存在另外3种相似的求解策略,分别是从最左叶子出发迭代查找最左双亲方式、从最右树根出发迭代查找最右孩子方式和从最右叶子出发迭代查找最右双亲方式.实验结果验证了该算法的性能,特别是在序列模式挖掘中,应用该方法的挖掘算法可以降低挖掘时间.
2021, 32(11):3351-3371. DOI: 10.13328/j.cnki.jos.006059
摘要:在软件开发的编程现场,有大量与当前开发任务相关的信息,比如代码上下文信息、用户开发意图等.如果能够根据已有的编程现场上下文给开发人员推荐当前代码行,不仅能够帮助开发人员更好地完成开发任务,还能提高软件开发的效率.而已有的一些方法通常是进行代码修复或者补全,又或者只是基于关键词匹配的搜索方法,很难达到推荐完整代码行的要求.针对上述问题,一种可行的解决方案是基于已有的海量源码数据,利用深度学习析取代码行的相关上下文因子,挖掘隐含的上下文信息,为精准推荐提供基础.因此,提出了一种基于深度学习的编程现场上下文深度感知的代码行推荐方法,能够在已有的大规模代码数据集中学习上下文之间潜在的关联关系,利用编程现场已有的源码数据和任务数据得到当前可能的代码行,并推荐Top-N给编程人员.代码行深度感知使用RNN Encoder-Decoder,该框架能够将编程现场已有的若干行上文代码行进行编码,得到一个包含已有代码行上下文信息的向量,然后根据该向量进行解码,得到预测的Top-N代码行输出.利用在开源平台上收集的大规模代码行数据集,对方法进行实验并测试,结果显示,该方法能够根据已有的上下文推荐相关的代码行给开发人员,Top-10的推荐准确率有60%左右,并且MRR值在0.3左右,表示用户满意的推荐项排在N个推荐结果中比较靠前的位置.
2021, 32(11):3372-3387. DOI: 10.13328/j.cnki.jos.006079
摘要:同行代码评审,即对提交代码进行人工评审,是减少软件缺陷和提高软件质量的有效手段,已被Github等开源社区以及很多软件开发组织广泛采用.在GitHub社区,代码评审是其pull-based软件开发模型的重要组成部分.开源项目往往存在成百上千个候选评审人员,为评审工作推荐合适的评审人员是一项很有价值且挑战性的工作.基于真实开源项目的数据分析发现,评审响应时间过长是普遍存在的问题,这会延长评审周期、降低参与人员积极性,而已有的代码评审人推荐工作均没有考虑响应时间这个因素.因此,提出了响应时间约束的代码评审人推荐问题,即推荐的评审人能否在约定时间内进行评审;进而提出了基于多目标优化的代码评审人推荐方法(MOC2R),该方法通过最大化代码评审人经验、最大化在约定时间内的响应概率、最大化人员最近时间内的活跃性这3个目标,使用多目标优化算法来推荐代码评审人员.基于6个开源项目的数据进行实验,结果表明,在不同时间窗约束下(2h、4h、8h),Top-1准确率为41.7%~61.5%,Top-5准确率为66.5%~77.7%,显著优于两条常用且业内领先的基线方法,且3个目标均对人员推荐有贡献,其中,约定时间内的响应概率目标对于人员推荐的贡献最大.该方法能够进一步提升代码评审效率,提高开源社区的活跃性.
2021, 32(11):3388-3403. DOI: 10.13328/j.cnki.jos.006089
摘要:考虑用户评价准则不一致的在线服务评价通常以服务的完整排序作为评价结果,而不是选择出使用户群体满意度最大的Top-k在线服务集合,使评价结果难以满足Top-k在线服务评价场景的合理性和公平性需求.为此,提出了一种用户群体满意度最大化的Top-k在线服务评价方法.该方法首先定义用户群体满意度指标,以衡量选择的k个在线服务的合理性;其次,考虑用户评价准则不一致及用户偏好信息不完整的情况,采用Borda规则将用户对在线服务的偏好关系构造为用户-服务满意度矩阵;然后借鉴Monroe比例代表思想,将Top-k在线服务评价问题建模为寻找最大化用户群体满意度的在线服务集合的优化问题;最后采用贪心算法对该优化问题进行求解,将得到的在线服务集合作为Top-k评价结果.通过理论分析和实验验证了该方法的合理性和有效性.理论分析表明,该方法满足Top-k在线服务评价所需的比例代表性和公平性.同时,实验结果也表明,该方法能够在合理的时间内获得接近用户群体满意度理想上界的评价结果,可以有效地辅助用户群体做出正确的服务选择决策.另外,该方法还可以在用户偏好不完整的情况下实现Top-k在线服务评价.
2021, 32(11):3404-3422. DOI: 10.13328/j.cnki.jos.006090
摘要:随着工业互联网的不断发展,大数据和人工智能促成了人机物全面互联.用户使用服务时产生的任务数据量正呈指数级增长,在为线上用户推荐服务满足个性化需求的同时,对于需要通过人机物交互完成的服务,如何整合线上和线下资源,并分派合适的人快速、有效地完成任务,也已成为一个挑战性问题.为了保证服务分派的准确性,提出了一种综合考虑人机物各方面数据特征的跨域融合服务分派方法,分别对用户评价的情感倾向性和业务数据的相似性进行分析,然后加入对业务执行有影响的物理世界的属性特征,以获得更合理的分派.最后,以一个互联网在线诊疗平台的医患分派为例,结果表明,文中提出的分派方法具有较高的准确性,可以获得更好的用户体验.
2021, 32(11):3423-3439. DOI: 10.13328/j.cnki.jos.006277
摘要:区块链具有分布式、不可篡改、去中心化、历史可追溯等特点,但难以落地.智能合约的引入,有效地解决了这一难题.然而,智能合约的开发和运维存在部署效率低、监控工具不成熟等问题.受DevOps自动化工具支持微服务持续交付、持续监控的启发,针对上述问题,提出了一种用于智能合约微服务化改造的框架.随后,结合支持DevOps的工具设计原型平台Mictract,完成智能合约的部署和监控.在Hyperledger Fabric官方链码Marbles上的案例研究表明,该框架和原型平台能够显著提升智能合约部署和监控的自动化水平.
2021, 32(11):3440-3451. DOI: 10.13328/j.cnki.jos.006041
摘要:正则化属性选择算法减小噪音数据影响的效果不佳,而且样本空间的局部结构几乎没有被考虑,在将样本映射到属性子空间后,样本之间的联系与原空间不一致,导致数据挖掘算法的效果不能令人满意.提出一个抗噪音属性选择方法,可以有效地解决传统算法的这两个缺陷.该方法首先采用自步学习的训练方式,这不仅能大幅度降低离群点进入训练的可能性,而且有利于模型的快速收敛;然后,采用加入l2,1正则项的回归学习器进行嵌入式属性选择,兼顾“求得稀疏解”和“解决过拟合”,使模型更稳健;最后,融合局部保留投影的技术,将其投影矩阵转换成模型的回归参数矩阵,在属性选择的同时保持样本之间的原有局部结构.采用一系列基准数据集合测试该算法,在aCC和aRMSE上的实验结果,表明了该属性选择方法的有效性.
2021, 32(11):3452-3467. DOI: 10.13328/j.cnki.jos.006043
摘要:元启发式算法自20世纪60年代提出以后,由于其具有可以有效地减少计算量、提高优化效率等优点而得到了广泛应用.该类算法以模仿自然界中各类运行机制为特点,具有自我调节的特征,解决了诸如梯度法、牛顿法和共轭下降法等这些传统优化算法计算效率低、收敛性差等缺点,在组合优化、生产调度、图像处理等方面均有很好的效果.提出了一种改进的元启发式优化算法——NBAS算法.该算法通过将传统天牛须算法(BAS)离散化得到二进制离散天牛须算法(BBAS),并与原始天牛须算法进行混合得出.算法平衡了局部与全局搜索,有效地弥补了算法容易陷入局部最优的不足.为了验证NBAS算法的有效性,将NBAS算法与二维K熵算法结合,提出了一种快速、准确的NBAS-K熵图像分割算法.该方法解决了优化图像阈值分割函数的优化算法易陷入局部最优、算法寻优个体数多、设计复杂度高所导致的计算量大、耗时长等问题.NBAS-K熵算法与BAS-K熵算法、BBAS-K熵算法、遗传K熵算法(GA-K熵)、粒子群K熵算法(PSO-K熵)和蚱蜢K熵算法(GOA-K熵)在Berkeley数据集、人工加噪图像以及遥感图像上的实验结果表明,该分割方法不仅具有较好的抗噪性能,而且具有较高的精度和鲁棒性,能够较为有效地实现复杂图像分割.
2021, 32(11):3468-3481. DOI: 10.13328/j.cnki.jos.006057
摘要:近年来,卷积神经网络(CNN)展现了强大的性能,被广泛应用到了众多领域.由于CNN参数数量庞大,且存储和计算能力需求高,其难以部署在资源受限设备上.因此,对CNN的压缩和加速成为一个迫切需要解决的问题.随着自动化机器学习(AutoML)的研究与发展,AutoML对神经网络发展产生了深远的影响.受此启发,提出了基于参数估计和基于遗传算法的两种自动化加速卷积神经网络算法.该算法能够在给定精度损失范围内自动计算出最优的CNN加速模型,有效地解决了张量分解中,人工选择秩带来的误差问题,能够有效地提升CNN的压缩和加速效果.通过在MNIST和CIFAR-10数据集上的严格测试,与原网络相比,在MNIST数据集上准确率稍微下降了0.35%,模型的运行时间获得了4.1倍的大幅提升;在CIFAR-10数据集上,准确率稍微下降了5.13%,模型的运行时间获得了0.8倍的大幅提升.
2021, 32(11):3482-3495. DOI: 10.13328/j.cnki.jos.006058
摘要:细粒度视频分类旨在识别粗粒度大类中的细粒度子类,是计算机视觉中一个极具挑战的任务.考虑到视频数据的标注成本巨大,而图像的标注成本相对较小,且细粒度图像分类已经取得了较为显著的进展,一个自然的想法是不用标注,以无监督的方式将细粒度图像分类中学习到的知识自适应地迁移到细粒度视频分类中.然而,来源不同的图像和视频之间存在着域差异和模态差异,这导致细粒度图像分类的模型不能直接应用于细粒度视频分类.为了实现无监督的细粒度视频分类,提出一种无监督辨识适应网络,能够将辨识性定位能力从细粒度图像分类迁移到细粒度视频分类.进一步,提出一种渐进式伪标签策略来迭代地引导无监督辨识适应网络学习目标域视频的数据分布.在CUB-200-2011、Cars-196图像数据集和YouTube Birds、YouTube Cars视频数据集上验证该方法跨域、跨模态的适应能力,实验结果证明了该方法在无监督细粒度视频分类上的优势.
2021, 32(11):3496-3511. DOI: 10.13328/j.cnki.jos.006077
摘要:近年来,如何生成具有泛化能力的策略已成为深度强化学习领域的热点问题之一,并涌现出了许多相关的研究成果,其中的一个代表性工作为广义值迭代网络.广义值迭代网络是一种可作用于非规则图形的规划网络模型.它利用一种特殊的图形卷积算子来近似地表示状态转移矩阵,使得其在学习到非规则图形的结构信息后,可通过值迭代过程进行规划,从而在具有非规则图形结构的任务中产生具有泛化能力的策略.然而,由于没有考虑根据状态重要性来合理分配规划时间,广义值迭代网络中的每一轮迭代都需要在整个状态空间的所有状态上同步执行.当状态空间较大时,这样的同步更新会降低网络的规划性能.用异步更新的思想来进一步研究广义值迭代网络.通过在值迭代过程中定义状态优先级并执行异步值更新,提出了一种新型的异步规划网络模型——广义异步值迭代网络.在未知的非规则结构任务中,与广义值迭代网络相比,广义异步值迭代网络具有更高效且更有效的规划过程.进一步地,改进了广义值迭代网络中的强化学习算法及图形卷积算子,并通过在非规则图形和真实地图中的路径规划实验验证了改进方法的有效性.
2021, 32(11):3512-3529. DOI: 10.13328/j.cnki.jos.006084
摘要:深度神经网络在许多计算机视觉任务中都取得了优异的结果,并在不同领域中得到了广泛应用.然而研究发现,在面临对抗样本攻击时,深度神经网络表现得较为脆弱,严重威胁着各类系统的安全性.在现有的对抗样本攻击中,由于黑盒攻击具有模型不可知性质和查询限制等约束,更接近实际的攻击场景.但现有的黑盒攻击方法存在攻击效率较低与隐蔽性弱的缺陷,因此提出了一种基于进化策略的黑盒对抗攻击方法.该方法充分考虑了攻击过程中梯度更新方向的分布关系,自适应学习较优的搜索路径,提升攻击的效率.在成功攻击的基础上,结合注意力机制,基于类间激活热力图将扰动向量分组和压缩优化,减少在黑盒攻击过程中积累的冗余扰动,增强优化后的对抗样本的不可感知性.通过与其他4种最新的黑盒对抗攻击方法(AutoZOOM、QL-attack、FD-attak、D-based attack)在7种深度神经网络上进行对比,验证了该方法的有效性与鲁棒性.
2021, 32(11):3530-3540. DOI: 10.13328/j.cnki.jos.006094
摘要:表约束在约束程序(constraint programming,简称CP)中被广泛研究.目前,求解表约束问题效率最高的算法是CT (compact-table)和STRbit (simple tabular reduction bit).它们在搜索过程中维持广义弧相容(generalized arc consistency,简称GAC).完全成对相容(full pairwise consistency,简称fPWC)是一种强于GAC的相容性关系,目前,实现fPWC效率最高的算法是PW-CT,但是它无法直接在通用的求解器上实现.因子分解编码(factor-decomposition encoding,简称FDE)是实现fPWC的一种编码方式,通常和简单表缩减(STR)算法一起来使用.当前效率最高的STR算法使用了bitset的数据结构,用这些算法来求解FDE实例可能会造成内存溢出.提出了STRFDE算法——一种使用bitset结构来求解FDE实例的方法.它结合了CT和STRbit的优势,在保证求解效率的同时,使占用的内存尽可能小.实验结果表明,在许多存在非平凡相交的实例上,该算法是有竞争力的.
2021, 32(11):3541-3562. DOI: 10.13328/j.cnki.jos.006044
摘要:事务数据常见于各种应用场景中,如购物记录、页面浏览历史等.为了提供更好的服务,服务提供商收集用户数据并进行分析,但收集事务数据会泄露用户的隐私信息.为了解决上述问题,基于压缩的本地差分隐私模型,提出一种事务数据收集方法.首先,定义了一种新的候选项集分值函数;其次,基于该函数,将候选项集的样本空间划分为多个子空间;然后,随机选择其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者;最后,考虑到隐私参数的设置问题,基于最大后验置信度攻击模型设计启发式隐私参数设置策略.理论分析表明,该方法能够同时保护事务数据的长度与内容,满足压缩的本地差分隐私要求.实验结果表明,与目前最优的工作相比,所收集的数据具有更高的效用性,隐私参数设置更具有语义性.
2021, 32(11):3563-3575. DOI: 10.13328/j.cnki.jos.006073
摘要:云存储已经成为一种主流应用模式.随着用户及存储数据量的增加,云存储提供商采用重复数据删除技术来节省存储空间和资源.现有方案普遍采用统一的流行度阈值对所有数据进行删重处理,没有考虑到不同的数据信息具有不同的隐私程度这一实际问题.提出了一种基于阈值动态调整的重复数据删除方案,确保了上传数据及相关操作的安全性.提出了理想阈值的概念,消除了传统方案中为所有数据分配统一阈值所带来的弊端.使用项目反应理论确定不同数据的敏感性及其隐私分数,保证了数据隐私分数的适用性,解决了部分用户忽视隐私的问题.提出了基于数据加密的隐私分数查询反馈机制,在此基础上,设计了流行度阈值随数据上传的动态调整方法.实验数据及对比分析结果表明,基于阈值动态调整的重复数据删除方案具有良好的可扩展性和实用性.
2021, 32(11):3576-3595. DOI: 10.13328/j.cnki.jos.006097
摘要:大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数据排序以及B+树构建并行化,提高了构建性能.上层B+树索引基于各时间窗口构建,结合时间窗口时间戳的递增性和无限性,提出了避免节点分裂的构建方法,减少了B+树分裂移动开销,提高了空间利用率和更新效率.WB-Index架构中,将流数据和索引分离,同时利用内存缓存尽可能多的双层B+索引和热点数据来提高查询性能.理论和实验结果表明,该分布式索引架构能够支持高效的实时数据流写入以及流数据查询,能够很好地应用于具有时间属性的数据流场景.
2021, 32(11):3596-3605. DOI: 10.13328/j.cnki.jos.006032
摘要:同态内积在安全多方几何计算、隐私数据挖掘、外包计算、可排序的密文检索等场景有广泛的应用.但现有的同态内积计算方案大多是基于RLWE的全同态加密方案,普遍存在效率不高的问题.在柯程松等人提出的基于MLWE的低膨胀率加密算法基础上,提出了一种同态内积方案.首先给出了密文空间上的张量积运算⊗,该密文空间上的运算对应明文空间上的整数向量内积运算;然后分析了方案的正确性与安全性;最后给出了两种优化的加密参数,对应计算两种不同大小的整数向量同态内积的应用场景.通过C++与大整数计算库NTL实现了该方案.对比其他同态加密方案,该方案能够比较高效地计算整数向量的同态内积.
2021, 32(11):3606-3627. DOI: 10.13328/j.cnki.jos.006034
摘要:信息通过公共链路进行传输时极易遭受窃听、篡改等形式的网络攻击,因此有必要保障信息在传输过程中的机密性和完整性,而签密技术能够有效地实现上述目的.基于椭圆曲线,提出一种多接收者多消息签密方案,能够有效地适配到广播系统中.采用多密钥分发中心管理系统主密钥信息,且能够周期地更新各自的秘密信息,以抵抗对应的APT攻击.不同更新周期注册的用户相互之间能够通信,不会影响系统的可用性.提出了一种基于区块链的周期更新策略,根据公有链中区块高度和时间戳触发密钥更新动作,基于区块链不可篡改特性确保方案的安全性,且该过程不需要执行交易动作,因此是免费的.基于Computational Diffie-Hellman问题和离散对数问题,在随机预言机模型下证明了签密方案的机密性和不可伪造性,该方案同时具有密钥托管安全性、前后向兼容性、不可否认性.性能分析表明,该签密方案具有较短的密文长度和较高的执行效率.在实验仿真部分,首先分析了密钥分发中心数量和门限值对签密算法性能的影响,在排除网络延迟等因素干扰下,引入多密钥分发中心后,性能损耗在5%以内;其次,基于区块链实现周期更新时的时间误差百分比会随周期的增加而下降,当周期大于550s时,其值控制在1%以内.这种误差使得攻击者很难预测更新的准确时间,增大了攻击的难度.
2021, 32(11):3628-3645. DOI: 10.13328/j.cnki.jos.006093
摘要:安全多方计算是密码学的一个重要研究方向,也是目前国际密码学界的研究热点.因为许多实际问题都可以用向量来描述,研究向量的保密计算具有重要的理论与实际意义.目前,关于向量保密计算问题大多是在整数集上进行研究,关于有理数向量问题的研究很少.在此主要研究有理数域上向量的安全多方计算问题,包括向量点积、向量相等、向量优势等问题,设计了安全高效的计算协议,扩大了向量保密计算的应用范围.对这些协议的安全性分析和效率分析表明,它们在安全性和效率方面与现有协议相比具有明显优势.并且利用所设计的协议解决了一些新的向量问题和计算几何问题.
2021, 32(11):3646-3658. DOI: 10.13328/j.cnki.jos.006038
摘要:糖尿病性视网膜病变(糖网病)是导致成年人视觉损失的主要因素之一.早期的眼底筛查可以显著降低这种视觉损失的可能性.彩色眼底图像由于具有采集便利、对人体无伤害等特点,常被用于大规模的眼底筛查工作.对眼底图像中的红色病变点而言,微动脉瘤是轻度非增殖性糖网病的主要标志,出血点与中度及重度非增殖性糖网病的诊断有关,因此,眼底图像中出血点和微动脉瘤的准确分割对糖网病分级诊断具有重要参考价值.提出一种基于多任务学习的分割模型Red-Seg来对出血点和微动脉瘤进行分割.该网络包含两个分支,每个分支处理一种病变点.设计了一种两阶段训练算法,并且两个阶段使用不同的损失函数:第1阶段使用改进的Top-k带权交叉熵损失函数,将模型训练集中在难分样本上;第2阶段将最小化假阳性和假阴性作为Red-Seg模型训练的优化目标,进一步减少病变点误分.最后,在IDRiD数据集上进行模型验证,并与其他病变点分割方法进行对比.实验结果表明,在应用Red-Seg模型进行微动脉瘤和出血点红色病变点分割时,两阶段训练算法可以显著减少病变点误分情况,尤其是出血点分割的准确率和召回率都提高2.8%.同时,与HED、FCRN、DeepLabv3+和L-Seg等图像级分割模型相比,Red-Seg模型在微动脉瘤分割上获得了更好的AUC_PR.
2021, 32(11):3659-3668. DOI: 10.13328/j.cnki.jos.006053
摘要:单幅图像的超分辨率重建(single image super-resolution,简称SR)是一项重要的图像合成任务.目前,在基于神经网络的SR任务中,常用的损失函数包括基于内容的重构损失和基于生成对抗网络(generative adversarial network,简称GAN)的对抗损失.但是,基于传统的GAN的超分辨率重建模型(SRGAN)在判别器接收高分辨率图像作为输入时,输出判别信号不稳定.为了缓解这个问题,在SRGAN以及常用的VGG重构损失框架上,设计了一个稳定的基于能量的辅助对抗损失,称为VGG能量损失.该能量损失使用重构损失中的VGG编码部分,针对VGG编码设计相应的解码器,构建一个U-Net自编码结构VGG-UAE,利用VGG-UAE的重构损失表示能量,并使用该能量函数为生成器提供梯度;基于追踪能量函数的思想,VGG-UAE使生成器生成的高分辨率样本追踪真实数据的能量流.实验部分验证了使用VGG能量损失将比使用传统的GAN损失可以生成更有效的高分辨率图像.