2020, 31(11):3321-3333. DOI: 10.13328/j.cnki.jos.005813
摘要:密度峰值聚类(clustering by fast search and find of density peaks,简称DPC)是一种基于局部密度和相对距离属性快速寻找聚类中心的有效算法.DPC通过决策图寻找密度峰值作为聚类中心,不需要提前指定类簇数,并可以得到任意形状的簇聚类.但局部密度和相对距离的计算都只是简单依赖基于距离度量的相似度矩阵,所以在复杂数据上DPC聚类结果不尽如人意,特别是当数据分布不均匀、数据维度较高时.另外,DPC算法中局部密度的计算没有统一的度量,根据不同的数据集需要选择不同的度量方式.第三,截断距离dc的度量只考虑数据的全局分布,忽略了数据的局部信息,所以dc的改变会影响聚类的结果,尤其是在小样本数据集上.针对这些弊端,提出一种基于不相似性度量优化的密度峰值聚类算法(optimized density peaks clustering algorithm based on dissimilarity measure,简称DDPC),引入基于块的不相似性度量方法计算相似度矩阵,并基于新的相似度矩阵计算样本的K近邻信息,然后基于样本的K近邻信息重新定义局部密度的度量方法.经典数据集的实验结果表明,基于不相似性度量优化的密度峰值聚类算法优于DPC的优化算法FKNN-DPC和DPC-KNN,可以在密度不均匀以及维度较高的数据集上得到满意的结果;同时统一了局部密度的度量方式,避免了传统DPC算法中截断距离dc对聚类结果的影响.
2020, 31(11):3334-3350. DOI: 10.13328/j.cnki.jos.005821
摘要:动态基因调控网是展现生物体内基因与基因之间相互关系随时间变化而变化的动力学行为的复杂网络.这种相互作用关系可以分为两类:激励和抑制.对动态基因调控网网络演化的研究,可以预测未来时刻生物体内的基因调控关系,从而在疾病预测和诊断、药物开发、生物学实验等领域起到重要的指导和辅助作用.现实世界中,动态基因调控网的网络演化是一个复杂而巨大的系统,当前,对于其演化机制的研究存在只关注静态网络而忽略动态网络和只关注相互作用关系而忽略相互作用类型的缺陷.针对上述问题,提出了一种动态基因调控网演化分析方法(dynamic gene regulatory network evolution analyzing method,简称DGNE),将研究扩展到了动态带符号网络领域.通过该方法包含的基于模体转换概率的连边预测算法(link prediction algorithm based on motif transfer probability,简称MT)和基于隐空间特征的符号判别算法,能够动态地捕捉基因调控网的演化机制,并准确地预测未来时刻基因调控网的连边情况.实验结果表明,DGNE方法在仿真数据集和真实数据集上均有良好的表现.
2020, 31(11):3351-3363. DOI: 10.13328/j.cnki.jos.005853
摘要:整数规划是在科学领域和应用研究中广泛使用的一类数学模型.由于它是NP困难问题,因而求解困难.目前的求解方法是以群智能算法为主体,但这类方法一直未能很好地解决种群内部个体或者种群之间的探索与开采、竞争与协作的矛盾.基于金字塔结构的群智能演化策略(swarm intelligence evolution strategy based on pyramid structure,简称PES)是一种新型算法.该算法能够有效地解决上述两大矛盾.深入地分析了PES算法的机理,构造了一种择优协作策略的模型,并将改造后的PES算法由优化函数扩展到求解整数规划问题上.最后,通过探索实验以及对比实验探究了算法的收敛性、稳定性以及探寻全局最优点的性能.实验结果表明,基于择优协作策略的PES算法能够很好地求解整数规划问题.
2020, 31(11):3364-3379. DOI: 10.13328/j.cnki.jos.006106
摘要:应用市场(app market)已经成为互联网环境下软件应用开发和交付的一种主流模式.相对于传统模式,应用市场模式下,软件的交付周期更短,用户的反馈更快,最终用户和开发者之间的联系更加紧密和直接.为应对激烈的竞争和动态演变的用户需求,移动应用开发者必须以快速迭代的方式不断更新应用,修复错误缺陷,完善应用质量,提升用户体验.因此,如何正确和综合理解用户对软件的接受程度(简称用户接受度),是应用市场模式下软件开发需考量的重要因素.近年来兴起的软件解析学(software analytics)关注大数据分析技术在软件行业中的具体应用,对软件生命周期中大规模、多种类的相关数据进行挖掘和分析,被认为是帮助开发者提取有效信息、作出正确决策的有效途径.从软件解析学的角度,首先论证了为移动应用构建综合的用户接受度指标模型的必要性和可行性,并从用户评价数据、操作数据、交互行为数据这3个维度给出基本的用户接受度指标.在此基础上,使用大规模真实数据集,在目标用户群体预测、用户规模预测和更新效果预测等典型的用户接受度指标预测问题中,结合具体指标,提取移动应用生命周期不同阶段的重要特征,以协同过滤、回归融合、概率模型等方法验证用户接受度的可预测性,并讨论了预测结果与特征在移动应用开发过程中可能提供的指导.
2020, 31(11):3380-3403. DOI: 10.13328/j.cnki.jos.005830
摘要:软件需求变更频繁发生,给软件项目造成了诸多威胁.能否对需求变更进行有效的控制管理,决定着软件的成败.使用系统动力学方法对软件需求变更管理过程进行仿真建模,可以动态地分析并预测需求变更产生的原因以及变更对软件项目造成的影响;对软件需求变更管理过程改进进行系统动力学仿真,亦可以辅助软件项目组织选择合适的过程改进策略.因此,基于系统动力学方法,参考了敏捷过程进行开源软件需求变更管理过程的建模和模型检测.以Spring Framework项目为研究案例,进行该项目3.2.x分支的软件需求变更管理过程的系统动力学仿真分析,并对需求变更管理进行过程改进仿真.通过对过程改进的仿真结果进行比对,说明各改进策略均降低了基线数据的软件缺陷率,提高了软件质量.根据软件项目的成本和进度要求,给出了过程改进建议.
2020, 31(11):3404-3420. DOI: 10.13328/j.cnki.jos.006061
摘要:随着信息安全愈发严峻的趋势,软件漏洞已成为计算机安全的主要威胁之一.如何准确地挖掘程序中存在的漏洞,是信息安全领域的关键问题.然而,现有的静态漏洞挖掘方法在挖掘漏洞特征不明显的漏洞时准确率明显下降.一方面,基于规则的方法通过在目标源程序中匹配专家预先定义的漏洞模式挖掘漏洞,其预定义的漏洞模式较为刻板单一,无法覆盖到细节特征,导致其存在准确率低、误报率高等问题;另一方面,基于学习的方法无法充分地对程序源代码的特征信息进行建模,并且无法有效地捕捉关键特征信息,导致其在面对漏洞特征不明显的漏洞时,无法准确地进行挖掘.针对上述问题,提出了一种基于代码属性图及注意力双向LSTM的源码级漏洞挖掘方法.该方法首先将程序源代码转换为包含语义特征信息的代码属性图,并对其进行切片以剔除与敏感操作无关的冗余信息;其次,使用编码算法将代码属性图编码为特征张量;然后,利用大规模特征数据集训练基于双向LSTM和注意力机制的神经网络;最后,使用训练完毕的神经网络实现对目标程序中的漏洞进行挖掘.实验结果显示,在SARD缓冲区错误数据集、SARD资源管理错误数据集及它们两个C语言程序构成的子集上,该方法的F1分数分别达到了82.8%,77.4%,82.5%和78.0%,与基于规则的静态挖掘工具Flawfinder和RATS以及基于学习的程序分析模型TBCNN相比,有显著的提高.
2020, 31(11):3421-3435. DOI: 10.13328/j.cnki.jos.005833
摘要:数据流分析是二进制程序分析的重要手段,但传统数据依赖图(DDG)构建的时间与空间复杂度较高,限制了可分析代码的规模.提出了函数级数据依赖图(FDDG)的概念,并设计了函数级数据依赖图的构建方法.在考虑函数参数及参数间相互依赖关系的基础上,将函数作为整体分析,忽略函数内部的具体实现,显著缩小了数据依赖图规模,降低了数据依赖图生成的时空复杂度.实验结果表明,与开源工具angr中的DDG生成方法相比,FDDG的生成时间性能普遍提升了3个数量级.同时,将FDDG应用于嵌入式二进制固件脆弱性分析,实现了嵌入式固件脆弱性分析原型系统FFVA,在对D-Link、NETGEAR、EasyN、uniview等品牌的设备固件分析中,发现了24个漏洞,其中14个属于未知漏洞,进一步验证了FDDG在静态脆弱性分析中的有效性.
2020, 31(11):3436-3447. DOI: 10.13328/j.cnki.jos.005863
摘要:动态行为分析是一种常见的恶意程序分析方法,常用图来表示恶意程序系统调用或资源依赖等,通过图挖掘算法找出已知恶意程序样本中公共的恶意特征子图,并通过这些特征子图对恶意程序进行检测.然而这些方法往往依赖于图匹配算法,且图匹配不可避免计算慢,同时,算法中还忽视了子图之间的关系,而考虑子图间的关系有助于提高模型检测效果.为了解决这两个问题,提出了一种基于子图相似性恶意程序检测方法,即DMBSS.该方法使用数据流图来表示恶意程序运行时的系统行为或事件,再从数据流图中提取出恶意行为特征子图,并使用“逆拓扑标识”算法将特征子图表示成字符串,字符串蕴含了子图的结构信息,使用字符串替代图的匹配.然后,通过神经网络来计算子图间的相似性即将子图结构表示成高维向量,使得相似子图在向量空间的距离也较近.最后,使用子图向量构建恶意程序的相似性函数,并在此基础上,结合SVM分类器对恶意程序进行检测.实验结果显示,与其他方法相比,DMBSS在检测恶意程序时速度较快,且准确率较高.
2020, 31(11):3448-3460. DOI: 10.13328/j.cnki.jos.006021
摘要:错误定位方法大多通过分析语句覆盖信息来标识出导致程序失效的可疑语句.其中,语句覆盖信息通常以语句执行或语句未执行的二进制状态信息来表示.然而,该二进制状态信息仅表明该语句是否被执行的信息,无法体现该语句在具体执行中的重要程度,可能会降低错误定位的有效性.为了解决这个问题,提出了基于词频-逆文件频率的错误定位方法.该方法采用词频-逆文件频率技术识别出单个测试用例中语句的影响程度高低,从而构建出具有语句重要程度识别度的信息模型,并基于该模型来计算语句的可疑值.实验结果表明,该方法大幅提升了错误定位的效能.
2020, 31(11):3461-3480. DOI: 10.13328/j.cnki.jos.006031
摘要:作为云原生应用的一种典型形态,微服务架构已经在各种企业应用系统中被广泛使用.在企业实践中,许多微服务都是在单体架构的遗留系统基础上通过微服务拆分和改造形成的,其中的拆分决策(特别是数据库拆分)对于微服务系统的质量有着很大的影响.目前,单体系统的微服务拆分决策主要依赖于人的主观经验,整个过程成本高、耗时长、结果不确定性很高.针对这一问题,提出一种场景驱动、自底向上的单体系统微服务拆分方法.该方法以场景驱动的方式,通过动态分析获取单体遗留系统运行时的方法调用和数据库操作信息,然后基于数据表之间的关联分析生成数据库拆分方案,接着再自底向上进行搜索,产生相应的代码模块拆分方案.基于这种方法,实现了一个原型工具MSDecomposer,将拆分过程可视化,并支持多种维度的反馈调整策略.基于多个开源软件系统进行了案例研究,研究结果表明,该方法能够显著加快微服务拆分决策的速度,减轻开发人员的决策负担,得到的拆分结果是合理的.
2020, 31(11):3481-3491. DOI: 10.13328/j.cnki.jos.005818
摘要:近几年,在线社交媒体发展飞速,出现了大规模社会网络.传统的基于网络全局结构的社区发现方法难以有效地处理这些大网络.局部社区发现作为一种无需知道网络的全局结构、仅通过分析给定节点的周围节点之间的关系即可找出给定节点所在社区的方法,在社会网络大数据分析中具有重要的应用意义.针对真实世界网络结构中个体间的相似关系是模糊的或不确定性的,提出了一种基于模糊相似关系的局部社区发现方法.首先,采用模糊关系来描述两个节点之间的相似关系,以节点对的相似度作为该模糊关系的隶属函数;然后证明了该关系是一种模糊相似关系,将局部社区定义为给定节点关于模糊相似关系的等价类,进而采用最大连通子图算法求得给定节点所在的社区.分别在仿真网络和真实网络上进行了实验,实验结果表明,该算法能够有效地揭示出给定节点所在的局部社区,相比其他算法,具有更高的F-score.
2020, 31(11):3492-3505. DOI: 10.13328/j.cnki.jos.005819
摘要:现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并提出一种高效求解该目标函数的优化方法.最后,定义了一种类属型数据核子空间聚类算法.该算法不仅在非线性空间中考虑了属性间的关系,而且在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性的嵌入式特征选择.还定义了一个聚类有效性指标,以评价类属型数据聚类结果的质量.在合成数据和实际数据集上的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系,并有效提高了聚类结果的质量.
2020, 31(11):3506-3518. DOI: 10.13328/j.cnki.jos.005846
摘要:利用重构训练样本空间的手段,提出一种多训练模块Takagi-Sugeno-Kang (TSK)模糊分类器H-TSK-FS.它具有良好的分类性能和较高的可解释性,可以解决现有层次模糊分类器中间层输出和模糊规则难以解释的难题.为了实现良好的分类性能,H-TSK-FS由多个优化零阶TSK模糊分类器组成.这些零阶TSK模糊分类器内部采用一种巧妙的训练方式.原始训练样本、上一层训练样本中的部分样本点以及所有已训练层中最逼近真实值的部分决策信息均被投影到当前层训练模块中,并构成其输入空间.通过这种训练方式,前层的训练结果对后层的训练起到引导和控制作用.这种随机选取样本点、在一定范围内随机选取训练特征的手段可以打开原始输入空间的流形结构,保证较好或相当的分类性能.另外,该研究主要针对少量样本点且训练特征数不是很大的数据集.在设计每个训练模块时采用极限学习机获取模糊规则后件参数.对于每个中间训练层,采用短规则表达知识.每条模糊规则则通过约束方式确定不固定的输入特征以及高斯隶属函数,目的是保证所选输入特征具有高可解释性.真实数据集和应用案例实验结果表明,H-TSK-FS具有良好的分类性能和高可解释性.
2020, 31(11):3519-3539. DOI: 10.13328/j.cnki.jos.005826
摘要:时态索引作为一种高效管理和检索时态数据的有效手段,一直是时态数据领域的研究热点.提出了一种基于时序分区的时态索引技术TPindex.首先将海量时态数据的时态属性映射到二维平面上,对平面上的“有效时间”点进行采样处理,通过使用自上而下,自左而右的时序分区方法将平面划分成若干个均匀的区域.其次,使用基于拟序关系的线序划分算法对每个分区中的数据构建数据结构,并建立基于“有效时间戳”的全区索引,实现“一次一集合”的数据查询操作.再次,还提出了使用分文件存储线序索引的模式将分区线序索引磁盘化,同时可以结合多线程技术并行处理数据,充分利用现代化硬件资源以满足海量数据下的高性能需求,提高索引性能.另一方面,我们还研究了海量时态数据下TPindex的增量式更新操作.最后,设计相应的仿真实验,通过与现有的代表性工作进行对比评估,验证了所提出方法的有效性和实用价值.
2020, 31(11):3540-3558. DOI: 10.13328/j.cnki.jos.005843
摘要:互联网中,以网页、社交媒体和知识库等为载体呈现的大量非结构化数据可表示为在线大图.在线大图数据的获取包括数据收集和更新,是大数据分析与知识工程的重要基础,但面临着数据量大、分布广、异构和变化快速等挑战.基于采样技术,提出并行、自适应的在线大图数据收集和更新方法.首先,将分支限界方法与半蒙特卡罗采样技术相结合,提出能够自适应地收集在线大图数据的HD-QMC算法;然后,为了使收集的数据能反映实际中在线大图的动态变化,进一步基于信息熵及泊松过程,提出高效更新在线大图数据的EPP算法.从理论上分析了该算法的有效性,并将获取的各类在线大图数据统一表示为RDF三元组的形式,为在线大图数据分析及相关研究提供方便易用的数据基础.基于Spark实现了在线大图数据的收集和更新算法,人工生成数据和真实数据上的实验结果展示了该方法的有效性和高效性.
2020, 31(11):3559-3570. DOI: 10.13328/j.cnki.jos.005827
摘要:无人机集群在执行任务过程中所面临的干扰,对集群通信网络的可靠性提出了新的挑战.针对这一问题,提出了能够同时反映网络非均匀性与节点之间相似性的二跳共同邻居指标.基于该指标,使用链路预测研究方法,考虑网络初始化阶段与网络维护阶段,提出了LPTCN无人机集群网络演化算法.从数学分析与仿真实验两个方面对算法的有效性进行验证,结果显示,使用LPTCN网络演化算法所构建的无人机集群通信网络具有良好的生存性和抗毁性,在随机攻击和蓄意攻击情况下均能保证通信网络的可靠.
2020, 31(11):3571-3587. DOI: 10.13328/j.cnki.jos.005812
摘要:关系数据可逆水印技术是保护数据版权的方法之一.它克服了传统的关系数据数字水印技术的缺点,不仅可以声明版权,而且可以恢复原始数据.现有方法在恢复原始数据时不能控制数据恢复的程度,无法调节数据的可用性.提出了一种分级可逆的关系数据水印方案,定义了数据质量等级来反映水印嵌入对数据可用性的影响,设计了用于实现分级可逆水印的分区嵌入、等级检测、水印检测以及等级提升算法.数据所有者在数据分发前预先设定若干数据质量等级,以数据分区为单位嵌入水印.每个数据分区使用独立的密钥控制水印信息的位置和取值.如果数据使用者希望提升当前数据的可用性,可向数据所有者申请或购买相关密钥,提升当前数据的数据质量等级.对于任意数据质量等级的数据,其中的数字水印均可用于证明版权.采用分区的辅助数据,实现了灵活的水印逆操作.设计了有效的哈希表冲突解决方法,降低了计算和存储开销,提高了该方案的实用性.实验结果显示,方案具有良好的计算性能以及鲁棒性,可满足现实应用场景的需求.
2020, 31(11):3588-3602. DOI: 10.13328/j.cnki.jos.005829
摘要:控制流完整性保护技术(control flow integrity,简称CFI)是防御面向返回编程攻击(return-oriented programming,简称ROP)的一种有效途径.针对现有CFI中存在的四大问题:性能开销大、依赖程序代码信息、容易遭受历史刷新攻击以及规避攻击,提出了基于硬件分支信息的ROP攻击检测方法——MIBChecker (mispredicted indirect branch checker).该方法实时地利用硬件性能管理单元(performance monitor unit,简称PMU)的事件触发机制,针对每个预测失败的间接分支进行ROP攻击检测,规避了历史刷新攻击的可能,同时提出基于敏感系统调用参数的新型检测方法来检测短攻击链(称为gadgets-chain) ROP攻击.实验结果表明,MIBChecker能够不受历史刷新攻击的影响进行ROP短指令片段(称为gadget)检测,可有效地检测出常规ROP攻击和规避攻击,并仅引入5.7%的性能开销.
2020, 31(11):3603-3620. DOI: 10.13328/j.cnki.jos.005864
摘要:尽管基于平移模型的快速块匹配运动估计算法在一定程度上解决了高计算量的问题,但却是以牺牲运动补偿质量为代价的,而高阶运动模型尚存在计算量高、收敛不稳定的不足.通过实验统计发现,视频中约有56.21%的块包含缩放运动,进而得出缩放运动是除平移运动外最主要的视频运动形式的结论.进而借助双线性插值,在传统的块平移模型中引进一个缩放系数,将运动补偿误差表示为该缩放系数的一元二次函数,利用韦达定理推导出1D缩放运动下最佳缩放系数的计算方法,并将其进一步推广到2D等比例缩放运动的情况下.在此基础上,提出了一种采用自适应缩放系数优化的快速块匹配运动估计算法.该算法以菱形搜索计算平移矢量,再用自适应缩放系数确定待预测块的最佳匹配块.在33个标准测试视频上的实验结果表明,与基于平移模型的块匹配全搜索和快速菱形搜索相比,该算法的平均运动补偿峰值信噪比(peak signal-to-noise ratio,简称PSNR)分别提高了0.11dB和0.64dB,计算量比全搜索下降了96.02%,略高于菱形搜索;与基于缩放模型的运动估计相比,该算法的平均峰值信噪比较之3D全搜索下降了0.62dB,但是比快速3D菱形搜索提高了0.008dB,而计算量仅分别为两者的0.11%和3.86%,并且无需向解码端传输缩放矢量,能够实现编、解码端的自同步,不会增加边信息的码流开销.此外,该自适应缩放系数计算方法还可与菱形搜索以外的其他快速块匹配运动估计相结合,提高其运动补偿质量.
2020, 31(11):3621-3639. DOI: 10.13328/j.cnki.jos.005836
摘要:砂岩显微图像分类是地质学研究中一项基本工作,在油气储集层评估等方面有重要意义.在实现自动分类时,由于砂岩显微图像具有复杂多变的显微结构,人工定义特征对砂岩显微图像的表示能力有限.此外,由于样本采集和标注成本高昂,带标记的砂岩显微图像很少.提出一种面向小规模数据集的基于卷积神经网络的特征表示方法FeRNet,以便有效地捕获砂岩显微图像的语义信息,提高对砂岩显微图像的特征表示能力.FeRNet网络结构简单,可降低网络对带标记图像数据量的要求,防止参数过拟合.针对带标记砂岩显微图像数量不足的问题,提出了图像扩增预处理方法及基于卷积自编码网络的权重初始化策略,降低了因数据不足造成的过拟合风险.基于采自西藏地区的砂岩显微图像数据集设计并进行实验,实验结果表明,在带标记砂岩显微图像数据不足的情况下,图像扩增和卷积自编码网络可以有效地改善FeRNet网络的训练效果,通过FeRNet网络提取的特征对砂岩显微图像的表示能力优于人工定义特征.
2020, 31(11):3640-3656. DOI: 10.13328/j.cnki.jos.005828
摘要:深度卷积神经网络使用像素级标注,在图像语义分割任务中取得了优异的分割性能.然而,获取像素级标注是一项耗时并且代价高的工作.为了解决这个问题,提出一种基于图像级标注的弱监督图像语义分割方法.该方法致力于使用图像级标注获取有效的伪像素标注来优化分割网络的参数.该方法分为3个步骤:(1)首先,基于分类与分割共享的网络结构,通过空间类别得分(图像二维空间上像素点的类别得分)对网络特征层求导,获取具有类别信息的注意力图;(2)采用逐次擦除法产生显著图,用于补充注意力图中缺失的对象位置信息;(3)融合注意力图与显著图来生成伪像素标注并训练分割网络.在PASCAL VOC 2012分割数据集上的一系列对比实验,证明了该方法的有效性及其优秀的分割性能.
2020, 31(11):3657-3670. DOI: 10.13328/j.cnki.jos.005839
摘要:把具有不同重要性的功能集成到一个共享平台上的混合关键级系统,是当前嵌入式系统发展的主要趋势之一.已有的混合关键级调度理论为了保证高关键级作业的完成,大多不支持关键级向下切换,在系统进入高关键级后直接放弃低关键级作业的执行,这对系统中作业集的整体完成率有负面影响.为了应对这一问题,把需求边界分析理论扩展到混合关键级作业系统中,提出了作业的动态需求边界函数,以矢量的形式记录系统在运行时需求边界函数的动态变化,并相应地提出了作业的混合关键级松弛时间与系统关键级松弛时间的概念.在此基础上,提出了一种基于动态需求边界的混合关键级作业调度算法CSDDB (criticality switch based on dynamical demand boundary).该算法选择具有最小松弛时间的关键级作为执行关键级,在保证高关键级作业可调度的情况下,充分利用系统资源,尽可能地满足低关键级作业的执行.应用随机生成的任务集进行仿真实验,结果表明,与已有算法相比,CSDDB在系统关键级的保证与作业集整体完成率方面比现有算法有10%以上的提升.