2021, 32(10):2977-2992. DOI: 10.13328/j.cnki.jos.006024 CSTR:
摘要:整数溢出引起的软件系统安全性问题屡见不鲜,已有的模型检测技术由于存在状态空间爆炸、不能有效支持中断驱动型程序检测等缺点而少有工程应用.结合真实案例,对航天嵌入式软件整数溢出问题的分布和特征进行了系统性的分析.在有界模型检测技术的基础上,结合整数溢出特征,提出了基于整数溢出变量依赖的程序模型约简技术;同时,针对中断驱动型程序,结合中断函数特征抽象,提出了基于干扰变量的中断驱动程序顺序化方法.经过基准测试程序和真实航天嵌入式软件实验,结果表明:该方法在保证整数溢出问题检出率的前提下,不仅能够提高分析效率,还使得已有的模型检测技术能够适用于中断驱动型程序整数溢出检测.
2021, 32(10):2993-3013. DOI: 10.13328/j.cnki.jos.006026 CSTR:
摘要:HDFS分布式文件系统作为Apache Hadoop的核心组件之一,在工业界得到了广泛应用.HDFS采用了多副本机制保证数据的可靠性,但是由于多副本的存在,在节点失效、网络中断、写入失败时可能会导致数据不一致.与传统文件系统相比,HDFS被认为其数据一致性有所降低,但用户并不知道何时会出现不一致的情况,目前也没有相关工作对其一致性机制进行验证说明.当数据存在一致性问题时,会增加上层应用的不确定性.可见,对数据一致性的研究十分必要.HDFS的软件规模庞大,且在分布式环境下运行,针对这些特点,采用了着色Petri网建模和状态空间分析的方法,完成了以下工作:(1)使用着色Petri网对HDFS的读写流程建立模型,该模型详细刻画了HDFS内部各个组件的功能及相互协作的机制;(2)基于着色Petri网模型,使用状态空间工具分析了HDFS的数据层一致性和操作层一致性,验证并详细说明了HDFS出现不一致的条件;(3)在分析过程中,提出了“时点重复读”的操作层一致性验证方法,采用串行化的重复读策略降低了状态空间复杂度.基于以上工作,针对HDFS上层应用的开发给出建议,帮助提高应用的数据一致性.此外,在建模过程中提出的建模技巧给基于CPN Tools工具分析其他系统提供了借鉴.
2021, 32(10):3014-3035. DOI: 10.13328/j.cnki.jos.006276 CSTR:
摘要:国内外各大软件企业正广泛实施DevOps相关实践,以提高产品交付和部署频率.与此同时,面对日益严峻的网络安全环境,软件系统中的安全问题日益凸显.耗时的安全实践因为快速交付,在软件开发活动中难以得到有效贯彻.也正因如此,在开发和运维流程中有效集成安全控制手段,实现整个软件生命周期的持续安全,已成为各大企业向DevOps转型过程中亟需思考的问题.DevSecOps作为在DevOps下持续解决安全问题的有效方案,因此而受到学术界和工业界的广泛关注,并逐渐成为软件工程领域的研究重点.近年来,随着DevSecOps的研究和实践发展,人们对DevSecOps有了更全面的认识,也引入了更多安全实践.为此,从DevSecOps的背景、特征、实践、裨益和挑战这5个方面进行了归纳和总结,首次向国内软件工程社区全面介绍DevSecOps的核心内容,重点阐述了DevSecOps最新的理论研究和工业界实践现状,进而为从业者实际落地DevSecOps提供参考,也为研究者探索DevSecOps提供便利,并呼吁更多的研究者参与到DevSecOps的研究中来.
2021, 32(10):3036-3050. DOI: 10.13328/j.cnki.jos.006207 CSTR:
摘要:抽象语义表示(abstract meaning representation,简称AMR)文本生成的任务是给定AMR图,生成与其语义一致的文本.相关工作表明,人工标注语料的规模大小直接影响了AMR文本生成的性能.为了降低对人工标注语料的依赖,提出了基于多任务预训练的AMR文本生成方法.特别地,基于大规模自动标注AMR语料,提出与AMR文本生成任务相关的3个预训练任务,分别是AMR降噪自编码、句子降噪自编码以及AMR文本生成任务本身.此外,基于预训练模型,在朴素微调方法的基础上,进一步提出了基于多任务训练的微调方法,使得最终模型不仅适用于AMR文本生成,同时还适用于预训练任务.基于两个AMR标准数据集的实验结果表明:使用0.39M自动标注数据,提出的预训练方法能够大幅度提高AMR文本生成的性能,在AMR2.0和AMR3.0上分别提高了12.27和7.57个BLEU值,性能分别达到40.30和38.97.其中,在AMR2.0上的性能为目前报告的最优值,在AMR3.0上的性能为目前为止首次报告的性能.
2021, 32(10):3051-3067. DOI: 10.13328/j.cnki.jos.006217 CSTR:
摘要:近年来,手势作为一种输入通道,已在人机交互、虚拟现实等领域得到了广泛的应用,引起了研究者的关注.特别是随着先进人机交互技术的出现以及计算机技术(特别是深度学习、GPU并行计算等)的飞速发展,手势理解和交互方法取得了突破性的成果,引发了研究的热潮.综述了动态手势理解与交互的研究进展与典型应用:首先阐述手势交互的核心概念,分析了动态手势识别与检测进展;而后阐述了动态手势交互在人机交互中的代表性应用,并总结了手势交互现状,分析了下一步的发展趋势.
2021, 32(10):3068-3084. DOI: 10.13328/j.cnki.jos.006012 CSTR:
摘要:贝叶斯网络是研究变量之间因果关系的有力工具,基于贝叶斯网络的因果关系学习包括结构学习与参数学习两部分,其中,结构学习是核心.目前,贝叶斯网络主要用于发现非时间序列数据中所蕴含的因果关系(非时间序列因果关系),从数据中学习得到的也均是一般变量之间的因果关系.针对这些情况,结合时间序列预处理、时间序列变量排序、转换数据集构建和局部贪婪打分-搜索等进行时间序列的因果关系学习;再将包括分段在内的时间序列预处理、时间序列段的因果关系结构学习、因果关系结构数据集构建、因果关系变量排序和局部贪婪打分-搜索等相结合,来进行元因果关系(因果关系变量之间的因果关系)学习,从而实现两个层次的时间序列因果关系学习,为进一步的量化因果分析奠定了基础.分别使用模拟、UCI和金融时间序列数据进行实验与分析,实验结果显示,基于贝叶斯网络能够有效地进行时间序列的因果关系和元因果关系学习.
2021, 32(10):3085-3103. DOI: 10.13328/j.cnki.jos.006016 CSTR:
摘要:聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题,首先将K-means算法和层次聚类算法的聚类思想相结合,提出了一种混合聚类算法K-means-AHC;其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(平均综合度之差,difference of average synthesis degree),以此来评估K-means-AHC算法聚类结果的质量;最后,将K-means-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳类簇数和最优划分的有效方法.实验将K-means-AHC算法用于测试多种结构的数据集,结果表明:该算法在不过多增加时间开销的同时,提高了聚类分析的准确性.与此同时,新的DAS指标在聚类结果的评价上要优于当前已有的常用聚类有效性指标.
2021, 32(10):3104-3121. DOI: 10.13328/j.cnki.jos.006017 CSTR:
摘要:人工免疫系统(artificial immune system,简称AIS)是人工智能技术的重要分支之一,被广泛应用于异常检测、数据挖掘、机器学习等多个领域.检测器是其核心知识集,其生成、优化和检测操作决定了人工免疫的应用效果.目前,人工免疫的问题空间以实值形态空间为主,但实值非自体空间“黑洞”、检测器生成速率慢、检测器高重叠冗余、“维度灾难”等问题,使得人工免疫检测的效果不甚理想.鉴于此,使用邻域形态空间,并改进邻域否定选择算法(neighborhood negative selection algorithm,简称NNSA),引入混沌理论和遗传算法,提出了一种多源邻域否定选择算法(multi-source-inspired NNSA,简称MSNNSA),并基于此提出邻域形态空间多源免疫检测器生成与检测方法,改进邻域形态空间下检测器的构造与生成机制,使其更具靶向性,并使获得的检测器具有更好的分布性,提高其生成效率和整体的检测性能,解决以上实值形态空间下存在的问题.实验结果表明,该方法提高了检测器生成效率以及检测的整体性能和稳定性.
2021, 32(10):3122-3138. DOI: 10.13328/j.cnki.jos.006027 CSTR:
摘要:行走是日常生活中最常见的行为之一,它的特征可以反映人的身份、健康等重要信息.例如,行走的速度、方向、步数、步长等细粒度的参数可以为室内追踪、步态分析、老人看护等情境感知应用提供关键信息.因此,在近几年中,利用环境中已有的Wi-Fi信号对行走进行感知受到了研究人员的广泛关注.为了利用Wi-Fi信号感知行走,当前的方法都需要进行大量的行走数据采集,通过经验观察或者离线学习,提取信号特征来识别行走以及估计行走参数.由于缺乏理论指导,所提取信号特征较为间接且往往包含与环境和感知目标相关的冗余信息,所以当环境和感知目标发生变化时,系统需要重新进行学习,使其难以被应用于无线环境易变的真实场景中.不同于以往工作,首次在不需要任何预训练的情况下,利用环境中已有的Wi-Fi信号实现了在连续活动中对行走行为的精准识别,并且能够同时精确地估计行走的速度、方向、步数、步长等多维信息,为上层情境感知应用提供关键的上下文信息.特别地,通过分析人在行走过程中产生的多普勒效应和Wi-Fi信道状态信息(channel state information)之间的关系,建立基本的多普勒速度运动模型,揭示了行走行为和信道状态信息变化之间的理论关联.同时,基于该模型,通过多重信号分离(multiple signal classification)算法从信道状态信息中提取出了与环境和感知目标均无关、仅与人运动状态相关的信号特征——多普勒速度.最后,通过深入研究多普勒速度和人的行走真实速度之间的映射关系,提出了基于多普勒速度的行走识别与细粒度的行走参数估计方法,且经过在不同环境中、由不同实验者进行的大量实验也表明了行走识别和行走参数估计方法的准确性和鲁棒性.其中,对于行走识别的准确率达到了95.5%,行走速度大小估计的相对中位误差为12.2%,方向估计的中位误差为9°,步数统计的准确率达90%,步长估计的中位误差为0.12m.
2021, 32(10):3139-3150. DOI: 10.13328/j.cnki.jos.006028 CSTR:
摘要:由于低频罪名数据量较少和易混淆罪名案情描述相似等原因,导致低频和易混淆罪名预测效果不佳.为了解决此类问题,通过构建案件辅助句,提出一种基于双向互注意力机制的案件辅助句融合方法,实现罪名预测.主要包括以下3部分:首先,基于司法领域知识构建案件辅助句,将案件辅助句作为案情描述和罪名之间的映射知识;然后,基于词级和字符级表征分别提取案情描述与案件辅助句多粒度特征;同时,借助案件辅助句与案情描述双向注意机制,获得具有辅助句倾向性的案情描述表征,并最终实现低频和易混淆罪名的预测.基于中国刑事案件公共数据集的实验结果表明:所提方法在F1值最大提升13.2%,准确率最大提升4.5%,低频罪名预测F1值提升4.3%,易混淆罪名预测F1值提升8.2%,所提算法显著地提升了低频和易混淆罪名的预测性能.
2021, 32(10):3151-3175. DOI: 10.13328/j.cnki.jos.006030 CSTR:
摘要:花授粉算法是近年来提出的一种新型的、简单高效的优化算法,已在各个领域得到广泛应用,但其搜索策略存在的不足,制约着其应用范围.为此,提出一种改进的基于多策略的花授粉算法.首先,新全局搜索策略通过利用两组随机个体差异矢量和莱维飞行机制来增加种群多样性并扩大搜索范围,使算法更易跳出局部最优,提升其开采能力;其次,在局部搜索部分引入精英变异策略,并与随机个体变异机制组合成一种新的局部授粉策略,利用精英个体对其他个体的演化方向进行引导,提高算法的搜索速度;通过随机个体变异策略来保持种群的多样性,增强算法的持续优化能力;同时,通过一种线性递减概率规则调节这两种变异策略,使其取长补短,以提高算法的优化能力;最后,对进化中没有得到改善的解,利用余弦函数搜索因子策略产生一个新解加以替换,从而提高算法解的质量.通过5类经典测试函数的仿真实验和采用统计学上的分析,证明了该算法的稳定性和有效性;与现有经典的和知名的改进算法进行了对比,实验结果表明,所提出的改进算法是一种富有竞争力的新算法.同时,利用改进算法对军事领域中的无人作战飞行器航线规划问题进行求解,测试结果表明,改进算法在解决实际工程问题时,同样具有一定的优势.
2021, 32(10):3176-3202. DOI: 10.13328/j.cnki.jos.006203 CSTR:
摘要:传统的数据库系统围绕单次查询的模型构建,独立地执行并发查询.由于该模型的限制,传统数据库无法一次对多个查询进行优化.多查询共享技术旨在共享查询之间的公共部分,从而达到提高系统整体响应时间和吞吐量的目的.将多查询执行模式分为两类,介绍了各自的原型系统——基于全局查询计划的多查询原型系统和以运算符为中心的多查询原型系统,并且讨论了两种系统的优势以及所适用场景.在之后的内容中,将多查询共享技术按照查询的各个阶段分为查询编译阶段中的多查询共享技术以及查询执行阶段中的多查询共享技术两大类.以这两个方向为线索,梳理了多查询计划的表示方法、多查询表达式合并、多查询共享算法、多查询优化等各种方向的研究成果.在此基础上,还介绍了共享查询技术在关系数据库和非关系数据库中的应用.最后,分析了共享查询技术面临的机遇和挑战.
2021, 32(10):3203-3218. DOI: 10.13328/j.cnki.jos.006023 CSTR:
摘要:近年来,写密集型应用程序越来越普遍.如何有效地处理这种工作负载,是数据库系统领域深入研究的方向之一.写操作开销主要由以下两个方面的因素构成:(1)硬件级别,即写操作引起的I/O,目前无法在短时间内消除这种开销;(2)软件开销,即修改内存数据拷贝以及构造日志记录造成的多次写操作.日志即数据(log-as-database,称其为单拷贝系统)的架构能够减少写操作引起的I/O,同时降低软件方面的开销.目前,业界对单拷贝系统展现出浓厚的兴趣.现有的单拷贝系统大部分建立在特殊的基础设施之上,例如infiniband或NVRam(非易失性随机存取存储器),这种基础设施尚未达到广泛可用或者是依托他系统(例如Dynamo)构建,这种方法缺乏灵活性与普适性.在商用机器环境中,自底向上构建了一个称为LogStore的键值数据库系统,采用log-as-database设计理念,以充分利用单拷贝系统的优点,在提升写操作性能的同时,有效缩短主备数据之间的差距.在系统中内嵌复制协议达到高可用性而不是依赖其他系统,使得系统灵活可控.系统新颖的查询执行模型将执行线程与特定分片绑定,结合多版本并发控制技术,以无锁的方式消除读写冲突、写写冲突以及上下文切换开销.用YCSB对系统性能进行了详细的评估,对比主流的键值系统HBase以及单拷贝系统实现LogBase,LogStore在写密集型工作负载上性能要优4倍左右.在崩溃恢复方面,LogStore可在1分钟之内完成TB级别数据规模的恢复,比LogBase要快1个数量级以上.
2021, 32(10):3219-3235. DOI: 10.13328/j.cnki.jos.006199 CSTR:
摘要:如今,智能手机已成为人们日常生活中重要的组成部分.然而,在智能手机软硬件能力高速发展的同时,智能手机的电池能力却未能取得突破性的进展.这导致电池的续航能力经常会成为用户使用智能手机时的体验瓶颈.为了提高用户使用体验的优良感受,一种可行的方法是为用户提供电池续航时间预测.准确的电池续航时间预测能够帮助用户更加高效地规划其使用,从而能够改善其使用体验.由于缺乏高质量数据的支持,现有的电池续航时间预测方法通常比较简单,较难在真实场景下发挥实际用途.为了解决这一问题,基于一组细粒度大规模真实用户数据集,提出了一个智能手机电池续航时间预测模型.为了验证模型的效果,基于51名用户21个月内的细粒度使用数据进行了实验验证.结果显示:用户在发起查询时的使用行为、在当前会话内的使用行为以及其历史使用习惯上,均能够不同程度地帮助电池续航时间预测.总体来说,所提出的模型能够显著提升预测准确度.
2021, 32(10):3236-3253. DOI: 10.13328/j.cnki.jos.006013 CSTR:
摘要:为了在构造多接收方签密方案时,既不牺牲安全性又可以节约通信和计算开销,首先将随机数重用的安全理论丰富到另一种常见情况,提出了随机数部分重用的概念,并以签密体制为研究对象,定义了随机数部分重用的多接收方签密方案、随机数部分重用可再生的签密方案及安全模型;然后给出并证明了可再生性定理——随机数部分重用的安全条件为方案是可再生的;最后证明了LWWD16的格基签密方案是一个随机数部分重用可再生的签密方案,并基于LWWD16首次构造了一个基于格的随机数部分重用的多消息多接收方签密方案,证明了方案满足抗自适应选择密文攻击不可区分(IND-CCA2)和抗自适应选择消息攻击不可伪造(euf-CMA)安全性.效率分析表明,基于随机数部分重用构造的多消息多接收方签密方案可以有效地节约系统计算和通信开销.为多消息多接收方签密的构造提供了一种通用方法.
2021, 32(10):3254-3265. DOI: 10.13328/j.cnki.jos.006062 CSTR:
摘要:网络入侵检测系统作为一种保护网络免受攻击的安全防御技术,在保障计算机系统和网络安全领域起着非常重要的作用.针对网络入侵检测中数据不平衡的多分类问题,机器学习已被广泛用于入侵检测,比传统方法更智能、更准确.对现有的网络入侵检测多分类方法进行了改进研究,提出了一种融合随机森林模型进行特征转换、使用梯度提升决策树模型进行分类的入侵检测模型RF-GBDT,该模型主要分为特征选择、特征转换和分类器这3个部分.采用UNSW-NB15数据集对RF-GBDT模型进行了实验测试,与其他3种同领域的算法相比,RF-GBDT既缩短了训练时间,又具有较高的检测率和较低的误报率,在测试数据集上受试者工作特征曲线下的面积可达98.57%.RF-GBDT对于解决网络入侵检测数据不平衡的多分类问题具有较显著的优势,是一种切实可行的入侵检测方法.
2021, 32(10):3266-3282. DOI: 10.13328/j.cnki.jos.006086 CSTR:
摘要:随着医疗信息系统的急速发展,基于医疗云的信息系统将大量电子健康记录(EHRs)存储在医疗云系统中,利用医疗云强大的存储能力和计算能力对EHRs数据进行安全与统一的管理.尽管传统加密机制可以保证医疗数据在半诚实云服务器中的机密性,但对加密后的EHRs数据执行安全、快速、有效的范围搜索,仍是一个有待解决的关键问题.提出一种支持多关键词范围搜索的可搜索加密方案:利用向量积保持加密机制实现复杂查询结构的可搜索加密,可支持连接关键词查询、范围查询以及通配符的查询;通过随机化构建搜索索引和搜索陷门,实现搜索模式隐藏,达到搜索语句的隐私保护;采用矩阵哈达马积缩小所需密钥矩阵的维度.理论分析和实验结果表明:该方案在达到医疗数据隐私保证的同时,对用户的检索策略也进行了有效的隐私性保护,有效提高了检索效率,降低了创建索引及陷门所用时间,实现了多用户多文件下医疗数据的范围搜索能力.
2021, 32(10):3283-3292. DOI: 10.13328/j.cnki.jos.006018 CSTR:
摘要:降雨会严重降低拍摄图像质量和影响户外视觉任务.由于不同图像中,雨的形状、方向和密度不同,导致单幅图像去雨是一项困难的任务.提出一种新的基于双注意力的残差循环单幅图像去雨集成网络(简称RDARENet).在网络中,因为上下文的信息对于去除雨痕十分重要,所以首先采用多尺度的扩张卷积网络去获得更大的感受野.雨痕信息可以认为是多个雨层特征的叠加,为了更好地提取雨痕的特征和恢复背景图层信息,运用了通道和空间注意力机制的残差网络.通道注意力能够反映不同雨层的权重,而空间注意力则通过相邻空间特征之间的关系增强区域的表征.随着网络的加深,防止低层信息的丢失,采用级联的残差网络和长短时间记忆网络,将低层特征信息传递到高层中去,逐阶段地去除雨痕.在网络的输出部分,采用集成学习的方式,将每个阶段的输出结果通过门控网络加权相加,得到最终的无雨图像.实验结果表明,去雨和恢复纹理细节的效果都得到较大提升.
2021, 32(10):3293-3309. DOI: 10.13328/j.cnki.jos.006022 CSTR:
摘要:虚拟机自省是一种在虚拟机外部获取目标虚拟机信息,并对其运行状态进行监控分析的方法.针对现有虚拟机自省方法在语义重构过程中存在的可移植性差、效率较低的问题,提出了一种语义重构改进方法VMOffset.该方法基于进程结构体成员自身属性制定约束条件,可在不知道目标虚拟机内核版本的情况下,自动获取其进程结构体关键成员偏移量,所得偏移量可提供给开源或自主研发的虚拟机自省工具完成语义重构.在KVM(kernel-based virtual machine)虚拟化平台上实现了VMOffset原型系统,并基于不同内核版本操作系统的虚拟机,对VMOffset的有效性及性能进行实验分析.结果表明:VMOffset可自动完成各目标虚拟机中进程级语义的重构过程,具有可移植性与安全性,且仅对目标虚拟机的启动阶段引入0.05%之内的性能损耗.
2021, 32(10):3310-3330. DOI: 10.13328/j.cnki.jos.006025 CSTR:
摘要:加密视频识别是网络安全和网络管理领域亟待解决的问题,已有的方法是将视频的加密传输指纹与视频指纹库中的视频指纹进行匹配,从而识别出加密传输的视频.现有工作主要集中在匹配识别算法的研究上,但是没有专门针对待匹配数据源的研究,也缺少在大型视频指纹库里对这些算法的查准率和假阳率指标的分析,由此造成现有成果的实用性不能保证.针对这一问题,首先分析使用安全传输层协议加密的应用数据单元(application data unit,简称ADU)密文长度相对明文长度发生漂移的原因,首次将HTTP头部特征和TLS片段特征作为ADU长度复原的拟合特征,提出了一种对加密ADU指纹精准复原方法HHTF,并将其应用于加密视频识别.基于真实Facebook视频模拟构建了20万级的大型指纹库.从理论上推导并计算出:只需已有方法十分之一的ADU数目,在该指纹库中视频识别准确率、查准率、查全率达到100%,假阳率达到0.在模拟大型视频指纹库中的实验结果与理论推导结果一致.HHTF方法的应用,使得在大规模视频指纹库场景中识别加密传输的视频成为可能,具有很强的实用性和应用价值.