2020, 31(2):247-265. DOI: 10.13328/j.cnki.jos.005626 CSTR:
摘要:即时编译机制(just-in-time compilation)改善了网页浏览器执行JavaScript脚本的性能,同时也为攻击者向浏览器进程注入恶意代码提供了便利.借助即时编译器,攻击者可以将脚本中的整型常数放置到动态代码缓存区,以便注入二进制恶意代码片段(称为gadget).通过常数致盲等去毒化处理,基于常数的注入已经得到有效遏制.证实了不使用常数转而通过填充脚本代码块也能实施gadget注入,并实现图灵完备的计算功能.在编译一段给定的脚本代码时,即时编译器生成的动态代码中通常存在着一些固定的机器指令序列.这些指令序列的存在性不受常数致盲和地址空间布局随机化等安全机制的影响,同时,这些指令序列中可能蕴涵着攻击者期望的gadget.在实施攻击时,攻击者可以汇集特定的脚本代码块来构造一个攻击脚本,再借助即时编译器来注入gadget.在x86-64架构上评估了这种注入攻击在SpiderMonkey和GoogleV8这两个开源即时编译引擎上的可行性.通过给这两个引擎输入大量的JavaScript脚本,可以得到较为丰富的动态代码块.在这些动态代码块上的统计分析结果表明,这两个引擎生成的动态代码中都存在图灵完备的gadget集合.在实际攻击场景中,攻击者可以利用的脚本集合完全包含且远远多于实验用的脚本.因此,攻击者可以采用该方法注入需要的gadget,以便构造出实现任意功能的ROP(return-orientedprogramming)代码.
2020, 31(2):266-281. DOI: 10.13328/j.cnki.jos.005632 CSTR:
摘要:软件缺陷预测旨在帮助软件开发人员在早期发现和定位软件部件可能存在的潜在缺陷,以达到优化测试资源分配和提高软件产品质量的目的.跨项目缺陷预测在已有项目的缺陷数据集上训练模型,去预测新的项目中的缺陷,但其效果往往不理想,其主要原因在于,采样自不同项目的样本数据集,其概率分布特性存在较大差异,由此对预测精度造成较大影响.针对此问题,提出一种监督型领域适配(domain adaptation)的跨项目软件缺陷预测方法.将实例加权的领域适配与机器学习的预测模型训练过程相结合,通过构造目标项目样本相关的权重,将其施加于充足的源项目样本中,以实例权重去影响预测模型的参数学习过程,将来自目标项目中缺陷数据集的分布特性适配到训练数据集中,从而实现缺陷数据样本的复用和跨项目软件缺陷预测.在10个大型开源软件项目上对该方法进行实证,从数据集、数据预处理、实验结果多个角度针对不同的实验设定策略进行分析;从数据、预测模型以及模型适配层面分析预测模型的过拟合问题.实验结果表明,该方法性能优于同类方法,显著优于基准性能,且能够接近和达到项目内缺陷预测的性能.
2020, 31(2):282-301. DOI: 10.13328/j.cnki.jos.005637 CSTR:
摘要:在基于搜索的软件工程研究领域,高维多目标最优软件产品选择问题是当前的一个研究热点.既往工作主要采用后验方式(即先搜索再选择)处理软件工程师或终端用户的偏好.与此不同,将用户偏好集成于优化过程,提出了一种新算法以定向搜索用户最感兴趣的软件产品.在算法中,运用权向量表达用户偏好,采用成就标量化函数(achievement scalarizing function,简称ASF)集成各个优化目标,并定义一种新关系比较个体之间的优劣.为了增强算法快速搜索到有效解的能力,分别采用DPLL/CDCL类型和随机局部搜索(SLS)类型可满足性(SAT)求解器实现了替换算子和修复算子.为了验证新算法的有效性,采用21个广泛使用的特征模型进行仿真实验,其中最大特征数为62482,最大约束数为343 944.实验结果表明,基于DPLL/CDCL类型SAT求解器的替换算子有助于算法返回有效软件产品;基于SLS类型SAT求解器的修复算子有助于快速搜索到尽可能满足用户偏好的最终产品.在处理带偏好的高维多目标最优软件产品选择问题时,综合运用两类SAT求解器是一种行之有效的方法.
2020, 31(2):302-320. DOI: 10.13328/j.cnki.jos.005977 CSTR:
摘要:数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性这4个方面对数据标注的研究方向和发展趋势进行了展望.
褚晓敏 , 奚雪峰 , 蒋峰 , 徐昇 , 朱巧明 , 周国栋
2020, 31(2):321-343. DOI: 10.13328/j.cnki.jos.005868 CSTR:
摘要:篇章结构分析是自然语言处理领域的一个重要研究方向.篇章结构分析有助于理解篇章的结构和语义,并为自然语言处理的应用(如自动文摘、信息抽取、问答系统等)提供有力的支撑.目前,篇章结构分析主要集中在微观的层面,分析的重点是句子内部或句子与句子之间的关系和结构,而宏观层面的研究相对较少.因此,以篇章结构作为研究对象,并将研究重点放在宏观篇章结构的表示体系和语料资源建设上.探讨了篇章结构分析的重要性,从理论体系、语料资源、计算模型这3个方面阐述了篇章结构分析的研究现状,提出了以篇章主次关系为媒介的宏观和微观统一的篇章结构表示框架,并分别构建了宏观篇章的逻辑语义结构和功能语用结构.在此基础上,标注了规模为720篇新闻报道的宏观篇章结构语料,并对标注的结果进行了一致性分析和标注统计分析.
2020, 31(2):344-355. DOI: 10.13328/j.cnki.jos.005614 CSTR:
摘要:为了验证RDFS(resource description framework schema)本体的正确性所执行的推理是一项计算开销很大的任务,该任务在附加约束存在的条件下变得更加复杂.提出了一种旨在不改变推理结果的前提下,对RDFS模式进行抽取的方法.该方法基于对约束间的依赖关系进行分析.为了获取RDFS模式的精确语义,首先,将模式元素和约束形式化为一阶谓词逻辑中的析取嵌入依赖;接着,根据约束间的相互影响建立约束依赖图,在此基础上,提出了删除与推理任务无关的边和节点的策略;最后,通过重构造过程获取RDFS子模式.该方法使得推理验证可以在抽取后的小规模本体上进行.实验结果显示,该方法可以显著地提高RDFS本体验证过程的效率,抽取过程的平均耗时为0.60s,与推理检测时间相比几乎可以忽略,而获得的效率提升则为2.00倍~22.97倍不等.
2020, 31(2):356-373. DOI: 10.13328/j.cnki.jos.005617 CSTR:
摘要:现实中大量存在的高维多目标优化问题对以往高效的多目标进化算法提出了严峻的挑战.通过将分解策略和协同策略相结合提出一种高维多目标进化算法MaOEA/DCE.该算法利用混合水平正交实验方法在聚合系数空间产生一组均匀分布的权重向量以改善初始种群的分布性;其次,算法将差分进化算子和自适应SBX算子进行协同进化,以产生高质量的子代个体,并改善算法的收敛性.该算法与另外5种高性能的多目标进化算法在基准测试函数集DTLZ{1,2,4,5}上进行对比实验,利用改进的反转世代距离指标IGD+评估各算法的性能.实验结果表明,MaOEA/DCE算法与其他对比算法相比,在总体上具有较为显著的收敛性和分布性优势.
2020, 31(2):374-394. DOI: 10.13328/j.cnki.jos.005619 CSTR:
摘要:在分布式体系结构的MAS(multi-agent system)中,Agent之间通过彼此的交互,协调完成共同的任务,但是由于没有中心化的管理权威可以依赖,导致对网络中Agent信誉信息进行判断存在一定的困难.传统的基于评价反馈的信誉评估方法存在反馈评价属性信息利用不足以及缺少确保反馈评价信息可信的可行机制等问题,为此,提出一种综合的信誉计算方法.该方法针对个别用户提交的恶意评价,采用CUSUM(cumulative sum)控制图理论对服务评价中的数据进行过滤;利用信息熵的方法对不同维度的评价数据进行整合;使用改进的PageRank算法对评价影响力进行度量,最终得到融合反馈评价真值与评价影响力的综合信誉.仿真结果表明,该方法在提高信誉计算收敛性和准确性、抵抗恶意攻击行为等方面表现出较好的效果.
2020, 31(2):395-405. DOI: 10.13328/j.cnki.jos.005642 CSTR:
摘要:模型计数是指求出给定命题公式的模型数,是SAT问题的泛化.模型计数在人工智能领域取得了广泛应用,很多现实问题都可以规约为模型计数进行求解.目前,常用的模型计数求解器主要有Cachet与sharpSAT,它们均采用完备方法且具有高效的求解能力,但其求解效率对模型数不敏感.有理由猜测:当给定问题的模型较少时,不完备算法可能发挥其效率优势而更适合模型计数.局部搜索是求解SAT问题的高效不完备方法,Cai等人提出了格局检测策略,并将其应用到局部搜索方法中,提出了SWcc算法,具有很高的求解效率.对SWcc算法进行扩充,分别得到了迭代法与优化后的增量法两种效率较高的不完备模型计数方法,给出了两种方法的思路和具体实现.最后给出了大量测试样例的实验结果,以验证当给定合取范式的模型较少时,该迭代法与优化后的增量法的求解效率有所提升.
2020, 31(2):406-420. DOI: 10.13328/j.cnki.jos.005876 CSTR:
摘要:研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性.
2020, 31(2):421-438. DOI: 10.13328/j.cnki.jos.005618 CSTR:
摘要:新兴的基于活动的社交网络以活动为核心,结合线上关系与线下活动促进用户真实、有效的社交关系的形成,但过多的活动信息会使用户难以分辨和选择.结合上下文进行个性化同城活动推荐,是解决活动信息过载问题的一种有效手段.然而大部分现有的同城活动推荐算法都是从用户参与活动记录中间接统计用户对上下文信息的偏好,忽略了两者之间潜在的交叉影响关系,从而影响了推荐结果的有效性.为了解决用户参与活动偏好与上下文信息潜在交叉影响关系利用不足的问题,提出了一种基于协同上下文关系学习的同城活动推荐算法(colletivecontextual relation learning,简称CCRL).首先,对用户参与活动记录和活动主办方、活动内容、活动地点、举办时间等相关上下文信息进行关系建模;然后,采用多关系贝叶斯个性化排序学习方法进行协同上下文关系学习及同城活动推荐.Meetup数据集上的实验结果表明,该算法在多项指标上均优于现有的主流活动推荐算法.
2020, 31(2):439-454. DOI: 10.13328/j.cnki.jos.005624 CSTR:
摘要:为了保护云资源的安全,防止数据泄露和非授权访问,必须对云平台的资源访问实施访问控制.然而,目前主流云平台通常采用自己的安全策略语言和访问控制机制,从而造成两个问题:(1)云用户若要使用多个云平台,则需要学习不同的策略语言,分别编写安全策略;(2)云服务提供商需要自行设计符合自己平台的安全策略语言及访问控制机制,开发成本较高.对此,提出一种基于元模型的访问控制策略描述语言PML及其实施机制PML-EM.PML支持表达BLP、RBAC、ABAC等访问控制模型.PML-EM实现了3个性质:策略语言无关性、访问控制模型无关性和程序设计语言无关性,从而降低了用户编写策略的成本与云服务提供商开发访问控制机制的成本.在OpenStack云平台上实现了PML-EM机制.实验结果表明,PML策略支持从其他策略进行自动转换,在表达云中多租户场景时具有优势.性能方面,与OpenStack原有策略相比,PML策略的评估开销为4.8%.PML-EM机制的侵入性较小,与云平台原有代码相比增加约0.42%.
2020, 31(2):455-470. DOI: 10.13328/j.cnki.jos.005628 CSTR:
摘要:数据删重技术在云存储系统中得到了广泛的应用.如何在保证数据隐私的前提下,在半可信的云存储系统中实现高效的数据删重,是云计算安全领域的研究热点问题.现有方案在数据标识管理和用户数量统计方面普遍依赖于在线的可信第三方,执行效率有待提高,且容易造成系统瓶颈.提出了一种可验证的数据删重方法,无需可信第三方在线参与.基于双线性映射构造双文件标识方案进行流行度查询,确保标识不泄露数据的任何明文信息.采用改进的群签名方案,使用户可验证服务器返回的流行度标识,有效地防止云服务器伪造数据流行度的查询结果.设计了多层加密方案,可以根据数据的流行度,采用不同的加密方式.分析并证明了方案的安全性和正确性.通过仿真实验,验证了方案的可行性和高效性.
2020, 31(2):471-492. DOI: 10.13328/j.cnki.jos.005679 CSTR:
摘要:位置隐私和查询内容隐私是LBS兴趣点(point of interest,简称POI)查询服务中需要保护的两个重要内容,同时,在路网连续查询过程中,位置频繁变化会给LBS服务器带来巨大的查询处理负担,如何在保护用户隐私的同时,高效地获取精确查询结果,是目前研究的难题.以私有信息检索中除用户自身外其他实体均不可信的思想为基本假设,基于Paillier密码系统的同态特性,提出了无需用户提供真实位置及查询内容的K近邻兴趣点查询方法,实现了对用户位置、查询内容隐私的保护及兴趣点的精确检索;同时,以路网顶点为生成元组织兴趣点分布信息,进一步解决了高强度密码方案在路网连续查询中因用户位置变化频繁导致的实用效率低的问题,减少了用户的查询次数,并能确保查询结果的准确性.最后从准确性、安全性及查询效率方面对本方法进行了分析,并通过仿真实验验证了理论分析结果的正确性.
2020, 31(2):493-510. DOI: 10.13328/j.cnki.jos.005639 CSTR:
摘要:提出了一种基于低密度分割几何距离的半监督KFDA(kernel Fisher discriminant analysis)算法(semisupervised KFDA based on low density separation geometry distance,简称SemiGKFDA).该算法以低密度分割几何距离作为相似性度量,通过大量无标签样本,提高KFDA算法的泛化能力.首先,利用核函数将原始空间样本数据映射到高维特征空间中;然后,通过有标签样本和无标签样本构建低密度分割几何距离测度上的内蕴结构一致性假设,使其作为正则化项整合到费舍尔判别分析的目标函数中;最后,通过求解最小化目标函数获得最优投影矩阵.人工数据集和UCI数据集上的实验表明,该算法与KFDA及其改进算法相比,在分类性能上有显著提高.此外,将该算法与其他算法应用到人脸识别问题中进行对比,实验结果表明,该算法具有更高的识别精度.
2020, 31(2):511-530. DOI: 10.13328/j.cnki.jos.005656 CSTR:
摘要:为了解决复杂场景下,基于整体表观模型的目标跟踪算法容易丢失目标的问题,提出了一种多模型协作的分块目标跟踪算法.融合基于局部敏感直方图的产生式模型和基于超像素分割的判别式模型构建目标表观模型,提取局部敏感直方图的亮度不变特征来抵制光照变化的影响;引入目标模型的自适应分块划分策略以解决局部敏感直方图算法缺少有效遮挡处理机制的问题,提高目标的抗遮挡性;通过相对熵和均值聚类度量子块的局部差异置信度和目标背景置信度,建立双权值约束机制和子块异步更新策略,在粒子滤波框架下,选择置信度高的子块定位目标.实验结果表明,该方法在复杂场景下具有良好的跟踪精度和稳定性.
2020, 31(2):531-543. DOI: 10.13328/j.cnki.jos.005630 CSTR:
摘要:智能电子设备和互联网的普及,使得图像数据爆炸性膨胀.为了有效管理复杂图像资源,提出一种基于加权语义邻近集和形式概念偏序结构的图像层级分类方法.首先,根据图像语义相关分数,对不同程度语义设定自适应权系数,从训练图库中构建加权语义邻近集,通过对语义邻近集中图像的词频分布进行判决,自动生成图像的多个语义标签;然后,以每幅图像为对象,以每幅图像自动生成的语义标签为属性,构建形式背景,通过偏序结构算法对复杂图像集进行有效的层级分类.该方法可以得到图像库中图像之间明确的结构关系和图像类别之间的从属关系,为复杂图像大数据进行层级分类管理提供了有效的思路.对Corel5k、EspGame和Iaprtc12这3个数据库进行了图像标注实验,证明了标注的语义完整性和主要语义的准确性;并对Corel5k数据库进行了图像的层级分类实验,结果表明,层级分类效果显著.
2020, 31(2):544-563. DOI: 10.13328/j.cnki.jos.005979 CSTR:
摘要:现代处理器的优化技术,包括乱序执行和推测机制等,对性能至关重要.以Meltdown和Spectre为代表的侧信道攻击表明:由于异常延迟处理和推测错误而执行的指令结果虽然在架构级别上未显示,但仍可能在处理器微架构状态中留下痕迹.通过隐蔽信道可将微架构状态的变化传输到架构层,进而恢复出秘密数据,这种攻击方式称为瞬态执行攻击.该攻击有别于传统的缓存侧信道攻击,影响面更广,缓解难度更大.深入分析了瞬态执行攻击的机理和实现方式,对目前的研究现状与防御方法进行了总结.首先,介绍了处理器微架构采用的优化技术,并分析了其导致瞬态执行攻击的功能特征;然后,基于触发瞬态执行的原语对瞬态执行攻击进行系统化分析,揭示攻击面上的明显差异;最后,有侧重点地针对攻击模型中的关键步骤和关键组件总结了已有的防御方法,并展望了未来的研究方向.
2020, 31(2):564-577. DOI: 10.13328/j.cnki.jos.005615 CSTR:
摘要:拟态构造的Web服务器是一种基于拟态防御原理的新型Web安全防御系统,其利用异构性、动态性、冗余性等特性阻断或扰乱网络攻击,以实现系统安全风险可控.在分析拟态防御技术原理的基础上,论证异构性如何提高拟态构造的Web服务器的安全性,并指出对异构性进行量化的重要性.在借鉴生物多样性的量化方法基础上,将拟态构造的Web服务器的异构性定义为其执行体集的复杂性与差异性,提出了一种适用于量化异构性的量化方法,通过该方法分析了影响拟态构造的Web服务器异构性的因素.在理论上为拟态防御量化评估提供了一种新方法,工程实践上为选择冗余度、构件和执行体提供了指导.实验结果表明,该方法比香浓维纳指数和辛普森指数更适合于量化拟态构造的Web服务器的异构性.
2020, 31(2):578-596. DOI: 10.13328/j.cnki.jos.005633 CSTR:
摘要:随着云存储的出现,越来越多的用户选择将大量数据存储在远程云服务器上,以节约本地存储资源.如何验证用户远程存储在云端数据的完整性,成为近年来学术界的一个研究热点.虽然现已提出了很多云审计方案,但大多数方案都假设个人和企业在使用云存储系统的整个过程中,用户及其公私钥始终不变,且不能高效地对数据进行实时动态更新.为此,提出一种轻量级的支持用户可动态撤销及存储数据可动态更新的云审计方案.首先,该方案允许用户可高效地动态撤销(包括更换公私钥),在用户撤销阶段,采用了多重单向代理重签名技术,新用户只需计算重签名密钥,而无需从云端下载数据再重新签名后上传到云端;其次,该方案能够保证数据可实时动态更新(插入、删除、修改),通过在数据块的身份识别码中引入虚拟索引,数据动态更新时,只有被更新数据块的身份识别码发生变化,其余数据块的身份识别码保持不变;最后,在重签名阶段,云服务器代替新用户进行签名,在审计阶段,第三方审计者代表当前用户对存储在远程云服务器上的数据进行完整性验证,减轻了终端用户的计算开销及系统的通信开销(轻量级).安全性分析和性能分析进一步说明,该方案是安全的和高效的.