• 当期目录
  • 优先出版
  • 过刊浏览
  • 点击排行
  • 下载排行
  • 综述文章
  • 专刊文章
  • 分辑系列
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2022,33(1):1-25, DOI: 10.13328/j.cnki.jos.006279
    [摘要] (1165) [HTML] (59) [PDF 7.76 M] (846)
    摘要:
    开发者通常会为其开源代码选择不同的开源许可证来约束其使用条件, 以期能有效地保护知识产权和维持软件的长远发展. 然而, 现有的开源许可证种类繁杂, 开发者难以了解不同开源许可证间的差异, 并且难以通过现有的开源许可证选择工具做出合适的选择——其使用要求开发者了解开源许可证相关条款并明确自己的业务需求. 学术界虽然对开源许可证已有研究, 但是对开发者选择开源许可证的实际困难并无系统的分析进而缺乏清晰的认知. 有鉴于此, 旨在从开源开发者角度出发, 理解其选择开源许可证的困难, 并通过分析开源许可证的组成要素和影响开源许可证选择的因素, 为开源许可证的选择提供借鉴. 设计问卷并随机调研了参与GitHub开源项目的200名开发者. 通过对53个反馈结果采用主题分析, 发现开发者选择开源许可证通常面临条款内容太复杂和考虑因素不确定这两方面的困难. 通过分析GitHub上3 346 168个代码仓库中使用最广泛的10种开源许可证, 建立了包含10个维度的开源许可证框架. 通过借鉴计划行为理论, 从行为态度、主观规范和知觉行为控制3方面提出了影响许可证选择的9大要素, 通过开发者调研验证了它们的相关性, 并进一步通过拟合次序回归模型验证了项目特征与许可证选择的关系. 研究结果能加深开发者对开源许可证内容的理解, 为开发者结合自身需求选择合适的许可证提供决策支持, 并为实现基于用户需求的开源许可证选择工具提供借鉴.
    2022,33(1):26-54, DOI: 10.13328/j.cnki.jos.006292
    [摘要] (1165) [HTML] (57) [PDF 10.25 M] (1118)
    摘要:
    技术债是一个指以牺牲长期代码质量为代价来实现短期项目目标的隐喻. 其中, 那些由开发者有意引入项目中的技术债被称为自承认技术债(self-admitted technical debt, SATD), 通常以代码注释的形式存在于软件项目中. SATD的存在给软件质量和鲁棒性带来了巨大挑战. 为了识别并且及时地偿还SATD来保障代码质量, 研究者从特性分析和识别模型两方面进行了大量研究并且取得了较大的进展. 与此同时, 相关研究工作中仍存在一些亟待解决的挑战. 对近年来国内外学者在该领域的研究成果进行系统性的总结. 首先, 描述自承认技术债的研究问题. 然后, 分别从特性分析和识别模型两方面总结相关的研究进展, 并对具体的理论和技术途径进行梳理. 接着, 简要介绍技术债的其他相关技术. 最后, 指出目前该领域研究过程中面临的挑战并给出建议的研究方向.
    2022,33(1):55-77, DOI: 10.13328/j.cnki.jos.006337
    [摘要] (907) [HTML] (54) [PDF 5.36 M] (552)
    摘要:
    源代码的摘要可以帮助软件开发人员快速地理解代码, 帮助维护人员更快地完成维护任务. 但是, 手工编写摘要代价高、效率低, 因此人们试图利用计算机自动地为源代码生成摘要. 近年来, 基于神经网络的代码摘要技术成为自动源代码摘要研究的主流技术和软件工程领域的研究热点. 首先阐述了代码摘要的概念和自动代码摘要的定义, 回顾了自动代码摘要技术的发展历程, 并介绍了生成式摘要的质量评估方法和评估指标; 然后分析了神经代码摘要算法的通用结构、工作流程和面临的主要挑战; 给出了代表性算法的分类, 并对每类算法的设计原理、特点和限制条件进行了分析. 最后, 讨论并展望了未来神经代码摘要技术的发展趋势和研究方向.
    2022,33(1):78-101, DOI: 10.13328/j.cnki.jos.006345
    [摘要] (579) [HTML] (60) [PDF 8.23 M] (367)
    摘要:
    指针分析是编译优化、程序静态分析中的基础, 很多应用都需要基于指针分析, 低精度的指针分析会给这些应用带来高误报率和漏报率, 通过添加上下文敏感信息是提高指针分析的精度的一个重要手段. 自从面向对象的概念被提出来之后, 该概念得到了广泛的应用, Java、C++、.NET、C#等主流语言都支持面向对象的特性, 面向对象程序的指针分析越来越受关注. 做了一个系统文献综述(SLR), 通过对索引到的相关文献进行分析和归类, 总结了面向对象程序的上下文敏感指针分析研究的5个主要问题, 并对这5个问题中用到的方法进行了分析讨论.
    2022,33(1):102-128, DOI: 10.13328/j.cnki.jos.006304
    [摘要] (1065) [HTML] (59) [PDF 6.89 M] (923)
    摘要:
    自然语言处理是人工智能的核心技术, 文本表示是自然语言处理的基础性和必要性工作, 影响甚至决定着自然语言处理系统的质量和性能. 探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延. 宏观上分析了文本表示的技术分类, 对主流技术和方法, 包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示, 进行了分析、归纳和总结, 对基于事件、基于语义和基于知识的文本表示也进行了介绍. 对文本表示技术的发展趋势和方向进行了预测和进一步讨论. 以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用, 预训练加调优的策略将逐渐成为主流, 文本表示需要具体问题具体分析, 技术和应用融合是推动力.
    2022,33(1):129-149, DOI: 10.13328/j.cnki.jos.006306
    [摘要] (1153) [HTML] (49) [PDF 7.60 M] (3576)
    摘要:
    近年来, 深度神经网络(DNNs)在许多人工智能任务中取得卓越表现, 例如计算机视觉(CV)、自然语言处理(NLP). 然而, 网络设计严重依赖专家知识, 这是一个耗时且易出错的工作. 于是, 作为自动化机器学习(AutoML)的重要子领域之一, 神经结构搜索(NAS)受到越来越多的关注, 旨在以自动化的方式设计表现优异的深度神经网络模型. 全面细致地回顾神经结构搜索的发展过程, 进行了系统总结. 首先, 给出了神经结构搜索的研究框架, 并分析每个研究内容的作用; 接着, 根据其发展阶段, 将现有工作划分为4个方面, 介绍各阶段发展的特点; 然后, 介绍现阶段验证结构搜索效果经常使用的数据库, 创新性地总结该领域的规范化评估标准, 保证实验对比的公平性, 促进该领域的长久发展; 最后, 对神经结构搜索研究面临的挑战进行了展望与分析.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006350
    摘要:
    随着数字信息技术的普及,密文可逆信息隐藏(Reversible Data Hiding in Encrypted Images,RDHEI)逐渐成为云存储中隐私保护的研究热点.RDHEI作为一种能在密文中嵌入额外信息,并正确提取嵌入信息和无损恢复原始图像的技术,受到研究者的广泛关注.为了能在加密图像中嵌入充足的额外信息,本文提出了一种自适应编码的高容量RDHEI算法.首先,计算原始图像不同预测误差的出现概率并自适应的生成哈夫曼编码;然后,利用流密码加密原始图像,根据像素预测误差对应的哈夫曼码字对加密后像素进行标记;最后,以位替换方式将信息嵌入到已标记像素的预留空间中.经实验验证,本文算法在正确提取嵌入信息的同时,无损地恢复了原始图像.与同类算法相比,本文算法充分利用了图像本身的纹理特性,有效地提高了图像嵌入率.在UCID、BOSSBase和BOWS-2三个图像集上,本文算法的平均嵌入率达到3.162bpp、3.917bpp以及3.775bpp,与当前性能最佳算法相比提升了0.263bpp、0.292bpp以及0.280bpp.
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006377
    摘要:
    作为Serverless架构的一种典型形态,函数即服务(Function as a Service,简称FaaS)架构将业务抽象为细粒度的函数,并且提供弹性的自动伸缩等自动化运维功能,能够大幅降低运维成本.当前许多在线服务系统中的一些高并发、高可用、灵活多变的业务(如支付、红包等)都已经迁移到了FaaS平台上,但是大量传统单体应用还是难以利用FaaS架构的优势.针对这一问题,本文提出了一种基于动态和静态分析的单体应用FaaS改造方法.该方法针对指定的单体应用API,通过动态分析和静态分析相结合的方式识别并剥离其实现代码和依赖,然后按照函数模板完成代码重构.针对函数在高并发场景下的冷启动问题,该方法利用基于IO多路复用的主从多线程Reactor模型优化了函数模板,提高了单个函数实例的并发处理能力.基于该方法我们实现了针对Java语言的原型工具Codext,在开源Serverless平台OpenFaaS上面向4个开源单体系统进行了实验验证.
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006522
    [摘要] (452) [HTML] (0) [PDF 1.07 M] (490)
    摘要:
    面向知识图谱的知识推理旨在通过已有的知识图谱事实,去推断新的事实,进而实现知识库的补全。近年来,尽管基于分布式表示学习的方法在推理任务上取得了巨大的成功,但是他们的黑盒属性使得模型无法为预测出的事实做出解释。所以,如何设计用户可理解、可信赖的推理模型成为了人们关注的问题。本文从可解释性的基本概念出发,系统梳理了面向知识图谱的可解释知识推理的相关工作,具体介绍了事前可解释推理模型和事后可解释推理模型的研究进展;根据可解释范围的大小,本文将事前可解释推理模型进一步细分为全局可解释的推理和局部可解释的推理;在事后解释模型中,本文回顾了推理模型的代表方法,并详细介绍提供事后解释的两类解释方法。此外,本文还总结了可解释知识推理在医疗、金融领域的应用。随后,本文对可解释知识推理的现状进行概述,最后展望了可解释知识推理的未来发展方向,以期进一步推动可解释推理的发展和应用。
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006524
    [摘要] (940) [HTML] (0) [PDF 1.86 M] (466)
    摘要:
    时间敏感网络是工业互联网基础设施转型升级的重要研究方向,确定性传输技术是时间敏感网络面向工业控制支撑确定性实时传输需求的核心关键技术,主要包括控制面的时间触发调度技术、转发面的混合传输技术以及确定性时延分析技术.本文调研了近年来时间敏感网络中确定性传输技术的研究现状并进行了系统地梳理和总结,首先介绍了时间敏感网络不同种类业务流的流量模型;然后基于该流量模型,介绍了控制面的时间触发调度模型、研究现状及其挑战,介绍了转发面时间敏感网络交换机的体系结构、多业务流混合传输策略以及当前方案的不足与改进方向;接着,对整个时间敏感网络的时延模型进行了建模分析,介绍了基于网络微积分的确定性时延分析技术、研究现状以及可能的改进方向;最后,总结了时间敏感网络确定性传输技术所面临的挑战以及未来的研究展望.
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006528
    [摘要] (171) [HTML] (0) [PDF 2.25 M] (211)
    摘要:
    以太坊等区块链采用串行方式执行区块中的智能合约交易,虽能严格保障执行后节点间区块链状态的一致性,但这已成为目前制约区块链吞吐率的一个重要瓶颈.因此,采用并行方法优化智能合约交易的执行逐渐成为工业界和学术界关注的重点.本文总结了区块链智能合约并行执行方法的研究进展,提出了一个研究框架,该框架以智能合约并行执行的阶段为视角,凝练出4种智能合约并行执行模型,即基于静态分析的并行执行模型、基于动态分析的并行执行模型、节点间并行执行模型和分治并行执行模型,然后描述了每种模型下典型的并行执行方法.最后,本文对交易依赖图和并发控制策略等影响并行执行的因素进行了讨论,并提出了未来可研究的方向.
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006539
    摘要:
    数据库能够提供对大量数据的高效存储和访问,然而查询数据库需要掌握数据库查询语言SQL,对于普通用户而言存在一定的门槛。基于自然语言的数据库查询(即text-to-SQL)在最近几年受到了广泛的关注。本文对text-to-SQL问题的当前进展进行了系统的分析。首先介绍了问题背景,并对问题进行了描述;其次,重点分析了目前提出的text-to-SQL技术,包括基于流水线的方法、基于统计学习的方法,以及为多轮text-to-SQL而开发的技术,对每种方法都进行了深入的分析和总结。再次,进一步讨论了text-to-SQL所属的语义解析(Semantic Parsing)这一领域的研究。接着,总结了目前研究中广泛采用的数据集和评价指标,并从多个角度对主流模型进行了比较和分析。最后,总结了text-to-SQL任务面临的挑战,以及未来的研究方向。
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006540
    摘要:
    在当今“万物互联”的时代,嵌入式系统逐渐成为接入云端的重要组件,常用于安全和隐私敏感的应用或设备中。然而,其底层软件(即固件)也在频繁遭受着安全漏洞的影响。由于嵌入式设备底层硬件平台的复杂异构,软硬件实现差异较大,且其专用性强、源码/文档等往往不会公开,加之其运行环境受限等原因,使得一些在桌面系统上运行良好的动态测试工具很难(或根本不可能)直接适配到嵌入式设备/固件环境中。近年来,研究人员逐渐开始探索基于二进制相似度分析技术来检测嵌入式设备固件中存在的已知漏洞,并且取得了较大的进展。本文围绕二进制代码相似度分析面临的关键技术挑战,系统研究了现有的二进制代码相似度分析技术,对其通用流程、技术特征、评估标准进行了综合分析和比较;然后分析并总结了现有二进制代码相似度分析技术在嵌入式设备固件漏洞搜索领域的应用;最后,提出了该领域应用仍然存在的一些技术挑战及未来的一些开放性的研究方向。
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006544
    摘要:
    文本风格迁移是近年来自然语言处理领域的热点问题之一,旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性(如情感、时态和性别等).文章旨在梳理已有的技术,以推进该方向的研究.首先,给出文本风格迁移问题的定义及其面临的挑战;然后,对已有方法进行分类综述,重点介绍基于无监督学习的文本风格迁移方法并将其进一步分为隐式和显式两类方法,对各类方法在实现机制、优势、局限性和性能等方面进行分析和比较;同时,还通过实验比较了几种代表性方法在风格迁移准确率、文本内容保留和困惑度等自动化评价指标上的性能;最后,对文本风格迁移研究进行总结和展望.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006196
    [摘要] (108) [HTML] (0) [PDF 2.19 M] (186)
    摘要:
    现有基于熵最大准则选取阈值的方法涉及两个或两个以上的随机变量,它们都忽视了一个约束条件而影响到它们的分割精度和适用范围:参与随机系统整体熵计算的各随机变量应当相互独立.本文提出了一种概率分布双向稀疏化下的单一Tsallis熵最大化导向的自动阈值选取方法,可以自然规避多个随机变量需要相互独立的约束条件.在多尺度卷积乘变换所得两幅图像上,该方法先构建了一个具有双向稀疏概率分布特征的二维随机变量,然后在该二维随机变量基础上定义了一个二维Tsallis熵.在将二维Tsallis熵的计算简化到只涉及二维随机变量的边缘概率分布后,选取单一Tsallis熵取最大值时对应的阈值作为最终分割阈值.提出的方法和1个交互式阈值方法、4个自动阈值方法以及1个自动聚类分割方法进行了比较.所用测试图像集由44幅合成图像和44幅真实世界图像组成,这些测试图像具有单峰、双峰、多峰或无峰灰度直方图模式.结果表明,提出方法的计算效率虽然不优于5个自动分割方法,但是它的分割适应性和分割精度有显著提高.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006197
    摘要:
    控制流是程序过程的抽象表现,对控制流进行混淆可有效提高代码抗逆向能力.本文提出了控制流深度模糊思想:针对循环结构,利用回调函数构造等价循环模型,将过程内基本块跳转变更为过程间函数调用,对抗逆向技术.本文综合应用控制流分析和数据流依赖性分析,建立了基于回调函数的控制流深度模糊模型,并给出功能一致性证明.为进一步增大混淆强度,设计并实现了函数调用融合算法,构造更为复杂的函数调用过程.最后,使用OpenSSL和SpecInt-2000标准测试套件作为测试集,验证了模型的可行性和有效性.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006363
    摘要:
    基于中心化/本地化差分隐私的直方图发布已得到了研究者的广泛关注.用户的隐私需求与收集者的分析精度之间的矛盾直接制约着直方图发布的可用性.针对现有直方图发布方法难以有效同时兼顾用户隐私与收集者分析精度的不足,提出了一种基于混洗差分隐私的直方图发布算法HP-SDP(Histogram Publication with Shuffled Differential Privacy),该算法结合本地哈希编码技术所设计的混洗应答机制SRR(Shuffled Randomized Response)能够以线性分解的方式扰动用户数据以及摆脱数据值域大小的影响.结合SRR机制产生的用户消息,设计一种基于堆排列技术的用户消息均匀随机排列算法MRS(Message Random Shuffling),混洗方利用MRS对所有用户的消息进行随机排列.由于经过MRS混洗后的消息满足中心化差分隐私,使得恶意收集者无法通过消息与用户之间的链接对目标用户进行身份甄别.此外,HP-SDP利用基于二次规划技术的后置处理算法POP(Post-Processing)对混洗后的直方图进行求精处理.HP-SDP算法与现有七种直方图发布算法在四种数据集上实验结果表明,其发布精度优于同类算法.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006368
    摘要:
    视频的点击率预估是视频推荐系统中的重要任务之一,推荐系统可以根据点击率的预估调整视频推荐顺序以提升视频推荐的效果.近年来,随着视频数量的爆炸式增长,视频推荐的冷启动问题也变得愈发严重.针对这个问题,本文提出了一个新的视频点击率预估模型,通过使用视频的内容特征以及上下文特征来加强视频点击率预估的效果;同时通过对冷启动场景的模拟训练和基于近邻的替代方法提升模型应对新视频点击率预估的能力.本文提出的模型可以同时对旧视频和新视频进行点击率预估.在两个真实的电视剧(Track_1_series)和电影(Track_2_movies)点击率预估数据集上的实验表明,本文提出的模型可以显著改善对旧视频的点击率预估性能,并在两个数据集上均超过了现有的模型;对于新视频,相比于不考虑冷启动问题的模型只能获得0.57左右的AUC性能,本文模型在两个数据集上分别获得0.645和0.615的性能,表现出针对冷启动问题更好的鲁棒性.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006502
    [摘要] (210) [HTML] (0) [PDF 1.10 M] (847)
    摘要:
    当前,以Hadoop、Spark为代表的大数据处理框架,已经在学术界和工业界被广泛应用于大规模数据的处理和分析.这些大数据处理框架采用分布式架构,使用Java、Scala等面向对象语言编写,在集群节点上以Java虚拟机(JVM)为运行时环境执行计算任务,因此依赖JVM的自动内存管理机制来分配和回收数据对象.然而,当前的JVM并不是针对大数据处理框架的计算特征设计的,在实际运行大数据应用时经常出现垃圾回收(GC)时间长、数据对象序列化和反序列化开销大等问题.在一些大数据场景下,JVM的垃圾回收耗时甚至超过应用整体运行时间的50%,已经成为大数据处理框架的性能瓶颈和优化热点.本文对近年来相关领域的研究成果进行了系统性综述:(1)总结了大数据应用在JVM中运行时性能下降的原因;(2)总结了现有面向大数据处理框架的JVM优化技术,对相关优化技术进行了层次划分,并分析比较了各种方法的优化效果、适用范围、使用负担等优缺点;(3)探讨了JVM未来的优化方向,有助于进一步提升大数据处理框架的性能.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006503
    [摘要] (212) [HTML] (0) [PDF 1.62 M] (232)
    摘要:
    面向对象软件度量是理解和保证面向对象软件质量的重要手段之一.通过将面向对象软件的度量值与其阈值比较,可简单直观评价其是否有可能包含缺陷.确定度量阈值方法主要有基于数据分布特征的无监督学习方法和基于缺陷相关性的有监督学习方法.两类方法各有利弊:无监督学习方法无需标签信息而易于实现,但所得阈值的缺陷预测性能通常较差;有监督学习方法通过机器学习算法提升所得阈值的缺陷预测性能,但标签信息在实际过程中不易获得且度量与缺陷链接技术复杂.近年来,两类方法的研究者不断探索并取得较大进展.同时,面向对象软件度量阈值确定方法研究仍存在一些亟待解决的挑战.本文对近年来国内外学者在该领域的研究成果进行系统性的总结.首先,阐述面向对象软件度量阈值确定方法的研究问题.其次,分别从无监督学习方法和有监督学习方法总结相关研究进展,并梳理具体的理论和实现的技术路径.然后,简要介绍面向对象软件度量阈值的其他相关技术.最后,总结当前该领域研究过程面临的挑战并给出建议的研究方向.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006510
    摘要:
    随着计算机网络规模和复杂度的日益增长,网络管理人员难以保证网络意图得到了正确实现,错误的网络配置将影响网络的安全性和可用性.受到形式化方法在硬软件验证领域中成功应用的启发,研究人员将形式化方法应用到网络中,形成了一个新的研究领域,即网络验证(Network Verification),旨在使用严格的数学方法证明网络的正确性.网络验证已经成为当下网络和安全领域的热点研究,其研究成果也在实际网络中得到了成功应用.本文从数据平面验证、控制平面验证和有状态网络验证三个研究方向,对网络验证领域的已有研究成果进行了系统总结,对研究热点内容与解决方法进行了分析,旨在整理网络验证领域的发展脉络,为本领域研究者提供系统性文献参考和未来工作展望.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006513
    摘要:
    匿名网络旨在公开网络环境中保护用户通信隐私.自Chaum提出Mix网以来,相关研究在几十年中不断取得进展.如今,匿名网络已发展成以Mix网、DC网或PIR为基础,并结合多种设计要素,使之适用于各种应用场景和威胁模型.本文从匿名概念出发,介绍匿名网络领域的发展情况,分类阐述代表性研究工作及其设计选择,并系统地从匿名性、延迟和带宽开销等角度进行分析.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006515
    [摘要] (140) [HTML] (0) [PDF 1.25 M] (238)
    摘要:
    提出了一种基于各向异性高斯核核惩罚的主成分分析的特征提取算法.该算法不同于传统的核主成分分析算法.在非线性数据降维中,传统的核主成分分析算法忽略了原始数据的无量钢化.此外,传统的核函数在各维度上主要由一个相同的核宽参数控制,该方法无法准确反映各维度不同特征的重要性,从而导致降维过程中准确率低下.为了解决上述问题,本文首先针对现原始数据的无量钢化问题,提出了一种均值化算法,使得原始数据的总方差贡献率有明显地提高.其次,引入了各向异性高斯核函数,该核函数每个维度拥有不同的核宽参数,各核宽参数能够准确的反映所在维度数据特征的重要性.再次,基于各向异性高斯核函数建立了核主成分分析的特征惩罚目标函数,以便用较少的特征表示原始数据,并反映每个主成分信息的重要性.最后,为了寻求最佳特征,引入梯度下降算法来更新特征惩罚目标函数中的核宽度和控制特征提取算法的迭代过程.为了验证所提出算法的有效性,各算法在UCI公开数据集上和KDDCUP99数据集上进行了比较.实验结果表明,本文提出的基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法在9种公开的UCI公开数据集上准确率平均提高了4.49%.在KDDCUP99数据集上,本文提出的基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法准确率提高了8%.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006518
    [摘要] (367) [HTML] (0) [PDF 1.43 M] (456)
    摘要:
    近年来,伴随着现代信息技术的迅猛发展,以人工智能为代表的新兴技术在教育领域得到了广泛应用,引发了学习理念和方式的深刻变革.在这种大背景下,在线学习超越了时空的限制,为学习者"随时随地"学习提供了更多的可能性,从而得到了蓬勃发展.然而,在线学习中师生时间、空间分离的特征,导致教师无法及时掌握学生的学习状态,一定程度上制约了在线学习中教学质量的提升.面对多元化的学习需求及海量学习资源,如何迅速完成学习目标、降低学习成本、合理分配学习资源等问题成为限制个人和时代发展的重大问题.然而,传统的"一刀切"的教育模式已经不能满足人们获取知识的需求了,我们需要一个更高效、更科学的个性化教育模式,以帮助学习者以最小的学习成本最大限度地完成学习目标.基于以上背景,如何自动高效识别学习者特征,高效地组织和分配学习资源,为每一位学习者规划个性化路径,成为面向个体的精准化教育资源匹配机制研究中亟待解决的问题.在本文中,我们系统地综述并分析了当前个性化学习路径推荐的研究现状,并从多学科领域的角度分析了对于同一问题的不同研究思路,同时我们也归纳总结了当前研究中最为主流的核心推荐算法.最后,我们强调当前研究存在的主要不足之处.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006521
    摘要:
    推荐系统是一种通过理解用户的兴趣和偏好帮助用户过滤大量无效信息并获取感兴趣的信息或者物品的信息过滤系统.目前主流的推荐系统主要基于离线的、历史的用户数据,不断训练和优化线下模型,继而为在线的用户推荐物品,这类训练方式主要存在三个问题:基于稀疏且具有噪声的历史数据估计用户偏好的不可靠估计、对影响用户行为的在线上下文环境因素的忽略和默认用户清楚自身偏好的不可靠假设.由于对话系统关注于用户的实时反馈数据,获取用户当前交互的意图,因此"对话推荐"通过结合对话形式与推荐任务成为解决传统推荐问题的有效手段.对话推荐将对话系统实时交互的数据获取方式应用到推荐系统中,采用了与传统推荐系统不同的推荐思路,通过利用在线交互信息,引导和捕捉用户当前的偏好兴趣,并及时进行反馈和更新.在过去的几年里,越来越多的研究者开始关注对话推荐系统,这一方面归功于自然语言处理领域中语音助手以及聊天机器人技术的广泛使用,另一方面受益于强化学习、知识图谱等技术在推荐策略中的成熟应用.本文将对话推荐系统的整体框架进行梳理,将对话推荐算法研究所使用的数据集进行分类,同时对评价对话推荐效果的相关指标进行讨论,重点关注于对话推荐系统中的后台对话策略与推荐逻辑,对近年来的对话推荐算法进行综述,最后对对话推荐领域的未来发展方向进行展望.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006500
    摘要:
    在软件开发和维护过程中,缺陷修复人员通常根据由终端用户或者开发/测试者提交的缺陷报告来定位和修复缺陷.因此,缺陷报告本身的质量对修复人员能否快速准确定位并修复缺陷具有重要的作用.围绕缺陷报告质量的刻画及改进,研究人员开展了大量的研究工作,但尚未进行系统性的归纳.本文旨在对这些工作进行系统性地梳理,展示该领域的研究现状并为未来的研究方向提供参考意见.首先,本文总结了已有缺陷报告存在的质量问题,如关键信息缺失、信息错误等;接着,总结了对缺陷报告质量进行自动化建模的技术;然后,描述了一系列对缺陷报告质量进行改进的方法;最后,对未来研究可能面临的挑战和机遇进行了展望.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006485
    摘要:
    强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法.然而,作为一类机器学习算法,强化学习也面临着机器学习领域的公共难题,即难以被人理解.缺乏可解释性限制了强化学习在安全敏感领域中的应用,如医疗、驾驶等,并导致强化学习在环境仿真、任务泛化等问题中缺乏普遍适用的解决方案.为了克服强化学习的这一弱点,涌现了大量强化学习可解释性(Explainable Reinforcement Learning,XRL)的研究.然而,学术界对XRL尚缺乏一致认识.因此,本文探索XRL的基础性问题,并对现有工作进行综述.具体而言,本文首先探讨了父问题——人工智能可解释性,对人工智能可解释性的已有定义进行了汇总;其次,构建了一套可解释性领域的理论体系,从而描述XRL与人工智能可解释性的共同问题,包括界定智能算法和机械算法、定义解释的含义、讨论影响可解释性的因素、划分了解释的直观性;然后,根据强化学习本身的特征,定义了XRL的三个独有问题,即环境解释、任务解释、策略解释;之后,对现有方法进行了系统的归类,并对XRL的最新进展进行综述;最后,展望了XRL领域的潜在研究方向.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006488
    [摘要] (334) [HTML] (0) [PDF 1.58 M] (422)
    摘要:
    近年来随着计算机视觉领域的不断发展,三维场景的语义分割和形状补全受到学术界和工业界的广泛关注.其中,语义场景补全是这一领域的新兴研究,该研究以同时预测三维场景的空间布局和语义标签为目标,在近几年得到快速发展.本文对近些年该领域提出的基于RGB-D图像的方法进行了分类和总结.根据有无使用深度学习将语义场景补全方法划分为传统方法和基于深度学习的方法两大类.其中,对于基于深度学习的方法,根据输入数据类型将其划分为基于单一深度图像的方法和基于彩色图像联合深度图像的方法.在对已有方法分类和概述的基础上,本文对语义场景补全任务所使用的相关数据集进行了整理,并分析了现有方法的实验结果.最后,本文总结了该领域面临的挑战和发展前景.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006499
    [摘要] (134) [HTML] (0) [PDF 1.23 M] (194)
    摘要:
    准确预测胶质瘤染色体1p/19q的缺失状态对于制定合适的治疗方案和评估胶质瘤的预后有着重要的意义.虽然已有研究能够基于磁共振图像和机器学习方法实现胶质瘤1p/19q状态的准确预测,但大多数方法需要事先准确勾画肿瘤边界,无法满足计算机辅助诊断的实际需求.因此,本文提出一种深度多尺度不变特征网络(Deep multi-scale Invariant Features-based Network,DMIF-Net)预测1p/19q的缺失状态.首先利用小波散射网络提取多尺度、多方向不变特征,同时基于深度分离转聚合网络提取高级语义特征,然后通过多尺度池化模块对特征进行降维并融合,最后在仅输入肿瘤区域定界框图像的情况下,实现胶质瘤1p/19q状态的准确预测.实验结果表明,在不需要准确勾画肿瘤边界的前提下,DMIF-Net预测胶质瘤1p/19q缺失状态的AUC (Area Under Curve)可达0.92(95% CI=[0.91,0.94]),相比于最优的主流深度学习模型其AUC增加了4.1%,灵敏度和特异性分别增加了4.6%和3.4%,相比于最好的胶质瘤分类前沿模型,其AUC与精度分别增加了4.9%和5.5%.此外,消融实验证明了本文所提出的多尺度不变特征提取网络可以有效的提高模型的预测性能,说明结合深度高级语义特征和多尺度不变特征可以在不勾画肿瘤边界的情况下,显著增加对胶质瘤1p/19q缺失状态的预测能力,进而为低级别胶质瘤的个性化治疗方案制定提供一种辅助手段.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006402
    摘要:
    区块链是由一系列网络节点构建的一种分布式账本,本身具有不可篡改性、去中心化、去信任化、密码算法安全性和不可否认性等安全属性,本文对基于区块链实现的安全服务进行了综述,这些安全服务包括数据机密性、数据完整性、身份认证、数据隐私、数据可信删除.首先介绍了区块链和公钥密码学的基础知识,并围绕上述五种安全服务,给出了用户真实场景中面临的安全问题以及传统的解决方案,并讨论了这些传统实现方案所面临的问题,之后介绍了使用区块链技术解决相关问题的实现方案,最后讨论了区块链的价值以及面临的问题.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006420
    [摘要] (271) [HTML] (0) [PDF 1.28 M] (464)
    摘要:
    情绪是情感的外在体现,影响人类的认知、感知、理性决策等日常活动.情绪识别作为实现计算机全面智能的一项基础任务,在情感计算和人机交互领域被深入研究和广泛应用.相比面部表情、语音或其他生理信号,利用脑电进行情绪识别具有时间分辨率高、成本低、识别效果好、可靠性高的优势.近年来,越来越多的深度学习框架被应用于基于脑电信号的情绪识别,并取得了比传统机器学习方法更加优异的效果.基于深度脑电特征的情绪识别是当前的研究热点之一,也具有一定的挑战性.目前,可供参考的针对此研究热点的综述文献较少.本文对近年来国内外相关文献进行调研分析,从模型输入、深度框架、实验设置、实验结果等方面对深度学习在基于脑电的情绪识别中的应用研究做了总结概况,并在DEAP和SEED这两个公开的脑电-情绪数据集上对具有代表性的方法进行了定性和定量的多方面对比,对这些方法存在的不足进行了分析和总结,同时也对未来可能的研究方向进行了展望.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006421
    摘要:
    传统的区块链技术为了保证交易账本的全网共识和不可篡改性,要求矿工节点具有强大的计算能力和足够的存储空间,这就限制了资源受限的设备加入区块链.近几年,区块链技术已经拓展到金融经济、医疗健康、物联网、供应链等多个领域,但是这些应用场景存在大量算力弱、存储容量低的设备,这给区块链的应用带来了巨大挑战.为此轻量级的区块链技术应运而生.从轻量级计算和轻量级存储两方面出发,总结当前轻量级区块链的研究现状,对比分析各个方案的优缺点.最后展望未来轻量级区块链的发展.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006425
    摘要:
    在软件测试过程中,待测程序的预期输出是判断软件是否存在缺陷的重要因素.蜕变测试技术是利用被测软件的属性来检查程序输出,从而有效的解决程序预期输出难以构造的问题.近年来,蜕变测试在软件测试领域取得了蓬勃的发展,许多研究人员将蜕变测试技术进行优化,将其运用到各个领域,有效提高了软件质量.本文从原理、过程及其优化,应用领域3个方面,总结蜕变测试的研究工作,着重分析了近5年的研究进展,进一步展望了蜕变测试用于并行程序时,可能的研究主题.首先,介绍蜕变测试的基本概念和蜕变测试过程;接着,从蜕变关系、测试用例、测试执行过程以及蜕变测试工具四个角度,总结蜕变测试优化技术;然后,汇总了蜕变测试的应用领域;最后,基于已有研究成果,讨论蜕变测试在并行程序测试领域面临的问题,为蜕变技术在并行程序测试领域的研究提供可能的思路.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006426
    [摘要] (1071) [HTML] (0) [PDF 1.38 M] (753)
    摘要:
    知识图谱是一种用网络结构存储知识的知识库,在知识图谱中,单条知识被表示成三元组的形式,即(头实体,关系,尾实体).得力于知识图谱在各个领域的广泛应用,面向知识图谱的图嵌入学习也得到越来越多研究人员的关注.面向知识图谱的图嵌入学习任务旨在为图谱中的实体与关系学习低维且稠密的向量,通过图嵌入向量表达实体与关系的语义信息以及度量实体之间、关系之间、实体与关系之间的语义联系,已有许多研究证明图嵌入模型在下游任务中的有效性.近年来,越来越多研究人员开始关注知识图谱的图嵌入学习,并取得大量的研究成果,本文尝试将图嵌入算法分成了基于转移思想、基于张量分解、基于传统深度学习模型、基于图神经网络以及融入额外信息的图嵌入学习共五大类,梳理、介绍各类图嵌入算法的设计思路、算法特征以及优缺点,以帮助指导初步接触该领域的研究人员快速学习了解该研究领域的相关模型和算法.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006429
    [摘要] (393) [HTML] (0) [PDF 1.97 M] (976)
    摘要:
    知识图谱(KG)是一种用图模型来描述知识和建模事物之间关联关系的技术.知识图谱嵌入(KGE)作为一种被广泛采用的知识表示方法,其主要思想是将知识图谱中的实体和关系嵌入到连续的向量空间中,用来简化操作,同时保留KG的固有结构.它可以使得多种下游任务受益,例如KG补全和关系提取等.首先对现有的知识图谱嵌入技术进行全面回顾,不仅包括使用KG中观察到的事实进行嵌入的技术,还包括添加时间维度的动态KG嵌入方法,以及融合多源信息的KG嵌入技术.对相关模型从实体嵌入、关系嵌入、评分函数等方面进行分析、对比与总结.然后简要介绍KG嵌入技术在下游任务中的典型应用,包括问答系统、推荐系统和关系提取等.最后阐述知识图谱嵌入面临的挑战,对未来的研究方向进行展望.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006431
    摘要:
    代码坏味(Code Smells)是低质量的急需重构的代码片段.代码坏味是软件工程领域的一个研究热点,并且相关研究方向众多、时间跨度大、研究成果丰富.为梳理相关研究思路和研究成果、分析研究热点并预判未来研究方向,本文对1990年至2020年6月间发表的代码坏味相关的339篇论文进行了系统地分析和归类,对代码坏味的发展趋势进行了分析与统计,量化揭示了相关研究的主流与热点.揭示了学术界关注的关键代码坏味,并研究了工业界与学术界的关注点的差异及其影响.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006434
    [摘要] (151) [HTML] (0) [PDF 1.52 M] (269)
    摘要:
    普通的城市道路地图未能覆盖(超)重卡货车的道路禁限行信息,缺少标注适用于大宗货运的热门停驻区域,无法满足货运司机的大批量长距离公路运输需求.为解决大宗货运交通事故频发、物流效率低下等问题,进一步提升货运司机的出行体验感,亟需结合运输货物类型、货车车型以及司机的线路选择偏好等因素,研究适用于公路大宗货运的定制化物流地图构建方法.随着移动互联网、车联网的普及,大宗货运产生的时空数据迅猛增长,与物流运营数据等一起构成物流大数据,为构建物流地图提供了数据基础.本文在梳理地图构建技术的基础上,针对现有电子地图构建方法在大宗货运领域的局限性,利用多源物流数据提出了一个数据驱动的物流地图构建框架,主要研究内容包括:(1)基于用户先验知识的多约束物流地图构建;(2)动态时空数据驱动的物流地图增量更新.物流地图将成为大宗货运发展新一代物流科技的AI基础设施.本文研究成果为物流地图构建的技术创新提供了丰富的实践内容,也为促进大宗物流降本增效提供了新的解决思路,具有重要的理论意义和应用价值.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006435
    摘要:
    任播通过将相同IP地址分配到多个终端节点上,利用BGP实现最佳路径选择.近年来,随着任播技术发展越来越成熟,任播被广泛的运用到DNS和CDN服务上.本文首先全方位的介绍了任播技术,随后讨论了任播技术目前存在的问题并将这些问题归结为三大类:任播推断的不完善,任播性能无法保证,难以控制任播负载均衡.本文针对这些问题,阐述了国内外最新研究进展,总结了任播研究工作中的相关问题及改进方向,为相关领域的研究者提供有益的参考.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006437
    [摘要] (117) [HTML] (0) [PDF 1.05 M] (219)
    摘要:
    作为具备高性能和高可伸缩性的分布式存储解决方案,键值存储系统近年来被广泛采用,例如Redis、MongoDB、Cassandra等.分布式存储系统中广泛使用的多副本机制一方面提高了系统吞吐量和可靠性,但同时也增加了系统协调和副本一致性的额外开销.对于跨域分布式系统来说,远距离的副本协调开销甚至可能成为系统的性能瓶颈,降低系统的可用性和吞吐量.本文提出的分布式键值存储系统Elsa,是一种面向跨区域架构的无协调键值存储系统.Elsa在保证高性能和高可拓展性的基础上,采用无冲突备份数据结构(CRDT)技术来无协调的保证副本间的强最终一致性,降低了系统节点间的协调开销.本文在阿里云上构建了跨4数据中心8节点的跨区域分布式环境,进行了大规模分布式性能对比实验,实验结果表明:在跨域的分布式环境下,对于高并发争用的负载,Elsa系统的性能具备明显的优势,最高达到MongoDB集群的7.37倍,Cassandra集群的1.62倍.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006370
    [摘要] (114) [HTML] (0) [PDF 6.54 M] (187)
    摘要:
    在多核计算机时代,多道程序在整个共享内存体系上的“访存干扰”是制约系统总体性能和服务质量的重要因素.即使当前内存资源已相对丰富,但如何优化内存体系的性能,降低访存干扰、并高效地管理内存资源仍是计算机体系结构领域的研究热点.为深入研究此问题,本文详述将“页着色”(Page Coloring)内存划分技术应用于整个内存体系(包括Cache,内存通道以及内存DRAM Bank),进而消除了并行多道程序在共享内存体系上的访存干扰的一系列先进方法.本文从DRAM Bank,Channel与Cache,以及非易失性内存(Non-Volatile Memory,NVM)等内存体系中介质为切入点,层次分明地展开论述.首先,本文详述将页着色应用在多道程序在DRAM Bank与通道的划分,消除多道程序间的访存冲突.随后,是将页着色应用于在内存体系中Cache和DRAM的“垂直”协同划分,可同时消除多级内存介质上的访存干扰.最后,是将页着色应用于包含NVM的混合内存体系,以提高程序运行效率和系统整体效能.实验表明,本文介绍的内存划分方法提高了系统整体性能(平均5%~15%),服务质量(QoS),并有效地降低了系统能耗.通过本文的梳理和总结,较为全面的展现了内存体系划分技术的核心思想、关键技术、应用架构及发展脉络.本文对未来优化内存体系性能,服务器性能及服务质量相关的工作提供了参考.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006351
    [摘要] (142) [HTML] (0) [PDF 1.06 M] (209)
    摘要:
    如何在社交媒体上检测数据流中的突发事件是自然语言处理中的一个热门研究主题,但是,当前用于提取突发事件的方法存在精度低和效率低的问题.为了解决这些问题,本文提出一种基于词相关性特征的突发事件检测方法,能从社会网络数据流中快速地检测出突发事件,以便相关的决策者可以及时有效地采取相关措施进行处理,使突发事件的负面影响能够被尽量降低,维护社会的安定.首先,通过噪声过滤和情绪过滤,我们得到了充满负面情绪的微博文本.然后,根据时间信息,对微博数据进行时间切片,计算每个时间窗口中该数据的每个单词的单词频率特征、用户影响力和单词频率增长率特征,运用突发度计算方法来提取突发词;根据word2vec模型合并相似词,利用突发词的特征相似性构成突发词关系图.最后,运用多归属谱聚类算法对单词关系图进行最优划分,并在时间窗滑过时关注异常词语,通过子图中词语突发度的变化而引起的结构变化对突发事件进行判断.由实验结果知,突发事件检测方法在实时博文数据流中具有很好的事件检测效果,与已有的方法相比,本文提出的突发事件检测方法可以满足突发事件检测的需求,不仅能检测到子事件的详细信息,而且事件的相关信息也能被准确地检测出来.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006358
    [摘要] (141) [HTML] (0) [PDF 1.02 M] (303)
    摘要:
    近年来,深度学习在图像隐写分析任务中表现出了优越的性能.目前大多数基于深度学习的图像隐写分析模型为专用型隐写分析模型,只适用于特定的某种隐写术.使用专用隐写分析模型对其它隐写算法的隐写图像进行检测,则需要该隐写算法的大量载密图像作为数据集对模型进行重新训练.但是在实际的通用隐写分析任务中,隐写算法的大量载密图像数据集是难以得到的,如何在极少隐写图像样本的情况下训练通用隐写分析模型是一个极大挑战.对此,受到少样本学习领域研究成果的启发,本文提出基于转导传播网络的通用隐写分析方法.首先在已有的少样本学习分类框架上改进了特征提取部分,设计了多尺度特征融合网络,使少样本分类模型能提取到更多的隐写分析特征,使其可用于基于秘密噪声残差等弱信息的分类任务;其次,针对少样本隐写分析模型难收敛的问题,提出了预训练初始化的方式得到具有先验知识的初始模型;然后,分别训练了频域和空域的少样本通用隐写分析模型,通过自测和交叉测试,结果表明检测平均准确率在80%以上;接着,在此基础上采用数据集增强的方式重新训练了频域、空域少样本通用隐写分析模型,使少样本通用隐写分析模型检测准确率与之前相比提高到87%以上;最后,将得到的少样本通用隐写分析模型分别与现有的频域和空域隐写分析模型的检测性能进行比较,结果显示空域上少样本通用隐写分析模型在常用的少样本环境下的检测准确率稍低于SRNet和ZhuNet,频域上少样本通用隐写分析模型在常见的少样本环境下的检测准确率已超越现有的频域隐写分析模型.实验结果表明基于少样本学习的通用隐写分析方法对未知隐写算法检测具有高效性和鲁棒性.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006321
    摘要:
    地区网络边界刻画了现实世界国家和地区之间在网络空间中的拓扑界限.本文提出一种主被动结合的双阶段地区网络边界发现方法——RNB.第一阶段,基于定向拓扑测量与地理定位方法发现目标地区网络边界片段;第二阶段,基于多源信息加权定位和双重PING定位在边界片段中精准发现网络边界.实验以中国大陆地区网络为对象,与CAIDA数据集相比,仅以2.5%的探测代价新发现了37%的边界节点,共计1,644个.经人工验证的一致率为99.3%,经某运营商验证的准确率为75%.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006501
    摘要:
    为保护计算设备中安全敏感程序运行环境的安全,研究人员提出了TEE技术,通过对硬件和软件进行隔离为安全敏感程序提供一个与通用计算环境隔离的安全运行环境.侧信道攻击从传统的需要昂贵设备发展到现在仅基于微体系结构状态就能通过软件方式获取机密信息的访问模式,从而进一步推测出机密信息.TEE架构仅提供隔离机制,无法抵抗这类新出现的软件侧信道攻击.深入调研了ARM TrustZone、Intel SGX和AMD SEV三种TEE架构的软件侧信道攻击及相应防御措施,并探讨其攻击和防御机制的发展趋势.首先,介绍了ARM TrustZone、Intel SGX和AMD SEV的基本原理,并详细阐述了软件缓存侧信道攻击的定义、分类以及实际的侧信道攻击方法和步骤;之后从处理器指令执行的角度,提出一种TEE攻击面分类方法,利用该方法对TEE软件侧信道攻击进行分类,并阐述了软件侧信道攻击与其它攻击相结合的组合攻击;然后详细讨论TEE软件侧信道攻击的威胁模型;最后全面总结业界对TEE软件侧信道攻击的防御措施,并从攻击和防御两方面探讨TEE软件侧信道攻击未来的研究趋势.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006407
    摘要:
    分离逻辑是经典霍尔逻辑的针对操作指针和动态数据结构的扩展,已经广泛用于对基础软件(比如操作系统内核等)的分析与验证.分离逻辑约束自动求解是提升对操作指针和动态数据结构的程序的验证的自动化程度的重要手段.针对动态数据结构的验证一般同时涉及形状性质(比如单链表、双链表、树等)和数据性质(比如有序性、数据不变性等).本论文主要介绍能对动态数据结构的形状性质与数据约束进行融合推理的分离逻辑求解器COMPSPEN.我们首先介绍COMPSPEN的理论基础,包括能够同时描述线性动态数据结构的形状性质和数据约束的分离逻辑子集SLIDdata、SLIDdata的可满足性和蕴涵问题的判定算法.然后,我们介绍COMPSPEN工具的基本框架.最后,我们使用COMPSPEN工具进行了实例研究.我们收集整理了600个测试用例,在这600个测试用例上将COMPSPEN与已有的主流分离逻辑求解器ASTERIX、S2S、Songbird、SPEN进行了比较.实验结果表明COMPSPEN是唯一能够求解含有集合数据约束的分离逻辑求解器,而且总体来讲,它能对线性数据结构上的同时含有形状性质和线性算术数据约束的分离逻辑公式的可满足性问题进行高效的求解,另外,它也能对蕴涵问题进行求解.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006409
    摘要:
    随着神经网络等技术的快速发展,人工智能被越来越多地应用到安全关键或任务关键系统中,例如汽车自动驾驶系统、疾病诊断系统和恶意软件检测系统等.由于缺乏对人工智能软件系统全面和深入的了解,导致系统时常发生严重错误.人工智能软件系统的功能属性和非功能属性被提出以加强对人工智能软件系统的充分认识和质量保障.经调研,有大量研究者致力于功能属性的研究,但人们越来越关注于人工智能软件系统的非功能属性.为此本文专注于人工智能软件系统的非功能属性,调研了138篇相关领域的论文,从属性定义、属性必要性、属性示例和常见质量保障方法几个方面对目前已有的研究工作进行系统的梳理和详细的总结,同时重新定义和分析了非功能属性之间的关系并介绍了人工智能软件系统研究中可以用到的开源工具.最后,展望了人工智能软件系统非功能属性的未来研究方向和挑战,以期为该领域的研究人员提供参考.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006410
    摘要:
    信息物理融合系统(Cyber-Physical System,简称CPS)在社会生活中发挥越来越广泛的作用.CPS资源的按需编排建立在CPS资源的软件定义基础上,软件接口的定义则依赖对CPS资源能力的充分描述.目前,CPS领域内缺少一个能规范表示资源及其能力的知识库和构建该知识库的有效方法.面向CPS资源的文本描述,本文提出构建CPS资源能力知识图谱并设计一种自底向上的自动构建方法.给定资源,方法先从其代码和文档中提取资源能力的文本描述信息,并基于预定义的表示模式生成规范化表示的能力短语.然后,基于动宾结构的关键成分对能力短语进行划分、聚合与抽象,生成不同类型资源的能力层次化抽象描述.最后,构建资源能力知识图谱.面向Home Assistant平台,本文构建了包含32个资源类别、957个资源能力的知识图谱.图谱构建实验从不同维度对比分析了手工构建和本文方法自动构建的结果.实验表明,本文为CPS资源能力知识图谱的自动化构建提供可行途径,有助于减少人工构建工作量,补充CPS领域内资源服务与能力的描述,并提高图谱的知识完备性.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006411
    摘要:
    随着大数据、云计算等领域的蓬勃发展,重视数据安全与隐私已经成为了世界性的趋势,不同团体为保护自身利益和隐私不愿贡献数据,形成了数据孤岛.联邦学习使数据不出本地就可被多方利用,为解决数据碎片化和数据隔离等问题提供了解决思路.然而越来越多研究表明,由谷歌首先提出的联邦学习算法不足以抵抗精心设计的隐私攻击,因此如何进一步加强隐私防护,保护联邦学习场景下的用户数据隐私成为了一个重要问题.对近些年来联邦学习隐私攻击与防护领域取得的成果进行了系统总结.首先介绍了联邦学习的定义、特点和分类;然后分析了联邦学习场景下隐私威胁的敌手模型,并根据敌手攻击目标对隐私攻击方法进行了分类和梳理;介绍了联邦学习中的主流隐私防护技术,并比较了各技术在实际应用中的优缺点;分析并总结了6类目前联邦学习的隐私保护方案;最后指出目前联邦学习隐私保护面临的挑战,展望了未来可能的研究方向.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006415
    摘要:
    深度学习目前在计算机视觉、自然语言处理、语音识别等领域得到了深入发展,与传统的机器学习算法相比,深度模型在许多任务上具有较高的准确率.然而,作为端到端的具有高度非线性的复杂模型,深度模型的可解释性没有传统机器学习算法好,这为深度学习在现实生活中的应用带来了一定的阻碍.深度模型的可解释性研究具有重大意义而且是非常必要的,近年来许多学者围绕这一问题提出了不同的算法.针对图像分类任务,本文将可解释性算法分为全局可解释性和局部可解释性算法.在解释的粒度上,进一步将全局解释性算法分为模型级和神经元级的可解释性算法,将局部可解释性算法划分为像素级特征、概念级特征以及图像级特征可解释性算法.基于上述分类框架,本文总结了常见的深度模型可解释性算法以及相关的评价指标,同时讨论了可解释性研究面临的挑战和未来的研究方向.我们认为深度模型的可解释性研究和理论基础研究是打开深度模型黑箱的必要途径,同时可解释性算法存在巨大潜力可以为解决深度模型的公平性、泛化性等其他问题提供帮助.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006384
    摘要:
    大数据时代,数据规模庞大、由数据进行驱动的应用分析场景日益增多,如何快速高效的从这些海量的数据中提取出用以分析决策的信息给数据库系统带来重大挑战.同时,现代商业分析决策对分析数据的实时性要求数据库系统能够同时快速处理ACID事务和复杂的分析查询.然而,传统的数据分区粒度太粗,且不能适应动态变化的复杂分析负载;传统的数据布局单一,不能应对现代大量增加的混合事务分析应用场景.为了解决以上问题,“智能数据分区与布局”成为当前研究热点之一,它通过数据挖掘,机器学习等技术抽取工作负载的有效特征,设计最佳的分区策略来避免扫描大量不相关的数据,指导布局结构设计以适应不同类型的工作负载.本文首先介绍了智能数据分区与布局的相关背景知识,然后对智能数据分区与布局技术的研究动机,发展趋势,关键技术进行详细的阐述.最后,对智能数据分区与布局技术的研究前景做出总结与展望.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006385
    [摘要] (306) [HTML] (0) [PDF 1.30 M] (229)
    摘要:
    口语理解是自然语言处理领域的研究热点之一,应用在个人助理、智能客服、人机对话、医疗等多个领域,口语理解技术指的是将机器接收到的用户输入的自然语言转换为语义表示,主要包含意图识别、槽位填充2个子任务.现阶段,使用深度学习对口语理解中意图识别和槽位填充任务的联合建模方法已成为主流并且获得了很好的效果,因此对基于深度学习的口语理解联合建模算法进行总结分析具有十分重要的意义.本文首先介绍了深度学习技术应用到口语理解相关工作,然后从意图识别和槽位填充的关联关系上对现有的研究工作进行剖析,并对不同模型的实验结果进行了对比分析和总结,最后给出了未来的研究方向及展望.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006390
    摘要:
    人体姿态估计是计算机视觉领域的一个基础且具有挑战的任务.人体姿态估计对于描述人体姿态,描述人体行为等至关重要,是行为识别、行为检测等计算机视觉任务的基础.近年来,随着深度学习的发展,基于深度学习的人体姿态估计算法展现出了极其优异的效果.本文将从单人人体姿态估计、自顶向下的多人人体姿态估计和自底向上的多人人体姿态估计这三种主流的人体姿态估计方式,介绍近年来基于深度学习的二维人体姿态估计算法的发展,并讨论目前二维人体姿态估计所面临的困难和挑战.最后,对人体姿态估计未来的发展做出展望.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006391
    摘要:
    深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.本文以是否用Bellman方程为基准将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.本文从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006395
    [摘要] (284) [HTML] (0) [PDF 1.07 M] (188)
    摘要:
    如何利用多源异构时空数据进行准确的轨迹预测并且反映移动对象的移动特性是轨迹预测领域的核心问题.现有的大多数轨迹预测方法是长序列轨迹模式预测模型,根据历史轨迹的特点进行预测,或将当前移动对象的轨迹位置放入时空语义场景根据历史移动对象轨迹预测位置.综述当前常用的轨迹预测模型和算法,涉及不同的研究领域.首先,阐述了多模式轨迹预测的主流工作,轨迹预测的基本模型类;其次,对不同类的预测模型进行总结,包括数学统计类、机器学习类、滤波算法,以及上述领域具有代表性的算法;再次,对情景感知技术进行了介绍,描述了不同领域的学者对情景感知的定义,阐述了情景感知技术所包含的关键技术点,诸如情景感知计算、情景获取和情景推理的不同类模型,分析了情景感知的不同分类、过滤、存储和融合以及它们的实现方法等.详细介绍了情景感知驱动的轨迹预测模型技术路线及各阶段任务的工作原理.给出了情景感知技术在真实场景中的应用,包括位置推荐,兴趣点推荐等,通过与传统算法对比,分析情景感知技术在此类应用中的优劣.详细介绍了情景感知结合LSTM (Long Short-Term Memory)技术应用于行人轨迹预测领域的新方法.最后,总结了轨迹预测和情景感知研究的当前问题和未来发展趋势.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006380
    摘要:
    比特币闪电网络作为最广泛使用的支付通道网络之一,自其2016年提出就吸引了广泛关注.支付通道网络是一种用以解决区块链可扩展性问题的Layer-2技术.在支付通道网络中,参与者只需在区块链上提交开通和关闭支付通道的Layer-1事务,就可以在链下完成多笔支付交易.这个工作机制既避免了等待每笔交易被验证的时间耗费,同时也节省了交易费用.然而,由于闪电网络投入使用的时间较短,以往的相关研究都是基于有限的、闪电网络仍处于快速发展时期的数据,缺乏必要的时效性.为了填补这一空白,全面了解闪电网络的拓扑结构及其发展趋势,本文基于更新至2020年7月、具有高时效性的数据,采用图分析的方法,描述闪电网络静态和动态的特征.本文还对网络中节点进行聚类分析,并从聚类结果中得到了一些结论.此外,通过比较链上和链下的交易费用,本文对闪电网络的收费机制进行了进一步的研究.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006381
    摘要:
    稀疏三角线性方程组求解(SpTRSV)在科学与工程计算领域是比较重要的核心计算函数,其中基于结构化网格构造的线性方程组是SpTRSV求解器经常遇到的一类问题.在国产神威太湖之光超级计算机所配备的SW26010处理器上,SpTRSV求解器通常需要结合该平台的架构特点,通过搭建一定的数据路由体系来满足各工作线程对未知量数据的需求.本文面向与结构化网格相关的稀疏三角方程组问题,提出一套适用于SW26010处理器的并行求解器.该求解器在任务划分阶段将各线程的数据依赖模式限制在相对可控的范围之内,并在无数据路由的条件下解决线程的通信问题,不仅消除了数据路由带来的额外通信开销,而且适用的问题范围也不再受数据路由规则的制约.经测试,针对多种不同类型的结构化网格问题,本文提出的求解器框架的平均访存带宽利用率达88.2%,部分问题的访存带宽可达平台峰值带宽的94.5%,整体性能相比现有工作有较为明显的提高.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006314
    [摘要] (277) [HTML] (0) [PDF 1.67 M] (270)
    摘要:
    随着信息技术飞速发展,网络攻击事件频发,造成了日益严重的经济损失或社会影响.为了减少损失或预防未来潜在的攻击,需要对网络攻击事件进行溯源以实现对攻击者的挖掘追责.当前的溯源过程主要依赖于人工完成、效率低下.面对日益增加的海量溯源数据和日趋全面的溯源建模分析维度,亟需半自动化或自动化的网络攻击者挖掘方法.本文提出一种基于图模型的网络攻击溯源方法,建立网络攻击事件溯源本体模型,融合网络攻击事件中提取的线索数据和威胁情报数据,形成网络攻击事件溯源关系图;引入图嵌入算法自动学习嵌有关联线索特征的网络攻击事件特征向量,进而利用历史网络攻击事件特征向量训练SVM(Support Vector Machine)分类器,并基于SVM分类器完成网络攻击者的挖掘溯源;最后,通过实验验证了本文方法的可行性和有效性.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006320
    摘要:
    在线讨论是当下公众表达意见和交流互动的主要方式之一.参与者不仅发布评论来表述自己的观点,还会回复已有的表述进行应答,支持或反驳他人的观点.识别表述-应答交互文本的论辩关系可以建模公众对话结构,挖掘群体意见,进而为企业产品营销、政府舆情监测等提供辅助.现有的工作大多通过神经网络对交互文本的条件语义信息或者整体语义信息进行建模,而忽略了交互文本的语境关联信息.为此,本文提出了一种挖掘语境关联的双向注意力网络模型(CCRnet).该模型使用BERT分别对表述和应答进行文本语义表示,并通过双向注意力机制建模交互文本的语境关联表示.在此基础上,模型将语境关联表示和交互文本的语义表示进行融合,建模全局关系特征,继而输出预测标签.在CreateDebate数据集上的实验结果表明,与目前主流的方法相比,CCRnet模型的整体性能表现更优.此外,本文可视化相似度矩阵证实,双向注意力机制能够有效捕捉交互文本之间的语境关联信息并进一步服务于论辩关系预测.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006329
    摘要:
    近年来,分布式数字资产交易平台(Decentralized Digital Asset Exchanges,DDAE)受到了广泛的关注.本文基于金融市场基础设施(Principles for Financial Market Infrastructures,PFMI)原理,提出了评估数字资产交易平台的五项基本原则.并基于该原则从通信技术和交换协议技术两个方面对现有的分布式数字资产交易平台进行了讨论和评估,阐述几种典型技术解决方案的实施原理,将各种技术归纳为不同的模型进行分析.然后讨论了当前分布式数字资产交易平台存在的监管问题,并针对前监管中出现在的监管数据不完整和数据被篡改的问题,提出一种分布式监管模型,该模型由区块链系统、监管执行引擎以及监管法规库三个部分组成,能够通过读取区块链中的交易数据进行分析,自动执行监管法规库中的规则,对满足监管规则的交易自动生成监管报告,从而实现自动化监管.最后对分布式数字资产交易平台的发展进行了总结和展望.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006330
    [摘要] (198) [HTML] (0) [PDF 1.94 M] (426)
    摘要:
    数据中心的虚拟机(VM)整合技术是当今云计算领域的一个研究热点.要在保证服务质量(QoS)的前提下尽可能降低云数据中心的服务器能耗本质上是一个多目标优化的NP难问题.为了更好地解决该问题,本文面向异构服务器云环境提出了一种基于差分进化与粒子群优化的混合群智能节能虚拟机整合方法(HSI-VMC).该方法包括基于峰值效能比的静态阈值超载服务器检测策略(PEBST),基于迁移价值比的待迁移虚拟机选择策略(MRB),目标服务器选择策略,混合离散化启发式差分进化粒子群优化虚拟机放置算法(HDH-DEPSO)以及基于负载均值的欠载服务器处理策略(AVG).其中,PEBST、MRB、AVG策略的结合能够根据服务器的峰值效能比和CPU的负载均值检测出超载和欠载服务器并选出合适的虚拟机进行迁移,降低负载波动引起的服务水平协议违约率(SLAV)和虚拟机迁移的次数;HDH-DEPSO算法结合DE和PSO的优点,能够搜索出更优的虚拟机放置方案,使服务器尽可能地保持在峰值效能比下运行,降低服务器的能耗开销.基于真实云环境数据集(PlanetLab/Mix/Gan)的一系列实验表明,HSI-VMC方法相比当前主流的几种节能虚拟机整合方法能够更好地兼顾多个QoS指标,并有效降低云数据中心的服务器能耗开销.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006331
    摘要:
    定向灰盒模糊测试技术在度量种子对目标执行状态的搜索能力时,除了考虑种子逼近目标代码的程度,也需要分析种子对多样化执行状态的发现能力,从而避免陷入局部最优.现有的定向灰盒模糊测试主要根据全程序的覆盖统计来度量种子搜索多样化执行路径的能力.然而,目标执行状态仅依赖于部分程序代码.如果带来新覆盖的种子并未探索到目标状态计算所依赖的新执行状态,其不仅不能扩大种子队列对目标执行状态的搜索能力,而且会诱导测试目标无关的代码和功能,阻碍定向测试向目标代码的收敛.为了缓解该问题,本文从待发现目标执行状态依赖代码的覆盖统计着手,提出了一种有效覆盖引导的定向灰盒模糊测试方法.利用程序切片技术提取影响目标执行状态计算的代码.通过能量调度(即控制种子后代生成数量),提升引发该部分代码控制流新覆盖变化的种子能量,降低其他冗余种子的能量,使定向灰盒模糊测试专注于搜索目标相关的执行状态.在测试集上的实验结果显示本文的方法显著提升了目标状态发现效率.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006312
    摘要:
    代码审查是一种由其他开发者而非代码作者本人评审代码的形式.在代码审查系统中,开发者通过提交代码变更来修复软件缺陷或添加软件特性.并非所有的代码变更都会被集成到代码库中,部分代码变更会被拒收.被拒收的代码变更有可能被恢复,并继续接受审查,提供代码贡献者改进代码变更的机会.然而,审查恢复过的代码变更需要花费更多的时间.本文收集四个开源项目中920,700条代码变更,采用主题分析方法识别出11类代码变更恢复的原因,并定量分析被恢复的代码变更的特征.主要发现包括:1)导致代码变更恢复的原因中,“提升改进”类型占比最大;2)不同项目之间,代码变更被恢复的原因类别分布存在差异,但并不显著;3)相比从未恢复过的代码变更,恢复的代码变更接收率低10%,评论数量平均多1.9倍,审查所用时间平均多5.8倍;4)81%的恢复代码变更被接收,19%的恢复代码变更被拒收.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006283
    摘要:
    为揭示传播网络中节点之间的父子影响关系,现有工作大多需要知道节点的感染时间,而该信息往往只有通过对传播过程进行实时监控才能获得.在本文中,我们研究如何基于传播结果来学习获得传播网络中节点之间的父子影响关系.传播结果只包含每个传播过程中节点的最终感染状态,而节点的最终感染状态在实际中往往比节点的感染时间更容易获得.我们提出了一种基于条件熵的方法来推断网络中每个节点的潜在候选父节点.此外,我们能够通过从基于条件熵的推断结果中发现并修剪那些实际不太可能存在的父子影响关系来优化最终的影响关系推断结果.在人工网络和真实网络上的大量实验验证了本文方法的有效性和运行效率.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006158
    摘要:
    密码函数在密码学中具有重要的研究价值.从组合的角度,本文给出了一种密码函数不存在性证明的新方法,并且得到了一些新结果,部分结果优于已有结论,这些结果可以部分证明不存在次数大于2的齐次旋转对称bent函数这一公开猜想.同时利用多项式的最大公因子算法刻画了2次齐次旋转对称bent函数.本文的方法也可以用于刻画其他形式的bent函数的存在性.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006313
    [摘要] (313) [HTML] (0) [PDF 1.76 M] (709)
    摘要:
    知识图谱是一种基于图的结构化知识表示方式.如何构造大规模高质量的知识图谱,是研究和实践面临的一个重要问题.本文提出了一种基于互联网群体智能的协同式知识图谱构造方法.该方法的核心是一个持续运行的回路,其中包含自由探索、自动融合、主动反馈三个活动.在自由探索活动中,每一参与者独立进行知识图谱的构造活动.在自动融合活动中,所有参与者的个体知识图谱被实时融合在一起,形成群体知识图谱.在主动反馈活动中,支撑环境根据每一参与者的个体知识图谱和当前时刻的群体知识图谱,向该参与者推荐特定的知识图谱片段信息,以提高其构造知识图谱的效率.针对这三个活动,本文建立了一种层次式的个体知识图谱表示机制,提出了一种以最小化广义熵为目标的个体知识图谱融合算法,设计了情境无关和情境相关两种类型的信息反馈方式.为了验证所提方法及关键技术的可行性,我们设计并实施了三种类型的实验:仅包含结构信息的仿真图融合实验、大规模真实知识图谱的融合实验、以及真实知识图谱的协同式构造实验.实验结果表明:本文提出的知识图谱融合算法能够有效利用知识图谱的结构信息以及节点的语义信息,形成高质量的知识图谱融合方案;基于“探索-融合-反馈”回路的协同方法能够提升群体构造知识图谱的规模和个体构造知识图谱的效率,并展现出较好的群体规模可扩展性.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006383
    摘要:
    REST API已成为访问和使用Web服务的重要途径,为开发基于服务架构的应用系统提供了可复用接口.但是,REST API的设计质量参差不齐,因此有效、合理的设计指导规范对于规范和提高REST API设计质量具有现实意义和应用价值.首先,基于REST API的本质内涵,建立了一个多维度、两层次的REST API设计指导规范分类体系RADRC (REST API Design Rule Catalog),并对当前主流的25条设计指导规范进行分类.其次,针对已有规范提出相应的检测方法,并实现了REST API设计指导规范遵循情况的分析与检测工具RESTer.最后,使用RESTer开展REST API设计实证研究,分析了APIs.guru收录的近2000个真实REST API的文档,从中分析提取相应的REST API信息,进一步检测并统计当前REST API的设计特征和设计指导规范遵循情况.研究发现不同应用类别的REST API在资源和操作模式上存在差异,使得不同类别REST API在设计规则和总体架构方面各有特点.实证研究结果有助于深入了解当前REST API及其设计规则的特征、现状和不足,对于提高REST API设计质量和改进设计指导规范具有实际意义.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006347
    摘要:
    在传统调试过程中,缺陷定位通常作为程序修复的前置步骤.最近,一种新型调试框架(统一化调试)被提出.不同于传统调试中缺陷定位和程序修复的单向连接方式,统一化调试首次建立了定位与修复之间的双向连接机制,从而同时提升两个领域的效果.作为第一个统一化调试技术,ProFL利用程序修复过程中伴随产生的大量补丁执行信息来逆向提升已有缺陷定位技术的效果.统一化调试技术不仅修复那些可被修复的缺陷,而且也为那些不能被自动修复技术修复的缺陷提供了有效的调试线索.虽然统一化调试是一个很有前景的研究方向,但是它在补丁验证过程中涉及到了大量的测试用例执行(比如,百万量级的测试执行),因此时间开销问题严重.本文提出了一种针对于统一化调试框架的加速技术(AUDE),该技术通过减少对缺陷定位效果无提升的测试执行,提升统一化调试的效率.具体来说,AUDE首先通过马尔可夫链蒙特卡洛采样方法构建补丁执行的初始序列,随后在补丁执行过程中以已执行的补丁信息作为反馈信息自适应性地估计每一个未执行补丁可能提供有效反馈信息的概率.我们在广泛使用的数据集Defects4J上对该技术进行了验证,发现AUDE在显著加速ProFL的同时并没有降低其在缺陷定位和程序修复的效果.例如,在减少了ProFL中70.29%的测试执行的同时,AUDE仍在Top-1/Top-3/Top-5指标上和ProFL保持了相同的定位效果.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.000000
    [摘要] (596) [HTML] (0) [PDF 1.01 M] (415)
    摘要:
    随着图结构化数据挖掘的兴起,超图作为一种特殊的图结构化数据在社交网络分析、图像处理、生物反应解析等领域受到广泛关注。研究者通过解析超图中的拓扑结构与节点属性等信息,能够有效解决实际应用场景中所遇到的如兴趣推荐、社群划分等问题。根据超图学习算法的设计特点本文将其划分为谱分析方法和神经网络方法,根据方法对超图处理的不同手段可进一步划分为展开式方法和非展开式方法。若将展开式方法用于不可分解超图则很有可能会造成信息损失。然而,现有的超图相关综述文章鲜有就超图学习方法适用于哪类超图这一问题作出相关归纳。因此,本文将分别从超图上的谱分析方法和神经网络方法两方面出发,对展开式方法和非展开式方法分别展开讨论,并结合其算法特性和应用场景进行进一步细分;然后,分析比较各类算法的设计思路,结合实验结果总结各类算法的优缺点;最后,对超图学习未来可能的研究方向进行了展望。
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006355
    摘要:
    代码自然性(code naturalness)研究是自然语言处理领域和软件工程领域共同的研究热点之一,旨在通过构建基于自然语言处理技术的代码自然性模型以解决各种软件工程任务.近年来,随着开源软件社区中源代码和数据规模的不断扩大,越来越多的研究人员注重钻研源代码中蕴藏的信息,并且取得了一系列研究成果.但与此同时,代码自然性研究在代码语料库构建、模型构建和任务应用等环节面临许多挑战.鉴于此,本文从代码自然性技术的代码语料库构建、模型构建和任务应用等方面对近年来代码自然性研究及应用进展进行梳理和总结.主要内容包括:(1)介绍了代码自然性的基本概念及其研究概况.(2)归述了目前代码自然性研究的语料库,并对代码自然性模型建模方法进行分类与总结.(3)总结代码自然性模型的实验验证方法和模型评价指标.(4)总结并归类了目前代码自然性的应用现状.(5)归纳代码自然性技术的关键问题.(6)展望代码自然性技术的未来发展.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006356
    摘要:
    DataFlow模型的使用,使得大数据计算的批处理和流处理融合为一体.但是,现有的针对大数据计算的集群资源调度框架,它们要么面向流处理,要么面向批处理,不适合批处理与流处理作业共享集群资源的需求.另外,GPU用于大数据分析计算时,由于缺乏有效的CPU-GPU资源解耦方式,降低了资源使用效率.论文在分析现有的集群资源调度框架的基础上,设计并实现了一种可以感知批处理/流处理应用的混合式资源调度框架HRM.它以共享状态架构为基础,采用乐观封锁协议和悲观封锁协议相结合的方式,确保流处理作业和批处理作业的不同资源要求.在计算节点上,提供CPU-GPU资源的灵活绑定,采用队列堆叠技术,不但满足流处理作业的实时性需求,也减少了反馈延迟并实现了GPU资源的共享.通过模拟大规模作业的调度,结果显示HRM的调度延迟只有集中式调度框架的75%左右;使用实际负载测试,批处理与流处理共享集群时,使用HRM调度框架,CPU资源利用率提高25%以上;而使用细粒度作业调度方法,不但GPU利用率提高2倍以上,作业的完成时间也能够减少50%左右.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006357
    摘要:
    实际系统往往由大量类型各异、彼此交互的组件构成.当前大多数工作将这些交互系统建模为同质信息网络,并未考虑不同类型对象的复杂异质交互关系,因而造成大量信息损失.近年来,越来越多的研究者将这些交互数据建模为由不同类型节点和边构成的异质信息网络,从而利用网络中全面的结构信息和丰富的语义信息进行更精准的知识发现.特别是,随着大数据时代的到来,异质信息网络能够自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径.因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点.本文对异质信息网络分析与应用进行了全面综述.除了介绍异质信息网络领域的基本概念外,重点聚焦基于异质网络元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用三个方面的最新研究进展,并对未来的发展方向进行了展望.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006372
    [摘要] (541) [HTML] (0) [PDF 1.31 M] (330)
    摘要:
    采样是一类基本的计算问题.从一个解空间中依特定概率分布进行随机采样,这一问题在近似计数、概率推断、统计学习等方面都有着诸多重要的应用.在大数据时代,采样问题的分布式算法与分布式计算复杂性受到越来越多的关注.近年来,有一系列的工作对分布式采样理论展开系统性的研究.本文综述了分布式采样的重要结论,主要包括有严格理论保障的分布式采样算法、采样问题在分布式模型上的计算复杂性、以及采样与推断等问题在分布式计算模型中的相互联系.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006373
    摘要:
    上帝类(god class)是指同时包含多种任务职责的类,其常见特征是包含大量的属性与方法,并且与系统中的其他类有多种依赖关系.上帝类是一种典型的代码坏味,对软件的开发维护产生负面影响.近年来许多研究都致力于发现和重构上帝类,但是现有方法识别上帝类的能力不强,检测精确率不高.本文提出一种基于图模型和孤立森林的上帝类检测方法,主要分为两个阶段:图结构信息分析阶段和类内度量评估阶段.在图结构信息分析阶段,建立类间的方法调用图和类内结构图,采用孤立森林算法缩小上帝类的检测范围;在类内度量评估阶段,考虑项目的规模和架构带来的影响,将项目中上帝类相关度量指标的平均值作为基准,设计实验确定比例因子,并以平均值和比例因子的乘积作为阈值筛选得到上帝类的检测结果.在代码坏味标准数据集上的实验结果表明,相比于现有的上帝类检测方法,本文提出的方法在精确率和F1值上分别提升了25.82个百分点和33.39个百分点,同时保持了较高的召回率.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006374
    [摘要] (531) [HTML] (0) [PDF 1.01 M] (430)
    摘要:
    随着开源概念的逐步深入,开源软件成为软件发展的潮流,同时开源软件的使用受各类开源许可证约束.开源参与者在开发过程中该如何为自己的开源软件选择合适的许可证,确保高效合理的使用社区群体智慧劳动成果仍是一个亟需解决的问题.为此,本文首先分析和解读了开放源代码促进会认证的常用开源许可证,通过对许可证条款内容和结构的研究得到开源许可证框架及许可证兼容性推导模型,并将该模型应用于对中国自主研发的木兰宽松许可证的分析和解读.最后,基于上述工作研发了开源许可证选择工具,为开源开发者对许可证的理解和合规使用提供了参考和决策支持.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006375
    [摘要] (1629) [HTML] (0) [PDF 1.14 M] (1380)
    摘要:
    智能合约是区块链技术最成功的应用之一,为实现各式各样的区块链现实应用提供了基础,在区块链生态系统中处于至关重要的地位.然而,频发的智能合约安全事件不仅造成了巨大的经济损失,而且破坏了基于区块链的信用体系,智能合约的安全性和可靠性成为国内外研究的新关注点.本文首先从Solidity代码层、EVM执行层、区块链系统层这3个层面介绍了智能合约常见的漏洞类型和典型案例;继而,从形式化验证法、符号执行法、模糊测试法、中间表示法、深度学习法这5类方法综述了智能合约漏洞检测技术的研究进展,针对现有漏洞检测方法的可检测漏洞类型、准确率、时间消耗等方面进行了详细的对比分析,并讨论了它们的局限性和改进思路;最后,根据对现有研究工作的总结,探讨了智能合约漏洞检测领域面临的挑战,并结合深度学习技术展望了未来的研究方向.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006369
    摘要:
    开源及企业软件项目和各类软件开发网站上的代码片段是重要的软件开发资源.然而,很多开发者代码搜索需求反映的代码的高层意图和主题难以通过基于代码文本的信息检索技术来实现精准的代码搜索.因此,反映代码整体意图和主题的语义标签对于改进代码搜索、辅助代码理解都具有十分重要的作用.现有的标签生成技术主要面向文本内容或依赖于历史数据,无法满足大范围代码语义标注和辅助搜索、理解的需要.针对这一问题,本文提出了一种基于知识图谱的代码语义标签自动生成方法KGCodeTagger.该方法通过基于API文档和软件开发问答文本的概念和关系抽取构造软件知识图谱作为代码语义标签生成的基础.针对给定的代码,该方法识别并抽取出通用API调用或概念提及,并链接到软件知识图谱中的相关概念上.在此基础上,该方法进一步识别与所链接的概念相关的其他概念作为候选,然后按照多样性和代表性排序产生最终的代码语义标签.本文通过实验对KGCodeTagger软件知识图谱构建的各个步骤进行了评估,并通过与几个已有的基准方法的比较对所生成的代码语义标签质量进行了评估.实验结果表明,KGCodeTagger的软件知识图谱构建步骤是合理有效的,该方法所生成的代码语义标签是高质量、有意义的,能够帮助开发人员快速理解代码的意图.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006365
    [摘要] (704) [HTML] (0) [PDF 1.02 M] (449)
    摘要:
    随着信息技术在社会各领域的深入渗透,人类社会所拥有的数据总量达到了一个前所未有的高度.一方面,海量数据为基于数据驱动的机器学习方法获取有价值信息提供了充分空间;另一方面,高维度、过冗余以及高噪声也是上述繁多、复杂数据的固有特性.为消除数据冗余、发现数据结构、提高数据质量,原型学习是一种行之有效的方式.通过寻找一个原型集来表示目标集,以从样本空间进行数据约简,在增强数据可用性的同时,提升机器学习算法的执行效率.其可行性在众多应用领域中已得到证明.因此,原型学习相关理论与方法的研究是当前机器学习领域的一个研究热点与重点.该文主要介绍了原型学习的研究背景和应用价值,概括介绍了各类原型学习相关方法的基本特性、原型的质量评估以及典型应用.接着,从原型学习的监督方式及模型设计两个视角重点介绍了原型学习的研究进展,其中前者主要涉及无监督、半监督和全监督方式;后者包括基于相似度,行列式点过程,数据重构和低秩逼近四大类原型学习方法.最后,对原型学习的未来发展方向进行了展望.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006367
    [摘要] (1108) [HTML] (0) [PDF 669.79 K] (389)
    摘要:
    软件缺陷在软件的开发和维护的过程中不可避免,软件缺陷报告是软件维护过程中重要的缺陷描述文档,高质量的软件缺陷报告可以有效提高软件缺陷修复的效率.然而,由于存在许多开发人员、测试人员和用户与缺陷跟踪系统交互并提交软件缺陷报告,同一个软件缺陷可能被不同的人员报告,导致了大量重复的软件缺陷报告.重复的软件缺陷报告势必加重了人工检测重复缺陷报告的工作量,并造成人力物力的浪费,降低了软件缺陷修复的效率.本文以系统文献调研的方式对近年来国内外学者在重复软件缺陷报告检测领域的研究工作进行了系统的分析.主要从研究方法、数据集的选取、性能评价等方面具体分析总结,并提出该领域在后续研究中存在的问题与挑战,以及我们的建议.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006362
    摘要:
    数据密集型作业包含大量的任务,使用GPU设备来提高任务的性能是目前的主要手段,但是,在解决数据密集型作业之间的GPU资源公平共享以及降低任务所需数据在网络间的传输代价方面,现有的研究方法没有综合考虑资源公平与数据传输代价的矛盾.论文分析了GPU集群资源调度的特点,提出了一种基于最小代价最大任务数的GPU集群资源调度算法,解决了GPU资源的公平分配与数据传输代价较高的矛盾,将调度过程分为两个阶段,第一阶段为各个作业按照数据传输代价给出自己的最优方案,第二阶段为资源分配器合并各个作业的方案,按照公平性给出全局的最优方案.首先,论文给出了GPU集群资源调度框架的总体结构,各个作业给出自己的最优方案,资源分配进行全局优化;第二,给出了网络带宽估计策略以及计算任务的数据传输代价的方法;第三,给出了基于GPU数量的资源公平分配的基本算法;第四,提出了最小代价最大任务数的资源调度算法,描述了资源非抢夺,抢夺以及不考虑资源公平策略的实现策略;最后,设计了六种数据密集型计算作业,对论文中提出的算法进行了实验,通过实验验证,最小代价最大任务数的资源调度算法,对于资源公平性能够达到90%左右,同时亦能保证作业并行运行时间最小.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006359
    摘要:
    近年来,传统磁记录的存储密度增长已经达到极限,为了满足快速增长的数据容量需求,多种新型存储技术不断涌现,其中瓦记录(Shingled Magnetic Recording,简写为SMR)技术已实现商业化,在企业实际应用.但是,由于瓦记录磁盘的叠瓦式结构,磁盘在随机写入时会引起写放大,造成磁盘性能下降.这一问题在部署传统的高可靠存储方案(如RAID5)时会变得更加严重,原因在于是校验数据更新频率很高,磁盘内出现大量的随机写请求.本文发现瓦记录内部其实存在具有原位更新能力的"可覆盖写磁道"(Free Track),因此基于"可覆盖写磁道",提出了一种专门针对瓦记录盘的高可靠数据存储方法——FT-RAID,以替代经典的RAID5方法,实现一个廉价、大容量、高可靠的存储系统.FT-RAID包含两个部分:"可覆盖写磁道映射"(FT-Mapping)和"可覆盖写磁道缓冲区"(FT-Buffer).FT-Mapping实现了一种瓦记录友好的RAID映射方式,将频繁更新的校验块数据映射至"可覆盖写磁道";FT-Buffer实现了一种瓦记录友好的两层缓冲区结构,上层确保了热数据能够原位更新,下层提高了缓冲区的容量.基于真实企业I/O访问记录的的实验表明,与传统RAID5相比,FT-RAID能减少80.4%的写放大率,显著提高存储系统整体性能.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006284
    摘要:
    实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究面向实体缓存的多属性数据索引技术.涉及两个核心问题:1)如何设计多属性数据索引.设计基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出基于空间聚类的在线索引构建方法.提出基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.2)如何将不同的字符串属性插入到树形索引中.解决思路是将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出基于q-gram的映射方法,并提出基于向量降维的优化和基于z-order的优化,实现高质量的“字符串→数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006290
    摘要:
    自适应隐写是图像隐写方向的研究热点,它通过有效地设计隐写失真函数,自适应地将秘密信息隐藏在图像复杂的纹理区域,具有很强的隐蔽性.近年来,基于生成对抗网络的隐写失真函数设计研究在空域灰度图像上已经取得了突破性的进展,但是目前还没有针对空域彩色图像的研究.与灰度图像相比,彩色图像隐写需要考虑保护RGB通道间相关性,同时合理地分配RGB三个通道的嵌密容量.本文设计了一个基于生成对抗网络设计空域彩色图像隐写失真函数的框架CIS-GAN(color image steganography based on generative adversarial network),生成器网络采用两个U-Net子网络结构,第一个U-Net子网络生成修改概率矩阵,第二个U-Net子网络进行正负向修改概率调节,有效地降低对彩色图像通道相关性的破坏.针对彩色图像载体,修改灰度图像隐写分析器作为网络的对抗部分.在生成器损失函数中对彩色图像三个通道总的隐写容量进行控制,生成器能够自动学习分配三个通道嵌密容量.实验结果表明,与现有彩色图像隐写失真函数设计方法相比,本文提出的网络结构能够更好地抵抗彩色图像隐写分析器的检测.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006296
    摘要:
    在多级秘密共享方案中,每级存取结构里的授权集中参与者可联合重构对应的秘密.但在实际中,腐化了非授权集的攻击者可以通过内存攻击获取部分或全部其余参与者的份额信息,从而非法得到部分、甚至是全部的秘密信息.面对这样的内存泄漏,现有的多级秘密共享方案都不再安全.基于此,本文首先给出了抗内存泄漏的多级秘密共享对选择秘密攻击不可区分的形式化的计算安全模型.然后,利用物理不可克隆函数及模糊提取器的联合作用,基于极小线性码构造了一个适用于一般存取结构的抗内存泄露的可验证多级秘密共享方案.同时,在内存攻击者存在的情况下,证明方案在随机预言模型下是计算安全的.最后,将所提出方案与现有方案在性能和计算复杂度两方面进行比较分析.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006339
    摘要:
    基于信息检索的缺陷定位技术,利用跨语言的语义相似性构造检索模型通过缺陷报告定位源代码错误,具有方法直观、通用性强的特点.但是由于传统基于信息检索的缺陷定位方法将代码作为纯文本进行处理,只利用了源代码的词汇语义信息,导致在细粒度缺陷定位中面临候选代码语义匮乏产生的准确性低的问题,其结果有用性还有待改进.通过分析程序演化场景下代码改动与缺陷产生间的关系,本文提出一种基于源代码扩展信息的细粒度缺陷定位方法,以代码词汇语义显性信息及代码执行隐性信息共同丰富源代码语义实现细粒度缺陷定位.利用定位候选点的语义相关上下文丰富代码量,以代码执行中间形式的结构语义实现细粒度代码的可区分,同时以自然语言语义指导基于注意力机制的代码语言表征生成,实现细粒度代码与自然语言间的语义映射,从而实现细粒度缺陷定位方法FlowLocator.实验分析表明本方法与经典的IR缺陷定位方法相比,定位准确性在Top-N排名、平均准确率及平均倒数排名上都有显著提高.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006340
    摘要:
    目前多轮对话生成研究大多使用基于RNN或Transformer的编码器-解码器架构.但这些序列模型都未能很好地考虑到对话结构对于下一轮对话生成的影响.针对此问题,本文在传统的编码器-解码器模型的基础上,使用图神经网络结构对对话结构信息进行建模,从而有效刻画对话的上下文中的关联逻辑.本文针对对话设计了基于文本相似度的关联结构、基于话轮转换的关联结构和基于说话人的关联结构,利用图神经网络进行建模,从而实现对话上下文内的信息传递及迭代.基于DailyDialog数据集的实验结果证明,相较其他基线模型,本模型在多个指标上有一定的提升,这说明本文使用图神经网络建立的模型能够有效刻画对话中的多种关联结构,从而有利于神经网络生成高质量的对话回复.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006324
    摘要:
    在软件工程领域,代码补全是集成开发环境(IDE)中最有用的技术之一,提高了软件开发效率,成为了加速现代软件开发的重要技术.通过代码补全技术进行类名、方法名、关键字等预测,在一定程度上提高了代码规范,降低了编程人员的工作强度.近年来,人工智能技术的进步同时也促进了代码补全技术的发展.总体来说,智能代码补全技术利用源代码训练深度学习网络,从语料库学习代码特征,根据待补全位置的上下文代码特征进行推荐和预测.现有的代码特征表征方式大多基于程序语法,没有反映出程序的语义信息.同时目前使用到的网络结构在面对长代码序列时,解决长距离依赖问题的能力依旧不足.因此,本文提出基于程序控制依赖关系和语法信息结合共同表征代码的方法,并将代码补全问题作为一个基于时间卷积网络(TCN)的抽象语法树(AST)结点预测问题,使得网络模型可以更好的学习程序的语法和语义信息,并且可以捕获更长范围的依赖关系.通过实验证明,本文方法比现有方法的准确率提高了约2.8%.
    优先出版日期:  2021-02-07 , DOI: 10.13328/j.cnki.jos.006305
    摘要:
    由于中文文本之间没有分隔符,难以识别中文命名实体的边界.此外,在垂直领域中难以获取充足的标记完整的语料,例如医疗领域和金融领域等垂直领域.为解决上述不足,本文提出一种动态迁移实体块信息的跨领域中文实体识别模型(TES-NER),将跨领域共享的实体块信息(Entity Span)通过基于门机制(Gate Mechanism)的动态融合层从语料充足的通用领域(源领域)动态迁移到垂直领域(目标领域)上的中文命名实体模型,其中实体块信息是用于表示中文命名实体的范围.TES-NER模型首先通过双向长短期记忆神经网络(BILSTM)和全连接网络(FCN)构建跨领域共享实体块识别模块,用于识别跨领域共享的实体块信息来确定中文命名实体的边界.然后,通过独立的基于字的双向长短期记忆神经网络和条件随机场(BILSTM-CRF)构建中文命名实体识别模块,用于识别领域指定的中文命名实体.最后构建动态融合层将实体块识别模块抽取得到的跨领域共享实体块信息通过门机制动态决定迁移到领域指定的命名实体识别模型上的量.本文设置通用领域(源领域)数据集为标记语料充足的新闻领域数据集(MSRA),垂直领域(目标领域)数据集为混合领域(OntoNotes5.0)、金融领域(Resume)和医学领域(CCKS2017)三个数据集,其中混合领域数据集(OntoNotes5.0)是融合六个不同垂直领域的数据集.实验结果表明,本文提出的模型在OntoNotes5.0、Resume和CCKS2017三个垂直领域数据集上的F1值相比于双向长短期记忆和条件随机场模型(BiLSTM-CRF)分别高出2.18%、1.68%和0.99%.
    优先出版日期:  2021-01-15 , DOI: 10.13328/j.cnki.jos.006299
    [摘要] (1172) [HTML] (0) [PDF 1.34 M] (1093)
    摘要:
    手绘草图一直是人类传递信息的重要工具之一.手绘草图可以通过简单明了的形式更快地表达人类的一些复杂思想,因此对手绘草图的研究也一直是计算机视觉领域的研究热点之一.目前对手绘草图的研究主要集中在识别、检索和补全等方面.随着研究者对于手绘草图细粒度操作的重视,对于手绘草图分割方面的研究也得到越来越多的关注.近年来,随着深度学习与计算机视觉技术的发展,出现了大量基于深度学习的手绘草图分割方法,手绘草图分割的精确度和效率也都得到了较大提升.但是,由于手绘草图自身的抽象性、稀疏性和多样性,手绘草图分割仍然是一个非常具有挑战性的课题.目前,国内很少有关于手绘草图分割的综述.针对这个不足,本文对基于深度学习的手绘草图分割算法进行整理、分类、分析和总结,首先阐述了三种基本的草图表示方法与常用的草图分割数据集,再按草图分割算法的预测结果分别介绍了草图语义分割、草图感知聚类与草图解析算法,然后在主要的数据集上收集与整理草图分割算法的评测结果并对结果进行分析,最后总结了草图分割相关的应用并探讨未来可能的发展方向.
    优先出版日期:  2021-01-15 , DOI: 10.13328/j.cnki.jos.006212
    摘要:
    利用多维属性关键性能指标(KPI,Key Performance Indicators)的可加性特征能够实现对大型互联网服务故障的根因定位.由一项或多项异常根因导致的KPI数据变化会导致大量相关KPI数据值的变化.本文提出了一种基于异常相似性评估和影响力因子的剪枝搜索异常定位模型(Pruning Search Model based on Anomaly Similarity and Effectiveness Factor for Root Cause Location,PASER),该模型以多维KPI异常传播模型为基础,提出了衡量候选集合成为根因可能性的异常潜在分数评估方案,基于影响力的逐层剪枝搜索算法将异常根因的定位时间降低到了平均约5.3秒.此外,本文针对异常根因定位中所使用的时间序列预测算法的准确性和时效性也进行了对比实验,PASER模型在所使用的数据集上的定位表现达到了0.99的F-score.
    优先出版日期:  2020-12-02 , DOI: 10.13328/j.cnki.jos.006144
    摘要:
    我们的认知思维和概念系统建立在隐喻之上.隐喻理解的实现是自然语言处理任务中关键的一环.为了让理解过程更好地切合隐喻的工作机制,基于隐喻的互动理论,本文提出合作网模型,将隐喻理解的过程部署为一个网状结构,实现汉语句子隐喻的理解计算.相比于其他模型,合作网模型体现了目标域和源域之间"求同存异"的语义关系,强调概念之间的双向语义联结,通过计算各个关系的强弱,输出更适应于上下文信息的表述意义.实验结果表明合作网模型合理有效.基于合作网得到的理解结果能初步反映隐喻理解过程的动态性和突显性.
    优先出版日期:  2020-09-10 , DOI: 10.13328/j.cnki.jos.006122
    [摘要] (1299) [HTML] (0) [PDF 2.18 M] (1176)
    摘要:
    密度峰值聚类(density peaks clustering,DPC)算法是聚类分析中基于密度的一种新兴算法,该算法考虑局部密度和相对距离绘制决策图,快速识别簇中心,完成聚类.DPC具有唯一的输入参数,且无需先验知识,也无需迭代.自2014年提出以来,DPC引起了学者们的极大兴趣并得到了快速发展.本文首先阐述DPC的基本理论,并通过与经典聚类算法比较分析了DPC的特点;其次,分别从聚类精度和计算复杂度两个角度分析了DPC的弊端及其优化方法,包括局部密度优化、分配策略优化、多密度峰优化以及计算复杂度优化,并介绍了每个类别的主要代表算法;最后介绍了DPC在不同领域中的相关应用研究.我们对DPC的优缺点提供了全面的理论分析,并对DPC的优化以及应用进行了全面阐述.我们还试图找出进一步的挑战来促进DPC研究发展.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2375) [HTML] (0) [PDF 525.21 K] (3543)
    摘要:
    Data race is a major source of concurrency bugs. Dynamic data race detection tools (e.g., FastTrack) monitor the execu-tions of a program to report data races occurring in runtime. However, such tools incur significant overhead that slows down and perturbs executions. To address the issue, the state-of-the-art dynamic data race detection tools (e.g., LiteRace) ap-ply sampling techniques to selectively monitor memory access-es. Although they reduce overhead, they also miss many data races as confirmed by existing studies. Thus, practitioners face a dilemma on whether to use FastTrack, which detects more data races but is much slower, or LiteRace, which is faster but detects less data races. In this paper, we propose a new sam-pling approach to address the major limitations of current sampling techniques, which ignore the facts that a data race involves two threads and a program under testing is repeatedly executed. We develop a tool called AtexRace to sample memory accesses across both threads and executions. By selectively monitoring the pairs of memory accesses that have not been frequently observed in current and previous executions, AtexRace detects as many data races as FastTrack at a cost as low as LiteRace. We have compared AtexRace against FastTrack and LiteRace on both Parsec benchmark suite and a large-scale real-world MySQL Server with 223 test cases. The experiments confirm that AtexRace can be a replacement of FastTrack and LiteRace.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2386) [HTML] (0) [PDF 352.38 K] (4756)
    摘要:
    It is difficult to fix atomicity violations correctly. Existing gate lock algorithm (GLA) simply inserts gate locks to serialize exe-cutions, which may introduce performance bugs and deadlocks. Synthesized context-aware gate locks (by Grail) require complex source code synthesis. We propose ?Fixer to adaptively fix ato-micity violations. It firstly analyses the lock acquisitions of an atomicity violation. Then it either adjusts the existing lock scope or inserts a gate lock. The former addresses cases where some locks are used but fail to provide atomic accesses. For the latter, it infers the visibility (being global or a field of a class/struct) of the gate lock such that the lock only protects related accesses. For both cases, ?Fixer further eliminates new lock orders to avoid introducing deadlocks. Of course, ?Fixer can produce both kinds of fixes on atomicity violations with locks. The experi-mental results on 15 previously used atomicity violations show that: ?Fixer correctly fixed all 15 atomicity violations without introducing deadlocks. However, GLA and Grail both intro-duced 5 deadlocks. HFix (that only targets on fixing certain types of atomicity violations) only fixed 2 atomicity violations and introduced 4 deadlocks. ?Fixer also provides an alternative way to insert gate locks (by inserting gate locks with proper visibility) considering fix acceptance.
    优先出版日期:  2017-09-11 , DOI:
    [摘要] (2761) [HTML] (0) [PDF 276.42 K] (1718)
    摘要:
    对Github上Python科学计算软件生态系统中的跨项目关联缺陷进行了实证分析,聚焦于开发者对缺陷根源的追踪和上下游项目开发者修复缺陷的协作。通过定性和定量的分析,揭示了影响这类缺陷定位与修复的因素,以及开发者应对它们的常见行为。
    优先出版日期:  2017-06-21 , DOI:
    [摘要] (2845) [HTML] (0) [PDF 169.43 K] (1908)
    摘要:
    Numerical instability is a well-known problem that may cause serious runtime failures. This paper discusses the reason of instability in software development process, and presents a toolchain that not only detects the potential instability in software, but also diagnoses the reason for such instability. We classify the reason of instability into two categories. When it is introduced by software requirements, we call the instability caused by problem. In this case, it cannot be avoided by improving software development, but requires inspecting the requirements, especially the underlying mathematical properties. Otherwise, we call the instability caused by practice. We design our toolchain as 4 loosely-coupled tools, which combine stochastic arithmetic with infinite-precision testing. Each tool in our toolchain can be configured with different strategies according to the properties of the analyzed software. We evaluate our toolchain on subjects from literature. The results show that it effectively detects and separates the instabilities caused by problems from others. We also conduct an evaluation on the latest version of GNU Scientific Library, and the toolchain finds a few real bugs in the well-maintained and widely deployed numerical library. With the help of our toolchain, we report the details and fixing advices to the GSL buglist.
    优先出版日期:  2017-06-13 , DOI:
    [摘要] (4062) [HTML] (0) [PDF 174.91 K] (2369)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-25 , DOI:
    [摘要] (3002) [HTML] (0) [PDF 254.98 K] (1736)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-18 , DOI:
    [摘要] (3348) [HTML] (0) [PDF 472.29 K] (1673)
    摘要:
    Software should behave correctly even in adverse conditions. Particularly, we study the problem of automated validation of crash consistency, i.e., file system data safety when systems crash. Existing work requires non-trivial manual efforts of specifying checking scripts and workloads, which is an obstacle for software developers. Therefore, we propose C3, a novel approach that makes crash consistency validation as easy as pressing a single button. With a program and an input, C3 automatically reports inconsistent crash sites. C3 not only exempts developers from the need of writing crash site checking scripts (by an algorithm that computes editing distance between file system snapshots) but also reduces the reliance on dedicated workloads (by test amplification). We implemented C3 as an open-source tool. With C3, we found 14 bugs in open-source software that have severe consequences at crash and 11 of them were previously unknown to the developers, including in highly mature software (e.g., GNU zip and GNU coreutils sort) and popular ones being actively developed (e.g., Adobe Brackets and TeXstudio).
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3211) [HTML] (0) [PDF 293.93 K] (1544)
    摘要:
    本文提出了一种可部署的数据竞争动态采样检测技术,首先提出了基于线程本地时序的数据竞争定义,之后基于硬件断点进行采样检测。在采样率为1%时,时间开销约为5%,且有效性得以保证。
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3520) [HTML] (0) [PDF 244.61 K] (1778)
    摘要:
    在软件开发过程中,软件更新时常发生,怎样保证软件更新后的软件质量呢?这就是回归测试的任务。传统上,回归测试通过检测软件异常行为来保证软件质量。然而,在实践中所有的软件行为不可能全部被检测到,尤其针对于大型的复杂软件系统。为帮助开发人员更好的进行回归测试,传统工作集中在增加测试用例上,即通过人工或自动生成测试输入的方法,观测测试输出以捕获程序行为。这种方法虽一定程度上有效,但也存在很大缺陷:人工编写测试用例费时费力,不能覆盖的代码较多,而且容易受人主观判断的误导(例如忽略某些特别容易存在缺陷的类、方法等);自动生成测试用例技术存在很多问题,例如代价大和无法很好的处理数组、字符串等。基于目前软件测试技术存在的缺陷,很多软件不得不在面临诸多安全威胁的状态下发布,有时甚至造成重大财产损失甚至人员伤亡。因此,我们迫切需要新技术来辅助现有技术以更好的进行回归测试、保障软件质量。
    优先出版日期:  2016-12-12 , DOI:
    [摘要] (3020) [HTML] (0) [PDF 358.69 K] (1806)
    摘要:
    在程序分析中,循环(Loop)的处理与分析是一个非常重要而且很有挑战的任务。例如,在符号执行(Symbolic Execution)中,循环的不断展开会导致程序路径数量指数级地增长。因此,符号执行通常会陷入不停的循环展开,而不能覆盖到新的程序分支上,最终影响了测试用例生成或者缺陷检测的效率。
    优先出版日期:  2016-09-30 , DOI:
    摘要:
    在软件测试中,测试预言是一种判断程序在给定测试输入下的执行结果是否符合预期的机制。测试预言通常由在测试中需要被观测的变量以及这些变量的预期值组成。对于相同的测试输入,不同的测试预言可能有不同的缺陷检测能力。因此,高质量的测试预言对于检测软件中的缺陷是非常必要的。在已有的研究中,虽然研究人员提出了各种各样的自动化测试输入生成技术,但是测试预言问题仍然被公认为是软件测试中最难解决的问题之一。
    优先出版日期:  2016-09-09 , DOI:
    [摘要] (3499) [HTML] (0) [PDF 313.52 K] (191)
    摘要:
    本文基于众测平台,提出了一种基于局部的主动学习方法,能够将众测报告中的缺陷进行自动分类,该方法解决了众测报告分类中的局部偏见问题、及缺少历史训练数据的问题,并基于实际的众测数据进行了验证。
    优先出版日期:  2016-09-07 , DOI:
    [摘要] (3860) [HTML] (0) [PDF 231.98 K] (114)
    摘要:
    并发缺陷是由于某些事件按照一定的顺序发生而导致的,本文提出了一种基于缺陷半径的并发缺陷的概率检测方法RPro,并用于死锁的检测,且有概率保证。实验表明该方法可以显著提高死锁的检测概率。
    优先出版日期:  2016-08-29 , DOI:
    摘要:
    当公司投入资源到开源社区,其诉求可能跟开放共享的开源开发方法存在冲突,继而影响自由贡献者.因此我们研究:公司参与会对开源社区带来怎样的影响?面向三个技术同构的混合项目,我们总结了三个商业参与模型,并量化了不同模型对贡献者稳定性和持续性的影响.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (35423) [HTML] (0) [PDF 832.28 K] (74574)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2010,21(3):427-437, DOI:
    [摘要] (30919) [HTML] (0) [PDF 308.76 K] (34470)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (27954) [HTML] (0) [PDF 781.42 K] (48746)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (27266) [HTML] (300) [PDF 880.96 K] (26405)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2009,20(5):1337-1348, DOI:
    [摘要] (26366) [HTML] (0) [PDF 1.06 M] (40638)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2008,19(1):48-61, DOI:
    [摘要] (25921) [HTML] (0) [PDF 671.39 K] (56043)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2009,20(2):271-289, DOI:
    [摘要] (25518) [HTML] (0) [PDF 675.56 K] (38659)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2005,16(1):1-7, DOI:
    [摘要] (20680) [HTML] (0) [PDF 614.61 K] (17141)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2004,15(3):428-442, DOI:
    [摘要] (19598) [HTML] (0) [PDF 1009.57 K] (13386)
    摘要:
    随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务成为电子商务的有效解决方案.Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制.Web服务的新型构架,Web服务的高效执行方式,Web服务与其他成熟技术的有机结合以及Web服务的集成是解决现实应用问题的重要技术.从Web服务研究的不同侧面对其进行了综述,阐述了Web服务的基本概念,分析了当前Web服务的主要研究问题及其核心支撑技术,概括了Web服务中的数据集成技术、Web服务的组合、语义Web服务、Web服务发现,Web服务安全,P2P(Peer-to-Peer)新型计算环境下的Web服务解决方案和网格服务等方面的研究内容,并对这些技术进行了总结,结合已有的研究成果,展望了Web服务未来的研究方向及其面临的挑战.
    2005,16(5):857-868, DOI:
    [摘要] (18930) [HTML] (0) [PDF 489.65 K] (26137)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2010,21(8):1834-1848, DOI:
    [摘要] (18073) [HTML] (0) [PDF 682.96 K] (49608)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2009,20(1):54-66, DOI:
    [摘要] (17803) [HTML] (0) [PDF 1.41 M] (45237)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (17453) [HTML] (0) [PDF 408.86 K] (26658)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (17266) [HTML] (0) [PDF 2.09 M] (27253)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2009,20(3):524-545, DOI:
    [摘要] (16522) [HTML] (0) [PDF 1.09 M] (18570)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2009,20(11):2965-2976, DOI:
    [摘要] (15506) [HTML] (0) [PDF 442.42 K] (10269)
    摘要:
    研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.
    2004,15(8):1208-1219, DOI:
    [摘要] (15482) [HTML] (0) [PDF 948.49 K] (10738)
    摘要:
    随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,网络蠕虫成为恶意代码研究中的首要课题.首先综合论述网络蠕虫的研究概况,然后剖析网络蠕虫的基本定义、功能结构和工作原理,讨论网络蠕虫的扫描策略和传播模型,归纳总结目前防范网络蠕虫的最新技术.最后给出网络蠕虫研究的若干热点问题与展望.
    2009,20(1):124-137, DOI:
    [摘要] (15391) [HTML] (0) [PDF 1.06 M] (19110)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(5):1226-1240, DOI:
    [摘要] (15233) [HTML] (0) [PDF 926.82 K] (13336)
    摘要:
    对几种智能规划方法中利用的逻辑演绎与推理技术予以分析,分别介绍利用命题逻辑的基于可满足性的规划方法与规划系统,利用模态逻辑与析取推理的Conformant规划方法与规划系统,利用非单调逻辑的规划方法和利用模糊描述逻辑的Flexible规划方法,并结合国际规划竞赛和相关论文等的实验结论说明上述方法的有效性和可行性.最后,提出目前基于自动推理技术的智能规划方法所面临的挑战、可能的处理方法以及与之相关的研究热点与趋势.
    2003,14(10):1717-1727, DOI:
    [摘要] (15188) [HTML] (0) [PDF 839.25 K] (11382)
    摘要:
    传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到这些信息的用户.传感器网络是计算机科学技术的一个新的研究领域,具有十分广阔的应用前景,引起了学术界和工业界的高度重视.介绍了传感器网络及其数据管理的概念和特点,探讨了传感器网络及其数据管理的研究问题,并综述了传感器网络及其数据管理的研究现状.
    2009,20(2):350-362, DOI:
    [摘要] (14877) [HTML] (0) [PDF 1.39 M] (34999)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (14598) [HTML] (234) [PDF 1.04 M] (21146)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (14448) [HTML] (338) [PDF 1.32 M] (15388)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2009,20(10):2729-2743, DOI:
    [摘要] (13647) [HTML] (0) [PDF 1.12 M] (8817)
    摘要:
    基于多跳的无线传感器网络,越靠近sink的传感器节点因需要转发更多的数据,其能量消耗就越快,从而在sink周围形成了一种称为“能量洞”的现象.“能量洞”问题会导致整个网络由于内部节点能量过早耗尽而结束寿命,同时,网络中离sink较远的节点仍有大量能量剩余.研究“能量洞”现象,基于改进的分级环模型,总结出调节各环内节点的数据传输距离是实现网络节能的有效方法.证明搜索各区域最优的传输距离是一个多目标优化问题,即是NP难问题.从而提出一种基于蚁群优化的分布式算法,各区域根据其节点分布情况自适应地探索近似最优的传输距离,延长网络寿命.模拟实验结果表明,该算法在较短的时间内能够收敛到合理的解,并且得到的网络寿命接近于理想情况下的最优时间,与现有的类似算法相比,该算法提供了更长的网络寿命,并能适用于非均匀节点分布情况.
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (13374) [HTML] (0) [PDF 946.37 K] (14416)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2000,11(11):1460-1466, DOI:
    [摘要] (13202) [HTML] (0) [PDF 520.69 K] (8914)
    摘要:
    入侵检测是近年来网络安全研究的热 点.首先说明入侵检测的必要性,并给出入侵检测的概念和模型,概述了多种入侵检测方法及 体系结构.最后,讨论了该领域当前存在的问题及今后的研究方向.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (13137) [HTML] (0) [PDF 1017.73 K] (26359)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2008,19(zk):112-120, DOI:
    [摘要] (13020) [HTML] (0) [PDF 594.29 K] (12418)
    摘要:
    无线移动Ad Hoc网络是一种不依赖任何固定基础设施的移动无线多跳网络.由于其动态性和资源的限制,在Ad Hoc网络中提供多路径路由是一个重要的研究课题.描述了一种Ad Hoc网络中基于信息熵选择的稳定多路径路由算法(stability multipath on-demand routing,简称SMDR),提出了路径熵的度量参数,并利用路径熵来选择稳定的、长寿命的多路径,减少了重构路由的次数,从而在网络拓扑频繁变化的Ad Hoc网络环境中较好地提供QoS保证和提高数据传输率.仿真结果表明,SMDR协议改进了分组传输率、端到端时延和路由负载率.SMDR协议为解决动态的Ad Hoc网络多路径传输提供了一种新的有效途径.
    2004,15(4):571-583, DOI:
    [摘要] (12963) [HTML] (0) [PDF 1005.17 K] (7710)
    摘要:
    在诸如文件共享等无中心的Peer-to-Peer环境中,资源共享是用户自愿的行为.在这类系统中,由于用户不为自身的行为担负(法律)责任,因而节点间的信任关系往往很难通过传统的信任机制建立.一种更合理的考虑是参考人际网络中基于推荐的信任关系建立方法.现有的模型不能很好地解决模型的迭代收敛性问题,同时缺乏对诸如冒名、诋毁等安全性问题的考虑.针对上述问题,在节点推荐的基础上提出了一种基于Peer-to-Peer环境的信任模型,并给出了该模型的数学分析和分布式实现方法.分析及仿真表明,该信任模型较已有模型在迭代的收敛性、模型的安全性等问题上有较大改进.
    2013,24(8):1786-1803, DOI:10.3724/SP.J.1001.2013.04416
    [摘要] (12869) [HTML] (0) [PDF 1.04 M] (13468)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2006,17(7):1588-1600, DOI:
    [摘要] (12673) [HTML] (0) [PDF 808.73 K] (12001)
    摘要:
    在无线传感器网络体系结构中,网络层的路由技术至关重要.分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,成为当前重点研究的路由技术.分析了无线传感器网络分簇路由机制,着重从簇头的产生、簇的形成和簇的路由角度系统地描述了当前典型的分簇路由算法,并比较和分析了这些算法的特点和适用情况.最后结合该领域当前研究现状,指出分簇路由算法未来的研究重点.
    2009,20(1):11-29, DOI:
    [摘要] (12653) [HTML] (0) [PDF 787.30 K] (11407)
    摘要:
    约束优化问题是科学和工程应用领域经常会遇到的一类数学规划问题.近年来,约束优化问题求解已成为进化计算研究的一个重要方向.从约束优化进化算法=约束处理技术+进化算法的研究框架出发,从约束处理技术和进化算法两个基本方面对约束优化进化算法的研究及进展进行了综述.此外,对约束优化进化算法中的一些重要问题进行了探讨.最后进行了各种算法的比较性总结,深入分析了目前约束优化进化算法中亟待解决的问题,并指出了值得进一步研究的方向.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (12643) [HTML] (0) [PDF 845.91 K] (24502)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2002,13(7):1228-1237, DOI:
    [摘要] (12625) [HTML] (0) [PDF 500.04 K] (11289)
    摘要:
    近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的软件体系结构概念之后,给出了软件体系结构的定义.通过总结软件体系结构领域的若干研究活动,提出了软件体系结构研究的两大思路,并从7个方面介绍了软件体系结构研究进展.探讨了软件体系结构研究中的不足之处,并分析其原因.作为总结,给出了软件体系结构领域最有前途的发展趋势.
    2008,19(8):1902-1919, DOI:
    [摘要] (12397) [HTML] (0) [PDF 521.73 K] (11074)
    摘要:
    可视化语言技术比一维文本语言在描述软件组成方面具有优越性.由于图表和图形概念在系统建模中的广泛使用,可视化语言可以应用于需求分析、设计、测试和维护等软件开发的各个阶段.除了具有直观易见的特点之外,图文法在计算机上的精确建模和验证能力,为设计可视化语言提供了一个坚实的理论基础.讨论了可视化语言的形式理论基础,回顾了相关的可视化图形编程环境.特别提出了一种空间图文法,并且用该图文法定义了统一建模语言的行为语义.基于空间图文法,开发了一种基于模式驱动的框架,以帮助软件架构与设计.
    2015,26(1):26-39, DOI:10.13328/j.cnki.jos.004631
    [摘要] (12389) [HTML] (170) [PDF 763.52 K] (10985)
    摘要:
    近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
    2013,24(1):50-66, DOI:10.3724/SP.J.1001.2013.04276
    [摘要] (12374) [HTML] (0) [PDF 0.00 Byte] (13951)
    摘要:
    作为云平台提升应用性能的一种重要手段,分布式缓存技术近年来受到了工业界和学术界的广泛关注.从云计算与分布式缓存技术的结合入手,分析介绍了分布式缓存的特性、典型应用场景、发展阶段、相关标准规范以及推动缓存技术发展的若干关键要素.为系统地了解分布式缓存技术的现状和不足,建立了一个云环境下分布式缓存技术的分析框架——DctAF.该框架从分析云计算的特点和缓存技术的边界出发,涵盖6个分析维度.基于DctAF框架,对当前缓存技术进行总结和分析,并对典型系统进行比较.在此基础上,深入阐述了云环境下分布式缓存系统面临的挑战;围绕上述挑战,分析和比较了已有的研究工作.
    2008,19(8):1947-1964, DOI:
    [摘要] (12148) [HTML] (0) [PDF 811.11 K] (7394)
    摘要:
    设计与实现面向领域应用的交互式信息可视化软件十分困难.缺乏统一的开发方法与支撑工具箱,为非专家用户提供对层次、网络、多维等数据类型的统一支持,对各种可视化技术与交互技术的统一支持,以及对信息可视化任务的统一支持.针对此问题,提出了一种模型驱动的交互式信息可视化开发方法Daisy.首先,提出了交互式信息可视化界面模型IIVM(interactive information visualization interface model);然后,提出了基于IIVM的交互式信息可视化开发方法Daisy,讨论了该方法的两个核心技术:IIVM建模与描述文件生成方法、系统自动生成方法.同时,给出了Daisy工具箱,包括Daisy建模工具、Daisy系统自动生成工具以及运行时框架与组件库.最后,给出了该开发方法与工具箱的应用实例.实例表明,该方法能够为交互式信息可视化开发的统一支撑方法问题提供一种有效的解决方案.
    2003,14(9):1621-1628, DOI:
    [摘要] (12139) [HTML] (0) [PDF 680.35 K] (15934)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2002,13(10):1952-1961, DOI:
    [摘要] (12051) [HTML] (0) [PDF 570.96 K] (9401)
    摘要:
    对个性化服务技术中用户描述文件的表达与更新、资源描述文件的表达、个性化推荐技术、个性化服务体系结构以及该领域的主要研究成果进行了综述.通过比较现有原型系统的实现方式,详细讨论了实现个性化服务的关键技术.此外,分析了3个具有代表性的个性化服务系统.最后对个性化服务技术进一步研究工作的方向进行了展望.
    2010,21(2):231-247, DOI:
    [摘要] (12027) [HTML] (0) [PDF 1.21 M] (13846)
    摘要:
    通过分析服务组合的故障需求,给出服务组合故障处理的框架.该框架采用Petri网来解决服务组合的错误发现及其处理问题.重点讨论了可用服务失败、组件失败及网络故障的情况,并相应地给出了服务组合故障模型.在此基础上对故障处理模型进行分析,给出服务组合故障处理正确性准则,并证明了其正确性.最后,采用CTL (computational tree logic)描述相关性质并提出验证服务组合故障分析的实施算法.仿真结果表明,该方法在处理服务组合故障时具有一定的优越性.
    2003,14(9):1635-1644, DOI:
    [摘要] (11920) [HTML] (0) [PDF 622.06 K] (9557)
    摘要:
    计算机取证研究的是如何为调查计算机犯罪提供彻底、有效和安全的技术.其关键是确保证据的真实性、可靠性、完整性和符合法律规定.介绍了计算机取证的过程以及取证软件的原理和实现,并且给出完整的取证实例.从理论和实现两个方面讨论了现有取证技术的局限性和面临的挑战,并展望其未来的发展方向.由于计算机犯罪手段的变化和其他技术的引入,现有的取证工作将向着深入和综合的方向发展.
    2012,23(1):82-96, DOI:10.3724/SP.J.1001.2012.04101
    [摘要] (11791) [HTML] (0) [PDF 394.07 K] (11397)
    摘要:
    以僵尸网络为载体的各种网络攻击活动是目前互联网所面临的最为严重的安全威胁之一.虽然近年来这方面的研究取得了显著的进展,但是由于僵尸网络不断演化、越来越复杂和隐蔽以及网络和系统体系结构的限制给检测和防御带来的困难,如何有效应对僵尸网络的威胁仍是一项持续而具有挑战性的课题.首先从僵尸网络的传播、攻击以及命令与控制这3 个方面介绍了近年来僵尸网络工作机制的发展,然后从监测、工作机制分析、特征分析、检测和主动遏制这5 个环节对僵尸网络防御方面的研究进行总结和分析,并对目前的防御方法的局限、僵尸网络的发展趋势和进一步的研究方向进行了讨论.
    2010,21(7):1620-1634, DOI:
    [摘要] (11729) [HTML] (0) [PDF 765.23 K] (17221)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2017,28(1):1-16, DOI:10.13328/j.cnki.jos.005139
    [摘要] (11718) [HTML] (186) [PDF 1.75 M] (5916)
    摘要:
    背包问题(knapsack problem,简称KP)是一类著名的组合优化问题,也是一类NP难问题,它包括0-1背包问题、有界背包问题、多维背包问题、多背包问题、多选择背包问题、二次背包问题、动态背包问题和折扣背包问题等多种形式,在众多领域有着广泛的应用.演化算法(EAs)是一类有效的快速近似求解KP的算法.对近10余年来利用EAs求解KP的研究情况进行了较为详细的总结,一方面讨论了利用EAs求解各种KP问题时个体的编码方法与处理不可行解的有效方法,另一方面,为今后进一步利用最新提出的EAs求解KP问题提供了一条可借鉴的思路.
    2008,19(10):2706-2719, DOI:
    [摘要] (11497) [HTML] (0) [PDF 778.29 K] (9525)
    摘要:
    Web搜索引擎已经成为人们从海量Web信息中快速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求.随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的Web搜索技术并迅速成为研究热点.研究的目的是对现有的基于P2P的Web搜索技术进行总结,以期为进一步研究指明方向.首先分析了基于P2P的Web搜索面临的诸多挑战;然后重点总结分析了基于P2P的Web搜索的各项关键技术的研究现状,包括系统拓扑结构、数据存放策略、查询路由机制、索引切分策略、数据集选择、相关性排序、网页收集方法等;最后对已有的3个较有特色的基于P2P的Web搜索原型系统进行了介绍.
    2008,19(7):1565-1580, DOI:
    [摘要] (11414) [HTML] (0) [PDF 815.02 K] (12731)
    摘要:
    软件缺陷预测技术从20世纪70年代发展至今,一直是软件工程领域最活跃的内容之一,在分析软件质量、平衡软件成本方面起着重要的作用.研究和讨论了软件缺陷预测技术的起源、发展和当前所面临的挑战,对主流的缺陷预测技术进行了分类讨论和比较,并对典型的软件缺陷的分布模型给出了案例研究.
    2004,15(12):1751-1763, DOI:
    [摘要] (11398) [HTML] (0) [PDF 928.33 K] (6003)
    摘要:
    报告了关于少儿图灵测试(CTT)的一项研究工作.研究区别于其他人的主要之处是该测试程序是基于知识的,它依靠一个海量常识知识库的支持.给出了作者研究少儿图灵测试的动机、设计、技术、实验结果和平台(包括一个知识引擎和一个会话引擎).最后给出了关于少儿图灵测试的几点研究结论和思考.
    1999,10(11):1206-1211, DOI:
    [摘要] (11344) [HTML] (0) [PDF 392.66 K] (4853)
    摘要:
    该文针对Rough Set理论中属性约简和值约简这两个重要问题进行了研究,提出了一种借助于可辨识矩阵(discernibility matrix)和数学逻辑运算得到最佳属性约简的新方法.同时,借助该矩阵还可以方便地构造基于Rough Set理论的多变量决策树.另外,对目前广泛采用的一种值约简策略进行了改进,最终使得到的规则进一步简化.
    2010,21(5):916-929, DOI:
    [摘要] (11333) [HTML] (0) [PDF 944.50 K] (14555)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (35423) [HTML] (0) [PDF 832.28 K] (74574)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2008,19(1):48-61, DOI:
    [摘要] (25921) [HTML] (0) [PDF 671.39 K] (56043)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2010,21(8):1834-1848, DOI:
    [摘要] (18073) [HTML] (0) [PDF 682.96 K] (49608)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (27954) [HTML] (0) [PDF 781.42 K] (48746)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2009,20(1):54-66, DOI:
    [摘要] (17803) [HTML] (0) [PDF 1.41 M] (45237)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2009,20(5):1337-1348, DOI:
    [摘要] (26366) [HTML] (0) [PDF 1.06 M] (40638)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289, DOI:
    [摘要] (25518) [HTML] (0) [PDF 675.56 K] (38659)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2004,15(10):1493-1504, DOI:
    [摘要] (8328) [HTML] (0) [PDF 937.72 K] (36164)
    摘要:
    多年来计算机图形处理器(GP以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战.
    2009,20(2):350-362, DOI:
    [摘要] (14877) [HTML] (0) [PDF 1.39 M] (34999)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2010,21(3):427-437, DOI:
    [摘要] (30919) [HTML] (0) [PDF 308.76 K] (34470)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2013,24(11):2476-2497, DOI:10.3724/SP.J.1001.2013.04486
    [摘要] (9085) [HTML] (0) [PDF 1.14 M] (30749)
    摘要:
    概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
    2014,25(9):1889-1908, DOI:10.13328/j.cnki.jos.004674
    [摘要] (10471) [HTML] (239) [PDF 550.98 K] (28302)
    摘要:
    首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (17266) [HTML] (0) [PDF 2.09 M] (27253)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (17453) [HTML] (0) [PDF 408.86 K] (26658)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (27266) [HTML] (300) [PDF 880.96 K] (26405)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (13137) [HTML] (0) [PDF 1017.73 K] (26359)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2005,16(5):857-868, DOI:
    [摘要] (18930) [HTML] (0) [PDF 489.65 K] (26137)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (12643) [HTML] (0) [PDF 845.91 K] (24502)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2013,24(1):77-90, DOI:10.3724/SP.J.1001.2013.04339
    [摘要] (10291) [HTML] (0) [PDF 0.00 Byte] (23660)
    摘要:
    任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向.
    2018,29(5):1471-1514, DOI:10.13328/j.cnki.jos.005519
    [摘要] (4440) [HTML] (339) [PDF 4.38 M] (22910)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (14598) [HTML] (234) [PDF 1.04 M] (21146)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2009,20(1):124-137, DOI:
    [摘要] (15391) [HTML] (0) [PDF 1.06 M] (19110)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2017,28(4):959-992, DOI:10.13328/j.cnki.jos.005143
    [摘要] (7803) [HTML] (169) [PDF 3.58 M] (18851)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2011,22(6):1299-1315, DOI:10.3724/SP.J.1001.2011.03993
    [摘要] (9244) [HTML] (0) [PDF 987.90 K] (18763)
    摘要:
    由于属性基加密(attribute-based encryption,简称ABE)机制以属性为公钥,将密文和用户私钥与属性关联,能够灵活地表示访问控制策略,从而极大地降低了数据共享细粒度访问控制带来的网络带宽和发送结点的处理开销.因此,ABE 在细粒度访问控制领域具有广阔的应用前景.在对基本ABE 机制及其两种扩展:密钥-策略ABE(KP-ABE)和密文-策略ABE(CP-ABE)进行深入研究、分析后,针对ABE 中的CP-ABE 机制访问结构的设计、属性密钥撤销、ABE 的密钥滥用、多授权机构等难点问题进行了深入探讨和综合分析,对比了现有研究工作的功能及开销.最后讨论了ABE 未来需进一步研究的问题和主要研究方向.
    2009,20(3):524-545, DOI:
    [摘要] (16522) [HTML] (0) [PDF 1.09 M] (18570)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2013,24(5):1078-1097, DOI:10.3724/SP.J.1001.2013.04390
    [摘要] (10593) [HTML] (0) [PDF 1.74 M] (17785)
    摘要:
    软件定义网络(software-defined networking,简称SDN)技术分离了网络的控制平面和数据平面,为研发网络新应用和未来互联网技术提供了一种新的解决方案.综述了基于OpenFlow 的SDN 技术发展现状,首先总结了逻辑控制和数据转发分离架构的研究背景,并介绍了其关键组件和研究进展,包括OpenFlow交换机、控制器和SDN技术,然后从4 个方面分析了基于OpenFlow 的SDN 技术目前所面临的问题和解决思路.结合近年来的发展现状,归纳了在校园网、数据中心以及面向网络管理和网络安全方面的应用,最后探讨了未来的研究趋势.
    2012,23(8):2058-2072, DOI:10.3724/SP.J.1001.2012.04237
    [摘要] (9144) [HTML] (0) [PDF 800.05 K] (17257)
    摘要:
    分布式拒绝服务(distributed denial of service,简称DDoS)攻击是当今互联网的重要威胁之一.基于攻击包所处网络层次,将DDoS 攻击分为网络层DDoS 攻击和应用层DDoS 攻击,介绍了两类攻击的各种检测和控制方法,比较了处于不同部署位置控制方法的优劣.最后分析了现有检测和控制方法应对DDoS 攻击的不足,并提出了DDoS 过滤系统的未来发展趋势和相关技术难点.
    2010,21(7):1620-1634, DOI:
    [摘要] (11729) [HTML] (0) [PDF 765.23 K] (17221)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2005,16(1):1-7, DOI:
    [摘要] (20680) [HTML] (0) [PDF 614.61 K] (17141)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2004,15(11):1583-1594, DOI:
    [摘要] (7372) [HTML] (0) [PDF 1.57 M] (16899)
    摘要:
    在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式.研究了随机性和模糊性之间的关联性,统一用熵作为客观事物和主观认知中不确定状态的度量,用超熵来度量不确定状态的变化,并利用熵和超熵进一步研究了混沌、分形和复杂网络中的不确定性,以及由此带来的种种进化和变异,为实现不确定性人工智能找到了一种简单、有效的形式化方法,也为包括形象思维在内的不确定性思维的自动化打下了基础.不确定性人工智能是人工智能进入21世纪的新发展.这个由多学科交叉渗透构成的新学科,必将使得机器能够具备人脑一样的不确定性信息和知识的表示能力、处理能力和思维能力.
    2006,17(9):1848-1859, DOI:
    [摘要] (11035) [HTML] (0) [PDF 770.40 K] (16741)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2005,16(10):1743-1756, DOI:
    [摘要] (9055) [HTML] (0) [PDF 545.62 K] (16347)
    摘要:
    论述了可证明安全性理论在安全方案与安全协议的设计与分析中的应用,内容主要包括:什么是可证明安全性,可证明安全性理论涉及到的一些基本概念,RO(random oracle)模型方法论的基本思想及其在公钥加密和数字签名等方案中的应用研究进展,标准模型下可证明安全性理论在公钥加密和数字签名等方案中的应用研究进展,以及可证明安全性理论在会话密钥分配协议的设计与分析中的应用研究进展.
    2014,25(1):37-50, DOI:10.13328/j.cnki.jos.004497
    [摘要] (8632) [HTML] (190) [PDF 929.87 K] (16314)
    摘要:
    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.
    2003,14(9):1621-1628, DOI:
    [摘要] (12139) [HTML] (0) [PDF 680.35 K] (15934)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (14448) [HTML] (338) [PDF 1.32 M] (15388)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2009,20(8):2241-2254, DOI:
    [摘要] (5872) [HTML] (0) [PDF 1.99 M] (15368)
    摘要:
    从数据场思想出发,提出了一种基于拓扑势的社区发现算法.该方法引入拓扑势描述网络节点间的相互作用,将每个社区视为拓扑势场的局部高势区,通过寻找被低势区域所分割的连通高势区域实现网络的社区划分.理论分析与实验结果表明,该方法无须用户指定社区个数等算法参数,能够揭示网络内在的社区结构及社区间具有不确定性的重叠节点现象.算法的时间复杂度为O(m+n3/γ)~O(n2),n为网络节点数,m为边数,2<γ<3为一个常数.
    2008,19(11):2803-2813, DOI:
    [摘要] (8409) [HTML] (0) [PDF 319.20 K] (15360)
    摘要:
    提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.
    2009,20(6):1393-1405, DOI:
    [摘要] (10466) [HTML] (0) [PDF 831.86 K] (15302)
    摘要:
    组合测试能够在保证错误检出率的前提下采用较少的测试用例测试系统.但是,组合测试用例集的构造问题的复杂度是NP完全的.组合测试方法的有效性和复杂性吸引了组合数学领域和软件工程领域的学者们对其进行深入的研究.总结了近年来在组合测试方面的研究进展,主要内容包括:组合测试准则的研究、组合测试生成问题与其他NP完全问题的联系、组合测试用例的数学构造方法、采用计算机搜索的组合测试生成方法以及基于组合测试的错误定位技术.
    2018,29(10):2966-2994, DOI:10.13328/j.cnki.jos.005551
    [摘要] (6915) [HTML] (436) [PDF 610.06 K] (15262)
    摘要:
    近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
    2009,20(8):2199-2213, DOI:
    [摘要] (9710) [HTML] (0) [PDF 2.05 M] (15155)
    摘要:
    对现有的应用于移动互联网的P2P技术方面的研究进行了分析.首先介绍了P2P技术和移动互联网的概念,并提出将P2P技术应用在移动互联网所面临的挑战和应用模式.其次,分别针对集中式架构、超级节点体系架构和ad hoc架构对应用于互联网的P2P网络体系架构进行了阐述.再其次,针对移动终端的两种接入模式,分别在资源定位算法和跨层优化两个方面进行了介绍.对各关键技术的特点进行了详细的分析,指出其存在的不足.最后,对未来的工作进行了展望.
    2013,24(2):295-316, DOI:10.3724/SP.J.1001.2013.04336
    [摘要] (9028) [HTML] (0) [PDF 0.00 Byte] (15082)
    摘要:
    在新的应用模式下,传统层次结构数据中心网络在规模、带宽、扩展性和成本方面存在诸多不足.为了适应新型应用的需求,数据中心网络需要在低成本的前提下,满足高扩展性、低配置开销、健壮性和节能的要求.首先,概述了传统数据中心网络体系结构及其不足,并指出了新的需求;其次,将现有方案划分为两类,即以网络为中心和以服务器为中心的方案;然后,对两类方案中的代表性结构进行了详细的综述和对比分析;最后指出了数据中心网络未来的发展方向.
    2010,21(7):1605-1619, DOI:
    [摘要] (9127) [HTML] (0) [PDF 856.25 K] (15053)
    摘要:
    随着Internet规模的迅速扩大,复杂性和不确定性也随之增加,基于融合的网络态势感知必将成为网络管理的发展方向.在分析现有网络管理不足以及发展需求的基础上,介绍了网络态势感知的起源、概念、目标和特点.首先,提出了一个网络态势感知研究框架,介绍了研究历程,指出了研究重点以及存在的问题,并将现有评估方法分为3类:基于数学模型的方法、基于知识推理的方法、基于模式识别的方法.然后详细讨论了模型、知识表示和评估方法这3方面的研究内容,总结存在的共性问题,着重评价了每种评估方法的基本思路、评估过程和优缺点,并进行了对比分析.随后介绍了网络态势感知在安全、传输、生存性、系统评价等领域的应用研究.最后指出了网络态势感知的发展方向,并从问题体系、技术体系和应用体系3方面作了总结.
    2020,31(7):2245-2282, DOI:10.13328/j.cnki.jos.006037
    [摘要] (2052) [HTML] (196) [PDF 967.02 K] (14868)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2009,20(3):567-582, DOI:
    [摘要] (7537) [HTML] (0) [PDF 780.38 K] (14809)
    摘要:
    关于软件质量模型和软件质量评估模型的研究,一直是软件质量保障和评估领域的研究热点,国内外在这两方面进行了大量的研究,并取得了一定的研究成果.近年来,以操作系统为核心的基础软件呈平台化、体系化的发展趋势,基础软件平台的质量评估成为亟待解决的问题.在总结、分析软件质量模型、软件质量评估模型研究发展现状的基础上,重点归纳和描绘了基础软件平台的质量评估发展历程,并简要探讨了基础软件平台质量评估研究的发展方向,力求为展开基础软件平台的质量评估建立良好的基础.
    2007,18(1):146-156, DOI:
    [摘要] (9213) [HTML] (0) [PDF 728.16 K] (14743)
    摘要:
    提出了旨在提高内容传递网络服务性能的代理放置策略CCSP(capacity-constrained surrogate placement).CCSP在保证最大化系统吞吐量的条件下,以最小化系统通信开销为目标,求解最优的代理放置方式.与通信网络中的资源分配问题现有求解策略不同,CCSP通过模拟内容传递网络的请求路由机制,考虑了代理服务器的负载分布及处理能力约束,从而保证系统具有最低的资源消耗、最大的吞吐能力和良好的负载均衡.提出了高效的贪婪算法用以求解树型网络条件下的CCSP问题,并通过仿真实验系统地分析了算法的有效性.
    2010,21(5):916-929, DOI:
    [摘要] (11333) [HTML] (0) [PDF 944.50 K] (14555)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (13374) [HTML] (0) [PDF 946.37 K] (14416)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2009,20(6):1425-1443, DOI:
    [摘要] (9350) [HTML] (0) [PDF 1.09 M] (14246)
    摘要:
    软件错误注入测试(software fault injection testing,简称SFIT)技术经过近30年的发展,一直是软件测试领域最活跃的研究内容之一.作为一种非传统的测试技术,在提高软件质量、减少软件危害及改进软件开发过程等方面起着重要作用.对软件错误注入测试的研究现状及动态进行了调研,对该领域相关技术进行了归类及介绍,并对当前较为有效的测试框架和原型工具进行了总结,同时介绍了正在研发的基于SFIT技术的构件安全性测试系统CSTS.在认真分析现有技术的基础上,总结了当前软件错误注入测试存在的问
    2011,22(1):132-148, DOI:10.3724/SP.J.1001.2011.03899
    [摘要] (8983) [HTML] (0) [PDF 852.82 K] (14214)
    摘要:
    互联网已成为现代社会的重要信息基础设施,然而网络环境的并发性使得传统程序设计方法在开发高质量的网络程序时遇到了许多困难,严重影响了开发效率.并发问题对网络程序开发复杂度的影响可以类比多核处理器带来的“软件并发危机”,然而其中的并发问题却远远没有得到应有的重视.网络并发问题目前并不存在普适的应对方法,甚至在不同方法之间存在明显的争论.简要介绍了各种基本的并发模型及其常见的实现方法,并在此基础上着重分析了现有方法的内在复杂性,对比各种方法的优势与劣势,最后展望可能的研究和发展方向.
    2006,17(2):216-222, DOI:
    [摘要] (4822) [HTML] (0) [PDF 495.06 K] (14201)
    摘要:
    在图像模板匹配问题中,基于像素灰度值的相关算法尽管已经十分普遍,并得到广泛的应用,但目前此类算法都还存在有时间复杂度高、对图像亮度与尺寸变化敏感等缺点.为了克服这些缺点,提出一种新的基于图像灰度值的编码表示方法.这种方法将图像分割为一定大小的方块(称为R-块),计算每个R-块图像的总灰度值,并根据它与相邻R-块灰度值的排序关系进行编码.然后通过各个R-块编码值的比较,实现图像与模板的匹配新算法中各个R-块编码的计算十分简单;匹配过程只要对编码值进行相等比较,而且可以采用快速的比较算法新算法对像素灰度的变化与噪声具有鲁棒性,其时间复杂度是O(M2log(N)).实验结果表明,新算法比现有的灰度相关算法的计算时间快了两个数量级.