• 当期目录
  • 优先出版
  • 过刊浏览
  • 点击排行
  • 下载排行
  • 综述文章
  • 专刊文章
  • 分辑系列
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2023,34(10):4439-4462, DOI: 10.13328/j.cnki.jos.006884
    [摘要] (962) [HTML] (0) [PDF 3.27 M] (1175)
    摘要:
    信息系统的发展目前正处于感知智能迈向认知智能的关键阶段,传统信息系统难以满足发展要求,数字化转型势在必行.数字线索(digital thread)是面向全生命周期的数据处理框架,通过连接生命周期的各阶段数据,实现物理世界与数字空间的映射与分析.知识图谱(knowledge graph)是结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系,通过知识驱动形成体系化的构建与推理流程.两者对知识赋能的信息系统研究具有重要意义.综述了知识赋能的新一代信息系统的研究现状、发展与挑战.首先,从数字线索系统出发,介绍数字线索的概念和发展,分析数字线索的六维数据构成和6个数据处理阶段;然后介绍知识图谱系统,给出普遍认同的知识图谱的定义和发展,概括知识图谱的架构与方法;最后,分析和探索数字线索与知识图谱结合的方向,列举KG4DT (knowledge graph for digital thread)和DT4KG (digital thread for knowledge graph)的受益方向,对未来知识赋能的新一代信息系统提出开放问题.
    2023,34(10):4463-4476, DOI: 10.13328/j.cnki.jos.006881
    [摘要] (899) [HTML] (0) [PDF 2.31 M] (915)
    摘要:
    近年来,将卷积神经网络推广到图数据上的图卷积神经网络引起了广泛关注,主要包括重新定义图的卷积和池化操作.由于图数据只能表达二元关系的局限性,使其在实际应用中表现欠佳.相比之下,超图能够捕获数据的高阶相关性,利用其灵活的超边易于处理复杂的数据表示.然而,现有的超图卷积神经网络还不够成熟,目前尚无有效的超图池化操作.因此,提出了带有自注意机制的超图池化网络,使用超图结构建模,通过引入自注意力的超图卷积操作学习带有高阶数据信息的节点隐藏层特征,再经过超图池化操作选择并保留在结构和内容上的重要节点,进而得到更准确的超图表示.在文本分类、菜肴分类和蛋白质分类任务上的实验结果表明:与目前多种主流方法相比,该方法均取得了更好的效果.
    2023,34(10):4477-4500, DOI: 10.13328/j.cnki.jos.006883
    [摘要] (1003) [HTML] (0) [PDF 3.68 M] (827)
    摘要:
    异质图神经网络作为一种异质图表示学习的方法,可以有效地抽取异质图中的复杂结构与语义信息,在节点分类和连接预测任务上取得了优异的表现,为知识图谱的表示与分析提供了有力的支撑.现有的异质图由于存在一定的噪声交互或缺失部分交互,导致异质图神经网络在节点聚合、更新时融入错误的邻域特征信息,从而影响模型的整体性能.为解决该问题,提出了多视图对比增强的异质图结构学习模型.该模型首先利用元路径保持异质图中的语义信息,并通过计算每条元路径下节点之间特征相似度生成相似度图,将其与元路径图融合,实现对图结构的优化.通过将相似度图与元路径图作为不同视图进行多视图对比,实现无监督信息的情况下优化图结构,摆脱对监督信号的依赖.最后,为解决神经网络模型在训练初期学习能力不足、生成的图结构中往往存在错误交互的问题,设计了一个渐进式的图结构融合方法.通过将元路径图和相似度图递增地加权相加,改变图结构融合过程中相似度图所占的比例,在抑制了因模型学习能力弱引入过多的错误交互的同时,达到了用相似度图中的交互抑制原有干扰交互或补全缺失交互的目的,实现了对异质图结构的优化.选择节点分类与节点聚类作为图结构学习的验证任务,在4种真实异质网络数据集上的实验结果,也表明该异质图结构学习方法是可行且有效的.与最优对比模型相比,该模型在两种任务下的性能均有显著提升.
    2023,34(10):4501-4517, DOI: 10.13328/j.cnki.jos.006887
    [摘要] (780) [HTML] (0) [PDF 2.88 M] (764)
    摘要:
    知识图谱存储大量的结构化知识和丰富的语义信息,已被广泛应用于知识驱动的智能软件.随着智能应用的不断发展,它们对知识图谱的需求也在发生变化.而单一知识图谱往往具有数据不完备等缺点,难以满足需求.因此,支持新数据来源、融合多源知识已成为迫切需求.传统的知识图谱表示学习和应用范式只考虑单一图谱,忽视了不同图谱间的知识迁移.多源知识图谱联合训练虽然可以带来性能提升,但不支持新增知识图谱的拓展表示学习.鉴于此,提出了多源知识图谱终身表示学习的新范式.给定一个知识图谱序列,终身表示学习的目标是在学习新知识图谱的同时,从已学习的知识图谱与模型中获得知识迁移.为实现这一目标,提出了一个基于链接实体回放的多源知识图谱终身表示学习框架.首先,设计了一个以Transformer为编码器的知识图谱表示学习模型作为框架核心,利用关系相关性进行实体的链接预测;其次,提出了链接子图构造方法,基于实体对齐构建并回放新增知识图谱和已有知识图谱之间的链接子图进行终身学习和知识迁移;最后,采用动态结构方法,为每个知识图谱存储相应的模型参数快照来避免灾难性遗忘.多个链接预测基准数据集上的实验结果表明:所提出的表示学习模型可以取得最先进的性能,且提出的终身表示学习框架可以实现有效的知识迁移.
    2023,34(10):4518-4532, DOI: 10.13328/j.cnki.jos.006885
    [摘要] (678) [HTML] (0) [PDF 2.96 M] (901)
    摘要:
    时序知识图谱推理吸引了研究人员的极大关注.现有的时序知识图谱推理技术通过建模历史信息取得了巨大的进步.但是,时变性问题和不可见实体(关系)问题仍然是阻碍时序知识图谱推理模型性能进一步提升的两大挑战;而且由于需要对历史子图序列的结构信息和时间依赖信息进行建模,传统的基于嵌入的方法往往在训练和预测过程中具有较高的时间消耗,这极大地限制了推理模型在现实场景中的应用.针对以上困境,提出了一个用于时序知识图谱推理的频次统计网络,FS-Net.一方面,FS-Net不断基于最新的短期历史的事实频次统计,动态地为变化的时间戳上的预测生成时变的得分;另一方面,FS-Net基于当前时间戳上的事实频次统计,为预测补充历史不可见实体(关系);特别地,FS-Net不需要进行训练,而且具有极高的时间效率.在两个时序知识图谱基准数据集上的大量实验,表明了FS-Net相较于基准模型的巨大提升.
    2023,34(10):4533-4547, DOI: 10.13328/j.cnki.jos.006888
    [摘要] (813) [HTML] (0) [PDF 2.10 M] (722)
    摘要:
    知识超图是一种使用多元关系表示现实世界的异构图,但无论在通用领域还是垂直领域,现有的知识超图普遍存在不完整的情况.因此,如何通过知识超图中已有的链接推理缺失的链接,是一个具有挑战性的问题.目前,大多数研究使用基于多元关系的知识表示学习方法完成知识超图的链接预测任务,但这些方法仅从时间未知的超边中学习实体与关系的嵌入向量,没有考虑时间因素对事实动态演变的影响,导致在动态环境中的预测性能较差.首先,根据首次所提出的时序知识超图定义,提出时序知识超图链接预测模型,同时从实体角色、位置和时序超边的时间戳中学习实体的静态表征和动态表征,以一定比例融合后作为实体嵌入向量用于链接预测任务,实现对超边时序信息的充分利用.同时,从理论上证明模型具有完全表达性和线性空间复杂度.此外,通过上市公司的公开经营数据构建时序知识超图数据集CB67,并在该数据集上进行了大量实验评估.实验结果表明,模型能够在时序知识超图数据集上有效地执行链接预测任务.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2023-09-27 , DOI: 10.13328/j.cnki.jos.006967
    摘要:
    随着神经网络技术的快速发展, 其在自动驾驶、智能制造、医疗诊断等安全攸关领域得到了广泛应用, 神经网络的可信保障变得至关重要. 然而, 由于神经网络具有脆弱性, 轻微的扰动经常会导致错误的结果, 因此采用形式化验证的手段来保障神经网络安全可信是非常重要的. 目前神经网络的验证方法主要关注分析的精度, 而易忽略运行效率. 在验证一些复杂网络的安全性质时, 较大规模的状态空间可能会导致验证方法不可行或者无法求解等问题. 为了减少神经网络的状态空间, 提高验证效率, 提出一种基于过近似误差分治的神经网络形式化验证方法. 所提方法利用可达性分析技术计算非线性节点的上下界, 并采用一种改进的符号线性松弛方法减少了非线性节点边界计算过程中的过近似误差. 通过计算节点过近似误差的直接和间接影响, 将节点的约束进行细化, 从而将原始验证问题划分为一组子问题, 其混合整数规划(MILP)公式具有较少的约束数量. 所提方法已实现为工具NNVerifier, 并通过实验在经典的3个数据集上训练的4个基于ReLU的全连接基准网络进行性质验证和评估. 实验结果表明, NNVerifier的验证效率比现有的完备验证技术提高37.18%.
    优先出版日期:  2023-09-27 , DOI: 10.13328/j.cnki.jos.006972
    摘要:
    不一致数据子集修复问题是数据清洗领域的重要研究问题, 现有方法大多是基于完整性约束规则的, 采用最小删除元组数量原则进行子集修复. 然而, 这种方法没有考虑删除元组的质量, 导致修复准确性较低. 为此, 提出规则与概率相结合的子集修复方法, 建模不一致元组概率使得正确元组的平均概率大于错误元组的平均概率, 求解删除元组概率和最小的子集修复方案. 此外, 为了减小不一致元组概率计算的时间开销, 提出一种高效的错误检测方法, 减小不一致元组规模. 真实数据和合成数据上的实验结果验证所提方法的准确性优于现有最好方法.
    优先出版日期:  2023-09-27 , DOI: 10.13328/j.cnki.jos.006973
    摘要:
    近年来, 软件系统安全问题正引发越来越多的关注, 系统存在的安全威胁容易被攻击者所利用, 攻击者通常采用各种攻击技术诸如口令暴力破解、网络钓鱼、SQL注入等对系统进行攻击. 威胁建模是一种结构化分析、识别并处理威胁的方法, 传统的测试主要集中在测试代码缺陷, 处于软件开发后期, 不能很好地对接前期威胁建模分析成果以构建安全的软件, 业界威胁建模工具缺少进一步生成安全测试的功能. 为了应对此问题, 提出一种从威胁模型生成安全测试用例的框架, 并设计和实现工具原型. 为了便于测试, 对传统的攻击树模型进行改进, 对构建的模型进行规范性检查, 从该模型中可以自动生成测试线索. 根据攻击节点发生概率对测试线索进行评估, 优先检测概率较高的威胁的测试线索. 对防御节点进行评估, 选择收益性较高的防御方案缓解威胁, 以改进系统安全设计. 通过为攻击节点设置参数可以将测试线索转换成具体的测试用例. 在软件开发早期阶段以威胁建模识别出的威胁作为输入, 通过框架和工具可以生成测试, 指导后续的安全开发和安全测试设计, 将安全技术更好地嵌入到软件设计和开发之中. 案例研究部分将该框架和工具运用于极高危风险的安全测试生成, 并说明了其有效性.
    优先出版日期:  2023-09-27 , DOI: 10.13328/j.cnki.jos.006957
    摘要:
    FBC分组密码算法是入选2018年全国密码算法设计大赛第2轮的10个分组密码算法之一. FBC主要采用四分支两路Feistel结构设计, 是一个实现效率高的轻量级分组密码算法. 将FBC算法抽象为FBC模型, 并研究该模型的伪随机性和超伪随机性, 在FBC轮函数都是相互独立的随机函数的条件下, 给出能够与随机置换不可区分所需的最少轮数. 结论表明, 在选择明文攻击条件下, 4 轮FBC与随机置换不可区分, 因而具有伪随机性; 在自适应性选择明密文攻击条件下, 5轮FBC与随机置换不可区分, 因而具有超伪随机性.
    优先出版日期:  2023-09-27 , DOI: 10.13328/j.cnki.jos.006958
    摘要:
    小样本学习旨在模拟人类基于少数样例快速学习新事物的能力, 对解决样本匮乏情境下的深度学习任务具有重要意义. 但是, 在诸多计算资源有限的现实任务中, 模型规模仍可能限制小样本学习的广泛应用. 这对面向小样本学习的轻量化任务提出了现实的需求. 知识蒸馏作为深度学习领域广泛使用的辅助策略, 通过额外的监督信息实现模型间知识迁移, 在提升模型精度和压缩模型规模方面都有实际应用. 首先验证知识蒸馏策略在小样本学习模型轻量化中的有效性. 并结合小样本学习任务的特点, 针对性地设计两种新的小样本蒸馏方法: (1)基于图像局部特征的蒸馏方法; (2)基于辅助分类器的蒸馏方法. 在miniImageNet和TieredImageNet数据集上的相关实验, 证明所设计的新的蒸馏方法相较于传统知识蒸馏在小样本学习任务上具有显著优越性. 源代码请见https://github.com/cjy97/FSLKD.
    优先出版日期:  2023-09-27 , DOI: 10.13328/j.cnki.jos.006943
    摘要:
    机器人日益走进人们的日常生活, 也受到了国内外越来越多的关注. 机器人系统的一个重要特性是安全性, 增强机器人系统的安全性可以保护机器人免受恶意攻击者的入侵. 机器人操作系统的安全性是机器人系统安全性的重要组成部分. 虽然近年来研究人员针对机器人操作系统的安全性做了许多研究工作, 但遗憾的是, 安全性目前还没有得到足够的重视. 为了引起人们对机器人系统安全性更多的关注, 同时帮助人们快速了解当前主流机器人操作系统ROS (robot operating system)的安全性解决方案, 对ROS的安全性进行系统的调研和总结. 一方面, 深入分析ROS的安全特性, 总结ROS中已知的安全问题. 另一方面, 对近年来ROS安全性相关的研究进行分类分析和概括总结, 并从机密性、完整性和可用性这3个方面, 对众多ROS的安全性解决方案进行比较. 最后, 对ROS安全性研究的前景进行展望.
    优先出版日期:  2023-09-27 , DOI: 10.13328/j.cnki.jos.006998
    摘要:
    多模态情感分析是利用多种模态的主观信息对情感进行分析的一种多模态任务, 探索模态间的有效交互是多模态分析中的一项重要研究. 在最近的研究中发现, 由于模态的学习速率不平衡, 导致单个模态收敛时, 其余模态仍处于欠拟合的状态, 进而削弱了多模态协同决策的效果. 为了能更有效地将多种模态结合, 学习到更具有表达力的情感特征表示, 提出一种基于自适应权值融合的多模态情感分析方法. 所提方法分为两个阶段: 第1个阶段是根据不同模态的学习梯度差异自适应地改变单模态特征表示的融合权值, 实现动态调整模态学习速率的目的, 把该阶段称为B融合(balanced fusion). 第2个阶段是为了消除B融合的融合权值对任务分析的影响, 提出模态注意力探究模态对任务的贡献, 并根据贡献为各模态分配权重, 我们把该阶段称为A融合 (attention fusion). 用于情感分析的多模态表示由B融合和A融合的结果共同组成. 实验结果显示, 将B融合方法引入现有的多模态情感分析方法中, 能够有效提升现有方法对情感分析任务的分析准确度; 消融实验结果显示, 在B融合的基础上增加A融合方法能有效减小B融合权重对任务的影响, 有利于提升情感分析任务的准确度. 与现有的多模态情感分析模型相比, 所提方法结构更简单、运算时间更少, 且任务准确率优于对比模型, 表明所提方法在多模态情感分析任务中的高效性和优异性能.
    优先出版日期:  2023-09-27 , DOI: 10.13328/j.cnki.jos.006999
    摘要:
    揭示情绪之间的关系是认知心理学的一项重要基础研究. 从自然语言处理的角度来说, 探讨情绪之间的关系的关键在于得到合适的情绪类别的嵌入式表示. 最近, 在情感空间中获得一个可以表征情绪关系的类别表示已经引起了一些关注. 然而, 现有的情绪类别嵌入方法存在以下几个缺点. 比如固定维度, 情绪类别表示的维度依赖于所选定的数据集. 为了取得一个更好的情绪类别表示, 引入监督对比学习的表示方法. 在之前的监督对比学习方法中, 样本之间的相似性取决于样本所标注的标签的相似性. 为了更好地反映出不同情绪类别之间的复杂关系, 进一步提出部分相似的监督对比学习表示方法, 认为不同情绪类别(比如情绪anger和annoyance)的样本之间也可能是部分相似的. 最后, 组织一系列实验来验证所提方法以及其他5个基准方法在表述情绪类别之间关系的能力. 实验结果表明, 所提方法取得了理想的情绪类别表示结果.
    优先出版日期:  2023-09-20 , DOI: 10.13328/j.cnki.jos.006955
    摘要:
    睡眠过程中的人体呼吸波形检测对于智慧康养和医疗保健应用至关重要, 结合不同的呼吸波形模式可以实现睡眠质量分析和呼吸系统疾病检测. 传统基于接触式设备的呼吸感知方法会给用户带来诸多不便, 与其相比, 非接触式感知方法更适合进行连续性监测. 然而, 在睡眠过程中由于设备部署、睡眠姿态以及人体运动都具有随机性, 严重限制了非接触呼吸感知方案在日常生活中的使用. 为此, 提出一种基于脉冲超宽带(impulse radio-ultra wide band, IR-UWB)的睡眠状态下人体呼吸波形检测方法. 所提方法以睡眠状态下人体呼吸时其胸腔起伏导致无线脉冲信号传播路径的周期性变化为基础, 进而生成细粒度的人体呼吸波形, 实现呼吸波形的实时输出以及呼吸速率的高精度估计. 首先, 为了从接收无线射频信号中获取人体呼吸时的胸腔位置, 提出一个基于IR-UWB信号的呼吸能量比指标来实现目标位置估计. 然后, 通过提出基于I/Q复平面的向量投影方法和基于呼吸向量圆周位置的投影信号选择方法, 从反射信号中提取到人体呼吸特征波形. 最后, 结合变分编码器-解码器网络来实现睡眠状态下细粒度的呼吸波形恢复. 通过在不同条件下进行大量实验测试, 结果表明所提方法在睡眠状态下监测的人体呼吸波形与商用呼吸带获得的真实波形高度相似, 其呼吸速率的平均估计误差为0.229 bpm, 可实现高精度的睡眠状态下人体呼吸波形检测.
    优先出版日期:  2023-09-20 , DOI: 10.13328/j.cnki.jos.006956
    摘要:
    对于安全可靠的机器学习系统, 具备检测训练集分布外 (out-of-distribution, OOD) 样本的能力十分必要. 基于似然的生成式模型由于训练时不需要样本标签, 是一类非常受欢迎的OOD检测方法. 然而, 近期研究表明通过似然来检测OOD样本往往会失效, 并且失效原因与解决方案的探究仍较少, 尤其是对于文本数据. 从模型层面和数据层面分析文本上失效的原因: 生成式模型的泛化性不足和文本先验概率的偏差. 在此基础上, 提出一种新的OOD文本检测方法Pobe. 针对生成式模型泛化性不足的问题, 引入KNN检索的方式, 来提升模型的泛化性. 针对文本先验概率偏差的问题, 设计一种偏差校准策略, 借助预训练语言模型改善概率偏差对OOD检测的影响, 并通过贝叶斯定理证明策略的合理性. 通过在广泛的数据集上进行实验, 证明所提方法的有效性, 其中, 在8个数据集上的平均AUROC值超过99%, FPR95值低于1%.
    优先出版日期:  2023-09-20 , DOI: 10.13328/j.cnki.jos.006838
    摘要:
    打卡可能出于私人目的, 没有组织关联, 比如记录个人的旅行日志; 也可能是公事需求, 属于组织考勤的一部分, 有时还会与多个组织关联. 因此, 打卡数据的保存、分享和分析需要精细化管理. HAO打卡是一个移动式轻量级打卡平台, 以个人和组织为两个抓手, 以人类智能(HI)、人工智能(AI)和组织智能(OI)相结合的HAO智能为技术驱动, 构建HAO打卡知识图谱, 通过提出HAO打卡闭环权限管理架构, 并辅以从粗粒度到细粒度的隐私权限管理办法, 在进行精细化考勤管理的同时保护用户的隐私, 从而推动新一代打卡系统的智能化变革. 在组织考勤分析方面, 提出四要素得分法和四要素考勤报表法, 通过打卡数据计算员工考勤得分, 生成精准全面的考勤报表, 为组织提供决策支持, 激发组织和个人的活力, 以组织智能成就智能组织.
    优先出版日期:  2023-09-13 , DOI: 10.13328/j.cnki.jos.006959
    摘要:
    Python语言的开放性和易用性使其成为最常用的编程语言之一. 其形成的PyPI生态系统在为开发者提供便利的同时, 也成为攻击者进行漏洞攻击的重要目标. 在发现Python漏洞之后, 如何准确、全面地评估漏洞影响范围是应对Python漏洞的关键. 然而当前的Python漏洞影响范围评估方法主要依靠包粒度的依赖关系分析, 会产生大量误报; 现有的函数粒度的Python程序分析方法由于上下文不敏感等导致存在准确性问题, 应用于实际的漏洞影响范围评估也会产生误报. 提出一种基于静态分析的面向PyPI生态系统的漏洞影响范围评估方法PyVul++. 首先构建PyPI生态系统的索引, 然后通过漏洞函数识别发现受漏洞影响的候选包, 进一步通过漏洞触发条件验证漏洞包, 实现函数粒度的漏洞影响范围评估. PyVul++改进了Python代码函数粒度的调用分析能力, 在基于PyCG的测试集上的分析结果优于其他工具(精确率86.71%, 召回率83.20%). 通过PyVul++对10个Python CVE漏洞进行PyPI生态系统(385855个包)影响范围评估, 相比于pip-audit等工具发现了更多漏洞包且降低了误报. 此外, 在10个Python CVE漏洞影响范围评估实验中, PyVul++新发现了目前PyPI生态系统中仍有11个包存在引用未修复的漏洞函数的安全问题.
    优先出版日期:  2023-09-13 , DOI: 10.13328/j.cnki.jos.006964
    摘要:
    域名是实施网络犯罪行为的重要环节, 现有的恶意域名检测方法一方面难以利用丰富的拓扑和属性信息, 另一方面需要大量的标签数据, 检测效果受限而成本较高. 针对该问题, 提出一种基于图对比学习的恶意域名检测方法, 以域名和IP地址作为异构图的两类节点并根据其属性建立对应节点的特征矩阵, 依据域名之间的包含关系、相似度度量以及域名和IP地址之间对应关系构建3种元路径; 在预训练阶段, 使用基于非对称编码器的对比学习模型, 避免图数据增强操作对图结构和语义的破坏, 也降低对计算资源的需求; 使用归纳式的图神经网络图编码器HeteroSAGE和HeteroGAT, 采用以节点为中心的小批量训练模式来挖掘目标节点和邻居节点的聚合关系, 避免GCN等直推式图神经网络在动态场景下适用性较差的问题; 下游分类检测任务则对比使用了逻辑回归、随机森林等算法. 在公开数据上的实验结果表明检测性能相比已有工作提高2–6个百分点.
    优先出版日期:  2023-09-13 , DOI: 10.13328/j.cnki.jos.006948
    摘要:
    遗忘是人工神经网络在增量学习中的最大问题, 被称为“灾难性遗忘”. 而人类可以持续地获取新知识, 并能保存大部分经常用到的旧知识. 人类的这种能持续“增量学习”而很少遗忘是与人脑具有分区学习结构和记忆回放能力相关的. 为模拟人脑的这种结构和能力, 提出一种“避免近期偏好的自学习掩码分区增量学习方法”简称ASPIL. 它包含“区域隔离”和“区域集成”两阶段, 二者交替迭代实现持续的增量学习. 首先, 提出“BN稀疏区域隔离” 方法, 将新的学习过程与现有知识隔离, 避免干扰现有知识; 对于“区域集成”, 提出自学习掩码(SLM)和双分支融合(GBF)方法. 其中SLM准确提取新知识, 并提高网络对新知识的适应性, 而GBF将新旧知识融合, 以达到建立统一的、高精度的认知的目的; 训练时, 为确保进一步兼顾旧知识, 避免对新知识的偏好, 提出间隔损失正则项来避免“近期偏好”问题. 为评估以上所提出方法的效用, 在增量学习标准数据集CIFAR-100和miniImageNet上系统地进行消融实验, 并与最新的一系列知名方法进行比较. 实验结果表明, 所提方法提高了人工神经网络的记忆能力, 与最新知名方法相比识别率平均提升5.27%以上.
    优先出版日期:  2023-09-13 , DOI: 10.13328/j.cnki.jos.006949
    摘要:
    深度神经网络训练时可能会受到精心设计的后门攻击的影响. 后门攻击是一种通过在训练集中注入带有后门标志的数据, 从而实现在测试时控制模型输出的攻击方法. 被进攻的模型在干净的测试集上表现正常, 但在识别到后门标志后, 就会被误判为目标进攻类. 当下的后门攻击方式在视觉上的隐蔽性并不够强, 并且在进攻成功率上还有提升空间. 为了解决这些局限性, 提出基于奇异值分解的后门攻击方法. 所提方法有两种实现形式: 第1种方式是将图片的部分奇异值直接置零, 得到的图片有一定的压缩效果, 这可以作为有效的后门触发标志物. 第2种是把进攻目标类的奇异向量信息注入到图片的左右奇异向量中, 也能实现有效的后门进攻. 两种处理得到的后门的图片, 从视觉上来看和原图基本保持一致. 实验表明, 所提方法证明奇异值分解可以有效地利用在后门攻击算法中, 并且能在多个数据集上以非常高的成功率进攻神经网络.
    优先出版日期:  2023-09-13 , DOI: 10.13328/j.cnki.jos.006945
    摘要:
    Jacobi计算是一种模板计算, 在科学计算领域具有广泛的应用. 围绕Jacobi计算的性能优化是一个经典的课题, 其中循环分块是一种较有效的优化方法. 现有的循环分块主要关注分块对并行通信和程序局部性的影响, 缺少对负载均衡和向量化等其他因素的考虑. 面向多核计算架构, 分析比较不同分块方法, 并选择一种先进的六边形分块作为加速Jacobi计算的主要方法. 在分块大小选择上, 综合考虑分块对程序向量化效率、局部性和计算核负载均衡等多方面的影响, 提出一种六边形分块大小选择算法Hexagon_TSS. 实验表明所提算法相对原始串行程序计算方法, 最好情况可将L1数据缓存失效率降低至其5.46%, 最大加速比可达24.48, 并且具有良好的可扩展性.
    优先出版日期:  2023-09-13 , DOI: 10.13328/j.cnki.jos.006946
    摘要:
    在自动驾驶、增强现实和智能移动机器人领域, 视觉重定位是非常重要的基础问题. 视觉重定位是指根据视觉传感器实时拍摄的数据, 在已有先验地图中确定位置和姿态的问题. 过去数十年间, 该问题受到广泛关注, 涌现出种类繁多的先验地图构建方法和视觉重定位方法. 这些工作差异大, 涉及范围广, 技术概括和总结尚缺乏. 因此, 对视觉重定位领域进行综述具有重要的理论和应用价值. 尝试为视觉重定位相关方法建立一个统一的蓝图, 从图像数据在大规模地图数据库中查询的角度对相关工作进行分析和总结. 综述不同类型地图数据库构建方法、不同特征匹配、重定位和位姿计算方法, 总结目前视觉重定位的主流数据集, 最后分析视觉重定位存在的挑战和潜在发展方向.
    优先出版日期:  2023-09-13 , DOI: 10.13328/j.cnki.jos.006947
    摘要:
    软件变更预测旨在识别出具有变更倾向的模块, 可以帮助软件管理者和开发人员有效地分配资源, 降低维护开销. 从代码中提取有效的特征在构建准确的预测模型中起着重要作用. 近年来, 研究人员从利用传统的手工特征进行预测转向具有强大表示能力的语义特征, 他们从抽象语法树(abstract syntax tree, AST)的节点序列中提取语义特征构建模型. 但已有研究忽略了AST的结构信息以及代码中丰富的语义信息, 如何提取代码的语义特征仍然是一个具有挑战性的问题. 为此, 提出一种基于混合图表示的变更预测方法. 该模型首先结合AST、控制流图(control flow graph, CFG)、数据流图(data flow graph, DFG)等结构信息构建代码的程序图表示, 接着利用图神经网络学习出程序图的语义特征, 根据该特征预测变更倾向性. 所提模型能够融合各种语义信息以更好地表征代码. 在多组变更数据集上开展与最新变更预测方法的对比实验, 验证了所提方法的有效性.
    优先出版日期:  2023-09-13 , DOI: 10.13328/j.cnki.jos.006928
    摘要:
    检测训练集分布之外的分布外(out-of-distribution, OOD)样本对于深度神经网络(deep neural network, DNN)分类器在开放环境的部署至关重要. 检测OOD样本可以视为一种二分类问题, 即把输入样本分类为“分布内(in-distribution, ID)”类或“分布外”类. 进一步地, 检测器自身还可能遭受到恶意的对抗攻击而被再次绕过. 这些带有恶意扰动的OOD样本称为对抗OOD样本. 构建鲁棒的OOD检测器以检测对抗OOD样本是一项更具挑战性的任务. 为习得可分离且对恶意扰动鲁棒的表示, 现有方法往往利用辅助的干净OOD样本邻域内的对抗OOD样本来训练DNN. 然而, 由于辅助的OOD训练集与原ID训练集的分布差异, 训练对抗OOD样本无法足够有效地使分布内决策边界对对抗扰动真正鲁棒. 从ID样本的邻域内生成的对抗ID样本拥有与原ID样本近乎一样的语义信息, 是一种离分布内区域更近的OOD样本, 对提升分布内边界对对抗扰动的鲁棒性很有效. 基于此, 提出一种半监督的对抗训练方法——谛听, 来构建鲁棒的OOD检测器, 用以同时检测干净OOD样本和对抗OOD样本. 谛听将对抗ID样本视为一种辅助的“近”-OOD样本, 并将其与其他辅助的干净OOD样本和对抗OOD样本联合训练DNN, 以提升OOD检测的鲁棒性. 实验结果表明, 谛听在检测由强攻击生成的对抗OOD样本上具有显著的优势, 同时在原分类主任务及检测干净OOD样本上保持先进的性能. 开源地址: https://gitee.com/zhiyang3344/diting.
    优先出版日期:  2023-09-06 , DOI: 10.13328/j.cnki.jos.006963
    摘要:
    属性级情感分类任务旨在判断句子针对给定属性的情感极性, 因其广泛应用而备受关注. 该任务的关键在于识别给定属性相关的上下文描述, 并根据上下文内容判断发文者针对相应属性的情感倾向. 统计发现, 大约30%的评论中并不包含关于给定属性的明确情感描述, 但仍然传达了清晰的情感倾向, 这被称为隐式情感表达. 近年来, 基于注意力机制的神经网络方法在情感分析中得到了成功应用. 但该类方法只能捕捉属性相关的显式情感描述, 而缺乏对隐含情感的有效分析和挖掘, 且往往将属性词与句子上下文分别建模, 使得属性词的表示缺乏上下文语义. 针对以上两个问题, 提出一种交叉融合属性局部和句子全局上下文信息的属性级情感分类方法, 并根据隐式和显式情感表达句子不同的分类难度采用课程学习提高模型的分类性能. 实验表明, 所提方法不仅对显式情感表达句子的属性情感倾向识别准确率高, 而且能够有效学习隐式情感表达句子的情感类别.
    优先出版日期:  2023-09-06 , DOI: 10.13328/j.cnki.jos.006969
    摘要:
    优先级用于解决诸如在资源共享和安全设计等方面的冲突, 已经成为实时系统设计中不可或缺的一部分. 对于引入优先级的实时系统, 每个任务都会被分配优先级, 这就导致低优先级的任务在运行时可能会被高优先级的任务抢占资源, 进而给实时系统带来抢占式调度问题. 现有研究, 缺乏一种可以直观表示任务的优先级以及任务之间的依赖关系的建模及自动验证方法. 为此, 提出抢占式优先级时间自动机(PPTA)并引入抢占式优先级时间自动机网络(PPTAN). 首先, 通过在时间自动机上添加变迁的优先级来表示任务的优先级, 再利用变迁将具有依赖关系的任务相关联, 从而可以利用PPTA建模带有优先级的实时任务. 在时间自动机上添加阻塞位置, 进而利用PPTAN建模优先级抢占式调度问题. 其次, 提出基于模型的转换方法, 将抢占式优先级时间自动机映射到自动验证工具UPPAAL中. 最后, 通过建模多核多任务实时系统实例并与其他模型进行对比, 说明所提模型不仅适用于建模优先级抢占式调度问题并可对其进行准确验证分析.
    优先出版日期:  2023-09-06 , DOI: 10.13328/j.cnki.jos.006979
    摘要:
    原型网络直接应用于小样本命名实体识别(few-shot named entity recognition, FEW-NER)时存在以下问题: 非实体之间不具有较强的语义关系, 对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征; 仅使用平均实体向量表示作为原型的计算方式将难以捕捉语义特征相差较大的同类实体. 针对上述问题, 提出基于细粒度原型网络的小样本命名实体识别(FEW-NER based on fine-grained prototypical networks, FNFP)方法, 有助于提高小样本命名实体识别的标注效果. 首先, 为不同的查询集样本构造不同的非实体原型, 捕捉句子中关键的非实体语义特征, 得到更为细粒度的原型, 提升模型对非实体的识别效果; 然后, 设计一个不一致性度量模块以衡量同类实体之间的不一致性, 对实体与非实体采用不同的度量函数, 从而减小同类样本之间的特征表示, 提升原型的特征表示能力; 最后, 引入维特比解码器捕捉标签转换关系, 优化最终的标注序列. 实验结果表明, 采用基于细粒度原型网络的小样本命名实体识别方法, 在大规模小样本命名实体识别数据集FEW-NERD上, 较基线方法获得提升; 同时在跨领域数据集上验证所提方法在不同领域场景下的泛化能力.
    优先出版日期:  2023-09-06 , DOI: 10.13328/j.cnki.jos.006980
    摘要:
    软件在开发和维护过程中会产生大量缺陷报告, 可为开发人员定位缺陷提供帮助. 基于信息检索的缺陷定位方法通过分析缺陷报告内容和源码文件的相似度来定位缺陷所在位置, 已在文件、函数等粗粒度级别上取得了较为精确的定位效果, 但由于其定位粒度较粗, 仍需要耗费大量人力和时间成本检查可疑文件和函数片段. 为此, 提出一种基于历史缺陷信息检索的语句级软件缺陷定位方法STMTLocator, 首先检索出与被测程序缺陷报告相似度较高的历史缺陷报告, 并提取其中的历史缺陷语句; 然后根据被测程序源码文件与缺陷报告的文本相似度检索可疑文件, 并提取其中的可疑语句; 最后计算可疑语句与历史缺陷语句的相似度, 并进行降序排列, 以定位缺陷语句. 为评估STMTLocator的缺陷定位性能, 使用Top@NMRR等评价指标在基于Defects4J和JIRA构建的数据集上进行对比实验. 实验结果表明, 相比静态缺陷定位方法BugLocator, STMTLocator在MRR指标上提升近4倍, 在Top@1指标上多定位到7条缺陷语句; 相比动态缺陷定位方法Metallaxis和DStar, STMTLocator完成一个版本缺陷定位平均消耗的时间减少98.37%和63.41%, 且具有不需要设计和执行测试用例的显著优势.
    优先出版日期:  2023-09-06 , DOI: 10.13328/j.cnki.jos.006960
    摘要:
    基于图的无监督跨模态哈希学习具有存储空间小、检索效率高等优点, 受到学术界和工业界的广泛关注, 已成为跨模态检索不可或缺的工具之一. 然而, 图构造的高计算复杂度阻碍其应用于大规模多模态应用. 主要尝试解决基于图的无监督跨模态哈希学习面临的两个重要挑战: 1)在无监督跨模态哈希学习中如何高效地构建图? 2)如何解决跨模态哈希学习中的离散值优化问题? 针对这两个问题, 分别提出基于锚点图的跨模态学习和可微分哈希层. 具体地, 首先从训练集中随机地选择若干图文对作为锚点集, 利用该锚点集作为中介计算每批数据的图矩阵, 以该图矩阵指导跨模态哈希学习, 从而能极大地降低空间与时间开销; 其次, 提出的可微分哈希层可在网络前向传播时直接由二值编码计算, 在反向传播时亦可产生梯度进行网络更新, 而无需连续值松弛, 从而具有更好的哈希编码效果; 最后, 引入跨模态排序损失, 使得在训练过程中考虑排序结果, 从而提升跨模态检索正确率. 通过在3个通用数据集上与10种跨模态哈希算法进行对比, 验证了提出算法的有效性.
    优先出版日期:  2023-09-06 , DOI: 10.13328/j.cnki.jos.006950
    [摘要] (170) [HTML] (0) [PDF 9.66 M] (134)
    摘要:
    区块链技术被认为是构建价值互联网的基石, 然而彼此独立的区块链系统形成了数据、价值孤岛. 区块链互操作(也被称为跨链操作)是打破链间壁垒、构建区块链网络的关键技术. 在区分狭义与广义区块链互操作的基础上, 重新定义狭义区块链互操作, 并抽象出跨链读与跨链写两类基本操作; 分析总结实现狭义区块链互操作需要解决的3个关键技术问题: 跨链信息传输、跨链信任传递、跨链操作原子性保障; 系统梳理这3个问题的研究现状, 并分别从多角度进行比较; 在此基础上, 从关键技术问题的角度分析具有代表性的整体解决方案; 最后指出几个值得进一步探索的研究方向.
    优先出版日期:  2023-08-30 , DOI: 10.13328/j.cnki.jos.006944
    摘要:
    代码注释作为辅助软件开发群体协作的关键机制, 被开发者所广泛使用以提升开发效率. 然而, 由于代码注释并不直接影响软件运行, 使其常被开发者忽视, 导致出现代码注释质量问题, 进而影响开发效率. 代码注释中存在的质量问题会影响开发者理解相关代码, 甚至可能产生误解从而引入代码缺陷, 因此这一问题受到研究者的广泛关注. 采用系统文献调研, 对近年来国内外学者在代码注释质量问题上的研究工作进行系统的分析. 从代码注释质量的评价维度、度量指标以及提升策略这3方面总结研究现状, 并提出当前研究所存在的不足、挑战以及建议.
    优先出版日期:  2023-08-30 , DOI: 10.13328/j.cnki.jos.006923
    摘要:
    内核堆漏洞是目前操作系统安全的主要威胁之一, 用户层攻击者通过触发漏洞能够泄露或修改内核敏感信息, 破坏内核控制流, 甚至获取root权限. 但是由于漏洞的数量和复杂性剧增, 从漏洞首次被报告到开发者给出修复补丁(patch)往往需要较长时间, 而内核现阶段采用的缓解机制均能被稳定绕过. 为此提出一种基于eBPF的内核堆漏洞动态缓解框架, 用于在修复时间窗口中降低内核安全风险. 动态缓解框架采取数据对象空间随机化策略, 在每次分配时为漏洞报告中涉及的数据对象分配随机地址, 并充分利用eBPF的动态、安全特性将空间随机化对象在运行时注入内核, 使得攻击者无法准确放置攻击负载, 堆漏洞几乎无法被利用. 评估40个真实内核堆漏洞, 并收集12个绕过现有缓解机制的攻击程序进行进一步分析和实验, 证实动态缓解框架提供充足的安全性. 性能测试表明, 即使在严苛情况下大量分配的4类数据对象, 仅对系统造成约1%的性能损耗和可以忽略不计的内存损耗, 同时增加保护对象的数量几乎不引入额外性能损耗. 所提机制对比相关工作适用范围更广, 安全性更强, 而且无需安全专家发布的漏洞补丁, 可以根据漏洞报告生成缓解程序, 具备广阔应用前景.
    优先出版日期:  2023-08-30 , DOI: 10.13328/j.cnki.jos.006925
    摘要:
    正则表达式在计算机科学的许多领域具有广泛应用. 然而, 由于正则表达式语法比较复杂, 并且允许使用大量元字符, 导致开发人员在定义和使用时容易出错. 测试是保证正则表达式语义正确性的实用和有效手段, 常用的方法是根据被测表达式生成一些字符串, 并检查它们是否符合预期. 现有的测试数据生成大多只关注正例串, 而研究表明, 实际开发中存在的错误大部分在于定义的语言比预期语言小, 这类错误只能通过反例串才能发现. 研究基于变异的正则表达式反例测试串生成. 首先通过变异向被测表达式中注入缺陷得到一组变异体, 然后在被测表达式所定义语言的补集中选取反例字符串揭示相应变异体所模拟的错误. 为了能够模拟复杂缺陷类型, 以及避免出现变异体特化而无法获得反例串的问题, 引入二阶变异机制. 同时采取冗余变异体消除、变异算子选择等优化技术对变异体进行约简, 从而控制最终生成的测试集规模. 实验结果表明, 与已有工具相比, 所提算法生成的反例测试串规模适中, 并且具有较强的揭示错误能力.
    优先出版日期:  2023-08-30 , DOI: 10.13328/j.cnki.jos.006961
    摘要:
    缺陷定位获取并分析测试用例集的运行信息, 从而度量出各个语句为缺陷的可疑性. 测试用例集由输入域数据构建, 包含成功测试用例和失败测试用例两种类型. 由于失败测试用例在输入域分布不规律且比例很低, 失败测试用例数量往往远少于成功测试用例数量. 已有研究表明, 少量失败测试用例会导致测试用例集出现类别不平衡问题, 严重影响着缺陷定位有效性. 为了解决这个问题, 提出基于对抗生成网络的缺陷定位模型域数据增强方法. 该方法基于模型域(即缺陷定位频谱信息)而非传统输入域(即程序输入), 利用对抗生成网络合成覆盖最小可疑集合的模型域失败测试用例, 从模型域上解决类别不平衡的问题. 实验结果表明, 所提方法大幅提升了11种典型缺陷定位方法的效能.
    优先出版日期:  2023-08-30 , DOI: 10.13328/j.cnki.jos.006962
    摘要:
    随着互联网信息技术的高速发展, 线上学习资源的爆炸式增长引起了“信息过载”与“学习迷航”问题. 在缺乏专家指导的场景中, 用户难以明确自己的学习需求并从海量的学习资源中选择合适的内容进行学习. 教育领域推荐方法能够基于用户的历史学习行为提供学习资源的个性化推荐, 因此该方法近年来受到大量研究人员的广泛关注. 然而, 现有的教育领域推荐方法在学习需求感知时忽略了对知识点之间复杂关系的建模, 同时缺乏考虑用户学习需求的动态性变化, 导致推荐的学习资源不够精准. 针对上述问题, 提出一种基于静态与动态学习需求感知的知识点推荐方法, 通过静态感知与动态感知相结合的方式建模复杂知识关联下的用户学习行为. 对于静态学习需求感知, 创新性地设计一种基于知识点先修后继元路径引导的注意力图卷积网络, 通过建模知识点之间先修后继关系的复杂约束, 能够消除其他非学习需求因素的干扰, 从而精准地捕获用户在细粒度知识点层面上的静态学习需求; 对于动态学习需求感知, 所提方法以课程为单元聚合知识点嵌入以表征用户在不同时刻的知识水平, 然后采用循环神经网络建模编码用户的知识水平序列, 能够有效地挖掘用户知识水平变化中蕴含的动态学习需求; 最后, 对获得的静态与动态学习需求进行融合, 在同一框架下建模静态与动态学习需求之间的兼容性, 促进这两种学习需求相互补充, 以实现细粒度的个性化知识点推荐. 实验表明, 在两个公开数据集上, 所提方法能够有效地感知用户的学习需求并提供个性化的知识点推荐, 在多种评估指标上优于主流的推荐方法.
    优先出版日期:  2023-08-30 , DOI: 10.13328/j.cnki.jos.006942
    [摘要] (486) [HTML] (0) [PDF 1.38 M] (13526)
    摘要:
    网络协议软件部署和应用非常广泛, 在网络空间提供了诸如通信、传输、控制、管理等多样化的功能. 近年来, 其安全性逐渐受到学术界和工业界的重视, 及时发现和修补网络协议软件漏洞, 成为一项重要的课题. 网络协议软件由于部署形态多样、协议交互过程复杂、相同协议规范的多个协议实现存在功能差异等特点, 使得其漏洞挖掘技术面临诸多挑战. 首先对网络协议软件漏洞挖掘技术进行分类, 对已有关键技术的内涵进行界定. 其次, 进一步综述网络协议软件漏洞挖掘4个方面的技术进展, 包括网络协议描述方法、挖掘对象适配技术、模糊测试技术和基于程序分析的漏洞挖掘方法, 通过对比分析归纳不同方法的技术优势及评价维度. 最后, 总结网络协议软件漏洞挖掘的技术现状和挑战, 并提炼5个潜在研究方向.
    优先出版日期:  2023-08-30 , DOI: 10.13328/j.cnki.jos.006953
    摘要:
    测试用例集的缺陷检测有效性指测试集能够在多大程度上检测出软件中存在的缺陷. 如何评价测试集的缺陷检测有效性是一个重要问题. 覆盖率和变异得分是两个最重要和最广泛使用的测试集有效性度量. 为量化测试集的缺陷检测能力, 研究人员对测试集有效性评价进行了大量研究并且取得了较大的进展. 与此同时, 现有研究存在不一致的结论, 该领域依然存在一些亟待解决的挑战. 对多年来国内外学者在测试集有效性评价领域的研究成果进行系统性的梳理和总结. 首先, 阐述测试集有效性评价研究中的问题. 然后, 介绍并分析基于覆盖率和基于变异得分的测试集有效性的评价以及介绍测试集有效性评价在测试集优化中的应用. 最后, 指出测试集有效性评价研究中面临的挑战并给出建议的研究方向.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006926
    摘要:
    超图是普通图的泛化表示, 在许多应用领域都很常见, 包括互联网、生物信息学和社交网络等. 独立集问题是图分析领域的一个基础性研究问题, 传统的独立集算法大多都是针对普通图数据, 如何在超图数据上实现高效的最大独立集挖掘是一个亟待解决的问题. 针对这一问题, 提出一种超图独立集的定义. 首先分析超图独立集搜索的两个特性, 然后提出一种基于贪心策略的基础算法. 接着提出一种超图近似最大独立集搜索的剪枝框架即精确剪枝与近似剪枝相结合, 以精确剪枝策略缩小图的规模, 以近似剪枝策略加快搜索速度. 此外, 还提出4种高效的剪枝策略, 并对每种剪枝策略进行理论证明. 最后, 通过在10个真实超图数据集上进行实验, 结果表明剪枝算法可以高效地搜索到更接近于真实结果的超图最大独立集.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006927
    摘要:
    实体识别是信息抽取的关键技术. 相较于普通文本, 中文医疗文本的实体识别任务往往面对大量的嵌套实体. 以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法, 为此, 提出一种融合实体嵌套规则的中文实体识别方法. 所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务, 在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤, 从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律. 在公开的医疗文本实体识别的实验上取得良好的效果. 数据集上的实验表明, 所提方法在嵌套类型实体识别性能上显著优于已有的方法, 在整体准确率方面比最先进的方法提高0.5%.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006929
    摘要:
    匿名凭证作为一种隐私保护的数字身份认证技术, 在认证用户数字身份有效性的同时, 能够保护用户身份隐私, 广泛应用于匿名身份认证、匿名通证、去中心化的数字身份管理系统等. 现有的匿名凭证通常采用承诺-签名-证明的构造范式, 通常要求采用的签名算法具备重随机化特性, 如CL系列签名、PS系列签名及结构保持签名. 现实应用中多采用ECDSA、Schnorr、SM2等数字签名进行数字身份认证, 但其缺乏对用户身份隐私的保护. 因此, 在认证的同时, 保护身份的隐私性, 构造兼容ECDSA、Schnorr、SM2等数字签名的匿名凭证具有一定的现实意义. 探索基于SM2数字签名构造匿名凭证协议的方法. 在申请证书阶段, 借助Pedersen承诺对用户属性进行承诺, 同时依据SM2签名消息为$ H(m) $的结构特点, 证明Pedersen承诺消息与哈希承诺中消息的相等性. 为实现这种代数结构和非代数结构陈述的等价性证明, 借鉴ZKB++技术对承诺消息进行转化, 进而实现跨域证明, 并签发基于SM2数字签名的授权证书. 在匿名凭证展示阶段, 结合零知识证明技术证明持有SM2数字签名, 保证了用户的匿名性. 给出基于SM2数字签名的匿名凭证协议的具体构造, 并进一步证明该协议的安全性. 最后, 通过对协议的计算复杂度分析与算法执行效率测试验证协议的有效性和可用性.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006930
    摘要:
    斯诺登事件后, 以算法替换攻击为代表的后门攻击带来的威胁受到广泛关注. 该类攻击通过不可检测的篡改密码协议参与方的算法流程, 在算法中嵌入后门来获得秘密信息. 为协议参与方配置密码学逆向防火墙(cryptographic reverse firewall, CRF)是抵抗算法替换攻击的主要手段. 基于身份加密(identity based encryption, IBE)作为一种广泛应用的公钥加密体制, 亟需构建合适的CRF方案. 然而, 已有工作仅实现了CRF再随机化的功能, 忽视了将用户私钥直接发送给作为第三方的CRF的安全风险. 针对上述问题, 首先给出适用于IBE的CRF安全性质的形式化定义和安全模型. 其次提出可再随机化且密钥可延展的无安全信道IBE (rerandomizable and key-malleable secure channel free IBE, RKM-SFC-IBE)的形式化定义并给出传统IBE转化为RKM-SFC-IBE以及增加匿名性的方法. 最后基于RKM-SFC-IBE给出对应CRF的一般性构造方法, 并给出标准模型下IBE方案的CRF构造实例与性能优化方法. 与已有工作相比, 提出完备的适用于IBE的CRF安全模型, 给出一般构造方法, 明确为表达力更强的加密方案构造CRF时的基本原则.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006931
    摘要:
    对于合同文本中要素和条款两类信息的准确提取, 可以有效提升合同的审查效率, 为贸易各方提供便利化服务. 然而当前的合同信息抽取方法一般训练单任务模型对要素和条款分别进行抽取, 并没有深挖合同文本的特征, 忽略了不同任务间的关联性. 因此, 采用深度神经网络结构对要素抽取和条款抽取两个任务间的相关性进行研究, 并提出多任务学习方法. 所提方法首先将上述两种任务进行融合, 构建一种应用于合同信息抽取的基本多任务学习模型; 然后对其进行优化, 利用Attention机制进一步挖掘其相关性, 形成基于Attention机制的动态多任务学习模型; 最后针对篇章级合同文本中复杂的语义环境, 在前两者的基础上提出一种融合词汇知识的动态多任务学习模型. 实验结果表明, 所提方法可以充分捕捉任务间的共享特征, 不仅取得了比单任务模型更好的信息抽取结果, 而且能够有效解决合同文本中要素与条款间实体嵌套的问题, 实现合同要素与条款的信息联合抽取. 此外, 为了验证该方法的鲁棒性, 在多个领域的公开数据集上进行实验, 结果表明该方法的效果均优于基线方法.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006932
    摘要:
    对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本, 敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本. 研究对抗文本生成方法, 能对深度神经网络的鲁棒性进行评价, 并助力于模型后续的鲁棒性提升工作. 当前针对中文文本设计的对抗文本生成方法中, 很少有方法将鲁棒性较强的中文BERT模型作为目标模型进行攻击. 面向中文文本分类任务, 提出一种针对中文BERT的攻击方法Chinese BERT Tricker. 该方法使用一种汉字级词语重要性打分方法——重要汉字定位法; 同时基于掩码语言模型设计一种包含两类策略的适用于中文的词语级扰动方法实现对重要词语的替换. 实验表明, 针对文本分类任务, 所提方法在两个真实数据集上均能使中文BERT模型的分类准确率大幅下降至40%以下, 且其多种攻击性能明显强于其他基线方法.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006933
    [摘要] (330) [HTML] (0) [PDF 12.81 M] (162)
    摘要:
    图数据, 如引文网络, 社交网络和交通网络, 广泛地存在现实生活中. 图神经网络凭借强大的表现力受到广泛关注, 在各种各样的图分析应用中表现卓越. 然而, 图神经网络的卓越性能得益于标签数据和复杂的网络模型, 而标签数据获取困难且计算资源代价高昂. 为了解决数据标签的稀疏性和模型计算的高复杂性问题, 知识蒸馏被引入到图神经网络中. 知识蒸馏是一种利用性能更好的大模型(教师模型)的软标签监督信息, 来训练构建的小模型(学生模型), 以期达到更好的性能和精度. 因此, 如何面向图数据应用知识蒸馏技术成为重大研究挑战, 但目前尚缺乏对于图知识蒸馏研究的综述. 旨在对面向图的知识蒸馏进行全面综述, 首次系统地梳理现有工作, 弥补该领域缺乏综述的空白. 具体而言, 首先介绍图和知识蒸馏背景知识; 然后, 全面梳理3类图知识蒸馏方法, 分别是面向深度神经网络的图知识蒸馏、面向图神经网络的图知识蒸馏和基于图知识的模型自蒸馏方法, 并对每类方法进一步划分为基于输出层、基于中间层和基于构造图知识方法; 随后, 分析比较各类图知识蒸馏算法的设计思路, 结合实验结果总结各类算法的优缺点; 此外, 还列举图知识蒸馏在计算机视觉、自然语言处理、推荐系统等领域的应用; 最后对图知识蒸馏的发展进行总结和展望. 还将整理的图知识蒸馏相关文献公开在GitHub平台上, 具体参见: https://github.com/liujing1023/Graph-based-Knowledge-Distillation.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006935
    [摘要] (171) [HTML] (0) [PDF 6.23 M] (213)
    摘要:
    随着现代软件规模不断扩大, 软件漏洞给计算机系统和软件的安全运行、可靠性造成了极大的威胁, 进而给人们的生产生活造成巨大的损失. 近年来, 随着开源软件的广泛使用, 其安全问题受到广泛关注. 漏洞感知技术可以有效地帮助开源软件用户在漏洞纰漏之前提前感知到漏洞的存在, 从而进行有效防御. 与传统软件的漏洞检测不同, 开源漏洞的透明性和协同性给开源软件的漏洞感知带来巨大的挑战. 因此, 有许多学者和从业人员提出多种技术从代码和开源社区中感知开源软件中潜在的漏洞和风险, 以尽早发现开源软件中的漏洞从而降低漏洞所带来的损失. 为了促进开源软件漏洞感知技术的发展, 对已有研究成果进行系统的梳理、总结和点评. 选取45篇开源漏洞感知技术的高水平论文, 将其分为3大类: 基于代码的漏洞感知技术、基于开源社区讨论的漏洞感知技术和基于软件补丁的漏洞感知技术, 并对其进行系统地梳理、归纳和总结. 值得注意的是, 根据近几年最新研究的总结, 首次提出基于开源软件漏洞生命周期的感知技术分类, 对已有的漏洞感知技术分类进行补充和完善. 最后, 探索该领域的挑战, 并对未来研究的方向进行展望.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006936
    摘要:
    作为一种解决标签模糊性问题的新学习范式, 标记分布学习(LDL)近年来受到了广泛的关注. 为了进一步提升标记分布学习的预测性能, 提出一种联合深度森林与异质集成的标记分布学习方法(LDLDF). 所提方法采用深度森林的级联结构模拟具有多层处理结构的深度学习模型, 在级联层中组合多个异质分类器增加集成的多样性. 相较于其他现有LDL方法, LDLDF能够逐层处理信息, 学习更好的特征表示, 挖掘数据中丰富的语义信息, 具有强大的表示学习能力和泛化能力. 此外, 考虑到深层模型可能出现的模型退化问题, LDLDF采用一种层特征重用机制(layer feature reuse)降低模型的训练误差, 有效利用深层模型每一层的预测能力. 大量的实验结果表明, 所提方法优于近期的同类方法.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006937
    摘要:
    目标检测被广泛应用到自动驾驶, 工业, 医疗等各个领域. 利用目标检测算法解决不同领域中的关键任务逐渐成为主流. 然而基于深度学习的目标检测模型在对抗样本攻击下, 模型的鲁棒性存在严重不足, 通过加入微小扰动构造的对抗样本很容易使模型预测出错. 这极大限制了目标检测模型在关键安全领域的应用. 在实际应用中的模型普遍是黑盒模型, 现有的针对目标检测模型的黑盒攻击相关研究不足, 存在鲁棒性评测不全面, 黑盒攻击成功率较低, 攻击消耗资源较高等问题. 针对上述问题, 提出基于生成对抗网络的目标检测黑盒攻击算法, 所提算法利用融合注意力机制的生成网络直接输出对抗扰动, 并使用替代模型的损失和所提的类别注意力损失共同优化生成网络参数, 可以支持定向攻击和消失攻击两种场景. 在Pascal VOC数据集和MS COCO数据集上的实验结果表明, 所提方法比目前攻击方法的黑盒迁移攻击成功率更高, 并且可以在不同数据集之间进行迁移攻击.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006938
    [摘要] (109) [HTML] (0) [PDF 3.71 M] (119)
    摘要:
    网络的管理与监测是网络领域的重要话题, 这一领域的相关技术通常也称为网络测量(network measurement). 网络重要流检测(heavy hitter detection)是网络测量的一项关键技术, 也是研究对象. 重要流指占用网络资源(如带宽或发送的数据包数量)超过某一给定标准的流, 检测重要流有助于快速识别网络异常, 提升网络运行效率, 但链路的高速化为其实现带来了挑战. 按出现时间顺序, 可将重要流检测方法划分为两大类: 基于传统网络框架的, 基于软件定义网络(SDN)框架的. 围绕网络重要流检测相关的框架与算法, 系统地总结其发展过程与研究现状, 并尝试给出其未来可能的发展方向.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006914
    摘要:
    高精度联邦学习模型的训练需要消耗大量的用户本地资源, 参与训练的用户能够通过私自出售联合训练的模型获得非法收益. 为实现联邦学习模型的产权保护, 利用深度学习后门技术不影响主任务精度而仅对少量触发集样本造成误分类的特征, 构建一种基于模型后门的联邦学习水印(federated learning watermark based on backdoor, FLWB)方案, 能够允许各参与训练的用户在其本地模型中分别嵌入私有水印, 再通过云端的模型聚合操作将私有后门水印映射到全局模型作为联邦学习的全局水印. 之后提出分步训练方法增强各私有后门水印在全局模型的表达效果, 使得FLWB方案能够在不影响全局模型精度的前提下容纳各参与用户的私有水印. 理论分析证明了FLWB方案的安全性, 实验验证分步训练方法能够让全局模型在仅造成1%主任务精度损失的情况下有效容纳参与训练用户的私有水印. 最后, 采用模型压缩攻击和模型微调攻击对FLWB方案进行攻击测试, 其结果表明FLWB方案在模型压缩到30%时仍能保留80%以上的水印, 在4种不同的微调攻击下能保留90%以上的水印, 具有很好的鲁棒性.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006941
    摘要:
    传输层是网络协议栈的关键组成部分, 负责为不同主机间的应用程序提供端到端的服务. 已有的传输层协议如TCP等为用户提供了基本的差错控制和确认应答等安全保护机制, 在一定程度上保证了不同主机间应用程序收发报文的一致性. 但现有的传输层安全保护机制存在严重的缺陷, 如TCP报文的序列号容易被猜测推理, 报文校验和的计算依赖于有漏洞的补码求和算法等. 这导致现有的传输层安全机制并不能保证报文的完整性和安全性, 从而允许一个远程的攻击者伪造出一个报文, 注入到目标网络流中, 对目标网络流形成污染或攻击. 针对传输层的攻击发生在网络协议栈的基础层次, 可以旁路掉上层应用的安全保护机制, 对网络基础设施造成严重的危害. 深入研究近年来针对网络协议栈的各种攻击和相关安全漏洞, 提出一种基于轻量级链式验证的传输层安全性增强方法LightCTL. 所提方法基于哈希验证的方式, 使TCP连接双方能够对传输层报文形成彼此可验证的共识, 避免攻击者或中间人窃取和伪造敏感信息, 从而解决网络协议栈面临的典型安全威胁, 包括基于序列号推理的TCP连接重置攻击、TCP劫持攻击、SYN洪泛攻击、中间人攻击、报文重放攻击等. LightCTL不需要修改中间网络设备如路由器等的协议栈, 只需对终端协议栈中的校验和相关部分进行修改, 因此方法易于部署, 同时显著提升了网络系统的安全性.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006924
    摘要:
    软件缺陷定位是指找出与软件失效相关的程序元素. 当前的缺陷定位技术仅能产生函数级或语句级的定位结果. 这种粗粒度的定位结果会影响人工调试程序和软件缺陷自动修复的效率和效果. 专注于细粒度地识别导致软件缺陷的具体代码令牌, 为代码令牌建立抽象语法树路径, 提出基于指针神经网络的细粒度缺陷定位模型来预测出具体的缺陷代码令牌和修复该令牌的具体操作行为. 开源项目中的大量缺陷补丁数据集包含大量可供训练的数据, 且基于抽象语法树构建的路径可以有效捕获程序结构信息. 实验结果表明所训练出的模型能够准确预测缺陷代码令牌并显著优于基于统计的与基于机器学习的基线方法. 另外, 为了验证细粒度的缺陷定位结果可以贡献于缺陷自动修复, 基于细粒度的缺陷定位结果设计两种程序修复流程, 即代码补全工具去预测正确令牌的方法和启发式规则寻找合适代码修复元素的方法, 结果表明两种方法都能有效解决软件缺陷自动修复中的过拟合问题.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006951
    摘要:
    事实验证旨在检查一个文本陈述是否被给定的证据所支持. 由于表格结构上具有依赖性、内容上具有隐含性, 以表格作为证据的事实验证任务仍面临很多挑战. 现有工作或者利用逻辑表达式来解析基于表格证据的陈述, 或者设计表格感知神经网络来编码陈述-表格对, 以此实现基于表格的事实验证任务. 但是, 这些方法没有充分利用陈述背后隐含的表格信息, 从而导致模型的推理性能下降, 并且基于表格证据的中文陈述具有更加复杂的语法和语义, 也给模型推理带来更大的困难. 为此, 提出基于胶囊异构图注意力网络(CapsHAN)的中文表格型数据事实验证方法, 所提方法能充分理解陈述的结构和语义, 进而挖掘和利用陈述所隐含的表格信息, 有效提升基于表格的事实验证任务准确性. 具体而言, 首先通过对陈述进行依存句法分析和命名实体识别来构建异构图, 接着对该图采用异构图注意力网络和胶囊图神经网络进行学习和理解, 然后将得到的陈述文本表示与经过编码的表格文本表示进行拼接, 最后完成结果的预测. 更进一步, 针对现有中文表格型事实验证数据集匮乏而难以支持基于表格的事实验证方法性能评价的难题, 首先对主流TABFACT和INFOTABS表格事实验证英文数据集进行中文转化, 并且专门针对中文表格型数据的特点构建了基于UCL国家标准的数据集UCLDS, 该数据集将维基百科信息框作为人工注释的自然语言陈述的证据, 并被标记为蕴含、反驳或中立3类. UCLDS在同时支持单表和多表推理方面比传统TABFACT和INFOTABS数据集更胜一筹. 在上述3个中文基准数据集上的实验结果表明, 所提模型的表现均优于基线模型, 证明该模型在基于中文表格的事实验证任务上的优越性.
    优先出版日期:  2023-08-23 , DOI: 10.13328/j.cnki.jos.006952
    [摘要] (112) [HTML] (0) [PDF 8.77 M] (192)
    摘要:
    云基础设施的虚拟化、高可用、可弹性调度等特点, 为云数据库提供了开箱即用、可靠可用、按需计费等优势. 云数据库按照架构可以划分为云托管数据库(cloud-hosted database)以及云原生数据库(cloud-native database). 云托管数据库将数据库系统直接部署到云上虚拟机环境中, 具备低成本、易运维、高可靠的优势. 在此基础上, 云原生数据库充分利用云基础设施弹性伸缩的特点, 采用计算存储分离的架构, 实现了计算资源和存储资源的独立伸缩, 进一步提升数据库性价比. 然而计算存储分离的架构为数据库系统设计带来了新的挑战. 深入分析云原生数据库系统的架构和技术. 首先将云原生OLTP和云原生OLAP的数据库架构按照资源分离模式的差异分别进行归类分析, 并对比各类架构的优势与局限. 其次, 基于计算存储分离的架构, 按照各个功能模块深入探讨云原生数据库的关键技术: 主要包括云原生OLTP关键技术(数据组织、副本一致性、主备同步、故障恢复以及混合负载处理)和云原生OLAP关键技术(存储管理、查询处理、无服务器感知计算、数据保护以及机器学习优化). 最后, 总结现有云原生数据库的技术挑战并展望未来研究方向.
    优先出版日期:  2023-08-16 , DOI: 10.13328/j.cnki.jos.006939
    [摘要] (430) [HTML] (0) [PDF 5.60 M] (240)
    摘要:
    Internet传输层协议需要依赖于确认(ACK)机制提供的反馈信息, 实现拥塞控制和可靠传输等功能. 以Internet传输协议演化的历史为线索, 回顾传输控制领域中的确认机制, 并讨论现有确认机制中需要解决的问题; 基于“类型-触发条件-信息” 三要素, 提出按需确认机制及其设计原则, 重点分析确认机制和拥塞控制、丢包恢复等传输协议子模块之间的耦合关系; 结合设计原则, 详细阐述一种可行的按需确认机制实现——TACK机制, 并对相关概念进行系统的、深入的分析和澄清. 最后结合按需确认机制面临的挑战, 给出几个有意义的研究方向.
    优先出版日期:  2023-08-16 , DOI: 10.13328/j.cnki.jos.006904
    摘要:
    代码评审是现代软件开发过程中被广泛应用的最佳实践之一, 其对于软件质量保证和工程能力提升都具有重要意义. 代码评审意见是代码评审最主要和最重要的产出之一, 其不仅是评审者对代码变更的质量感知, 而且是作者修复代码缺陷和提升质量的重要参考. 目前, 全球各大软件组织都相继制定了代码评审指南, 但仍缺少针对代码评审意见质量的有效的评价方式和方法. 为了实现可解释的、自动化的评价, 开展文献综述、案例分析等若干实证研究, 并在此基础上提出一种基于多标签学习的代码评审意见质量评价方法. 实验使用某大型软件企业的34个商业项目的共计17 000条评审意见作为数据集. 结果表明所提出的方法能够有效地评价代码评审意见质量属性和质量等级. 除此以外, 还提供若干建模经验, 如评审意见标注和校验等, 旨在帮助那些受代码评审困扰的软件组织更好地实施所提出的方法.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006902
    [摘要] (141) [HTML] (0) [PDF 6.47 M] (300)
    摘要:
    作为人工智能的重要基石, 知识图谱能够从互联网海量数据中抽取并表达先验知识, 极大程度解决了智能系统认知决策可解释性差的瓶颈问题, 对智能系统的构建与应用起关键作用. 随着知识图谱技术应用的不断深化, 旨在解决图谱欠完整性问题的知识图谱补全工作迫在眉睫. 链接预测是针对知识图谱中缺失的实体与关系进行预测的任务, 是知识图谱构建与补全中不可或缺的一环. 要充分挖掘知识图谱中的隐藏关系, 利用海量的实体与关系进行计算, 就需要将符号化表示的信息转换为数值形式, 即进行知识图谱表示学习. 基于此, 面向链接预测的知识图谱表示学习成为知识图谱领域的研究热点. 从链接预测与表示学习的基本概念出发, 系统性地介绍面向链接预测的知识图谱表示学习方法最新研究进展. 具体从知识表示形式、算法建模方式两种维度对研究进展进行详细论述. 以知识表示形式的发展历程为线索, 分别介绍二元关系、多元关系和超关系知识表示形式下链接预测任务的数学建模. 基于表示学习建模方式, 将现有方法细化为4类模型: 平移距离模型、张量分解模型、传统神经网络模型和图神经网络模型, 并详细描述每类模型的实现方式与解决不同关系元数链接预测任务的代表模型. 在介绍链接预测的常用的数据集与评判标准基础上, 分别对比分析二元关系、多元关系和超关系3类知识表示形式下, 4类知识表示学习模型的链接预测效果, 并从模型优化、知识表示形式和问题作用域3个方面展望未来发展趋势.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006915
    [摘要] (126) [HTML] (0) [PDF 9.34 M] (135)
    摘要:
    推荐系统在成熟的数据挖掘技术推动下, 已能高效地利用评分数据、行为轨迹等显隐性信息, 再与复杂而先进的深度学习技术相结合, 取得了很好的效果. 同时, 其应用需求也驱动着对基础数据的深度挖掘与利用, 以及对技术要求的减负成为一个研究热点. 基于此, 提出一种利用GCN (graph convolutional network)方法进行深度信息融合的轻量级推荐模型LG_APIF. 该模型结合行为记忆, 通过艾宾浩斯遗忘曲线模拟用户兴趣变化过程, 采用线性回归等相对轻量的传统方法挖掘项目的自适应周期等深度信息; 分析用户当前的兴趣分布, 计算项目的兴趣量, 以获取用户的潜在兴趣类型; 构建用户-类型-项目三元组的图结构, 并结合减负后的GCN技术来生成最终的项目推荐列表. 实验验证所提方法的有效性, 通过与8个经典模型在Last.fm, Douban, Yelp, MovieLens数据集中的对比, 表明该方法在Precision, RecallNDCG指标上都得到良好改善, 其中, Precision平均提升2.11%, Recall平均提升1.01%, NDCG平均提升1.48%.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006916
    摘要:
    数据库管理系统根据应用场景分为事务型(OLTP)系统和分析型(OLAP)系统. 随着实时数据分析需求增长, OLTP任务和OLAP任务混合的场景越来越普遍, 业界开始重视支持混合事务和分析处理(HTAP)的数据库管理系统. 这种HTAP数据库系统除了需要满足高性能的事务处理外, 还需要满足实时分析对数据新鲜度的要求. 因此, 对数据库系统的设计与实现提出了新的挑战. 近年来, 在工业界和学术界涌现了一批架构多样、技术各异的原型和产品. 综述HTAP数据库的背景和发展现状, 并且从存储和计算的角度对现阶段的HTAP数据库进行分类. 在此基础上, 按照从下往上的顺序分别总结HTAP系统在存储和计算方面采用的关键技术. 在此框架下介绍各类系统的设计思想、优劣势以及适用的场景. 此外, 结合HTAP数据库的评测基准和指标, 分析各类HTAP数据库的设计与其呈现出的性能与数据新鲜度的关联. 最后, 结合云计算、人工智能和新硬件技术为HTAP数据库的未来研究和发展提供思路.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006912
    [摘要] (234) [HTML] (0) [PDF 3.35 M] (153)
    摘要:
    适配器签名, 又称无脚本脚本, 是解决区块链应用(如密码货币)中扩展性差、吞吐量低等问题的重要密码技术. 适配器签名可看作数字签名关于困难关系的扩展, 同时具有签名授权和证据提取两种功能, 在区块链应用中具有以下优点: (1) 降低链上成本; (2) 提高交易的可替代性; (3) 突破区块链脚本语言限制. SM2签名是我国自主设计的国家标准签名算法, 在各种重要信息系统中有着广泛应用. 基于SM2签名构造出高效的适配器签名方案, 并在随机谕言机模型下给出安全性证明. 所提方案结合SM2签名结构, 可避免在预签名阶段生成额外的零知识证明, 与现有ECDSA/SM2适配器签名相比更加高效, 其中预签名生成效率提升4倍, 预签名验证效率提升3倍. 随后, 基于SM2协同签名, 构造分布式SM2适配器签名, 可避免单点故障问题, 提升签名私钥安全. 最后, 在实际应用方面, 基于SM2适配器签名构造适用于一对多场景下安全高效的批量原子交换协议.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006913
    [摘要] (138) [HTML] (0) [PDF 6.21 M] (267)
    摘要:
    常识问答是一项重要的自然语言理解任务, 旨在利用常识知识对自然语言问句进行自动求解, 以得到准确答案. 常识问答在虚拟助手或社交聊天机器人等领域有着广泛的应用前景, 且其蕴涵了知识挖掘与表示、语言理解与计算、答案推理和生成等关键科学问题, 因而受到工业界和学术界的广泛关注. 首先介绍常识问答领域的主要数据集; 其次, 归纳不同常识知识源在构建方式、常识来源和表现形式上的区别; 同时, 重点分析并对比前沿常识问答模型, 以及融合常识知识的特色方法. 特别地, 根据不同问答任务场景中常识知识的共性和特性, 建立包含属性、语义、因果、语境、抽象和意图6大类的知识分类体系. 以此为支撑, 针对常识知识数据集建设, 感知知识融合和预训练语言模型的协作机制, 以及在此基础上的常识知识预分类技术, 进行前瞻性的研究, 并具体报告上述模型在跨数据集迁移场景下的性能变化, 及其在常识答案推理中的潜在贡献. 总体上, 包含对现有数据和前沿技术的回顾, 也包含面向跨数据知识体系建设、技术迁移与通用化的预研内容, 借以在汇报领域技术积累的前提下, 为其理论和技术的进一步发展提供参考意见.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006921
    摘要:
    人们对图像显示设备高分辨率和逼真视觉感知的需求随着现代信息技术的发展日益增长, 这对计算机软硬件提出了更高要求, 也为渲染技术在性能与工作负载上带来更多挑战. 利用深度神经网络等机器学习技术对渲染图像进行质量改进和性能提升成为了计算机图形学热门的研究方向, 其中通过网络推理将低分辨率图像进行上采样获得更加清晰的高分辨率图像是提升图像生成性能并保证高清细节的一个重要途径. 而渲染引擎在渲染流程中产生的几何缓存(geometry buffer, G-buffer)包含较多的语义信息, 能够帮助网络有效地学习场景信息与特征, 从而提升上采样结果的质量. 设计一个基于深度神经网络的低分辨率渲染内容的超分方法. 除了当前帧的颜色图像, 其使用高分辨率的几何缓存来辅助计算并重建超分后的内容细节. 所提方法引入一种新的策略来融合高清缓存与低清图像的特征信息, 在特定的融合模块中对不同种特征信息进行多尺度融合. 实验验证所提出的融合策略和模块的有效性, 并且, 在和其他图像超分辨率方法的对比中, 所提方法体现出明显的优势, 尤其是在高清细节保持方面.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006922
    摘要:
    SMT求解器作为重要的基础软件, 其存在的缺陷可能会导致依赖于它的软件功能失效, 甚至带来安全事故. 然而, 修复SMT求解器缺陷是一个十分耗时的任务, 因为开发者需要花费大量的时间和精力来理解并找到缺陷的根本原因. 虽然已有许多软件缺陷定位方面的研究, 但尚未有系统的工作研究如何自动定位SMT求解器缺陷. 因此, 提出一种基于多源频谱的SMT求解器缺陷定位方法SMTLOC. 首先, 对于给定的SMT求解器缺陷, SMTLOC提出一种枚举算法, 用以对触发该缺陷的公式进行变异, 从而生成一组不触发缺陷, 但与触发缺陷的公式具有相似执行路径的证人公式. 然后, SMTLOC根据证人公式的执行路径以及SMT求解器的源码信息, 提出一种融合覆盖频谱和历史频谱的文件可疑度计算方法, 从而定位可能存在缺陷的文件. 为了验证SMTLOC的有效性, 收集60个SMT求解器缺陷. 实验结果表明, SMTLOC的缺陷定位效果明显优于传统的频谱缺陷定位方法, SMTLOC可以将46.67%的缺陷定位在TOP-5的文件内, 定位效果提升了133.33%.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006911
    [摘要] (122) [HTML] (0) [PDF 13.43 M] (197)
    摘要:
    如何从海量数据中快速有效地挖掘出有价值的信息以更好地指导决策, 是大数据分析的重要目标. 可视分析是一种重要的大数据分析方法, 它利用人类视觉感知特性, 使用可视化图表直观呈现复杂数据中蕴含的规律, 并支持以人为本的交互式数据分析. 然而, 可视分析仍然面临着许多挑战, 例如数据准备代价高、交互响应高延迟、可视分析高门槛和交互模式效率低. 为应对这些挑战, 研究者从数据管理、人工智能等视角出发, 提出一系列方法以优化可视分析系统的人机协作模式和提高系统的智能化程度. 系统性地梳理、分析和总结这些方法, 提出智能数据可视分析的基本概念和关键技术框架. 然后, 在该框架下, 综述和分析国内外面向可视分析的数据准备、智能数据可视化、高效可视分析和智能可视分析接口的研究进展. 最后, 展望智能数据可视分析的未来发展趋势.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006905
    [摘要] (143) [HTML] (0) [PDF 8.65 M] (140)
    摘要:
    机器学习方法可很好地与软件测试相结合, 增强测试效果, 但少有学者将其运用于测试数据生成方面. 为进一步提高测试数据生成效率, 提出一种结合SVM (support vector machine)和XGBoost (extreme gradient boosting)的链式模型, 并基于此模型借助遗传算法实现多路径测试数据生成. 首先, 利用一定样本训练若干个用于预测路径节点状态的子模型(SVM和XGBoost), 通过子模型的预测精度值筛选最优子模型, 并根据路径节点顺序将其依次链接, 形成一个链式模型C-SVMXGBoost (chained SVM and XGBoost). 在利用遗传算法生成测试用例时, 使用训练好的链式模型代替插桩法获取测试数据覆盖路径(预测路径), 寻找预测路径与目标路径相似的路径集, 对存在相似路径集的预测路径进行插桩验证, 获取精确路径, 计算适应度值. 在交叉变异过程中引入样本集中路径层级深度较大的优秀测试用例进行重用, 生成覆盖目标路径的测试数据. 最后, 保留进化生成中产生的适应度较高的个体, 更新链式模型C-SVMXGBoost, 进一步提高测试效率. 实验表明, C-SVMXGBoost较其他各对比链式模型更适合解决路径预测问题, 可提高测试效率. 并且通过与已有经典方法相比, 所提方法在覆盖率上提高可达15%, 平均进化代数也有所降低, 在较大规模程序上其降低百分比可达65%.
    优先出版日期:  2023-08-09 , DOI: 10.13328/j.cnki.jos.006834
    [摘要] (525) [HTML] (0) [PDF 8.63 M] (239)
    摘要:
    深度神经网络是人工智能领域的一项重要技术, 它被广泛应用于各种图像分类任务. 但是, 现有的研究表明深度神经网络存在安全漏洞, 容易受到对抗样本的攻击, 而目前并没有研究针对图像对抗样本检测进行体系化分析. 为了提高深度神经网络的安全性, 针对现有的研究工作, 全面地介绍图像分类领域的对抗样本检测方法. 首先根据检测器的构建方式将检测方法分为有监督检测与无监督检测, 然后根据其检测原理进行子类划分. 最后总结对抗样本检测领域存在的问题, 在泛化性和轻量化等方面提出建议与展望, 旨在为人工智能安全研究提供帮助.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006837
    摘要:
    深度歧义是单帧图像多人3D姿态估计面临的重要挑战, 提取图像上下文对缓解深度歧义极具潜力. 自顶向下方法大多基于人体检测建模关键点关系, 人体包围框粒度粗背景噪声占比较大, 极易导致关键点偏移或误匹配, 还将影响基于人体尺度因子估计绝对深度的可靠性. 自底向上的方法直接检出图像中的人体关键点再逐一恢复3D人体姿态. 虽然能够显式获取场景上下文, 但在相对深度估计方面处于劣势. 提出新的双分支网络, 自顶向下分支基于关键点区域提议提取人体上下文, 自底向上分支基于三维空间提取场景上下文. 提出带噪声抑制的人体上下文提取方法, 通过建模“关键点区域提议”描述人体目标, 建模姿态关联的动态稀疏关键点关系剔除弱连接减少噪声传播. 提出从鸟瞰视角提取场景上下文的方法, 通过建模图像深度特征并映射鸟瞰平面获得三维空间人体位置布局; 设计人体和场景上下文融合网络预测人体绝对深度. 在公开数据集MuPoTS-3D和Human3.6M上的实验结果表明: 较同类先进模型, 所提模型HSC-Pose的相对和绝对3D关键点位置精度至少提高2.2%和0.5%; 平均根关键点位置误差至少降低4.2 mm.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006839
    摘要:
    混合整数线性规划(MILP)作为一种自动化搜索工具, 被广泛地应用于搜索分组密码的差分、线性、积分等密码性质. 提出一种基于动态选取策略构建MILP模型的新技术, 该技术在不同的条件下采用不同的约束不等式刻画密码性质的传播. 具体地, 从可分性出发根据输入可分性汉明重量的不同, 分别采用不同的方法构建线性层可分性传播的MILP模型. 最后, 将该技术应用于搜索uBlock和Saturnin算法的积分区分器. 实验结果表明: 对于uBlock128算法, 该技术可以搜索到比之前最优区分器多32个平衡比特的8轮积分区分器. 除此之外, 搜索到uBlock128和uBlock256算法比之前最优区分器更长一轮的9和10轮积分区分器. 对于Saturnin256算法, 同样搜索到比之前最优区分器更长一轮的9轮积分区分器.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006840
    摘要:
    层次主题模型是构建主题层次的重要工具. 现有的层次主题模型大多通过在主题模型中引入nCRP构造方法, 为文档主题提供树形结构的先验分布, 但无法生成具有明确领域涵义的主题层次结构, 即领域主题层次. 同时, 领域主题不仅存在层次关系, 而且不同父主题下的子主题之间还存在子领域方面共享的关联关系, 在现有主题关系研究中没有合适的模型来生成这种领域主题层次. 为了从领域文本中自动、有效地挖掘出领域主题的层次关系和关联关系, 在4个方面进行创新研究. 首先, 通过主题共享机制改进nCRP构造方法, 提出nCRP+层次构造方法, 为主题模型中的主题提供具有分层主题方面共享的树形先验分布; 其次, 结合nCRP+和HDP模型构建重分层的Dirichlet过程, 提出rHDP (reallocated hierarchical Dirichlet processes)层次主题模型; 第三, 结合领域分类信息、词语语义和主题词的领域代表性, 定义领域知识, 包括基于投票机制的领域隶属度、词语与领域主题的语义相关度和层次化的主题-词语贡献度; 最后, 通过领域知识改进rHDP主题模型中领域主题和主题词的分配过程, 提出结合领域知识的层次主题模型rHDP_DK (rHDP with domain knowledge), 并改进采样过程. 实验结果表明, 基于nCRP+的层次主题模型在评价指标方面均优于基于nCRP的层次主题模型(hLDA, nHDP)和神经主题模型(TSNTM); 通过rHDP_DK模型生成的主题层次结构具有领域主题层次清晰、关联子主题的主题词领域差异明确的特点. 此外, 该模型将为领域主题层次提供一个通用的自动挖掘框架.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006841
    摘要:
    在多标记学习中, 每个样本都与多个标记关联, 关键任务是如何在构建模型时利用标记之间的相关性. 多标记深度森林算法尝试在深度集成学习的框架下, 使用逐层的表示学习来挖掘标记之间的相关性并利用得到的标记概率表示提升预测精度. 然而, 一方面标记概率表示与标记信息高度相关, 这会导致其多样性较低. 随着深度森林的深度增加, 性能会下降. 另一方面, 标记概率的计算需要我们存储所有层数的森林结构并在测试阶段逐一使用, 这会造成难以承受的计算和存储开销. 针对这些问题, 提出基于交互表示的多标记深度森林算法(interaction representation-based multi-label deep forest, iMLDF). iMLDF从森林模型的决策路径中挖掘特征空间中的结构信息, 利用随机交互树抽取决策树路径中的特征交互, 分别得到特征置信度得分和标记概率分布两种交互表示. iMLDF一方面充分利用模型中的特征结构信息来丰富标记间的相关信息, 另一方面通过交互表达式计算所有的表示, 从而使得算法无需存储森林结构, 大大地提升计算效率. 实验结果表明: 在交互表示基础上进行表示学习的iMLDF算法取得更好的预测性能, 而且针对样本较多的数据集, 计算效率相比于MLDF算法提升了一个数量级.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006842
    摘要:
    图划分是分布式图计算中的一项基础工作, 其作用是将大规模图进行划分并分配到集群中的不同机器上. 图划分的质量对分布式图计算的性能有很大的影响, 其目标是降低负载平衡和最小化边割. 如今, 现实中的图数据通常呈动态增长态势, 这就需要一种能够处理动态增量图的划分方法, 在图数据动态增长的过程中确保划分的质量不受影响. 目前虽然有一些动态图划分算法被提出, 但它们不能同时专注于实时处理动态变化和获得高质量的划分结果. 提出基于顶点组重分配的动态增量图划分算法(ED-IDGP)来解决大规模动态增量图的划分问题. 在ED-IDGP算法中, 设计实时处理4种不同单元更新类型的动态处理器, 并在每次处理完单元更新后通过在分区发生动态变化的附近执行局部优化器进一步提高图划分的质量. 在ED-IDGP的局部优化器中, 利用基于改进标签传播算法的顶点组搜索策略搜索顶点组, 并利用提出的顶点组移动增益公式衡量最有益的顶点组, 将该顶点组移动到目标分区中做优化. 在真实数据集上从不同的角度和度量指标评估了ED-IDGP算法的性能和效率.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006843
    摘要:
    划分序乘积空间作为一种新的粒计算模型可以从多个视角和多个层次对问题进行描述和求解. 其解空间是由多个问题求解层组成的格结构, 其中每个问题求解层由多个单层次视角构成. 如何在划分序乘积空间中选择问题求解层是一个NP难问题. 为此, 提出一种两阶段自适应遗传算法TSAGA (two stage adaptive genetic algorithm)来寻找问题求解层. 首先, 采用实数编码对问题求解层进行编码, 然后根据问题求解层的分类精度和粒度定义适应度函数. 算法第1阶段基于经典遗传算法, 预选出一些优秀问题求解层作为第2阶段初始种群的一部分, 从而优化解空间. 算法第2阶段, 提出随当前种群进化迭代次数动态变化的自适应选择算子、自适应交叉算子以及自适应大变异算子, 从而在优化的解空间中进一步选择问题求解层. 实验结果证明了所提方法的有效性.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006844
    摘要:
    机器学习与自动推理的融合是当前人工智能研究的新趋势. 约束满足问题是人工智能研究的经典问题, 现实世界中大量的调度、规划和配置等问题均可以建模为约束满足问题, 高效的求解算法一直是研究热点. 近年来涌现出众多将机器学习应用于约束满足问题求解的新方法, 这些基于“学习-推理”的新方法为约束满足问题求解开辟了新方向并展示出巨大发展潜力, 方法的突出优点是适应性强、可在线优化并具有更强的可扩展性. 将当前的“学习-推理”方法分为基于消息传递神经网络、基于序列到序列和基于最优化等3类进行综述, 详细分析各类方法的特点和在不同的问题集上求解效果, 尤其对每类方法所涵盖的相关工作进行多角度的对比分析. 最后, 对基于“学习-推理”的约束求解方法进行总结和展望.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006845
    摘要:
    极小不可满足子集(minimal unsatisfiable subsets, MUS)的求解是布尔可满足性问题中的一个重要子问题. 对于一个给定的不可满足问题, 其MUS的求解能够反映出问题中导致其不可满足的关键原因. 然而, MUS的求解是一项极其耗时的任务, 不同的剪枝过程将直接影响到搜索空间的大小、算法的迭代次数, 从而影响算法的求解效率. 提出一种针对MUS求解的加强剪枝策略ABC (accelerating by critical MSS), 依据MSS、MCS、MUS这3者之间的对偶性和碰集关系特点, 提出cMSS和subMUS概念, 并总结出4条性质, 即每个MUS必是subMUS的超集, 进而在避免对MCS的碰集进行求解的情况下有效利用MUS和MCS互为碰集的特征, 有效避免求解碰集时的时间开销. 当subMUS不可满足时则subMUS是唯一的MUS, 算法将提前结束执行; 当subMUS可满足时, 则剪枝掉此节点, 进而有效避免对求解空间中的冗余空间进行搜索. 同时, 通过理论证明ABC策略的有效性, 并将其应用于目前最高效的单一化模型算法MARCO和双模型算法MARCO-MAM, 在标准测试用例下的实验结果表明该策略可以有效地对搜索空间进行进一步剪枝, 从而提高MUS的枚举效率.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006891
    [摘要] (158) [HTML] (0) [PDF 2.90 M] (315)
    摘要:
    网络流量加密在保护企业数据和用户隐私的同时, 也为恶意流量检测带来新的挑战. 根据处理加密流量的方式不同, 加密恶意流量检测可分为主动检测和被动检测. 主动检测包括对流量解密后的检测和基于可搜索加密技术的检测, 其研究重点是隐私安全的保障和检测效率的提升, 主要分析可信执行环境和可控传输协议等保障措施的应用. 被动检测是在用户无感知且不执行任何加密或解密操作的前提下, 识别加密恶意流量的检测方法, 其研究重点是特征的选择与构建, 主要从侧信道特征、明文特征和原始流量等3类特征分析相关检测方法, 给出有关模型的实验评估结论. 最后, 从混淆流量特征、干扰学习算法和隐藏相关信息等角度, 分析加密恶意流量检测对抗研究的可实施性.
    优先出版日期:  2023-07-28 , DOI: 10.13328/j.cnki.jos.006892
    摘要:
    委员会共识和混合共识通过选举委员会来代替全网节点完成区块验证, 可有效加快共识速度, 提高吞吐量, 但恶意攻击和收买易导致委员会发生腐败问题, 严重时将影响共识结果甚至造成系统瘫痪. 现有工作虽引入信誉机制降低委员会节点腐败的可能性, 但开销大、可信度低且无法降低腐败问题对系统的影响. 提出一种带有预验证机制的区块链动态共识算法(DBCP), 通过预验证机制在较小开销的前提下对委员会的进行可靠的信誉评估, 及时淘汰委员会中的恶意节点. 若腐败问题已影响到共识结果, DBCP会通过动态共识将区块验证权转移到全网节点, 并淘汰给出错误意见的委员会节点, 避免系统瘫痪. 若委员会通过迭代达到高可信状态, DBCP会将区块验证权交由委员会, 全网节点将认同委员会的共识结果并不再对区块进行验证, 进而加快共识速度. 经实验验证, DBCP的吞吐量较比特币提升两个数量级且与Byzcoin相近, 可在一个出块周期内快速应对委员会腐败问题, 安全性优于Byzcoin.
    优先出版日期:  2023-07-26 , DOI: 10.13328/j.cnki.jos.006918
    摘要:
    第三方库检测是Android应用安全分析领域的上游任务, 其检测精度对于恶意应用检测、重打包检测、隐私泄露等下游任务有显著影响. 为了提升检测精度和效率, 采用相似性比较的思想, 提出一种基于包结构和签名的第三方库检测方法, 命名为LibPass. LibPass以流水线式模式组合主模块识别、第三方库候选识别和细粒度检测等3个组件. 主模块识别方法区分主程序二进制代码与引入的第三方库二进制代码, 旨在提升方法检测效率. 在此基础上, 提出由第三方库候选识别和细粒度检测构成的两阶段检测方法. 前者利用包结构特征的稳定性来应对应用程序的混淆行为以提升混淆情形下的检测精度, 并利用包结构签名完成快速比对以识别候选第三方库, 达到显著降低成对比较次数、提升检测效率的目的; 后者在前者涮选出的候选中, 通过更细粒度但代价更高的相似性分析精确地识别第三方库及其对应的版本. 为了验证方法的性能和效率, 构建3个评估不同检测能力的基准数据集, 在这些基准数据集上开展实验验证, 从检测性能、检测效率和抗混淆性等方面对实验结果进行深入分析, 结果表明LibPass具备较高的检测精度, 检测效率, 以及应对多种常用混淆操作的能力.
    优先出版日期:  2023-07-26 , DOI: 10.13328/j.cnki.jos.006919
    摘要:
    缓冲区溢出等内存错误漏洞的产生往往来自于对内存拷贝类函数的不当使用. 对二进制程序中的内存拷贝类函数进行识别有利于发现内存错误漏洞. 目前针对二进制程序中内存拷贝类函数的识别方法主要借助静态分析来提取函数的特征、控制流、数据流等信息进行识别, 具有较高的误报率和漏报率. 为了提高对内存拷贝类函数识别的效果, 提出一种新颖的基于静态和动态混合分析的技术CPSeeker. 所提方法结合静态分析和动态分析各自的优势, 分阶段对函数的全局静态信息和局部执行信息进行搜集, 对提取到的信息进行融合分析, 进而识别二进制程序中的内存拷贝类函数. 实验结果表明, 尽管CPSeeker在运行时间上有所增加, 但在内存拷贝类函数识别的效果上, 其F1值达到了0.96, 远优于最新的工作BootStomp、SaTC、CPYFinder以及Gemini, 并且不受编译环境(编译器版本、编译器种类、编译器优化等级)的影响. 此外, CPSeeker在真实的固件测试中也具有更好的表现.
    优先出版日期:  2023-07-26 , DOI: 10.13328/j.cnki.jos.006920
    摘要:
    基于宽度学习的动态模糊推理系统(broad-learning-based dynamic fuzzy inference system , BL-DFIS)能自动构建出精简的模糊规则并获得良好的分类性能. 然而, 当遇到大型复杂的数据集时, BL-DFIS因会使用较多模糊规则来试图达到令人满意的识别精度, 从而对其可解释性造成了不利影响. 对此, 提出一种兼顾分类性能和可解释性的模糊神经网络, 将其称为特征扩展的随机向量函数链神经网络(FA-RVFLNN). 在该网络中, 一个以原始数据为输入的RVFLNN被作为主体结构, BL-DFIS则用作性能补充, 这意味着FA-RVFLNN包含具有性能增强作用的直接链接. 由于主体结构的增强节点使用Sigmoid激活函数, 因此, 其推理过程可借助一种模糊逻辑算子(I-OR)来解释. 而且, 具有明确含义的原始输入数据也有助于解释主体结构的推理规则. 在直接链接的支撑下, FA-RVFLNN可利用增强节点、特征节点和模糊节点学到更丰富的有用信息. 实验表明: FA-RVFLNN既减缓了主体结构RVFLNN中过多增强节点带来的“规则爆炸”问题, 也提高了性能补充结构BL-DFIS的可解释性(平均模糊规则数降低了50%左右), 在泛化性能和网络规模上仍具有竞争力.
    优先出版日期:  2023-07-26 , DOI: 10.13328/j.cnki.jos.006940
    摘要:
    如何提高异构的自然语言查询输入和高度结构化程序语言源代码的匹配准确度, 是代码搜索的一个基本问题. 代码特征的准确提取是提高匹配准确度的关键之一. 代码语句表达的语义不仅与其本身有关, 还与其所处的上下文相关. 代码的结构模型为理解代码功能提供了丰富的上下文信息. 提出一个基于函数功能多重图嵌入的代码搜索方法. 在所提方法中, 使用早期融合的策略, 将代码语句的数据依赖关系融合到控制流图中, 构建函数功能多重图来表示代码. 该多重图通过数据依赖关系显式表达控制流图中缺乏的非直接前驱后继节点的依赖关系, 增强语句节点的上下文信息. 同时, 针对多重图的边的异质性, 采用关系图卷积网络方法从函数多重图中提取代码的特征. 在公开数据集的实验表明, 相比现有基于代码文本和结构模型的方法, 所提方法的MRR提高5%以上. 通过消融实验也表明控制流图较数据依赖图在搜索准确度上贡献较大.
    优先出版日期:  2023-07-19 , DOI: 10.13328/j.cnki.jos.006832
    摘要:
    合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成. 目标智能体之间互相合作, 同外部智能体展开竞争, 应对环境和外部智能体的动态变化, 最终完成指定的任务. 针对如何训练目标智能体使他们获得完成任务的最优策略的问题, 现有工作从两个方面展开: (1)仅关注目标智能体间的合作, 将外部智能体视为环境的一部分, 利用多智能体强化学习来训练目标智能体. 这种方法难以应对外部智能体策略未知或者动态改变的情况; (2)仅关注目标智能体和外部智能体间的竞争, 将竞争建模为双人博弈, 采用自博弈的方法训练目标智能体. 这种方法主要针对单个目标智能体和单个外部智能体的情况, 难以扩展到由多个目标智能体和多个外部智能体组成的系统中. 结合这两类研究, 提出一种基于虚拟遗憾优势的自博弈方法. 具体地, 首先以虚拟遗憾最小化和虚拟多智能体策略梯度为基础, 设计虚拟遗憾优势策略梯度方法, 使目标智能体能更准确地更新策略; 然后, 引入模仿学习, 以外部智能体的历史决策轨迹作为示教数据, 模仿外部智能体的策略, 显式地建模外部智能体的行为, 来应对自博弈过程中外部智能体策略的动态变化; 最后, 以虚拟遗憾优势策略梯度和外部智能体行为建模为基础, 设计一种自博弈训练方法, 该方法能够在外部智能体策略未知或者动态变化的情况下, 为多个目标智能体训练出最优的联合策略. 以协同电磁对抗为研究案例, 设计具有合作-竞争混合特征的3个典型任务. 实验结果表明, 同其他方法相比, 所提方法在自博弈效果方面有至少78%的提升.
    优先出版日期:  2023-07-12 , DOI: 10.13328/j.cnki.jos.006909
    摘要:
    随着触摸设备的普及, 指、笔输入已成为移动办公的一种主流输入方式. 然而现有的应用主要以手指或笔通道中的一种作为输入, 限制了用户的交互空间. 同时, 现有的指-笔混合研究主要关注串行的指-笔分工协作和特定交互任务的并行处理, 并没有系统地考虑并行协作机制和不同通道输入之间的意图关联. 为此, 提出一种面向指-笔混合输入的交互模型; 结合用户指-笔协作的行为习惯定义指-笔混合交互原语, 拓展指、笔交互空间; 继而利用部分可观察马尔可夫决策过程提出基于时序信息的指-笔混合输入意图提取方法, 用以增量式地提取多义性交互原语的交互意图. 最后通过一个用户实验说明指-笔混合输入的优势.
    优先出版日期:  2023-07-12 , DOI: 10.13328/j.cnki.jos.006910
    摘要:
    代码搜索是当下自然语言处理和软件工程交叉领域的一个重要分支. 开发高效的代码搜索算法能够显著提高代码重用的能力, 从而有效提高软件开发人员的工作效率. 代码搜索任务是以描述代码片段功能的自然语言作为输入, 在海量代码库中搜索得到相关代码片段的过程. 基于序列模型的代码搜索方法DeepCS虽然取得了很好的效果, 但这种方法不能捕捉代码的深层语义. 基于图嵌入的代码搜索方法GraphSearchNet能缓解这个问题, 但没有对代码与文本进行细粒度匹配, 也忽视了代码图和文本图的全局关系. 为了解决以上局限性, 提出基于关系图卷积网络的代码搜索方法, 对构建的文本图和代码图编码, 从节点层面对文本查询和代码片段进行细粒度匹配, 并应用神经张量网络捕捉它们的全局关系. 在两个公开数据集上的实验结果表明, 所提方法比先进的基线模型DeepCS和GraphSearchNet搜索精度更高.
    优先出版日期:  2023-07-12 , DOI: 10.13328/j.cnki.jos.006903
    摘要:
    司法人工智能中主要挑战性问题之一是案情关键要素识别, 现有方法仅将案情要素作为一个命名实体识别任务, 导致识别出的多数信息是无关的. 另外, 也缺乏对文本的全局信息和词汇局部信息的有效利用, 导致要素边界识别的效果不佳. 针对这些问题, 提出一种融合全局和局部信息的关键案情要素识别方法. 所提方法首先利用BERT模型作为司法文本的输入共享层以提取文本特征. 然后, 在共享层之上建立司法案情要素识别、司法文本分类(全局信息)、司法中文分词(局部信息)这3个子任务进行联合学习模型. 最后, 在两个公开数据集上测试所提方法的效果, 结果表明: 所提方法F1值均超过了现有的先进方法, 提高了要素实体分类的准确率并减少了识别边界错误问题.
    优先出版日期:  2023-07-12 , DOI: 10.13328/j.cnki.jos.006917
    摘要:
    信息系统在进行知识的挖掘和管理时, 需要处理各种形式的数据, 流数据便是其中之一. 流数据具有数据规模大、产生速度快且蕴含的知识具有较强时效性等特点, 因而发展支持实时处理应用的流计算技术对于信息系统的知识管理十分重要. 流计算系统可以追溯到29世纪90年代, 至今已经经历了长足的发展. 然而, 当前多样化的知识管理需求和新一代的硬件架构为流计算系统带来了全新的挑战和机遇, 催生出了一系列流计算领域的技术研究. 首先介绍流计算系统的基本需求以及发展脉络, 再按照编程接口、执行计划、资源调度和故障容错4个层次分别分析流计算系统领域的相关技术; 最后, 展望流计算技术在未来可能的研究方向和发展趋势.
    优先出版日期:  2023-07-05 , DOI: 10.13328/j.cnki.jos.006901
    [摘要] (119) [HTML] (0) [PDF 1.29 M] (187)
    摘要:
    混合事务与分析处理数据库系统(HTAP)因其在一套系统上可以同时处理混合负载而逐渐获得大众认可. 为了不影响在线事务处理(OLTP)业务的写入性能, HTAP数据库系统往往会通过维护数据多版本或额外副本的方式来支持在线分析处理(OLAP)任务, 从而引入了TP/AP端版本的数据一致性问题. 同时, HTAP数据库系统面临资源隔离下实现高效数据共享的核心挑战, 且数据共享模型的设计综合权衡了业务对性能和数据新鲜度之间的要求. 因此, 为了系统地阐释现有HTAP数据库系统数据共享模型及优化策略, 首先根据TP生成版本与AP查询版本的差异, 通过一致性模型定义数据共享模型, 将HTAP数据共享的一致性模型分为3类, 分别为线性一致性, 顺序一致性与会话一致性. 然后, 梳理数据共享模型的全流程, 即从数据版本标识号分配, 数据版本同步, 数据版本追踪3个核心问题出发, 给出不同一致性模型的实现方法. 进一步, 以典型的HTAP数据库系统为例对具体实现进行深入的阐释. 最后, 针对数据共享过程中涉及的版本同步、追踪、回收等模块的优化策略进行归纳和分析, 并展望数据共享模型的优化方向, 指出数据同步范围自适应, 数据同步周期自调优和顺序一致性的新鲜度阈值约束控制是提高HTAP数据库系统性能和新鲜度的可能手段.
    优先出版日期:  2023-07-05 , DOI: 10.13328/j.cnki.jos.006812
    [摘要] (308) [HTML] (0) [PDF 8.34 M] (246)
    摘要:
    安全缺陷报告可以描述软件产品中的安全关键漏洞. 为了消除软件产品的安全攻击风险, 安全缺陷报告(security bug report, SBR)预测越来越受到研究人员的关注. 但在实际软件开发场景中, 需要进行软件安全漏洞预测的项目可能是来自新公司或属于新启动的项目, 没有足够的已标记安全缺陷报告供在实践中构建此软件安全漏洞预测模型. 一种简单的解决方案就是使用迁移模型, 即利用其他项目已经标记过的数据来构建预测模型. 受到该领域最近的两项研究工作的启发, 以安全关键字过滤为思路提出一种融合知识图谱的跨项目安全缺陷报告预测方法KG-SBRP (knowledge graph of security bug report prediction). 使用安全缺陷报告中的文本信息域结合CWE (common weakness enumeration)与CVE Details (common vulnerabilities and exposures)共同构建三元组规则实体, 以三元组规则实体构建安全漏洞知识图谱, 在图谱中结合实体及其关系识别安全缺陷报告. 将数据分为训练集和测试集进行模型拟合和性能评估. 所构建的模型在7个不同规模的安全缺陷报告数据集上展开实证研究, 研究结果表明, 所提方法与当前主流方法FARSEC和Keyword matrix相比, 在跨项目安全缺陷报告预测场景下, 性能指标F1-score值可以平均提高11%, 除此之外, 在项目内安全缺陷报告预测场景下, F1-score值同样可以平均提高30%.
    优先出版日期:  2023-07-05 , DOI: 10.13328/j.cnki.jos.006906
    摘要:
    软件产品线测试是一项非常具有挑战性的工作. 基于相似性的测试方法通过提升测试集的多样性以达到提高测试覆盖率和缺陷检测率的目的. 因其具有良好的可拓展性和较好的测试效果, 目前已成为软件产品线测试的重要手段之一. 在该测试方法中, 如何产生多样化的测试用例和如何维护测试集的多样性是两个关键问题. 针对以上问题, 提出一种基于多样性可满足性(SAT)求解器和新颖性搜索(novelty search, NS)的软件产品线测试算法. 具体地, 所提算法同时采用两类多样性SAT求解器产生多样化的测试用例. 特别地, 为了改善随机局部搜索SAT求解器的多样性, 提出一种基于概率向量的通用策略产生候选解. 此外, 为同时维护测试集的全局和局部多样性, 设计并运用两种基于NS算法思想的归档策略. 在50个真实软件产品线上的消融和对比实验验证多样性SAT求解器和两种归档策略的有效性, 以及所提算法较其他主流算法的优越性.
    优先出版日期:  2023-07-05 , DOI: 10.13328/j.cnki.jos.006907
    摘要:
    BPEL (business?process?execution language)是一种可执行的Web服务组合语言. 与传统程序相比, BPEL程序在编程模型、执行方式等方面存在较大差异. 这些新特点使得如何定位并修改测试阶段发现的BPEL程序故障成为挑战, 面向传统软件的故障修复技术难以直接应用于BPEL程序. 从变异分析角度出发, 提出一种基于模板匹配的BPEL程序故障修复方法BPELRepair. 为了克服基于变异分析的故障修复技术计算开销高的缺点, 从补丁生成、测试用例选择以及终止条件3个角度提出多种优化策略. 开发一个BPEL故障修复支持工具, 提高故障修复的自动化程度与效率. 采用经验研究的方式, 评估所提故障修复技术及优化策略的有效性. 实验结果表明, 所提故障修复方法能够成功修复约53%的BPEL程序故障; 所提优化策略能够显著降低搜索匹配、补丁程序验证、测试用例执行与故障修复等方面的开销.
    优先出版日期:  2023-07-05 , DOI: 10.13328/j.cnki.jos.006908
    [摘要] (149) [HTML] (0) [PDF 1.87 M] (195)
    摘要:
    量子计算理论上有望解决诸多经典难解问题, 近年来量子计算机的快速发展正推动这一理论进入实践. 然而, 当前硬件中繁多的错误会造成计算结果出错, 严重限制了量子计算机解决实际问题的能力. 量子计算系统软件位于应用与硬件之间, 充分挖掘系统软件在硬件错误减缓方面的潜力, 对于近期实现有实用价值的量子计算而言至关重要. 由此, 近期涌现了一批量子计算系统软件研究工作. 将这些工作归纳入编译器、运行时系统和调试器3个范畴, 通过对它们的分析总结, 梳理量子计算系统软件的研究现状, 揭示其在硬件错误减缓方面的重要作用. 并对未来的研究方向进行展望.
    优先出版日期:  2023-07-04 , DOI: 10.13328/j.cnki.jos.006835
    [摘要] (105) [HTML] (0) [PDF 5.97 M] (203)
    摘要:
    运行时配置为用户使用软件提供了灵活性和可定制性, 但其巨大的规模和复杂的机制也带来了巨大的挑战. 大量学者和研究机构针对软件运行时配置展开了研究, 以提升软件系统在复杂外部环境中的可用性和适应性. 建立运行时配置研究分析框架, 从配置分析与理解、配置缺陷检测与故障诊断、配置应用3个阶段对现有研究工作进行归类和分析, 总结归纳现有研究的不足和面临的挑战, 并对未来的研究趋势进行展望, 对下一步研究具有一定的指导意义.
    优先出版日期:  2023-07-04 , DOI: 10.13328/j.cnki.jos.006836
    摘要:
    以深度神经网络(deep neural networks, DNN)为基础构建的自动驾驶软件已成为最常见的自动驾驶软件解决方案. 与传统软件一样, DNN也会产生不正确输出或意想不到的行为, 基于DNN的自动驾驶软件已经导致多起严重事故, 严重威胁生命和财产安全. 如何有效测试基于DNN的自动驾驶软件已成为亟需解决的问题. 由于DNN的行为难以预测和被人类理解, 传统的软件测试方法难以适用. 现有的自动驾驶软件测试方法通常对原始图片加入像素级的扰动或对图片整体进行修改来生成测试数据, 所生成的测试数据通常与现实世界差异较大, 所进行扰动的方式也难以被人类理解. 为解决上述问题, 提出测试数据生成方法IATG (interpretability analysis-based test data generation), 使用DNN的解释方法获取自动驾驶软件所做出决策的视觉解释, 选择原始图像中对决策产生重要影响的物体, 通过将其替换为语义相同的其他物体来生成测试数据, 使生成的测试数据更加接近真实图像, 其过程也更易于理解. 转向角预测模型是自动驾驶软件决策模块重要组成部分, 以此类模型为例进行实验, 结果表明解释方法的引入有效增强IATG对转向角预测模型的误导能力. 此外, 在误导角度相同时IATG所生成测试数据比DeepTest更加接近真实图像; 与semSensFuzz相比, IATG具有更高误导能力, 且IATG中基于解释分析的重要物体选择技术可有效提高semSensFuzz的误导能力.
    优先出版日期:  2023-06-28 , DOI: 10.13328/j.cnki.jos.006898
    [摘要] (159) [HTML] (0) [PDF 1.18 M] (273)
    摘要:
    DNS作为重要的互联网基础设施, 其明文传输的特点带来很多隐私安全风险. DoH、DoT、DoQ等DNS信道传输加密技术致力于防止DNS数据被泄露或篡改, 并保证DNS消息来源的可靠性. 首先从DNS消息格式、数据存储和管理、系统架构和部署等6个方面分析明文DNS存在的隐私安全问题, 并对已有的相关技术和协议进行总结. 其次分析DNS信道传输加密技术的实现原理及应用现状, 进而基于多角度评测指标对各加密协议在不同网络条件下的性能表现进行讨论. 同时通过填充机制的局限性、加密流量识别和基于指纹的加密活动分析等方向探讨DNS信道传输加密技术的隐私保护效果. 此外从部署规范、恶意流量对加密技术的利用和攻击、隐私和网络安全管理之间的矛盾, 以及加密后影响隐私安全的其他因素等方面总结DNS信道传输加密技术存在的问题、挑战和相关解决方案. 最后总结加密DNS服务的发现、递归解析器到权威服务器之间的加密、服务器端的隐私保护、基于HTTP/3的DNS等后续需要着重关注的研究方向.
    优先出版日期:  2023-06-28 , DOI: 10.13328/j.cnki.jos.006899
    [摘要] (133) [HTML] (0) [PDF 1.64 M] (178)
    摘要:
    知识空间理论使用数学语言对学习者进行知识评价与学习指导, 属于数学心理学的研究范畴. 技能与问题是构成知识空间的两个基本要素, 深入研究两者之间的关系是知识状态刻画与知识结构分析的内在要求. 在当前的知识空间理论研究中, 没有明确建立技能与问题之间的双向映射, 从而难以提出直观概念意义下的知识结构分析模型, 也没有明确建立知识状态之间的偏序关系, 不利于刻画知识状态之间的差异, 更不利于规划学习者未来的学习路径. 此外, 现有的成果主要集中在经典的知识空间, 没有考虑实际问题中数据的不确定性. 为此, 将形式概念分析与模糊集引入知识空间理论, 建立面向知识结构分析的模糊概念格模型. 具体地, 分别建立知识空间与闭包空间的模糊概念格模型. 首先, 建立知识空间模糊概念格, 并通过任意两个概念的上确界证明所有概念的外延构成知识空间. 引入粒描述的思想定义技能诱导的问题原子粒, 由问题原子粒的组合判定一个问题组合是否是知识空间中的一个状态, 进而提出由问题组合获取知识空间模糊概念的方法. 其次, 建立闭包空间模糊概念格, 并通过任意两个概念的下确界证明所有概念的外延构成闭包空间. 类似地, 定义问题诱导的技能原子粒, 由技能原子粒的组合判定一个技能组合是否是闭包空间中某一知识状态所需的技能, 进而提出由技能组合获取闭包空间模糊概念的方法. 最后, 通过实验分析问题数量、技能数量、填充因子以及分析尺度对知识空间与闭包空间规模的影响. 结论表明知识空间模糊概念不同于现有的任何概念, 也不能从其他概念派生而来. 闭包空间模糊概念本质上是一种面向属性单边模糊概念. 在二值技能形式背景中, 知识空间与闭包空间中的状态具有一一对应关系, 但这种关系在模糊技能形式背景中并不成立.
    优先出版日期:  2023-06-28 , DOI: 10.13328/j.cnki.jos.006900
    [摘要] (107) [HTML] (0) [PDF 2.09 M] (316)
    摘要:
    日志是计算机系统中记录事件状态信息的的重要载体, 日志系统负责计算机系统的日志生成、收集和输出. OpenHarmony是新兴的、面向全设备、全场景的开源操作系统. 在所述工作之前, 包括日志系统在内OpenHarmony有许多关键子系统尚未构建, 而OpenHarmony的开源特性使第三方开发者可以为其贡献核心代码. 为了解决OpenHarmony日志系统缺乏的问题, 主要开展如下工作: ① 分析当今主流日志系统的技术架构和优缺点; ② 基于OpenHarmony操作系统的异构设备互联特性设计HiLog日志系统模型规范; ③ 设计并实现第1个面向OpenHarmony的日志系统HiLog, 并贡献到OpenHarmony主线; ④ 对HiLog日志系统的关键指标进行测试和对比试验. 实验数据表明, 在基础性能方面, HiLog和Log的日志写入阶段吞吐量分别为1 500 KB/s和700 KB/s, 相比Android日志系统吞吐量提升114%; 在日志持久化方面, HiLog可以3.5%的压缩率进行持久化, 并且丢包率小于6‰, 远低于Log. 此外, HiLog还具备数据安全、流量控制等新型实用能力.
    优先出版日期:  2023-06-28 , DOI: 10.13328/j.cnki.jos.006895
    [摘要] (233) [HTML] (0) [PDF 13.47 M] (204)
    摘要:
    视网膜层边界的形态变化是眼部视网膜疾病出现的重要标志, 光学相干断层扫描(optical coherence tomography, OCT)图像可以捕捉其细微变化, 基于OCT图像的视网膜层边界分割能够辅助相关疾病的临床判断. 在OCT图像中, 由于视网膜层边界的形态变化多样, 其中与边界相关的关键信息如上下文信息和显著性边界信息等对层边界的判断和分割至关重要. 然而已有分割方法缺乏对以上信息的考虑, 导致边界不完整和不连续. 针对以上问题, 提出一种“由粗到细”的基于端到端深度神经网络和图搜索(graph search, GS)的OCT图像视网膜层边界分割方法, 避免了非端到端方法中普遍存在的“断层”现象. 在粗分割阶段, 提出一种端到端的深度神经网络—注意力全局残差网络(attention global residual network, AGR-Net), 以更充分和有效的方式提取上述关键信息. 具体地, 首先设计一个全局特征模块(global feature module, GFM), 通过从图像的4个方向扫描以捕获OCT图像的全局上下文信息; 其次, 进一步将通道注意力模块(channel attention module, CAM)与全局特征模块串行组合并嵌入到主干网络中, 以实现视网膜层及其边界的上下文信息的显著性建模, 有效解决OCT图像中由于视网膜层形变和信息提取不充分所导致的误分割问题. 在细分割阶段, 采用图搜索算法去除AGR-Net粗分割结果中的孤立区域或和孔洞等, 保持边界的固定拓扑结构和连续平滑, 以实现整体分割结果的进一步优化, 为医学临床的诊断提供更完整的参考. 最后, 在两个公开数据集上从不同的角度对所提出的方法进行性能评估, 并与最新方法进行比较. 对比实验结果也表明所提方法在分割精度和稳定性方面均优于现有方法.
    优先出版日期:  2023-06-28 , DOI: 10.13328/j.cnki.jos.006829
    摘要:
    现如今, 深度神经网络在各个领域取得了广泛的应用. 然而研究表明, 深度神经网络容易受到对抗样本的攻击, 严重威胁着深度神经网络的应用和发展. 现有的对抗防御方法大多需要以牺牲部分原始分类精度为代价, 且强依赖于已有生成的对抗样本所提供的信息, 无法兼顾防御的效力与效率. 因此基于流形学习, 从特征空间的角度提出可攻击空间对抗样本成因假设, 并据此提出一种陷阱式集成对抗防御网络Trap-Net. Trap-Net在原始模型的基础上向训练数据添加陷阱类数据, 使用陷阱式平滑损失函数建立目标数据类别与陷阱数据类别间的诱导关系以生成陷阱式网络. 针对原始分类精度损失问题, 利用集成学习的方式集成多个陷阱式网络以在不损失原始分类精度的同时, 扩大陷阱类标签于特征空间所定义的靶标可攻击空间. 最终, Trap-Net通过探测输入数据是否命中靶标可攻击空间以判断数据是否为对抗样本. 基于MNIST、K-MNIST、F-MNIST、CIFAR-10和CIFAR-100数据集的实验表明, Trap-Net可在不损失干净样本分类精确度的同时具有很强的对抗样本防御泛化性, 且实验结果验证可攻击空间对抗成因假设. 在低扰动的白盒攻击场景中, Trap-Net对对抗样本的探测率高达85%以上. 在高扰动的白盒攻击和黑盒攻击场景中, Trap-Net对对抗样本的探测率几乎高达100%. 与其他探测式对抗防御方法相比, Trap-Net对白盒和黑盒对抗攻击皆有很强的防御效力. 为对抗环境下深度神经网络提供一种高效的鲁棒性优化方法.
    优先出版日期:  2023-06-28 , DOI: 10.13328/j.cnki.jos.006830
    [摘要] (156) [HTML] (0) [PDF 4.73 M] (199)
    摘要:
    动态内存分配器是现代应用程序重要组成部分, 它负责管理空闲内存并处理用户内存请求. 现代通用动态内存分配器能够提供较为平衡的性能与内存利用率, 但考虑到不同应用场景的内存使用情况和优化目标不同, 使用通用内存分配器并非最优解. 针对应用场景定制的专用内存分配器通常能够更好地满足系统需要, 然而编写专用内存分配器较为费时, 也容易出错. 开发者通常使用内存分配框架搭建专用动态内存分配器. 然而, 现有的内存分配框架存在抽象能力较差, 组合性与定制性不足的问题. 为此, 从函数式编程视角审视动态内存分配过程, 基于函数可组合性提出了一种可组合的定制化动态内存分配器框架榫卯. 榫卯框架将系统内存分配抽象为多个互不耦合的内存分配层级函数的组合, 这些层级函数能够扩展出策略槽, 以提供更高的定制性和组合性. 榫卯框架基于标准C实现, 依赖C预处理器的元编程特性实现层级函数组合的零性能开销. 开发者能够通过组合与定制分配器的层级函数, 快速构建出适合应用场景的内存分配器. 为了证明榫卯框架的有效性, 使用榫卯框架构建了3种不同的内存分配器实例: tlsfcc, hslab与wfslab, 其中tlsfcc针对多核嵌入式应用场景, 通过替换同步策略优化并发吞吐率; hslab是核心感知的slab式分配器, 通过定制线程缓存优化在异构硬件的性能; wfslab是低延迟的无等待/无锁分配器. 为了评估这3种内存分配器实例, 通过运行基准测试对比现有内存分配器. 实验分别在8核x86/64平台和8核异构aarch64嵌入式平台进行. 实验表明tlsfcc与原始tlsf分配器相比, 在上述两个平台上分别取得了平均1.76和1.59的加速比; 对比hslab与类似架构的tcmalloc, 它在两个平台的平均执行时间仅为tcmalloc的69.6%和85.0%; wfslab则取得了参与实验对比的内存分配器中最小的最差情况内存请求延迟, 其中包括目前最先进的无锁内存分配器mimalloc和snmalloc.
    优先出版日期:  2023-06-28 , DOI: 10.13328/j.cnki.jos.006893
    摘要:
    深度神经网络在许多领域中取得了显著的成果, 但相关研究结果表明, 深度神经网络很容易受到对抗样本的影响. 基于梯度的攻击是一种流行的对抗攻击, 引起了人们的广泛关注. 研究基于梯度的对抗攻击与常微分方程数值解法之间的关系, 并提出一种新的基于常微分方程数值解法-龙格库塔法的对抗攻击方法. 根据龙格库塔法中的预测思想, 首先在原始样本中添加扰动构建预测样本, 然后将损失函数对于原始输入样本和预测样本的梯度信息进行线性组合, 以确定生成对抗样本中需要添加的扰动. 不同于已有的方法, 所提出的方法借助于龙格库塔法中的预测思想来获取未来的梯度信息(即损失函数对于预测样本的梯度), 并将其用于确定所要添加的对抗扰动. 该对抗攻击具有良好的可扩展性, 可以非常容易地集成到现有的所有基于梯度的攻击方法. 大量的实验结果表明, 相比于现有的先进方法, 所提出的方法可以达到更高的攻击成功率和更好的迁移性.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006743
    [摘要] (108) [HTML] (0) [PDF 1.83 M] (213)
    摘要:
    $ (t, n) $门限隐私集合交集协议, 指$ N $个参与者各自拥有大小为$ n $的隐私集合, 在不泄露自身隐私信息的前提下, 如果各参与者交集数量大于门限值$ t $, 则参与各方能够获得交集信息, 其有广泛的应用, 如指纹识别、在线拼车、相亲网站等. 然而现有门限隐私集合交集协议大多针对两方参与者进行研究, 对多方门限隐私集合交集协议的研究仍存在许多挑战, 现有的多方门限隐私集合交集协议使用全同态加密等开销较大的公钥算法, 尚没有有效实现. 针对上述问题, 结合弹性秘密共享、布隆过滤器提出两种有效的多方门限隐私集合交集协议, 并首次仿真实现了协议. 首先, 设计一种新的布隆过滤器构造方法, 将弹性秘密共享生成的份额与参与方的集合元素相对应, 通过查询布隆过滤器获取的秘密子份额能否重构出正确秘密来判断各方交集是否达到门限值, 有效防止交集基数的泄露. 设计的第1个协议避免使用开销较大的公钥算法, 当设置安全参数$ \lambda $为128, 集合大小为$ {2^{14}} $, 门限值为$ 0.8n $时, 在三方场景下协议在线阶段的时间成本为191 s. 此外, 为了能在半诚实模型下抵抗至多$ N - 1 $个敌手合谋, 在第1个协议基础上结合不经意传输设计一种该协议的变体, 相同条件下, 在线阶段时间成本为194 s. 最后通过安全证明, 证明上述协议在半诚实模型下是安全的.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006744
    [摘要] (121) [HTML] (0) [PDF 6.05 M] (238)
    摘要:
    深度神经网络容易受到来自对抗样本的攻击, 例如在文本分类任务中修改原始文本中的少量字、词、标点符号即可改变模型分类结果. 目前NLP领域对中文对抗样本的研究较少且未充分结合汉语的语言特征. 从中文情感分类场景入手, 结合了汉语象形、表音等语言特征, 提出一种字词级别的高质量的对抗样本生成方法CWordCheater, 涵盖字音、字形、标点符号等多个角度. 针对形近字的替换方式, 引入ConvAE网络完成汉字视觉向量的嵌入, 进而生成形近字替换候选池. 同时提出一种基于USE编码距离的语义约束方法避免对抗样本的语义偏移问题. 构建一套多维度的对抗样本评估方法, 从攻击效果和攻击代价两方面评估对抗样本的质量. 实验结果表明, CWordAttacker在多个分类模型和多个数据集上能使分类准确率至少下降27.9%, 同时拥有更小的基于视觉和语义的扰动代价.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006745
    [摘要] (120) [HTML] (0) [PDF 7.08 M] (217)
    摘要:
    在过去的近10年中, 人工智能相关的服务和应用大规模出现, 它们要求高算力、高带宽和低时延. 边缘计算目前被认为是这些应用最适合的计算模式, 尤其是视频分析相关应用. 研究多服务器多用户异构视频分析任务卸载问题, 其中用户选择合适的边缘服务器, 并将他们的原始视频数据上传至服务器进行视频分析. 为了有效处理众多用户对有限网络资源的竞争和共享, 并且能够获得稳定的网络资源分配局面, 即每个用户不会单方面地改变自己的任务卸载决策, 该多服务器多用户异构视频分析任务卸载问题被建模为一个多玩家的博弈问题. 基于最小化整体时延的优化目标, 先后研究非分布式视频分析场景和分布式视频分析场景两种情形, 分别提出基于博弈论的潜在最优服务器选择算法和视频单元分配算法. 通过严格的数学证明, 两种情形下提出的算法均可以达到纳什均衡, 同时保证较低的整体时延. 最后, 基于真实数据集的大量实验表明, 所提方法比其他现有算法降低了平均26.3%的整体时延.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006746
    摘要:
    在软件开发过程中, 软件库可以减少开发时间和节约成本而被广泛使用, 因此现代软件项目包含多种不同来源的代码而使得系统具有更高的复杂性和多样性. 软件库在使用的过程中常常伴随着各种风险, 如低质量或安全漏洞, 从而严重影响软件项目的质量. 通过分析与软件库的耦合强度, 来量化由软件库的依赖关系而引入客户代码的复杂性和多样性. 首先, 根据客户代码与软件库之间方法的调用关系建立软件边界图模型, 区分开客户代码和软件库的代码边界; 进而基于此提出一套软件库依赖图谱的复杂性度量指标RMS, 用以量化不同来源软件之间的耦合强度. 在实验过程中, 挖掘Apache开源社区中10个流行软件所有历史版本数据, 最终收集到7857个真实项目间依赖缺陷问题. 在上述真实数据基础上, 结合所提出的复杂性度量指标RMS, 利用假设验证方法开展实证调查研究来探讨: H1: 风险因子更高的边界节点是否更容易引入更多数量的项目间依赖缺陷; H2: 风险因子更高的边界节点会是否更容易引入严重等级高的项目间依赖缺陷; H3: RMS度量指标数值多大程度地影响了引入项目间依赖缺陷数量和严重等级. 实验结果表明, 根据RMS度量指标评估, 与软件库耦合度更高的边界节点容易引入更多数量且严重等级高的项目间依赖缺陷. 与传统复杂性度量指标对比, RMS度量指标较大程度地影响了引入项目间依赖缺陷的数量和严重等级.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006747
    摘要:
    超阈值多方隐私集合求交协议(OT-MP-PSI)是PSI协议的变体, 允许m个参与方共同计算至少t (t≤m)个参与方中拥有相同元素的超阈值交集, 且保证仅拥有超阈值元素的参与方才能知晓该元素是否属于超阈值交集, 对于其他信息一无所知. OT-MP-PSI推广了PSI的实际应用场景. 现有方案均基于昂贵的公钥密码来构建, 其较大的计算量导致运行时间缓慢. 首先设计一个基于对称密码的不经意可编程伪随机秘密共享(OPPR-SS)密码组件, 并基于 OPPR-SS组件设计双云辅助的OT-MP-PSI协议, 将秘密分发和重构的任务分别交给不可信云服务器来辅助完成, 实现弱计算能力的参与方也能完成 OT-MP-PSI协议. 在半诚实模型下证明协议安全性. 相比现有的OT-MP-PSI协议, 所提协议在秘密分发和重构阶段均具有最优运行时间和通信负载, 参与方、共享方和重构方的通信复杂度不再与阈值t有关, 实现参与方常数轮的通信, 通信复杂度仅为O(n), 秘密分发方和重构方的计算复杂度仅与对称密码次数有关.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006738
    摘要:
    为解决量子通信过程中的身份认证及协议的可实现性问题, 提出一种基于测量设备无关的带身份认证服务器的量子安全直接通信协议, 并依据该协议提出一种量子投票方案. 该方案利用测量设备无关的量子密钥分配, 完备的量子加密, 以及经典的一次一密等技术, 不仅理论上确保方案的无条件安全性, 而在实际上也避免外部攻击者对测量设备漏洞的攻击. 此外, 该方案使用BB84态的弱相干脉冲作为量子资源, 仅实施单粒子操作, 以及识别Bell态的测量. 因此, 基于现有技术, 该方案具有良好的可实现性. 同时该方案扩展了身份认证功能, 引入比特承诺, 使得监票人可以验证投票信息的完整性和正确性. 仿真结果和分析表明, 所述方案是正确的并具有理论上无条件的安全性, 即信息理论安全. 相较于现有的量子投票方案, 所述方案具有更好的可行性.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006739
    [摘要] (101) [HTML] (0) [PDF 6.80 M] (246)
    摘要:
    GPU数据库近年来在学术界和工业界吸引了大量的关注. 尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统, 但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问, 如果能够超越, 那什么样的负载/数据/查询处理模型更加适合, 则需要更深入的研究. 基于GPU的OLAP引擎有两个主要的技术路线: GPU内存处理模式和GPU加速模式. 前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能, 不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率. 后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集, 主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率. 致力于将两种技术路线集成到OLAP加速引擎中, 研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator, 设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型, 实现GPU平台向量化查询处理技术, 优化显存利用率和查询性能, 探索GPU数据库的不同的技术路线和性能特征. 实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能, 与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速. 基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载, 能够比GPU内存模式支持更大的数据集.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006740
    摘要:
    近年来, 深度强化学习在复杂控制任务中取得了令人瞩目的效果, 然而由于超参数的高敏感性和收敛性难以保证等原因, 严重影响了其对现实问题的适用性. 元启发式算法作为一类模拟自然界客观规律的黑盒优化方法, 虽然能够有效避免超参数的敏感性, 但仍存在无法适应待优化参数量规模巨大和样本使用效率低等问题. 针对以上问题, 提出融合引力搜索的双延迟深度确定策略梯度方法(twin delayed deep deterministic policy gradient based on gravitational search algorithm, GSA-TD3). 该方法融合两类算法的优势: 一是凭借梯度优化的方式更新策略, 获得更高的样本效率和更快的学习速度; 二是将基于万有引力定律的种群更新方法引入到策略搜索过程中, 使其具有更强的探索性和更好的稳定性. 将GSA-TD3应用于一系列复杂控制任务中, 实验表明, 与前沿的同类深度强化学习方法相比, GSA-TD3在性能上具有显著的优势.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006741
    [摘要] (111) [HTML] (0) [PDF 6.69 M] (251)
    摘要:
    基于区块链的去中心化应用已在加密数字货币、云存储、物联网等多个领域提供健壮、可信且持久的服务, 然而区块链的吞吐能力难以满足去中心化应用日益增长的性能需求. 分片是当前主流的区块链性能优化技术, 但现有的区块链分片主要面向用户和用户之间的转账交易, 并不完全适用于以智能合约调用交易为主的去中心化应用. 针对此问题, 设计并实现面向智能合约分片的联盟区块链系统BETASCO. BETASCO为每个智能合约提供一个分片作为独立执行环境, 通过基于分布式散列表的合约定位服务将交易路由至目标智能合约所在的分片, 并通过智能合约间的异步调用机制满足跨智能合约的通信和协作需求. BETASCO通过节点虚拟化允许一个节点加入多个分片, 支持同一组节点上多个智能合约的并行执行. 实验结果表明, BETASCO整体吞吐能力可随智能合约数量的增加而线性增长, 且执行单个智能合约的吞吐能力与HyperLedger Fabric相当.
    优先出版日期:  2023-06-16 , DOI: 10.13328/j.cnki.jos.006742
    [摘要] (157) [HTML] (0) [PDF 3.31 M] (240)
    摘要:
    大多数跨模态哈希检索方法仅使用余弦相似度进行特征匹配, 计算方式过于单一, 没有考虑到实例的关系对于性能的影响. 为此, 提出一种基于多重实例关系图推理的方法, 通过构造相似度矩阵, 建立全局和局部的实例关系图, 充分挖掘实例之间的细粒度关系. 在多重实例关系图的基础上进行相似度推理, 首先分别进行图像模态和文本模态关系图内部的推理, 然后将模态内的关系映射到实例图中进行推理, 最后执行实例图内部的推理. 此外, 为了适应图像和文本两种模态的特点, 使用分步训练策略训练神经网络. 在MIRFlickr和NUS-WIDE数据集上实验表明, 提出的方法在mAP指标上具有很明显的优势, 在Top-k-Precision曲线上也获得良好的效果. 这也说明所提方法对实例关系进行深入挖掘, 从而显著地提升检索性能.
    优先出版日期:  2023-06-14 , DOI: 10.13328/j.cnki.jos.006831
    摘要:
    口语理解(spoken language understanding, SLU)是面向任务的对话系统的核心组成部分, 其旨在提取用户查询的语义框架. 在对话系统中, 口语理解组件(SLU)负责识别用户的请求, 并创建总结用户需求的语义框架, SLU通常包括两个子任务: 意图检测(intent detection, ID)和槽位填充(slot filling, SF). 意图检测是一个语义话语分类问题, 在句子层面分析话语的语义; 槽位填充是一个序列标注任务, 在词级层面分析话语的语义. 由于意图和槽之间的密切相关性, 主流的工作采用联合模型来利用跨任务的共享知识. 但是ID和SF是两个具有强相关性的不同任务, 它们分别表征了话语的句级语义信息和词级信息, 这意味着两个任务的信息是异构的, 同时具有不同的粒度. 提出一种用于联合意图检测和槽位填充的异构交互结构, 采用自注意力和图注意力网络的联合形式充分地捕捉两个相关任务中异构信息的句级语义信息和词级信息之间的关系. 不同于普通的同构结构, 所提模型是一个包含不同类型节点和连接的异构图架构, 因为异构图涉及到更全面的信息和丰富的语义, 同时可以更好地交互表征不同粒度节点之间的信息. 此外, 为了更好地适应槽标签的局部连续性, 利用窗口机制来准确地表示词级嵌入表示. 同时结合预训练模型(BERT), 分析所提出模型应用预训练模型的效果. 所提模型在两个公共数据集上的实验结果表明, 所提模型在意图检测任务上准确率分别达到了97.98%和99.11%, 在槽位填充任务上F1分数分别达到96.10%和96.11%, 均优于目前主流的方法.
    优先出版日期:  2023-06-14 , DOI: 10.13328/j.cnki.jos.006833
    [摘要] (195) [HTML] (0) [PDF 2.77 M] (269)
    摘要:
    近年来, RGB-D显著性检测方法凭借深度图中丰富的几何结构和空间位置信息, 取得了比RGB显著性检测模型更好的性能, 受到学术界高度关注. 然而, 现有的RGB-D检测模型仍面临着持续提升检测性能的需求. 最近兴起的Transformer擅长建模全局信息, 而卷积神经网络(CNN)擅长于提取局部细节. 因此, 如何有效结合CNN和Transformer两者的优势, 挖掘全局和局部信息, 将有助于提升显著性目标检测的精度. 为此, 提出一种基于跨模态交互融合与全局感知的RGB-D显著性目标检测方法, 通过将Transformer网络嵌入U-Net中, 从而将全局注意力机制与局部卷积结合在一起, 能够更好地对特征进行提取. 首先借助U-Net编码-解码结构, 高效地提取多层次互补特征并逐级解码生成显著特征图. 然后, 使用Transformer模块学习高级特征间的全局依赖关系增强特征表示, 并针对输入采用渐进上采样融合策略以减少噪声信息的引入. 其次, 为了减轻低质量深度图带来的负面影响, 设计一个跨模态交互融合模块实现跨模态特征融合. 最后, 5个基准数据集上的实验结果表明, 所提算法与其他最新的算法相比具有显著优势.
    优先出版日期:  2023-06-14 , DOI: 10.13328/j.cnki.jos.006825
    摘要:
    社会法则是在多Agent系统中为确立某种目标属性而对各个Agent实施的行为限制集合. 在Agent具有“个体理性”及“私有信息”的“策略情况”下, 社会法则合成问题不应建模成通常的优化问题, 而应建模成算法机制设计问题. “最小化副作用”经常是社会法则需要满足的基本要求. 从博弈论的角度来看, 最小化副作用与“最大化社会福利”的概念紧密相关, 可以将“最小化副作用的社会法则合成”建模为一种效率机制设计问题. 不仅需要为给定目标属性找到有效且社会福利最大的社会法则, 还需要向Agent支付适当的金额, 以实现激励相容性和个体理性. 首先基于VCG机制设计一种名叫VCG-SLM的效率机制, 证明它可满足所有必需的形式属性. 然而, 由于发现可证明该机制的计算是一个FPNP-完全问题, 针对性地提出该机制的一种基于整数规划的实现方式VCG-SLM-ILP, 基于ATL语义将分配及支付的计算转化为整数规划, 并严格地证明其正确性, 从而可有效利用目前已非常成熟的工业级整数规划求解器, 成功解决棘手的机制计算问题.
    优先出版日期:  2023-06-14 , DOI: 10.13328/j.cnki.jos.006828
    [摘要] (279) [HTML] (0) [PDF 4.46 M] (403)
    摘要:
    软件漏洞是计算机软件系统安全方面的缺陷, 给现代软件及其应用数据的完整性、安全性和可靠性带来巨大威胁. 人工治理漏洞费时且易错, 为了更好应对漏洞治理挑战, 研究者提出多种自动化漏洞治理方案, 其中漏洞自动修复方法近来得到研究者广泛关注. 漏洞自动修复技术旨在辅助开发人员修复漏洞, 涵盖漏洞根因定位、补丁生成、补丁验证等功能. 现有工作缺乏对漏洞修复技术系统性的分类与讨论, 为了促进漏洞修复技术发展, 加深研究人员对漏洞修复问题的认知理解, 对现有漏洞修复方法技术的理论、实践、适用场景和优缺点进行全面洞察, 并撰写了漏洞自动修复技术的研究综述. 主要内容包括: (1)按照修复漏洞类型不同整理归纳特定类型漏洞的修复方法以及通用类型漏洞的修复方法; (2)按照所采用的技术原理将不同修复方法进行分类与总结; (3)归纳漏洞修复主要挑战; (4)展望漏洞修复未来发展方向.
    优先出版日期:  2023-06-14 , DOI: 10.13328/j.cnki.jos.006819
    [摘要] (113) [HTML] (0) [PDF 3.84 M] (223)
    摘要:
    联邦学习作为解决数据孤岛问题的有效方法, 在服务器计算全部梯度的过程中, 由于服务器的惰性和自利性会存在全局梯度不正确计算问题, 因此需要验证全局梯度的完整性. 现有的基于密码算法的方案验证开销过大. 针对这些问题, 提出一种理性与可验证的联邦学习框架. 首先, 结合博弈论, 设计囚徒合约与背叛合约迫使服务器诚实. 其次, 所提方案使用基于复制的验证方案实现全局梯度的完整性验证, 且支持客户端离线. 最后, 经分析证明所提方案的正确性, 并经实验表明, 该方案与已有的验证算法相比, 客户端的计算开销降为零, 一次迭代的通信轮数由原来的3轮优化到2轮, 且训练开销与客户端的离线率成反比.
    优先出版日期:  2023-06-14 , DOI: 10.13328/j.cnki.jos.006896
    [摘要] (137) [HTML] (0) [PDF 10.38 M] (223)
    摘要:
    异构众核架构具有超高的能效比, 已成为超级计算机体系结构的重要发展方向. 然而, 异构系统的复杂性给应用开发和优化提出了更高要求, 其在发展过程中面临好用性和可编程性等众多技术挑战. 我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro. 为了发挥新一代众核处理器的性能优势, 支撑新兴科学计算应用的开发和优化, 设计并实现面向SW26010Pro平台的优化编译器swLLVM. 该编译器支持Athread和SDAA双模态异构编程模型, 提供多级存储层次描述及向量操作扩展, 并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化. 测试结果表明, 所设计并实现的编译优化效果显著, 其中, 控制流向量化和节点合并优化的平均加速比分别为1.23和1.11, 而访存相关优化最高可获得2.49倍的性能提升. 最后, 使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估, 相较于SWGCC的相同优化级别, swLLVM整型课题性能平均下降0.12%, 浮点型课题性能平均提升9.04%, 整体性能平均提升5.25%, 编译速度平均提升79.1%, 代码尺寸平均减少1.15%.
    优先出版日期:  2023-06-07 , DOI: 10.13328/j.cnki.jos.006817
    摘要:
    秩函数法是循环终止性分析的主要方法, 秩函数的存在表明了循环程序是可终止的. 针对单分支线性约束循环程序, 提出一个新的方法对此类循环的终止性进行分析. 基于增函数法向空间的计算, 该方法将原程序空间上的秩函数计算问题归结为其子空间上的秩函数计算问题. 实验表明, 该方法能有效验证现有文献中大部分循环程序的终止性.
    优先出版日期:  2023-06-07 , DOI: 10.13328/j.cnki.jos.006897
    摘要:
    多行为推荐系统旨在利用用户多种行为的交互数据来提升系统的推荐性能. 现有的多行为推荐方法通常将多行为数据直接作用于共享的初始化用户表征上, 并在任务中糅合了对用户偏好的挖掘和对不同行为间联系的建模. 然而, 这些算法忽视了不同交互行为中存在的数据不平衡问题(不同行为交互数据量差别较大)以及适配上述两种任务而引起的信息损失问题. 事实上, 用户偏好是指用户在不同行为中表现出来的喜好(例如, 浏览的喜好), 而各行为间的联系表现为用户偏好在不同行为间潜在的转化关系(例如, 浏览转换为购买). 在多行为推荐中, 对用户偏好的挖掘和对行为间联系的建模可以看作两个阶段的任务. 基于上述讨论, 提出基于两阶段学习的多行为推荐. 两阶段策略设计的优势是解耦了前述两种任务. 两阶段策略采取固定参数交替训练的方式实现, 并同时保留了模型端到端的结构. 1)第1阶段专注于不同行为下的用户偏好建模: 先利用所有交互数据(不区分行为类别)对用户的全局喜好进行建模, 以最大程度缓解数据稀疏性问题, 再分别利用各行为的交互数据细化该特定行为下的用户偏好(局部偏好), 以减轻不同行为之间的数据不平衡问题造成的影响. 2)第2阶段专注于对不同行为间联系的建模, 通过解耦对用户偏好的挖掘和对不同行为间联系的建模, 以缓解因适配两种任务而引起的信息损失问题. 这种两阶段模式能够显著提升系统对目标行为的预测能力. 大量实验结果表明, 所提模型在性能上远优于最先进的基线模型, 在Tmall和Beibei两个真实基准数据集上的性能提升平均可以达到103.01%和33.87%.
    优先出版日期:  2023-05-31 , DOI: 10.13328/j.cnki.jos.006827
    [摘要] (205) [HTML] (0) [PDF 1.01 M] (295)
    摘要:
    微服务架构得到了广泛的部署与应用, 提升了软件系统开发的效率, 降低了系统更新与维护的成本, 提高了系统的可扩展性. 但微服务变更频繁、异构融合等特点使得微服务故障频发、其故障传播快且影响大, 同时微服务间复杂的调用依赖关系或逻辑依赖关系又使得其故障难以被及时、准确地定位与诊断, 对微服务架构系统的智能运维提出了挑战. 服务依赖发现技术从系统运行时数据中识别并推断服务之间的调用依赖关系或逻辑依赖关系, 构建服务依赖关系图, 有助于在系统运行时及时、精准地发现与定位故障并诊断根因, 也有利于如资源调度、变更管理等智能运维需求. 首先就微服务系统中服务依赖发现问题进行分析, 其次, 从基于监控数据、系统日志数据、追踪数据等3类运行时数据的角度总结分析了服务依赖发现技术的技术现状; 然后, 以基于服务依赖关系图的故障根因定位、资源调度与变更管理等为例, 讨论了服务依赖发现技术应用于智能运维的相关研究. 最后, 对服务依赖发现技术如何准确地发现调用依赖关系和逻辑依赖关系, 如何利用服务依赖关系图进行变更治理进行了探讨并对未来的研究方向进行了展望.
    优先出版日期:  2023-05-24 , DOI: 10.13328/j.cnki.jos.006894
    [摘要] (115) [HTML] (0) [PDF 2.96 M] (296)
    摘要:
    深度学习在图像、文本、语音等媒体数据的分析任务上取得了优异的性能. 数据增强可以非常有效地提升训练数据的规模以及多样性, 从而提高模型的泛化性. 但是, 对于给定数据集, 设计优异的数据增强策略大量依赖专家经验和领域知识, 而且需要反复尝试, 费时费力. 近年来, 自动化数据增强通过机器自动设计数据增强策略, 已引起了学界和业界的广泛关注. 为了解决现有自动化数据增强算法尚无法在预测准确率和搜索效率之间取得良好平衡的问题, 提出一种基于自引导进化策略的自动化数据增强算法SGES AA. 首先, 设计一种有效的数据增强策略连续化向量表示方法, 并将自动化数据增强问题转换为连续化策略向量的搜索问题. 其次, 提出一种基于自引导进化策略的策略向量搜索方法, 通过引入历史估计梯度信息指导探索点的采样与更新, 在能够有效避免陷入局部最优解的同时, 可提升搜索过程的收敛速度. 在图像、文本以及语音数据集上的大量实验结果表明, 所提算法在不显著增加搜索耗时的情况下, 预测准确率优于或者匹配目前最优的自动化数据增强方法.
    优先出版日期:  2023-05-24 , DOI: 10.13328/j.cnki.jos.006823
    [摘要] (153) [HTML] (0) [PDF 6.27 M] (351)
    摘要:
    如何减轻安全回复和重复回复一直是开放域多轮对话模型的两大挑战性难题. 然而, 现有开放域对话模型往往忽略了对话目标的引导性作用, 以及如何在对话历史和对话目标中引入和选择更精确的知识信息. 鉴于此, 提出基于知识增强的多轮对话模型. 所提模型首先将对话历史中实词进行义原及领域词替换, 达到消除歧义和丰富对话文本表示的效果. 然后将经过知识增强后的对话历史、扩充的三元组世界知识、知识管理和知识拷贝加以集成, 以融合知识、词汇、对话历史和对话目标多种信息, 生成多样性回复. 通过两个国际基准开放域汉语对话语料库上的实验结果及可视化验证所提模型同时在自动评测和人工评测上的有效性.
    优先出版日期:  2023-05-24 , DOI: 10.13328/j.cnki.jos.006813
    [摘要] (266) [HTML] (0) [PDF 12.20 M] (396)
    摘要:
    从单体系统迁移到微服务系统是当前业界对遗留系统实施再工程化的主流选项之一, 基于单体遗留系统的微服务体系架构重构则是实现该迁移的关键步骤. 目前学界多集中在微服务识别方法的研究上; 业界虽有许多面向微服务架构的遗留系统重构的实践, 但缺乏系统性的方法及高效鲁棒的工具. 鉴于此, 在微服务识别与模型驱动开发方法前期研究的基础上, 研发一种模型驱动的、可用于单体遗留系统微服务化重构的集成设计平台MSA-Lab. 它通过分析单体遗留系统运行日志中的方法调用序列, 对其中的类和数据表进行类型识别和聚类以构造抽象微服务, 同时生成包括微服务图和微服务序列图在内的系统架构设计模型. 它包括用于微服务自动识别与设计模型自动生成的核心部件MSA-Generator, 以及用于微服务静态结构模型与动态行为模型可视化展现、交互式建模、模型语法约束检验的核心部件MSA-Modeller. 在MSA-Lab平台上, 通过对4个开源项目实施有效性、鲁棒性、功能转换完备性等实验以及对3个同类型工具实施性能对比实验; 结果表明: 所提平台拥有很好的有效性、鲁棒性及实现面向日志的功能转换完备性, 且性能更加优越.
    优先出版日期:  2023-05-24 , DOI: 10.13328/j.cnki.jos.006822
    [摘要] (189) [HTML] (0) [PDF 8.04 M] (473)
    摘要:
    数据复制是分布式数据库提高可用性的重要手段, 通过在不同区域放置数据库的部分副本, 还可以提高本地读写操作的响应速度, 增加副本数量也会提升读负载的线性扩展能力. 考虑到这些优良特性, 近年来国内外都出现了众多多副本分布式数据库系统, 包括Google Spanner、CockroachDB、TiDB、OceanBase等一系列主流的工业界系统, 也出现了包括Calvin、Aria、Berkeley Anna等一系列优秀的学术界系统. 然而, 多副本数据库带来诸多收益的同时, 也带来了一致性维护、跨节点事务、事务隔离等一系列挑战. 总结分析现有的复制架构、一致性维护策略、跨节点事务并发控制等技术, 对比几个代表性多副本数据库系统之间在分布式事务处理方面上的差异与共同点, 并在阿里云环境下搭建跨区域的分布式集群环境, 对几个代表性系统的分布式事务处理能力进行了实验测试分析.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006727
    [摘要] (120) [HTML] (0) [PDF 7.60 M] (427)
    摘要:
    给出批量矩阵的LU分解和批量求逆算法在GPU上实现及优化方法. 针对批量LU分解问题, 分析Left-looking和Right-looking等常用LU分解块算法在GPU上实现时对全局内存的数据读写次数, 针对GPU架构特点, 选择具有较少访存数据量的Left-looking块算法. 在LU分解的选主元过程, 采用适合GPU架构的并行二叉树搜索算法. 此外, 为了降低选主元引起的行交换过程对算法性能的影响, 提出Warp分组行交换和行交换延迟2个优化技术. 针对LU分解后的批量求逆问题, 分析矩阵求逆过程中修正方法, 为了减少修正过程对全局内存的访问, 在批量求逆的GPU实现中采用延迟修正的矩阵求逆块算法. 同时, 为了加快数据读写速度, 采用更多利用寄存器和共享内存的优化方法和减少访存数据量的列交换优化方法. 另外, 为了避免线程的闲置和共享内存等GPU资源浪费, 提出运行时动态GPU资源分配方法, 相较于一次性分配的静资源分配方法性能得到明显提升. 最终, 在TITAN V GPU上, 我们对10000个规模在33–190之间的随机矩阵进行测试, 测试的数据类型为单精度复数、双精度复数、单精度实数和双精度实数. 我们实现的批量LU分解算法的浮点计算性能分别可达到约2 TFLOPS、1.2 TFLOPS、1 TFLOPS、0.67 TFLOPS, 与CUBLAS中的实现相比加速比最高分别达到了约9×、8×、12×、13×, 与MAGMA中的实现相比加速比分别达到了约1.2×–2.5×、1.2×–3.2×、1.1×–3×、1.1×–2.7×. 批量求逆算法的浮点计算性能分别可达到约4 TFLOPS、2 TFLOPS、2.2 TFLOPS、1.2 TFLOPS, 与CUBLAS中的实现相比加速比最高分别达到了约5×、4×、7×、7×, 与MAGMA中的实现相比加速比分别达到了约2×–3×、2×–3×、2.8×–3.4×、1.6×–2×.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006728
    [摘要] (128) [HTML] (0) [PDF 8.36 M] (403)
    摘要:
    近年来, 随着互联网信息传播以及新型冠状病毒COVID-19传播链阻断等重大应用问题的出现, 社会网络影响最大化问题的研究受到了科学界广泛关注. 影响最大化问题旨在根据特定应用问题的传播模型, 识别出最优影响种子节点集, 最大化其信息传播影响. 现有影响最大化算法主要针对单连接影响传播模型, 将影响最大化问题模拟为离散的影响力种子节点组合选取优化问题. 然而, 这些算法具有较高的计算时间复杂度, 且无法解决具有大规模冲突关系的符号网络影响最大化问题. 针对上述问题, 首先, 构建适用于符号网络的正负影响传播模型以及影响最大化优化模型. 其次, 通过引入由神经网络构成的deep Q network来选取种子节点集, 将离散的种子节点组合选取问题转化为更易优化的网络权重连续优化问题. 最后, 提出基于演化深度强化学习的符号网络影响最大化算法SEDRL-IM. 该算法将演化算法的个体视作策略, 结合演化算法的无梯度全局搜索以及强化学习的局部搜索特性, 实现对deep Q network权重优化问题解的有效搜索, 从而找到最优影响种子节点集. 在基准符号网络以及真实社交网络数据集上的大量实验结果表明, 所提算法在影响传播范围与求解效率上都优于经典的基准算法.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006729
    [摘要] (104) [HTML] (0) [PDF 2.77 M] (237)
    摘要:
    社交媒体主题检测旨在从大规模短帖子中挖掘潜在的主题信息. 由于帖子形式简短、表达非正规化, 且社交媒体中用户交互复杂多样, 使得该任务具有一定的挑战性. 前人工作仅考虑了帖子的文本内容, 或者同时对同构情境下的社交上下文进行建模, 忽略了社交网络的异构性. 然而, 不同的用户交互方式, 如转发, 评论等, 可能意味着不同的行为模式和兴趣偏好, 其反映了对主题的不同的关注与理解; 此外, 不同用户对同一主题的发展和演化具有不同影响, 社区中处于引领地位的权威用户相对于普通用户对主题推断会产生更重要的作用. 因此, 提出一种新的多视图主题模型(multi-view topic model, MVTM), 通过编码微博会话网络中的异构社交上下文来推断更加完整、连贯的主题. 首先根据用户之间的交互关系构建一个属性多元异构会话网络, 并将其分解为具有不同交互语义的多个视图; 接着, 考虑不同交互方式与不同用户的重要性, 借助邻居级注意力和交互级注意力机制, 得到特定视图的嵌入表示; 最后, 设计一个多视图驱动的神经变分推理方法, 以捕捉不同视图之间的深层关联, 并自适应地平衡它们的一致性和独立性, 从而产生更连贯的主题. 在3个月新浪微博数据集上的实验结果证明所提方法的有效性.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006730
    摘要:
    选择式阅读理解通常采用证据抽取和答案预测的两阶段流水线框架, 答案预测的效果非常依赖于证据句抽取的效果. 传统的证据抽取多依赖词段匹配或利用噪声标签监督证据抽取的方法, 准确率不理想, 这极大地影响了答案预测的性能. 针对该问题, 提出一种联合学习框架下基于多视角图编码的选择式阅读理解方法, 从多视角充分挖掘文档句子之间以及文档句子和问句之间的关联关系, 实现证据句及其关系的有效建模; 同时通过联合训练证据抽取和答案预测任务, 利用证据和答案之间强关联关系提升证据抽取与答案预测的性能. 具体来说, 该方法首先基于多视角图编码模块对文档、问题和候选答案联合编码, 从统计特性、相对距离和深度语义3个视角捕捉文档、问题和候选答案之间的关系, 获得问答对感知的文档编码特征; 然后, 构建证据抽取和答案预测的联合学习模块, 通过协同训练强化证据与答案之间的关系, 证据抽取子模块实现证据句的选择, 并将其结果和文档编码特征进行选择性融合, 并用于答案预测子模块完成答案预测. 在选择式阅读理解数据集ReCO和RACE上的实验结果表明, 所提方法提升了从文档中选择证据句子的能力, 进而提高答案预测的准确率. 同时, 证据抽取与答案预测联合学习很大程度减缓了传统流水线所导致的误差累积问题.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006731
    摘要:
    在基于事件的社交网络(EBSNs)上, 事件规划一直是一个热点研究问题. 事件规划问题的核心是基于事件和用户的约束条件, 对于一组事件, 为每个事件选择一组用户, 以最大化预先定义的目标函数. 在实际应用中, 事件冲突、事件容量、用户容量、社交偏好、事件偏好, 简称为CCP, 即冲突conflict、容量capacity、偏好preference, 是规划方案需要考虑的重要因素. 然而, 现有的所有工作均未在研究事件规划问题时考虑CCP. 为了获得更加合理有效的规划方案, 首次提出一种CCP事件规划问题. 相比只考虑部分因素的规划, CCP事件规划面临着问题更复杂、约束条件更多的困难. 为了有效求解该问题, 提出事件导向的贪心用户选择算法、事件导向的动态规划算法及基于收益预测的快速版本和事件导向的近似最优用户选择算法. 大量的实验结果验证所提算法的有效性和高效性.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006733
    [摘要] (121) [HTML] (0) [PDF 6.01 M] (386)
    摘要:
    WiFi作为当前最重要的通信方式之一, 基于WiFi信号的室内定位系统最有望在日常生活中得到广泛地部署应用. 最新研究表明, 当采用WiFi通信过程中获取的信道状态信息(CSI)对目标进行定位时, 系统可实现亚米级的定位精度. 然而, 实验场景下的定位精度受到测试样点位置、WiFi设备布局、天线布局等诸多因素的影响. 因为目前仍缺少WiFi CSI定位性能预测方法, WiFi定位系统部署后往往难以获得预期的精度. 为此, 面向多样化场景提出WiFi CSI定位性能的预测模型. 首先, 从CSI定位的基本物理模型出发, 定义天线对的误差微元函数, 并通过对定位空间的分析生成误差微元矩阵以及定位性能热度图; 其次, 对天线对进行拓展, 通过引入多天线融合方法、多设备融合方法构建通用的CSI定位性能预测模型; 最后, 为了将真实场景地图考虑在内, 提出将上述热度图与场景地图相融合的方法, 从而实现场景定制化的性能预测. 在理论分析的基础上, 结合2个不同场景下的实验数据验证了定位性能预测模型有效性. 实验结果表明, 实际定位精度的变化趋势与理论模型相吻合, 通过理论模型分析可将定位精度优化32%–37%.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006734
    [摘要] (117) [HTML] (0) [PDF 2.22 M] (262)
    摘要:
    时间序列分割是数据挖掘领域中的一个重要研究方向. 目前基于矩阵轮廓(matrix profile, MP)的时间序列分割技术得到了越来越多研究人员的关注, 并且取得了不错的研究成果. 不过该技术及其衍生算法仍然存在不足: 首先, 基于矩阵轮廓的快速低代价语义分割算法中对给定活动状态的时间序列分割时, 最近邻之间通过弧进行连接, 会出现弧跨越非目标活动状态匹配相似子序列问题; 其次, 现有提取分割点算法在提取分割点时采用给定长度窗口, 容易得到与真实值偏差较大的分割点, 降低准确性. 针对以上问题, 提出一种限制弧跨越的时间序列分割算法(limit arc curve cross-FLOSS, LAC-FLOSS), 该算法给弧添加权重, 形成一种带权弧, 并通过设置匹配距离阈值解决弧的跨状态子序列误匹配问题. 此外, 提出一种改进的提取分割点算法(improved extract regimes, IER), 它通过纠正弧跨越(corrected arc crossings, CAC)序列的形状特性, 从波谷中提取极值, 避免直接使用窗口在非拐点处取到分割点的问题. 在公开数据集datasets_seg和MobiAct上面进行对比实验, 验证以上两种解决方案的可行性和有效性.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006735
    [摘要] (282) [HTML] (0) [PDF 7.23 M] (482)
    摘要:
    随着信息技术与教育的深度融合, 蓬勃发展的在线教育已成为教育信息化进程的新常态, 并产生了海量的教育数据, 但也面临辍学率高、课程完成率低、监管不足等问题, 因此如何对海量教育数据进行挖掘和分析是解决这些问题的关键. 学习共同体是以学习者为核心要素的学习组织, 强调学习过程中学习者之间互动交流、资源共享以及协作学习等行为, 从而完成共同的学习任务或目标. 对在线教育环境中学习共同体的研究进行回顾、分析和展望. 首先, 介绍在线教育环境中学习共同体的背景与重要性. 其次, 介绍不同学科中学习共同体的定义. 然后, 总结同质、异质和混合3种类型学习共同体的构建方法. 接着, 从共享、协作和激励3个方面讨论学习共同体的管理机制. 最后, 探讨和展望学习共同体未来的研究方向.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006736
    [摘要] (119) [HTML] (0) [PDF 6.55 M] (320)
    摘要:
    视频描述技术旨在为视频自动生成包含丰富内容的文字描述, 近年来吸引了广泛的研究兴趣. 一个准确而精细的视频描述生成方法, 不仅需要对视频有全局上的理解, 更离不开具体显著目标的局部空间和时序特征. 如何建模一个更优的视频特征表达, 一直是视频描述工作的研究重点和难点. 另一方面, 大多数现有工作都将句子视为一个链状结构, 并将视频描述任务视为一个生成单词序列的过程, 而忽略了句子的语义结构, 这使得算法难以应对和优化复杂的句子描述及长句子中易引起的逻辑错误. 为了解决上述问题, 提出一种新颖的语言结构引导的可解释视频语义描述生成方法, 通过设计一个基于注意力的结构化小管定位机制, 充分考虑局部对象信息和句子语义结构. 结合句子的语法分析树, 所提方法能够自适应地加入具有文本内容的相应时空特征, 进一步提升视频描述的生成效果. 在主流的视频描述任务基准数据集MSVD和MSR-VTT上的实验结果表明, 所提出方法在大多数评价指标上都达到了最先进的水平.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006737
    [摘要] (138) [HTML] (0) [PDF 4.64 M] (370)
    摘要:
    随着信息通信技术的不断突破与发展, 信息获取变得非常便利. 与此同时, 隐私信息也更容易泄露. 将智能领域与安全多方计算技术相结合, 有望解决隐私保护问题. 目前, 安全多方计算已经解决了许多不同隐私保护问题, 但还有更多的问题等待人们去解决. 对于极差、极值和的安全多方计算问题目前研究的结果很少, 极差、极值和作为统计学的常用工具在实际中有广泛的应用, 研究极差、极值和的保密计算具有重要意义. 本文提出了新编码方法, 用新编码方法解决了两种不同的安全多方计算问题, 一是极差的保密计算问题, 二是极值和的保密计算问题. 新编码方法结合Lifted ElGamal门限密码系统, 设计多方参与、每方拥有一个数据场景下分布式隐私数据集极差的保密计算协议; 将新编码方法稍作改动解决相同场景下保密计算极值和的问题. 以此为基础, 对新编码方法进一步修改, 结合Paillier密码系统设计了两方参与、每方拥有多个数据情况下分布式隐私数据集极差、极值和的保密计算协议. 用模拟范例方法证明协议在半诚实模型下的安全性. 最后, 用模拟实验测试协议的复杂性. 效率分析和实验结果表明本文协议简单高效, 可广泛用于实际应用中, 是解决其他很多安全多方计算问题的重要工具.
    优先出版日期:  2023-05-17 , DOI: 10.13328/j.cnki.jos.006826
    摘要:
    近年来, 随着普适计算概念的深入人心, 智能感知技术已成为研究者们关注的焦点, 且基于WiFi的非接触式感知因其优秀的普适性、低廉的部署成本以及良好的用户体验越来越受到学术界和工业界的青睐. 典型的WiFi非接触式感知工作有手势识别、呼吸检测、入侵检测、行为识别等, 这些工作若实际部署, 需首先避免其他无关区域中无关行为的干扰, 因此需要判断目标是否进入到特定的感知区域中. 这意味着系统应具备精准判断目标在界线哪一侧的能力, 然而现有工作没能找到一个可以对某个自由设定的边界进行精确监控的方法, 这阻碍了WiFi感知应用的实际落地. 基于这一关键问题, 从电磁波衍射的物理本质出发, 结合菲涅尔衍射模型(Fresnel diffraction model), 找到一种目标穿越link (收发设备天线的连线)时的信号特征(Rayleigh distribution in Fresnel diffraction model, RFD), 并揭示该信号特征与人体活动之间的数学关系; 之后以link作为边界, 结合天线间距带来的波形时延以及AGC (automatic?gain?control)在link被遮挡时的特征, 通过越线检测实现对边界的监控. 在此基础上, 还实现两个实际应用, 即入侵检测系统和居家状态监测系统, 前者的精确率超过89%、召回率超过91%, 后者的准确率超过89%, 在验证所提边界监控算法的可用性和鲁棒性的同时, 也展示了所提方法与其他WiFi感知技术相结合的巨大潜力, 为WiFi感知技术的实际部署提供思考方向.
    优先出版日期:  2023-05-17 , DOI: 10.13328/j.cnki.jos.006821
    [摘要] (107) [HTML] (0) [PDF 9.43 M] (373)
    摘要:
    因严重遮挡和剧烈形变等挑战长期共存, 精准鲁棒的视频分割已成为计算机视觉的热点之一. 构建联合吸收马尔可夫链和骨架映射的视频分割方法, 经由“预分割—后优化—再提升”逐步递进地生成精准目标轮廓. 预分割阶段, 基于孪生网络和区域生成网络获取目标感兴趣区域, 建立这些区域内超像素的吸收马尔可夫链, 计算出超像素的前景/背景标签. 吸收马尔可夫链可灵活有效的感知和传播目标特征, 能从复杂场景初步预分割出目标物体. 后优化阶段, 设计短期时空线索模型和长期时空线索模型, 以获取目标的短期变化规律和长期稳定特征, 进而优化超像素标签, 降低相似物体和噪声带来的误差. 再提升阶段, 为减少优化结果的边缘毛刺和不连贯, 基于超像素标签和位置, 提出前景骨架和背景骨架的自动生成算法, 并构建基于编解码的骨架映射网络, 以学习出像素级目标轮廓, 最终得到精准视频分割结果. 标准数据集的大量实验表明: 所提方法优于现有主流视频分割方法, 能够产生具有更高区域相似度和轮廓精准度的分割结果.
    优先出版日期:  2023-05-17 , DOI: 10.13328/j.cnki.jos.006814
    [摘要] (213) [HTML] (0) [PDF 5.42 M] (373)
    摘要:
    高效的移动充电调度是构建长生命期、可持续运行的无线可充电传感器网络(WRSN)的关键之一. 现有基于强化学习的充电策略只考虑了移动充电调度问题的一个维度, 即移动充电器(MC)的路径规划, 而忽略了充电调度问题中的另一维度, 即充电时长调整, 因而仍然存在性能限制. 提出一种基于深度强化学习的WRSN动态时空充电调度方法(SCSD), 建立充电序列调度和充电时长动态调整的深度强化学习模型. 针对移动充电调度中离散的充电序列规划和连续的充电时长调整问题, 使用DQN为待充电节点优化充电序列, 并基于DDPG计算并动态调整序列中待充电节点的充电时长. 通过分别从空间和时间两个维度的优化, 在避免节点缺电失效的同时, 所提出的SCSD可实现充电性能的有效提高. 大量仿真实验结果表明, SCSD与现有的几种有代表性的充电方案相比其充电性能具有明显优势.
    优先出版日期:  2023-05-17 , DOI: 10.13328/j.cnki.jos.006810
    [摘要] (351) [HTML] (0) [PDF 7.78 M] (626)
    摘要:
    智能合约作为可信的去中心化应用, 获得了广泛的关注, 但其安全漏洞问题对其可靠性带来了巨大威胁. 为此, 研究者们利用各种前沿技术(如模糊测试、机器学习、形式化验证等)研究了多种漏洞检测技术, 并取得了可观的效果. 为了系统性地梳理与分析现有智能合约漏洞检测技术, 搜集截至2021年7月关于智能合约漏洞检测的84篇论文, 根据它们的核心方法进行分类, 从每种技术的实现方法、漏洞类型、实验数据等方面展开分析, 同时对比国内外研究现状在这些方面的差异. 最后, 对现有的智能合约漏洞检测技术进行总结, 探讨面临的挑战, 并展望了未来的研究方向.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006811
    [摘要] (137) [HTML] (0) [PDF 10.89 M] (531)
    摘要:
    BLAS (basic linear algebra subprograms)是最基本、最重要的底层数学库之一. 在一个标准的BLAS库中, BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要, 在许多大规模科学与工程计算应用中被广泛调用. 另外, BLAS 3级属于计算密集型函数, 对充分发挥处理器的计算性能有至关重要的作用. 针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术. 具体而言, 根据SW26010-Pro的存储层次结构, 设计多级分块算法, 挖掘矩阵运算的并行性. 在此基础上, 基于远程内存访问 (remote memory access, RMA)机制设计数据共享策略, 提高从核间的数据传输效率. 进一步, 采用三缓冲、参数调优等方法对算法进行全面优化, 隐藏直接内存访问 (direct memory access, DMA)访存开销和RMA通信开销. 此外, 利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令, 还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化, 提高了函数的浮点计算效率. 实验结果显示, 所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升, 单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%, 多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006815
    [摘要] (161) [HTML] (0) [PDF 2.94 M] (285)
    摘要:
    随着深度学习与隐写技术的发展, 深度神经网络在图像隐写领域的应用越发广泛, 尤其是图像嵌入图像这一新兴的研究方向. 主流的基于深度神经网络的图像嵌入图像隐写方法需要将载体图像和秘密图像一起输入隐写模型生成含密图像, 而最近的研究表明, 隐写模型仅需要秘密图像作为输入, 然后将模型输出的含密扰动添加到载体图像上, 就可完成秘密图像的嵌入过程, 这种新颖的不依赖载体图像的嵌入方式极大地扩展了隐写的应用场景, 实现了隐写的通用性. 但这种新的嵌入方式目前仅验证了秘密图像嵌入和恢复的可行性, 而对隐写更重要的评价标准, 即隐蔽性, 未进行考虑和验证. 提出一种基于注意力机制的高容量通用图像隐写模型USGAN, 利用注意力模块, USGAN的编码器可以在通道维度上对秘密图像中像素位置的扰动强度分布进行调整, 从而减小含密扰动对载体图像的影响. 此外, 利用基于CNN的隐写分析模型作为USGAN的目标模型, 通过与目标模型进行对抗训练促使编码器学习生成含密对抗扰动, 从而让含密图像同时成为攻击隐写分析模型的对抗样本. 实验结果表明, 所提模型不仅可以实现不依赖载体图像的通用嵌入方式, 还进一步提高了隐写的隐蔽性.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006816
    [摘要] (132) [HTML] (0) [PDF 1.63 M] (250)
    摘要:
    大脑如何实现学习以及感知功能对于人工智能和神经科学领域均是一个重要问题. 现有人工神经网络由于结构和计算机制与真实大脑相差较大, 无法直接用于理解真实大脑学习以及处理感知任务的机理. 树突神经元模型是一种对大脑神经元树突信息处理过程进行建模仿真的计算模型, 相比人工神经网络更接近生物真实. 使用树突神经网络模型处理学习感知任务对理解真实大脑的学习过程有重要作用. 然而, 现有基于树突神经元网络的学习模型大都局限于简化树突模型, 无法完整建模树突的信号处理过程. 针对这一问题, 提出一种基于精细中型多棘神经元网络的学习模型, 使得精细神经网络可以通过学习完成相应感知任务. 实验表明, 在经典的图像分类任务上, 所提模型可以达到很好的分类性能. 此外, 精细神经网络对于噪声干扰有很强的鲁棒性. 对网络特性进行进一步分析, 发现学习后网络中的神经元表现出了刺激选择性这种神经科学中的经典现象, 表明所提模型具有一定的生物可解释性, 同时也表明刺激选择特性可能是大脑通过学习完成感知任务的一种重要特性.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006824
    [摘要] (134) [HTML] (0) [PDF 7.36 M] (336)
    摘要:
    流程剩余时间预测对于业务异常的预防和干预有着重要的价值和意义. 现有的剩余时间预测方法通过深度学习技术达到了更高的准确率, 然而大多数深度模型结构复杂难以解释预测结果, 即不可解释问题. 此外, 剩余时间预测除了活动这一关键属性还会根据领域知识选择若干其他属性作为预测模型的输入特征, 缺少通用的特征选择方法, 对于预测的准确率和模型的可解释性存在一定影响. 针对上述问题, 提出基于可解释特征分层模型(explainable feature-based hierarchical model, EFH model)的流程剩余时间预测框架. 具体而言, 首先提出特征自选择策略, 通过基于优先级的后向特征删除和基于特征重要性值的前向特征选择, 得到对预测任务具有积极影响的属性作为模型输入. 然后提出可解释特征分层模型架构, 通过逐层加入不同特征得到每层的预测结果, 解释特征值与预测结果的内在联系. 采用LightGBM (light gradient boosting machine)和LSTM (long short-term memory)算法实例化所提方法, 框架是通用的不限于选用算法. 最后在8个真实事件日志上与最新方法进行比较. 实验结果表明所提方法能够选取出有效特征, 提高预测的准确率, 并解释预测结果.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006820
    [摘要] (108) [HTML] (0) [PDF 1.45 M] (292)
    摘要:
    大型复杂软件系统的需求分析与生成是一个由上而下逐层分解的过程, 跨层需求间追踪关系的构建对于项目的管理、开发与演化都至关重要. 开源系统的松耦合贡献方式需要每位参与者能便捷地理解需求的来龙去脉及需求状态, 这依赖跨层需求间的追踪. 问题描述日志是开源系统中需求的常见呈现方式, 其无固定模板要求, 内容多样(含文本、代码、调试信息等), 术语使用自由, 跨层需求间抽象层次大, 给自动追踪带来极大挑战. 提出一种面向关键特征维度的相关性反馈方法, 通过静态分析项目代码结构, 抽取代码相关术语及其间的关联强度, 构建代码词汇库, 以缓解跨层需求的抽象层次差距及用语不统一的问题; 通过度量词汇对需求描述的重要性并基于此筛选关键特征维度, 以对查询语句进行针对性的优化, 有效减少需求描述长度、内容形式等方面的噪音. 通过在3个开源系统需求集上针对两个场景的实验, 表明所提方法相比基线方法在跨层需求追踪方面的优越性, 相比VSM、Standard Rocchio和Trace BERT, F2值提升分别达到29.01%、7.75%和59.21%.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006801
    [摘要] (168) [HTML] (0) [PDF 6.12 M] (434)
    摘要:
    奥林匹克遗产是全人类的宝贵财富, 利用科技与文化艺术相融合, 对实现北京冬奥会及奥林匹克遗产和精神文化的多元呈现和高效传播至关重要. 线上云展厅作为信息时代数字博物馆发展的重要趋势, 虽然在单项数字博物馆与交互系统技术研究方面已具备较好的基础, 但尚未形成体系化、智能化、交互友好的冬奥会奥林匹克数字博物馆系统. 面向北京2022年冬季奥林匹克运动会, 提出一种具有交互反馈的云展厅系统构建方式, 通过构建具有虚拟讲解员的智能交互云展厅, 进一步探索交互反馈在知识传播型的数字博物馆中对于非物质文化遗产的传播作用. 为了探索视听交互反馈对云展厅的奥林匹克精神文化传播的影响, 同时提升知识传播型云展厅中的用户体验, 对32名参与者进行用户实验. 研究结果表明, 所构建的云展厅能够极大地促进奥林匹克文化与精神的传播; 同时, 在云展厅中引入视听交互反馈能够提高用户的感知控制, 从而有效地提升用户体验.
    优先出版日期:  2023-04-27 , DOI: 10.13328/j.cnki.jos.006685
    [摘要] (196) [HTML] (0) [PDF 4.53 M] (474)
    摘要:
    对称可搜索加密(symmetric searchable encryption, SSE)能实现密文数据的检索而不泄露用户隐私, 在云存储领域得到了广泛的研究与应用. 然而, 在SSE方案中, 半诚实或者不诚实的服务器可能篡改文件中的数据, 返回给用户不可信的文件, 因此对这些文件进行验证是十分必要的. 现有的可验证SSE方案大多是用户本地进行验证, 恶意用户可能会伪造验证结果, 无法保证验证的公平性. 基于以上考虑, 提出一种基于区块链的动态可验证对称可搜索加密方案(verifiable dynamic symmetric searchable encryption, VDSSE); VDSSE采用对称加密实现动态更新过程中的前向安全; 在此基础上, 利用区块链实现搜索结果的验证, 验证过程中, 提出一种新的验证标签——Vtag, 利用Vtag的累积性实现验证信息的压缩存储, 降低验证信息在区块链上的存储开销, 并能够有效支持SSE方案的动态验证. 由于区块链具有不可篡改的性质, 验证的公平性得以保证. 最后, 对VDSSE进行实验评估和安全性分析, 验证方案的可行性和安全性.
    优先出版日期:  2023-04-27 , DOI: 10.13328/j.cnki.jos.006689
    [摘要] (100) [HTML] (0) [PDF 6.14 M] (367)
    摘要:
    资源丰富场景下, 利用相似性翻译作为目标端原型序列, 能够有效提升神经机器翻译的性能. 然而在低资源场景下, 由于平行语料资源匮乏, 导致不能匹配得到原型序列或序列质量不佳. 针对此问题, 提出一种基于多种策略进行原型生成的方法. 首先结合利用关键词匹配和分布式表示匹配检索原型序列, 如未能获得匹配, 则利用伪原型生成方法产生可用的伪原型序列. 其次, 为有效地利用原型序列, 对传统的编码器-解码器框架进行改进. 编码端使用额外的编码器接收原型序列输入; 解码端在利用门控机制控制信息流动的同时, 使用改进的损失函数减少低质量原型序列对模型的影响. 多个数据集上的实验结果表明, 相比基线模型, 所提出的方法能够有效提升低资源场景下的机器翻译性能.
    优先出版日期:  2023-04-27 , DOI: 10.13328/j.cnki.jos.006720
    [摘要] (105) [HTML] (0) [PDF 5.58 M] (478)
    摘要:
    稀疏三角线性方程组求解(SpTRSV)是预条件子部分的重要操作, 其中结构化SpTRSV问题, 在以迭代方法求解偏微分方程组的科学计算程序中, 是一种较为常见的问题类型, 而且通常是科学计算程序的需要解决的一个性能瓶颈. 针对GPU平台, 目前以CUSPARSE为代表的商用GPU数学库, 采用分层调度(level-scheduling)方法并行化SpTRSV操作. 该方法不仅预处理耗时较长, 而且在处理结构化SpTRSV问题时会出现较为严重GPU线程闲置问题. 针对结构化SpTRSV问题, 提出一种面向结构化SpTRSV问题的并行算法. 该算法利用结构化SpTRSV问题的特殊非零元分布规律进行任务划分, 避免对输入问题的非零元结构进行预处理分析. 并对现有分层调度方法的逐元素处理策略进行改进, 在有效缓解GPU线程闲置问题的基础上, 还隐藏了部分矩阵非零元素的访存延迟. 还根据算法的任务划分特点, 采用状态变量压缩技术, 显著提高算法状态变量操作的缓存命中率. 在此基础上, 还结合谓词执行等GPU硬件特性, 对算法实现进行全面的优化. 所提算法在NVIDIA V100 GPU上的实测性能, 相比CUSPARSE平均有2.71倍的加速效果, 有效访存带宽最高可达225.2 GB/s. 改进后的逐元素处理策略, 配合针对GPU硬件的一系列调优手段, 优化效果显著, 将算法的有效访存带宽提高了约1.15倍.
    优先出版日期:  2023-04-27 , DOI: 10.13328/j.cnki.jos.006678
    [摘要] (126) [HTML] (0) [PDF 6.04 M] (458)
    摘要:
    软件系统是一个复杂的人工制品, 类之间的交互关系对软件质量有着潜在影响, 如软件缺陷的级联传播效应就是一个典型. 如何准确预测软件系统中类之间合理关系, 优化设计结构是软件质量保障的一个开放问题. 从软件网络观的视角, 综合考虑软件系统中类与类之间关系(外部图), 以及每个类内部方法之间关系(内部图), 将软件系统抽象成一个图中图结构的软件网络, 并在此基础上提出一种基于图中图卷积神经网络的类交互关系预测方法. 首先对每个类内部图进行卷积得到类节点的初始特征, 再通过外部图的卷积更新类节点的表征向量, 最后通过计算类节点对的评估值进行交互预测. 根据在6个Java开源项目上的实验结果显示, 图中图结构有助于提高软件系统结构的表征能力, 且所提方法与常规网络嵌入方法相比, AUC值和AP值的平均增长率超过5.5%. 与此同时, 和两种同行方法相比, AUC值和AP值的平均增长率分别在9.36%和5.22%以上.
    优先出版日期:  2023-04-26 , DOI: 10.13328/j.cnki.jos.006805
    [摘要] (187) [HTML] (0) [PDF 9.74 M] (454)
    摘要:
    移动边缘计算场景中任务的不确定性增加了任务卸载及资源分配的复杂性和难度. 鉴于此, 提出一种移动边缘计算不确定性任务持续卸载及资源分配方法. 首先, 构建一种移动边缘计算不确定性任务持续卸载模型, 通过基于持续时间片划分的任务多批次处理技术应对任务的不确定性, 并设计多设备计算资源协同机制提升对计算密集型任务的承载能力. 其次, 提出一种基于负载均衡的自适应策略选择算法, 避免计算资源过度分配导致信道拥堵进而产生额外能耗. 最后, 基于泊松分布实现了对不确定任务场景模型的仿真, 大量实验结果表明时间片长度减小能够降低系统总能耗. 此外, 所提算法能够更有效地实现任务卸载及资源分配, 相较于对比算法, 最大可降低能耗11.8%.
    优先出版日期:  2023-04-26 , DOI: 10.13328/j.cnki.jos.006807
    [摘要] (316) [HTML] (0) [PDF 6.17 M] (583)
    摘要:
    情感对话技术着眼于对话机器人的“情商”, 旨在让对话机器人具有像人类一样观察、理解和表达情感的能力. 这项技术可以看作是情感计算和对话技术的交叉, 兼顾对话机器人的“智商”和“情商”, 从而实现对用户的精神陪伴、情感慰藉和心理疏导. 结合对话中情感的特点, 对情感对话技术进行全面解析: 1)规划对话场景下的情感识别、情感管理、情感表达等3个重要的技术点, 并拓展多模态场景下的情感对话技术. 2)介绍情感对话4项关键技术的最新研究进展, 并总结这些技术面临的主要挑战和可能解决方案. 3)介绍情感对话技术的数据资源. 4)分析情感对话技术的难点, 展望其未来发展方向与前景.
    优先出版日期:  2023-04-26 , DOI: 10.13328/j.cnki.jos.006809
    [摘要] (121) [HTML] (0) [PDF 6.15 M] (348)
    摘要:
    混合云模式下企业业务应用和数据经常跨云流转迁移, 面对多样复杂的云服务环境, 当前大多数混合云应用仅以主体为中心制定数据的访问控制策略并通过人工调整策略, 无法满足数据在全生命周期不同阶段时的细粒度动态访问控制需求. 为此, 提出一种混合云环境下面向数据生命周期的自适应访问控制方法AHCAC. 该方法首先采用基于关键属性的策略描述思想去统一混合云下数据全生命周期的异构策略, 尤其引入“阶段”属性显式标识数据的生命周期状态, 为实现面向数据生命周期的细粒度访问控制提供基础; 其次针对数据生命周期同阶段策略具有相似性和一致性的特点, 定义策略距离, 引入基于策略距离的层次聚类算法实现数据生命周期各阶段对应访问控制策略的构建; 最后通过关键属性匹配实现当数据所处阶段变化时, 触发策略评估引擎上数据对应阶段策略的自适应调整和加载, 最终实现面向数据生命周期的自适应访问控制. 在OpenStack和开源策略评估引擎Balana上通过实验验证了所提方法的有效性和可行性.
    优先出版日期:  2023-04-19 , DOI: 10.13328/j.cnki.jos.006799
    [摘要] (145) [HTML] (0) [PDF 6.67 M] (483)
    摘要:
    近年来, 研究者已经提出多种方法来解决知识库问答(KBQA)中的复杂问题, 并取得一定成果. 然而, 由于语义构成的复杂性以及可能存在推理路径的缺失, 复杂问题的求解效果依然不佳. 为了更好地解决这类问题, 提出基于知识图谱全局和局部特征的问答方法——CGL-KBQA. 所提方法利用知识嵌入技术提取知识图谱整体的拓扑结构和语义特征作为候选实体节点的全局特征, 根据实体表示和问句表示将复杂问答建模为复合的三元组分类任务. 同时, 将图谱在搜索过程生成的核心推导路径作为局部特征, 结合问句的语义相似性来构建候选实体不同维度特征, 最终形成混合特征评分器. 由于最终推理路径可能缺失, 采用基于无监督的多重聚类方法设计了聚类器模块, 进而根据候选实体的两类特征表示直接生成最终答案簇, 这使得非完全知识图谱问答成为可能. 实验结果表明, 所提方法在两个常见KBQA数据集上均取得不错的效果, 特别是在图谱知识不完全的情况下也具备非常好的效果.
    优先出版日期:  2023-04-19 , DOI: 10.13328/j.cnki.jos.006797
    [摘要] (223) [HTML] (0) [PDF 8.37 M] (624)
    摘要:
    在边缘计算场景中, 通过将部分待执行任务卸载到边缘服务器执行能够达到降低移动设备的负载、提升移动应用性能和减少设备开销的目的. 对于时延敏感任务, 只有在截止期限内完成才具有实际意义. 但是边缘服务器的资源往往有限, 当同时接收来自多个设备的数据传输及处理任务时, 可能造成任务长时间的排队等待, 导致部分任务因超时而执行失败, 因此无法兼顾多个设备的性能目标. 鉴于此, 在计算卸载的基础上优化边缘服务器端的任务调度顺序. 一方面, 将时延感知的任务调度建模为一个长期优化问题, 并使用基于组合多臂赌博机的在线学习方法动态调整服务器的调度顺序. 另一方面, 由于不同的任务执行顺序会改变任务卸载性能提升程度, 因而影响任务卸载决策的有效性. 为了增加卸载策略的鲁棒性, 采用了带有扰动回报的深度Q学习方法决定任务执行位置. 仿真算例证明了该策略可在平衡多个用户目标的同时减少系统的整体开销.
    优先出版日期:  2023-04-19 , DOI: 10.13328/j.cnki.jos.006760
    [摘要] (224) [HTML] (0) [PDF 7.37 M] (539)
    摘要:
    近年来, 对运动目标的定位和追踪被广泛地应用于室内导航、智能家居、安防监控和智慧医疗等场景. 基于无线射频信号的非接触式定位追踪受到了研究人员的广泛关注, 其中基于商用IR-UWB的技术能够以较低的成本和功耗实现目标定位和追踪的功能, 具有较强的发展潜力. 然而, 现有工作大多存在以下问题: 1)追踪场景受限, 只针对理想情况下室外或者相对空旷的室内场景进行建模和处理; 2)目标的运动状态受限且建模过于理想; 3)虚假动态目标引起的追踪精度不足. 为了解决这些问题, 在理解多径场景下接收信号谱组成的基础上, 提出一个基于IR-UWB的动态目标追踪方法. 首先提取原始信号谱中动态成分, 并利用基于高斯模糊的多径消除和距离提取算法, 消除了多径干扰, 仅保留与运动目标直接相关的一次反射信息, 从而准确地获取了目标的距离变化曲线. 随后, 提出多视角融合算法, 将不同视角上的设备距离信息进行融合, 实现对自由活动目标的准确定位和追踪. 此外, 还搭建一个基于低成本商用IR-UWB雷达的实时动态目标追踪系统. 真实室内家居场景中的实验结果表明, 系统估计的人体中心的位置与真实运动轨迹的误差始终小于20 cm. 在改变实验环境、实验者、活动速度、设备高度等影响因素的情况下, 系统依然鲁棒.
    优先出版日期:  2023-04-19 , DOI: 10.13328/j.cnki.jos.006761
    [摘要] (117) [HTML] (0) [PDF 4.36 M] (438)
    摘要:
    SPN结构是目前最广泛使用的一种分组密码整体结构, AES、ARIA等分组密码算法均采用此结构, 对此类SPN型密码的安全性分析是密码分析中的一个研究热点. 将子空间迹密码分析方法应用到典型二维SPN型密码和典型三维SPN型密码中, 可分别得到其相应的子空间迹和基于子空间迹的通用性质, 该性质与密钥、S盒以及列混淆矩阵的定义均无关, 可具体描述为: 针对一个状态可形式化为n×m二维数组的典型二维SPN型密码, 属于类对角子空间同一陪集的所有明文经过5轮加密得到的密文中属于混淆子空间同一陪集的不同密文对数量一定为$ {2^{n - 1}} $的倍数; 针对一个状态可形式化为l×n×m三维数组的典型三维SPN型密码, 属于类对角子空间同一陪集的所有明文经过7轮加密得到的密文中属于混淆子空间同一陪集的不同密文对数量一定为$ {2^{nl - 1}} $的倍数. 此外, 不仅对该性质进行了证明, 还在PHOTON算法的内部置换以及小规模版本Rijndael算法、3D算法、Saturnin算法上进行了实验验证, 结果与该性质完全一致.
    优先出版日期:  2023-04-13 , DOI: 10.13328/j.cnki.jos.006798
    [摘要] (166) [HTML] (0) [PDF 2.60 M] (326)
    摘要:
    近年来, 随着区块链的快速发展, 加密货币种类和匿名交易的类型不断多元化. 如何在加密货币市交易类型中进行最优决策是用户关注的问题, 用户的决策目标是在确保交易被打包的前提下实现交易费用最小化和隐私最大化. 加密货币交易市场是复杂的, 不同的加密货币技术差异大, 现有的工作都是研究比特币市场, 很少有对Zcash等其他匿名币市场和用户的匿名需求的讨论. 因此提出一个基于博弈的通用加密货币交易市场模型, 通过结合用户的匿名需求运用博弈论探究交易市场和用户对于交易类型和交易费用的决策. 以最具代表性的可选隐私加密货币Zcash为例, 结合CoinJoin交易, 对交易市场进行分析, 按照交易流程模拟用户和矿工找到最佳策略的过程, 讨论区块大小、折扣因子和用户数量对交易市场和用户行为的影响. 在多种交易市场类型中对模型进行仿真实验, 并对实验结果进行深入讨论. 以三类型交易市场为例, 交易市场恶性竞价情景下, 参数设置为$plnum = 75$, $\theta {\text{ = }}0.4$, ${s_t} = 100$, ${s_{\textit{z}}} = 400$时, 100%的用户在交易市场前期(前500轮)倾向于选择CoinJoin交易, 而在交易市场中后期(15002000轮), 隐私敏感度低于0.7的用户中有97%倾向于选择CoinJoin交易, 隐私敏感度高于0.7的用户中有73%倾向于选择屏蔽交易. CoinJoin交易和大小在400以上的区块大小能有效缓解交易费用的恶性竞争. 所提的交易市场模型能够有效地帮助研究人员理解不同加密货币交易市场博弈, 分析用户交易行为, 揭示市场运行规律.
    优先出版日期:  2023-04-13 , DOI: 10.13328/j.cnki.jos.006780
    [摘要] (148) [HTML] (0) [PDF 2.03 M] (296)
    摘要:
    核心网络切片通过虚拟网络功能(VNF)的组合链接实现灵活组网. 软件故障和硬件故障均会导致VNF失效, 从而导致切片服务中断. 由于网络切片共享资源, 需要特定的隔离机制以满足切片健壮性需求. 现有的可用性保障机制大多面向随机VNF故障, 一些涉及外部攻击的研究很少考虑网络切片特殊的隔离需求. 为了在隔离机制下实现切片可用性保障, 提出一种基于多级隔离的网络切片可用性保障方法. 首先, 建立核心网切片资源感知的可用性保障问题模型, 旨在满足隔离需求的同时, 消耗最少的备份资源来达到可用性目标. 然后, 提出一种隔离级别评估模型对VNF的隔离级别进行评估. 最后, 提出一种基于多级隔离的备份算法MLIBA解决所提出的可用性保障问题. 此外, 针对共享备份可用性计算这一PP-complete问题, 提出一种基于等效备份实例的计算方法. 仿真结果表明, 所提可用性计算方法具有较高的准确性, 引入多级隔离的可用性保障方法可以使切片的健壮性提高一倍. 与现有研究的对比表明, 在相同的隔离约束和可用性目标下, 所提方法可减少20%–70%资源消耗, 提高5%–30%的有效资源占比.
    优先出版日期:  2023-04-13 , DOI: 10.13328/j.cnki.jos.006806
    [摘要] (184) [HTML] (0) [PDF 7.08 M] (499)
    摘要:
    域适应通过将源域知识迁移到任务相似的目标域, 旨在辅助后者更好地学习. 当目标域的数据标签集为源域标签的子集时, 该类场景的域适应称为部分或偏域适应(partial domain adaption, PDA). 相比一般的域适应, 尽管PDA更具普遍性, 但也更具挑战性, 相关研究较少, 尤其缺少系统的综述. 为此, 旨在弥补这一欠缺, 对现有PDA方法进行全面回顾、分析和总结, 为相关社区提供主题研究概貌和参考. 首先针对PDA背景、概念和应用领域进行概况总结. 其次, 根据方法的建模特点, PDA被划分为促进正迁移和抑制负迁移两大类, 进而分别作出回顾和分析. 然后, 对常用的实验基准数据集进行归类和总结. 最后, 对现有PDA工作存在的问题进行了分析, 并提出了其未来可能的发展方向.
    优先出版日期:  2023-04-13 , DOI: 10.13328/j.cnki.jos.006803
    [摘要] (165) [HTML] (0) [PDF 3.88 M] (348)
    摘要:
    图像可逆认证是一项将可逆信息隐藏和脆弱水印相结合的新技术, 其既能实现对图像的脆弱认证, 还能在提取认证信息的同时无失真地恢复出原始载体, 对图像的原始性和完整性认证具有非常重要的意义. 针对现有可逆认证方法认证精度低、对具有复杂纹理的图像或图像中部分纹理复杂区域无法实现有效保护的问题, 提出一种新的图像可逆认证方法. 首先对待认证图像进行分块, 根据每个子块可嵌入容量将其分为差分块和平移块, 并采用不同的可逆嵌入方法对不同类型的块进行认证码嵌入操作. 为了增大嵌入容量以提高对每个子块的认证效果, 还采取了分层嵌入的方式. 在认证方, 可以通过从每个子块中提取认证码实现子块的篡改检测和定位. 此外, 所提方法还可与形态学中的膨胀和腐蚀操作结合以细化篡改检测标记, 进一步提高检测效果. 实验结果表明, 所提方法能够在同样的认证精度下对纹理平滑和纹理复杂的图像进行保护, 同时还能够实现对几乎所有子块的独立认证和恢复, 具有广泛的适用性.
    优先出版日期:  2023-04-04 , DOI: 10.13328/j.cnki.jos.006669
    [摘要] (280) [HTML] (0) [PDF 4.14 M] (549)
    摘要:
    可编程数据平面(PDP)一方面支持网络应用的卸载与加速, 给网络应用带来了革命性的发展机遇; 另一方面支持新协议、新服务的快速实现和部署, 促进了网络创新和演进, 是近年来网络领域的研究热点. FPGA因其通用的计算架构、丰富的片内资源和扩展接口提供了多种可编程数据平面的具体实现, 支持更广范围的应用场景. 同时, FPGA还为探索更通用的可编程数据平面抽象提供了可能. 因此, 基于FPGA的可编程数据平面受到了学术界与产业界的广泛关注. 首先分类别阐述基于FPGA的可编程数据平面(F-PDP)抽象. 接着, 介绍基于F-PDP快速构建网络应用的关键技术的研究进展. 之后, 介绍基于F-PDP的新型可编程网络设备. 此外, 从提升网络性能、构建网络测量框架以及部署网络安全应用这3个方面, 详细梳理近年来基于F-PDP的应用研究成果. 最后, 探讨F-PDP未来可能的研究趋势.
    优先出版日期:  2023-03-29 , DOI: 10.13328/j.cnki.jos.006748
    [摘要] (253) [HTML] (0) [PDF 6.28 M] (445)
    摘要:
    认证数据结构(authenticated data structure, ADS) 解决了数据外包存储场景下服务器的不可信问题, 用户通过ADS可以验证不可信服务器返回查询结果的正确性与完整性, 但数据拥有者的安全性难以保证, 攻击者可以篡改数据拥有者存储的ADS, 破坏对查询结果的完整性、正确性验证. 数据拥有者将ADS存储在区块链上, 借助区块链的不可篡改性, 可以解决上述问题. 但现有ADS实现方案在区块链上维护成本较高并且大部分只支持静态数据的可验证查询, 目前缺少一种针对区块链设计的高效ADS. 通过分析智能合约的gas消耗机制与基于传统MHT的ADS的gas开销, 提出一种新型ADS认证结构SMT, 实现对流数据的高效可验证查询, 并且在区块链上具备更低的gas消耗. 从理论及实验出发, 验证了SMT的高效性, 通过安全性分析, 证明了SMT的安全性.
    优先出版日期:  2023-03-15 , DOI: 10.13328/j.cnki.jos.006802
    [摘要] (307) [HTML] (0) [PDF 7.34 M] (813)
    摘要:
    基于深度学习的多标签文本分类方法存在两个主要缺陷: 缺乏对文本信息多粒度的学习, 以及对标签间约束性关系的利用. 针对这些问题, 提出一种多粒度信息关系增强的多标签文本分类方法. 首先, 通过联合嵌入的方式将文本与标签嵌入到同一空间, 并利用BERT预训练模型获得文本和标签的隐向量特征表示. 然后, 构建3个多粒度信息关系增强模块: 文档级信息浅层标签注意力分类模块、词级信息深层标签注意力分类模块和标签约束性关系匹配辅助模块. 其中, 前两个模块针对共享特征表示进行多粒度学习: 文档级文本信息与标签信息浅层交互学习, 以及词级文本信息与标签信息深层交互学习. 辅助模块通过学习标签间关系来提升分类性能. 最后, 所提方法在3个代表性数据集上, 与当前主流的多标签文本分类算法进行了比较. 结果表明, 在主要指标Micro-F1、Macro-F1、nDCG@kP@k上均达到了最佳效果.
    优先出版日期:  2023-03-08 , DOI: 10.13328/j.cnki.jos.006756
    [摘要] (293) [HTML] (0) [PDF 6.96 M] (534)
    摘要:
    密度峰值聚类(density peaks clustering, DPC)是一种基于密度的聚类算法, 该算法可以直观地确定类簇数量, 识别任意形状的类簇, 并且自动检测、排除异常点. 然而, DPC仍存在些许不足: 一方面, DPC算法仅考虑全局分布, 在类簇密度差距较大的数据集聚类效果较差; 另一方面, DPC中点的分配策略容易导致“多米诺效应”. 为此, 基于代表点(representative points)与K近邻(K-nearest neighbors, KNN)提出了RKNN-DPC算法. 首先, 构造了K近邻密度, 再引入代表点刻画样本的全局分布, 提出了新的局部密度; 然后, 利用样本的K近邻信息, 提出一种加权的K近邻分配策略以缓解“多米诺效应”; 最后, 在人工数据集和真实数据集上与5种聚类算法进行了对比实验, 实验结果表明, 所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果.
    优先出版日期:  2023-03-02 , DOI: 10.13328/j.cnki.jos.006759
    [摘要] (160) [HTML] (0) [PDF 18.93 M] (523)
    摘要:
    图形口令既可以减轻用户记忆传统文本口令的负担, 又可以简化用户输入口令的步骤, 近年来, 广泛应用于移动设备的用户认证. 现有的图形口令认证方案面临严峻的安全问题. 首先, 图形口令容易遭受肩窥攻击: 用户的登录过程被攻击者通过眼睛或者摄像头等方式偷窥导致图形口令泄露. 更为严重的是, 这类认证方案不能抵抗凭证泄露攻击: 服务器存储与用户图形口令有关的认证凭证并利用其验证用户身份, 攻击者如果得到服务器保存的凭证就可以通过离线口令猜测攻击恢复用户图形口令. 为了解决上述问题, 提出了一个安全的图形口令认证方案(GADL). GADL方案通过将随机的挑战值嵌入到用户的图形口令来抵御肩窥攻击, 因此攻击者即使捕获了用户的登录信息也无法得到用户图形口令. 为了解决服务器凭证数据库泄露问题, GADL方案采用了一种确定性的门限盲签名技术来保护用户图形口令. 该技术利用多个密钥服务器来协助用户生成凭证, 使得攻击者即使获得凭证也无法实施离线猜测攻击来获得用户口令. 给出的安全性分析证明了GADL方案可以抵抗上述攻击. 此外, 给出了全面的性能分析表明GADL方案在计算、存储和通信开销这3个方面性能较高, 且在移动设备上易于部署.
    优先出版日期:  2023-03-02 , DOI: 10.13328/j.cnki.jos.006779
    [摘要] (259) [HTML] (0) [PDF 7.82 M] (586)
    摘要:
    伴随着云计算的发展, 以及软件即服务(SaaS)、方法即服务(FaaS)等服务框架的提出, 数据中心作为服务的提供商, 面临着持续性的资源管理挑战: 一方面需要保证服务质量(quality of service, QoS), 另一方面又需要控制资源成本. 为了在提升资源使用率的同时确保负载压力在可承受范围内波动, 一种精确衡量当前算力消耗程度的方法成为关键性的研究问题. 传统的评估指标CPU利用率, 由于虚拟化技术的成熟以及并行技术的发展, 无法应对资源竞争所产生的干扰, 失去了评估精度. 而当前数据中心的主流处理器基本都开启了超线程技术, 这导致评估超线程处理器算力消耗程度的需求亟待解决. 为了应对这一评估挑战, 基于超线程机制的理解以及线程行为的建模, 提出一种评估超线程处理器算力消耗的方法APU. 同时考虑到不同权限的用户能访问的系统层级不同, 还提出了两种实现方案: 一种基于硬件层支持的实现, 以及一种基于操作系统层支持的实现. APU方法利用传统CPU利用率指标作为输入, 没有其他维度的需求, 免去了新监测工具的开发部署代价, 也无需特殊硬件体系结构的支持, 确保该方法的通用性和易用性. 最后通过SPEC基准测试程序进一步证明该方法提升了算力评估的精度, 分别将3种基准程序运行情况的算力评估误差从原先的20%, 50%, 以及20%下降至5%以内. 为了进一步证明APU的实际应用能力, 将其运用在了字节跳动的集群中, 在案例研究中展示了它的应用效果.
    优先出版日期:  2023-03-02 , DOI: 10.13328/j.cnki.jos.006763
    [摘要] (336) [HTML] (0) [PDF 7.82 M] (573)
    摘要:
    动态链接库(dynamic link library, DLL)的出现给开发人员提供了极大的便利, 也提高了操作系统与应用程序之间的交互性. 然而, 动态链接库本身存在的安全性隐患不容忽视, 如何有效地挖掘Windows平台下安装程序执行过程中出现的DLL劫持漏洞是当下保障Windows操作系统安全的关键问题之一. 搜集并提取大量安装程序的属性特征, 从安装程序、安装程序调用DLL模式、DLL文件本身3个角度出发, 使用双层BiLSTM (bi-directional long short-term memory)神经网络进行学习, 抽取出漏洞数据集的多维特征, 挖掘DLL劫持未知漏洞. 实验可有效检测Windows平台下安装程序的DLL劫持漏洞, 共挖掘10个未知漏洞并获得CNVD漏洞授权, 此外通过和其他漏洞分析工具进行对比进一步验证该方法的有效性和完整性.
    优先出版日期:  2023-03-02 , DOI: 10.13328/j.cnki.jos.006764
    [摘要] (284) [HTML] (0) [PDF 6.66 M] (679)
    摘要:
    实体分辨广泛地存在于数据质量控制、信息检索、数据集成等数据任务中. 传统的实体分辨主要面向关系型数据, 而随着大数据技术的发展, 文本、图像等模态不同的数据大量涌现催生了跨模态数据应用需求, 将跨模态数据实体分辨提升为大数据处理和分析的基础问题之一. 对跨模态实体分辨问题的研究进展进行回顾, 首先介绍问题的定义、评价指标; 然后, 以模态内关系的保持和模态间关系的建立为主线, 对现有研究进行总结和梳理; 并且, 通过在多个公开数据集上对常用方法进行测试, 对出现差异的原因和进行分析; 最后, 总结当前研究仍然存在的问题, 并依据这些问题给出未来可能的研究方向.
    优先出版日期:  2023-02-22 , DOI: 10.13328/j.cnki.jos.006757
    [摘要] (278) [HTML] (0) [PDF 7.67 M] (595)
    摘要:
    混合精度在深度学习和精度调整与优化方面取得了许多进展, 广泛研究表明, 面向Stencil计算的混合精度优化也是一个很有挑战性的方向. 同时, 多面体模型在自动并行化领域取得的一系列研究成果表明, 该模型为循环嵌套提供很好的数学抽象, 可以在其基础上进行一系列的循环变换. 基于多面体编译技术设计并实现了一个面向Stencil计算的自动混合精度优化器, 通过在中间表示层进行迭代空间划分、数据流分析和调度树转换, 首次实现了源到源的面向Stencil计算的混合精度优化代码自动生成. 实验表明, 经过自动混合精度优化之后的代码, 在减少精度冗余的基础上能够充分发挥其并行潜力, 提升程序性能. 以高精度计算为基准, 在x86平台上最大加速比是1.76, 几何平均加速比是1.15; 在新一代国产申威平台上最大加速比是1.64, 几何平均加速比是1.20.
    优先出版日期:  2023-02-22 , DOI: 10.13328/j.cnki.jos.006758
    [摘要] (778) [HTML] (0) [PDF 7.38 M] (1249)
    摘要:
    神经网络模型性能日益强大, 被广泛应用于解决各类计算机相关任务, 并表现出非常优秀的能力, 但人类对神经网络模型的运行机制却并不完全理解. 针对神经网络可解释性的研究进行了梳理和汇总, 就模型可解释性研究的定义、必要性、分类、评估等方面进行了详细的讨论. 从解释算法的关注点出发, 提出一种神经网络可解释算法的新型分类方法, 为理解神经网络提供一个全新的视角. 根据提出的新型分类方法对当前卷积神经网络的可解释方法进行梳理, 并对不同类别解释算法的特点进行分析和比较. 同时, 介绍了常见可解释算法的评估原则和评估方法. 对可解释神经网络的研究方向与应用进行概述. 就可解释神经网络面临的挑战进行阐述, 并针对这些挑战给出可能的解决方向.
    优先出版日期:  2023-02-15 , DOI: 10.13328/j.cnki.jos.006754
    [摘要] (285) [HTML] (0) [PDF 4.56 M] (730)
    摘要:
    标签感知推荐算法利用标签标注数据提升推荐模型对用户偏好和项目属性的理解, 受到业界的广泛关注. 但是, 现有方法常忽视了用户关注点、项目属性和标签含义的多样性, 干扰了三者关系推断, 从而影响推荐结果. 因此, 提出一种基于解耦图神经网络的可解释标签感知推荐算法(DETRec), 解构用户、项目和标签的关注角度, 并由此形成可解释的推荐依据. 具体来讲, DETRec构造关系图以建模用户、项目和标签的关系; 通过邻域路由机制和消息传播机制, 分离结点形成属性子图, 以描述不同属性下的结点关系; 最终根据属性子图形成推荐依据. 实现了两种DETRec实例: 单图实例(DETRec-S)在单个关系图中描述全部结点关系; 多图实例(DETRec-M)使用3个二分图分别描述用户-项目、项目-标签、用户-标签关系. 在3个公开数据集上进行的大量实验表明, DETRec的两种实例均明显优于标签感知推荐的基准模型, 也为推荐结果生成了对应的推荐依据, 是有效的可解释标签感知推荐算法.
    优先出版日期:  2023-02-15 , DOI: 10.13328/j.cnki.jos.006762
    [摘要] (404) [HTML] (0) [PDF 4.55 M] (754)
    摘要:
    Linux内核中的eBPF (extended Berkeley packet filter)机制可以将用户提供的不受信任的程序安全地加载到内核中. 在eBPF机制中, 检查器负责检查并保证用户提供的程序不会导致内核崩溃或者恶意地访问内核地址空间. 近年来, eBPF机制得到了快速发展, 随着加入越来越多的新功能, 其检查器也变得愈发复杂. 观察到复杂的eBPF安全检查器存在的两个问题: 一是“假阴性”问题: 检查器复杂的安全检查逻辑中存在诸多漏洞, 而攻击者可以利用这些漏洞设计能够通过检查的恶意eBPF程序来攻击内核; 二是“假阳性”问题: 检查器采用静态检查的方式, 由于缺乏运行时信息只能进行保守检查, 可能造成原本安全的程序无法通过检查, 也只能支持很受限的语义, 为eBPF程序的开发带来了困难. 通过进一步分析, 发现eBPF检查器中的静态模拟执行检查机制代码量大, 复杂度高, 分析保守, 是引起安全漏洞和误报的主要原因. 因此, 提出使用轻量级动态检查的方式取代eBPF检查器中的静态模拟执行检查机制, eBPF检查器中原本由于模拟执行而存在的漏洞与保守检查不复存在, 从而能够消除诸多上述的“假阴性”和“假阳性”问题. 具体来说, 将eBPF程序运行在内核态沙箱中, 由沙箱对程序运行时的内存访问进行动态检查, 保证程序无法对内核内存进行非法访问; 为高效实现轻量化的内核态沙箱, 利用新型硬件特性Intel PKS (protection keys for supervisor)进行零开销的访存指令检查, 并提出高效的内核与沙箱中eBPF程序交互方法. 评测结果表明, 所提方法能够消除内核eBPF检查器中的内存安全漏洞(自2020年以来该类型漏洞在eBPF检查器的总漏洞中占比超过60%); 即使在吞吐量较高的网络包处理场景下, 轻量化内核沙箱带来的性能开销低于3%.
    优先出版日期:  2023-02-15 , DOI: 10.13328/j.cnki.jos.006750
    [摘要] (252) [HTML] (0) [PDF 4.53 M] (529)
    摘要:
    实体识别是信息抽取的关键任务. 随着信息抽取技术的发展, 研究人员从简单实体的识别转向复杂实体的识别. 然而, 复杂实体缺乏明显的特征且在句法结构与词性组成上更加复杂多样, 给实体识别带来了巨大挑战. 此外, 现有模型广泛采用基于跨度的方法来识别嵌套实体, 在实体边界检测方面呈现出模糊化, 影响识别的性能. 针对这些问题和挑战, 提出了一种基于语义先验知识与类型嵌入的实体识别模型GIA-2DPE. 该模型使用实体类别的关键词序列作为语义先验知识来提升对实体的认知, 并通过类型嵌入捕获不同实体类型的潜在特征, 然后通过门控交互注意力机制将先验知识与类型特征相融合以辅助复杂实体识别. 另外, 模型通过2D概率编码来预测实体边界, 并利用边界特征和上下文特征来增强对边界的精准检测, 从而提升嵌套实体的识别效果. 在7个英文数据集和2个中文数据集上进行了广泛实验. 结果表明, GIA-2DPE超越了目前最先进的模型; 并且在ScienceIE数据集的实体识别任务中, 相对基线F1分数取得了最高10.4%的提升.
    优先出版日期:  2023-02-15 , DOI: 10.13328/j.cnki.jos.006765
    [摘要] (636) [HTML] (0) [PDF 4.99 M] (4197)
    摘要:
    近些年, 软件构造、运行和演化过程面临着诸多新需求, 例如开发测试环境需要高效切换或配置、应用隔离、减少资源消耗、提高测试和部署效率等, 给开发人员开发和维护软件带来了巨大的负担. 容器技术有希望将开发人员从繁重的开发运维负担中解脱出来, 尤其是Docker作为目前工业界的容器行业标准, 近年来逐渐成为学术界一个热门的研究领域. 为了帮助研究人员全面准确地理解当前Docker容器研究的现状和趋势, 使用系统文献综述(systematic literature review)的方法搜集了75篇该领域最新的高水平论文, 进行了详细的分析和总结. 首先, 使用定量研究方法调查了Docker容器研究的基本现状, 包括研究数量、研究质量、研究领域和研究方式. 其次, 首次提出了面向Docker容器研究的分类框架, 分别从核心、平台和支持3个方面对当前研究进行了系统性地归纳和梳理. 最后, 讨论了Docker容器技术的发展趋势并总结了7个未来的研究方向.
    优先出版日期:  2023-01-13 , DOI: 10.13328/j.cnki.jos.006818
    [摘要] (769) [HTML] (0) [PDF 7.96 M] (952)
    摘要:
    随着物联网技术的发展, 物联网设备广泛应用于生产和生活的各个领域, 但也为设备资产管理和安全管理带来了严峻的挑战. 首先, 由于物联网设备类型和接入方式的多样性, 网络管理员通常难以得知网络中的物联网设备类型及运行状态. 其次, 物联网设备由于其计算、存储资源有限, 难以部署传统防御措施, 正逐渐成为网络攻击的焦点. 因此, 通过设备识别了解网络中的物联网设备并基于设备识别结果进行异常检测, 以保证其正常运行尤为重要. 近几年来, 学术界围绕上述问题开展了大量的研究. 系统地梳理物联网设备识别和异常检测方面的相关工作. 在设备识别方面, 根据是否向网络中发送数据包, 现有研究可分为被动识别方法和主动识别方法. 针对被动识别方法按照识别方法、识别粒度和应用场景进行进一步的调研, 针对主动识别方法按照识别方法、识别粒度和探测粒度进行进一步的调研. 在异常检测方面, 按照基于机器学习算法的检测方法和基于行为规范的规则匹配方法进行梳理. 在此基础上, 总结物联网设备识别和异常检测领域的研究挑战并展望其未来发展方向.
    优先出版日期:  2022-12-30 , DOI: 10.13328/j.cnki.jos.006777
    [摘要] (680) [HTML] (0) [PDF 10.32 M] (1294)
    摘要:
    光滑粒子流体动力学(smoothed particle hydrodynamics, SPH)是实现流体仿真的主要技术之一. 随着生产实践中流体仿真应用需求的增加, 近些年涌现了许多相关研究成果, 改善了流体不可压缩性、粘性、表面张力等物理特性模拟的视觉真实性、效率与稳定性. 同时, 一些工作探讨了复杂场景的高质量模拟, 以及多场景、多材料的统一仿真框架, 增强了SPH流体仿真技术的应用效能. 从以上几个方面对SPH流体仿真技术进行归纳、总结和讨论, 并对其未来发展进行了展望.
    优先出版日期:  2022-12-30 , DOI: 10.13328/j.cnki.jos.006800
    [摘要] (460) [HTML] (0) [PDF 7.89 M] (1100)
    摘要:
    随着深度学习技术的快速发展和深入应用, 深度学习训练规模持续增大, 内存不足已成为影响深度学习可用性的主要瓶颈之一. 内存交换机制是应对深度学习训练内存问题的关键技术, 该机制利用深度学习训练内存需求的“时变”特征, 在专用计算加速设备内存与外部存储之间按需移动数据, 通过瞬时内存需求替代累积内存需求, 保障深度学习训练任务的运行. 对面向深度学习训练的内存交换机制进行综述, 以深度学习训练内存需求的时变特征为研究视角, 分别针对基于算子运行特征的内存换出机制、基于数据依赖关系的内存换入机制以及效能驱动的联合换出与换入决策等重要研究工作进行了总结分析, 并针对该技术领域的发展方向进行了展望.
    优先出版日期:  2022-12-30 , DOI: 10.13328/j.cnki.jos.006724
    [摘要] (390) [HTML] (0) [PDF 5.81 M] (1099)
    摘要:
    知识追踪任务是根据学生历史答题记录追踪学生知识状态的变化, 预测学生未来的答题情况. 近年来, 基于注意力机制的知识追踪模型在灵活性和预测性能上都明显优于传统知识追踪模型. 但是现有深度模型大多只考虑了单一知识点题目的情况, 无法直接处理多知识点题目, 而智能教育系统中存在着大量的多知识点题目. 此外, 如何提高可解释性是深度知识追踪模型的关键挑战之一. 为了解决这些问题, 提出一种多知识点融合嵌入的深度知识追踪模型. 所提模型考虑涉及多知识点的题目中知识点之间的关系, 提出两种新颖的多知识点嵌入方式, 并且结合教育心理学模型和遗忘因素提升预测性能和可解释性. 实验表明所提模型在大规模真实数据集上预测性能上优于现有模型, 并验证各个模块的有效性.
    优先出版日期:  2022-12-30 , DOI: 10.13328/j.cnki.jos.006804
    [摘要] (754) [HTML] (0) [PDF 5.38 M] (1187)
    摘要:
    随机配置网络(stochastic configuration network, SCN)是一种新兴的增量式神经网络模型, 与其他随机化神经网络方法不同, 它能够通过监督机制进行隐含层节点参数配置, 保证了模型的快速收敛性能. 因其具有学习效率高、人为干预程度低和泛化能力强等优点, 自2017年提出以来, SCN吸引了大量国内外学者的研究兴趣, 得到了快速地推广和发展. 从SCN的基础理论、典型算法变体、应用领域以及未来研究方向等方面切入, 全面地概述SCN研究进展. 首先, 从理论的角度分析SCN的算法原理、通用逼近性能及其优点; 其次, 重点研究深度SCN、二维SCN、鲁棒SCN、集成SCN、分布式并行SCN、正则化SCN等典型变体; 随后介绍SCN在硬件实现、计算机视觉、医学数据分析、故障检测与诊断、系统建模预测等不同领域的应用进展; 最后指出SCN在卷积神经网络架构、半监督学习、无监督学习、多视图学习、模糊神经网络、循环神经网络等研究方向的发展潜力.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006753
    [摘要] (836) [HTML] (0) [PDF 1.88 M] (1622)
    摘要:
    作为地面网络的补充和延伸, 卫星网络有助于加速弥合区域间的数字鸿沟, 扩展地面网络的覆盖和服务范围. 然而卫星网络拓扑动态性高、传播时延大、星上计算能力和存储能力均受限, 因此实现卫星网络与地面网络的有机融合, 构建覆盖全球的天地一体化网络面临路由扩展性、传输稳定性等技术挑战. 针对天地一体化网络的研究挑战, 从网络架构、路由、传输和基于组播的内容分发等方面介绍了国内外的研究现状, 并展望了天地一体化网络的发展趋势.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006755
    [摘要] (396) [HTML] (0) [PDF 5.97 M] (901)
    摘要:
    分布式系统的可靠性和可用性至关重要. 然而, 不正确的失效恢复机制及其实现会引发失效恢复缺陷, 威胁分布式系统的可靠性和可用性. 只有发生在特定时机的节点失效才会触发失效恢复缺陷, 因此, 检测分布式系统中的失效恢复缺陷具有挑战性. 提出了一种新方法Deminer来自动检测分布式系统中的失效恢复缺陷. 在大规模分布式系统中观察到, 同一份数据(即共用数据)可能被一组I/O写操作存储到不同位置(如不同的存储路径或节点). 而打断这样一组共用数据写操作执行的节点失效更容易触发失效恢复缺陷. 因此, Deminer以共用数据的使用为指导, 通过自动识别和注入这类容易引发故障的节点失效来检测失效恢复缺陷. 首先, Deminer追踪目标系统的一次正确执行中关键数据的使用. 然后, Deminer基于执行轨迹识别使用共用数据的I/O写操作对, 并预测容易引发错误的节点失效注入点. 最后, Deminer通过测试预测的节点失效注入点以及检查故障征兆来暴露和确认失效恢复缺陷. 实现了Deminer原型工具, 并在4个流行的开源分布式系统ZooKeeper、HBase、YARN和HDFS的最新版本上进行了验证. 实验结果表明Deminer方法能够有效检测分布式系统中的失效恢复缺陷. Deminer已经检测到6个失效恢复缺陷.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006752
    [摘要] (297) [HTML] (0) [PDF 7.20 M] (947)
    摘要:
    传统的信息隐藏算法大都通过修改载体达到隐藏秘密信息的目的, 但不可避免地会在载体数据中留下修改痕迹, 故常难以抵抗隐写分析技术的检测, 为此无载体信息隐藏应运而生. 无载体信息隐藏并非不使用载体, 而是不对载体数据进行修改. 为了提高无载体信息隐藏算法的隐藏容量和鲁棒性, 提出了一种基于风格迁移纹理合成与识别的构造式信息隐藏算法. 该算法首先选取不同类别的自然图像和纹理图像分别建立内容图像库和纹理风格图像库, 并根据内容图像库中自然图像的类别构建二进制码的映射字典; 其次为了接收方能够从含密图像中提取出秘密信息, 需要构建带标签的纹理图像库, 并将其作为训练集输入到卷积神经网络中, 通过迭代训练获得纹理图像识别模型. 在秘密信息隐藏时, 根据秘密信息片段选择对应类别的自然图像, 并按照一定的顺序组合成含密拼接图像, 随后从纹理图像库中随机选择一张纹理图像, 通过风格迁移的方法将含密拼接图像转换成含密纹理图像, 从而完成秘密信息隐藏过程. 在信息提取过程中, 通过纹理图像识别模型可准确识别出含密纹理图像原本对应的图像类别, 再对照映射字典即可提取出秘密信息. 实验结果表明, 所提算法生成的含密纹理图像具有良好的视觉效果, 秘密信息隐藏容量较高, 且对JPEG压缩、高斯噪声等攻击具有较强的鲁棒性.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006749
    [摘要] (658) [HTML] (0) [PDF 4.17 M] (1266)
    摘要:
    代码变更是软件演化过程中的关键行为, 其质量与软件质量密切相关. 对代码变更进行建模和表示是众多软件工程任务的基础, 例如即时缺陷预测、软件制品可追溯性恢复等. 近年来, 代码变更表示学习技术得到了广泛的关注与应用. 该类技术旨在学习将代码变更的语义信息表示为稠密低维实值向量, 即学习代码变更的分布式表示, 相比于传统的人工设计代码变更特征的方法具有自动学习、端到端训练和表示准确等优点. 但同时该领域目前也存在如结构信息利用困难、基准数据集缺失等挑战. 对近期代码变更表示学习技术的研究及应用进展进行了梳理和总结, 主要内容包括: (1)介绍了代码变更表示学习及其应用的一般框架. (2)梳理了现有的代码变更表示学习技术, 总结了不同技术的优缺点. (3)总结并归类了代码变更表示学习技术的下游应用. (4)归纳了代码变更表示学习技术现存的挑战和潜在的机遇, 展望了该类技术的未来发展方向.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006679
    [摘要] (903) [HTML] (0) [PDF 5.88 M] (1474)
    摘要:
    深度学习系统具有强大的学习与推理能力, 在无人驾驶、语音识别和机器人等领域应用广泛. 由于数据集的限制以及依赖人工标签数据, 深度学习系统易于出现非预期的行为. 近年来, 深度学习系统的质量问题受到广泛的关注, 特别是在安全攸关的领域. 由于模糊测试具有较强的故障揭示能力, 运用模糊测试技术对深度学习系统进行测试成为研究热点. 从测试用例生成(包括种子队列构建、种子选择和种子变异)、测试结果判定、覆盖分析3个方面对已有的深度学习系统的模糊测试技术进行总结, 并介绍常用的数据集以及度量指标, 最后对其发展方向进行展望.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006681
    [摘要] (413) [HTML] (0) [PDF 4.87 M] (1204)
    摘要:
    异质信息网络是一种异质数据表示形式, 如何融合异质数据复杂语义信息, 是推荐系统面临的挑战之一. 利用弱关系具有的丰富语义和信息传递能力, 构建一种面向推荐系统的异质信息网络高阶嵌入学习框架, 主要包括: 初始化信息嵌入、高阶信息嵌入聚合与推荐预测3个模块. 初始化信息嵌入模块首先采用基于弱关系的异质信息网络最佳信任路径筛选算法, 有效地避免在全关系异质信息网络中, 采样固定数量邻居造成的信息损失, 其次利用新定义的基于多头图注意力的多任务共享特征重要性度量因子, 筛选出节点的语义信息, 并结合交互结构, 有效地表征网络节点; 高阶信息嵌入聚合模块通过融入弱关系及网络嵌入对知识良好的表征能力, 实现高阶信息表达, 并利用异质信息网络的层级传播机制, 将被采样节点的特征聚合到待预测节点; 推荐预测模块利用高阶信息的影响力推荐方法, 实现了推荐任务. 该框架具有嵌入节点类型丰富、融合共享属性和隐式交互信息等特点. 最后, 实验验证UI-HEHo学习框架可有效地改善评级预测的准确性, 以及推荐生成的针对性、新颖性和多样性, 尤其是在数据稀疏的应用场景中, 具有良好的推荐效果.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006684
    [摘要] (740) [HTML] (0) [PDF 6.40 M] (1357)
    摘要:
    分布式系统在计算环境中发挥重要的作用, 其中的共识协议算法用于保证节点间行为的一致性. 共识协议的设计错误可能导致系统运行故障, 严重时可能对人员和环境造成灾难性的后果, 因此保证共识协议设计的正确性非常重要. 形式化验证能够严格证明设计模型中目标性质的正确性, 适合用于验证共识协议. 然而, 随着分布式系统的规模增大, 问题复杂度提升, 使得分布式共识协议的形式化验证更为困难. 采用什么方法对共识协议的设计进行形式化验证、如何提升验证规模, 是共识协议形式化验证的重要研究问题. 对目前采用形式化方法验证共识协议的研究工作进行调研, 总结其中提出的重要建模方法和关键验证技术, 并展望该领域未来有潜力的研究方向.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2797) [HTML] (0) [PDF 525.21 K] (4631)
    摘要:
    Data race is a major source of concurrency bugs. Dynamic data race detection tools (e.g., FastTrack) monitor the execu-tions of a program to report data races occurring in runtime. However, such tools incur significant overhead that slows down and perturbs executions. To address the issue, the state-of-the-art dynamic data race detection tools (e.g., LiteRace) ap-ply sampling techniques to selectively monitor memory access-es. Although they reduce overhead, they also miss many data races as confirmed by existing studies. Thus, practitioners face a dilemma on whether to use FastTrack, which detects more data races but is much slower, or LiteRace, which is faster but detects less data races. In this paper, we propose a new sam-pling approach to address the major limitations of current sampling techniques, which ignore the facts that a data race involves two threads and a program under testing is repeatedly executed. We develop a tool called AtexRace to sample memory accesses across both threads and executions. By selectively monitoring the pairs of memory accesses that have not been frequently observed in current and previous executions, AtexRace detects as many data races as FastTrack at a cost as low as LiteRace. We have compared AtexRace against FastTrack and LiteRace on both Parsec benchmark suite and a large-scale real-world MySQL Server with 223 test cases. The experiments confirm that AtexRace can be a replacement of FastTrack and LiteRace.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2771) [HTML] (0) [PDF 352.38 K] (5765)
    摘要:
    It is difficult to fix atomicity violations correctly. Existing gate lock algorithm (GLA) simply inserts gate locks to serialize exe-cutions, which may introduce performance bugs and deadlocks. Synthesized context-aware gate locks (by Grail) require complex source code synthesis. We propose ?Fixer to adaptively fix ato-micity violations. It firstly analyses the lock acquisitions of an atomicity violation. Then it either adjusts the existing lock scope or inserts a gate lock. The former addresses cases where some locks are used but fail to provide atomic accesses. For the latter, it infers the visibility (being global or a field of a class/struct) of the gate lock such that the lock only protects related accesses. For both cases, ?Fixer further eliminates new lock orders to avoid introducing deadlocks. Of course, ?Fixer can produce both kinds of fixes on atomicity violations with locks. The experi-mental results on 15 previously used atomicity violations show that: ?Fixer correctly fixed all 15 atomicity violations without introducing deadlocks. However, GLA and Grail both intro-duced 5 deadlocks. HFix (that only targets on fixing certain types of atomicity violations) only fixed 2 atomicity violations and introduced 4 deadlocks. ?Fixer also provides an alternative way to insert gate locks (by inserting gate locks with proper visibility) considering fix acceptance.
    优先出版日期:  2017-09-11 , DOI:
    [摘要] (3251) [HTML] (0) [PDF 276.42 K] (2814)
    摘要:
    对Github上Python科学计算软件生态系统中的跨项目关联缺陷进行了实证分析,聚焦于开发者对缺陷根源的追踪和上下游项目开发者修复缺陷的协作。通过定性和定量的分析,揭示了影响这类缺陷定位与修复的因素,以及开发者应对它们的常见行为。
    优先出版日期:  2017-06-21 , DOI:
    [摘要] (3290) [HTML] (0) [PDF 169.43 K] (2914)
    摘要:
    Numerical instability is a well-known problem that may cause serious runtime failures. This paper discusses the reason of instability in software development process, and presents a toolchain that not only detects the potential instability in software, but also diagnoses the reason for such instability. We classify the reason of instability into two categories. When it is introduced by software requirements, we call the instability caused by problem. In this case, it cannot be avoided by improving software development, but requires inspecting the requirements, especially the underlying mathematical properties. Otherwise, we call the instability caused by practice. We design our toolchain as 4 loosely-coupled tools, which combine stochastic arithmetic with infinite-precision testing. Each tool in our toolchain can be configured with different strategies according to the properties of the analyzed software. We evaluate our toolchain on subjects from literature. The results show that it effectively detects and separates the instabilities caused by problems from others. We also conduct an evaluation on the latest version of GNU Scientific Library, and the toolchain finds a few real bugs in the well-maintained and widely deployed numerical library. With the help of our toolchain, we report the details and fixing advices to the GSL buglist.
    优先出版日期:  2017-06-13 , DOI:
    [摘要] (4495) [HTML] (0) [PDF 174.91 K] (3344)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-25 , DOI:
    [摘要] (3372) [HTML] (0) [PDF 254.98 K] (2684)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-18 , DOI:
    [摘要] (3852) [HTML] (0) [PDF 472.29 K] (2676)
    摘要:
    Software should behave correctly even in adverse conditions. Particularly, we study the problem of automated validation of crash consistency, i.e., file system data safety when systems crash. Existing work requires non-trivial manual efforts of specifying checking scripts and workloads, which is an obstacle for software developers. Therefore, we propose C3, a novel approach that makes crash consistency validation as easy as pressing a single button. With a program and an input, C3 automatically reports inconsistent crash sites. C3 not only exempts developers from the need of writing crash site checking scripts (by an algorithm that computes editing distance between file system snapshots) but also reduces the reliance on dedicated workloads (by test amplification). We implemented C3 as an open-source tool. With C3, we found 14 bugs in open-source software that have severe consequences at crash and 11 of them were previously unknown to the developers, including in highly mature software (e.g., GNU zip and GNU coreutils sort) and popular ones being actively developed (e.g., Adobe Brackets and TeXstudio).
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3601) [HTML] (0) [PDF 293.93 K] (2480)
    摘要:
    本文提出了一种可部署的数据竞争动态采样检测技术,首先提出了基于线程本地时序的数据竞争定义,之后基于硬件断点进行采样检测。在采样率为1%时,时间开销约为5%,且有效性得以保证。
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3954) [HTML] (0) [PDF 244.61 K] (2814)
    摘要:
    在软件开发过程中,软件更新时常发生,怎样保证软件更新后的软件质量呢?这就是回归测试的任务。传统上,回归测试通过检测软件异常行为来保证软件质量。然而,在实践中所有的软件行为不可能全部被检测到,尤其针对于大型的复杂软件系统。为帮助开发人员更好的进行回归测试,传统工作集中在增加测试用例上,即通过人工或自动生成测试输入的方法,观测测试输出以捕获程序行为。这种方法虽一定程度上有效,但也存在很大缺陷:人工编写测试用例费时费力,不能覆盖的代码较多,而且容易受人主观判断的误导(例如忽略某些特别容易存在缺陷的类、方法等);自动生成测试用例技术存在很多问题,例如代价大和无法很好的处理数组、字符串等。基于目前软件测试技术存在的缺陷,很多软件不得不在面临诸多安全威胁的状态下发布,有时甚至造成重大财产损失甚至人员伤亡。因此,我们迫切需要新技术来辅助现有技术以更好的进行回归测试、保障软件质量。
    优先出版日期:  2016-12-12 , DOI:
    [摘要] (3486) [HTML] (0) [PDF 358.69 K] (2822)
    摘要:
    在程序分析中,循环(Loop)的处理与分析是一个非常重要而且很有挑战的任务。例如,在符号执行(Symbolic Execution)中,循环的不断展开会导致程序路径数量指数级地增长。因此,符号执行通常会陷入不停的循环展开,而不能覆盖到新的程序分支上,最终影响了测试用例生成或者缺陷检测的效率。
    优先出版日期:  2016-09-30 , DOI:
    摘要:
    在软件测试中,测试预言是一种判断程序在给定测试输入下的执行结果是否符合预期的机制。测试预言通常由在测试中需要被观测的变量以及这些变量的预期值组成。对于相同的测试输入,不同的测试预言可能有不同的缺陷检测能力。因此,高质量的测试预言对于检测软件中的缺陷是非常必要的。在已有的研究中,虽然研究人员提出了各种各样的自动化测试输入生成技术,但是测试预言问题仍然被公认为是软件测试中最难解决的问题之一。
    优先出版日期:  2016-09-09 , DOI:
    [摘要] (3960) [HTML] (0) [PDF 313.52 K] (191)
    摘要:
    本文基于众测平台,提出了一种基于局部的主动学习方法,能够将众测报告中的缺陷进行自动分类,该方法解决了众测报告分类中的局部偏见问题、及缺少历史训练数据的问题,并基于实际的众测数据进行了验证。
    优先出版日期:  2016-09-07 , DOI:
    [摘要] (4437) [HTML] (0) [PDF 231.98 K] (114)
    摘要:
    并发缺陷是由于某些事件按照一定的顺序发生而导致的,本文提出了一种基于缺陷半径的并发缺陷的概率检测方法RPro,并用于死锁的检测,且有概率保证。实验表明该方法可以显著提高死锁的检测概率。
    优先出版日期:  2016-08-29 , DOI:
    摘要:
    当公司投入资源到开源社区,其诉求可能跟开放共享的开源开发方法存在冲突,继而影响自由贡献者.因此我们研究:公司参与会对开源社区带来怎样的影响?面向三个技术同构的混合项目,我们总结了三个商业参与模型,并量化了不同模型对贡献者稳定性和持续性的影响.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (36731) [HTML] (0) [PDF 832.28 K] (78094)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2010,21(3):427-437, DOI:
    [摘要] (32543) [HTML] (0) [PDF 308.76 K] (37170)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (29426) [HTML] (0) [PDF 781.42 K] (52939)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (28571) [HTML] (1747) [PDF 880.96 K] (29177)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2009,20(5):1337-1348, DOI:
    [摘要] (27671) [HTML] (0) [PDF 1.06 M] (43389)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2008,19(1):48-61, DOI:
    [摘要] (27591) [HTML] (0) [PDF 671.39 K] (59805)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2009,20(2):271-289, DOI:
    [摘要] (26621) [HTML] (0) [PDF 675.56 K] (41521)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2005,16(1):1-7, DOI:
    [摘要] (21780) [HTML] (0) [PDF 614.61 K] (19516)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2004,15(3):428-442, DOI:
    [摘要] (20344) [HTML] (0) [PDF 1009.57 K] (15668)
    摘要:
    随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务成为电子商务的有效解决方案.Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制.Web服务的新型构架,Web服务的高效执行方式,Web服务与其他成熟技术的有机结合以及Web服务的集成是解决现实应用问题的重要技术.从Web服务研究的不同侧面对其进行了综述,阐述了Web服务的基本概念,分析了当前Web服务的主要研究问题及其核心支撑技术,概括了Web服务中的数据集成技术、Web服务的组合、语义Web服务、Web服务发现,Web服务安全,P2P(Peer-to-Peer)新型计算环境下的Web服务解决方案和网格服务等方面的研究内容,并对这些技术进行了总结,结合已有的研究成果,展望了Web服务未来的研究方向及其面临的挑战.
    2010,21(8):1834-1848, DOI:
    [摘要] (20122) [HTML] (0) [PDF 682.96 K] (53985)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2005,16(5):857-868, DOI:
    [摘要] (19609) [HTML] (0) [PDF 489.65 K] (28798)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2009,20(1):54-66, DOI:
    [摘要] (19247) [HTML] (0) [PDF 1.41 M] (48583)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (18394) [HTML] (0) [PDF 2.09 M] (29870)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (18320) [HTML] (0) [PDF 408.86 K] (29238)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2009,20(3):524-545, DOI:
    [摘要] (17169) [HTML] (0) [PDF 1.09 M] (21010)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2009,20(1):124-137, DOI:
    [摘要] (16644) [HTML] (0) [PDF 1.06 M] (21013)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(11):2965-2976, DOI:
    [摘要] (16203) [HTML] (0) [PDF 442.42 K] (14215)
    摘要:
    研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.
    2004,15(8):1208-1219, DOI:
    [摘要] (16201) [HTML] (0) [PDF 948.49 K] (12798)
    摘要:
    随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,网络蠕虫成为恶意代码研究中的首要课题.首先综合论述网络蠕虫的研究概况,然后剖析网络蠕虫的基本定义、功能结构和工作原理,讨论网络蠕虫的扫描策略和传播模型,归纳总结目前防范网络蠕虫的最新技术.最后给出网络蠕虫研究的若干热点问题与展望.
    2009,20(5):1226-1240, DOI:
    [摘要] (16045) [HTML] (0) [PDF 926.82 K] (15245)
    摘要:
    对几种智能规划方法中利用的逻辑演绎与推理技术予以分析,分别介绍利用命题逻辑的基于可满足性的规划方法与规划系统,利用模态逻辑与析取推理的Conformant规划方法与规划系统,利用非单调逻辑的规划方法和利用模糊描述逻辑的Flexible规划方法,并结合国际规划竞赛和相关论文等的实验结论说明上述方法的有效性和可行性.最后,提出目前基于自动推理技术的智能规划方法所面临的挑战、可能的处理方法以及与之相关的研究热点与趋势.
    2003,14(10):1717-1727, DOI:
    [摘要] (15884) [HTML] (0) [PDF 839.25 K] (13560)
    摘要:
    传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到这些信息的用户.传感器网络是计算机科学技术的一个新的研究领域,具有十分广阔的应用前景,引起了学术界和工业界的高度重视.介绍了传感器网络及其数据管理的概念和特点,探讨了传感器网络及其数据管理的研究问题,并综述了传感器网络及其数据管理的研究现状.
    2009,20(2):350-362, DOI:
    [摘要] (15824) [HTML] (0) [PDF 1.39 M] (38725)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (15453) [HTML] (1695) [PDF 1.04 M] (24291)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (15164) [HTML] (1754) [PDF 1.32 M] (18267)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2009,20(10):2729-2743, DOI:
    [摘要] (14253) [HTML] (0) [PDF 1.12 M] (10253)
    摘要:
    基于多跳的无线传感器网络,越靠近sink的传感器节点因需要转发更多的数据,其能量消耗就越快,从而在sink周围形成了一种称为“能量洞”的现象.“能量洞”问题会导致整个网络由于内部节点能量过早耗尽而结束寿命,同时,网络中离sink较远的节点仍有大量能量剩余.研究“能量洞”现象,基于改进的分级环模型,总结出调节各环内节点的数据传输距离是实现网络节能的有效方法.证明搜索各区域最优的传输距离是一个多目标优化问题,即是NP难问题.从而提出一种基于蚁群优化的分布式算法,各区域根据其节点分布情况自适应地探索近似最优的传输距离,延长网络寿命.模拟实验结果表明,该算法在较短的时间内能够收敛到合理的解,并且得到的网络寿命接近于理想情况下的最优时间,与现有的类似算法相比,该算法提供了更长的网络寿命,并能适用于非均匀节点分布情况.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (14093) [HTML] (0) [PDF 1017.73 K] (29489)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (14050) [HTML] (0) [PDF 946.37 K] (16405)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2000,11(11):1460-1466, DOI:
    [摘要] (13956) [HTML] (0) [PDF 520.69 K] (10567)
    摘要:
    入侵检测是近年来网络安全研究的热 点.首先说明入侵检测的必要性,并给出入侵检测的概念和模型,概述了多种入侵检测方法及 体系结构.最后,讨论了该领域当前存在的问题及今后的研究方向.
    2013,24(8):1786-1803, DOI:10.3724/SP.J.1001.2013.04416
    [摘要] (13655) [HTML] (0) [PDF 1.04 M] (15674)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2004,15(4):571-583, DOI:
    [摘要] (13542) [HTML] (0) [PDF 1005.17 K] (9209)
    摘要:
    在诸如文件共享等无中心的Peer-to-Peer环境中,资源共享是用户自愿的行为.在这类系统中,由于用户不为自身的行为担负(法律)责任,因而节点间的信任关系往往很难通过传统的信任机制建立.一种更合理的考虑是参考人际网络中基于推荐的信任关系建立方法.现有的模型不能很好地解决模型的迭代收敛性问题,同时缺乏对诸如冒名、诋毁等安全性问题的考虑.针对上述问题,在节点推荐的基础上提出了一种基于Peer-to-Peer环境的信任模型,并给出了该模型的数学分析和分布式实现方法.分析及仿真表明,该信任模型较已有模型在迭代的收敛性、模型的安全性等问题上有较大改进.
    2002,13(7):1228-1237, DOI:
    [摘要] (13524) [HTML] (0) [PDF 500.04 K] (13203)
    摘要:
    近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的软件体系结构概念之后,给出了软件体系结构的定义.通过总结软件体系结构领域的若干研究活动,提出了软件体系结构研究的两大思路,并从7个方面介绍了软件体系结构研究进展.探讨了软件体系结构研究中的不足之处,并分析其原因.作为总结,给出了软件体系结构领域最有前途的发展趋势.
    2006,17(7):1588-1600, DOI:
    [摘要] (13464) [HTML] (0) [PDF 808.73 K] (13613)
    摘要:
    在无线传感器网络体系结构中,网络层的路由技术至关重要.分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,成为当前重点研究的路由技术.分析了无线传感器网络分簇路由机制,着重从簇头的产生、簇的形成和簇的路由角度系统地描述了当前典型的分簇路由算法,并比较和分析了这些算法的特点和适用情况.最后结合该领域当前研究现状,指出分簇路由算法未来的研究重点.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (13438) [HTML] (0) [PDF 845.91 K] (27055)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2008,19(zk):112-120, DOI:
    [摘要] (13413) [HTML] (0) [PDF 594.29 K] (13890)
    摘要:
    无线移动Ad Hoc网络是一种不依赖任何固定基础设施的移动无线多跳网络.由于其动态性和资源的限制,在Ad Hoc网络中提供多路径路由是一个重要的研究课题.描述了一种Ad Hoc网络中基于信息熵选择的稳定多路径路由算法(stability multipath on-demand routing,简称SMDR),提出了路径熵的度量参数,并利用路径熵来选择稳定的、长寿命的多路径,减少了重构路由的次数,从而在网络拓扑频繁变化的Ad Hoc网络环境中较好地提供QoS保证和提高数据传输率.仿真结果表明,SMDR协议改进了分组传输率、端到端时延和路由负载率.SMDR协议为解决动态的Ad Hoc网络多路径传输提供了一种新的有效途径.
    2009,20(1):11-29, DOI:
    [摘要] (13406) [HTML] (0) [PDF 787.30 K] (13462)
    摘要:
    约束优化问题是科学和工程应用领域经常会遇到的一类数学规划问题.近年来,约束优化问题求解已成为进化计算研究的一个重要方向.从约束优化进化算法=约束处理技术+进化算法的研究框架出发,从约束处理技术和进化算法两个基本方面对约束优化进化算法的研究及进展进行了综述.此外,对约束优化进化算法中的一些重要问题进行了探讨.最后进行了各种算法的比较性总结,深入分析了目前约束优化进化算法中亟待解决的问题,并指出了值得进一步研究的方向.
    2015,26(1):26-39, DOI:10.13328/j.cnki.jos.004631
    [摘要] (13222) [HTML] (1757) [PDF 763.52 K] (14082)
    摘要:
    近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
    2013,24(1):50-66, DOI:10.3724/SP.J.1001.2013.04276
    [摘要] (13168) [HTML] (0) [PDF 0.00 Byte] (15913)
    摘要:
    作为云平台提升应用性能的一种重要手段,分布式缓存技术近年来受到了工业界和学术界的广泛关注.从云计算与分布式缓存技术的结合入手,分析介绍了分布式缓存的特性、典型应用场景、发展阶段、相关标准规范以及推动缓存技术发展的若干关键要素.为系统地了解分布式缓存技术的现状和不足,建立了一个云环境下分布式缓存技术的分析框架——DctAF.该框架从分析云计算的特点和缓存技术的边界出发,涵盖6个分析维度.基于DctAF框架,对当前缓存技术进行总结和分析,并对典型系统进行比较.在此基础上,深入阐述了云环境下分布式缓存系统面临的挑战;围绕上述挑战,分析和比较了已有的研究工作.
    2003,14(9):1621-1628, DOI:
    [摘要] (12953) [HTML] (0) [PDF 680.35 K] (18661)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2008,19(8):1902-1919, DOI:
    [摘要] (12846) [HTML] (0) [PDF 521.73 K] (12882)
    摘要:
    可视化语言技术比一维文本语言在描述软件组成方面具有优越性.由于图表和图形概念在系统建模中的广泛使用,可视化语言可以应用于需求分析、设计、测试和维护等软件开发的各个阶段.除了具有直观易见的特点之外,图文法在计算机上的精确建模和验证能力,为设计可视化语言提供了一个坚实的理论基础.讨论了可视化语言的形式理论基础,回顾了相关的可视化图形编程环境.特别提出了一种空间图文法,并且用该图文法定义了统一建模语言的行为语义.基于空间图文法,开发了一种基于模式驱动的框架,以帮助软件架构与设计.
    2008,19(8):1947-1964, DOI:
    [摘要] (12828) [HTML] (0) [PDF 811.11 K] (9300)
    摘要:
    设计与实现面向领域应用的交互式信息可视化软件十分困难.缺乏统一的开发方法与支撑工具箱,为非专家用户提供对层次、网络、多维等数据类型的统一支持,对各种可视化技术与交互技术的统一支持,以及对信息可视化任务的统一支持.针对此问题,提出了一种模型驱动的交互式信息可视化开发方法Daisy.首先,提出了交互式信息可视化界面模型IIVM(interactive information visualization interface model);然后,提出了基于IIVM的交互式信息可视化开发方法Daisy,讨论了该方法的两个核心技术:IIVM建模与描述文件生成方法、系统自动生成方法.同时,给出了Daisy工具箱,包括Daisy建模工具、Daisy系统自动生成工具以及运行时框架与组件库.最后,给出了该开发方法与工具箱的应用实例.实例表明,该方法能够为交互式信息可视化开发的统一支撑方法问题提供一种有效的解决方案.
    2003,14(9):1635-1644, DOI:
    [摘要] (12769) [HTML] (0) [PDF 622.06 K] (11173)
    摘要:
    计算机取证研究的是如何为调查计算机犯罪提供彻底、有效和安全的技术.其关键是确保证据的真实性、可靠性、完整性和符合法律规定.介绍了计算机取证的过程以及取证软件的原理和实现,并且给出完整的取证实例.从理论和实现两个方面讨论了现有取证技术的局限性和面临的挑战,并展望其未来的发展方向.由于计算机犯罪手段的变化和其他技术的引入,现有的取证工作将向着深入和综合的方向发展.
    2002,13(10):1952-1961, DOI:
    [摘要] (12736) [HTML] (0) [PDF 570.96 K] (11060)
    摘要:
    对个性化服务技术中用户描述文件的表达与更新、资源描述文件的表达、个性化推荐技术、个性化服务体系结构以及该领域的主要研究成果进行了综述.通过比较现有原型系统的实现方式,详细讨论了实现个性化服务的关键技术.此外,分析了3个具有代表性的个性化服务系统.最后对个性化服务技术进一步研究工作的方向进行了展望.
    2010,21(2):231-247, DOI:
    [摘要] (12605) [HTML] (0) [PDF 1.21 M] (15526)
    摘要:
    通过分析服务组合的故障需求,给出服务组合故障处理的框架.该框架采用Petri网来解决服务组合的错误发现及其处理问题.重点讨论了可用服务失败、组件失败及网络故障的情况,并相应地给出了服务组合故障模型.在此基础上对故障处理模型进行分析,给出服务组合故障处理正确性准则,并证明了其正确性.最后,采用CTL (computational tree logic)描述相关性质并提出验证服务组合故障分析的实施算法.仿真结果表明,该方法在处理服务组合故障时具有一定的优越性.
    2012,23(1):82-96, DOI:10.3724/SP.J.1001.2012.04101
    [摘要] (12592) [HTML] (0) [PDF 394.07 K] (13587)
    摘要:
    以僵尸网络为载体的各种网络攻击活动是目前互联网所面临的最为严重的安全威胁之一.虽然近年来这方面的研究取得了显著的进展,但是由于僵尸网络不断演化、越来越复杂和隐蔽以及网络和系统体系结构的限制给检测和防御带来的困难,如何有效应对僵尸网络的威胁仍是一项持续而具有挑战性的课题.首先从僵尸网络的传播、攻击以及命令与控制这3 个方面介绍了近年来僵尸网络工作机制的发展,然后从监测、工作机制分析、特征分析、检测和主动遏制这5 个环节对僵尸网络防御方面的研究进行总结和分析,并对目前的防御方法的局限、僵尸网络的发展趋势和进一步的研究方向进行了讨论.
    2008,19(7):1565-1580, DOI:
    [摘要] (12380) [HTML] (0) [PDF 815.02 K] (15248)
    摘要:
    软件缺陷预测技术从20世纪70年代发展至今,一直是软件工程领域最活跃的内容之一,在分析软件质量、平衡软件成本方面起着重要的作用.研究和讨论了软件缺陷预测技术的起源、发展和当前所面临的挑战,对主流的缺陷预测技术进行了分类讨论和比较,并对典型的软件缺陷的分布模型给出了案例研究.
    2010,21(7):1620-1634, DOI:
    [摘要] (12330) [HTML] (0) [PDF 765.23 K] (18985)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2017,28(1):1-16, DOI:10.13328/j.cnki.jos.005139
    [摘要] (12315) [HTML] (1934) [PDF 1.75 M] (7986)
    摘要:
    背包问题(knapsack problem,简称KP)是一类著名的组合优化问题,也是一类NP难问题,它包括0-1背包问题、有界背包问题、多维背包问题、多背包问题、多选择背包问题、二次背包问题、动态背包问题和折扣背包问题等多种形式,在众多领域有着广泛的应用.演化算法(EAs)是一类有效的快速近似求解KP的算法.对近10余年来利用EAs求解KP的研究情况进行了较为详细的总结,一方面讨论了利用EAs求解各种KP问题时个体的编码方法与处理不可行解的有效方法,另一方面,为今后进一步利用最新提出的EAs求解KP问题提供了一条可借鉴的思路.
    2010,21(5):916-929, DOI:
    [摘要] (12111) [HTML] (0) [PDF 944.50 K] (16612)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2006,17(9):1848-1859, DOI:
    [摘要] (12027) [HTML] (0) [PDF 770.40 K] (19941)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2008,19(10):2706-2719, DOI:
    [摘要] (11993) [HTML] (0) [PDF 778.29 K] (10953)
    摘要:
    Web搜索引擎已经成为人们从海量Web信息中快速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求.随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的Web搜索技术并迅速成为研究热点.研究的目的是对现有的基于P2P的Web搜索技术进行总结,以期为进一步研究指明方向.首先分析了基于P2P的Web搜索面临的诸多挑战;然后重点总结分析了基于P2P的Web搜索的各项关键技术的研究现状,包括系统拓扑结构、数据存放策略、查询路由机制、索引切分策略、数据集选择、相关性排序、网页收集方法等;最后对已有的3个较有特色的基于P2P的Web搜索原型系统进行了介绍.
    2004,15(12):1751-1763, DOI:
    [摘要] (11946) [HTML] (0) [PDF 928.33 K] (7374)
    摘要:
    报告了关于少儿图灵测试(CTT)的一项研究工作.研究区别于其他人的主要之处是该测试程序是基于知识的,它依靠一个海量常识知识库的支持.给出了作者研究少儿图灵测试的动机、设计、技术、实验结果和平台(包括一个知识引擎和一个会话引擎).最后给出了关于少儿图灵测试的几点研究结论和思考.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (36731) [HTML] (0) [PDF 832.28 K] (78094)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2008,19(1):48-61, DOI:
    [摘要] (27591) [HTML] (0) [PDF 671.39 K] (59805)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2010,21(8):1834-1848, DOI:
    [摘要] (20122) [HTML] (0) [PDF 682.96 K] (53985)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (29426) [HTML] (0) [PDF 781.42 K] (52939)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2009,20(1):54-66, DOI:
    [摘要] (19247) [HTML] (0) [PDF 1.41 M] (48583)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2009,20(5):1337-1348, DOI:
    [摘要] (27671) [HTML] (0) [PDF 1.06 M] (43389)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289, DOI:
    [摘要] (26621) [HTML] (0) [PDF 675.56 K] (41521)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2009,20(2):350-362, DOI:
    [摘要] (15824) [HTML] (0) [PDF 1.39 M] (38725)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2004,15(10):1493-1504, DOI:
    [摘要] (8947) [HTML] (0) [PDF 937.72 K] (38125)
    摘要:
    多年来计算机图形处理器(GP以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战.
    2010,21(3):427-437, DOI:
    [摘要] (32543) [HTML] (0) [PDF 308.76 K] (37170)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2014,25(9):1889-1908, DOI:10.13328/j.cnki.jos.004674
    [摘要] (11404) [HTML] (2151) [PDF 550.98 K] (33256)
    摘要:
    首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.
    2013,24(11):2476-2497, DOI:10.3724/SP.J.1001.2013.04486
    [摘要] (9899) [HTML] (0) [PDF 1.14 M] (33140)
    摘要:
    概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (18394) [HTML] (0) [PDF 2.09 M] (29870)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (14093) [HTML] (0) [PDF 1017.73 K] (29489)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (18320) [HTML] (0) [PDF 408.86 K] (29238)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (28571) [HTML] (1747) [PDF 880.96 K] (29177)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2018,29(5):1471-1514, DOI:10.13328/j.cnki.jos.005519
    [摘要] (5439) [HTML] (2315) [PDF 4.38 M] (29066)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2005,16(5):857-868, DOI:
    [摘要] (19609) [HTML] (0) [PDF 489.65 K] (28798)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (13438) [HTML] (0) [PDF 845.91 K] (27055)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2013,24(1):77-90, DOI:10.3724/SP.J.1001.2013.04339
    [摘要] (11018) [HTML] (0) [PDF 0.00 Byte] (25555)
    摘要:
    任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (15453) [HTML] (1695) [PDF 1.04 M] (24291)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2021,32(2):349-369, DOI:10.13328/j.cnki.jos.006138
    [摘要] (6775) [HTML] (3525) [PDF 2.36 M] (23087)
    摘要:
    小样本学习旨在通过少量样本学习到解决问题的模型.近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习的相关工作,具体来说介绍了基于模型微调、基于数据增强和基于迁移学习这3大类小样本学习模型与算法的研究进展;将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强这3类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络这3类;总结了目前常用的小样本数据集和代表性的小样本学习模型在这些数据集上的实验结果;随后对小样本学习的现状和挑战进行了概述;最后展望了小样本学习的未来发展方向.
    2017,28(4):959-992, DOI:10.13328/j.cnki.jos.005143
    [摘要] (8715) [HTML] (2508) [PDF 3.58 M] (22622)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2011,22(6):1299-1315, DOI:10.3724/SP.J.1001.2011.03993
    [摘要] (10662) [HTML] (0) [PDF 987.90 K] (21255)
    摘要:
    由于属性基加密(attribute-based encryption,简称ABE)机制以属性为公钥,将密文和用户私钥与属性关联,能够灵活地表示访问控制策略,从而极大地降低了数据共享细粒度访问控制带来的网络带宽和发送结点的处理开销.因此,ABE 在细粒度访问控制领域具有广阔的应用前景.在对基本ABE 机制及其两种扩展:密钥-策略ABE(KP-ABE)和密文-策略ABE(CP-ABE)进行深入研究、分析后,针对ABE 中的CP-ABE 机制访问结构的设计、属性密钥撤销、ABE 的密钥滥用、多授权机构等难点问题进行了深入探讨和综合分析,对比了现有研究工作的功能及开销.最后讨论了ABE 未来需进一步研究的问题和主要研究方向.
    2009,20(1):124-137, DOI:
    [摘要] (16644) [HTML] (0) [PDF 1.06 M] (21013)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(3):524-545, DOI:
    [摘要] (17169) [HTML] (0) [PDF 1.09 M] (21010)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2006,17(9):1848-1859, DOI:
    [摘要] (12027) [HTML] (0) [PDF 770.40 K] (19941)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2004,15(11):1583-1594, DOI:
    [摘要] (8480) [HTML] (0) [PDF 1.57 M] (19829)
    摘要:
    在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式.研究了随机性和模糊性之间的关联性,统一用熵作为客观事物和主观认知中不确定状态的度量,用超熵来度量不确定状态的变化,并利用熵和超熵进一步研究了混沌、分形和复杂网络中的不确定性,以及由此带来的种种进化和变异,为实现不确定性人工智能找到了一种简单、有效的形式化方法,也为包括形象思维在内的不确定性思维的自动化打下了基础.不确定性人工智能是人工智能进入21世纪的新发展.这个由多学科交叉渗透构成的新学科,必将使得机器能够具备人脑一样的不确定性信息和知识的表示能力、处理能力和思维能力.
    2005,16(1):1-7, DOI:
    [摘要] (21780) [HTML] (0) [PDF 614.61 K] (19516)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2012,23(8):2058-2072, DOI:10.3724/SP.J.1001.2012.04237
    [摘要] (9863) [HTML] (0) [PDF 800.05 K] (19404)
    摘要:
    分布式拒绝服务(distributed denial of service,简称DDoS)攻击是当今互联网的重要威胁之一.基于攻击包所处网络层次,将DDoS 攻击分为网络层DDoS 攻击和应用层DDoS 攻击,介绍了两类攻击的各种检测和控制方法,比较了处于不同部署位置控制方法的优劣.最后分析了现有检测和控制方法应对DDoS 攻击的不足,并提出了DDoS 过滤系统的未来发展趋势和相关技术难点.
    2014,25(1):37-50, DOI:10.13328/j.cnki.jos.004497
    [摘要] (9419) [HTML] (1816) [PDF 929.87 K] (19231)
    摘要:
    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.
    2010,21(7):1620-1634, DOI:
    [摘要] (12330) [HTML] (0) [PDF 765.23 K] (18985)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2018,29(10):2966-2994, DOI:10.13328/j.cnki.jos.005551
    [摘要] (8710) [HTML] (3089) [PDF 610.06 K] (18726)
    摘要:
    近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
    2003,14(9):1621-1628, DOI:
    [摘要] (12953) [HTML] (0) [PDF 680.35 K] (18661)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2005,16(10):1743-1756, DOI:
    [摘要] (9814) [HTML] (0) [PDF 545.62 K] (18483)
    摘要:
    论述了可证明安全性理论在安全方案与安全协议的设计与分析中的应用,内容主要包括:什么是可证明安全性,可证明安全性理论涉及到的一些基本概念,RO(random oracle)模型方法论的基本思想及其在公钥加密和数字签名等方案中的应用研究进展,标准模型下可证明安全性理论在公钥加密和数字签名等方案中的应用研究进展,以及可证明安全性理论在会话密钥分配协议的设计与分析中的应用研究进展.
    2013,24(2):295-316, DOI:10.3724/SP.J.1001.2013.04336
    [摘要] (9714) [HTML] (0) [PDF 0.00 Byte] (18417)
    摘要:
    在新的应用模式下,传统层次结构数据中心网络在规模、带宽、扩展性和成本方面存在诸多不足.为了适应新型应用的需求,数据中心网络需要在低成本的前提下,满足高扩展性、低配置开销、健壮性和节能的要求.首先,概述了传统数据中心网络体系结构及其不足,并指出了新的需求;其次,将现有方案划分为两类,即以网络为中心和以服务器为中心的方案;然后,对两类方案中的代表性结构进行了详细的综述和对比分析;最后指出了数据中心网络未来的发展方向.
    2020,31(7):2245-2282, DOI:10.13328/j.cnki.jos.006037
    [摘要] (2614) [HTML] (2233) [PDF 967.02 K] (18355)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (15164) [HTML] (1754) [PDF 1.32 M] (18267)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2013,24(5):1078-1097, DOI:10.3724/SP.J.1001.2013.04390
    [摘要] (11585) [HTML] (0) [PDF 1.74 M] (17901)
    摘要:
    软件定义网络(software-defined networking,简称SDN)技术分离了网络的控制平面和数据平面,为研发网络新应用和未来互联网技术提供了一种新的解决方案.综述了基于OpenFlow 的SDN 技术发展现状,首先总结了逻辑控制和数据转发分离架构的研究背景,并介绍了其关键组件和研究进展,包括OpenFlow交换机、控制器和SDN技术,然后从4 个方面分析了基于OpenFlow 的SDN 技术目前所面临的问题和解决思路.结合近年来的发展现状,归纳了在校园网、数据中心以及面向网络管理和网络安全方面的应用,最后探讨了未来的研究趋势.
    2010,21(7):1605-1619, DOI:
    [摘要] (9763) [HTML] (0) [PDF 856.25 K] (17524)
    摘要:
    随着Internet规模的迅速扩大,复杂性和不确定性也随之增加,基于融合的网络态势感知必将成为网络管理的发展方向.在分析现有网络管理不足以及发展需求的基础上,介绍了网络态势感知的起源、概念、目标和特点.首先,提出了一个网络态势感知研究框架,介绍了研究历程,指出了研究重点以及存在的问题,并将现有评估方法分为3类:基于数学模型的方法、基于知识推理的方法、基于模式识别的方法.然后详细讨论了模型、知识表示和评估方法这3方面的研究内容,总结存在的共性问题,着重评价了每种评估方法的基本思路、评估过程和优缺点,并进行了对比分析.随后介绍了网络态势感知在安全、传输、生存性、系统评价等领域的应用研究.最后指出了网络态势感知的发展方向,并从问题体系、技术体系和应用体系3方面作了总结.
    2009,20(6):1393-1405, DOI:
    [摘要] (11866) [HTML] (0) [PDF 831.86 K] (17448)
    摘要:
    组合测试能够在保证错误检出率的前提下采用较少的测试用例测试系统.但是,组合测试用例集的构造问题的复杂度是NP完全的.组合测试方法的有效性和复杂性吸引了组合数学领域和软件工程领域的学者们对其进行深入的研究.总结了近年来在组合测试方面的研究进展,主要内容包括:组合测试准则的研究、组合测试生成问题与其他NP完全问题的联系、组合测试用例的数学构造方法、采用计算机搜索的组合测试生成方法以及基于组合测试的错误定位技术.
    2008,19(11):2803-2813, DOI:
    [摘要] (9053) [HTML] (0) [PDF 319.20 K] (17204)
    摘要:
    提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.
    2009,20(8):2241-2254, DOI:
    [摘要] (6604) [HTML] (0) [PDF 1.99 M] (17134)
    摘要:
    从数据场思想出发,提出了一种基于拓扑势的社区发现算法.该方法引入拓扑势描述网络节点间的相互作用,将每个社区视为拓扑势场的局部高势区,通过寻找被低势区域所分割的连通高势区域实现网络的社区划分.理论分析与实验结果表明,该方法无须用户指定社区个数等算法参数,能够揭示网络内在的社区结构及社区间具有不确定性的重叠节点现象.算法的时间复杂度为O(m+n3/γ)~O(n2),n为网络节点数,m为边数,2<γ<3为一个常数.
    2009,20(3):567-582, DOI:
    [摘要] (8163) [HTML] (0) [PDF 780.38 K] (16776)
    摘要:
    关于软件质量模型和软件质量评估模型的研究,一直是软件质量保障和评估领域的研究热点,国内外在这两方面进行了大量的研究,并取得了一定的研究成果.近年来,以操作系统为核心的基础软件呈平台化、体系化的发展趋势,基础软件平台的质量评估成为亟待解决的问题.在总结、分析软件质量模型、软件质量评估模型研究发展现状的基础上,重点归纳和描绘了基础软件平台的质量评估发展历程,并简要探讨了基础软件平台质量评估研究的发展方向,力求为展开基础软件平台的质量评估建立良好的基础.
    2011,22(3):381-407, DOI:10.3724/SP.J.1001.2011.03934
    [摘要] (10365) [HTML] (0) [PDF 614.69 K] (16757)
    摘要:
    互联网的普及和万维网的兴起,引发了软件技术的变革,催生了新的软件形态——网络化软件,为大众用户提供多样化、个性化的按需服务.随着应用领域的不断扩展和用户群的日益庞大,其规模与复杂度正以超越人类处理能力的速度增长,使得软件工程不得不面临一系列的挑战.为了科学地认识和理解这类规模庞大的人工复杂系统,从网络化-服务化-社会化的三维视角出发,对其基础设施、应用服务和大众交互三方面的复杂网络特性实证研究进行了综述分析,并系统论述了网络化软件中隐含的“小世界”和“无尺度”复杂网络特性对软件工程今后研究的影响和启示.软件工程与其他学科的交叉汇聚,将迸发新的观点和思想,为网络化软件的研究提供新的思维方式和方法论,有望实现软件工程理论、方法和关键技术的创新,从而推动我国软件服务业的快速发展.
    2017,28(1):160-183, DOI:10.13328/j.cnki.jos.005136
    [摘要] (8467) [HTML] (2851) [PDF 3.12 M] (16744)
    摘要:
    图像分割是指将图像分成若干具有相似性质的区域的过程,是许多图像处理任务的预处理步骤.近年来,国内外学者主要研究基于图像内容的分割算法.在广泛调研大量文献和最新成果的基础上,将图像分割算法分为基于图论的方法、基于像素聚类的方法和语义分割方法这3种类型并分别加以介绍.对每类方法所包含的典型算法,尤其是最近几年利用深度网络技术的语义图像分割方法的基本思想、优缺点进行了分析、对比和总结.介绍了图像分割常用的基准数据集和算法评价标准,并用实验对各种图像分割算法进行对比.最后进行总结,并对未来可能的发展趋势加以展望.
    2013,24(4):825-842, DOI:10.3724/SP.J.1001.2013.04369
    [摘要] (8151) [HTML] (0) [PDF 1.09 M] (16660)
    摘要:
    蜜罐是防御方为了改变网络攻防博弈不对称局面而引入的一种主动防御技术,通过部署没有业务用途的安全资源,诱骗攻击者对其进行非法使用,从而对攻击行为进行捕获和分析,了解攻击工具与方法,推测攻击意图和动机.蜜罐技术赢得了安全社区的持续关注,得到了长足发展与广泛应用,并已成为互联网安全威胁监测与分析的一种主要技术手段.介绍了蜜罐技术的起源与发展演化过程,全面分析了蜜罐技术关键机制的研究现状,回顾了蜜罐部署结构的发展过程,并归纳总结了蜜罐技术在互联网安全威胁监测、分析与防范等方向上的最新应用成果.最后,对蜜罐技术存在的问题、发展趋势与进一步研究方向进行了讨论.
    2009,20(8):2199-2213, DOI:
    [摘要] (10154) [HTML] (0) [PDF 2.05 M] (16635)
    摘要:
    对现有的应用于移动互联网的P2P技术方面的研究进行了分析.首先介绍了P2P技术和移动互联网的概念,并提出将P2P技术应用在移动互联网所面临的挑战和应用模式.其次,分别针对集中式架构、超级节点体系架构和ad hoc架构对应用于互联网的P2P网络体系架构进行了阐述.再其次,针对移动终端的两种接入模式,分别在资源定位算法和跨层优化两个方面进行了介绍.对各关键技术的特点进行了详细的分析,指出其存在的不足.最后,对未来的工作进行了展望.
    2010,21(5):916-929, DOI:
    [摘要] (12111) [HTML] (0) [PDF 944.50 K] (16612)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2018,29(1):42-68, DOI:10.13328/j.cnki.jos.005320
    [摘要] (9291) [HTML] (2286) [PDF 2.54 M] (16569)
    摘要:
    互联网已经渗入人类社会的各个方面,极大地推动了社会进步.与此同时,各种形式的网络犯罪、网络窃密等问题频繁发生,给社会和国家安全带来了极大的危害.网络安全已经成为公众和政府高度关注的重大问题.由于互联网的大量功能和网络上的各种应用都是由软件实现的,软件在网络安全的研究与实践中扮演着至关重要的角色.事实上,几乎所有的网络攻击都是利用系统软件或应用软件中存在的安全缺陷实施的.研究新形势下的软件安全问题日益迫切.从恶意软件、软件漏洞和软件安全机制这3个方面综述了国内外研究现状,进而分析软件生态系统面临的全新安全挑战与发展趋势.