• 当期目录
  • 优先出版
  • 过刊浏览
  • 点击排行
  • 下载排行
  • 综述文章
  • 专刊文章
  • 分辑系列
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2024,35(11):4949-4972, DOI: 10.13328/j.cnki.jos.007001, CSTR: 32375.14.jos.007001
    [摘要] (754) [HTML] (83) [PDF 7.60 M] (2015)
    摘要:
    数据作为一种新型生产要素, 需要在不同主体间流通以发挥价值. 在这一过程中, 数据需要确保其完整性, 避免受到未经授权的篡改, 否则可能导致极为严重的后果. 现有工作通过将分布式账本与数据加密、校验技术结合实现数据存证以证明待流通数据在传输、存储等环节中未受篡改, 保障数据的完整性. 然而, 此类工作难以确认数据供方所提供数据本身的完整性, 一旦数据供方主动或被动提供了伪造数据, 后续完整性保障工作将失去意义. 为此, 提出一种基于远程证明的数据服务完整性验证方法, 所提方法以可信执行环境作为信任锚, 对特定数据服务静态代码、执行过程和执行结果的完整性进行多维度量与验证, 并通过程序切片优化对特定数据服务的完整性验证, 从而将数据完整性保障的范围延伸至数据供方提供数据的环节. 通过在3个真实Java信息系统中25个数据服务上的一系列实验验证了所提出方法的有效性.
    2024,35(11):4973-4992, DOI: 10.13328/j.cnki.jos.007005, CSTR: 32375.14.jos.007005
    [摘要] (501) [HTML] (81) [PDF 8.70 M] (1595)
    摘要:
    深度神经网络目前已被广泛应用于自动驾驶、医疗诊断、语音识别、人脸识别等安全攸关领域, 因此深度神经网络测试对于保证其质量非常关键. 然而, 为判断DNN模型预测是否正确而对测试用例进行标注的成本很高. 因此, 筛选出能够揭示DNN模型错误行为的测试用例并优先对其进行标注, 能够尽快修复模型缺陷, 从而提升DNN测试的效率、保证DNN模型质量. 提出一种基于数据变异的测试用例选择方法DMS. 该方法设计并实现数据变异算子生成变异模型, 以模拟模型缺陷并捕获测试用例揭错时的动态模式, 从而评估测试用例的揭错能力. 在25个深度学习测试集和模型的组合上进行实验, 结果表明, 无论是筛选出的样本中揭错用例的比例还是揭错方向的多样性, DMS都要显著优于现有的测试用例选择方法. 具体来说, 以原始测试集作为候选集时, 在选择10%的测试用例时, DMS能够筛选出候选集中53.85%–99.22%的揭错用例, 在选择5%的测试用例时, DMS筛选出的测试用例已经几乎能覆盖所有的揭错方向. 相较于8种对比方法, DMS平均多找出12.38%–71.81%的揭错用例, 证明了DMS在测试用例选择任务中的显著有效性.
    2024,35(11):4993-5015, DOI: 10.13328/j.cnki.jos.007031, CSTR: 32375.14.jos.007031
    [摘要] (331) [HTML] (59) [PDF 8.07 M] (1336)
    摘要:
    物联网设备的使用范围正在不断扩张. 模型检测是提升这类设备可靠性和安全性的有效手段, 但常用的模型检测方法不能很好地刻画这类设备常见的跨空间移动和通信行为. 为此, 提出一种面向物联网设备移动与通信行为的建模及验证方法, 以实现对这类设备时空相关性质的验证. 通过将推拉动作和全局通信机制融入ambient calculus, 提出全局通信移动环境演算(ACGC)并给出了ACGC对ambient logic的模型检测算法; 在此基础上, 提出描述物联网设备移动和通信行为的移动通信建模语言(MLMC), 并给出将MLMC描述转换为ACGC模型的方法; 进一步地, 实现模型检测工具ACGCCk以验证物联网设备的性质是否得到满足, 并通过一些优化加快检测速度; 最后, 通过案例研究和实验分析阐明所提方法的有效性.
    2024,35(11):5016-5039, DOI: 10.13328/j.cnki.jos.007034, CSTR: 32375.14.jos.007034
    [摘要] (607) [HTML] (63) [PDF 13.33 M] (1399)
    摘要:
    基于机器定理证明的形式化验证技术不受状态空间限制, 是保证软件正确性、避免因潜在软件缺陷带来严重损失的重要方法. LLRB (left-leaning red-black trees)是一种二叉搜索树变体, 其结构比传统的红黑树添加了额外的左倾约束条件, 在验证时无法使用常规的证明策略, 需要更多的人工干预和努力, 其正确性验证是一个公认的难题. 为此, 基于二叉搜索树类算法Isabelle验证框架, 对其附加性质部分进行细化, 并给出具体化的验证方案. 在Isabelle中对LLRB插入和删除操作进行函数式建模, 对其不变量进行模块化处理, 并验证函数的正确性. 这是首次在Isabelle中对函数式LLRB插入和删除算法进行机械化验证, 相较于目前LLRB算法的Dafny验证, 定理数由158减少至84, 且无需构造中间断言, 减轻了验证的负担; 同时, 为复杂树结构算法的函数式建模及验证提供了一定的参考价值.
    2024,35(11):5040-5064, DOI: 10.13328/j.cnki.jos.007043, CSTR: 32375.14.jos.007043
    [摘要] (448) [HTML] (85) [PDF 13.20 M] (1464)
    摘要:
    应用程序图形用户界面 (graphical user interface, GUI/UI) 为应用程序与其终端用户提供了一座可视化的桥梁, 用户可以通过交互操作使用应用程序. 随着移动应用程序的发展, 兼具美学与交互设计的图形用户界面也变得越来越复杂, 用户也更加关注应用程序的可访问性和可用性. 然而图形用户界面的复杂性也对其设计与实现带来巨大的挑战. 由于用户对于移动设备的自定义设置以及不同的设备型号和屏幕分辨率导致用户界面显示问题频繁发生. 例如由于软件或硬件兼容性, 在不同设备上进行界面渲染时总会出现文本交叠、组件遮挡、图像丢失等显示问题. 它们对应用程序的可用性和可访问性产生负面影响, 导致用户体验不佳. 不幸的是, 对于移动应用程序用户界面显示问题的成因知之甚少. 为了应对这一挑战, 收集来自百度众测平台上的6729张具有用户界面显示缺陷的应用程序截图和GitHub中1016个缺陷报告提供的应用程序截图, 采用主题分析方法识别出9类用户界面显示缺陷, 然后对GitHub中1016个缺陷报告和其对应的缺陷代码进行分析, 总结出用户界面显示缺陷本质成因. 研究发现: (1) 在众测数据集中用户界面显示缺陷截图占总截图的62.1%; (2) 导致界面显示缺陷的原因中字体的缩放设置与组件的自适应设置不适配所占的比例较大; (3) 界面的布局设置会导致界面显示缺陷产生; (4) 硬件加速未开启会影响界面的正常显示.
    2024,35(11):5065-5082, DOI: 10.13328/j.cnki.jos.007047, CSTR: 32375.14.jos.007047
    [摘要] (302) [HTML] (61) [PDF 6.97 M] (1356)
    摘要:
    随着开源人工智能系统规模的扩大, 软件的开发与维护也变得困难. GitHub是开源社区最重要的开源项目托管平台之一, 通过GitHub提供的拉取请求系统, 开发者可以方便地参与到开源项目的开发. 拉取请求的描述可以帮助项目核心团队理解拉取请求的内容和开发者的意图, 促进拉取请求被接受. 当前, 存在可观比例的开发者没有为拉取请求提供描述, 既增加了核心团队的工作负担, 也不利于项目日后的维护工作. 提出一种自动为拉取请求生成描述的方法PRSim. 所提方法提取拉取请求包含的提交说明、注释更新和代码改动等特征, 建立语法改动树, 使用树结构自编码器编码以检索代码改动相似的其他拉取请求, 参照相似拉取请求的描述, 使用编码器-解码器网络概括提交说明和注释更新, 生成新拉取请求的描述. 实验结果表明, PRSim的生成效果在Rouge-1、Rouge-2和Rouge-L这3个指标的F1分数上分别达到36.47%、27.69%和35.37%, 与现有方法LeadCM相比分别提升了34.3%、75.2%和55.3%, 与方法Attn+PG+RL相比分别提升了16.2%、22.9%和16.8%, 与方法PRHAN相比分别提升了23.5%、72.0%和24.8%.
    2024,35(11):5083-5097, DOI: 10.13328/j.cnki.jos.007002, CSTR: 32375.14.jos.007002
    [摘要] (596) [HTML] (85) [PDF 3.04 M] (2059)
    摘要:
    时序知识图谱推理旨在补充知识图谱中缺失的链接(事实), 其中每个事实都与时间戳进行绑定. 基于变分自动编码器的动态变分框架在这项任务中显示出独特的优势. 通过将实体和关系基于高斯分布进行联合建模, 该方法不仅具备很强的可解释性, 而且解决了复杂的概率分布问题. 然而, 传统的变分自动编码器方法在训练过程中容易出现过拟合问题, 从而不能精确捕捉实体语义的演化过程. 为了解决这个问题, 提出基于扩散概率分布的时序知识图谱推理模型. 具体来讲, 建立一个双向的迭代过程, 将实体语义建模过程分为多个子模块. 其中, 每个子模块通过一个正向的加噪变换和反向的高斯采样组成, 负责建模实体语义的一个微小演变过程. 相对基于变分自动编码器的方法, 通过多个子模块联合建模显示地学习度量空间中实体语义随时间的动态表示, 能够得到更为精确的建模. 与基于变分自动编码器的方法相比, 对于评估指标 $ MRR $, 模型在Yago11k数据集和Wikidata12k数据集分别提高4.18%和1.87%, 在ICEWS14和ICEWS05-15数据集上分别提高1.63%和2.48%.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2024-11-20 , DOI: 10.13328/j.cnki.jos.007183
    摘要:
    联邦学习是一种无需用户共享私有数据、以分布式迭代协作训练全局机器学习模型的框架. 目前流行的联邦学习方法FedProto采用抽象类原型(称为特征图)聚合, 优化模型收敛速度和泛化能力. 然而, 该方法未考虑所聚合的特征图的正确性, 而错误的特征图可能导致模型训练失效. 为此, 首先探索针对FedProto的特征图中毒攻击, 论证攻击者只需通过置乱训练数据的标签, 便可将模型的推测准确率至多降低81.72%. 为了抵御上述攻击, 进一步提出双重防御机制, 分别通过全知识蒸馏和特征图甄别排除错误的特征图. 基于真实数据集的实验表明, 防御机制可将受攻击模型的推测准确率提升1–5倍, 且仅增加2%系统运行时间.
    优先出版日期:  2024-11-20 , DOI: 10.13328/j.cnki.jos.007184
    摘要:
    强化学习在智能对话系统等决策任务中取得了令人瞩目的结果, 但其在复杂的、奖励稀疏的任务中学习效率较低. 研究人员在强化学习中引入技能发现框架, 以最大化不同技能间的差异为目标构建技能策略, 提升了智能体在上述任务中的学习效率. 然而, 受到采样轨迹数据多样性的限制, 现有的技能发现方法局限于在一个强化学习回合中学习一种技能, 导致其在一回合中具有序贯技能组合的复杂任务中表现欠佳. 针对该问题, 提出一种基于分组对比学习的序贯感知技能发现方法(group-wise contrastive learning based sequence-aware skill discovery, GCSSD), 该方法将对比学习融合到技能发现框架中. 首先, 为了提升轨迹数据的多样性, 将与环境交互的完整轨迹分段并进行分组, 利用分组轨迹构建对比损失学习技能嵌入表征; 其次, 结合技能嵌入表征与强化学习进行技能策略训练; 最后, 为了提升在具有不同序贯技能组合任务上的性能, 对采样轨迹进行分段技能表征并将其嵌入策略网络, 实现对已学技能策略的序贯组合. 实验结果表明, GCSSD方法在具有序贯技能组合的稀疏奖励任务中具有较好的训练效果, 并且在具有与训练任务不同的序贯技能组合任务中, 能够利用已学技能对该任务进行快速适应.
    优先出版日期:  2024-11-20 , DOI: 10.13328/j.cnki.jos.007235
    摘要:
    随着大数据时代的到来, 海量的用户数据赋能了众多数据驱动的行业应用, 例如智慧交通、智能电网、商品推荐等. 在数据实时性要求高的应用场景下, 数据中的业务价值随时间增长快速降低, 因此数据分析系统需要具有高吞吐和低延迟能力, 以Apache Flink为代表的流式大数据处理系统得到广泛应用. Flink通过在集群的计算节点上并行化计算任务, 水平扩展系统吞吐量. 然而, 已有研究指出, Flink存在单点性能弱, 集群水平可扩展性差的问题. 为了提高流式大数据处理系统的吞吐量, 研究者在控制平面设计、系统算子实现和垂直可扩展性等方面开展优化, 但现有工作尚缺乏对流式分析应用数据流的关注. 流式分析应用是由事件流驱动并使用有状态处理函数的应用, 例如智能电网场景下的低电压检测应用、商品推荐场景下的广告活动分析应用等. 对典型的流式分析应用的数据流特征进行分析, 总结其中存在的3个水平可扩展性瓶颈并给出相应的优化策略, 包括: 键级水位线, 动态负载分发策略和基于键值的数据交换策略. 基于上述优化技术, 对Flink框架进行扩展并形成原型系统Trilink, 选取真实场景数据集: 低电压检测应用, 桥梁拱顶监测应用和典型流式分析测试基准Yahoo Streaming Benchmark, 与现有工作进行测试比较. 实验结果表明, 相较于Flink, Trilink在单机环境下吞吐率提升了5倍以上, 8节点下水平扩展加速比提高了1.6倍以上.
    优先出版日期:  2024-11-18 , DOI: 10.13328/j.cnki.jos.007236
    摘要:
    视频应用平台的兴起使得视频得以快速传播并渗透社会生活的各个方面. 网络中传播的视频也混杂了一些公害视频, 因此网络空间安全监管迫切需要准确地识别网络中加密传播的公害视频. 已有方法在网络主要接入点采集流量数据, 提取加密视频流量的特征, 基于公害视频库, 通过流量特征的匹配识别出被传输的公害视频. 然而随着视频加密传输协议的更新, 使用新型多路复用技术的HTTP/2协议已经大规模部署应用, 这导致传统的基于HTTP/1.1传输特征的流量分析方法无法识别使用HTTP/2传输的加密视频. 此外, 当前的研究大多针对的是播放时分辨率固定的视频, 很少考虑到流媒体自适应播放时分辨率切换给识别带来的影响. 针对以上问题, 详细分析了视频平台使用HTTP/2协议传输视频时音视频数据长度发生偏移的原理, 并提出了将多路复用的加密数据精准修正还原为组合音视频数据单元长度的方法, 从而构建出精准还原的加密视频修正指纹. 然后, 利用加密视频修正指纹和大型视频明文指纹库, 提出了视频修正指纹滑动匹配机制和以隐马尔可夫模型与维特比算法为基础的加密视频识别模型. 该模型使用动态规划方法解决了视频分辨率自适应切换带来的问题, 其在40万级的Facebook和Instagram真实指纹库场景中, 对固定分辨率和自适应分辨率的加密视频的识别准确率分别达到了98.41%和97.91%. 使用Triller、Twitter和芒果TV这3个视频平台进行了方法通用性和泛化性验证. 与类似工作在识别效果、泛化性和时间开销方面的比较进一步验证了所提出的方法具有较高的应用价值.
    优先出版日期:  2024-11-18 , DOI: 10.13328/j.cnki.jos.007237
    摘要:
    近年来, 机器学习在人们日常生活中应用愈发广泛, 这些模型在历史数据上进行训练, 预测未来行为, 极大地便利了人们生活. 然而, 机器学习存在隐私泄露隐患: 当用户不希望个人数据被使用时, 单纯地把其数据从训练集中删去并不够, 已训练好的模型仍包含用户信息, 可能造成隐私泄露. 为了解决这一问题, 让机器学习模型“遗忘”该用户个人数据, 最简单的方法是在不包含其数据的训练集上重新训练, 此时得到的新模型必定不包含个人数据的信息. 然而, 重新训练往往代价较大, 成本较高, 由此产生“机器遗忘”的关键问题: 能否以更低的代价, 获取与重新训练模型尽可能相似的模型. 对研究这一问题的文献进行梳理归纳, 将已有机器遗忘方法分为基于训练的方法、基于编辑的方法和基于生成的方法这3类, 介绍机器遗忘的度量指标, 并对已有方法进行测试和评估, 最后对机器遗忘作未来展望.
    优先出版日期:  2024-11-18 , DOI: 10.13328/j.cnki.jos.007238
    摘要:
    随着城市规模不断增加, 城市交通系统面临着越来越多的挑战, 如交通拥堵、交通安全等问题. 交通仿真是一种解决城市交通问题的方法, 其采用虚实结合的计算技术, 以处理实时交通数据、优化城市交通效率, 是平行城市理论在智能交通的重要实现方法. 然而, 传统的计算系统在运行大规模城市交通仿真中会出现计算资源不足、仿真延迟过长等问题. 针对上述问题, 基于平行城市理论, 结合天河新一代超算的异构体系结构, 提出一种平行城市交通仿真并行算法. 该算法能够精确模拟车辆、道路、交通信号等交通要素, 并采取路网划分、车辆并行化行驶、信号灯并行化控制等方法, 以实现高性能交通仿真. 该算法运行在16节点、超过2.5万核心的天河新一代超算平台, 并针对北京市五环内240万辆车、7797个路口和17万条车道的真实交通场景进行仿真. 相比于传统的单节点仿真, 每步仿真时间从2.21 s减少到0.37 s, 取得近6倍的加速效果, 在国产超算异构平台上成功实现百万车辆规模的城市交通仿真.
    优先出版日期:  2024-11-18 , DOI: 10.13328/j.cnki.jos.007239
    摘要:
    交通流预测是智能交通系统(intelligent transportation system, ITS)中交通管理的重要基础和热门研究方向. 传统的交通流预测方法通常需要借助大量高质量历史观测数据进行预测, 而针对更为普遍的数据稀缺的交通路网场景预测精度则急剧下降. 针对这一问题, 提出一种基于时空图卷积网络的迁移学习模型(transfer learning based on spatial-temporal graph convolutional network, TL-STGCN), 结合数据充足的源路网的交通流特征, 辅助预测数据稀缺的目标路网未来交通流. 首先, 采用基于时间注意力的时空图卷积网络学习源路网和目标路网交通流数据的时空特征表示; 其次, 结合迁移学习方法, 提取两个路网特征表示的域不变时空特征; 最后, 利用这些域不变时空特征对目标路网未来交通流做出预测. 为了验证模型的有效性, 在真实世界数据集上进行实验. 结果表明, 与现有方法对比, TL-STGCN在平均绝对误差、均方根误差以及平均绝对百分比误差指标中均取得最高精度, 证明对于数据稀缺的交通路网预测任务, TL-STGCN具有更好的预测性能.
    优先出版日期:  2024-11-06 , DOI: 10.13328/j.cnki.jos.007240
    摘要:
    云多租数据库具有按需付费、按需扩展、免部署、高可用、自带运维能力、资源共享等诸多优势, 可以大大降低用户使用数据库服务的成本. 现在越来越多的企业和个人开始在数据库即服务(DaaS)平台托管他们的数据库服务. DaaS平台需要按照用户服务水平协议(SLA)为诸多租户提供服务, 同时也需要保障平台收益. 但是, 由于租户及其负载具有动态性、异构性和竞争性等特点, 如何在遵循SLA的同时根据负载自适应规划调度资源同时兼顾平台收益对于DaaS平台来说是一件极具挑战性的工作. 针对云多租数据库中比较常见的类型, 如关系型数据库, 详细分析了当前云多租数据库资源规划调度技术所面临的挑战, 提炼了关键科学问题, 给出了技术框架, 然后从资源规划调度技术、资源预估技术、资源弹性伸缩技术以及数据库资源规划调度工具等4个方面对现有研究工作进行了总结和分析, 并且展望了未来的研究方向.
    优先出版日期:  2024-11-06 , DOI: 10.13328/j.cnki.jos.007181
    摘要:
    随着移动终端的普及和用户隐私数据保护需求的增强, 基于移动终端的身份认证研究引起了广泛关注. 近年来, 移动终端的音频传感器为设计性能优良的新颖身份认证方案提供了更大的灵活性和可拓展性. 在调研了大量相关科研文献的基础上, 首先按照依赖凭据和感知方法的不同将基于声感知的移动终端身份认证方案进行分类, 并描述相应的攻击模型; 然后梳理移动终端基于不同认证凭据和基于声感知的身份认证国内外研究进展, 并进行分析、总结和对比; 最后结合当前研究的困难和不足, 给出衡量身份认证系统性能的两大指标(安全性和实用性), 对未来的研究方向进行展望.
    优先出版日期:  2024-11-06 , DOI: 10.13328/j.cnki.jos.007177
    摘要:
    具有噪声的基于密度的数据聚类(DBSCAN)算法是数据挖掘领域中的经典方法之一, 其不仅能发现数据中潜藏的复杂关系, 还能过滤其中的数据噪声, 从而获得高质量的数据聚类. 然而, 现有的基于密度的数据聚类算法仅支持单模态(类型)数据的聚类, 难以应对多模态(类型)数据并存的应用场景. 随着信息技术的快速发展, 数据呈现多模态化的发展态势, 现实生活中的数据不再是单一的数据类型, 而是多种数据模态(类型)的组合, 如文本、图像、地理坐标、数据特征等. 因此, 现有的数据聚类方法难以对复杂的多模态数据进行有效的数据建模, 更无法进行高效的多模态数据聚类. 基于此, 提出一种基于密度的多度量空间聚类算法. 首先, 为了刻画多模态数据间的复杂关系, 利用多度量空间表征数据之间的相似性关系, 并且利用聚合多度量图索引(AMG)实现多模态数据建模. 接着, 利用差分化的相似性关系优化聚合多度量图的图结构, 并且结合最优策略优先的搜索策略进行剪枝, 以实现高效的多模态数据聚类. 最后, 在真实与合成数据集上针对多种参数设置进行实验. 实验结果验证了所提方法运行效率提升了至少1个数量级, 并具有较高的聚类精度与良好的可扩展性.
    优先出版日期:  2024-11-06 , DOI: 10.13328/j.cnki.jos.007176
    摘要:
    连续动力系统安全验证是一个重要的研究问题, 多年来各类验证方法所能处理的问题规模非常受限. 对此, 对于给定的连续动力系统, 提出通过反例制导方法生成一组组合式概率近似正确(PAC)障碍证书的算法, 最终给出无限时间范畴安全验证问题在概率统计意义下的形式化描述. 通过建立和求解基于大M法的混合整数规划方法, 将障碍证书的求解转化为约束优化问题. 通过微分中值定理将非线性不等式进行区间线性化. 最后, 实现组合式PAC障碍证书生成工具CPBC, 并在11个基准系统上评估其性能. 实验结果表明, CPBC均能成功验证每个动力系统在指定不同的安全需求阈值下的安全性. 与现有方法相比, 所提方法可以更高效地为复杂系统或高维系统生成可靠的概率障碍证书, 验证的样例规模已高达百维.
    优先出版日期:  2024-11-01 , DOI: 10.13328/j.cnki.jos.007231
    [摘要] (518) [HTML] (0) [PDF 8.70 M] (113)
    摘要:
    广域网作为连接新业务、新基础设施和各类新型应用的纽带, 已成为21世纪最重要的基础设施之一. 近年来, 数据量爆炸性增长, 伴随着基于广域网的大模型、数字经济、元宇宙和全息社会等新型应用形态的持续涌现, 以及东数西算、算力网络和数据场等新型业务架构的出现, 业务对广域网的数据传输服务质量提出了越来越高的要求. 以时延为例, 广域网不仅需要提供及时的服务, 还需要提供准时的服务, 即时延成为必须满足的确定性指标. 因此, 广域确定性网络作为广域网的新范式应运而生. 系统地综述确定性网络的内涵, 回顾传统确定性网络相关技术发展脉络, 介绍广域确定性网络的新应用, 探讨广域网确定性网络传输具有的新特征以及面临的新挑战, 并提出广域确定性网络的新目标. 基于上述新应用、新特征、新挑战和新目标, 详细总结当前广域确定性网络领域的主要研究进展, 并给出未来研究的方向. 期望能为广域确定性网络领域的研究提供参考和帮助.
    优先出版日期:  2024-11-01 , DOI: 10.13328/j.cnki.jos.007182
    摘要:
    随着网络的蓬勃发展, 用户隐私正面临着前所未有的挑战. 人们开发出多种匿名通信系统来保护隐私, 第2代洋葱路由Tor (the second-generation onion router)是目前最为广泛使用的匿名通信系统. 然而, 卓越的匿名性也使之成为不法分子犯罪的温床, 如今Tor中充斥着非法交易、网络犯罪等. Tor被动流量分析通过被动观察网络流量对Tor进行去匿名化, 已成为最热门的去匿名化技术. 从Tor与流量分析基本概念出发, 介绍Tor被动流量分析技术的应用场景与威胁模型. 按照技术类型将现有工作分为流量分类技术与流关联技术, 依据分析流程分别对比其流量采集方法、特征提取方法、使用算法. 最后探讨当前研究面临的主要挑战与未来可能的研究趋势.
    优先出版日期:  2024-11-01 , DOI: 10.13328/j.cnki.jos.007152
    摘要:
    基于本地化差分隐私多关系表示上的Star-JOIN查询已得到研究者广泛关注. 现有基于OLH机制与层次树结构的Star-JOIN查询算法存在根节点泄露隐私风险、τ-截断机制没有给出如何选择合适τ值等问题. 针对现有算法存在的不足, 提出一种有效且满足本地化差分隐私的Star-JOIN查询算法LPRR-JOIN (longitudinal path random response for join). 该算法充分利用层次树的纵向路径结构与GRR机制, 设计一种纵向本地扰动算法LPRR, 该算法以所有属性纵向路径上的节点组合作为扰动值域. 每个用户把自身元组映射到相应节点组合中, 再利用GRR机制对映射后的元组进行本地扰动. 为了避免事实表上存在的频率攻击, LPRR-JOIN算法允许每个用户利用阈值τ本地截断自身元组个数, 大于τ条元组删减、小于τ条元组补充. 为了寻找合适的τ值, LPRR-JOIN算法利用τ-截断带来的偏差与扰动方差构造总体误差函数, 通过优化误差目标函数获得τ值; 其次结合用户分组策略获得τ值的总体分布, 再利用中位数获得合适的τ值. LPRR-JOIN算法与现有算法在3种多关系数据集上进行比较, 实验结果表明其响应查询算法优于同类算法.
    优先出版日期:  2024-11-01 , DOI: 10.13328/j.cnki.jos.007163
    摘要:
    开源软件的繁荣推动了软件领域的蓬勃发展, 也促使以开源软件为基础的供应链开发模式的形成. 开源软件供应链本质上是个复杂的供应链拓扑网络, 由开源生态的关键元素及其关联关系构成, 其产品全球化等优势有助于提高软件行业的开发效率. 然而, 开源软件供应链也存在依赖关系复杂、传播范围广泛、攻击面暴露扩大等特点, 带来了新的安全风险. 现有的以安全漏洞、威胁情报为基础的安全管理虽然可以实现安全预警、预先防御, 但是由于漏洞威胁信息获取不及时、缺少攻击技术和缓解措施等信息, 严重影响了漏洞处理效率. 针对上述问题, 设计并实现一种针对开源软件供应链的漏洞威胁智能感知方法, 包括两部分: 1)构建CTI (网络威胁情报)知识图谱, 在其构建的过程中使用到相关技术, 可以实现安全情报的实时分析与处理, 尤其提出SecERNIE模型以及软件包命名矩阵, 分别缓解漏洞威胁关联挖掘的问题和开源软件别名的问题. 2)漏洞风险信息推送, 以软件包命名矩阵为基础, 构建软件包过滤规则, 实现开源系统漏洞实时过滤与推送. 通过实验验证所提方法的有效性和可用性. 实验结果显示, 相较于NVD等传统漏洞平台, 本方法平均感知时间最高提前90.03天; 在操作系统软件覆盖率上提升74.37%, 并利用SecERNIE模型实现63492个CVE漏洞与攻击技术实体之间的关联关系映射. 特别地, 针对openEuler操作系统, 可追踪的系统软件覆盖率达到92.76%, 并累计感知6239个安全漏洞; 同时, 还发现openEuler中891条漏洞与攻击的关联关系, 进而获取到相应的解决方案, 为漏洞处理提供了参考依据. 在真实攻击环境验证2种典型的攻击场景, 证明所提方法在漏洞威胁感知方面的良好的效果.
    优先出版日期:  2024-11-01 , DOI: 10.13328/j.cnki.jos.007165
    摘要:
    近年来, 图卷积网络作为一种强大的图嵌入技术在推荐系统领域得到广泛应用. 主要原因是推荐系统中大多数信息可以建模为图结构, 而图卷积网络是一种基于图结构的深度学习模型, 有助于挖掘图数据中用户和项目之间的潜在交互, 从而提高推荐系统的性能. 由于推荐系统的建模通常需要收集和处理大量的敏感数据, 因此可能会面临隐私泄露的风险. 差分隐私是一种具有坚实理论基础的隐私保护模型, 已被广泛应用于推荐系统中解决用户隐私泄露的问题. 目前基于差分隐私的研究主要是面向独立同分布的数据模型. 然而, 在基于图卷积网络的推荐系统中, 数据之间关联性强且不具有独立性, 这使得现有方法难以对其进行有效的隐私保护处理. 为解决该问题, 提出基于Rényi差分隐私的图卷积协同过滤推荐算法RDP-GCF, 旨在保护用户与项目交互数据安全的前提下, 实现隐私性和效用性之间的平衡. 该算法首先利用图卷积网络学习用户/项目的嵌入向量; 然后, 采用高斯机制对嵌入向量进行随机化处理, 同时基于采样的方法放大隐私预算, 减少差分噪声注入量, 以提升推荐系统的性能; 最后, 通过加权融合的方式得到用户/项目的最终嵌入向量, 并应用于推荐任务. 在3组公开数据集上进行实验验证. 结果表明, 与现有同类方法相比, 所提算法能更好地实现隐私保护与数据效用之间的平衡.
    优先出版日期:  2024-10-30 , DOI: 10.13328/j.cnki.jos.007164
    摘要:
    随着量子计算的快速发展, 特别是Shor量子算法及其变体的优化进步, 当前基于大整数分解和离散对数问题的经典公钥密码体制将面临颠覆性的影响. 为了应对量子攻击, 学界开始对后量子密码学的研究, 其中基于格的后量子密码方案因其在安全、效率、带宽等方面的均衡表现和良好的可扩展性而成为后量子密码的主流技术路线. 目前, 基于格的后量子密码方案大多使用分圆环, 尤其是二次幂分圆环作为底层代数结构. 但分圆环中具有丰富的子域、自同构、环同态等代数结构, 容易遭受针对性攻击. 基于具有“高安全性、素数阶、大Galois群和惰性模数”特点的素阶数域, 设计出后量子数字签名方案Dilithium-Prime, 并给出推荐参数集. 然而, 素阶数域的一个显著缺点是无法直接使用快速数论变换(NTT)算法进行高效的多项式乘法, 导致素阶数域上的密码方案性能较差. 为此, 设计素阶数域上的NTT算法和小多项式乘法, 实现素阶数域上高效的多项式乘法. 最后, 为方案的关键算法设计常数时间无分支实现方法, 给出方案的C语言实现, 并与其他方案进行对比. 实验结果表明, 在同一安全等级下, 与分圆环上的数字签名方案CRYSTALS-Dilithium推荐参数相比, Dilithium-Prime方案的公钥尺寸、私钥尺寸、签名尺寸分别降低1.8%、10.2%、1.8%, 签名算法效率提高11.9%, 密钥生成算法、验证算法所需时间分别为CRYSTALS-Dilithium方案的2.0倍和2.5倍, 但不同于CRYSTALS-Dilithium, Dilithium-Prime方案具有抵抗针对分圆环的密码攻击的优越特性; 与2023年韩国后量子密码算法竞赛中提出的基于素阶数域的签名方案NCC-Sign推荐参数相比, 在相同的安全等级和带宽条件下, Dilithium-Prime方案的密钥生成算法、签名算法、验证算法的速度分别提升至4.2倍、35.3倍、7.2倍, 实现兼顾高效性和安全性的素阶数域签名算法.
    优先出版日期:  2024-10-23 , DOI: 10.13328/j.cnki.jos.007162
    [摘要] (397) [HTML] (0) [PDF 9.04 M] (237)
    摘要:
    高级可持续性威胁(advanced persistent threat, APT)是一种新型网络攻击, 具有极强的组织性、隐蔽性、持续性、对抗性和破坏性, 给全球网络安全带来严重危害. 传统APT攻击防御倾向于构建模型检测攻击的恶意性或识别家族类别, 以被动防御为主, 缺乏全面及深入地梳理APT攻击溯源和推理领域的工作. 基于此, 围绕APT攻击的溯源和推理的智能化方法开展综述性研究. 首先, 提出APT攻击防御链, 有效地将APT攻击检测、溯源和推理进行区分和关联; 其次, 详细比较APT攻击检测4个任务的相关工作; 然后, 系统总结面向区域、组织、攻击者、地址和攻击模型的APT攻击溯源工作; 再次, 将APT攻击推理划分为攻击意图推理、攻击路径感知、攻击场景还原、攻击阻断和反制这4个方面, 对相关研究进行详细总结和对比; 最后, 讨论APT攻击防御领域的热点主题、发展趋势和挑战.
    优先出版日期:  2024-10-12 , DOI: 10.13328/j.cnki.jos.007243
    摘要:
    动态信息网(DIN)包含了真实世界中随时间推移不断发生变化的对象以及对象间的联系, 常常被刻画为一系列静态无向图快照. 社区, 由信息网中一些内部联系紧密的对象组成. 动态信息网中常常存在这样的社区: 在一段时间内, 随着时间的推移, 社区成员规模不断扩大, 并且社区内部成员间始终保持紧密的联系. 这样的社区在相应时间段内的演化轨迹在动态信息网的多张图快照上形成了一个社区序列, 称为持续扩展社区序列. 在动态信息网中查找持续扩展社区序列有重要的实用价值, 但是以前的工作并未对此进行研究. 结合集合的包含关系和三角连通$k$-truss模型, 提出动态信息网中基于查询点$q$的持续扩展社区序列(qLEC)模型, 设计了一个正向计算社区候选顶点集-反向回溯查找社区序列的持续扩展社区序列两阶段查找算法, 并给出基于提早终止策略的时间优化和基于TCP索引压缩技术的空间优化方法. 通过充分的实验证明: 相比于现有动态社区模型, qLEC模型具有特定的实际意义; 两阶段查找算法能够有效找到qLEC模型所刻画的持续扩展社区序列; 优化策略显著降低了两阶段查找算法的时间和空间开销.
    优先出版日期:  2024-09-30 , DOI: 10.13328/j.cnki.jos.007234
    摘要:
    最小弱连通支配集问题是一个经典的NP难问题, 在许多领域都有广泛的应用. 提出一种高效的局部搜索算法求解该问题. 在该算法中, 首先采用一个基于锁定顶点和频率反馈信息的初始解构造方法. 该方法可以确保将一定处于最优解中的顶点和大概率存在于最优解中的顶点添加到初始解中, 从而可以得到高质量的初始解. 其次, 提出基于双层格局检测策略, 年龄属性和禁忌策略的方法来避免循环问题. 第三, 提出扰动策略, 使得算法能够有效跳出局部最优. 第四, 将两个评分函数DscoreNscore与避免循环问题的策略相结合, 提出有效的顶点选择方法, 帮助算法选择适合添加到候选解中或从当前候选解中删除的顶点. 最后, 与现有的最优启发式算法和CPELX求解器, 在4组基准测试实例上对提出的局部搜索算法进行了对比. 实验结果表明, 该算法在4组经典基准测试实例上表现出更好的性能.
    优先出版日期:  2024-09-30 , DOI: 10.13328/j.cnki.jos.007218
    摘要:
    在Q1量子模型下, 针对Lai-Massey结构、Misty结构、Type-1型广义Feistel结构、类SMS4 广义Feistel结构和类MARS 广义Feistel结构, 提出了低数据量子密钥恢复攻击. 该攻击仅需选择常数项级别规模的明密文, 通过分析分组密码结构的加密过程, 利用Grover算法对某些中间态进行搜索计算, 从而恢复密钥. 且该攻击属于Q1模型, 相比于Q2模型, 无需量子叠加查询, 更具有实际意义. 对于3轮Lai-Massey结构, 相比于其他量子攻击, 该攻击仅需$ \mathrm{O}(1) $数据, 且属于Q1模型, 在复杂度乘积(时间×数据×经典存储×量子比特)评估上降低了$ n{2^{n/4}} $因子. 对于6轮Misty结构, 该方法依然保留着低数据复杂度的优势, 尤其是6轮Misty L/R-FK结构, 在复杂度乘积评估上降低了$ {2^{n/2}} $因子. 对于9轮3分支Type-1型广义Feistel结构, 与其他量子攻击在复杂度乘积评估上保持一致, 该攻击依然保留着低数据复杂度的优势, 且属于选择明文攻击. 此外, 也给出了针对类SMS4 广义Feistel结构和类MARS 广义Feistel结构的低数据量子密钥恢复攻击, 补充了其在Q1模型下的安全性评估.
    优先出版日期:  2024-09-25 , DOI: 10.13328/j.cnki.jos.007232
    [摘要] (125) [HTML] (0) [PDF 4.91 M] (380)
    摘要:
    语音情感识别是情感计算的重要组成部分, 在人机交互中占据重要的地位. 准确地识别说话人的情感信息, 有助于机器更好地理解用户的意图, 进而提供良好的交互性以提升用户的体验. 以离散语音情感为对象, 对语音情感识别的理论和方法进行综述. 首先在全面回顾情感识别发展历程的同时, 提出一个语音情感识别综述框架. 其次, 介绍情感描述方法以及常用的情感语料库, 旨在为语音情感识别提供基础支撑. 然后, 概述语音情感识别过程, 主要包括特征提取和识别模型, 重点归纳总结传统分类模型、经典深度模型、其他先进模型, 并介绍常用的评价指标, 同时基于评价指标对模型进行总结. 最后, 探讨语音情感识别领域所面临的挑战, 并对未来的发展趋势进行展望.
    优先出版日期:  2024-09-14 , DOI: 10.13328/j.cnki.jos.007186
    摘要:
    在联邦学习领域, 激励机制是吸引高质量数据持有者参与联邦学习并获得更优模型的重要工具. 然而, 现有的联邦学习研究鲜有考虑到参与者可能滥用激励机制的情况, 也就是他们可能会通过操纵上传的本地模型信息来获取更多的奖励. 针对这一问题进行了深入研究. 首先, 明确定义联邦学习中的参与者激励欺诈攻击问题, 并引入激励成本比来评估不同激励欺诈攻击方法的效果以及防御方法的有效性. 其次, 提出一种名为“梯度放大攻击(gradient scale-up attack)”的攻击方法, 专注于对模型梯度进行激励欺诈. 这种攻击方法计算出相应的放大因子, 并利用这些因子来提高本地模型梯度的贡献, 以获取更多奖励. 最后, 提出一种高效的防御方法, 通过检验模型梯度的二范数值来识别欺诈者, 从而有效地防止梯度放大攻击. 通过对MNIST等数据集进行详尽地分析和实验验证, 研究结果表明, 所提出的攻击方法能够显著提高奖励, 而相应的防御方法能够有效地抵制欺诈参与者的攻击行为.
    优先出版日期:  2024-09-14 , DOI: 10.13328/j.cnki.jos.007041
    摘要:
    撤销加密是一种反向的广播加密技术, 加密算法的输入不是接收者集合而是撤销用户的集合, 系统中所有不在撤销集合中的用户都可以正确解密密文, 撤销集合中的所有用户合谋也无法获取加密数据的内容. 与广播加密相比, 撤销加密更适用于接收者为系统中大多数用户或需要撤销部分用户未来解密权限的场景. 基于我国商用标识密码提出一个基于SM9的撤销加密方案, 密文的长度是固定的, 与撤销用户集合的大小无关. 基于广义群模型中的困难假设, 证明方案在随机谕言机模型下具有选择明文的安全性. 最后, 分析方案的性能对比结果可知, 所提方案与目前基于身份的撤销加密方案在计算复杂度和存储复杂度方面相比性能相当.
    优先出版日期:  2024-09-11 , DOI: 10.13328/j.cnki.jos.007187
    摘要:
    点云自监督表示学习以无标签预训练的方式, 探索三维拓扑几何空间结构关系并捕获特征表示, 可应用至点云分类、分割以及物体探测等下游任务. 为提升预训练模型的泛化性和鲁棒性, 提出基于双向拟合掩码重建的多模态自监督点云表示学习方法, 主要由3部分构成: (1) 逆密度尺度指导下的“坏教师”模型通过基于逆密度噪声表示和全局特征表示的双向拟合策略, 加速掩码区域逼近真值. (2) 基于StyleGAN的辅助点云生成模型以局部几何信息为基础, 生成风格化点云并与掩码重建结果在阈值约束下融合, 旨在抵抗重建过程噪声对表示学习的不良影响. (3) 多模态教师模型以增强三维特征空间多样性及防止模态信息崩溃为目标, 依靠三重特征对比损失函数, 充分汲取点云-图像-文本样本空间中所蕴含的潜层信息. 所提出的方法在ModelNet、ScanObjectNN和ShapeNet这3种点云数据集上进行微调任务测试. 实验结果表明, 预训练模型在点云分类、线性支持向量机分类、小样本分类、零样本分类以及部件分割等点云识别任务上的效果达到领先水平.
    优先出版日期:  2024-09-11 , DOI: 10.13328/j.cnki.jos.007185
    摘要:
    服务描述中包含的应用场景信息有限, 使得以功能相似度计算为主的Mashup服务组件Web API推荐与需求预期常存在差异, 功能匹配精确度有待进一步提高. 部分研究者虽利用Web API的协作关联提升推荐兼容性, 但忽视了功能关联对Mashup服务创建的负反馈影响, 从而限制了推荐多样性的提升. 为此, 提出一种融合潜在联合词与异质关联兼容的Mashup服务的组件Web API推荐方法. 该方法为Mashup需求和Web API提取潜在应用场景联合词并融入到功能向量的生成中, 进而提高二者功能相似度的匹配精确度, 以获得高质量的候选组件Web API集合. 将功能关联与协作关联建模为异质服务关联, 并利用异质关联兼容替代传统方法中的协作兼容, 以提升Web API的推荐多样性. 相较于对比方法, 所提方法在评价指标RecallPrecisionNCDG上分别提升了4.17%–16.05%, 4.46%–16.62%与5.57%–17.26%, 多样性指标ILS降低了8.22%–15.23%. 冷启动Web API推荐的RecallPrecision指标值分别为非冷启动Web API推荐的47.71%和46.58%. 实验表明所提方法不仅提升了Web API推荐质量, 而且对冷启动Web API具有很好的推荐效果.
    优先出版日期:  2024-09-11 , DOI: 10.13328/j.cnki.jos.007147
    摘要:
    事件检测旨在识别非结构化文本中的事件触发词, 并将其分类为预定义的事件类别, 可用于知识图谱构建及舆情监控等. 然而, 其中的数据稀疏和不平衡问题严重影响了事件检测系统的性能和可用性. 现有大多数方法没有很好地解决这一问题, 这源于其将不同类别的事件独立看待, 并通过分类器或空间距离对触发词进行识别和分类. 尽管有研究考虑事件大类下子类的事件元素存在关联性, 采用多任务学习进行互增强, 但忽略了不同类别事件触发词之间的共享属性. 已有相关建模事件类别关系的工作需要大量的规则设计和数据标注, 导致作用域局限, 泛化性不强. 因此, 提出一种基于元属性的事件检测方法. 其旨在学习不同类别样本中包含的共享内在信息, 包括: (1) 构造触发词的特殊符号表示并通过表示向量的映射来提取触发词的类别无关语义; (2) 拼接触发词表示, 类别的样本语义表示和类别的标签语义表示, 输入一个可训练的相似度度量层, 从而建模关于触发词和事件类别的公用相似度度量. 通过学习以上两种信息以缓解数据稀疏和不平衡的影响. 此外, 将样本的类别无关语义集成到分类方法中, 并构建完整的融合模型. 在ACE2005和MAVEN数据集上通过不同程度稀疏和不平衡情景下的实验证明所提出方法的有效性, 并建立传统和少样本设置之间的联系.
    优先出版日期:  2024-09-04 , DOI: 10.13328/j.cnki.jos.007167
    [摘要] (130) [HTML] (0) [PDF 6.75 M] (696)
    摘要:
    近年来, 超导量子互连技术的研究取得了重要进展, 这为构建分布式超导量子计算架构提供了有效途径. 分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束. 为在分布式架构上调度和执行量子线路, 需要通过专门的映射工序对量子线路进行适配底层架构的变换, 并将变换后的线路交由网络中多个QPU (quantum processing unit)协同运行. 分布式量子线路映射需向原始线路插入辅助的量子态移动操作, 这些操作(尤其是QPU间量子态移动操作)具有较高的错误率. 因此, 减少映射所需的量子态移动操作数对于保证分布式计算的成功率至关重要. 基于超导量子互连技术和超导QPU的技术特征构建一种抽象的分布式量子计算模型, 并基于该抽象模型提出一种分布式量子线路映射方法, 该方法由量子比特分布式映射和量子态路由两个核心模块组成, 前者以量子态路由开销为代价函数, 通过局部寻优和模拟退火相结合的策略生成近最优的初始映射; 后者根据量子门执行的不同情形构建多个启发式量子态路由策略, 并通过灵活应用这些策略最小化插入的量子态移动操作数. 所构建的分布式抽象模型屏蔽了底层架构中和量子线路映射无关的物理细节, 这使得基于该模型的映射方法可适用于一类分布式超导架构而非某个特定架构. 另外, 所提方法可作为辅助工具参与分布式网络拓扑结构的设计和评价. 实验结果表明, 所提算法可以有效降低映射所需的QPU内量子态移动操作(即SWAP门)数和QPU间量子态移动操作(即ST门)数. 相较已有算法, 在所有基准线路上平均减少69.69%的SWAP门和85.88%的ST门, 且时间开销和已有算法接近.
    优先出版日期:  2024-09-04 , DOI: 10.13328/j.cnki.jos.007178
    摘要:
    软件可追踪性被认为是软件开发过程可信的一个重要因素, 确保对软件开发过程的可见性并进行全面追踪, 从而提高软件的可信度和可靠性. 近年来, 自动化的软件可追踪性恢复方法取得了显著进展, 但在企业项目中的应用仍面临挑战. 通过调研研究和实验案例分析, 发现工业界场景中可追踪性模型表现不佳的3个关键挑战: 原始数据低质量、样本稀疏性和不平衡性, 并提出一种结合主动学习和半监督学习的软件可追踪性恢复框架STRACE(AL+SSL). 该框架通过选择有价值的标注样本和生成高质量的伪标签样本, 有效利用未标注的样本, 克服数据低质量和稀疏性挑战. 实验基于10个样本规模在几万至近百万个issue-commit跟踪对实例的企业项目, 进行多组对比实验, 结果表明该框架在当前真实企业项目软件可追踪性恢复任务上具有有效性. 其中消融实验结果表明STRACE(AL+SSL)中主动学习模块所选择的无标签样本在可追踪性恢复任务中发挥了更为重要的作用. 此外, 还验证各个模块最佳的样本选择策略组合, 包括调整后的半监督类平衡自训练样本选择策略CBST-Adjust和低成本高效率的主动学习子模块互信息SMI_Flqmi样本选择策略.
    优先出版日期:  2024-08-28 , DOI: 10.13328/j.cnki.jos.007233
    摘要:
    域适应(domain adaptation, DA)是一类训练集(源域)和测试集(目标域)数据分布不一致条件下的机器学习任务. 其核心在于如何克服数据域的分布差异对分类器泛化能力的负面影响, 即设计合理而有效的训练策略, 通过最小化数据域之间的差异, 获得高泛化能力的分类模型. 研究了源域中包含标注信息, 目标域中缺少标注信息条件下的无监督域适应(unsupervised domain adaptation, UDA)任务. 将其形式化为如何利用部分标注样本和其余未标注样本进行分类器训练的半监督学习问题, 进而引入伪标签(pseudo label, PL)和一致性正则化(consistent regularization, CR)这两种半监督学习技术, 对所观测数据域有目的进行标记和样本扩增, 使用扩增后的训练样本学习分类器, 从而, 在无监督域适应任务上取得了良好的泛化能力. 提出一种融合扩增技术的无监督域适应(augmentation-based unsupervised domain adaptation, A-UDA)方法, 在分类器的训练过程中: 首先, 使用随机数据增强技术(random augmentation)对目标域中的未标注样本进行扩增, 即样本扩增; 其次, 利用模型的预测输出结果, 对高置信度的未标注样本添加伪标记, 即标注扩增; 最后, 使用扩增后的数据集训练分类模型, 利用最大均值差异(maximum mean difference, MMD)计算源域和目标域的分布距离, 通过最小化该分布距离获得具有高泛化能力的分类器. 在MNIST-USPS, Office-Home和ImageCLEF-DA等多个无监督域适应任务上对所提出方法进行比较, 与现有其他工作相比, 获得了更好的分类效果.
    优先出版日期:  2024-08-28 , DOI: 10.13328/j.cnki.jos.007145
    摘要:
    基于日志合并树(LSM-tree)的键值(key-value)存储由于其出色的读写性能而被广泛用于许多应用中. 大多数现有的日志合并树采用多层结构来存储数据. 尽管多层数据结构可以很好地服务于适度的写密集型应用, 但这种结构并不十分适合高写密集型应用. 这是因为以多层方式保存数据会引入写放大问题, 即新的数据插入会引发很大一部分已经存储在多层中的数据被重组的问题. 这种巨大的(有时是频繁的)数据重组是昂贵的, 并且在许多高写密集型的应用中降低了写入性能. 此外, 多层结构不能为热数据持续提供出色的读取性能. 这是因为多级结构不能通过及时合并重叠的范围来优化热数据的读取操作. 为了解决上述两个问题, 提出LazyStore, 一种基于混合存储架构的新型单层日志合并树. LazyStore通过将数据存储在单一逻辑层而不是多个逻辑层来解决写放大的问题. 因此, 昂贵的多级数据重组在很大程度上被消除. 为了进一步提高写入性能, LazyStore根据每个存储设备的容量和读/写性能, 将逻辑层中的数据分布到多个存储设备中, 如内存、非易失性内存和闪存. 此外, LazyStore引入实时合并操作, 以提高热数据范围的读取性能. 实验表明, 与其他多级日志合并树相比, LazyStore最多将写入性能提高3倍, 并将写入放大率降低至1/4. 而对于热门范围的读取, LazyStore的实时数据合并优化可以将范围查询处理的延迟降低一半.
    优先出版日期:  2024-08-21 , DOI: 10.13328/j.cnki.jos.007166
    摘要:
    基于关键词的审计(KA)技术是保障云审计经济适用性的重要手段. 不同于概率性审计对外包数据进行随机抽样验证, KA考虑多用户多属性数据的审计需求, 执行关键词检索和定向审计, 能有效降低审计开销. 然而, 现有的KA方案通常聚焦于目标数据的审计效率, 而很少关注审计失败后的错误定位及数据恢复等补救措施; 这无益于保障数据的可用性. 因此, 提出基于关键词的多云审计方案(简称KMCA), 结合智能合约技术实现定向审计、批量错位定位与数据恢复功能. 具体来说, 定向审计模块借鉴可搜索加密技术的索引结构, 定义关键词-文件数据映射关系, 并利用布隆过滤器的误报率特性来隐藏审计词频, 保护关键词隐私; 错误定位模块采用二分思想实现出错云服务器批量定位和受损数据细粒度定位; 数据恢复模块提出多云冗余存储与数据恢复策略, 避免单点故障, 提升存储容错率. 在随机预言机模型下, KMCA是可证明安全的. 性能分析表明, KMCA具备可行性.
    优先出版日期:  2024-08-21 , DOI: 10.13328/j.cnki.jos.007230
    摘要:
    安卓操作系统和恶意软件的持续进化导致现有检测方法的性能随时间大幅下降. 提出一种基于API聚类和调用图优化的安卓恶意软件检测方法DroidSA (droid slow aging). 首先, 在恶意软件检测之前进行API聚类, 生成代表API功能的聚类中心. 通过设计API句子概括API的名称、权限等重要特征并使用自然语言处理工具对API句子的语义信息进行挖掘, 获得更全面反映API语义相似性的嵌入向量, 使聚类结果更为准确. 然后, 为了确保提取到更能准确反映软件行为逻辑的API上下文信息, 采用调用图优化方法对从待检测软件中提取的函数调用图进行优化并得到优化后的调用图, 在删除图中难以识别的未知方法的同时保留API节点之间的连接性. 为了提高对安卓框架和恶意软件变化的适应性, DroidSA从优化后的调用图中提取函数调用对, 将调用对中的API抽象为API聚类时获得的聚类中心. 最后, 使用独热编码生成特征向量, 并从随机森林、支持向量机和K近邻算法中选择表现最好的分类器进行恶意软件检测. 实验结果表明, DroidSA的恶意软件检测平均F1值为96.7%; 在消除时间偏差的实验设置下, 经2012–2013年的软件样本集合训练后, DroidSA对2014–2018年的恶意软件样本的检测平均F1值达到82.6%. 与经典检测方法MaMaDroid和MalScan等相比, DroidSA始终能将各项检测指标稳定地维持在高水平且受到时间变化的影响较小, 能有效检测进化后的恶意软件.
    优先出版日期:  2024-08-21 , DOI: 10.13328/j.cnki.jos.007179
    [摘要] (102) [HTML] (0) [PDF 7.36 M] (720)
    摘要:
    本地差分隐私被广泛地应用于保护用户隐私的同时收集和分析敏感数据, 但是也易于受到恶意用户的伪数据攻击. 子集选择机制和环机制是具有最优效用的频率估计本地差分隐私方案, 然而, 它们的抗伪数据攻击能力尚缺少深入地分析和评估. 因此, 针对子集选择机制和环机制, 设计伪数据攻击方法, 以评估其抗伪造攻击的能力. 首先讨论随机扰动攻击和随机项目攻击, 然后构建针对子集选择机制和环机制的攻击效用最大化伪数据攻击方法. 攻击者可以利用该攻击方法, 通过假用户向数据收集方发送精心制作的伪数据, 最大化地提高攻击者所选目标值的频率. 理论上严格分析和对比攻击效用, 并通过实验评估伪数据攻击效果, 展示伪数据攻击对子集选择机制和环机制的影响. 最后, 提出防御措施, 可缓解伪数据攻击的效果.
    优先出版日期:  2024-08-21 , DOI: 10.13328/j.cnki.jos.007180
    摘要:
    社交网络情感数据最为显著的特征是其动态性. 针对群体文本情感漂移分析任务, 提出一种高斯混合多层自编码器(GHVAE)用于情感漂移检测. GHVAE将高斯混合分布作为潜在分布的假设先验, 对应潜在分布的多中心性质从而提高模型性能. 此外, 还对原始HVAE模型内建的漂移度量算法进行改进, 改善了高漂移值之间过于接近导致分类性能下降的问题. 采用多项对照实验和消融实验用于验证GHVAE的性能, 实验结果显示新模型的创新点为其漂移检测表现带来了提升.
    优先出版日期:  2024-08-21 , DOI: 10.13328/j.cnki.jos.007204
    摘要:
    基于进化优化的消息传递接口(message-passing interface, MPI)程序路径覆盖测试中, 进化个体适应值的评价需要反复执行MPI程序, 而程序的重复执行往往需要高昂的计算成本. 鉴于此, 提出一种代理辅助多任务进化优化引导的MPI程序路径覆盖测试用例生成方法, 该方法能够显著约减MPI程序的实际执行次数, 进而提高测试效率. 首先, 面向MPI程序目标路径内每条目标子路径, 训练相应的代理模型; 然后, 基于对应每条目标子路径的代理模型, 估计相应测试用例生成优化任务中进化个体的适应值, 并形成候选测试用例集; 最后, 基于候选测试用例集及其面向每条目标子路径的真实适应值, 更新对应每条目标子路径的代理模型. 将所提方法应用于7个基准MPI程序的基本路径覆盖测试中, 并与其他若干先进方法比较. 实验结果表明, 所提方法能够在确保测试用例生成高有效性的前提下, 显著提高测试效率.
    优先出版日期:  2024-08-14 , DOI: 10.13328/j.cnki.jos.007168
    [摘要] (179) [HTML] (0) [PDF 2.18 M] (856)
    摘要:
    多视图数据从不同角度描述数据对象, 数据在不同视图中的特征表示之间存在着相关性、互补性及多样性信息. 综合利用这些信息对多视图数据处理至关重要. 然而, 多视图数据通常具有高维度特点, 且常含有噪声特征, 这为多视图数据的处理与分析带来了许多困难. 无监督多视图特征选择无需样本标记信息, 从多个视图源的原始高维特征中学习更紧凑、更准确的特征表示以提高数据分析的效果, 在多视图数据处理领域起着重要作用. 根据已有的无监督多视图特征选择模型的工作机制的异同, 对这些模型进行归纳和总结, 分析其中存在的不足, 并指出未来研究的方向.
    优先出版日期:  2024-08-14 , DOI: 10.13328/j.cnki.jos.007088
    摘要:
    随着深度神经网络(deep neural network, DNN)的迅猛发展, 其在某些特定任务上的准确性已可媲美甚至超过人类. 然而, DNN与传统软件一样不可避免地存在缺陷, 若将带缺陷的DNN模型应用于安全攸关的领域甚至可能引发严重事故, 如何有效检测缺陷DNN模型已成为亟需解决的问题. 传统的差分测试方法将测试目标在同一测试输入下的输出结果作为差异分析的依据. 然而, 即使是相同训练程序和数据重复训练的不同DNN模型在同一测试输入下也常会产生不同的输出结果. 因此, 不能认为模型输出具有差异的两个模型中存在缺陷模型, 基于测试对象输出结果的传统差分测试方法难以直接用于DNN模型的缺陷检测. 为解决上述问题, 提出基于解释分析的DNN模型差分测试方法IADT (interpretation-analysis-based differential testing), 利用解释方法分析DNN模型对于测试输入的行为解释, 并使用统计方法分析模型对测试集行为解释的显著性差异来检测缺陷模型. 使用真实缺陷模型进行实验的结果表明, 解释方法的引入使IADT能有效检测缺陷DNN模型, 检测缺陷模型的F1值比DeepCrime高0.8%–6.4%, 而所消耗的时间仅为DeepCrime的4.0%–5.4%.
    优先出版日期:  2024-07-17 , DOI: 10.13328/j.cnki.jos.007151
    [摘要] (89) [HTML] (0) [PDF 6.47 M] (1017)
    摘要:
    随着商家评论网站的快速发展, 推荐系统所带来的效率提升使得评分预测成为近年来新兴研究任务之一. 现有的评分预测方法通常局限于协同过滤算法以及各类神经网络模型, 并没有充分利用目前预训练模型提前学习的丰富的语义知识. 针对此问题, 提出一种基于预训练语言模型的个性化评分预测方法, 其通过分析用户和商家的历史评论, 为用户在消费前提供评分预测作为参考. 该方法首先设计一项预训练任务, 让模型学习捕捉文本中的关键信息. 其次, 通过细粒度情感分析方法对评论文本进行处理, 从而获取评论文本中的属性词. 接下来, 设计一个属性词嵌入层将上述外部领域知识融入模型中. 最后, 采用基于注意力机制的信息融合策略, 将输入文本的全局和局部语义信息进行融合. 实验结果表明, 该方法相较于基准模型, 在两个自动评价指标上均取得显著的提升.
    优先出版日期:  2024-07-17 , DOI: 10.13328/j.cnki.jos.007153
    摘要:
    移动数据每天都在不断增长, 如何精准预测无线流量对高效、合理的配置通信和网络资源至关重要. 现有的流量预测方法多采用集中式训练架构, 涉及大规模的流量数据传输, 会导致用户隐私泄露等安全问题. 联邦学习可以在数据本地存储的前提下训练一个全局模型, 保护用户隐私, 有效减轻数据频繁传输负担. 但是在无线流量预测中, 单个基站数据量有限, 且不同基站流量数据模式异构, 流量模式难以捕捉, 导致训练得到的全局模型泛化能力较差. 此外, 传统联邦学习方法在进行模型聚合时采用简单平均, 忽略了客体贡献差异, 进一步导致全局模型性能下降. 针对上述问题, 提出一种基于注意力的“类内平均, 类间注意力”联邦无线流量预测模型, 该模型根据基站的流量数据进行聚类, 更好地捕捉具有相似流量模式基站的流量变化特性; 同时, 设计一个预热模型, 利用少量基站数据缓解数据异构, 提高全局模型的泛化能力; 在模型聚合阶段引入注意力机制, 量化不同客体对全局模型的贡献, 并在模型迭代过程中融入预热模型, 大幅提升模型的预测精度. 在两个真实数据集(Milano和Trento)上进行大量实验, 结果表明该方法优于所有基线方法. 并且与目前最先进的方法相比, 在两个数据集上的平均绝对误差性能增益最高分别达到10.1%和9.6%.
    优先出版日期:  2024-07-17 , DOI: 10.13328/j.cnki.jos.007154
    摘要:
    现实世界中的数据标签分布往往呈现长尾效应, 即少部分类别占据绝大多数样本, 时序动作检测问题也不例外. 现有的时序动作检测方法往往缺乏对少样本类别的关注, 即充分建模样本数量多的头部类别, 而忽视了样本数量少的尾部类别. 对长尾时序动作检测问题进行了系统的定义, 并针对长尾时序动作检测问题, 提出一种基于半监督学习的加权类别重平衡自训练方法, 充分利用现实世界中存在的大规模无标签数据, 来重平衡训练样本中的标签分布, 改善模型对尾部类别的拟合效果. 还针对时序动作检测任务, 提出一种伪标签损失加权方法, 使模型训练更加稳定. 在THUMOS14和HACS Segments数据集上进行实验, 并分别利用THUMOS15数据集和ActivityNet1.3数据集中的视频样本来构成相应的无标签数据集. 此外, 还针对视频审核应用需求, 收集Dance数据集, 包括35个动作类别、6632个有标签视频和13264个无标签视频, 并保留数据分布显著的长尾效应. 使用多种基线模型, 在 THUMOS14、HACS Segments 和 Dance 数据集上进行实验. 实验结果表明, 所提出的加权类别重平衡自训练方法可以提高模型对尾部动作类别的检测效果, 并且能应用于不同的基线时序动作检测模型提升其性能.
    优先出版日期:  2024-07-17 , DOI: 10.13328/j.cnki.jos.007150
    [摘要] (139) [HTML] (0) [PDF 2.35 M] (1176)
    摘要:
    近年来, 多智能体强化学习方法凭借AlphaStar、AlphaDogFight、AlphaMosaic等成功案例展示出卓越的决策能力以及广泛的应用前景. 在真实环境的多智能体决策系统中, 其任务的决策空间往往是同时具有离散型动作变量和连续型动作变量的参数化动作空间. 这类动作空间的复杂性结构使得传统单一针对离散型或连续型的多智能体强化学习算法不在适用, 因此研究能用于参数化动作空间的多智能体强化学习算法具有重要的现实意义. 提出一种面向参数化动作空间的多智能体中心化策略梯度分解算法, 利用中心化策略梯度分解算法保证多智能体的有效协同, 结合参数化深度确定性策略梯度算法中双头策略输出实现对参数化动作空间的有效耦合. 通过在Hybrid Predator-Prey场景中不同参数设置下的实验结果表明该算法在经典的多智能体参数化动作空间协作任务上具有良好的性能. 此外, 在多巡航导弹协同突防场景中进行算法效能验证, 实验结果表明该算法在多巡航导弹突防这类具有高动态、行为复杂化的协同任务中有效性和可行性.
    优先出版日期:  2024-07-10 , DOI: 10.13328/j.cnki.jos.007161
    [摘要] (113) [HTML] (0) [PDF 5.93 M] (975)
    摘要:
    基于格(特别是NTRU格)设计后量子密钥封装方案是格密码领域的主流方向之一. 现有多数格密码方案基于分圆环构造, 但分圆环饱含丰富的代数结构导致这些方案容易遭受相关攻击. 一个可选的且更安全的代数结构是大Galois群、素数阶、基于素理想的数域(简称为素阶数域). NTRU-Prime是一个基于素阶数域的备受青睐的NTRU密钥封装方案, 且早已经在国际标准OpenSSH中默认应用. 旨在设计出比NTRU-Prime性能更优的素阶数域上NTRU密钥封装方案. 首先, 梳理分圆环的安全隐患, 特别是针对2次幂分圆环的系列攻击, 同时展示出素阶数域在抵御这些攻击方面的安全优势. 接着, 基于素阶数域提出NTRU密钥封装方案CNTR-Prime, 并给出详细的相关分析和参数集. 然后, 提出一种伪梅森数不完整NTT, 它能有效计算CNTR-Prime中关于素阶数域的多项式乘法. 此外, 还提出一种改进的伪梅森数约减算法, 并将它应用在伪梅森数不完整NTT中. 它在软件实现方面比Barrett约减快2.6%, 在硬件实现方面比Montgomery约减和Barrett约减快2–6倍. 最后, 提供CNTR-Prime的C语言实现, 并跟其他同类方案进行全面对比. 结果表明, 与SNTRU-Prime相比, CNTR-Prime在安全强度、带宽和实现效率上有优势, 其中CNTR-Prime-761的经典和量子安全强度都比SNTRU-Prime-761的高19 bit, 密文尺寸降低8.3%, 密钥生成算法、密钥封装算法和解封装算法分别快25.3倍、10.8倍和2.0倍. 实际上, CNTR-Prime-653的经典和量子安全强度就已经跟SNTRU-Prime-761的相当, 且CNTR-Prime-653的带宽降低13.8%, 密钥生成算法、密钥封装算法和解封装算法分别快33.9倍、12.6倍和2.3倍. 所提工作可为后续同类型的格密码方案的设计、分析和优化实现提供重要参考.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007228
    摘要:
    在软件工程领域, 代码库承载着丰富的知识资源, 可以为开发者提供编程实践的案例参考. 源代码中频繁出现的模式化重复片段, 若能以代码模板的形式有效提炼, 就能显著提升编程效率. 当前实践中, 开发者常常通过源代码搜索复用现有解决方案, 然而此方法往往产生大量相似且冗余的结果, 增加了后续筛选工作的负担. 与此同时, 以克隆代码为基础的模板挖掘技术往往未能涵盖由分散小克隆片段构成的广泛模式, 进而限制了模板的实用性. 提出了一种基于代码克隆检测的代码模板提取和检索方法, 通过拼接多个片段级克隆以及提取和聚合方法级克隆的共享部分, 实现了更高效的函数级代码模板提取, 并解决了模板质量问题. 基于所挖掘的代码模板, 提出了一种代码结构特征的三元组表示法, 有效地对纯文本特征进行补充, 并实现了高效而简洁的结构表示. 此外, 提出了一种结构和文本检索相结合的模板特征检索方法, 以便通过匹配编程上下文的特征来检索这些模板. 基于该方法实现的工具CodeSculptor, 在包含45个高质量Java开源项目的代码库测试中展现了其提取高质量代码模板的显著能力. 结果表明, 该工具挖掘的模板平均可实现减少60.87%的代码量, 且有92.09%是通过拼接片段级克隆产生的, 这一比例的模板在传统方法中是无法识别出来的, 这印证了该方法在识别和构建代码模板方面的卓越性能. 在代码模板检索和推荐的实验中, Top-5检索结果精确度达到了96.87%. 通过对随机选择的9600个模板进行的初步案例研究, 讨论了模板的实用性, 并发现大多数抽样代码模板在语义上是完整的, 少数无意义的模板表明该模板提取工作未来的潜力. 用户研究进一步表明, 使用CodeSculptor能够更有效率地完成代码开发任务.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007219
    摘要:
    自训练是缓解标注数据不足问题的常见方法, 其通常做法是利用教师模型去获取高置信度的自动标注数据作为可靠数据. 然而在低资源场景关系抽取任务上, 该方法不仅存在教师模型泛化能力差的问题, 而且受到关系抽取任务中易混淆关系类别的影响, 导致难以从自动标注数据中有效地识别出可靠数据, 同时产生大量难以利用的低置信度噪音数据. 因此, 提出一种有效利用低置信度数据的自训练方法ST-LRE (self-training approach for low-resource relation extraction). 该方法一方面基于复述增强的预测方法来加强教师模型筛选可靠数据的能力; 另一方面, 基于部分标注模式从低置信度数据中提炼出可利用的模糊数据. 基于模糊数据的候选类别集合, 提出了基于负标签集合的负向训练方法. 最后, 为了支持可靠数据和模糊数据的融合训练, 提出一种支持正负向训练的联合方法. 在两个广泛使用的关系抽取数据集SemEval2010 Task-8和Re-TACRED的低资源场景上进行实验, ST-LRE方法取得显著且一致的提升.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007220
    摘要:
    学习型索引因其低内存占用和高查询性能的特点, 正辅助或逐步取代传统的索引结构. 然而, 数据更新导致的在线重新训练使其无法适应数据频繁更新的场景. 为了在不过多消耗内存的前提下 尽量避免由于数据频繁更新导致的索引重构, 提出了一种自适应的感知更新分布学习型索引结构DRAMA. 使用类LSM-Tree的延迟学习方式主动学习数据更新的分布特征; 利用近似拟合技术快速建立更新分布模型; 采用模型合并策略代替频繁的重训练过程; 采用一种混合压缩技术降低索引中模型参数的内存占用率. 在真实和合成的数据集上构建了索引并进行验证. 结果表明, 相比于传统索引和最先进的学习型索引, 该索引可以在不额外消耗过多内存的情况下, 有效降低数据更新环境下的查询延迟.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007217
    [摘要] (228) [HTML] (0) [PDF 8.28 M] (1112)
    摘要:
    机器翻译(machine translation, MT)研究旨在构建一个自动转换系统, 将给定源语言序列自动地转换为具有相同语义的目标语言序列. 由于机器翻译广阔的应用场景, 使其成为自然语言理解领域乃至人工智能领域的一个重要的研究方向. 近年来, 端到端的神经机器翻译(neural machine translation, NMT)方法显著超越了统计机器翻译(statistical machine translation, SMT)方法, 成为目前机器翻译研究的主流方法. 然而, 神经机器翻译系统通常以句子为翻译单位, 在面向文档的翻译场景中, 将文档中每个句子独立地进行翻译, 会因脱离文档的篇章语境引起一些篇章级的错误, 如词语错翻、句子间不连贯等. 因此将文档级的信息融入到翻译的过程中去解决跨句的篇章级错误是更加自然和合理的做法, 文档级的神经机器翻译(document-level neural machine translation, DNMT)的目标正是如此, 成为了机器翻译研究的热门方向. 调研了近年来在文档级神经机器翻译研究方向的主要工作, 从篇章评测方法、使用的数据集和模型方法等方面系统地对当前研究工作进行了归纳与阐述, 目的是帮助研究者们快速了解文档级神经机器翻译研究现状以及未来的发展和研究方向. 同时在文中也阐述了在文档级神经机器翻译的一些展望, 困难和挑战, 希望能带给研究者们一些启发.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007226
    摘要:
    软件开发者在编写代码时, 常常会参考项目中实现了相似功能的代码. 代码生成模型在生成代码时也具有类似特点, 会以输入中给出的代码上下文信息作为参考. 基于检索增强的代码补全技术与这一思想类似, 该技术从检索库中检索到外部代码作为额外信息, 对生成模型起到提示的作用, 从而生成目标代码. 现有的基于检索增强的代码补全方法将输入代码和检索结果直接拼接到一起作为生成模型的输入, 这种方法带来了一个风险, 即检索到的代码片段可能并不能对模型起到提示作用, 反而有可能会误导模型, 导致生成的代码结果不准确. 此外, 由于无论检索到的外部代码是否与输入代码完全相关, 都会被与输入代码拼接起来输入到模型, 这导致该方法的效果在很大程度上依赖于代码检索阶段的准确性. 如果检索阶段不能返回可用的代码片段, 那么后续的代码补全效果可能也会受到影响. 首先, 针对现有的代码补全方法中的检索增强策略进行了经验研究, 通过定性和定量实验分析检索增强的各个阶段对于代码补全效果的影响, 在经验研究中重点识别了代码粒度、代码检索方法、代码后处理方法这3种影响检索增强效果的因素. 接着, 基于经验研究的结论设计改进方法, 提出一种通过分阶段优化代码检索策略来改进检索增强的代码补全方法MAGIC (multi-stage optimization for retrieval augmented code completion), 设计了代码切分、二次检索精排、模板提示生成等改进策略, 可以有效地提升检索增强对代码补全模型的辅助生成作用, 并减少模型在代码生成阶段受到的噪声干扰, 提升生成代码的质量. 最后, 在Java代码数据集上的实验结果表明: 与现有的基于检索增强的代码补全方法相比, 该方法在编辑相似度和完全匹配指标上分别提升了6.76个百分点和7.81个百分点. 与6B参数量的代码大模型相比, 该方法能够在节省94.5%的显存和73.8%的推理时间的前提下, 在编辑相似度和完全匹配指标上分别提升了5.62个百分点和4.66个百分点.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007195
    [摘要] (111) [HTML] (0) [PDF 4.34 M] (1082)
    摘要:
    现有的多视图属性图聚类方法通常是在融合多个视图的统一表示中学习一致信息与互补信息, 然而先融合再学习的方法不仅会损失原始各个视图的特定信息, 而且统一表示难以兼顾一致性与互补性. 为了保留各个视图的原始信息, 采用先学习再融合的方式, 先分别学习每个视图的共享表示与特定表示再进行融合, 更细粒度地学习多视图的一致信息和互补信息, 构建一种基于共享和特定表示的多视图属性图聚类模型(multi-view attribute graph clustering based on shared and specific representation, MSAGC). 具体来说, 首先通过多视图编码器获得每个视图的初级表示, 进而获得每个视图的共享信息和特定信息; 然后对齐视图共享信息来学习多视图的一致信息, 联合视图特定信息来利用多视图的互补信息, 通过差异性约束来处理冗余信息; 之后训练多视图解码器重构图的拓扑结构和属性特征矩阵; 最后, 附加自监督聚类模块使得图表示的学习和聚类任务趋向一致. MSAGC的有效性在真实的多视图属性图数据集上得到了很好地验证.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007213
    [摘要] (275) [HTML] (0) [PDF 5.20 M] (1373)
    摘要:
    知识图谱补全任务旨在根据已有的事实三元组(头实体、关系、尾实体)来挖掘知识图谱中缺失的事实三元组. 现有的研究工作主要致力于利用知识图谱中的结构信息来进行知识图谱补全任务. 然而, 这些工作忽略了知识图谱中蕴含的其他模态的信息也可能对知识图谱补全有帮助. 并且, 由于基于特定任务的知识通常没有被注入通用的预训练模型, 因而如何在抽取模态信息的过程中融合任务的相关知识变得至关重要. 此外, 因为不同模态特征对于知识图谱补全的贡献不一样, 所以如何有效地保留有用的多模态信息也是一大挑战. 为了解决上述问题, 提出一种融合任务知识的多模态知识图谱补全方法. 利用在当前任务上微调过的多模态编码器, 来获取不同模态下的实体向量表示. 并且, 通过一个基于循环神经网络的模态融合过滤模块, 去除与任务无关的多模态特征. 最后, 利用同构图网络表征并更新所有特征, 从而有效地完成多模态知识图谱补全任务. 实验结果表明, 所提出的方法能有效地抽取不同模态的信息, 并且能够通过进一步的多模态过滤融合来增强实体的表征能力, 进而提高多模态知识图谱补全任务的性能.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007227
    摘要:
    在基于模型的诊断领域中, 因为极小冲突集 (minimal conflict set, MCS) 的极小碰集 (minimal hitting set, MHS) 即为待诊断设备的候选诊断, 所以计算极小碰集是候选诊断的一个关键步骤. 其中, 极小碰集是一个NP-hard约束求解问题, 随着问题规模增大, 求解难度成指数级增长. Boolean算法是计算极小碰集的经典算法, 然在求解过程中, 解集的极小化却占据运算的绝大部分时间. 为了解决该问题并提升计算效率, 提出了结合可疑集合簇计算极小碰集的BWSS (Boolean with suspicious sets) 算法, 通过深度分析Boolean算法生成树规则, 找到使候选解成为超集的集合, 在向根节点扩展元素时, 如果候选解与可疑集合簇中至少1个集合交集为空, 那么该解为极小候选解, 否则删除该解, 通过递归的策略保证算法结束时产生且仅产生所有极小碰集. 除此之外, 每个候选解在极小化时, 至少存在m (m$ \geqslant $1)个元素甚至整个解无须极小化. 理论上, BWSS算法的复杂度要远低于Boolean算法. 通过随机数据及大量基准电路数据, 实验结果表明, 所提算法与目前最先进的几种算法相比, 运行时间减少了几个数量级.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007221
    摘要:
    布谷鸟过滤器是一种空间高效的近似成员资格查询数据结构, 在网络系统中被广泛应用于网络路由、网络测量和网络缓存等. 然而, 传统的布谷鸟过滤器设计并未充分考虑在网络系统中, 部分或全部查询集合已知的情况, 以及这部分查询具有代价的情况. 这导致现有的布谷鸟过滤器在该情况下性能无法达到最优. 为此, 设计了指纹可变哈希布谷鸟过滤器(VHCF). VHCF提出了指纹可变哈希技术, 感知已知的查询集合及其代价, 通过为每个哈希桶搜索最优指纹哈希函数, 从而大幅降低误判代价. 随后, 每个哈希桶的最优指纹哈希函数会被独立地记录进入每个哈希桶内的哈希索引单元. 此外, 提出了一种单哈希的技术用于降低引入指纹可变哈希技术导致的额外计算开销, 还对VHCF的操作复杂度和误判率进行了理论分析. 最后, 实验和理论结果都一致表明, VHCF在保证查询吞吐量相当的情况下, 取得了比现有布谷鸟过滤器及其变种都要低的误判率. 特别的, 在保持指纹长度相同的情况下, VHCF只需为每个哈希索引单元分配 1–2比特, 即可相比标准布谷鸟过滤器降低误判率12.5%–50%.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007222
    摘要:
    智能合约是运行在以太坊区块链上的脚本, 能够处理复杂的业务逻辑. 大多数的智能合约采用Solidity语言开发. 近年来智能合约的安全问题日益突出, 为此提出了一种采用时序逻辑程序设计语言(MSVL)与命题投影时序逻辑(PPTL)的智能合约形式化验证方法, 开发了SOL2M转换器, 实现了Solidity程序到MSVL程序的半自动化建模, 但是缺乏对Solidity与MSVL操作语义等价性的证明. 首先采用大步语义的形式, 从语义元素、求值规则、表达式以及语句4个层次详细定义了Solidity的操作语义. 其次给出了Solidity与MSVL的状态、表达式和语句之间的等价关系, 并基于Solidity与MSVL的操作语义, 使用结构归纳法对表达式操作语义进行等价证明, 同时使用规则归纳法对语句操作语义进行等价证明.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007223
    摘要:
    形式化方法在需求一致性验证领域已经取得了显著的成就. 然而, 随着嵌入式系统需求复杂度的不断提升, 需求一致性验证面临着状态空间过大的挑战. 为了有效约减验证的状态空间, 同时考虑到嵌入式系统需求所涉及的设备强依赖性, 提出一种复杂嵌入式系统需求一致性的组合验证方法. 它基于需求分解, 识别需求间的依赖关系, 通过这些依赖关系组装验证子系统, 从而实现对复杂嵌入式系统需求的组合验证, 并能初步定位到不一致的需求. 具体而言, 采用问题框架方法对需求进行建模和分解, 并预设领域设备知识库对设备的物理特性进行建模. 在验证子系统的组装过程中, 生成预期软件的行为模型, 并结合物理设备的模型进行动态组装. 最后, 采用航空领域机载侦查系统进行了实例研究, 验证了方法的可行性和有效性, 并通过5个案例评估证实了验证状态空间的显著减小. 此方法为复杂嵌入式系统需求的验证提供了一种切实可行的解决方案.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007224
    [摘要] (223) [HTML] (0) [PDF 5.34 M] (1027)
    摘要:
    Python丰富的开发生态提供了多种多样的第三方库, 极大地提高了开发者的开发效率和质量. 第三方库开发者通过对代码底层的封装, 使得上层应用开发者只需调用API就可以使用相关功能, 从而快速完成开发任务. 然而, 第三方库API不会保持恒定不变. 由于缺陷修复、代码重构、功能新增等, 第三方库代码会不断更新. 更新后部分API发生了不兼容的更改, 从而导致上层应用运行异常终止或者产生不一致的结果. 因此, Python第三方库API的兼容性问题已成为目前开源生态中亟需解决的问题之一. 目前已有相关研究工作对Python第三方库API兼容性问题展开研究, 但兼容性问题原因的分类覆盖不够完全, 无法输出兼容性问题的细粒度原因. 为此, 本文对Python第三方库API兼容性问题的表现形式和产生原因开展了实证研究, 并针对性提出了Python不兼容API的静态检测方法. 首先, 本文针对flask库和pandas库的总共6个版本对, 通过收集版本更新日志、运行回归测试相结合的方法, 共收集108个不兼容API对. 接着, 本文对收集到的数据开展实证研究, 总结了Python第三方库API兼容性问题的表现形式和产生原因. 最后, 本文提出了一种基于静态分析技术的Python不兼容API的检测方法, 输出句法层面的不兼容API问题产生原因. 本文在4个常用Python第三方库的共计12个版本对上进行了实验评估, 结果表明本文方法具有良好的有效性、泛化性、时间性能、空间性能、以及易用性.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007225
    [摘要] (164) [HTML] (0) [PDF 15.10 M] (726)
    摘要:
    对数据库系统即时修改数据的高效实时分析需求推动了数据库系统向同时支持 OLTP 业务和 OLAP 业务两种场景的 HTAP 数据库系统的快速发展. 面对众多的HTAP数据库系统, 为了推动HTAP数据库系统的公平比较和健康发展, 定义和实现相应的评测基准来评估HTAP数据库系统的新特性至关重要. 首先, 分析HTAP数据库系统的关键特征并抽象总结HTAP数据库系统实现的关键技术. 然后, 提炼出HTAP数据库系统的设计难点和构建HTAP 评测基准的挑战, 并基于此提出HTAP评测基准应考虑的设计维度, 包括数据生成、负载生成、评价指标和一致性模型支持性. 对比现有HTAP 评测基准在设计维度和实现技术上的差异, 总结评测基准在不同设计维度上的优劣. 此外, 运行已公开的典型评测基准, 展示并分析它们对HTAP数据库系统关键特征的评测能力以及对不同HTAP数据库系统的横向对比的支持能力. 最后, 总结对HTAP 评测基准的能力需求和未来的一些研究方向, 指出语义一致的负载控制和新鲜数据访问度量是HTAP数据库系统评测基准定义的关键问题.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007208
    [摘要] (127) [HTML] (0) [PDF 3.95 M] (881)
    摘要:
    众包是一种分布式解决问题的方式, 可以降低成本并有效利用资源. 区块链技术的引入解决了传统众包平台集中化程度过高的问题, 但它的透明性却带来了隐私泄露的风险. 传统的匿名认证虽然可以隐藏用户身份, 但存在匿名滥用的问题, 同时还增加了对工作者筛选的难度. 提出一种去中心化可问责属性认证方案, 并将其与区块链结合设计一种新型众包方案. 该方案利用去中心化属性加密与非交互式零知识证明技术, 在保护用户身份隐私的同时实现可链接性和可追踪性, 并且请求者可以制定访问策略来筛选工作者. 此外, 该方案通过门限秘密分享技术实现了属性授权机构和追踪组, 提高系统的安全性. 通过实验仿真和分析证明该方案在时间和存储开销上符合实际应用需求.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007159
    摘要:
    可编程交换机的网络流量测量技术凭借其特性可以处理高速网络流量, 在灵活性、实时性等方面均有巨大的优势. 然而, 由于需要使用复杂的P4语言配置交换机的内部逻辑, 测量任务部署复杂且易错. 此外, 测量准确度往往受限于交换机内部可用的测量资源. 详细研究基于意图的网络及网络流量测量技术, 提出一种意图驱动的网络流量分布式测量方法. 首先, 设计基于测量意图原语的意图表示形式, 构建意图编译器将抽象意图表示转译为可执行的P4代码. 其次, 提出网络流量分布式测量方法, 使用多台交换机的资源以分布式的方式协同完成一个测量任务, 以大流测量为例介绍测量资源动态分配及计数器配置算法. 最后, 实验结果表明所提出的方法可行并且具有一定的优越性.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007149
    摘要:
    近年来深度学习因其在各个场景下的优异性能而受到越来越多研究者的重视, 但是这些方法通常依赖独立同分布假设. 领域自适应则是为了缓解分布偏移带来的影响而提出的问题, 它利用带标签的源域数据和不带标签的目标域数据能够训练得到在目标域数据上性能较好的模型. 现有的领域自适应方法大多针对静态数据, 而时间序列数据的方法需要捕捉变量之间的依赖关系. 现有的方法虽然采用针对时间序列数据的特征提取器, 例如递归神经网络, 以学习变量间的依赖关系, 但是往往将冗余的信息也一同提取. 这些冗余信息容易和语义信息耦合, 进而影响模型的预测性能. 基于上述问题, 提出一种基于路径签名的时间序列领域自适应方法(path-signature-based time-series domain adaptation, PSDA). 该方法一方面利用路径签名变换来捕捉变量间的稀疏依赖关系, 排除冗余相关关系的同时保留语义相关关系, 从而有利于提取时序数据中具有判别力的特征; 另一方面通过约束源域和目标域之间的依赖关系一致性来保留领域之间不变的依赖关系, 排除领域变化的依赖关系, 从而有利于提取时序数据中具有泛化性的特征. 基于以上方法, 进一步提出一个距离度量标准和泛化性边界理论, 并且在多个时间序列领域自适应标准数据集上获得了最好的实验效果.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007209
    [摘要] (131) [HTML] (0) [PDF 3.23 M] (922)
    摘要:
    本文首次对时间有序事务数据中聚簇频繁模式的挖掘问题进行研究. 为了解决Naive算法处理该问题时存在冗余运算的问题, 提出了一种改进的聚簇频繁模式挖掘算法ICFPM (Improved Cluster Frequent Pattern Mining, ICFPM). 该算法使用了2种优化策略, 一方面可以利用定义的参数minCF, 有效减少挖掘结果的搜索空间, 另一方面可以参考(n – 1)项集的判别结果加速聚簇频繁n项集的判别过程, 算法还使用了ICFPM-list结构来减少候选n项集的构建开销. 基于2个真实世界数据集的仿真实验证明了ICFPM算法的有效性, 与Naive算法相比, ICFPM算法在时间和空间效率方面得到了大幅度的提高, 是解决聚簇频繁模式挖掘的有效方法.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007210
    [摘要] (153) [HTML] (0) [PDF 5.84 M] (840)
    摘要:
    DEFAULT是于2021年亚洲密码学年会中提出的一种新型轻量级密码算法, 适用于保护物联网中的微型芯片、微控制器和传感器等设备的信息安全. 本文基于唯密文的基本假设, 针对DEFAULT密码提出了一种基于代数关系的统计故障分析方法. 该方法使用随机半字节故障模型, 通过对代数关系的构造分析并结合故障注入前后中间状态的统计分布变化来破译密码. 此外, 本文采用AD检验—平方欧氏距离、AD检验—极大似然估计和AD检验—汉明重量等新型区分器, 最少仅需1344个故障即可以99%及以上的成功率破解该算法的128比特原始密钥. 理论分析和实验结果表明, DEFAULT密码不能抵抗基于代数关系的统计故障分析的攻击. 该研究为其它轻量级分组密码算法的安全性分析提供了有价值的参考.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007211
    [摘要] (312) [HTML] (0) [PDF 2.95 M] (831)
    摘要:
    现实场景中, 电子商务、消费点评、社交网络等不同平台用户之间往往存在着丰富的交互关系, 将其构建成图结构, 并基于图神经网络GNN进行恶意用户检测已成为相关领域近几年的研究趋势. 然而, 由于恶意用户通常占比较小且存在伪装和标记成本高的情况, 导致了数据不平衡、数据不一致和标签稀缺等问题, 从而使传统GNN方法的效果受到了一定的限制. 本文提出基于半监督图表示学习的恶意节点检测方法, 该方法通过改进的GNN方法进行图节点表示学习并对图中节点分类. 具体地, 构造类别感知的恶意节点检测方法(class-aware malicious node detection, CAMD), 该方法引入类别感知注意力系数、不一致图神经网络编码器、类别感知不平衡损失函数以解决数据不一致与不平衡问题. 接下来, 针对CAMD在标签稀缺情况下检测效果受限的问题, 提出了基于图对比学习的方法CAMD+, 引入数据增强、自监督图对比学习及类别感知图对比学习, 使模型可以从未标记的数据中学习更多信息并充分利用稀缺的标签信息. 最后, 在真实数据集上的大量实验结果验证了所提方法优于所有基线方法, 且在不同程度的标签稀缺情况下都表现出良好的检测效果.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007205
    [摘要] (128) [HTML] (0) [PDF 4.54 M] (883)
    摘要:
    随着软件漏洞的类型、数量和复杂性日渐增长, 研究人员提出了诸多自动化的手段来帮助开发人员发现、检测和定位漏洞, 但研究人员仍需花费大量精力对漏洞进行修复. 近年来, 一些研究者开始关注软件漏洞自动修复技术, 然而当前的先进技术仅仅将软件漏洞修复规约为通用的文本生成问题, 没有对缺陷修复位置进行定位, 导致修复程序的生成空间较大, 使得生成的修复程序质量较低, 将其提供给开发人员反而影响漏洞修复的效率和效果. 针对上述问题, 本文提出了一种基于思维链的通用类型漏洞修复方法CotRepair, 利用思维链技术, 模型首先对产生漏洞概率较高的位置进行预测, 而后依托预测结果, 更加准确地生成修复程序. 实验结果表明本文提出的方法在评价生成修复程序的各项指标上均显著优于基线方法, 从多个维度验证了所提方法的有效性.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007206
    [摘要] (118) [HTML] (0) [PDF 9.76 M] (788)
    摘要:
    在文本和表格的数值问答任务中, 模型需要在给定的文本和表格下进行数值推理. 任务目标是生成一个包含多步数值计算的计算程序, 并将计算程序结果作为问题的答案. 为了建模文本和表格, 当前工作通过模板将表格线性化为一系列单元格句子, 再基于文本和单元格句子设计生成器以产生计算程序. 然而, 这种方法面临一个特定问题: 由模板生成的单元格句子间差异微小, 生成器难以区分回答问题所必需的单元格句子(支撑单元格句子)和回答问题无关的单元格句子(干扰单元格句子), 最终导致模型基于干扰单元格句子生成错误的计算程序. 为了解决这个问题, 在生成器上设计一个多粒度单元格语义对比方法, 其主要目的是增加支撑单元格句子和干扰单元格句子表示距离, 进而帮助生成器区分它们. 这个方法由粗粒度单元格语义对比和细粒度单元格语义构成元素对比(包括行名对比, 列名对比及单元格数值对比)共同构成. 实验结果验证所提出的多粒度单元格语义对比方法可以使生成器在FinQA和MultiHiertt数值推理数据集上取得优于基准模型的表现. 在FinQA数据集上, 多粒度单元格语义对比方法上最高可以提升答案正确率达到3.38%; 特别地, 在更为困难的层次化表格数据集MultiHiertt中, 该方法使生成器的正确率显著提高了7.8%. 同大语言模型GPT-3结合思维链相比, 基于多粒度单元格语义对比的生成器性能在FinQA和MultiHiertt上分别表现出 5.44%和1.69%的答案正确率提升. 后续分析实验进一步验证多粒度单元格语义对比方法有助于生成器区分支撑单元格句子和干扰单元格句子.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007207
    摘要:
    当下, 软件系统中元素间的交互错综复杂, 涵盖了包间、类间和函数间等多种关系. 准确理解这些关系对于优化系统结构以及提高软件质量至关重要. 分析包间关系有助于揭示模块间的依赖性, 有利于开发者更好地管理和组织软件架构; 而类间关系的明晰理解则有助于构建更具扩展性和可维护性的代码库; 清晰了解函数间关系则能够迅速定位和解决程序中的逻辑错误, 提升软件的鲁棒性和可靠性. 然而, 现有的软件系统交互关系预测存在着粒度差异、特征不足和版本变化等问题. 针对这一挑战, 从软件包、类和函数这3种粒度构建相应的软件网络模型, 并提出一种结合局部和全局特征的全新方法, 通过软件网络的特征提取和链路预测方式, 来增强对软件系统的分析和预测. 该方法基于软件网络的构建和处理, 具体步骤包括利用node2vec方法学习软件网络的局部特征, 并结合拉普拉斯特征向量编码以综合表征节点的全局位置信息. 随后, 利用Graph Transformer模型进一步优化节点属性的特征向量, 最终完成软件系统的交互关系预测任务. 在3个Java开源项目上进行广泛的实验验证, 包括版本内和跨版本的交互关系预测任务. 实验结果显示, 相较于基准方法, 所提方法在版本内的预测任务中, 平均AUCAP值分别提升8.2%和8.5%; 在跨版本预测任务中, 平均AUCAP值分别提升3.5%和2.4%.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007199
    [摘要] (137) [HTML] (0) [PDF 4.48 M] (798)
    摘要:
    社交媒体文本摘要旨在为面向特定话题的大规模社交媒体短文本(称为帖子)产生简明扼要的摘要描述. 考虑帖子表达内容短小、非正式等特点, 传统方法面临特征稀疏与信息不足的挑战. 近期研究利用帖子间的社交关系学习更好的帖子表示并去除冗余信息, 但其忽略了真实社交媒体情景中存在的不可靠噪声关系, 使得模型会误导帖子的重要性与多样性判断. 因此, 提出一种无监督模型DSNSum, 其通过去除社交网络中的噪声关系来改善摘要性能. 首先, 对真实社交关系网络中的噪声关系进行了统计验证; 其次, 根据社会学理论设计两个噪声函数, 并构建一种去噪图自编码器(denoising graph auto-encoder, DGAE), 以降低噪声关系的影响, 并学习融合可信社交关系的帖子表示; 最终, 通过稀疏重构框架选择保持覆盖性、重要性及多样性的帖子构成一定长度的摘要. 在两个真实社交媒体(Twitter与新浪微博)共计22个话题上的实验结果证明了所提模型的有效性, 也为后续相关领域的研究提供了新的思路.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007200
    [摘要] (246) [HTML] (0) [PDF 6.56 M] (949)
    摘要:
    针对基于图卷积神经网络(GCN)的人体姿态估计方法不能充分聚合关节点时空特征、限制判别性特征提取的问题, 构造基于平行多尺度时空图卷积的网络模型(PMST-GNet), 提高三维人体姿态估计的性能. 该模型首先设计对角占优的时空注意力图卷积(DDA-STGConv), 构建跨域时空邻接矩阵, 对骨架关节点信息进行基于自约束和注意力机制约束的建模, 增强节点间的信息交互; 然后, 通过设计图拓扑聚合函数构造不同的图拓扑结构, 以DDA-STGConv为基本单元构建平行多尺度子网络模块(PM-SubGNet); 最后, 为了更好地提取骨架关节的上下文信息, 设计多尺度特征交叉融合模块(MFEB), 实现平行子图网络之间多尺度信息的交互, 提高GCN的特征表示能力. 在主流3D姿态估计数据集Human3.6M和MPI-INF-3DHP数据集上的对比实验结果表明, 所提PMST-GNet模型在三维人体姿态估计中具有较好的效果, 优于Sem-GCN、GraphSH、UGCN等当前基于GCN网络的主流算法.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007201
    摘要:
    图上的诸多计算问题都是NP难问题, 因此经常会将问题限定在一些特定的图类上. 这类方法在过去的几十年间收获了大量特定图类(如度有界图类、树宽有界图类、平面图类等)上的高效算法, 其中很大一部分都能统一到算法元定理的框架下. 算法元定理是一类通用的结论, 主要描述模型检测问题(即判定结构的逻辑性质)的高效算法. 现有的算法元定理主要基于现代结构图论, 并且大多研究固定参数易解算法,即参数复杂性意义下的高效算法. 在许多良构的图类上, 一些常见逻辑(如一阶逻辑和一元二阶逻辑)的模型检测问题是固定参数易解的. 由于不同逻辑的表达能力不同, 不同图类上的模型检测问题的易解性也有显著的区别, 因此探索易解的最大范围也是算法元定理研究的重要课题. 研究表明, 一阶逻辑模型检测问题的易解性与图的稀疏性密切关联. 经过数十年的努力, 目前学界对于稀疏图类的认识已经较为成熟, 近年的研究重心逐渐转向一些良构的稠密图类, 研究也面临着更多的挑战. 目前在稠密图类上已经得到了若干深刻的算法元定理, 相关的探索仍在继续. 将全局性地介绍算法元定理领域的发展, 旨在为国内的相关研究提供一些线索和助力.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007202
    [摘要] (214) [HTML] (0) [PDF 5.48 M] (1367)
    摘要:
    近年来, 深度学习研究成果在全球范围内得到广泛应用. 为了提高大规模深度学习模型的训练效率, 业界通常采用建设GPU集群并配置高效的任务调度器的策略. 然而, 深度学习训练任务具有性能异构性和放置拓扑敏感性等复杂性能特性. 对性能无感知的调度容易导致资源利用率低下、训练效率差等问题. 为了应对这一挑战, 近期涌现出大量基于性能建模的深度学习训练任务调度器. 这些调度器通过构建精确的性能模型, 深入了解任务的复杂性能特性, 并据此设计更优化的调度算法, 从而形成更高效的调度方案. 本文首先基于建模设计思路, 对目前调度器使用的性能建模方法进行分类综述. 随后, 根据调度器利用性能建模的调度优化途径, 对现有的任务调度工作进行了系统性的分析. 最后, 对性能建模与调度在未来的研究方向进行了展望.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007203
    摘要:
    针对安卓自动化测试工具生成的崩溃测试序列包含过多冗余事件, 造成测试回放、缺陷理解与修复困难的现状, 很多测试序列约减工作被提出. 但目前工作仅仅关注应用界面状态变化而忽略了程序执行过程中内部状态变化, 此外, 目前工作仅仅在单一抽象粒度上对应用状态进行建模, 例如控件粒度或活动粒度, 导致约减后测试序列过长或约减效率低下. 针对以上问题, 本文提出了基于事件标记的多粒度结合的安卓测试序列约减方法, 结合安卓生命周期管理机制、程序静态数据流分析等对触发程序崩溃的关键事件进行标记, 缩小序列约减空间, 并设计了低粒度粗筛选、高粒度细约减的策略. 最后, 我们收集了包含程序间交互、用户输入等复杂场景的崩溃测试序列集, 在此数据集上与其它测试序列约减工作的对比评估结果也验证了我们方法的有效性.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007212
    [摘要] (317) [HTML] (0) [PDF 11.88 M] (958)
    摘要:
    近年来, 随着人工智能技术在序贯决策和博弈对抗等问题的应用方面取得了飞速发展, 围棋、游戏、德扑和麻将等领域取得了巨大的进步, 例如, AlphaGo、OpenAI Five、AlphaStar、DeepStack、Libratus、Pluribus和Suphx等系统都在这些领域中达到或超过人类专家水平. 这些应用集中在双人、两队或者多人的零和博弈问题中, 而对于混合博弈问题的研究缺乏实质性的进展与突破. 区别于零和博弈, 混合博弈需要综合考虑个体收益、集体收益和均衡收益等诸多目标, 被广泛应用于公共资源分配、任务调度和自动驾驶等现实场景. 因此, 对于混合博弈问题的研究至关重要. 通过梳理当前混合博弈领域中的重要概念和相关工作, 深入分析国内外研究现状和未来发展方向. 具体地, 首先介绍混合博弈问题的定义与分类; 其次详细阐述博弈解概念和求解目标, 包含纳什均衡、相关均衡、帕累托最优等解概念, 最大化个体收益、最大化集体收益以及兼顾公平等求解目标; 接下来根据不同的求解目标, 分别对博弈论方法、强化学习方法以及这两种方法的结合进行详细探讨和分析; 最后介绍相关的应用场景和实验仿真环境, 并对未来研究的方向进行总结与展望.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007214
    [摘要] (114) [HTML] (0) [PDF 6.40 M] (855)
    摘要:
    布谷鸟过滤器是一种高效的概率型数据结构, 该数据结构可以快速判断某个元素是否存在于给定集合中, 被广泛应用于计算机网络、物联网应用以及数据库系统中. 在实践中, 上述系统通常需要处理海量数据以及大量并发请求. 实现支持高并发的布谷鸟过滤器可以显著提升系统吞吐以及数据处理能力, 对提升系统性能至关重要. 为此, 设计一个支持无锁并发的布谷鸟过滤器. 该过滤器通过所提出的两阶段查询、路径探查与元素迁移分离, 以及基于多机器字比较并交换的原子迁移技术实现高性能的查询、插入和删除操作. 理论分析和实验验证结果均表明, 无锁并发布谷鸟过滤器显著提升现有最先进算法的并发性能. 无锁并发布谷鸟过滤器的查询吞吐量, 平均为使用细粒度锁的布谷鸟过滤器的查询吞吐量的1.94倍.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007215
    [摘要] (127) [HTML] (0) [PDF 6.91 M] (741)
    摘要:
    先前的预训练语言模型已在众多自然语言理解任务中展现了其卓越的性能. 然而, 它们常表现出捷径学习的问题, 即学习了非鲁棒性特征与标签之间的虚假关联, 导致模型在不同于训练分布的测试场景中的泛化能力不佳. 近期, 生成式预训练大模型在理解任务中的出色表现引起了广泛的关注, 但它们是否受到捷径学习的影响尚未被充分研究. 以LLaMA系列模型与FLAN-T5模型为代表, 探究生成式预训练大模型在多个自然语言理解任务中的捷径学习现象. 研究结果表明, 近期流行的生成式大模型仍然存在捷径学习的问题. 进而, 提出针对生成式预训练大模型的捷径学习问题的缓解策略——基于可控性解释的混合数据增强框架. 该框架以数据为中心, 基于模型生成的可控性解释数据与部分原始提示性数据构造小规模混合数据集, 开展模型微调. 在3个具有代表性的自然语言理解任务中的大量实验结果表明, 使用该框架所构造的数据集训练模型能够有效缓解模型的捷径学习问题, 提升模型在分布外测试场景中的鲁棒性与泛化能力, 同时不牺牲甚至提升模型在分布内测试场景中的性能. 代码已公开发布在https://github.com/Mint9996/HEDA.
    优先出版日期:  2024-06-18 , DOI: 10.13328/j.cnki.jos.007143
    [摘要] (399) [HTML] (0) [PDF 9.04 M] (1190)
    摘要:
    近年来深度学习在软件工程领域任务中取得了优异的性能. 众所周知, 实际任务中优异性能依赖于大规模训练集, 而收集和标记大规模训练集需要耗费大量资源和成本, 这限制了深度学习技术在实际任务中的广泛应用. 随着深度学习领域预训练模型(pre-trained model, PTM)的发布, 将预训练模型引入到软件工程(software engineering, SE)任务中得到了国内外软件工程领域研究人员的广泛关注, 并得到了质的飞跃, 使得智能化软件工程进入了一个新时代. 然而, 目前没有研究提炼预训练模型在软件工程领域的成功和机遇. 为阐明这一交叉领域的工作 (pre-trained models for software engineering, PTM4SE), 系统梳理当前基于预训练模型的智能软件工程相关工作, 首先给出基于预训练模型的智能软件工程方法框架, 其次分析讨论软件工程领域常用的预训练模型技术, 详细介绍使用预训练模型的软件工程领域下游任务, 并比较和分析预训练模型技术这些任务上的性能. 然后详细介绍常用的训练和微调PTMs的软件工程领域数据集. 最后, 讨论软件工程领域使用PTMS面临的挑战和机遇. 同时将整理的软件工程领域PTMs和常用数据集发布在https://github.com/OpenSELab/PTM4SE.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007170
    [摘要] (130) [HTML] (0) [PDF 9.06 M] (886)
    摘要:
    知识图谱(Knowledge Graph, KG)预训练模型有助于电子商务应用中各种下游任务, 然而, 对于具有高动态性的大规模电商社交知识图谱来说, 预训练模型需要及时更新以感知由用户交互引起的节点特征变化. 提出一种针对电商社交知识图谱预训练模型的高效增量学习方法, 该方法通过基于双向模仿蒸馏的训练策略充分挖掘不同样本对模型更新的作用, 并通过基于样本常规性和反常性的采样策略来减少训练数据规模, 提升模型更新效率. 此外, 还提出一种逆重放机制, 为社交知识图谱预训练模型的增量训练生成高质量的负样本. 在真实的电子商务数据集和相关下游任务上的实验结果表明, 相较于最先进的方法, 所提方法可以更有效且高效地增量更新社交知识图谱预训练模型.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007171
    [摘要] (119) [HTML] (0) [PDF 1.32 M] (1009)
    摘要:
    近年来, 数字藏品的线上交易越发频繁, 如阿里拍卖、OpenSea等, 网络拍卖作为数字藏品交易的重要手段, 有效支撑了数字藏品在市场中的流通. 然而, 网络拍卖中竞标者的竞价隐私存在泄露风险. 针对此问题, 提出一种基于国密的数字藏品网络拍卖隐私保护方案, 该方案在保护用户竞价隐私同时, 兼顾了竞价信息的可用性. 具体来说, 通过设计同态加密计算方法, 加密竞标者的竞价信息和运用同态运算对竞价信息添加噪声这两个步骤, 保障拍卖过程竞标者竞价隐私. 根据网络拍卖隐私保护协议执行效率需求设计了基于CRT-BSGS的国密SM2同态算法, 相较于Paillier算法具有显著的效率提升. 最后, 通过实验证明了所提方案的安全性和高效性.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007174
    [摘要] (139) [HTML] (0) [PDF 6.22 M] (814)
    摘要:
    跨片状态迁移协议是保证跨片交易处理原子性的基础, 其效率高低将直接影响分片系统性能. 现有协议处理过程可以分为源分片状态迁出、片间状态传输和目的分片状态迁入这3个阶段, 各阶段依次执行、紧密绑定. 利用链下状态通道灵活度高、即时确认的特点, 提出了ChannelLink跨片状态迁移协议, 将现有协议中紧密耦合的三阶段处理过程解耦, 有效降低了跨片交易平均开销, 提升了状态迁移效率. 基于此, 设计了一种低开销链下通道路由算法. 该算法基于状态迁移交易与链下通道拓扑等特征, 通过改进遗传算法, 求解最优状态路由方案, 兼顾迁移效率的同时, 降低了用户跨片状态迁移开销. 最后, 实现了ChannelLink协议原型系统, 并基于比特币交易以及闪电网络状态信息构造数据集进行实验验证. 实验结果表明, 该协议在16个分片、跨片交易比例为5.21%的场景下, 分片系统吞吐量提升7.04%, 交易确认延迟降低52.51%, 跨片状态迁移开销下降45.44%以上, 并且随着分片数量与跨片交易比例的上升, 该协议的性能优势逐步扩大.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007169
    [摘要] (121) [HTML] (0) [PDF 9.80 M] (770)
    摘要:
    随着人工智能和端到端识别方法在手写数学表达式识别上的应用, 数学表达式识别准确率有了明显的提高. 然而, 与公开数据集上的测试不同, 实际应用中人的参与为识别算法引入了更多的不确定因素, 如个性化的笔画信息、包含歧义的手写字符, 以及不确定的公式结构等, 影响了识别算法的性能. 为此, 提出了一种混合人机智能的手写数学表达式识别方法HchMER. 该方法借助手写数学公式识别算法、知识库和用户反馈, 增强机器对用户输入的数学表达式的理解, 从而提升手写数学表达式的编辑速度和准确率. 为了验证HchMER的有效性, 将其分别与MyScript Math Recognition (MyScript)算法, 以及一个成熟的商用产品“ Microsoft Ink Equation” (InkEquation)进行了比较. 实验结果表明, HchMER在准确率上较MyScript和InkEquation分别提高了23.2%和26.51%. 在平均完成时间上, HchMER比MyScript增加了44.46% (9.6 s), 但是比InkEquation降低了11.48% (4.05 s). 同时, 被试在问卷调查和半结构化访谈中对HchMER给予了肯定.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007188
    摘要:
    虽然卷积神经网络凭借优异的泛化性能被广泛应用在图像识别领域中, 但被噪声污染的对抗样本可以轻松欺骗训练完全的网络模型, 带来安全性的隐患. 现有的许多防御方法虽然提高了模型的健壮性, 但大多数不可避免地牺牲了模型的泛化性. 为了缓解这一问题, 提出了标签筛选权重参数正则化方法, 在模型训练过程中利用样本的标签信息权衡模型的泛化性和健壮性. 先前的许多健壮模型训练方法存在下面两个问题: 1)大多通过增加训练集样本的数量或复杂度来提高模型的健壮性, 这不仅弱化了干净样本在模型训练过程中的主导作用, 也使得训练任务的工作量大大提高; 2)样本的标签信息除了被用于与模型预测结果对比来控制模型参数的更新方向以外, 在模型训练中几乎不被另作使用, 这无疑忽视了隐藏于样本标签中的更多信息. 所提方法通过样本的正确标签和对抗样本的分类标签筛选出模型在分类该样本时起决定性作用的权重参数, 对这些参数进行正则优化, 达到模型泛化性和健壮性权衡的效果. 在MNIST、CIFAR-10和CIFAR-100数据集上的实验和分析表明, 提出的方法能够取得很好的训练效果.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007189
    摘要:
    作为任务型对话系统的一个核心部分, 槽填充任务通过识别话语中存在的特定槽实体来服务于后续的下游任务. 但是, 针对一个特定领域, 需要大量有标记的数据作为支撑, 收集成本较高. 在此背景下, 跨领域槽填充任务出现, 该任务通过迁移学习的方式高效地解决了数据稀缺问题. 已有的跨领域槽填充方法都忽视了槽类型之间在话语中存在的依赖, 导致现有的模型在迁移到新领域时性能欠佳. 为了弥补这个缺陷, 提出基于槽依赖建模的跨领域槽填充方法. 基于生成式预训练模型的提示学习方法, 设计一种融入槽依赖信息的提示模板, 该模板建立了不同槽类型之间的隐式依赖关系, 充分挖掘预训练模型的实体预测性能. 此外, 为了进一步提高槽类型和槽实体与话语文本之间的语义依赖, 增加了话语填充子任务, 通过反向填充的方式增强话语与槽实体的内在联系. 通过对多个领域的迁移实验表明, 所提模型在零样本和少样本的设置上取得了较大的性能提升. 此外, 对模型中的主要结构进行了详细地分析和消融实验.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007190
    [摘要] (226) [HTML] (0) [PDF 7.10 M] (1084)
    摘要:
    服务器无感知计算是新兴的云计算模式, 它基于“函数即服务(FaaS)”的范式, 以函数为部署和调度的基本单位, 为用户提供大规模并行和自动伸缩的函数执行服务, 且无需用户管理底层资源. 对于用户, 服务器无感知计算能够帮助他们摆脱集群底层基础设施管理的负担, 专注于业务层的开发和创新; 对于服务提供商, 服务器无感知计算将应用分解为细粒度的函数, 极大地提高了调度效率和资源利用率. 显著的优势让服务器无感知计算迅速吸引了业界的注意, 然而, 服务器无感知计算与传统云计算迥然不同的计算模式以及对任务各方面的严格限制给应用的迁移带来了诸多障碍, 各种越来越复杂的任务也对服务器无感知计算的性能提出了越来越高的要求, 服务器无感知计算的性能优化成为一个重要的研究课题. 从4个方面对服务器无感知计算系统性能优化技术的相关研究工作进行梳理和综述, 并介绍现有的系统实现. (1)介绍面向典型任务的优化技术, 包括任务适配和针对特定任务的系统优化; (2)综述沙箱环境的优化工作, 包括沙箱方案和冷启动优化技术, 它们是决定函数运行速度的核心; (3)概括I/O和通信技术的优化, 它们是服务器无感知计算应用程序的主要性能瓶颈; (4)简述相关的资源调度技术, 包括面向平台和面向用户的调度策略, 它们决定着系统的资源利用率和任务的执行效率. 最后, 总结当前服务器无感知计算性能优化技术所面临的问题和挑战, 并展望未来可能的发展方向.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007191
    [摘要] (128) [HTML] (0) [PDF 7.05 M] (856)
    摘要:
    服务器无感知计算是一种新兴的云计算范型, 它允许开发者专注于应用逻辑的开发, 而不需要负责底层复杂的任务管理. 通过这种范型, 开发者可以快速构建更小粒度的应用, 即函数级别的应用. 随着服务器无感知计算的日益流行, 各大云计算厂商相继推出各自的商业服务器无感知平台. 然而, 这些平台的特点尚未得到系统的研究和可靠的比较. 全面分析这些特点可以帮助开发者选择合适的服务器无感知平台, 并以正确的方式开发和执行基于服务器无感知计算的应用. 为此, 开展了面向主流的商业服务器无感知平台特征的实证研究. 涵盖的主流服务器无感知平台包括亚马逊Lambda、谷歌Cloud Functions、微软Azure Functions和阿里巴巴Function Compute. 研究内容主要分为两大类: 特征总结和运行时性能分析. 在特征总结中, 通过对这些服务器无感知平台的官方文档进行探究, 从开发、部署和运行时3个方面的关键特征进行总结和比较. 在运行时性能分析中, 我们使用代表性的基准测试程序, 从多个维度分析了这些服务器无感知平台提供的运行时性能. 具体而言, 首先分析了影响应用冷启动性能的关键因素, 如编程语言和内存大小. 其次, 探究了服务器无感知平台执行各类任务的执行性能. 基于特征总结和运行时性能分析的结果, 总结了一系列发现, 并为开发者、云计算厂商和研究者提供了具有现实指导意义的启示和潜在的研究机会.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007192
    [摘要] (176) [HTML] (0) [PDF 7.98 M] (855)
    摘要:
    微内核系统将系统服务迁移到用户态运行, 因其架构隔离性而具有高可靠性的优势, 这一优势与航天领域的需求相契合. SPARC架构的处理器被广泛应用于航天飞船、卫星载荷以及星球车的控制设备上, 而该架构的寄存器窗口机制会影响微内核进程间通信(inter-process communication, IPC)的性能, 其核间中断(inter-processor interrupt, IPI)也会严重影响跨核IPC的效率. IPC作为微内核系统的关键机制, 对微内核上应用程序的整体性能十分重要. 基于对SPARC寄存器窗口机制的观察, 重新设计实现寄存器组机制, 由系统内核对寄存器窗口进行分配和管理, 并藉此实现SPARC架构上的BankedIPC. 同时, 在多核场景下, 针对SPARC上IPI性能较差的问题, 设计实现FlexIPC以优化跨核IPC的性能. 使用这些方法对自研微内核ChCore上已经实现的通用的同步IPC进行优化. 测试表明, 优化后SPARC上微内核的IPC平均性能提升至原来的2倍, 应用性能提升最高可达15%.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007193
    [摘要] (304) [HTML] (0) [PDF 5.81 M] (1888)
    摘要:
    多路径传输技术是指通过设备上的多个网络接口, 在通信双方建立多条传输路径, 实现带宽聚合、负载均衡、路径冗余, 增加传输的吞吐量, 提高可靠性. 多路径传输技术凭借其上述优势, 已被广泛应用于服务器、终端和数据中心等场景, 是网络体系结构和传输技术研究的重要组成, 具有重要研究价值和意义. 为此, 从概念、核心机制等方面, 系统梳理了多路径传输技术. 首先概述了多路径传输的基本概念、标准化进程以及应用价值. 其次, 阐述多路径传输技术的核心机制, 包括拥塞控制、报文调度、路径管理、重传机制、安全机制, 以及面向特定应用的机制设计. 对每种机制的分类方法、主要研究成果给予了总结和评述, 分析总结了不同机制的优缺点与发展方向. 最后, 探讨了多路径传输技术研究面临的挑战, 展望了未来研究方向.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007194
    [摘要] (254) [HTML] (0) [PDF 7.55 M] (798)
    摘要:
    准确、快速地获取IP地理定位信息对于各种网络应用而言至关重要. IP地理定位指将互联网实体的IP地址转换为其地理位置的技术. 然而, 互联网规模的迅速扩大和互联网应用的快速发展, 给IP地理定位研究带来了巨大的挑战. 首先, 复杂的网络结构和网络环境导致IP定位技术的精确度远远无法满足实际的应用需求. 其次, IP地理定位在各个领域的作用日益凸显, 如何精准、高效、可靠地计算互联网主机的地理位置正在成为各行关注的焦点. 因此, 通过设备的IP地址对其进行地理定位以支撑复杂的上层应用尤为重要. 自2001年以来, 学术界和工业界围绕上述问题开展了大量的研究. 系统地梳理了客户端独立的IP地理定位方面的相关工作, 首次系统地整理了基于网络测量的IP地理定位研究分类方法. 根据定位数据是否由主动测量产生, 将相关研究分为主动的IP定位技术、被动的IP定位技术和主被动结合的IP定位技术. 进一步, 对每一类方法进行更细粒度的分类并分析其主要的优缺点. 在此基础上, 总结了IP地理定位领域的最新进展和研究挑战, 并展望其未来发展方向.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007196
    [摘要] (465) [HTML] (0) [PDF 8.19 M] (1435)
    摘要:
    随着人工智能和5G技术在汽车行业的应用, 智能网联汽车应运而生, 它是一种由众多来自不同供应商的电子控制单元(ECU)组成的复杂分布式异构系统, 通过以CAN为代表的车载网络协议交互协同控制各ECU. 然而, 攻击者可能通过各种接口攻击智能网联汽车, 渗透到车载网络, 再攻击车载网络及其各组成部分如ECU. 因此, 智能网联汽车的车载网络安全成为近些年车辆安全研究的焦点之一. 在介绍智能网联汽车整体结构、ECU、CAN总线和车载诊断协议等基础之上, 首先总结了目前车载网络协议的逆向工程技术进展, 逆向工程的目标是获取汽车行业通常不公开的车载网络协议实现细节, 也是实施攻击和防御的前提条件. 然后从车载网络攻、防两个角度展开: 一方面概括了车载网络攻击向量及主要攻击技术, 包括通过物理访问和远程访问方式实施的攻击技术, 以及针对ECU和CAN总线实施的攻击技术; 另一方面, 讨论了车载网络现有的防御技术, 包括基于特征工程和机器学习方法的车载网络入侵检测和基于密码学方法的车载网络协议安全增强技术. 最后展望了未来的研究方向.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007198
    [摘要] (133) [HTML] (0) [PDF 6.76 M] (761)
    摘要:
    持久化内存(persistent memory, PM)作为主存的补充和替代, 为数据存储提供了相对较低的价格成本, 并且保证了数据的持久化. 为PM设计的传统结构索引(如B+树等)未能充分利用数据分布特点来发挥索引在PM上的读写性能. 最近的研究尝试利用学习索引的数据分布感知能力提升索引在PM上的读写性能并实现持久化. 但在面对真实世界的数据时, 现有基于PM的持久化学习索引的数据结构设计会导致额外的内存访问, 从而影响读写性能. 针对PM学习索引在面对真实数据时读写性能下降的问题, 提出一种DRAM/PM混合架构的学习索引PLTree. 它通过以下方法提升在PM上的读写性能并减轻数据分布颠簸对性能的影响: (1)使用两阶段方法构建索引消除内部节点的局部搜索, 减少PM的访问. (2)利用模型搜索来优化PM上的查找性能并通过在DRAM存储元数据加速查找. (3)根据PM的特性设计了日志式分层溢出缓存结构, 优化写入性能. 实验结果表明, 在不同数据集上, 与现有的持久化内存索引(APEX, FPTree, uTree, NBTree和DPTree)相比, PLTree在索引构建性能上平均提升了约1.9–34倍; 单线程查询/插入性能平均提升了约1.26–4.45倍和2.63–6.83倍; 在多线程场景, 查询/插入性能最高提升了约10.2倍和23.7倍.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007172
    [摘要] (211) [HTML] (0) [PDF 3.64 M] (1573)
    摘要:
    对抗鲁棒性评估需要结合对抗样本攻击能力与噪声幅度形成对深度学习模型噪声抵御能力的完整、准确的评测. 然而, 对抗鲁棒性评估评价指标缺乏完备性是现有对抗攻防方法的一个关键问题. 现有的对抗鲁棒性评估相关工作缺少对评价指标体系的分析与比较, 忽视了攻击成功率和不同范数对鲁棒性评估指标体系完备性的影响以及对攻防方法设计的限制. 从范数选择和度量指标两个维度展开对抗鲁棒性评价指标体系的讨论, 分别从评价指标定义域的包含关系、鲁棒性描述粒度以及鲁棒性评估序关系3个方面对鲁棒性评估指标体系完备性进行理论分析, 并得出以下结论: 使用均值等噪声统计量比使用攻击成功率等评价指标定义域更大且更全面, 同时能够保证任意两个对抗样本集合都能够进行比较; 使用${L_2} $范数比使用其他范数在鲁棒性评估的描述上更具完备性. 在6个数据集上对23种模型及20种对抗攻击方法的大量实验验证了这些结论.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007173
    [摘要] (190) [HTML] (0) [PDF 7.21 M] (1706)
    摘要:
    得益于信息化技术的快速发展和医疗信息系统的普及, 医学数据库中积淀了海量的医学事实, 如患者临床诊疗事件以及医学专家共识等. 如何从医学事实中提炼出知识, 进而对其管理和合理利用, 是推进诊疗自动化和智能化的关键. 知识图谱作为一种新型的知识表示工具, 能够有效地挖掘和组织大规模医学事实中的信息, 受到医疗领域从业人员的广泛关注. 然而, 现有医疗知识图谱普遍存在规模小、限制多、可扩展性差等问题, 面向医学事实的知识表达能力有限. 为此, 提出一种双层医疗知识图谱架构, 通过对英文患者诊疗事件和中文专家共识进行信息抽取, 构建得到一个跨语言、多模态、动态更新、可拓展性强的十亿级医疗知识图谱, 可提供更加精准的智能医疗服务.
    优先出版日期:  2024-06-12 , DOI: 10.13328/j.cnki.jos.007094
    [摘要] (165) [HTML] (0) [PDF 2.17 M] (814)
    摘要:
    在线类增量连续学习旨在数据流场景下进行有效的新类学习, 并保证模型满足小缓存和小批次约束. 然而由于数据流的单趟(one-pass)特性, 小批次内的类别信息难以如离线学习那样被多趟探索利用. 为缓解该问题, 目前常采用数据多重增广并借助对比回放建模. 但考虑到小缓存和小批次限制, 现有随机选择和保存数据的策略不利于获取多样性的负样本, 制约了模型判别性. 已有研究表明困难负样本是提升对比学习性能的关键, 但这鲜少在在线学习场景被探索. Universum学习提出的概念含混(condued)数据恰好提供一种生成困难负样本的简单直观思路, 据此先前用特定系数插值混合(mixup)诱导出的Universum数据(mixup-induced Universum, MIU)已有效提升了离线对比学习的性能. 受此启发, 尝试将其引入在线场景. 但不同于先前静态生成的Universum, 数据流场景面临着某些额外挑战. 首先随类数的动态增加, 相对基于全局给定类生成的静态Universum不再适用, 需重新加以定义和动态生成, 为此提出仅利用当前数据(局部)递归生成相对已见类熵为最大的MIU (称为增量MIU, IMIU), 并为其提供额外的小缓存从总体上满足内存限制; 其次将生成的IMIU和小批次内的正样本再次插值混合出多样且高质的困难负样本. 最后综合上述各步, 发展出基于IMIU的在线类增量对比学习(incrementally mixup-induced Universum based online class-increment contrastive learning, IUCL)学习算法. 在标准数据集CIFAR-10、CIFAR-100和Mini-ImageNet上的对比实验验证所提算法一致的有效性.
    优先出版日期:  2024-05-29 , DOI: 10.13328/j.cnki.jos.007156
    [摘要] (438) [HTML] (0) [PDF 5.28 M] (1667)
    摘要:
    属性级情感分析作为一种细粒度情感分析方法, 目前在许多应用场景中都具有重要作用. 然而, 随着社交媒体和在线评论的日益广泛以及各类新兴领域的出现, 使得跨领域属性级情感分析面临着标签数据不足以及源领域与目标领域文本分布差异等挑战. 目前已有许多数据增强方法试图解决这些问题, 但现有方法生成的文本仍存在语义不连贯、结构单一以及特征与源领域过于趋同等问题. 为了克服这些问题, 提出一种基于大语言模型(large language model, LLM)数据增强的跨领域属性级情感分析方法. 所提方法利用大模型丰富的语言知识, 合理构建针对跨领域属性级别情感分析任务的引导语句, 挖掘目标领域与源领域相似文本, 通过上下文学习的方式, 使用领域关联关键词引导LLM生成目标领域有标签文本数据, 用以解决目标领域数据缺乏以及领域特异性问题, 从而有效提高跨领域属性级情感分析的准确性和鲁棒性. 所提方法在多个真实数据集中进行实验, 实验结果表明, 该方法可以有效提升基线模型在跨领域属性级情感分析中的表现.
    优先出版日期:  2024-05-15 , DOI: 10.13328/j.cnki.jos.007157
    [摘要] (391) [HTML] (0) [PDF 1.09 M] (1246)
    摘要:
    随着嵌入式系统的广泛应用, 其需求正变得越来越复杂, 需求分析成为嵌入式系统开发的关键阶段, 如何准确地建模和描述需求成为首要问题. 系统地调研嵌入式系统的需求描述, 并进行全面的比较分析, 以便更深入地理解嵌入式系统需求的核心关注点. 首先采用系统化文献综述方法, 对1979年1月–2023年11月间发表的相关文献进行识别、筛选、汇总和分析. 通过自动检索和滚雪球等检索过程, 筛选出150篇与主题密切相关的文献, 力求文献综述的全面性. 其次, 从需求描述关注点、需求描述维度、需求分析要素等方面, 分析现有嵌入式需求描述语言的表达能力. 最后, 总结现有嵌入式系统软件需求描述所面临的挑战, 并针对嵌入式软件智能合成任务, 提出对嵌入式系统需求描述方法表达能力的要求.
    优先出版日期:  2024-05-08 , DOI: 10.13328/j.cnki.jos.007144
    [摘要] (299) [HTML] (0) [PDF 2.80 M] (1513)
    摘要:
    多模态情感计算是情感计算领域一个基础且重要的研究任务, 旨在利用多模态信号对用户生成的视频进行情感理解. 尽管已有的多模态情感计算方法在基准数据集上取得了不错的性能, 但这些方法无论是设计复杂的融合策略还是学习模态表示, 普遍忽视了多模态情感计算任务中存在的模态可信度偏差问题. 认为相较于文本, 语音和视觉模态往往能更真实的表达情感, 因而在情感计算任务中, 语音和视觉是高可信度的, 文本是低可信度的. 然而, 已有的针对不同模态特征抽取工具的学习能力不同, 导致文本模态表示能力往往强于语音和视觉模态(例如: GPT3与ResNet), 这进一步加重了模态可信度偏差问题, 不利于高精度的情感判断. 为缓解模态可信度偏差, 提出一种模型无关的基于累积学习的多模态可信度感知的情感计算方法, 通过为低可信度的文本模态设计单独的文本模态分支捕捉偏差, 让模型在学习过程中从关注于低可信度文本模态的情感逐步关注到高可信度语音和视觉模态的情感, 从而有效缓解低可信度文本模态导致的情感预测不准确. 在多个基准数据集上进行实验, 多组对比实验的结果表明, 所提出的方法能够有效地突出高可信度语音和视觉模态的重要性, 缓解低可信度文本模态的偏差; 并且, 该模型无关的方法显著提升了多模态情感计算方法的性能, 这表明所提方法在多模态情感计算任务中的有效性和通用性.
    优先出版日期:  2024-05-08 , DOI: 10.13328/j.cnki.jos.007141
    [摘要] (407) [HTML] (0) [PDF 7.41 M] (1189)
    摘要:
    随着互联网空间中图像数据的爆发式增长和图像应用领域的拓宽, 大规模图像检索的需求与日俱增. 哈希学习为大规模图像检索提供显著的存储与检索效率, 并成为近年来一个研究热点. 现有哈希学习综述存在着时效性弱与技术路线不清晰的问题, 即多总结5–10年前的研究成果, 且较少总结哈希学习算法各组成部分间的关联关系. 鉴于此, 通过总结近20年公开发表的哈希学习文献, 对面向大规模图像检索的哈希学习进行系统的综述性研究. 首先, 介绍哈希学习的技术路线和哈希学习算法的主要组成部分, 包括损失函数、优化策略及样本外扩展映射. 其次, 将面向图像检索的哈希学习算法分为无监督哈希方法和监督哈希方法两类, 并分别梳理每类方法的研究现状和演化过程. 然后, 介绍哈希学习算法评估通用的图像数据集与评估指标, 并通过对比实验分析部分经典算法的性能. 最后, 结合哈希学习的局限性与新挑战对其发展前景进行阶段性总结与展望.
    优先出版日期:  2024-05-08 , DOI: 10.13328/j.cnki.jos.007155
    [摘要] (203) [HTML] (0) [PDF 3.11 M] (981)
    摘要:
    场景草图由多个前、背景物体组成, 能够直观、概括地表达复杂的语义信息, 在现实生活中有着广泛的实际应用, 逐渐成为计算机视觉和人机交互领域的研究热点之一. 作为场景草图语义理解的基础任务, 场景草图语义分割的相关研究相对较少, 现有的方法多是对自然图像语义分割的方法进行改进, 不能克服草图自身的稀疏性和抽象性等特点. 针对以上问题, 直接从草图笔画入手, 提出一种图Transformer模型结合草图笔画的时空信息来解决自由手绘场景草图语义分割任务. 首先将矢量场景草图构建成图结构, 笔画表示为图的节点, 笔画在时序和空间上的关联表示为图的边. 然后通过边增强的Transformer模块捕获笔画的时空全局上下文信息. 最后将编码后的时空特征进行多分类优化学习. 在SFSD场景草图数据集上的实验结果表明, 所提方法可以利用笔画时空信息对场景草图进行有效的语义分割, 实现优秀的性能.
    优先出版日期:  2024-05-08 , DOI: 10.13328/j.cnki.jos.007158
    [摘要] (111) [HTML] (0) [PDF 3.25 M] (1071)
    摘要:
    在大数据时代, 样本规模以及维数的动态更新和变化极大地增加了计算负担, 在这些动态数据中, 大多的数据样本并不以单一的数据取值形式存在, 而是同时包含符号型数据和数值型数据的混合型数据. 为此, 学者们提出了许多关于混合数据的特征选择算法, 但现有的算法大多只适用静态数据或者小规模的增量数据, 无法处理大规模动态变化的数据, 尤其是数据分布不断变化的大规模增量数据集. 针对这一局限性, 通过分析动态数据中粒空间以及粒结构的变化和更新, 基于信息融合机制, 提出了一种面向动态混合数据的多粒度增量特征选择算法. 该算法重点讨论了动态混合数据中的粒空间构建机制、多数据粒结构的动态更新机制以及面向数据分布变化信息融合机制. 最后, 通过与其他算法在UCI数据集上的实验结果进行对比, 进一步验证了所提算法的可行性和高效性.
    优先出版日期:  2024-04-29 , DOI: 10.13328/j.cnki.jos.007160
    [摘要] (170) [HTML] (0) [PDF 5.04 M] (986)
    摘要:
    随着移动设备的广泛普及, 其图形处理器的性能也逐渐增强. 为了满足用户对卓越体验的不断追求, 移动设备屏幕分辨率和刷新率每年都在不断提升. 与此同时, 移动游戏中的可编程绘制流水线也变得日益复杂, 这导致游戏应用成为移动设备功耗的主要来源. 研究了移动游戏中的绘制流水线, 提出一种运动感知的绘制帧率调整方法, 以在节能模式下保证绘制质量. 与以往仅考虑历史帧绘制误差的预测模型不同, 该方法通过建立摄像机位姿和帧间绘制误差的非线性关系模型, 通过未来帧新的摄像机位姿预测其绘制误差, 实现更为精确的帧率调整策略. 此外, 该方法还包括一个轻量级的场景识别模块, 可根据玩家所处特定场景有针对性地调整误差阈值, 从而采用不同程度的帧率调整策略. 在定量对比上, 相比只考虑历史帧误差的预测模型, 构建的模型在游戏帧序列上的预测准确性提高30%以上. 同时, 在用户实验的定性对比上, 相同跳帧比例下该方法能够得到用户体验更好的绘制效果. 提出的算法融合了历史帧误差和摄像机位姿变化信息, 能够预测出更准确的未来帧误差. 算法结合预测结果和场景识别结果, 实现了更好的动态帧率调整效果.
    优先出版日期:  2024-04-29 , DOI: 10.13328/j.cnki.jos.007148
    [摘要] (214) [HTML] (0) [PDF 7.62 M] (1845)
    摘要:
    由IEEE 802.1任务组开发的时间敏感网络标准可以用来构建高可靠、低延迟、低抖动的以太网, 将时间敏感网络扩展到无线领域也是目前许多工作的研究重点. 与传统的有线通信相比, 无线的时间敏感网络不仅可以实现高可靠和低时延通信, 还具有更高的灵活性、更强的移动性以及更低的布线和维护成本等优点. 因此, 在面对未来无人驾驶、协作机器人、远程医疗控制等新兴应用时, 无线时间敏感网络被认为是一种十分有前景的技术. 无线网络一般可以分为基于基础设施的无线网络和无基础设施的无线网络, 而后者基于移动性还可以分为两类: 移动自组织网络和无线传感网络, 因此主要从这3种网络类型出发, 对其应用场景、相关技术、路由协议以及高可靠低时延传输进行了调研与综述.
    优先出版日期:  2024-04-24 , DOI: 10.13328/j.cnki.jos.007142
    [摘要] (106) [HTML] (0) [PDF 5.94 M] (944)
    摘要:
    Android应用开发人员需要在保持应用频繁更新的同时快速检测出应用中Android运行时权限(Android runtime permission, ARP)错误. 现有的Android应用自动化测试工具通常未考虑ARP机制, 无法有效测试Android应用内的权限相关行为. 为帮助开发人员快速检测出应用中ARP错误, 提出状态转换图制导的Android应用运行时权限错误检测方法. 首先, 对被测应用APK文件进行权限误用分析, 插桩APK文件中可能导致ARP错误的API, 并对APK文件重新签名; 然后, 安装插桩后的APK文件, 动态探索应用以生成其状态转换图(state transition graph, STG); 最后, 使用STG制导自动化测试, 快速检测出应用中ARP错误. 基于所提出方法实现原型工具RPBDroid, 并与ARP错误动态检测工具SetDroid、PermDroid和传统自动化测试工具APE进行对比实验. 实验结果表明, RPBDroid成功检测出17个应用中的15个ARP错误, 比APE、SetDroid、PermDroid分别多14、12和14个. 此外, 相比于测试工具SetDroid、PermDroid和APE, RPBDroid检测ARP错误的平均用时分别减少86.42%、86.72%和86.70%.
    优先出版日期:  2024-04-24 , DOI: 10.13328/j.cnki.jos.007092
    [摘要] (298) [HTML] (0) [PDF 5.36 M] (1061)
    摘要:
    身份基匹配加密是一种新型的密码学原语, 允许接收者与发送者双方都可以指定对方的身份, 只有身份匹配时才可与之通信. 这项加密技术提供了一种非交互式的秘密握手协议以摆脱实时互动, 进一步提高参与者的隐私性. 在标准模型下基于SXDH假设, 提出素数阶群上的身份基匹配加密方案, 实现短参数, 降低解密时的配对次数, 是目前效率最高的身份基匹配加密方案. 此外, 还提出第1个标准模型下基于SXDH假设的等值策略的内积匹配加密方案. 技术路线如下, 首先构造合数阶群上的方案, 然后通过DPVS技术将方案模拟到素数阶群中, 并降低所需的对偶基维数, 进一步减小参数大小. 最后, 替换身份基匹配加密的第1层策略, 构造出等值策略的内积匹配加密方案.
    优先出版日期:  2024-04-12 , DOI: 10.13328/j.cnki.jos.007146
    [摘要] (242) [HTML] (0) [PDF 9.64 M] (2019)
    摘要:
    FaaS (function-as-a-service, 函数即服务)工作流由多个函数服务编排而成, 通过对多个函数的协调控制来实现复杂的业务应用. 当前FaaS工作流系统主要基于集中式的数据存储实现函数间的数据传递, 导致FaaS函数间的数据传输开销大, 显著影响应用性能. 在高并发情况下, 频繁的数据传输还会产生严重的网络带宽资源争用, 导致应用性能下降. 针对上述问题, 基于函数服务间的细粒度数据依赖分析, 提出一种基于关键路径的函数部署优化方法, 设计了依赖敏感的数据存取与管理机制, 有效减少函数间数据传输, 从而降低FaaS工作流应用执行的数据传输时延和端到端时延. 设计实现了FaaS工作流系统FineFlow, 并基于5个真实FaaS工作流应用开展实验评估. 实验结果表明, 相比于基于集中式数据存储函数交互机制的FaaS工作流平台, FineFlow能够有效降低FaaS工作流应用的数据传输时延: 最高降低74.6%, 平均降低63.8%; 平均降低应用端到端执行时延19.6%. 特别地, 对于具有明显细粒度数据依赖的FaaS工作流应用, 相比于现有的基于数据本地性的优化方法, FineFlow能够使数据传输时延和端到端时延进一步分别降低28.4%和13.8%. 此外, FineFlow通过减少跨节点的数据传输, 能够有效缓解网络带宽波动对FaaS工作流执行性能的影响, 提升应用性能受网络带宽影响的鲁棒性.
    优先出版日期:  2024-03-27 , DOI: 10.13328/j.cnki.jos.007084
    [摘要] (262) [HTML] (0) [PDF 9.10 M] (1247)
    摘要:
    自主研制的申威智能加速卡上搭载了脉动阵列增强的申威众核处理器, 其智能计算能力与主流GPU相当, 但仍缺少配套的基础软件. 为降低申威智能加速卡的使用门槛, 有效支撑人工智能应用开发, 设计面向申威智能加速卡的运行时系统SDAA, 语义与主流的CUDA运行时保持一致. 针对内存管理、数据传输、核函数启动等关键路径, 采用软硬协同的设计方法实现卡上段页结合的多级内存分配算法、可分页内存多线程多通道的传输模型、多异构部件自适应的数据传输算法和基于片上阵列通信的快速核函数启动方法, 使得SDAA运行时性能优于主流GPU. 实验结果表明, SDAA运行时系统的内存分配速度是NVIDIA V100对应接口的120倍, 数据传输开销是对应接口的1/2, 数据传输带宽达到对应接口的1.7倍, 核函数启动时间与对应接口相当. SDAA运行时已支撑主流框架和实际模型训练在申威智能加速卡上的高效运行.
    优先出版日期:  2024-03-27 , DOI: 10.13328/j.cnki.jos.007081
    [摘要] (245) [HTML] (0) [PDF 7.44 M] (1318)
    摘要:
    嵌入式系统正变得越来越复杂, 其软件系统的需求分析成为嵌入式系统开发的瓶颈问题. 设备依赖性和执行逻辑的交织性是嵌入式软件系统的典型特征, 要求需求分析方法能根据所依赖的设备进行有效的需求解耦. 从基于环境建模的需求工程思想出发, 针对嵌入式软件系统的特征, 提出一种基于投影的从系统需求到软件需求的分析方法, 帮助需求工程师对需求进行有效解耦. 首先总结嵌入式软件系统的系统需求与软件需求描述, 基于交互环境特性定义嵌入式软件系统的需求解耦策略, 并设计从系统需求到软件需求的规约过程. 在航天器太阳搜索系统进行实际案例研究, 并通过耦合度与内聚性两个指标对5个代表性案例场景进行量化评估, 展示所提方法的有效性.
    优先出版日期:  2024-03-27 , DOI: 10.13328/j.cnki.jos.007090
    [摘要] (269) [HTML] (0) [PDF 7.02 M] (1025)
    摘要:
    大流识别是网络测量中的一项关键基础性工作, 目前主流的方法是采用概要型数据结构Sketch快速统计网络流量, 进而高效筛选大流. 然而, 当网络流量发生抖动时, 大量分组的急速涌入将导致大流识别精度显著下降. 对此, 提出一种支持流量抖动的网络大流弹性识别方法RobustSketch. 所提方法首先设计基于Sketch循环链的可伸缩小流过滤器, 根据实时分组到达速率适应性扩增与缩减其中的Sketch数量, 以始终完整记录当前时间周期内所有到达的网络分组, 从而确保网络流量抖动出现时仍能精确过滤小流. 然后设计基于动态分段哈希的可拓展大流记录表, 根据小流过滤器筛选后的候选大流数量适应性增加与减少分段, 以完整记录所有候选大流, 并保持较高的存储空间利用率. 进一步, 通过理论分析给出了所提小流过滤器和大流记录表的误差界限. 最后, 借助真实网络流量样本, 对所提大流识别方法RobustSketch进行实验评估. 实验结果表明: 所提方法的大流识别精确率明显高于现有方法, 即使在网络流量抖动时仍能稳定保持在99%以上, 而平均相对误差减少了2.7倍以上, 有效提升了大流识别的精确性和鲁棒性.
    优先出版日期:  2024-03-27 , DOI: 10.13328/j.cnki.jos.007091
    [摘要] (165) [HTML] (0) [PDF 2.22 M] (1089)
    摘要:
    互联网服务提供商采用路由保护算法来满足实时性、低时延和高可用应用的需求. 然而已有路由保护算法存在下面3个方面的问题: (1)在不改变传统路由协议转发机制的前提下, 故障保护率普遍较低; (2)为了追求较高的故障保护率, 通常需要改变传统路由协议的转发机制, 实际部署难度较大; (3)无法同时利用最优下一跳和备份下一跳, 从而导致网络负载均衡能力较差. 针对上述3个问题, 提出一种基于最短路径序列化图的路由保护算法, 所提算法不需要改变转发机制、支持增量部署、同时使用最优下一跳和备份下一跳不会出现路由环路、并且具有较高的故障保护率. 所提算法主要包括下面两个步骤: (1)为每个节点计算一个序号, 构造最短路径正序化图; (2)利用最短路径正序化图和反序搜索规则构造最短路径序列化图, 在此基础上根据备份下一跳计算规则计算节点对之间的备份下一跳集合. 在真实和模拟网络拓扑上进行测试, 实验结果表明, 与其他路由保护算法相比, 所提算法在平均备份下一跳数量、故障保护率和路径拉伸度3个指标方面均具有显著的优势.
    优先出版日期:  2024-03-20 , DOI: 10.13328/j.cnki.jos.007085
    [摘要] (451) [HTML] (0) [PDF 3.88 M] (1711)
    摘要:
    联邦学习是一种新型的分布式机器学习范式, 它在满足用户隐私和数据保密性要求的前提下, 充分利用众多分散客户端的计算能力及其本地数据联合训练机器学习模型. 在跨设备联邦学习场景下, 客户端通常由数千甚至万级别的移动设备或端侧设备组成, 由于通信和计算成本的限制, 聚合服务器在每个训练轮次中仅选择少量客户端加入训练. 几种被广泛应用的联邦优化算法均采用完全随机的客户端选择算法, 但这被证明有着很大的优化空间. 近年来, 如何高效可靠地从海量异构客户端中选择合适的集合参与训练, 以优化联邦学习协议的资源消耗和模型性能被广泛研究, 但仍没有文献对这一关键问题进行综合调研. 需要对跨设备联邦学习的客户端选择算法研究进行全面调研. 具体地, 形式化描述客户端选择问题, 然后给出对选择算法的分类并逐一深入讨论分析. 最后, 讨论客户端选择算法的一些未来研究方向.
    优先出版日期:  2024-03-13 , DOI: 10.13328/j.cnki.jos.007082
    [摘要] (185) [HTML] (0) [PDF 10.42 M] (1021)
    摘要:
    近年来, 面向服务的物联网体系架构受到学术界和工业界的广泛关注. 通过把物联网资源虚拟化为智能物联网服务, 动态互联并融合协同这些资源受限且动态演进的物联网服务, 从而构建物联网应用, 已成为一种被普遍认可且灵活有效的机制. 面向边缘设备资源稀缺且动态时变, 物联网服务在其执行过程中可能发生QoS变化或资源失配, 致使物联网应用难以继续或可能诱使故障发生. 因此, 实现物联网服务的实时定量监测, 已成为保障物联网应用鲁棒性和系统健壮性的关键. 现有相关研究工作提出了不同监测机制, 但其在形式化解释上仍存不足, 表现为较强的领域相关性和经验主观性. 基于形式化方法, 例如信号时序逻辑, 可将物联网服务运行态实时定量监测问题转换为时序逻辑任务. 然而, 现有信号时序逻辑存在信号不可辨性、方法不鲁棒性以及场景不适用性问题. 并且, 在物联网服务以复合服务形式监测时, 现有工作存在整体性、联动性、动态性考虑不足的问题. 为解决上述问题, 提出一种聚合型信号时序逻辑, 以实现单个服务、服务之间以及复合服务上不同QoS约束和时间约束的实时联动定量监测. 所提方法扩展基于正负偏置黎曼和的累加型时间算子, 对整个时间域内所有子公式进行鲁棒性度量, 实现时序鲁棒、信号可辨、动态适用的物联网服务运行态实时定量监测; 并扩展基于约束类型与组合结构的聚合算子, 以及随动态环境可变的动态变量, 实现复合服务在动态环境中的联动定量监测. 由此, 物联网服务及其复合服务的多维度多约束被转换为逻辑公式, 并在运行时以定性和定量化的满意度进行形式化解释. 实验结果表明所提方法具有更好的监测表达能力、场景适用性和结果鲁棒性.
    优先出版日期:  2024-03-13 , DOI: 10.13328/j.cnki.jos.007089
    [摘要] (414) [HTML] (0) [PDF 8.52 M] (2066)
    摘要:
    密码学是保障网络安全的核心基础, 其在数据保护、身份验证、加密通信等方面发挥着至关重要的作用. 随着5G和物联网技术的迅速普及, 网络安全面临着空前的挑战, 对密码学性能的要求呈现出爆发式增长. GPU能够利用数以千计的计算核心并行化加速复杂计算问题, 这种并行化特性非常适用于密码学算法的计算密集型特性. 鉴于此, 研究人员广泛探索了在GPU平台上加速各种密码算法的方法, 与CPU、FPGA等平台相比, GPU展现出明显的性能优势. 论述各类密码算法的分类与GPU平台架构, 对各类密码在GPU异构平台上的研究现状进行详细分析, 总结当前基于GPU平台高性能密码学面临的技术难题, 并对未来技术发展进行展望. 通过深入研究和总结, 旨在为密码工程研究从业者提供有关基于GPU的高性能密码计算的最新研究进展和应用实践的综合参考.
    优先出版日期:  2024-03-06 , DOI: 10.13328/j.cnki.jos.007083
    [摘要] (373) [HTML] (0) [PDF 5.26 M] (1404)
    摘要:
    多模态医学图像融合技术可以实现不同模态数据反映的组织结构与病变信息的融合, 为后续医疗诊断、手术导航等临床应用提供更为全面和准确的医学图像分析. 针对现有融合方法中存在的部分光谱退化、黏连病变侵袭区域边缘和细节缺失和色彩还原不足等问题, 提出一种在多尺度特征频域分解滤波域内实现图像多特征增强和色彩保留的多模态医学图像融合方法. 该方法将源图像分解为平滑、纹理、轮廓和边缘4个特征层, 分别利用特定融合规则并通过图像重构产生融合结果. 特别地, 鉴于平滑层所含潜在特征信息, 提出视觉显著性分解策略, 多尺度多维度地挖掘平滑层图像能量、部分纤维纹理等特征, 提升源图像信息利用率; 在纹理层中, 提出纹理增强算子, 通过空间结构和信息度量提取细节及其层次信息, 解决现有融合方法中对黏连病变区域侵袭状态难以区分等问题. 此外, 针对缺乏公开腹部数据集的问题, 配准403组腹部图像可供公开访问和下载. 在Atlas公开数据集和腹部数据集上与6种基准方法对比及消融实验结果表明, 所提方法相较于最先进的方法在融合图像与源图像相似度提升22.92%, 边缘保持度提升35.79%, 空间频率提升28.79%, 对比度提升32.92%, 并在视觉和计算效率方面有较好的效果, 明显优于其他方法.
    优先出版日期:  2024-02-05 , DOI: 10.13328/j.cnki.jos.007067
    [摘要] (196) [HTML] (0) [PDF 5.25 M] (1259)
    摘要:
    基于深度学习的代码搜索方法通过计算代码与描述语句各自表征的相似程度, 实现代码搜索任务. 然而此类方法并未考虑代码和描述语句之间真实存在的相关性概率分布. 针对此问题, 将经典概率模型中代码和描述语句的相关性概率分布与向量空间模型中特征提取相结合, 提出基于生成对抗策略的代码搜索方法. 所提方法首先设计代码和描述语句的特征编码器用于特征提取. 接着采用生成对抗策略, 将代码和描述语句之间的概率分布应用于生成器和判别器的交替训练, 同时实现对代码编码器和描述语句编码器的优化, 生成高质量的代码表征和描述语句表征用于代码搜索任务. 最后在公开的数据集上进行实验验证, 结果表明所提出的方法相比于DeepCS方法在Recall@10, MRR@10和NDCG@10指标上分别提升8.4%、32.5%和24.3%.
    优先出版日期:  2024-02-05 , DOI: 10.13328/j.cnki.jos.007055
    [摘要] (219) [HTML] (0) [PDF 6.84 M] (1230)
    摘要:
    检测JPEG (joint photographic experts group)同步重压缩是数字图像取证中一项具有挑战性的任务. 已有的研究提出了一些能够有效检测同步JPEG重压缩的方法, 但这些方法基本上都是在JPEG解压缩过程中获取的特征, 如果以BMP格式保存同步JPEG重压缩图像, 则这些方法将难以直接应用. 为了解决该问题, 提出一种基于双阈值的量化步长估计方法, 从而获取量化表并提取特征. 此外, 根据质量因子100时JPEG压缩的特殊性定义最小误差, 通过去除特征中的最小误差, 进一步提高特征的检测性能. 最后, 基于反量化后JPEG系数的收敛特性提取一阶相对误差特征, 进一步提高所提方法在质量因子较低时的检测性能. 实验结果表明, 所提方法在不同质量因子时的性能均优于当前先进算法.
    优先出版日期:  2024-02-05 , DOI: 10.13328/j.cnki.jos.007062
    [摘要] (356) [HTML] (0) [PDF 5.47 M] (1579)
    摘要:
    口语理解是任务型对话系统的关键任务, 主要由语义槽填充和意图识别两个子任务组成. 目前主流的方法是对语义槽填充和意图识别进行联合建模. 虽然这种方法在语义槽填充和意图识别上都取得了不错的效果, 但依然存在联合建模中意图识别和语义槽填充交互过程的错误传播问题以及多意图场景下多意图信息与语义槽信息的错误对应问题. 针对上述问题, 提出一种基于图注意力网络的多意图识别与语义槽填充联合模型(WISM). WISM模型通过细粒度(单词级)意图与语义槽建立单词级别一对一映射关系以修正多意图信息与语义槽之间的错误对应关系, 然后通过构建单词-意图-语义槽的交互图, 并利用细粒度下的图注意力网络建立两个任务之间的双向联系以此来降低交互过程中错误传播问题. 在MixSINPS和MixATIS数据集上的实验结果表明, WISM相较于现有的最新模型在语义准确率分别提高2.58%和3.53%. 所提模型在提高语义准确率的同时展示了多意图信息与语义槽之间的映射关系.
    优先出版日期:  2024-02-05 , DOI: 10.13328/j.cnki.jos.007064
    [摘要] (191) [HTML] (0) [PDF 4.43 M] (1267)
    摘要:
    时序图数据是一类边上带有时间戳信息的图数据. 在时序图数据中, 季节突发性子图是在多个时间周期内具有突发性特征的稠密子图, 它可以用于社交网络中的活动发现和群体关系分析. 然而以前大多数的研究主要集中在识别没有时间信息的网络中的稠密子图. 为此, 提出一种极大($ \omega, \theta $)-稠密子图模型对时序图中的季节突发性子图进行建模. 所提模型表示时序图中在至少$ \omega $个长度不小于$ \theta $的时间段内快速累积密度的子图. 为了挖掘出时序图中所有的极大($ \omega ,\theta $)-稠密子图, 将该类挖掘问题转化为一个混合的整数规划问题, 包括挖掘最稠密子图和寻找突发值最大化时间段集合两个子问题, 并给出有效的解决方案. 进一步基于key-核模型和动态规划思想设计两种优化策略来提升算法的性能. 实验表明所提模型能够真实地反映现实世界中具有季节突发性的行为模式. 同时在5个真实时序网络中验证了所提算法的有效性、效率和可扩展性.
    优先出版日期:  2024-01-31 , DOI: 10.13328/j.cnki.jos.007066
    [摘要] (276) [HTML] (0) [PDF 7.60 M] (1400)
    摘要:
    Raft是最为流行的分布式共识协议之一. 自2014年被提出以来, Raft协议及其变体在各种分布式系统中被广泛应用. 为了证明Raft协议的正确性, 开发者使用TLA+形式化规约对协议设计进行了建模和验证. 但由于抽象的形式化规约与实际的系统实现源码间存在鸿沟, 基于Raft实现的分布式系统中仍然会违背协议设计并引入复杂的缺陷. 设计基于TLA+形式化规约的测试方法来检测Raft协议实现中的缺陷. 具体而言, 将形式化规约匹配到相应的系统实现, 并用形式化规约所定义的状态空间来指导系统实现的测试过程. 为评估所提方法的可行性和有效性, 针对两个不同的Raft实现进行系统化测试, 并发现3个未知缺陷.
    优先出版日期:  2024-01-31 , DOI: 10.13328/j.cnki.jos.007063
    [摘要] (204) [HTML] (0) [PDF 4.52 M] (1227)
    摘要:
    随着互联网信息技术的发展, 社交网络、计算机网络及生物信息网络等领域涌现海量大规模图数据. 鉴于传统图数据管理技术在处理大规模图时存在存储及性能方面的局限, 大规模图的分布式处理技术已成为图数据库领域的研究热点, 并得到工业界和学术界的广泛关注. 图的核分解用于计算图中所有顶点的核值, 有助于挖掘重要图结构信息, 在社区搜索、蛋白质结构分析和网络结构可视化等诸多应用中发挥着关键作用. 当前以顶点为中心计算模式的分布式核分解算法中采用一种广播的消息传递机制, 一方面, 存在大量的冗余通信及计算开销; 另一方面, 处理大规模图核分解过程中易产生内存溢出问题. 为此, 分别提出基于全局激活和层次剥离计算框架, 并提出分布式核分解新算法, 通过引入基于顶点核值局部性特点的消息剪枝策略和以计算节点为中心的计算新模式, 保证算法有效性的同时提升其性能. 在国家超级计算长沙中心分布式集群上, 分别针对大规模真实和合成数据集, 算法总耗时性能提升比例为37%–98%, 验证所提模型和算法的有效性和高效性.
    优先出版日期:  2024-01-31 , DOI: 10.13328/j.cnki.jos.007052
    [摘要] (343) [HTML] (0) [PDF 9.10 M] (1483)
    摘要:
    图像分类算法的性能受限于视觉信息的多样性和背景噪声的影响, 现有研究通常采用跨模态约束或异构特征对齐算法学习可判别力强的视觉表征. 然而, 模态异构带来的特征分布差异等问题限制了视觉表征的有效学习. 针对该问题, 提出一种基于跨模态语义信息推理和融合的图像分类框架(CMIF), 引入图像语义描述及统计先验知识作为特权信息, 使用特权信息学习范式在模型训练阶段指导图像特征从视觉空间向语义空间映射, 提出类感知的信息选择算法(CIS)学习图像的跨模态增强表征. 针对表征学习中的异构特征差异性问题, 使用部分异构对齐算法(PHA)实现视觉特征与特权信息中提取的语义特征的跨模态对齐. 为进一步在语义空间中抑制视觉噪声带来的干扰, 提出基于图融合的CIS算法选取重构语义表征中的关键信息, 从而形成对视觉预测信息的有效补充. 在跨模态分类数据集VireoFood-172和NUS-WIDE上的实验表明, CMIF能够学习鲁棒的图像语义特征, 并且能够作为通用框架在基于卷积的ResNet-50和基于Transform架构的ViT图像分类模型上取得稳定的性能提升.
    优先出版日期:  2024-01-24 , DOI: 10.13328/j.cnki.jos.007068
    [摘要] (392) [HTML] (0) [PDF 4.44 M] (1469)
    摘要:
    目前, 大多数已发表的图像隐写分析方法都是针对灰度图像设计的, 因此这些方法无法有效检测广泛应用于社交媒体的彩色图像. 为解决这一问题, 提出一种基于中心差分卷积和注意力增强的彩色图像隐写分析方法. 首先设计一个包含预处理, 特征提取和特征分类这3个阶段的主干流. 在预处理阶段, 对输入的彩色图像进行颜色通道分离, 并串联各通道经过SRM滤波后的残差图. 在特征提取阶段, 构建3个基于中心差分卷积的卷积块来提取更深层的隐写分析特征图. 在分类阶段, 使用全局协方差池化和带有丢弃操作的两个全连接层来对载体和载密图像进行分类. 此外, 为了进一步增强主干流在不同时期的特征表达能力, 在主干流的前期和后期分别引入一个残差空间注意力增强模块和一个通道注意力增强模块. 其中, 残差空间注意力增强模块首先使用Gabor滤波核对输入图像进行通道分离卷积再串联相应的残差, 然后通过空间注意力机制获取残差特征图的有效信息. 而通道注意力增强模块则通过获取通道间的依赖关系来增强模型最后的特征分类能力. 进行大量的对比实验, 结果表明所提出方法可以显著提高对彩色图像隐写的检测性能, 并取得当前最好的结果. 此外, 还进行相应的消融实验来验证所提出的网络架构的合理性.
    优先出版日期:  2024-01-17 , DOI: 10.13328/j.cnki.jos.007058
    [摘要] (233) [HTML] (0) [PDF 7.32 M] (1255)
    摘要:
    由于深度学习领域的不断进步, 人们对用协同查询处理(CQP)技术扩展关系数据库以处理涉及结构化和非结构化数据的高级分析查询越来越感兴趣. 最先进的CQP方法使用用户定义函数(UDFs)来实现深度神经网络(NN)模型来处理非结构化数据, 并使用关系操作来处理结构化数据. 基于UDF的方法简化了查询书写, 允许用户使用单一的SQL提交分析查询, 但要求在即席数据分析中能够根据所需性能指标手动选择合适且高效的模型, 这对用户提出了很高的挑战. 为了解决该问题, 提出基于声明式推理函数(DIF)的协同查询处理技术, 通过优化模型选择、执行方式、设备绑定等多个查询实现路径构建完整的协同查询处理框架. 基于所提研究设计的成本模型和优化规则, 查询处理器能够计算出不同查询计划的代价, 并自动选择最优的物理查询计划. 在4个数据集上的实验结果证实了提出的基于DIF的CQP方法的有效性和效率.
    优先出版日期:  2024-01-10 , DOI: 10.13328/j.cnki.jos.007060
    [摘要] (257) [HTML] (0) [PDF 1.19 M] (1299)
    摘要:
    为解决用户私钥安全问题, 将秘密共享方法与边缘计算模式相结合, 提出一种面向用户的、实用的私钥保护框架, 并基于此框架设计针对国密SM2公钥密码的私钥保护方案, 将用户的SM2私钥通过秘密共享分成两个私钥份额, 分别由用户设备和边缘服务器持有. 当用户使用Web3应用服务需要执行公钥密码算法时, 用户设备和边缘服务器利用各自的私钥份额协同执行两方分布式SM2公钥密码算法, 在无需恢复原始私钥的情况下完成密码运算. 当用户设备或边缘服务器之一遭到攻击后, 用户通过份额更新算法更新私钥份额, 从而使存在泄漏风险的份额失效. 实验测试结果表明, 新方案的计算时长在现实环境中常用设备(手机、笔记本电脑)可接受的范围内.
    优先出版日期:  2024-01-10 , DOI: 10.13328/j.cnki.jos.007048
    [摘要] (559) [HTML] (0) [PDF 7.60 M] (1627)
    摘要:
    数据库管理系统(DBMS)是用于高效存储、管理、分析数据的基础软件, 在现代数据密集型应用中起着举足轻重的作用. 数据库管理系统中存在的漏洞则对数据的安全性和应用的正常运行造成巨大威胁. 模糊测试是当前最为流行的动态漏洞检测技术之一, 它已经被应用于分析DBMS, 并发现许多漏洞. 分析DBMS的测试需求和难点, 提出对DBMS进行模糊测试的一般框架, 同时分析DBMS模糊测试工具面临的挑战和需要支持的维度; 接着从挖掘不同类型漏洞的角度介绍典型的DBMS模糊测试工具; 然后总结包括SQL表达式合成、代码覆盖追踪、测试准则构建在内的DBMS模糊测试的关键技术. 接着就测试的覆盖率, 生成测试用例的语法语义正确性和漏洞的发现能力对当前的几个流行模糊测试工具进行评估. 最后, 讨论当前DBMS模糊测试技术研究和实践中面临的问题, 并对未来的研究方向进行展望.
    优先出版日期:  2024-01-03 , DOI: 10.13328/j.cnki.jos.007057
    [摘要] (250) [HTML] (0) [PDF 5.47 M] (1306)
    摘要:
    目前情感分析的研究普遍基于大数据驱动型模型, 严重依赖高昂的标注成本和算力成本, 因此针对低资源场景下的情感分析研究显得尤为迫切. 然而, 存在的低资源场景下的情感分析研究主要集中在单个任务上, 这导致模型难以获取外部任务知识. 因此构建低资源场景下的连续情感分析任务, 旨在利用持续学习方法, 让模型随时间步学习多个情感分析任务. 这样可以充分利用不同任务的数据, 并学习不同任务的情感信息, 从而缓解单个任务训练数据匮乏问题. 认为低资源场景下的连续情感分析任务面临两大核心问题, 一方面是单个任务的情感信息保留问题, 另一方面是不同任务间的情感信息融合问题. 为了解决上述两大问题, 提出针对低资源场景下连续情感分析任务的持续注意力建模方法. 所提方法首先构建情感掩码Adapter, 用于为不同任务生成硬注意力情感掩码, 这可以保留不同任务的情感信息, 从而缓解灾难性遗忘问题. 其次, 所提方法构建动态情感注意力, 根据当前时间步和任务相似度动态融合不同Adapter抽取的特征, 这可以融合不同任务间的情感信息. 在多个数据集上的实验结果表明: 所提方法的性能显著超过了目前最先进的基准方法. 此外, 实验分析表明, 所提方法较其他基准方法具有最优的情感信息能力和情感信息融合能力, 并且能同时保持较高的运行效率.
    优先出版日期:  2023-10-11 , DOI: 10.13328/j.cnki.jos.006978
    [摘要] (488) [HTML] (0) [PDF 3.90 M] (1957)
    摘要:
    近年来, 已有多种SM2数字签名算法的两方门限计算方案被提出, 这些方案能够有效地增强SM2数字签名算法的私钥安全性. 根据不同的密钥拆分方法, 已有公开方案可以分为两类, 分别基于乘法和加法拆分. 再根据不同的签名随机数构造方法, 衍生出多种两方门限计算方案. 提出SM2数字签名算法的两方门限计算方案框架, 所提框架给出安全的两方门限计算基本过程, 又可以引入不同构造的签名随机数. 利用提出的框架, 结合随机数的不同构造, 完成所提框架的多种实例化, 即得到SM2数字签名算法多种不同的两方门限计算方案. 所提框架的实例化, 包括现有已知的23种两方门限计算方案, 也包括多种新的方案.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2966) [HTML] (0) [PDF 525.21 K] (5827)
    摘要:
    Data race is a major source of concurrency bugs. Dynamic data race detection tools (e.g., FastTrack) monitor the execu-tions of a program to report data races occurring in runtime. However, such tools incur significant overhead that slows down and perturbs executions. To address the issue, the state-of-the-art dynamic data race detection tools (e.g., LiteRace) ap-ply sampling techniques to selectively monitor memory access-es. Although they reduce overhead, they also miss many data races as confirmed by existing studies. Thus, practitioners face a dilemma on whether to use FastTrack, which detects more data races but is much slower, or LiteRace, which is faster but detects less data races. In this paper, we propose a new sam-pling approach to address the major limitations of current sampling techniques, which ignore the facts that a data race involves two threads and a program under testing is repeatedly executed. We develop a tool called AtexRace to sample memory accesses across both threads and executions. By selectively monitoring the pairs of memory accesses that have not been frequently observed in current and previous executions, AtexRace detects as many data races as FastTrack at a cost as low as LiteRace. We have compared AtexRace against FastTrack and LiteRace on both Parsec benchmark suite and a large-scale real-world MySQL Server with 223 test cases. The experiments confirm that AtexRace can be a replacement of FastTrack and LiteRace.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2896) [HTML] (0) [PDF 352.38 K] (6898)
    摘要:
    It is difficult to fix atomicity violations correctly. Existing gate lock algorithm (GLA) simply inserts gate locks to serialize exe-cutions, which may introduce performance bugs and deadlocks. Synthesized context-aware gate locks (by Grail) require complex source code synthesis. We propose ?Fixer to adaptively fix ato-micity violations. It firstly analyses the lock acquisitions of an atomicity violation. Then it either adjusts the existing lock scope or inserts a gate lock. The former addresses cases where some locks are used but fail to provide atomic accesses. For the latter, it infers the visibility (being global or a field of a class/struct) of the gate lock such that the lock only protects related accesses. For both cases, ?Fixer further eliminates new lock orders to avoid introducing deadlocks. Of course, ?Fixer can produce both kinds of fixes on atomicity violations with locks. The experi-mental results on 15 previously used atomicity violations show that: ?Fixer correctly fixed all 15 atomicity violations without introducing deadlocks. However, GLA and Grail both intro-duced 5 deadlocks. HFix (that only targets on fixing certain types of atomicity violations) only fixed 2 atomicity violations and introduced 4 deadlocks. ?Fixer also provides an alternative way to insert gate locks (by inserting gate locks with proper visibility) considering fix acceptance.
    优先出版日期:  2017-09-11 , DOI:
    [摘要] (3476) [HTML] (0) [PDF 276.42 K] (4148)
    摘要:
    对Github上Python科学计算软件生态系统中的跨项目关联缺陷进行了实证分析,聚焦于开发者对缺陷根源的追踪和上下游项目开发者修复缺陷的协作。通过定性和定量的分析,揭示了影响这类缺陷定位与修复的因素,以及开发者应对它们的常见行为。
    优先出版日期:  2017-06-21 , DOI:
    [摘要] (3483) [HTML] (0) [PDF 169.43 K] (4025)
    摘要:
    Numerical instability is a well-known problem that may cause serious runtime failures. This paper discusses the reason of instability in software development process, and presents a toolchain that not only detects the potential instability in software, but also diagnoses the reason for such instability. We classify the reason of instability into two categories. When it is introduced by software requirements, we call the instability caused by problem. In this case, it cannot be avoided by improving software development, but requires inspecting the requirements, especially the underlying mathematical properties. Otherwise, we call the instability caused by practice. We design our toolchain as 4 loosely-coupled tools, which combine stochastic arithmetic with infinite-precision testing. Each tool in our toolchain can be configured with different strategies according to the properties of the analyzed software. We evaluate our toolchain on subjects from literature. The results show that it effectively detects and separates the instabilities caused by problems from others. We also conduct an evaluation on the latest version of GNU Scientific Library, and the toolchain finds a few real bugs in the well-maintained and widely deployed numerical library. With the help of our toolchain, we report the details and fixing advices to the GSL buglist.
    优先出版日期:  2017-06-13 , DOI:
    [摘要] (4710) [HTML] (0) [PDF 174.91 K] (4488)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-25 , DOI:
    [摘要] (3561) [HTML] (0) [PDF 254.98 K] (3956)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-18 , DOI:
    [摘要] (4051) [HTML] (0) [PDF 472.29 K] (4126)
    摘要:
    Software should behave correctly even in adverse conditions. Particularly, we study the problem of automated validation of crash consistency, i.e., file system data safety when systems crash. Existing work requires non-trivial manual efforts of specifying checking scripts and workloads, which is an obstacle for software developers. Therefore, we propose C3, a novel approach that makes crash consistency validation as easy as pressing a single button. With a program and an input, C3 automatically reports inconsistent crash sites. C3 not only exempts developers from the need of writing crash site checking scripts (by an algorithm that computes editing distance between file system snapshots) but also reduces the reliance on dedicated workloads (by test amplification). We implemented C3 as an open-source tool. With C3, we found 14 bugs in open-source software that have severe consequences at crash and 11 of them were previously unknown to the developers, including in highly mature software (e.g., GNU zip and GNU coreutils sort) and popular ones being actively developed (e.g., Adobe Brackets and TeXstudio).
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3776) [HTML] (0) [PDF 293.93 K] (3697)
    摘要:
    本文提出了一种可部署的数据竞争动态采样检测技术,首先提出了基于线程本地时序的数据竞争定义,之后基于硬件断点进行采样检测。在采样率为1%时,时间开销约为5%,且有效性得以保证。
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (4113) [HTML] (0) [PDF 244.61 K] (4283)
    摘要:
    在软件开发过程中,软件更新时常发生,怎样保证软件更新后的软件质量呢?这就是回归测试的任务。传统上,回归测试通过检测软件异常行为来保证软件质量。然而,在实践中所有的软件行为不可能全部被检测到,尤其针对于大型的复杂软件系统。为帮助开发人员更好的进行回归测试,传统工作集中在增加测试用例上,即通过人工或自动生成测试输入的方法,观测测试输出以捕获程序行为。这种方法虽一定程度上有效,但也存在很大缺陷:人工编写测试用例费时费力,不能覆盖的代码较多,而且容易受人主观判断的误导(例如忽略某些特别容易存在缺陷的类、方法等);自动生成测试用例技术存在很多问题,例如代价大和无法很好的处理数组、字符串等。基于目前软件测试技术存在的缺陷,很多软件不得不在面临诸多安全威胁的状态下发布,有时甚至造成重大财产损失甚至人员伤亡。因此,我们迫切需要新技术来辅助现有技术以更好的进行回归测试、保障软件质量。
    优先出版日期:  2016-12-12 , DOI:
    [摘要] (3655) [HTML] (0) [PDF 358.69 K] (4080)
    摘要:
    在程序分析中,循环(Loop)的处理与分析是一个非常重要而且很有挑战的任务。例如,在符号执行(Symbolic Execution)中,循环的不断展开会导致程序路径数量指数级地增长。因此,符号执行通常会陷入不停的循环展开,而不能覆盖到新的程序分支上,最终影响了测试用例生成或者缺陷检测的效率。
    优先出版日期:  2016-09-30 , DOI:
    摘要:
    在软件测试中,测试预言是一种判断程序在给定测试输入下的执行结果是否符合预期的机制。测试预言通常由在测试中需要被观测的变量以及这些变量的预期值组成。对于相同的测试输入,不同的测试预言可能有不同的缺陷检测能力。因此,高质量的测试预言对于检测软件中的缺陷是非常必要的。在已有的研究中,虽然研究人员提出了各种各样的自动化测试输入生成技术,但是测试预言问题仍然被公认为是软件测试中最难解决的问题之一。
    优先出版日期:  2016-09-09 , DOI:
    [摘要] (4112) [HTML] (0) [PDF 313.52 K] (191)
    摘要:
    本文基于众测平台,提出了一种基于局部的主动学习方法,能够将众测报告中的缺陷进行自动分类,该方法解决了众测报告分类中的局部偏见问题、及缺少历史训练数据的问题,并基于实际的众测数据进行了验证。
    优先出版日期:  2016-09-07 , DOI:
    [摘要] (4654) [HTML] (0) [PDF 231.98 K] (114)
    摘要:
    并发缺陷是由于某些事件按照一定的顺序发生而导致的,本文提出了一种基于缺陷半径的并发缺陷的概率检测方法RPro,并用于死锁的检测,且有概率保证。实验表明该方法可以显著提高死锁的检测概率。
    优先出版日期:  2016-08-29 , DOI:
    摘要:
    当公司投入资源到开源社区,其诉求可能跟开放共享的开源开发方法存在冲突,继而影响自由贡献者.因此我们研究:公司参与会对开源社区带来怎样的影响?面向三个技术同构的混合项目,我们总结了三个商业参与模型,并量化了不同模型对贡献者稳定性和持续性的影响.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (37527) [HTML] (0) [PDF 832.28 K] (82502)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2010,21(3):427-437, DOI:
    [摘要] (33198) [HTML] (0) [PDF 308.76 K] (40265)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (30243) [HTML] (0) [PDF 781.42 K] (57754)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (29852) [HTML] (4057) [PDF 880.96 K] (33048)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2008,19(1):48-61, DOI:
    [摘要] (28641) [HTML] (0) [PDF 671.39 K] (63267)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2009,20(5):1337-1348, DOI:
    [摘要] (28396) [HTML] (0) [PDF 1.06 M] (46394)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289, DOI:
    [摘要] (27377) [HTML] (0) [PDF 675.56 K] (45762)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2005,16(1):1-7, DOI:
    [摘要] (22534) [HTML] (0) [PDF 614.61 K] (22502)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2010,21(8):1834-1848, DOI:
    [摘要] (21141) [HTML] (0) [PDF 682.96 K] (59228)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2004,15(3):428-442, DOI:
    [摘要] (20787) [HTML] (0) [PDF 1009.57 K] (18499)
    摘要:
    随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务成为电子商务的有效解决方案.Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制.Web服务的新型构架,Web服务的高效执行方式,Web服务与其他成熟技术的有机结合以及Web服务的集成是解决现实应用问题的重要技术.从Web服务研究的不同侧面对其进行了综述,阐述了Web服务的基本概念,分析了当前Web服务的主要研究问题及其核心支撑技术,概括了Web服务中的数据集成技术、Web服务的组合、语义Web服务、Web服务发现,Web服务安全,P2P(Peer-to-Peer)新型计算环境下的Web服务解决方案和网格服务等方面的研究内容,并对这些技术进行了总结,结合已有的研究成果,展望了Web服务未来的研究方向及其面临的挑战.
    2005,16(5):857-868, DOI:
    [摘要] (19942) [HTML] (0) [PDF 489.65 K] (32216)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2009,20(1):54-66, DOI:
    [摘要] (19846) [HTML] (0) [PDF 1.41 M] (52416)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (19051) [HTML] (0) [PDF 2.09 M] (34151)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (18816) [HTML] (0) [PDF 408.86 K] (33097)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2009,20(3):524-545, DOI:
    [摘要] (17524) [HTML] (0) [PDF 1.09 M] (24356)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2009,20(1):124-137, DOI:
    [摘要] (17136) [HTML] (0) [PDF 1.06 M] (23854)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2004,15(8):1208-1219, DOI:
    [摘要] (16614) [HTML] (0) [PDF 948.49 K] (16217)
    摘要:
    随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,网络蠕虫成为恶意代码研究中的首要课题.首先综合论述网络蠕虫的研究概况,然后剖析网络蠕虫的基本定义、功能结构和工作原理,讨论网络蠕虫的扫描策略和传播模型,归纳总结目前防范网络蠕虫的最新技术.最后给出网络蠕虫研究的若干热点问题与展望.
    2009,20(2):350-362, DOI:
    [摘要] (16575) [HTML] (0) [PDF 1.39 M] (42363)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2009,20(11):2965-2976, DOI:
    [摘要] (16554) [HTML] (0) [PDF 442.42 K] (17133)
    摘要:
    研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.
    2009,20(5):1226-1240, DOI:
    [摘要] (16496) [HTML] (0) [PDF 926.82 K] (17742)
    摘要:
    对几种智能规划方法中利用的逻辑演绎与推理技术予以分析,分别介绍利用命题逻辑的基于可满足性的规划方法与规划系统,利用模态逻辑与析取推理的Conformant规划方法与规划系统,利用非单调逻辑的规划方法和利用模糊描述逻辑的Flexible规划方法,并结合国际规划竞赛和相关论文等的实验结论说明上述方法的有效性和可行性.最后,提出目前基于自动推理技术的智能规划方法所面临的挑战、可能的处理方法以及与之相关的研究热点与趋势.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (16434) [HTML] (4659) [PDF 1.04 M] (30586)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2003,14(10):1717-1727, DOI:
    [摘要] (16337) [HTML] (0) [PDF 839.25 K] (16817)
    摘要:
    传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到这些信息的用户.传感器网络是计算机科学技术的一个新的研究领域,具有十分广阔的应用前景,引起了学术界和工业界的高度重视.介绍了传感器网络及其数据管理的概念和特点,探讨了传感器网络及其数据管理的研究问题,并综述了传感器网络及其数据管理的研究现状.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (15654) [HTML] (3370) [PDF 1.32 M] (22196)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (14728) [HTML] (0) [PDF 1017.73 K] (34011)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2009,20(10):2729-2743, DOI:
    [摘要] (14530) [HTML] (0) [PDF 1.12 M] (12316)
    摘要:
    基于多跳的无线传感器网络,越靠近sink的传感器节点因需要转发更多的数据,其能量消耗就越快,从而在sink周围形成了一种称为“能量洞”的现象.“能量洞”问题会导致整个网络由于内部节点能量过早耗尽而结束寿命,同时,网络中离sink较远的节点仍有大量能量剩余.研究“能量洞”现象,基于改进的分级环模型,总结出调节各环内节点的数据传输距离是实现网络节能的有效方法.证明搜索各区域最优的传输距离是一个多目标优化问题,即是NP难问题.从而提出一种基于蚁群优化的分布式算法,各区域根据其节点分布情况自适应地探索近似最优的传输距离,延长网络寿命.模拟实验结果表明,该算法在较短的时间内能够收敛到合理的解,并且得到的网络寿命接近于理想情况下的最优时间,与现有的类似算法相比,该算法提供了更长的网络寿命,并能适用于非均匀节点分布情况.
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (14461) [HTML] (0) [PDF 946.37 K] (19133)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2000,11(11):1460-1466, DOI:
    [摘要] (14436) [HTML] (0) [PDF 520.69 K] (12582)
    摘要:
    入侵检测是近年来网络安全研究的热 点.首先说明入侵检测的必要性,并给出入侵检测的概念和模型,概述了多种入侵检测方法及 体系结构.最后,讨论了该领域当前存在的问题及今后的研究方向.
    2002,13(7):1228-1237, DOI:
    [摘要] (14174) [HTML] (0) [PDF 500.04 K] (16467)
    摘要:
    近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的软件体系结构概念之后,给出了软件体系结构的定义.通过总结软件体系结构领域的若干研究活动,提出了软件体系结构研究的两大思路,并从7个方面介绍了软件体系结构研究进展.探讨了软件体系结构研究中的不足之处,并分析其原因.作为总结,给出了软件体系结构领域最有前途的发展趋势.
    2013,24(8):1786-1803, DOI:10.3724/SP.J.1001.2013.04416
    [摘要] (14129) [HTML] (0) [PDF 1.04 M] (19438)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2015,26(1):26-39, DOI:10.13328/j.cnki.jos.004631
    [摘要] (14097) [HTML] (3154) [PDF 763.52 K] (18676)
    摘要:
    近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (13864) [HTML] (0) [PDF 845.91 K] (29827)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2006,17(7):1588-1600, DOI:
    [摘要] (13836) [HTML] (0) [PDF 808.73 K] (16233)
    摘要:
    在无线传感器网络体系结构中,网络层的路由技术至关重要.分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,成为当前重点研究的路由技术.分析了无线传感器网络分簇路由机制,着重从簇头的产生、簇的形成和簇的路由角度系统地描述了当前典型的分簇路由算法,并比较和分析了这些算法的特点和适用情况.最后结合该领域当前研究现状,指出分簇路由算法未来的研究重点.
    2004,15(4):571-583, DOI:
    [摘要] (13825) [HTML] (0) [PDF 1005.17 K] (11196)
    摘要:
    在诸如文件共享等无中心的Peer-to-Peer环境中,资源共享是用户自愿的行为.在这类系统中,由于用户不为自身的行为担负(法律)责任,因而节点间的信任关系往往很难通过传统的信任机制建立.一种更合理的考虑是参考人际网络中基于推荐的信任关系建立方法.现有的模型不能很好地解决模型的迭代收敛性问题,同时缺乏对诸如冒名、诋毁等安全性问题的考虑.针对上述问题,在节点推荐的基础上提出了一种基于Peer-to-Peer环境的信任模型,并给出了该模型的数学分析和分布式实现方法.分析及仿真表明,该信任模型较已有模型在迭代的收敛性、模型的安全性等问题上有较大改进.
    2009,20(1):11-29, DOI:
    [摘要] (13742) [HTML] (0) [PDF 787.30 K] (16113)
    摘要:
    约束优化问题是科学和工程应用领域经常会遇到的一类数学规划问题.近年来,约束优化问题求解已成为进化计算研究的一个重要方向.从约束优化进化算法=约束处理技术+进化算法的研究框架出发,从约束处理技术和进化算法两个基本方面对约束优化进化算法的研究及进展进行了综述.此外,对约束优化进化算法中的一些重要问题进行了探讨.最后进行了各种算法的比较性总结,深入分析了目前约束优化进化算法中亟待解决的问题,并指出了值得进一步研究的方向.
    2008,19(zk):112-120, DOI:
    [摘要] (13606) [HTML] (0) [PDF 594.29 K] (16155)
    摘要:
    无线移动Ad Hoc网络是一种不依赖任何固定基础设施的移动无线多跳网络.由于其动态性和资源的限制,在Ad Hoc网络中提供多路径路由是一个重要的研究课题.描述了一种Ad Hoc网络中基于信息熵选择的稳定多路径路由算法(stability multipath on-demand routing,简称SMDR),提出了路径熵的度量参数,并利用路径熵来选择稳定的、长寿命的多路径,减少了重构路由的次数,从而在网络拓扑频繁变化的Ad Hoc网络环境中较好地提供QoS保证和提高数据传输率.仿真结果表明,SMDR协议改进了分组传输率、端到端时延和路由负载率.SMDR协议为解决动态的Ad Hoc网络多路径传输提供了一种新的有效途径.
    2013,24(1):50-66, DOI:10.3724/SP.J.1001.2013.04276
    [摘要] (13533) [HTML] (0) [PDF 0.00 Byte] (18683)
    摘要:
    作为云平台提升应用性能的一种重要手段,分布式缓存技术近年来受到了工业界和学术界的广泛关注.从云计算与分布式缓存技术的结合入手,分析介绍了分布式缓存的特性、典型应用场景、发展阶段、相关标准规范以及推动缓存技术发展的若干关键要素.为系统地了解分布式缓存技术的现状和不足,建立了一个云环境下分布式缓存技术的分析框架——DctAF.该框架从分析云计算的特点和缓存技术的边界出发,涵盖6个分析维度.基于DctAF框架,对当前缓存技术进行总结和分析,并对典型系统进行比较.在此基础上,深入阐述了云环境下分布式缓存系统面临的挑战;围绕上述挑战,分析和比较了已有的研究工作.
    2003,14(9):1621-1628, DOI:
    [摘要] (13339) [HTML] (0) [PDF 680.35 K] (21630)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2002,13(10):1952-1961, DOI:
    [摘要] (13271) [HTML] (0) [PDF 570.96 K] (14741)
    摘要:
    对个性化服务技术中用户描述文件的表达与更新、资源描述文件的表达、个性化推荐技术、个性化服务体系结构以及该领域的主要研究成果进行了综述.通过比较现有原型系统的实现方式,详细讨论了实现个性化服务的关键技术.此外,分析了3个具有代表性的个性化服务系统.最后对个性化服务技术进一步研究工作的方向进行了展望.
    2003,14(9):1635-1644, DOI:
    [摘要] (13227) [HTML] (0) [PDF 622.06 K] (13723)
    摘要:
    计算机取证研究的是如何为调查计算机犯罪提供彻底、有效和安全的技术.其关键是确保证据的真实性、可靠性、完整性和符合法律规定.介绍了计算机取证的过程以及取证软件的原理和实现,并且给出完整的取证实例.从理论和实现两个方面讨论了现有取证技术的局限性和面临的挑战,并展望其未来的发展方向.由于计算机犯罪手段的变化和其他技术的引入,现有的取证工作将向着深入和综合的方向发展.
    2008,19(8):1947-1964, DOI:
    [摘要] (13073) [HTML] (0) [PDF 811.11 K] (11552)
    摘要:
    设计与实现面向领域应用的交互式信息可视化软件十分困难.缺乏统一的开发方法与支撑工具箱,为非专家用户提供对层次、网络、多维等数据类型的统一支持,对各种可视化技术与交互技术的统一支持,以及对信息可视化任务的统一支持.针对此问题,提出了一种模型驱动的交互式信息可视化开发方法Daisy.首先,提出了交互式信息可视化界面模型IIVM(interactive information visualization interface model);然后,提出了基于IIVM的交互式信息可视化开发方法Daisy,讨论了该方法的两个核心技术:IIVM建模与描述文件生成方法、系统自动生成方法.同时,给出了Daisy工具箱,包括Daisy建模工具、Daisy系统自动生成工具以及运行时框架与组件库.最后,给出了该开发方法与工具箱的应用实例.实例表明,该方法能够为交互式信息可视化开发的统一支撑方法问题提供一种有效的解决方案.
    2012,23(1):82-96, DOI:10.3724/SP.J.1001.2012.04101
    [摘要] (13071) [HTML] (0) [PDF 394.07 K] (16274)
    摘要:
    以僵尸网络为载体的各种网络攻击活动是目前互联网所面临的最为严重的安全威胁之一.虽然近年来这方面的研究取得了显著的进展,但是由于僵尸网络不断演化、越来越复杂和隐蔽以及网络和系统体系结构的限制给检测和防御带来的困难,如何有效应对僵尸网络的威胁仍是一项持续而具有挑战性的课题.首先从僵尸网络的传播、攻击以及命令与控制这3 个方面介绍了近年来僵尸网络工作机制的发展,然后从监测、工作机制分析、特征分析、检测和主动遏制这5 个环节对僵尸网络防御方面的研究进行总结和分析,并对目前的防御方法的局限、僵尸网络的发展趋势和进一步的研究方向进行了讨论.
    2008,19(8):1902-1919, DOI:
    [摘要] (13024) [HTML] (0) [PDF 521.73 K] (14818)
    摘要:
    可视化语言技术比一维文本语言在描述软件组成方面具有优越性.由于图表和图形概念在系统建模中的广泛使用,可视化语言可以应用于需求分析、设计、测试和维护等软件开发的各个阶段.除了具有直观易见的特点之外,图文法在计算机上的精确建模和验证能力,为设计可视化语言提供了一个坚实的理论基础.讨论了可视化语言的形式理论基础,回顾了相关的可视化图形编程环境.特别提出了一种空间图文法,并且用该图文法定义了统一建模语言的行为语义.基于空间图文法,开发了一种基于模式驱动的框架,以帮助软件架构与设计.
    2008,19(7):1565-1580, DOI:
    [摘要] (12941) [HTML] (0) [PDF 815.02 K] (17988)
    摘要:
    软件缺陷预测技术从20世纪70年代发展至今,一直是软件工程领域最活跃的内容之一,在分析软件质量、平衡软件成本方面起着重要的作用.研究和讨论了软件缺陷预测技术的起源、发展和当前所面临的挑战,对主流的缺陷预测技术进行了分类讨论和比较,并对典型的软件缺陷的分布模型给出了案例研究.
    2010,21(2):231-247, DOI:
    [摘要] (12792) [HTML] (0) [PDF 1.21 M] (17640)
    摘要:
    通过分析服务组合的故障需求,给出服务组合故障处理的框架.该框架采用Petri网来解决服务组合的错误发现及其处理问题.重点讨论了可用服务失败、组件失败及网络故障的情况,并相应地给出了服务组合故障模型.在此基础上对故障处理模型进行分析,给出服务组合故障处理正确性准则,并证明了其正确性.最后,采用CTL (computational tree logic)描述相关性质并提出验证服务组合故障分析的实施算法.仿真结果表明,该方法在处理服务组合故障时具有一定的优越性.
    2006,17(9):1848-1859, DOI:
    [摘要] (12786) [HTML] (0) [PDF 770.40 K] (22469)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2017,28(1):1-16, DOI:10.13328/j.cnki.jos.005139
    [摘要] (12679) [HTML] (4220) [PDF 1.75 M] (11214)
    摘要:
    背包问题(knapsack problem,简称KP)是一类著名的组合优化问题,也是一类NP难问题,它包括0-1背包问题、有界背包问题、多维背包问题、多背包问题、多选择背包问题、二次背包问题、动态背包问题和折扣背包问题等多种形式,在众多领域有着广泛的应用.演化算法(EAs)是一类有效的快速近似求解KP的算法.对近10余年来利用EAs求解KP的研究情况进行了较为详细的总结,一方面讨论了利用EAs求解各种KP问题时个体的编码方法与处理不可行解的有效方法,另一方面,为今后进一步利用最新提出的EAs求解KP问题提供了一条可借鉴的思路.
    2010,21(7):1620-1634, DOI:
    [摘要] (12582) [HTML] (0) [PDF 765.23 K] (21222)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2010,21(5):916-929, DOI:
    [摘要] (12507) [HTML] (0) [PDF 944.50 K] (19333)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2009,20(6):1393-1405, DOI:
    [摘要] (12354) [HTML] (0) [PDF 831.86 K] (20532)
    摘要:
    组合测试能够在保证错误检出率的前提下采用较少的测试用例测试系统.但是,组合测试用例集的构造问题的复杂度是NP完全的.组合测试方法的有效性和复杂性吸引了组合数学领域和软件工程领域的学者们对其进行深入的研究.总结了近年来在组合测试方面的研究进展,主要内容包括:组合测试准则的研究、组合测试生成问题与其他NP完全问题的联系、组合测试用例的数学构造方法、采用计算机搜索的组合测试生成方法以及基于组合测试的错误定位技术.
    2008,19(10):2706-2719, DOI:
    [摘要] (12228) [HTML] (0) [PDF 778.29 K] (13134)
    摘要:
    Web搜索引擎已经成为人们从海量Web信息中快速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求.随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的Web搜索技术并迅速成为研究热点.研究的目的是对现有的基于P2P的Web搜索技术进行总结,以期为进一步研究指明方向.首先分析了基于P2P的Web搜索面临的诸多挑战;然后重点总结分析了基于P2P的Web搜索的各项关键技术的研究现状,包括系统拓扑结构、数据存放策略、查询路由机制、索引切分策略、数据集选择、相关性排序、网页收集方法等;最后对已有的3个较有特色的基于P2P的Web搜索原型系统进行了介绍.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (37527) [HTML] (0) [PDF 832.28 K] (82502)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2008,19(1):48-61, DOI:
    [摘要] (28641) [HTML] (0) [PDF 671.39 K] (63267)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2010,21(8):1834-1848, DOI:
    [摘要] (21141) [HTML] (0) [PDF 682.96 K] (59228)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (30243) [HTML] (0) [PDF 781.42 K] (57754)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2009,20(1):54-66, DOI:
    [摘要] (19846) [HTML] (0) [PDF 1.41 M] (52416)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2009,20(5):1337-1348, DOI:
    [摘要] (28396) [HTML] (0) [PDF 1.06 M] (46394)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289, DOI:
    [摘要] (27377) [HTML] (0) [PDF 675.56 K] (45762)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2014,25(9):1889-1908, DOI:10.13328/j.cnki.jos.004674
    [摘要] (12016) [HTML] (4079) [PDF 550.98 K] (42522)
    摘要:
    首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.
    2009,20(2):350-362, DOI:
    [摘要] (16575) [HTML] (0) [PDF 1.39 M] (42363)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2004,15(10):1493-1504, DOI:
    [摘要] (9226) [HTML] (0) [PDF 937.72 K] (40817)
    摘要:
    多年来计算机图形处理器(GP以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战.
    2010,21(3):427-437, DOI:
    [摘要] (33198) [HTML] (0) [PDF 308.76 K] (40265)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2022,33(7):2464-2481, DOI:10.13328/j.cnki.jos.006585
    [摘要] (1300) [HTML] (2287) [PDF 2.00 M] (38113)
    摘要:
    基于线性抽象的符号传播方法在神经网络验证中具有重要地位.针对这类方法,提出了多路径回溯的概念.现有方法可看作仅使用单条回溯路径计算每个神经网络节点的上下界,是这一概念的特例.使用多条回溯路径,可以有效地改善这类方法的精度.在数据集ACAS Xu,MNIST和CIFAR10上,将多路径回溯方法与使用单条回溯路径的DeepPoly进行定量比较,结果表明,多路径回溯方法能够获得明显的精度提升,而仅引入较小的额外时间代价.此外,在数据集MNIST上,将多路径回溯方法与使用全局优化的Optimized LiRPA比较,结果表明,该方法仍然具有精度优势.
    2013,24(11):2476-2497, DOI:10.3724/SP.J.1001.2013.04486
    [摘要] (10658) [HTML] (0) [PDF 1.14 M] (37349)
    摘要:
    概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
    2021,32(2):349-369, DOI:10.13328/j.cnki.jos.006138
    [摘要] (8541) [HTML] (8613) [PDF 2.36 M] (37349)
    摘要:
    小样本学习旨在通过少量样本学习到解决问题的模型.近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习的相关工作,具体来说介绍了基于模型微调、基于数据增强和基于迁移学习这3大类小样本学习模型与算法的研究进展;将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强这3类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络这3类;总结了目前常用的小样本数据集和代表性的小样本学习模型在这些数据集上的实验结果;随后对小样本学习的现状和挑战进行了概述;最后展望了小样本学习的未来发展方向.
    2018,29(5):1471-1514, DOI:10.13328/j.cnki.jos.005519
    [摘要] (6324) [HTML] (5386) [PDF 4.38 M] (34594)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (19051) [HTML] (0) [PDF 2.09 M] (34151)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (14728) [HTML] (0) [PDF 1017.73 K] (34011)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (18816) [HTML] (0) [PDF 408.86 K] (33097)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (29852) [HTML] (4057) [PDF 880.96 K] (33048)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2005,16(5):857-868, DOI:
    [摘要] (19942) [HTML] (0) [PDF 489.65 K] (32216)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (16434) [HTML] (4659) [PDF 1.04 M] (30586)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (13864) [HTML] (0) [PDF 845.91 K] (29827)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2013,24(1):77-90, DOI:10.3724/SP.J.1001.2013.04339
    [摘要] (11327) [HTML] (0) [PDF 0.00 Byte] (28449)
    摘要:
    任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向.
    2017,28(4):959-992, DOI:10.13328/j.cnki.jos.005143
    [摘要] (9389) [HTML] (5779) [PDF 3.58 M] (27807)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2011,22(6):1299-1315, DOI:10.3724/SP.J.1001.2011.03993
    [摘要] (11505) [HTML] (0) [PDF 987.90 K] (25771)
    摘要:
    由于属性基加密(attribute-based encryption,简称ABE)机制以属性为公钥,将密文和用户私钥与属性关联,能够灵活地表示访问控制策略,从而极大地降低了数据共享细粒度访问控制带来的网络带宽和发送结点的处理开销.因此,ABE 在细粒度访问控制领域具有广阔的应用前景.在对基本ABE 机制及其两种扩展:密钥-策略ABE(KP-ABE)和密文-策略ABE(CP-ABE)进行深入研究、分析后,针对ABE 中的CP-ABE 机制访问结构的设计、属性密钥撤销、ABE 的密钥滥用、多授权机构等难点问题进行了深入探讨和综合分析,对比了现有研究工作的功能及开销.最后讨论了ABE 未来需进一步研究的问题和主要研究方向.
    2014,25(1):37-50, DOI:10.13328/j.cnki.jos.004497
    [摘要] (10052) [HTML] (4372) [PDF 929.87 K] (25628)
    摘要:
    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.
    2009,20(3):524-545, DOI:
    [摘要] (17524) [HTML] (0) [PDF 1.09 M] (24356)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2018,29(10):2966-2994, DOI:10.13328/j.cnki.jos.005551
    [摘要] (10344) [HTML] (6033) [PDF 610.06 K] (24121)
    摘要:
    近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
    2009,20(1):124-137, DOI:
    [摘要] (17136) [HTML] (0) [PDF 1.06 M] (23854)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2004,15(11):1583-1594, DOI:
    [摘要] (9205) [HTML] (0) [PDF 1.57 M] (23099)
    摘要:
    在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式.研究了随机性和模糊性之间的关联性,统一用熵作为客观事物和主观认知中不确定状态的度量,用超熵来度量不确定状态的变化,并利用熵和超熵进一步研究了混沌、分形和复杂网络中的不确定性,以及由此带来的种种进化和变异,为实现不确定性人工智能找到了一种简单、有效的形式化方法,也为包括形象思维在内的不确定性思维的自动化打下了基础.不确定性人工智能是人工智能进入21世纪的新发展.这个由多学科交叉渗透构成的新学科,必将使得机器能够具备人脑一样的不确定性信息和知识的表示能力、处理能力和思维能力.
    2018,29(10):3068-3090, DOI:10.13328/j.cnki.jos.005607
    [摘要] (8892) [HTML] (8762) [PDF 2.28 M] (22786)
    摘要:
    设计类问题在科学研究和工业领域无处不在.作为一种十分有效的全局优化算法,近年来,贝叶斯优化方法在设计类问题上被广泛应用.通过设计恰当的概率代理模型和采集函数,贝叶斯优化框架只需经过少数次目标函数评估即可获得理想解,非常适用于求解目标函数表达式未知、非凸、多峰和评估代价高昂的复杂优化问题.从方法论和应用领域两方面深入分析、讨论和展望了贝叶斯优化的研究现状、面临的问题和应用领域,期望为相关领域的研究者提供有益的借鉴和参考.
    2020,31(7):2245-2282, DOI:10.13328/j.cnki.jos.006037
    [摘要] (3181) [HTML] (5286) [PDF 967.02 K] (22655)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2019,30(2):440-468, DOI:10.13328/j.cnki.jos.005659
    [摘要] (9047) [HTML] (6474) [PDF 3.27 M] (22651)
    摘要:
    近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对基于深度学习的图像语义分割的经典方法与研究现状进行分类、梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分为基于区域分类的图像语义分割方法和基于像素分类的图像语义分割方法.把基于像素分类的图像语义分割方法进一步细分为全监督学习图像语义分割方法和弱监督学习图像语义分割方法.对每类方法的代表性算法进行了分析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语义分割相关实验进行了分析对比,并介绍了图像语义分割实验中常用公共数据集和性能评价指标.最后,预测并分析总结了该领域未来可能的研究方向及相应的发展趋势.
    2005,16(1):1-7, DOI:
    [摘要] (22534) [HTML] (0) [PDF 614.61 K] (22502)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2006,17(9):1848-1859, DOI:
    [摘要] (12786) [HTML] (0) [PDF 770.40 K] (22469)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (15654) [HTML] (3370) [PDF 1.32 M] (22196)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2013,24(4):825-842, DOI:10.3724/SP.J.1001.2013.04369
    [摘要] (8873) [HTML] (0) [PDF 1.09 M] (22156)
    摘要:
    蜜罐是防御方为了改变网络攻防博弈不对称局面而引入的一种主动防御技术,通过部署没有业务用途的安全资源,诱骗攻击者对其进行非法使用,从而对攻击行为进行捕获和分析,了解攻击工具与方法,推测攻击意图和动机.蜜罐技术赢得了安全社区的持续关注,得到了长足发展与广泛应用,并已成为互联网安全威胁监测与分析的一种主要技术手段.介绍了蜜罐技术的起源与发展演化过程,全面分析了蜜罐技术关键机制的研究现状,回顾了蜜罐部署结构的发展过程,并归纳总结了蜜罐技术在互联网安全威胁监测、分析与防范等方向上的最新应用成果.最后,对蜜罐技术存在的问题、发展趋势与进一步研究方向进行了讨论.
    2012,23(8):2058-2072, DOI:10.3724/SP.J.1001.2012.04237
    [摘要] (10247) [HTML] (0) [PDF 800.05 K] (21971)
    摘要:
    分布式拒绝服务(distributed denial of service,简称DDoS)攻击是当今互联网的重要威胁之一.基于攻击包所处网络层次,将DDoS 攻击分为网络层DDoS 攻击和应用层DDoS 攻击,介绍了两类攻击的各种检测和控制方法,比较了处于不同部署位置控制方法的优劣.最后分析了现有检测和控制方法应对DDoS 攻击的不足,并提出了DDoS 过滤系统的未来发展趋势和相关技术难点.
    2005,16(10):1743-1756, DOI:
    [摘要] (10372) [HTML] (0) [PDF 545.62 K] (21830)
    摘要:
    论述了可证明安全性理论在安全方案与安全协议的设计与分析中的应用,内容主要包括:什么是可证明安全性,可证明安全性理论涉及到的一些基本概念,RO(random oracle)模型方法论的基本思想及其在公钥加密和数字签名等方案中的应用研究进展,标准模型下可证明安全性理论在公钥加密和数字签名等方案中的应用研究进展,以及可证明安全性理论在会话密钥分配协议的设计与分析中的应用研究进展.
    2003,14(9):1621-1628, DOI:
    [摘要] (13339) [HTML] (0) [PDF 680.35 K] (21630)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2013,24(2):295-316, DOI:10.3724/SP.J.1001.2013.04336
    [摘要] (9963) [HTML] (0) [PDF 0.00 Byte] (21414)
    摘要:
    在新的应用模式下,传统层次结构数据中心网络在规模、带宽、扩展性和成本方面存在诸多不足.为了适应新型应用的需求,数据中心网络需要在低成本的前提下,满足高扩展性、低配置开销、健壮性和节能的要求.首先,概述了传统数据中心网络体系结构及其不足,并指出了新的需求;其次,将现有方案划分为两类,即以网络为中心和以服务器为中心的方案;然后,对两类方案中的代表性结构进行了详细的综述和对比分析;最后指出了数据中心网络未来的发展方向.
    2010,21(7):1620-1634, DOI:
    [摘要] (12582) [HTML] (0) [PDF 765.23 K] (21222)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2023,34(2):625-654, DOI:10.13328/j.cnki.jos.006696
    [摘要] (3476) [HTML] (4503) [PDF 3.04 M] (21166)
    摘要:
    源代码缺陷检测是判别程序代码中是否存在非预期行为的过程,广泛应用于软件测试、软件维护等软件工程任务,对软件的功能保障与应用安全方面具有至关重要的作用.传统的缺陷检测研究以程序分析为基础,通常需要很强的领域知识与复杂的计算规则,面临状态爆炸问题,导致检测性能有限,在误报漏报率上都有较大提高空间.近年来,开源社区的蓬勃发展积累了以开源代码为核心的海量数据,在此背景下,利用深度学习的特征学习能力能够自动学习语义丰富的代码表示,从而为缺陷检测提供一种新的途径.搜集了该领域最新的高水平论文,从缺陷代码数据集与深度学习缺陷检测模型两方面系统地对当前方法进行了归纳与阐述.最后对该领域研究所面临的主要挑战进行总结,并展望了未来可能的研究重点.
    2021,32(2):496-518, DOI:10.13328/j.cnki.jos.006140
    [摘要] (5951) [HTML] (8575) [PDF 2.20 M] (21089)
    摘要:
    深度学习在计算机视觉领域取得了重大成功,超越了众多传统的方法.然而近年来,深度学习技术被滥用在假视频的制作上,使得以Deepfakes为代表的伪造视频在网络上泛滥成灾.这种深度伪造技术通过篡改或替换原始视频的人脸信息,并合成虚假的语音来制作色情电影、虚假新闻、政治谣言等.为了消除此类伪造技术带来的负面影响,众多学者对假视频的鉴别进行了深入的研究,并提出一系列的检测方法来帮助机构或社区去识别此类伪造视频.尽管如此,目前的检测技术仍然存在依赖特定分布数据、特定压缩率等诸多的局限性,远远落后于假视频的生成技术.并且不同学者解决问题的角度不同,使用的数据集和评价指标均不统一.迄今为止,学术界对深度伪造与检测技术仍缺乏统一的认识,深度伪造和检测技术研究的体系架构尚不明确.回顾了深度伪造与检测技术的发展,并对现有研究工作进行了系统的总结和科学的归类.最后讨论了深度伪造技术蔓延带来的社会风险,分析了检测技术的诸多局限性,并探讨了检测技术面临的挑战和潜在研究方向,旨在为后续学者进一步推动深度伪造检测技术的发展和部署提供指导.
    2016,27(11):2855-2869, DOI:10.13328/j.cnki.jos.004932
    [摘要] (3212) [HTML] (1989) [PDF 1.85 M] (21032)
    摘要:
    随着中文社交网络的发展(特别是微博的兴起),互联网中文公众事件越来越深刻地影响现实社会的生产和生活.由于缺乏有效的技术手段,信息处理的效率受到了限制.提出了一种公众事件信息熵的计算方法,其基本思想是:首先,对公众事件信息内容进行建模;然后,以香农信息论为理论基础,对公众事件的多维随机变量信息熵进行计算.这为互联网公众事件的定量化分析提供了一个重要的技术指标,为进一步的研究工作打下基础.
    2018,29(7):2092-2115, DOI:10.13328/j.cnki.jos.005589
    [摘要] (10810) [HTML] (6148) [PDF 2.52 M] (20918)
    摘要:
    区块链是一种源于数字加密货币比特币的分布式总账技术,其发展引起了产业界与学术界的广泛关注.区块链具有去中心化、去信任、匿名、数据不可篡改等优势,突破了传统基于中心式技术的局限,具有广阔的发展前景.介绍了区块链技术在信息安全领域的研究现状和进展.首先,从区块链的基础框架、关键技术、技术特点、应用模式、应用领域这5个方面介绍了区块链的基本理论与模型;然后,从区块链在当前信息安全领域研究现状的角度出发,综述了区块链应用于认证技术、访问控制技术、数据保护技术的研究进展,并对比了各类研究的特点;最后,分析了区块链技术的应用挑战,对区块链在信息安全领域的发展进行了总结与展望,希望对未来进一步的研究工作有一定的参考价值.
    2010,21(7):1605-1619, DOI:
    [摘要] (10060) [HTML] (0) [PDF 856.25 K] (20830)
    摘要:
    随着Internet规模的迅速扩大,复杂性和不确定性也随之增加,基于融合的网络态势感知必将成为网络管理的发展方向.在分析现有网络管理不足以及发展需求的基础上,介绍了网络态势感知的起源、概念、目标和特点.首先,提出了一个网络态势感知研究框架,介绍了研究历程,指出了研究重点以及存在的问题,并将现有评估方法分为3类:基于数学模型的方法、基于知识推理的方法、基于模式识别的方法.然后详细讨论了模型、知识表示和评估方法这3方面的研究内容,总结存在的共性问题,着重评价了每种评估方法的基本思路、评估过程和优缺点,并进行了对比分析.随后介绍了网络态势感知在安全、传输、生存性、系统评价等领域的应用研究.最后指出了网络态势感知的发展方向,并从问题体系、技术体系和应用体系3方面作了总结.
    2009,20(6):1393-1405, DOI:
    [摘要] (12354) [HTML] (0) [PDF 831.86 K] (20532)
    摘要:
    组合测试能够在保证错误检出率的前提下采用较少的测试用例测试系统.但是,组合测试用例集的构造问题的复杂度是NP完全的.组合测试方法的有效性和复杂性吸引了组合数学领域和软件工程领域的学者们对其进行深入的研究.总结了近年来在组合测试方面的研究进展,主要内容包括:组合测试准则的研究、组合测试生成问题与其他NP完全问题的联系、组合测试用例的数学构造方法、采用计算机搜索的组合测试生成方法以及基于组合测试的错误定位技术.
    2011,22(3):381-407, DOI:10.3724/SP.J.1001.2011.03934
    [摘要] (10600) [HTML] (0) [PDF 614.69 K] (20230)
    摘要:
    互联网的普及和万维网的兴起,引发了软件技术的变革,催生了新的软件形态——网络化软件,为大众用户提供多样化、个性化的按需服务.随着应用领域的不断扩展和用户群的日益庞大,其规模与复杂度正以超越人类处理能力的速度增长,使得软件工程不得不面临一系列的挑战.为了科学地认识和理解这类规模庞大的人工复杂系统,从网络化-服务化-社会化的三维视角出发,对其基础设施、应用服务和大众交互三方面的复杂网络特性实证研究进行了综述分析,并系统论述了网络化软件中隐含的“小世界”和“无尺度”复杂网络特性对软件工程今后研究的影响和启示.软件工程与其他学科的交叉汇聚,将迸发新的观点和思想,为网络化软件的研究提供新的思维方式和方法论,有望实现软件工程理论、方法和关键技术的创新,从而推动我国软件服务业的快速发展.
    2018,29(2):225-250, DOI:10.13328/j.cnki.jos.005424
    [摘要] (6400) [HTML] (6379) [PDF 2.66 M] (20205)
    摘要:
    路网匹配是基于位置服务中的关键预处理步骤,它将GPS轨迹点匹配到实际路网上.以此为基础对数据进行分析和挖掘,能够辅助解决城市计算中相关问题,例如建立智能交通系统、协助用户规划出行.对国内外学者在该研究领域取得的成果进行了分类总结,发现这些匹配算法可以较好地解决高采样率的路网匹配问题.但是,随着城市交通的快速发展,获取和处理车辆位置信息的成本不断提高,低频采样点越来越多,现有算法匹配精确度大幅度下降.于是,近年来出现了基于隐马尔可夫模型(hidden Markov model,简称HMM)的路网匹配算法.隐马尔可夫模型可以较为平滑地将噪声数据和路径约束进行整合,从有许多可能状态的路径中选择一条最大似然路径.重点总结了基于隐马尔可夫模型的路网匹配算法,主要是从特点与实验结果的角度对其进行对比总结,有些实验结果的正确率在一定条件下最高可达90%,这说明了基于隐马尔可夫模型的路网匹配算法在低采样率下的有效性.最后,对未来的研究可能采取的方法进行了展望.
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号