• 当期目录
  • 优先出版
  • 过刊浏览
  • 点击排行
  • 下载排行
  • 综述文章
  • 专刊文章
  • 分辑系列
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2025,36(3):941-961, DOI: 10.13328/j.cnki.jos.007277, CSTR: 32375.14.jos.007277
    [摘要] (639) [HTML] (51) [PDF 2.97 M] (1466)
    摘要:
    时间序列数据在工业制造、气象、电力、车辆等领域都有着广泛的应用, 促进了时间序列数据库管理系统的发展. 越来越多的数据库系统向云端迁移, 端边云协同的架构也愈发常见, 所需要处理的数据规模愈加庞大. 在端边云协同、海量序列等场景中, 由于同步周期短、数据刷盘频繁等原因, 会产生大量的短时间序列, 给数据库系统带来新的挑战. 有效的数据管理与压缩方法能显著提高存储性能, 使得数据库系统足以胜任存储海量序列的重任. Apache TsFile是一个专为时序场景设计的列式存储文件格式, 在Apache IoTDB等数据库管理系统中发挥重要作用. 阐述了Apache TsFile中应对大量短时间序列场景所使用的分组压缩及合并方法, 特别是面向工业物联网等序列数量庞大的应用场景. 该分组压缩方法充分考虑了短时间序列场景中的数据特征, 通过对设备分组的方法提高元数据利用率, 降低文件索引大小, 减少短时间序列并显著提高压缩效果. 经过真实世界数据集的验证, 分组方法在压缩效果、读取、写入、文件合并等多个方面均有显著提升, 能更好地管理短时间序列场景下的TsFile文件.
    2025,36(3):962-980, DOI: 10.13328/j.cnki.jos.007278, CSTR: 32375.14.jos.007278
    [摘要] (591) [HTML] (50) [PDF 4.33 M] (1481)
    摘要:
    近年来, 随着软硬件的发展, 数据库上云已经成为了新兴发展趋势, 能够降低中小型企业和个人用户的数据库运维成本. 进一步地, 云数据库的发展带来了庞大的运维市场需求, 研究者们提出了诸多数据库自调优技术来支持数据库旋钮自动优化. 为了提高调优效率, 现有技术从仅关注调优问题本身, 到开始关注如何复用历史经验来为当前数据库实例找到最佳参数配置. 然而, 随着云数据库的发展, 用户逐渐提高了对隐私保护的要求, 期望在拥有高效数据存取效率的同时避免隐私泄露. 现有方法并未考虑到保护用户的历史调优经验隐私, 可能会使得用户负载特征被感知, 带来经济损失. 详细分析了云数据库调优任务的特点, 有机结合服务端和用户端, 提出了一种基于联邦学习的云数据库旋钮调优技术. 首先, 为了解决联邦学习中数据异构的问题, 提出了基于元特征匹配的经验筛选方法提前将数据分布差异较大的历史经验剔除, 以提高联邦学习的效率. 为了实现保护用户隐私, 结合云数据库服务特性, 提出了以节点端为训练中心的联邦贝叶斯调优算法, 通过随机傅里叶特征来完成保证调优经验不失真的前提下保护用户隐私. 在多个公开 benchmark 上的结果表明, 方法可以达到与现有调优方法相当的调优结果, 并且由于复用了历史经验, 可以大大提高调优效率.
    2025,36(3):981-994, DOI: 10.13328/j.cnki.jos.007280, CSTR: 32375.14.jos.007280
    [摘要] (551) [HTML] (50) [PDF 6.63 M] (1507)
    摘要:
    云环境下的多租户数据库重要特性之一是可伸缩性, 然而大部分的弹性伸缩技术难以针对复杂变化的负载进行有效的伸缩决策. 若能提前预测负载变化, 则能够准确地调整资源供给. 鉴于此, 提出了基于内存负载预测的多租户数据库弹性伸缩方法, 包括一种组合负载预测模型和一种弹性伸缩策略. 组合负载预测模型融合了卷积神经网络、长短期记忆网络和门控循环单元的优势, 可以比较精确地预测数据库集群内存负载需求; 弹性伸缩策略基于需求预测结果, 调整虚拟机数目, 保证资源供应处于合理范围. 与现有方法对比, 所提出的模型预测误差降低了8.7%–21.8%, 预测拟合度提高了4.6%. 在此基础上, 改进了贝叶斯优化算法, 用于该模型超参数调优, 解决了贝叶斯优化在离散解、连续解的组合域中效果较差的问题, 误差指标值降低了20%以上, 拟合度提高了1.04%. 实验结果表明, 与Kubernetes中应用最广泛的伸缩策略相比, 所提出的弹性伸缩方法避免了弹性伸缩的滞后性与资源浪费, 响应时间降低了8.12%, 延迟降低了9.56%.
    2025,36(3):995-1021, DOI: 10.13328/j.cnki.jos.007281, CSTR: 32375.14.jos.007281
    [摘要] (496) [HTML] (77) [PDF 13.56 M] (1294)
    摘要:
    云原生数据库具有开箱即用、弹性伸缩、按需付费等优势, 是目前学术界和工业界的研究热点. 当前, 云原生数据库仅支持“一写多读”, 即读写事务集中在单一的读写节点, 只读事务分散到多个只读节点. 将读写事务集中在单一的读写节点, 制约了系统的读写事务处理能力, 难以满足读写密集型业务需求. 为此, 提出D3C (deterministic concurrency control cloud-native database)架构, 通过设计基于确定性并发控制的云原生数据库事务处理机制来突破一写多读的限制, 支持多个读写节点并发执行读写事务. D3C将事务分拆为子事务, 并根据预先确定的全局顺序在各节点独立执行这些子事务, 以满足多个读写节点上事务执行的可串行化. 此外, 提出基于多版本机制的异步批量数据持久化等机制以保证事务处理的性能, 并提出基于一致性点的故障恢复机制以实现高可用. 实验结果表明, D3C在满足云原生数据库关键需求的同时, 在写密集场景下能够达到一写多读性能的5.1倍.
    2025,36(3):1022-1039, DOI: 10.13328/j.cnki.jos.007282, CSTR: 32375.14.jos.007282
    [摘要] (369) [HTML] (29) [PDF 5.71 M] (1412)
    摘要:
    数据库是计算机服务中的重要基础组件, 然而其运行中可能出现性能异常, 影响业务服务质量. 如何对数据库产生的性能异常进行诊断成为工业界与学术界的热点问题. 近年来, 一系列自动化的数据库异常诊断方法被相继提出, 它们通过分析数据库运行状态, 对数据库整体的异常类型进行判断. 但随着数据规模的不断扩大, 分布式数据库正成为在业界中愈受欢迎的重要解决方案. 在分布式数据库中, 数据库整体由多个服务器节点共同组成. 现有的异常诊断方法难以有效地定位节点异常, 无法识别在多节点上发生的复合异常, 不能感知节点间复杂的性能影响关系, 欠缺有效的诊断能力. 针对上述问题, 提出了一种面向分布式数据库的复合异常诊断的方法: DistDiagnosis. 该方法采用复合异常图对分布式数据库的异常状态进行建模, 在表示各节点异常的同时有效地捕获节点间的相关性. DistDiagnosis提出了节点相关性感知的根因异常排序方法, 根据节点对数据库整体的影响力有效地定位根因异常. 在国产分布式数据库OceanBase上构建了不同场景的异常测试案例. 实验结果表明, 该方法优于其他先进的对比方法, 异常诊断的AC@1、AC@3、AC@5最高达到0.97、0.98和0.98, 在各诊断场景中相较于次优方法最多提升了5.20%、5.45%和4.46%.
    2025,36(3):1040-1064, DOI: 10.13328/j.cnki.jos.007276, CSTR: 32375.14.jos.007276
    [摘要] (1077) [HTML] (50) [PDF 9.06 M] (2091)
    摘要:
    云原生数据库基于云基础设施提供高可用、可弹性伸缩的数据管理, 近年来得到了快速发展. 区块链作为一种透明、防篡改、可追溯的数据库系统, 其中区块链分片是对区块链系统进行扩容的最直接且最有潜力的方案, 利用云基础设施的弹性伸缩特点可以实现更灵活的扩缩容. 首先总结当前区块链分片解决的3个关键技术问题: 节点划分的安全性、高效链上数据分片以及跨片交易处理, 分别梳理这3个问题的研究现状, 对每个问题下相应的方案进行介绍和对比, 也讨论了将这些方案运用在云原生环境下面临的新挑战. 随后, 围绕这3个维度, 从对区块链系统整体影响的角度, 对所有方案进行全面的分析和对比. 最后, 分析区块链分片技术发展趋势, 指出几个值得进一步探索的研究方向.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2025-03-12 , DOI: 10.13328/j.cnki.jos.007290
    摘要:
    设计模式检测是软件工程领域中非常重要的研究课题. 国内外很多学者致力于设计模式检测问题的研究与解决, 取得了丰硕的研究成果. 对当前软件设计模式检测技术进行综述并展望了其前景. 首先, 简要介绍软件设计模式检测领域的发展历程, 讨论并总结了设计模式的检测对象和特征类型, 给出了设计模式检测评估指标. 然后, 总结了设计模式检测技术现有的分类方法, 引出了分类方法. 根据设计模式检测技术发展的时间线从非机器学习设计模式检测、机器学习设计模式检测、基于预训练语言模型的设计模式检测这3类方法出发探讨了当前软件设计模式检测技术的研究现状和最新进展, 并对当前成果进行了总结和比较. 最后, 分析了该领域存在的主要问题与挑战, 指出了今后值得进一步研究的方向以及可能的解决方案. 涵盖了从早期的非机器学习方法到利用机器学习技术, 再到现代预训练语言模型的应用, 全面系统地展现了该领域的发展历程、最新进展和未来发展前景, 对于该领域今后的研究方向和思路具有指导意义.
    优先出版日期:  2025-03-12 , DOI: 10.13328/j.cnki.jos.007310
    摘要:
    随着深度学习模型安全性和隐私性研究的不断深入, 研究者发现模型窃取攻击能够对神经网络产生极大的威胁. 典型的数据依赖模型窃取攻击可以利用一定比例的真实数据查询目标模型, 在本地训练一个替代模型, 从而达到目标模型窃取的目的. 2020年以来, 一种新颖的无数据依赖模型窃取攻击方法被提出, 仅使用生成模型生成伪造的查询样本便能对深度神经网络开展窃取和攻击. 由于不依赖于真实数据, 无数据依赖模型窃取攻击具有更严重的破坏力. 然而, 目前的无数据依赖模型窃取攻击方法所构造查询样本的多样性和有效性不足, 存在模型窃取过程中查询次数大、攻击成功率较低的问题. 因此提出一种基于视觉特征解耦的无数据依赖模型窃取攻击方法VFDA (vision feature decoupling-based model stealing attack), 该方法通过利用多解码器结构对无数据依赖模型窃取过程中生成的查询样本的视觉特征进行解耦与生成, 从而提高查询样本的多样性和模型窃取的有效性. 具体来说, VFDA利用3个解码器分别生成查询样本的纹理信息、区域编码和平滑信息, 完成查询样本的视觉特征解耦. 其次, 为了使生成的查询样本更加符合真实样本的视觉特征, 通过限制纹理信息的稀疏性以及对生成的平滑信息进行滤波. VFDA利用了神经网络的表征倾向依赖于图像纹理特征的性质, 能够生成类间多样性的查询样本, 从而有效提高了模型窃取的相似性以及攻击成功率. 此外, VFDA对解耦生成的查询样本平滑信息添加了类内多样性损失, 使查询样本更加符合真实样本的分布. 通过与多个模型窃取攻击方法对比, VFDA方法在模型窃取的相似性以及攻击的成功率上具有更好的表现. 特别在分辨率较高的GTSRB和Tiny-ImageNet数据集上, 相比于目前较好的EBFA方法, 在攻击成功率上VFDA方法平均提高了3.86%和4.15%.
    优先出版日期:  2025-03-12 , DOI: 10.13328/j.cnki.jos.007312
    摘要:
    面对Android恶意软件带来的严重的安全风险, 如何有效检测Android恶意软件已成为工业界与学术界共同关注的焦点. 然而随着Android对抗样本技术的出现, 现有的恶意软件检测系统面临着前所未有的挑战. Android恶意软件对抗样本攻击通过对恶意软件的源码或特征进行扰动, 使其在保持原始功能不受影响的条件下绕过恶意软件检测模型. 尽管目前已有大量针对恶意软件的对抗样本攻击研究, 但是现阶段仍缺乏针对Android系统对抗样本攻击的完备性综述, 且并未研究Android系统中对抗样本设计的独特要求, 因此首先介绍Android恶意软件检测的基本概念; 然后从不同角度对现有的Android对抗样本技术进行分类, 梳理Android对抗样本技术的发展脉络; 随后综述近年来的Android对抗样本技术, 介绍不同类别的代表性工作并分析其优缺点; 之后, 分类介绍常用的安卓对抗样本攻击所使用的代码扰动手段并分析其应用场景; 最后讨论Android恶意软件对抗样本技术面临的挑战, 展望该新兴领域的未来研究方向.
    优先出版日期:  2025-03-12 , DOI: 10.13328/j.cnki.jos.007317
    摘要:
    物联网技术的发展产生了海量的浮点时序数据, 这给数据存储和传输带来了巨大挑战. 为此, 浮点时序数据压缩变得至关重要, 其按数据可逆性分为有损压缩和无损压缩. 有损压缩方法通过舍弃部分数据信息以实现较好的压缩率, 适用于对精确性要求较低的应用. 无损压缩方法在减小数据大小的同时保留了所有数据信息, 这对于需要保持数据完整性和准确性的应用至关重要. 此外为满足边缘设备的实时监控需求, 流式压缩算法应运而生. 当前时序压缩综述论文存在梳理不全面、脉络不清晰、分类标准单一、未归纳较新的具有代表性算法等问题. 对历年来的时序数据压缩算法按有损压缩和无损压缩进行划分, 并进一步区分不同的算法框架, 包括基于数据表示、基于预测、基于机器学习、基于变换等, 同时对流式与批式的压缩特征进行归纳. 然后对各种压缩算法的设计思路进行深入分析, 并给出各算法的发展脉络图. 接着结合实验比较各类算法的优势与不足. 最后总结算法常见的应用场景, 并对未来研究进行展望.
    优先出版日期:  2025-03-12 , DOI: 10.13328/j.cnki.jos.007319
    摘要:
    异质图因其能够反映现实世界中实体及其复杂多样的关系, 而在诸多领域中扮演着至关重要的角色. 异质图表征学习技术, 旨在将图中的信息有效地映射到低维空间中, 以便捕获和利用节点间深层的语义关联, 进而支持节点分类、聚类等下游分析任务. 深入调研异质图表征学习的最新研究进展, 涵盖方法论和应用实践. 首先对异质图的基本概念进行形式化定义, 并讨论异质图表征学习的挑战. 此外, 从浅层模型和深度模型两个角度, 系统地回顾当前主流的异质图表征学习方法, 特别是深度模型, 从异质图转换的视角出发进行分类并分析, 进而对多种方法的优势、局限和适用场景进行详尽分析, 旨在为读者提供一个全面的研究视角. 此外, 还介绍异质图表征学习研究中常用的数据集和工具, 并探讨其在现实世界中的典型应用. 最后, 总结主要贡献, 并对异质图表征学习领域的未来研究方向展望. 本综述旨在为研究者提供一个关于异质图表征学习领域的全面认识, 为未来的研究和应用奠定坚实的基础.
    优先出版日期:  2025-03-05 , DOI: 10.13328/j.cnki.jos.007304
    摘要:
    贝叶斯优化是一种优化黑盒函数的技术, 高效的样本利用率使其在众多科学和工程领域中得到了广泛应用, 如深度模型调参、化合物设计、药物开发和材料设计等. 然而, 当输入空间维度较高时, 贝叶斯优化的性能会显著下降. 为了克服这一限制, 许多研究对贝叶斯优化方法进行了高维扩展. 为了深入剖析高维贝叶斯优化的研究方法, 根据不同工作的假设与特征将高维贝叶斯优化方法分为3类: 基于有效低维度假设的方法、基于加性假设的方法以及基于局部搜索的方法, 并对这些方法进行阐述和分析. 首先着重分析这3类方法的研究进展, 然后比较各类方法在贝叶斯优化应用中的优劣势, 最后总结当前阶段高维贝叶斯优化的主要研究趋势, 并对未来发展方向展开讨论.
    优先出版日期:  2025-02-26 , DOI: 10.13328/j.cnki.jos.007306
    摘要:
    孪生支持向量机 (twin support vector machine, TSVM) 能有效地处理交叉或异或等类型的数据. 然而, 当处理集值数据时, TSVM通常利用集值对象的均值、中值等统计信息. 不同于TSVM, 提出能直接处理集值数据的孪生支持函数机(twin support function machine, TSFM). 依据集值对象定义的支持函数, TSFM在巴拿赫空间取得非平行的超平面. 为了抑制集值数据中的离群点, TSFM采用了弹球损失函数并引入了集值对象的权重. 考虑到TSFM是无穷维空间的优化问题, 测度采用狄拉克测度的线性组合的形式, 这构建有限维空间的优化模型. 为了有效地求解优化模型, 利用采样策略将模型转化成二次规划(quadratic programming, QP)问题并推导出二次规划问题的对偶形式, 这为判断哪些采样点是支持向量提供了理论基础. 为了分类集值数据, 定义集值对象到巴拿赫空间的超平面的距离并由此得出判别规则. 也考虑支持函数的核化以便取得数据的非线性特征, 这使得提出的模型可用于不定核函数. 实验结果表明TSFM能获取交叉类型的集值数据的内在结构并且在离群点或集值对象包含少量高维事例的情况下取得了良好的分类性能.
    优先出版日期:  2025-02-26 , DOI: 10.13328/j.cnki.jos.007299
    摘要:
    以ChatGPT为代表的大语言模型(large language model, LLM)因其强大的自然语言理解和生成能力在各领域中得到广泛应用. 然而, 深度学习模型在受到对抗样本攻击时往往展现出脆弱性. 在自然语言处理领域中, 当前对抗样本生成方法的研究通常使用CNN类模型、RNN类模型和基于Transformer结构的预训练模型作为目标模型, 而很少有工作探究LLM受到对抗攻击时的鲁棒性并量化LLM鲁棒性的评估标准. 以中文对抗攻击下的ChatGPT为例, 引入了偏移平均差(offset average difference, OAD)这一新概念, 提出了一种基于OAD的可量化的LLM鲁棒性评价指标OAD-based robustness score (ORS). 在黑盒攻击场景下, 选取9种基于词语重要性的主流中文对抗攻击方法来生成对抗文本, 利用这些对抗文本攻击ChatGPT后可以得到每种方法的攻击成功率. 所提的ORS基于攻击成功率为LLM面向每种攻击方法的鲁棒性打分. 除了输出为硬标签的ChatGPT, 还基于攻击成功率和以高置信度误分类对抗文本占比, 设计了适用于输出为软标签的目标模型的ORS. 与此同时, 将这种打分公式推广到对抗文本的流畅性评估中, 提出了一种基于OAD的对抗文本流畅性打分方法OAD-based fluency score (OFS). 相比于需要人类参与的传统方法, 所提的OFS大大降低了评估成本. 分别在真实世界中的中文新闻分类和情感倾向分类数据集上开展实验. 实验结果在一定程度上初步表明, 面向文本分类任务, 对抗攻击下的ChatGPT鲁棒性分数比中文BERT高近20%. 然而, ChatGPT在受到对抗攻击时仍会产生错误预测, 攻击成功率最高可超过40%.
    优先出版日期:  2025-02-26 , DOI: 10.13328/j.cnki.jos.007303
    摘要:
    短语视觉定位是多模态研究中一个基础且重要的研究任务, 旨在预测细粒度的文本短语与图片区域的对齐关系. 尽管已有的短语视觉定位方法已经取得了不错的进展, 但都忽略了文本中的短语与其对应图片区域的隐式对齐关系(即隐式短语-区域对齐关系), 而预测这种关系可以有效评估模型理解深层多模态语义的能力. 因此, 为了有效建模隐式短语-区域对齐关系, 提出一种隐式增强的因果建模短语视觉定位方法. 该方法使用因果推理中的干预策略来缓解浅层语义所带来的混淆信息. 为评估模型理解深层多模态语义的能力, 标注一个高质量的隐式数据集, 并进行大量实验. 多组对比实验结果表明, 所提方法能够有效建模隐式短语-区域对齐关系. 此外, 在这个隐式数据集上, 所提方法的性能优于一些先进的多模态大语言模型, 这将进一步促进多模态大模型更多的面向隐式场景的研究.
    优先出版日期:  2025-02-26 , DOI: 10.13328/j.cnki.jos.007302
    摘要:
    讨论正则图上的对称双态自旋系统的配分函数计算复杂性. 利用计数指数时间假设(#ETH)和随机指数时间假设(rETH), 将该问题类的经典二分定理, 细化到指数型二分定理, 又称细密度二分定理. 换而言之, 证明满足给定易解条件时, 该问题可在多项式时间内求解; 否则, #ETH成立时, 该问题没有亚指数时间算法. 还针对平面图限制下已有插值方法在构造根号亚指数时间归约时失效的问题, 提出两种解决方案, 并利用这两种方案探讨平面限制下该问题相关的细密度复杂性和二分定理.
    优先出版日期:  2025-02-26 , DOI: 10.13328/j.cnki.jos.007321
    摘要:
    视觉-语言预训练(visual-language pre-training, VLP)旨在通过在大规模图像-文本多模态数据集上进行学习得到强大的多模态表示. 多模态特征融合、对齐是多模态模型训练的关键挑战. 现有的大多数视觉-语言预训练模型对于多模态特征融合、对齐问题主要方式是将提取的视觉特征和文本特征直接输入至Transformer 模型中. 通过Transformer模型中的attention模块进行融合, 由于attention机制计算的是两两之间的相似度, 因而该方法难以实现多元实体间的对齐. 鉴于超图神经网络的超边具有连接多个实体、编码高阶实体相关性的特性, 进而实现多元实体间关系的建立. 提出基于超图神经网络的多元实体对齐的视觉-语言多模态模型预训练方法. 该方法在Transformer 多模态融合编码器中引入超图神经网络学习模块学习多模态间多元实体的对齐关系以增强预训练模型中多模态融合编码器实体对齐能力. 在大规模图像-文本数据集上对所提视觉-语言预训练模型进行预训练并在视觉问答、图文检索、视觉定位以及自然语言视觉推理多个视觉-语言下游任务上进行微调实验, 实验结果表明所提方法相比于baseline方法在多个下游任务中性能均有提升, 其中在NLVR2任务上相比baseline方法准确率提升1.8%.
    优先出版日期:  2025-02-26 , DOI: 10.13328/j.cnki.jos.007322
    摘要:
    网络信息来源众多、鱼龙混杂, 及时、准确地判断其是否为谣言是社交媒体认知域研究的关键问题. 先前的研究大多侧重于谣言的文本内容、用户特征或局限于传播模式中的固有特征, 忽略了用户参与事件讨论而产生的群体情绪及其产生且隐藏于谣言传播的情绪稳态特征的关键线索. 提出一种以群体情绪稳态为导向, 融合时序和空间稳态特征的社交网络谣言检测方法, 该方法基于谣言传播中的文本特征和用户行为, 将群体情绪的时序与空间关系稳态化特征相结合, 能够实现较强的表达能力和检测精度. 具体地, 该方法以用户对某事件或话题态度的情绪关键词作为基础, 利用递归神经网络构建时序关系的情绪稳态特征, 使群体情绪具有表达能力较强的时间一致性特征, 可以反映群体情绪随时间的趋同效应; 利用异构图神经网络建立用户与关键词、文本与关键词之间联系, 使群体情绪具有空间关系的细粒度群体情绪稳态特征; 最后, 将两类局部稳态特征进行融合, 具备全局性且提高了特征表达, 进一步分类可获得谣言检测结果. 所提方法运行于两个国际公开且被广泛使用的推特数据集上, 其准确率较基线中性能最好方法分别提高了3.4%和3.2%, T-F1值较基线中性能最好方法分别提高了3.0%和1.8%, N-F1值较基线中性能最好方法分别提高了2.7%和2.3%, U-F1值较基线中性能最好方法分别提高了2.3%和1.0%.
    优先出版日期:  2025-02-26 , DOI: 10.13328/j.cnki.jos.007289
    摘要:
    跨域推荐(cross-domain recommendation, CDR)通过将密集评分辅助域中的用户-项目评分模式迁移到稀疏评分目标域中的评分数据集, 以缓解冷启动现象, 近年来得到广泛研究. 多数CDR算法所采用的基于单域推荐的聚类方法未有效利用重叠信息, 无法充分适应跨域推荐, 导致聚类结果不准确. 在跨域推荐中, 图卷积网络方法(graph convolution network, GCN)可充分利用节点间的关联, 提高推荐的准确性. 然而, 基于GCN的跨域推荐往往使用静态图学习节点嵌入, 忽视了用户的偏好会随推荐场景发生变化的情况, 导致模型在面对不同的推荐任务时表现不佳, 无法有效缓解数据稀疏性. 基于此, 提出一种利用伪重叠判定机制的多层循环GCN跨域推荐模型. 首先, 在社区聚类算法Louvain的基础上充分运用重叠数据, 设计一个伪重叠判定机制, 据此挖掘用户的信任关系以及相似用户社区, 从而提高聚类算法在跨域推荐中的适应能力及其准确性. 其次, 提出一个包含嵌入学习模块和图学习模块的多层循环GCN, 学习动态的域共享特征、域特有特征以及动态图结构, 并通过两模块的循环增强, 获取最新用户偏好, 从而缓解数据稀疏问题. 最后, 采用多层感知器(multi-layer perceptron, MLP)对用户-项目交互建模, 得到预测评分, 通过与12种相关模型在4组数据域上的对比结果发现, 所提方法是高效的, 在MRRNDCGHR指标上分别平均提高5.47%、3.44%、2.38%.
    优先出版日期:  2025-02-19 , DOI: 10.13328/j.cnki.jos.007296
    摘要:
    在连续且密集奖励的任务中, 离线强化学习取得了显著的效果. 然而由于其训练过程不与环境交互, 泛化能力降低, 在离散且稀疏奖赏的环境下性能难以得到保证. 扩散模型通过加噪结合样本数据邻域的信息, 生成贴近样本数据分布的动作, 强化智能体的学习和泛化能力. 针对以上问题, 提出一种扩散模型期望最大化的离线强化学习方法(offline reinforcement learning with diffusion models and expectation maximization, DMEM). 该方法通过极大似然对数期望最大化更新目标函数, 使策略具有更强的泛化性. 将扩散模型引入策略网络中, 利用扩散的特征, 增强策略学习数据样本的能力. 同时从高维空间的角度看期望回归更新价值函数, 引入一个惩戒项使价值函数评估更准确. 将DMEM应用于一系列离散且稀疏奖励的任务中, 实验表明, 与其他经典的离线强化学习方法相比, DMEM性能上具有较大的优势.
    优先出版日期:  2025-02-19 , DOI: 10.13328/j.cnki.jos.007297
    摘要:
    近年来, SZZ作为一种识别引入缺陷的变更算法, 被广泛应用于即时软件缺陷预测技术中. 先前的研究表明, SZZ算法在对数据进行标注时会存在误标问题, 这将影响数据集的质量, 进而影响预测模型的性能. 因此, 研究人员对SZZ算法进行了改进, 并提出多个SZZ变体. 然而, 目前尚未有文献研究数据标注质量对移动APP即时缺陷预测性能和解释的影响. 为探究SZZ错误标注的变更对移动APP即时软件缺陷预测模型的影响, 对4种SZZ算法进行广泛而深入的实证研究. 首先, 选取GitHub库中17个大型移动APP项目, 借助PyDriller工具抽取软件度量元. 其次, 采用B-SZZ (原始SZZ版本)、AG-SZZ、MA-SZZ和RA-SZZ这4种算法标注数据. 然后, 根据时间序列划分数据, 利用随机森林、朴素贝叶斯和逻辑回归分类器分别建立即时缺陷预测模型. 最后, 使用AUCMCCG-mean传统指标和F-measure@20%、IFA工作量感知指标评估模型性能, 并使用SKESD和SHAP算法对结果进行统计显著性检验与可解释性分析. 通过对比4种SZZ算法的标注性能, 研究发现: (1) 数据的标注质量符合SZZ变体之间的递进关系; (2) B-SZZ、AG-SZZ 和MA-SZZ错误标注的变更会造成AUCMCC 得分不同程度的下降, 但不会造成G-mean得分下降; (3) B-SZZ会造成F-measure@20%得分下降, 而在代码审查时, B-SZZ、AG-SZZ 和MA-SZZ不会导致审查工作量的增加; (4)在模型解释方面, 不同SZZ算法会影响预测过程中贡献程度排名前3的度量元, 并且la度量元对预测结果有重要影响.
    优先出版日期:  2025-02-19 , DOI: 10.13328/j.cnki.jos.007307
    摘要:
    对于点在多边形内的检测处理, 近期提出的一种网格法具有很高的计算效率. 该方法对于每个网格单元内的多边形片段进行条带结构的组织, 使得每个条带中的边均与该条带的左右边界相交. 如此, 该方法加强了局部化计算, 并能方便使用GPU进行并行计算, 使得检测效率优于以往的各种方法. 但该方法基于网格单元创建条带结构, 会产生冗余的条带, 并且创建时的空间需求较大而不便在GPU上创建条带结构. 对此, 提出基于网格行创建条带结构, 由此可消除冗余的条带, 减少创建计算的空间需求, 因而能在GPU上进行条带结构的创建, 提高工作效率. 实验表明, 相比原有方法, 新方法大幅加快了条带结构的创建, 甚至可加速40余倍, 并且有更快的检测速度, 能更高效地处理动态多边形.
    优先出版日期:  2025-02-19 , DOI: 10.13328/j.cnki.jos.007305
    摘要:
    PKI系统是目前用户进行安全访问基础资源的重要设施, 通过公共的第三方认证来保障用户访问资源的安全. 随着PKI技术的逐步部署应用, 各类在部署应用中的安全问题也随之而来, 攻击者可以通过攻击PKI系统窃取用户信息和破坏用户访问. 从PKI的基本工作原理出发, 全面介绍PKI系统在实际部署应用中涉及的各个要素, 包括PKI架构、工作流程、证书、证书链、证书撤销、CI日志服务. 在PKI基本工作原理的基础上, 重点从PKI系统安全角度全面梳理和总结PKI系统工作过程中面临的安全问题, 包括PKI系统应用过程中面临的运营风险和技术风险、PKI系统的测量、风险检测及各类PKI系统的风险防范技术, 并对未来PKI领域的研究方向进行展望.
    优先出版日期:  2025-01-24 , DOI: 10.13328/j.cnki.jos.007300
    [摘要] (215) [HTML] (0) [PDF 6.50 M] (336)
    摘要:
    当前基于图像变换的对抗样本检测方法利用了图像变换对对抗样本的特征分布造成较大的影响, 而对于良性样本的特征分布影响较小这一特点, 通过计算样本变换前后的特征距离来检测对抗样本. 然而随着对抗攻击的深入研究, 研究者们更注重加强对抗攻击的鲁棒性, 使得一些攻击能“免疫”图像变换带来的影响. 现有方法难以有效地检测出鲁棒性强的对抗样本. 发现当前的对抗样本过于鲁棒, 强鲁棒性对抗样本在图像变换下的特征分布距离远小于良性样本的特征分布距离, 其特征分布距离违背了良性样本特征分布规律. 基于这一关键的发现, 提出基于图像变换的双阈值对抗样本检测方法, 在传统单阈值检测方法的基础上设置一个下阈值, 构成双阈值检测区间, 其特征分布距离不在区间范围的样本将被判定为对抗样本. 在VGG19、DenseNet和ConvNeXt图像分类模型中开展广泛的验证. 实验证明该方法能够有效兼容现有单阈值检测方案的检测能力, 同时对强鲁棒性对抗样本表现出良好的检测效果.
    优先出版日期:  2025-01-24 , DOI: 10.13328/j.cnki.jos.007301
    摘要:
    标量乘法是传统椭圆曲线密码(ECC)的核心运算. 标量表示决定了标量乘法算法中的迭代方式, 进而直接影响算法的安全性和效率. 提出两种新的标量表示算法: 一种称为规则窗口非相邻算法(ordered window width non-adjacent form, OWNAF), 它将传统的窗口非相邻算法与随机密钥分割处理相结合, 在提升计算效率的同时可以抵抗能量分析攻击; 另一种称为窗口联合正则形式(window joint regular form, wJRF), 它由传统的联合正则形式改进而来, 适用于多标量乘算法, 与已有算法相比, 在减少基础计算量的同时有着更好的安全性.
    优先出版日期:  2025-01-24 , DOI: 10.13328/j.cnki.jos.007291
    摘要:
    深度随机配置网络(deep stochastic configuration network, DSCN)采取前馈学习方式, 基于特有的监督机制随机分配节点参数, 具有全局逼近性. 但是, 在实际场景下, 数据采集过程中潜在的离群值和噪声, 易对分类结果产生负面影响. 为提高DSCN解决二分类问题的性能, 基于DSCN引入直觉模糊数思想, 提出了一种直觉模糊深度随机配置网络(intuitionistic fuzzy deep stochastic configuration network, IFDSCN). 与标准DSCN不同, IFDSCN通过计算样本隶属度和非隶属度, 为每个样本分配一个直觉模糊数, 通过加权的方法来生成最优分类器, 以克服噪声和异常值对数据分类的负面影响. 在8个基准数据集上的实验结果表明, 所提出的模型与直觉模糊孪生支持向量机(intuitionistic fuzzy twin support vector machine, IFTWSVM)、核岭回归(kernel ridge regression, KRR)、直觉模糊核岭回归(intuitionistic fuzzy kernel ridge regression, IFKRR)、随机函数向量链接神经网络(random vector functional link neural network, RVFL)和SCN等学习模型相比, IFDSCN具有更好的二分类性能.
    优先出版日期:  2025-01-24 , DOI: 10.13328/j.cnki.jos.007269
    摘要:
    Rollup是一种新兴的区块链链下交易处理方案. 随着应用的持续发展 , 不同类型Rollup间的互操作需求日益增长. 现有Rollup间互操作方案通常使用第三方服务商来协助完成, 存在着信任假设的安全风险和单点故障等问题. 基于原生链完成Rollup间互操作无需引入新的信任假设, 但会消耗原生链的计算与存储资源, 降低原生链的交易吞吐量, 从而严重影响跨Rollup性能. 基于此, 提出一种基于原生链的跨Rollup方案, 通过聚合交易批量处理的方式, 有效减少单笔交易的链上平均计算与存储资源开销. 具体而言, 提出基于零知识证明的交易有效性证明方案, 显著减少交易有效性验证的链上计算开销. 提出基于索引表数据压缩的交易存储方案, 降低跨Rollup交易的平均链上存储开销. 提出聚合规模均衡调整算法, 得到最优的聚合规模, 实现链上资源消耗与处理时延之间的平衡. 最后, 对方案进行实验验证. 实验结果表明, 所提方案在完全去信任化的前提下, 能降低链上计算开销和存储开销, 实现链上资源消耗与处理时延的平衡, 并且与现有跨Rollup方案相比, 所提方案的系统吞吐量也具有很好的表现.
    优先出版日期:  2025-01-24 , DOI: 10.13328/j.cnki.jos.007259
    摘要:
    高质量的训练数据对于预训练语言模型(PLM)至关重要, 但许多专业领域的数据因隐私问题而无法集中收集用于模型训练. 借助联邦学习, 可以在保护数据隐私的前提下完成模型训练. 然而, 联邦学习的客户端通常资源有限, 无法完成预训练语言模型的训练. 针对这一问题进行深入研究. 首先, 明确定义在资源有限前提下完成模型训练的问题, 通过调整计算开销与通信开销来优化模型的训练效果. 其次, 介绍一种适用于联邦学习环境下的BERT模型高效训练框架——FedBT. 该框架旨在实现BERT模型在联邦学习客户端上的训练, 涵盖进一步预训练和下游任务微调两种场景. FedBT适应不同的应用场景, 在客户端针对BERT模型的关键参数进行训练, 并仅将更新的参数上传至服务器进行聚合. 这种方法显著减少模型训练过程中的计算和通信成本. 最后, 在多个专业领域的数据集上进行充分的实验对比, 进一步预训练场景下, FedBT框架可以降低客户端的训练开销与通信开销至原来的34.31%和7.04%, 下游任务微调场景下, FedBT框架可以降低客户端的训练开销与通信开销至原来的48.26%和20.19%, 并且均实现同传统联邦学习训练完整模型接近的精确度.
    优先出版日期:  2025-01-24 , DOI: 10.13328/j.cnki.jos.007267
    摘要:
    软件缺陷(bug)分派是将bug报告与适合解决该bug的开发人员进行匹配的过程, 能够使bug得到及时修复. 目前的bug分派研究大多集中于bug报告的文本分类, 但根据帕累托法则, 用以分类的bug报告存在数据分布不均衡现象, 容易对非活跃开发者产生较差的分派效果; 此外, 现有的分类模型忽视了对开发人员的建模且难以挖掘bug与开发人员之间的相关性, 影响了bug分派效能. 为此, 提出一种基于多模态融合的软件缺陷协同分派方法CBT-MF (collaborative bug triaging method based on multimodal fusion). 该方法首先对bug报告进行预处理并构造bug-开发人员二部图; 其次, 为了缓减bug修复记录分布不均衡性的影响, 通过K-means和正负采样的方法对二部图数据进行增强; 为了表征开发者信息, 基于图卷积模型提取二部图节点特征; 最后, 采用内积匹配的方法捕获bug与开发者的相关性, 并通过贝叶斯个性化排序实现bug报告与开发人员的推荐与分派. 在公开数据集上进行全面的实验评估, 实验结果表明, CBT-MF在bug分派方面相较于多个现有先进方法表现出更优越的性能.
    优先出版日期:  2025-01-16 , DOI: 10.13328/j.cnki.jos.007288
    摘要:
    缺陷自动定位方法可以极大程度减轻开发人员调试和维护软件程序的负担. 基于信息检索的缺陷定位方法是广泛研究的缺陷自动定位方法之一, 并已取得了较好的成果. 随着深度学习的普及, 将深度学习应用于基于信息检索的缺陷定位成为近年来的研究趋势之一. 系统梳理和总结了52篇近年来将深度学习引入基于信息检索缺陷定位的工作. 首先, 总结该类缺陷定位的数据集和评价指标, 接着从不同粒度和可迁移性分析了该类技术的定位效果, 随后着重梳理了相关工作中信息编码表征方法和特征提取方法. 最后总结对比分析了各领域最先进的定位方法, 并展望了使用深度学习的基于信息检索的缺陷定位方法的未来发展方向.
    优先出版日期:  2025-01-16 , DOI: 10.13328/j.cnki.jos.007287
    [摘要] (115) [HTML] (0) [PDF 11.27 M] (429)
    摘要:
    为了对移动群智感知中工人上传的不同质量的感知数据做必要的聚合处理, 真值发现技术应运而生, 其是为后续应用提供精确数据支持的基础. 为了应对可能的隐私泄露问题, 现有研究往往结合本地差分隐私技术来进行保护, 然而这些研究往往忽略了感知数据中的异常值对本地差分隐私下真值发现精度的影响. 这些异常值往往具有极大的取值范围, 导致注入数据中的噪音量较大. 而且在现实世界中, 工人出于对隐私泄露的担心, 移动群智感知服务器无法在无隐私保护的情况下预先处理数据. 为解决以上问题, 提出基于自适应剪枝的满足本地差分隐私的真值发现算法NATURE. 该算法的核心思想是考虑数据中蕴含的噪音类型来自适应剪枝掉不需要的工人的所有值或者某些任务值. 在NATURE中, 为便于剪枝, 在形式化约束优化问题的基础上, 设计基于优化问题的噪音感知的权重和重要性估计方法; 为进行剪枝, 在证明最优剪枝问题是NP-hard的基础上, 设计具有多项式时间复杂度的效用感知的自适应剪枝方法. 进一步从理论上分析NATURE的隐私、效用和复杂度. 在两个真实数据集和一个合成数据集上的实验结果表明, 相较于对比算法, NATURE在求得噪音“真值”的精度上至少提高20%.
    优先出版日期:  2025-01-15 , DOI: 10.13328/j.cnki.jos.007286
    摘要:
    社交网络链路预测有助于揭示网络节点之间的潜在联系, 在好友推荐、合作预测等方面有着重要的实际应用价值. 然而, 现有的链路预测方法忽略了社交网络时间序列的中、长期发展趋势, 且没有从长期的角度考虑网络中节点之间的相互影响关系. 针对以上问题, 提出基于时空注意力的多粒度链路预测算法, 该算法能够融合不同粒度社交网络时间序列的时空特征以提升链路预测的准确性. 首先, 以时间衰减函数构建社交网络快照图的权重, 提出图加权移动平均策略, 生成反映短期、中期和长期趋势的不同粒度社交网络时间序列; 然后, 利用基于多头注意力机制的神经网络提取社交网络序列的全局时间特征; 接着, 结合社交网络序列内节点的历史交互信息, 通过基于掩码注意力机制的神经网络从长期角度自适应地构建网络拓扑结构, 以动态地调整节点之间的相互影响, 并结合图卷积网络建模空间信息; 最后, 提出融合注意力神经网络, 从短期、中期和长期时空特征中提取出有用的短期、中期和长期信息, 并进行特征融合, 准确地预测未来社交网络的链接. 在4种社交网络公开数据集上与7种现有的链路预测算法的实验对比证实所提方法的有效性和优越性.
    优先出版日期:  2025-01-15 , DOI: 10.13328/j.cnki.jos.007298
    摘要:
    受生物神经系统启发, 神经形态计算的概念于20世纪80年代被提出, 旨在模拟生物大脑的结构和功能, 实现更高效、更具生物合理性的计算方式. 作为神经形态计算的代表模型, 脉冲神经网络(SNN)因其脉冲稀疏性, 事件驱动性、生物可解释性以及硬件契合性等优势, 在资源严格受限的边缘智能任务中得到了广泛应用. 针对脉冲神经网络的边缘部署情况进行梳理和汇总, 首先从脉冲神经网络模型自身的原理出发, 论述脉冲神经网络的高能效计算方式以及巨大的边缘部署潜力. 然后介绍当下常见的脉冲神经网络硬件实现工具链, 并重点对脉冲神经网络在各类神经形态硬件平台的部署情况做详细的整理与分析. 最后, 考虑到硬件故障行为已发展为当下研究中不可避免的问题, 对脉冲神经网络边缘部署时的故障与容错研究进行概述. 从软件模型原理到硬件平台实现, 全面系统地介绍神经形态计算的最新进展, 分析脉冲神经网络边缘部署时遇到的困难与挑战, 并针对这些挑战给出未来可能的解决方向.
    优先出版日期:  2025-01-15 , DOI: 10.13328/j.cnki.jos.007264
    摘要:
    自然场景文本检测的主流方法大多使用复杂且层数较多的网络来提升检测精度, 需要较大的计算量和存储空间, 难以部署到计算资源有限的嵌入式设备上. 知识蒸馏可通过引入与教师网络相关的软目标信息, 辅助训练轻量级的学生网络, 实现模型压缩. 然而, 现有的知识蒸馏方法主要为图像分类任务而设计, 提取教师网络输出的软化概率分布作为知识, 其携带的信息量与类别数目高度相关, 当应用于文本检测的二分类任务时会存在信息量不足的问题. 为此, 针对场景文本检测问题, 定义一种新的信息熵知识, 并以此为基础提出基于掩码信息熵迁移的知识蒸馏方法(mask entropy transfer, MaskET). MaskET在传统蒸馏方法的基础上引入信息熵知识, 以增加迁移到学生网络的信息量; 同时, 为了消除图像中背景信息的干扰, MaskET通过添加掩码的方法, 仅提取文本区域的信息熵知识. 在ICDAR 2013、ICDAR 2015、TD500、TD-TR、Total-Text和CASIA-10K这6个公开标准数据集上的实验表明, MaskET方法优于基线模型和其他知识蒸馏方法. 例如, MaskET在CASIA-10K 数据集上将基于MobileNetV3的DBNet的F1得分从65.3%提高到67.2%.
    优先出版日期:  2025-01-08 , DOI: 10.13328/j.cnki.jos.007265
    摘要:
    图像级标注下的弱监督语义分割方法通常采用卷积神经网络(CNN)生成类激活图以精确定位目标位置, 其面临的主要挑战在于CNN对全局信息感知能力的不足导致前景区域过小的问题. 近年来, 基于Transformer的弱监督语义分割方法利用自注意力机制捕捉全局依赖关系, 解决了CNN的固有缺陷. 然而, Transformer生成的初始类激活图会在目标区域周围引入大量背景噪声, 此时直接对初始类激活图进行使用并不能取得令人满意的效果. 通过综合利用Transformer生成的类与块间注意力(class-to-patch attention)以及区域块间注意力(patch-to-patch attention)对初始类激活图进行联合优化, 同时, 由于原始的类与块间注意力存在误差, 对此设计一种语义调制策略, 利用区域块间注意力的语义上下文信息对类与块间注意力进行调制, 修正其误差, 最终得到能够准确覆盖较多目标区域的类激活图. 在此基础上, 构建一种新颖的基于Transformer的弱监督语义分割模型. 所提方法在PASCAL VOC 2012验证集和测试集上mIoU值分别达到72.7%和71.9%, MS COCO 2014验证集上mIoU为42.3%, 取得了目前较为先进的弱监督语义分割结果.
    优先出版日期:  2025-01-08 , DOI: 10.13328/j.cnki.jos.007268
    [摘要] (241) [HTML] (0) [PDF 7.52 M] (561)
    摘要:
    随着信息化的深入, 大量应用程序的开发和功能迭代不可避免引入软件缺陷, 并潜在地对程序可靠性和安全性造成了严重的威胁. 检测与修复软件漏洞, 已经成为开发者维护软件质量必要的任务, 同时也是沉重的负担. 对此, 软件工程的研究者在过去的数十年中提出大量相关技术, 帮助开发者解决缺陷相关问题. 然而这些技术都面对着一些严峻的挑战, 在工业实践落地上鲜有进展. 大模型, 如代码大模型CodeX和对话大模型ChatGPT, 通过在海量数据集上进行训练, 能够捕捉代码中的复杂模式和结构, 处理大量上下文信息并灵活地适应各种任务, 以其优秀的性能吸引了大量研究人员的关注. 在诸多软件工程任务中, 基于大模型的技术展现出显著的优势, 有望解决不同领域过去所面对的关键挑战. 因此, 尝试对目前已经存在基于大模型相关成熟技术的3个缺陷检测领域: 深度学习库的缺陷检测、GUI自动化测试、测试用例的自动生成, 与软件缺陷修复的成熟领域: 缺陷自动化修复, 进行分析和探究, 在阐述其发展脉络的同时对不同技术流派的特性和挑战进行深入的探讨. 最后, 基于对已有研究的分析, 总结这些领域和技术所面临的关键挑战及对未来研究的启示.
    优先出版日期:  2025-01-08 , DOI: 10.13328/j.cnki.jos.007258
    摘要:
    分子动力学模拟在材料模拟、生物制药等领域发挥着重要作用. 近年来, 科学智能(AI-for-Science)发展, 尤其是神经网络力场在预测能量、力等性质的问题上, 相比于传统势函数方法在准确性上有大幅提升. 针对当前的神经网络力场模型在使用一阶训练方法时出现的超参设置敏感和梯度爆炸问题, 给出层重组卡尔曼滤波优化器在避免超参数设置问题上的若干策略和防止梯度爆炸的理论证明. 基于层重组卡尔曼滤波优化器, 制定交替训练方法并分析该方法的精度收益和时间成本、提出分块阈值的性能模型并论述该模型的有效性、证明防止梯度爆炸的性质并验证该优化器关于激活函数和权重初始化的鲁棒性. 对4种典型的神经网络力场模型在11个有代表性的数据集进行测试, 实验表明, 当层重组卡尔曼滤波优化器和一阶优化器达到相当的预测精度时, 层重组卡尔曼滤波优化器相比于一阶方法快8–10倍. 可以相信, 所提出的层重组卡尔曼滤波训练方法能给其他的科学智能(AI-for-Science)应用带来启发.
    优先出版日期:  2025-01-08 , DOI: 10.13328/j.cnki.jos.007270
    摘要:
    极大二团枚举问题是二部图分析中的一个基本研究问题. 然而, 在实际应用中, 传统二团模型要求子图必须为完全二部图的约束往往过于严格, 因此需要一些更为宽松的二团模型作为代替. 为此, 提出一种新的称之为k-缺陷二团的松弛二团模型. 该模型允许二部图子图与完全子图二团最多相差k条边. 由于极大k-缺陷二团枚举问题属于NP-难问题, 设计高效的枚举算法是一项极具挑战性的任务. 为解决此问题, 提出一种基于对称集合枚举的算法. 该算法的思想是通过k-缺陷二团中缺失边的数量约束来控制子分支的数量. 为进一步提高计算效率, 还提出一系列优化技术, 包括基于排序的子图划分方法、基于上界的剪枝方法、基于线性时间的更新技术以及分支的优化方法. 此外, 提出的优化算法的时间复杂度与${\mathrm{O}}(\gamma _k^n) $有关, 其中${\gamma _k} \lt 2 $, 突破了传统${\mathrm{O}}({2^n}) $的时间复杂度. 最后, 大量的实验结果表明, 在大部分参数条件下所提方法的效率相较于传统分支定界方法提高了100倍以上.
    优先出版日期:  2025-01-08 , DOI: 10.13328/j.cnki.jos.007275
    [摘要] (142) [HTML] (0) [PDF 8.18 M] (503)
    摘要:
    随着传感技术的发展, 不同领域产生了大量时空数据. 时空图是其中一种主要的时空数据类型, 具有复杂的结构、时空特征和时空关系. 如何从复杂的时空图数据中挖掘关键模式, 并应用于不同的下游任务成为复杂时空数据挖掘任务的主要问题. 目前, 日渐成熟的时序图神经网络为该研究领域的发展提供了有力的工具. 此外, 新兴的时空大模型在现有时空图神经网络方法的基础上提供了新的研究视角. 然而, 现有的大多数综述对该领域方法的分类框架较为粗略, 对复杂数据类型(如动态异质图和动态超图)缺乏全面和深入的介绍, 并且没有对时空图大模型相关的最新研究进展进行详细总结. 因此, 基于图神经网络的复杂时空数据挖掘方法分成时空融合架构和时空大模型, 旨在从传统和新兴两个角度进行介绍. 将时空融合架构根据具体的复杂数据类型划分成动态图、动态异质图和动态超图. 将时空大模型根据时间维度和空间维度划分成时间序列和图, 并在基于图的大模型中列举时空图相关的最新研究. 详细介绍不同关键算法的核心细节并对比不同方法的优缺点, 列举基于图神经网络的复杂时空数据挖掘的应用领域和常用数据集, 并对未来可能的研究方向进行展望.
    优先出版日期:  2025-01-08 , DOI: 10.13328/j.cnki.jos.007285
    摘要:
    人脸活体检测是人脸识别技术安全落地的有力保障. 但活体攻击方式的不断变换, 给现有检测方法带来了极大的挑战. 为应对层出不穷的未知场景和攻击方式, 提出一种基于视觉注意力和域特征融合的双流人脸活体检测模型. 首先, 提出基于视觉注意力的特征提取模块, 增强模型提取基于全局信息的内容特征的能力. 接着, 构建一种新型的风格特征融合模块, 将内容特征和浅层纹理表达的风格特征相融合来优化样本的特征表示. 此外, 设计基于孪生网络的特征映射策略并修正对比损失函数, 分别强化模型的鲁棒性和规避训练过程中梯度易振荡的问题. 还采用对抗训练来降低模型对样本数据域之间分歧的敏感性, 进一步增强其泛化性. 多项实验结果表明, 所提方法在主流数据集上跨域表现均优于现有模型, 验证其泛化性和强鲁棒性.
    优先出版日期:  2024-12-31 , DOI: 10.13328/j.cnki.jos.007262
    摘要:
    常识知识通常不在自然语言中明确表述, 而是隐含在人类的认知中, 为机器提供常识知识一直是人工智能领域的长期目标之一. 前期, 课题组成员手工构建了一个高精度的以事件为中心的中文种子常识知识图谱(ECKG), 包含了26 606个常识事件三元组, 覆盖了因果、时序、条件等多种常见的事件关系. 尽管种子ECKG具有一定的价值, 但规模较小, 在实际应用中发挥的作用有限, 且大规模的事件常识知识图谱在现有研究中较为稀缺. 为了应对这些挑战, 采用GPT系列的大语言模型来扩展种子ECKG中的因果、时序、条件和子事件这4种事件关系. 扩展方法包括3个主要的步骤: 首先, 将种子ECKG中的事件结合4种关系定义设计了特定的事件知识提示(ek-prompt), 并使用GPT-4-Turbo模型生成相应的事件三元组. 其次, 将种子ECKG的三元组与通过ek-prompt获取的正确三元组组合, 以构建特定的数据集, 并将GPT-3.5-Turbo模型在数据集上进行微调, 以生成更多具体的事件三元组和验证新三元组准确性. 最后, 通过分析种子ECKG事件的相似性, 并引入事件共享机制, 将相同关系下的相似事件关联的事件互相共享, 以保持相似事件的三元组一致性. 经过实验评估, 新获取的三元组具有高质量, 尤其是时序关系的三元组准确率最高, 达到了98.2%. 所提扩展方法最终为种子ECKG增补了2 433 012个常识事件三元组, 显著扩大了ECKG的规模, 可以为人工智能领域的许多应用提供了更为丰富的常识知识资源.
    优先出版日期:  2024-12-31 , DOI: 10.13328/j.cnki.jos.007247
    摘要:
    大语言模型(large language model, LLM)随着不断发展, 在开放领域取得了出色的表现. 然而, 由于缺乏专业知识, LLM在垂直领域问答任务上效果较差. 这一问题引发了研究者的广泛关注. 现有研究通过“检索-问答”的方式, 将领域知识注入大语言模型, 以增强其性能. 然而该方式通常会检索到额外的噪声数据而导致LLM的性能损失. 为了解决该问题, 提出基于知识相关性的知识图谱问答方法. 具体而言, 将噪声数据与回答问题所需要的知识进行区分, 在“检索-相关性评估-问答”的框架下, 引导大语言模型选择合理的知识做出正确的回答. 此外, 提出一个机械领域知识图谱问答的数据集Mecha-QA, 包含传统机械制造以及增材制造两个子领域, 以推进该领域大语言模型与知识图谱问答相关的研究. 为了验证所提方法的有效性, 在Mecha-QA和航空航天领域数据集Aero-QA上进行实验. 结果表明, 该方法可以显著提升大语言模型在垂直领域知识图谱问答的性能.
    优先出版日期:  2024-12-31 , DOI: 10.13328/j.cnki.jos.007248
    摘要:
    多视图立体视觉在自动驾驶、增强现实、遗产保护和生物医学等领域得到广泛应用. 为了弥补传统多视图立体视觉方法对低纹理区域不敏感、重建完整度差等不足, 基于深度学习的多视图立体视觉方法应运而生. 对基于深度学习的多视图立体视觉方法的开创性工作和发展现状进行综述, 重点关注基于深度学习的多视图立体视觉局部功能改进和整体架构改进方法, 深入分析代表性模型. 同时, 阐述目前广泛使用的数据集及评价指标, 并对比现有方法在数据集上的测试性能. 最后对多视图立体视觉未来有前景的研究发展方向进行展望.
    优先出版日期:  2024-12-31 , DOI: 10.13328/j.cnki.jos.007249
    摘要:
    传统的分布式拒绝服务攻击(DDoS)检测与防御机制需要对网络流量进行镜像、采集以及远程集中式的攻击特征分析, 这直接造成额外的性能开销, 无法满足高性能网络的实时安全防护需求. 随着可编程交换机等新型网络设备的发展, 可编程数据平面能力得到增强, 为直接在数据面进行高性能的DDoS攻击检测提供了实现基础. 然而, 当前已有的基于可编程数据面的DDoS攻击检测方法准确率低, 同时受限于编程约束, 难以在可编程交换机 (如Intel Tofino)中进行直接部署. 针对上述问题, 提出了一种基于可编程交换机的DDoS攻击检测与防御机制. 首先, 使用基于源目地址熵值差的攻击检测机制判断DDoS攻击是否发生. 在DDoS攻击发生时, 设计了一种基于源目地址计数值差的攻击流量过滤机制, 实现对DDoS攻击的实时防御. 实验结果表明, 该机制能够有效地检测并防御多种DDoS攻击. 相较于现有工作, 该机制在观察窗口级攻击检测中的准确率平均提升了17.75%, 在数据包级攻击流量过滤中的准确率平均提升了3.7%.
    优先出版日期:  2024-12-31 , DOI: 10.13328/j.cnki.jos.007255
    摘要:
    随着物联网和移动互联网技术的发展, 各类移动终端设备被接入互联网中. 当对移动终端设备进行识别和认证时, 通常需要验证其提交的数字签名. 但移动终端设备本身的计算能力受限, 往往采用软件模块来保存密钥至本地或者智能芯片中, 增加了密钥泄露的风险. 现实应用中多采用门限数字签名来抵抗这一攻击, 借助多方合作来分散风险, 提升设备可用性. SM2数字签名算法是我国自主研发的椭圆曲线公钥密码算法, 于2016年成为国家密码标准, 被广泛应用于政府部门、金融机构、电子认证服务提供商等领域. 设计高可用的门限SM2数字签名备受关注, 但这类方案的构造依旧较少, 同时也缺乏对参与者权重的考量. 因此, 提出更加灵活的加权门限SM2数字签名方案. 在加权门限SM2数字签名中签名者分配不同权重, 之后多个签名者共同生成一个有效的签名. 在方法上, 基于中国剩余定理的加权门限秘密共享将SM2数字签名的秘钥进行分割. 参与者不只是单一的达到门限值就可以得到签名密钥, 而需要通过计算参与者权重之和, 并达到相应的秘密门限值t和重构门限T, 才能了解到密钥的部分信息或者恢复出签名密钥. 在秘密分割时, 对SM2数字签名算法的签名私钥进行变形, 以完成签名阶段对SM2密钥进行求逆的这一操作. 最后, 将所提方案与门限SM2签名以及联合SM2签名等已有工作进行分析比较, 该算法在提升SM2签名方案功能性的同时进一步降低了计算开销.
    优先出版日期:  2024-12-31 , DOI: 10.13328/j.cnki.jos.007256
    摘要:
    近年来, 图流分析在研究领域和工业领域都变得愈发重要. 图流是从数据源持续高速到达的边序列, 这些边组成了一个不断变化的动态图. 在图流上可以进行多种不同的分析, 而三角形计数是其中最基础的操作之一. 由于图流数据规模大, 更新速度高, 在图流上进行精确三角形计数效率较低, 而且并不必要. 因为大部分三角形计数应用都允许一定的误差, 所以, 图流上的近似三角形计数一直都是研究热点之一. 研究基于采样的滑动窗口模型下的图流近似三角形计数. 滑动窗口模型只关注最近到达的图流数据, 较早的图流数据被认定为过期. 它被广泛应用于不同的工业场景和研究工作中. 将一种“采样前计数”的方法与该问题场景下最新的算法结合, 并提出一套策略以应对由于边过期产生的困难. 使用真实数据集展开广泛的实验以测试提出的CBS算法. 实验结果表明, CBS相比目前最好的工作, 估算误差降低了70%以上.
    优先出版日期:  2024-12-31 , DOI: 10.13328/j.cnki.jos.007241
    摘要:
    最小负载着色问题(minimum load coloring problem, MLCP) 源于构建光通信网络的波分复用(wavelength division multiplexing, WDM)技术, 是一个被证明的NP完全问题. 由于NP完全问题有着随问题规模呈指数增长的解空间, 因此启发式算法常被用来解决这类问题. 在对国内外相关工作的深入分析基础上得知, 现有的多类求解MLCP问题的启发式算法中局部搜索算法表现是最好的. 研究针对当前求解MLCP问题的局部搜索算法在数据预处理和邻域空间搜索上的不足, 提出了两点相应的优化策略: 一是在数据的预处理阶段, 提出一度顶点规则来约简数据的规模, 进而减小MLCP问题的搜索空间; 二是在算法的邻域空间搜索阶段, 提出两阶段多重选择策略(two-stage best from multiple selections, TSBMS)来帮助局部搜索算法在面对不同规模的邻域空间时可以高效地选择一个高质量的邻居解, 它有效地提高了局部搜索算法在处理不同规模数据时的求解表现. 将这个优化后的局部搜索算法命名为IRLTS. 采用74个经典的测试用例来验证IRLTS算法的有效性. 实验结果表明, 无论最优解还是平均解, IRLTS算法在大多数测试用例上都明显优于当前表现最好的3个局部搜索算法. 此外, 还通过实验验证了所提策略的有效性以及分析了关键参数对算法的影响.
    优先出版日期:  2024-12-31 , DOI: 10.13328/j.cnki.jos.007244
    摘要:
    随着Transformer类大模型的飞速发展, 算力逐渐成为制约领域发展的瓶颈, 如何根据加速器硬件的结构特性加速和优化大语言模型的训练性能已成为研究热点. 面向天河新一代超算系统的加速芯片MT-3000, 提出并实现了适用于CPU+DSP异构架构的PyTorch扩展库——MTTorch, 其核心是一个多核并行的算子库, 对Transformer类模型训练过程中的核心算子进行向量化实现和优化. 同时, 针对MT-3000架构特性, 提出了面向多核 DSP 的高性能规约算法及乒乓算法, 显著提升了算子的运算性能. MTTorch还具有很好的通用性, 对于不同版本的 PyTorch都可以动态链接库的形式进行加载, 不改变PyTorch的原生实现. 大量实验证明, 实现的核心算子在 MT-3000 芯片上有着很好的性能, 在单DSP 簇上可以达到 8 倍的加速效果. 利用MTTorch在多节点执行训练任务时有着接近线性的加速比, 极大地提升了Transformer类模型在MT-3000 芯片上的训练效率.
    优先出版日期:  2024-12-25 , DOI: 10.13328/j.cnki.jos.007246
    摘要:
    跨语言情感分类在自然语言处理领域非常重要并且已经得到广泛的研究, 因为它可以利用源语言的标签信息构建目标语言的情感分类系统, 从而大大减少目标语言中费时而耗力的标注工作. 不同语言的表达方式存在明显差异是跨语言情感分类的基本挑战, 提出基于双语依存关联图模型的跨语言情感分类方法. 虽然不同语言的表达存在差异, 但是内部的句法依存关系是相似的. 通过在不同语言的词节点之间建边表示双语评论实例的语义相关性, 双语依存关联图能够对不同语言词之间依存关系的相似性进行显式建模, 从而使图神经网络可以在语言内和语言间整合句法结构信息, 进行跨语言情感分类. 利用英文和中文两种语言的数据集进行实验, 实验结果相较于基线方法提高了3%. 研究表明, 利用双语依存关联图能够对不同语言评论实例之间的关联性进行有效建模, 从而显著提升跨语言情感分类的准确率.
    优先出版日期:  2024-12-25 , DOI: 10.13328/j.cnki.jos.007257
    摘要:
    针对循环神经网络(recurrent neural network, RNN)的结构不易确定、参数学习过程复杂等问题, 提出一种增量构造式随机循环神经网络(incremental-construction random RNN, IRRNN), 实现了RNN结构的增量构造与参数的随机学习. 首先建立隐含节点增量构造的约束机制, 同时利用候选节点池策略实现隐含节点的优选, 避免了网络随机构造的盲目性; 进一步, 从模型参数的局部优化与全局优化两个角度考虑, 提出模型参数的两种增量随机(incremental random, IR)学习方法, 即IR-1与IR-2, 并证明了其万能逼近特性; 同时通过研究IRRNN的动态特性, 分析了IRRNN的泛化性能. 通过实验验证了IRRNN在动态特性、紧凑性和精度等多个方面具有良好特性.
    优先出版日期:  2024-12-25 , DOI: 10.13328/j.cnki.jos.007260
    摘要:
    模糊测试技术能够自动化挖掘软件当中的漏洞, 然而目前针对网络协议的模糊测试工具对于协议实现内部状态空间探索有限, 导致覆盖率较低. 有限状态机技术能够对网络协议实现进行全方位建模, 以深入了解网络协议实现的系统行为和内部状态空间. 将有限状态机技术和模糊测试技术相结合, 提出一种基于有限状态机引导的网络协议模糊测试方法. 以广泛使用的TLS协议为研究对象, 利用有限状态机学习来对于TLS协议实现进行建模, 用来反映协议内部状态空间及其系统行为. 随后, 基于有限状态机对于TLS协议模糊测试进行引导, 使模糊测试的深度更深、覆盖代码更广. 为此, 实现一个原型系统SNETFuzzer, 并且通过一系列对比实验发现SNETFuzzer在覆盖率等重要指标中优于已有工作. SNETFuzzer在实验中成功发现多个漏洞, 其中包含两个新漏洞, 证明了其实用性和有效性.
    优先出版日期:  2024-12-25 , DOI: 10.13328/j.cnki.jos.007261
    摘要:
    因果关系发现旨在从观测数据中发现变量间的因果关系, 是帮助我们理解自然界、社会和技术系统中各种现象和变化的重要方法. 一种主流的因果发现方法是基于约束的算法, 这类算法通过检验变量间的条件独立性关系来确定变量之间的因果结构. 然而, 现实世界的数据收集往往受资源或技术的限制, 面临样本量有限, 节点方差大等挑战. 在这些场景下, 条件独立性检验的正确率受到极大影响, 导致学到的因果图中部分变量的因果边被错误地删除, 影响了算法输出的准确性. 为此, 提出一种增强的条件独立性检验的方法, 该方法的核心在于尽可能减少无关外部噪声对于待测试变量的干扰, 从而提高条件独立性检验结果的准确性. 基于该增强的条件独立性检验方法, 提出一种基于启发式搜索的结构学习算法, 该算法在初始结构图的基础上, 迭代搜索被误删的因果边, 基于增强的条件独立性检验并结合得分优化的思想, 重构因果结构. 实验结果显示, 相较于现有方法, 所提算法在仿真数据、贝叶斯网络数据以及真实数据上的F1值和结构汉明距离(SHD)均有显著提升, 证明在有限样本和因果结构中存在高方差节点的条件下更准确地揭示观测数据中潜在的真实因果结构的能力.
    优先出版日期:  2024-12-25 , DOI: 10.13328/j.cnki.jos.007273
    [摘要] (475) [HTML] (0) [PDF 7.49 M] (508)
    摘要:
    随着相关技术的快速发展, 无人机所搭载的传感器愈发精确和多样, 赋予了无人机强大的感知能力, 也使得多传感器数据的处理分析成为无人机应用的一大挑战. 数据融合是解决这一问题的关键技术, 其通过检测、关联、组合、估计的流程实现多传感器数据的融合利用, 获取准确的无人机状态和目标信息为决策提供支撑. 对无人机的多传感器数据融合研究展开综述: 介绍无人机系统组成; 回顾并分类无人机多传感器数据融合方法, 在此基础上分析比较各类方法的特点; 归纳概述无人机多传感器数据融合在不同领域中的应用现状; 最后展望无人机多传感器数据融合的未来发展方向.
    优先出版日期:  2024-12-25 , DOI: 10.13328/j.cnki.jos.007274
    摘要:
    工业界现用的访问权限控制技术愈来愈难以应对广域互联网场景下部署的分布式系统的访问控制问题, 特别是跨多个信任域部署的大型信息系统在地理分布上不断分散化, 造成防护弱点不断增加. 基于共识的访问控制策略共享技术能够使跨信任域部署的访问控制节点安全快速地达成一致决策. 首先提出面向多节点的基于共识的访问权限控制模型, 提出强安全高性能的访问控制引擎共识算法Super-Dumbo. 该算法突破Dumbo2共识协议的性能瓶颈, 优化消息广播、随机掷币、共识算法设计等关键步骤的设计, 减少数字签名验证等计算开销、有效提升带宽利用率, 从而在吞吐量和延迟时间等性能方面取得大幅提升, 满足CBAC访问控制模型对底层共识算法低延迟、大吞吐量的性能要求.
    优先出版日期:  2024-12-18 , DOI: 10.13328/j.cnki.jos.007272
    [摘要] (120) [HTML] (0) [PDF 1.60 M] (426)
    摘要:
    智能网联汽车在国家发展战略中占有重要地位, 是关系汽车产业革新、大国核心竞争力的关键技术, 自动驾驶是智能网联汽车发展的最终目标, 智能网联汽车自动驾驶(以下称“自动驾驶汽车”)的安全问题直接影响人民生命财产安全、国家公共安全, 但目前还缺少对其的系统性研究. 深度剖析自动驾驶面临的安全威胁能对其安全防护和保障提供指导, 促进其大规模应用. 通过整理学术界与工业界对自动驾驶安全的相关研究工作, 分析和总结自动驾驶所面临的安全问题. 首先介绍自动驾驶汽车架构、安全的特殊性, 其次从模型视角出发, 全过程地梳理自动驾驶的物理域输入、信息域输入和驾驶模型这3个方面可能存在的9个攻击作用点及其攻击方式与安全防护手段, 最后通过对近7年相关研究论文数据的统计分析, 总结自动驾驶安全研究的现状, 讨论未来的研究方向.
    优先出版日期:  2024-12-11 , DOI: 10.13328/j.cnki.jos.007271
    摘要:
    云存储为用户的数据管理带来了极大便捷, 已成为数字经济的重要组成部分. 然而, 复杂多样的网络环境和不完全可信的第三方对用户隐私造成极大威胁. 为保护用户隐私, 通常先加密数据后存储, 但传统加密技术生成的密文阻碍了后续数据检索. 公钥可搜索加密(public-key encryption with keyword search, PEKS)技术在保障数据加密的同时, 可提供保密检索功能, 但由于常用关键词数量较少, 传统PEKS方案易遭受关键词猜测攻击. 公钥认证可搜索加密(public-key authenticated encryption with keyword search, PAEKS)在PEKS的基础上引入认证技术, 可进一步提高安全性. 然而, 现有PAEKS方案大多基于国外密码算法设计, 不符合我国密码技术自主创新的发展需求. 基于国密SM9提出SM9-PAEKS方案, 通过重新设计算法结构, 将耗时运算转移至资源丰富的云端服务器, 有效提升用户端检索效率. 并在随机谕言模型下基于q-BDHI和Gap-q-BCAA1安全假设证明所提方案的安全性. 最后理论分析和实验结果表明, 与同类方案中通信代价最优的方案相比, SM9-PAEKS在仅增加96字节通信代价的情况下, 总计算开销可至少降低约59.34%, 其中关键词陷门生成的计算开销降低尤其显著, 约为77.55%. 有助于丰富国密算法的应用, 同时可为云存储中数据加密与检索提供理论与技术支撑.
    优先出版日期:  2024-12-11 , DOI: 10.13328/j.cnki.jos.007266
    [摘要] (102) [HTML] (0) [PDF 5.86 M] (470)
    摘要:
    随着海量数据的涌现和智能应用需求的日益增长, 保障数据安全成为提高数据质量、实现数据价值的重要举措. 其中, 云边端架构是高效处理和优化数据的新兴技术, 联邦学习(FL)作为一个高效的去中心化的机器学习范式, 能够为数据提供隐私保护, 近年来引起了学术界及工业界的广泛关注. 然而, 联邦学习展示出了固有的脆弱性使其易于遭受投毒攻击. 现有绝大多数抵抗投毒攻击的防御方法依赖于连续更新空间, 但在实际场景中面向灵活的攻击方式和攻击场景可能是欠鲁棒的. 鉴于此, 提出一种面向云边联邦学习系统(CEFL)抵抗投毒攻击的防御方法FedDiscrete. 其关键思想是在客户端利用网络模型边的分数计算本地排名, 实现离散更新空间的创建. 进一步地, 为了兼顾参与FL任务的客户端之间的公平性, 引入贡献度指标, 这样, FedDiscrete能够通过分配更新后的全局排名对可能的攻击者实施惩罚. 广泛的实验结果表明所提方法在抵抗投毒攻击方面表现出显著的优势和鲁棒性, 且适用于独立同分布(IID)和非独立同分布(non-IID)场景, 能够为CEFL系统提供保护.
    优先出版日期:  2024-12-11 , DOI: 10.13328/j.cnki.jos.007229
    [摘要] (117) [HTML] (0) [PDF 5.13 M] (462)
    摘要:
    多标签文本分类旨在为文本分配若干预定义的标签或类别. 为了充分发掘标签间的关联, 目前的方法通常使用标签关系图并结合图神经网络获取标签特征表示. 然而, 这类方法过度依赖初始建图策略, 忽视了当前文本中固有的标签相关性, 使得分类结果更依赖于数据集统计信息, 而容易忽视当前文本段中的标签相关信息. 因此, 提出一种基于特征融合动态图网络的多标签文本分类算法, 设计动态图来建模当前文本中的标签相关性, 并结合特征融合与图神经网络, 形成基于当前文本的标签表示, 并由此形成更为准确的多标签文本结果. 随后, 设计实验进行验证, 在3个数据集实验结果表明, 所提出的模型在多标签分类任务中取得优秀的性能, 验证其有效性和可行性.
    优先出版日期:  2024-12-11 , DOI: 10.13328/j.cnki.jos.007216
    摘要:
    云存储审计技术的出现为存储在云中的数据提供了可靠的安全保障, 数据拥有者可以轻易地验证存储在云中数据的完整性. 然而, 云服务器中可能存储着海量的数据, 目前的云存储审计方案在进行数据完整性验证以及数据所有权变更时均需花费大量的计算开销. 为了缓解该问题并提高云存储审计方案的实用性, 提出一种支持高效数据所有权共享的动态云存储审计方案. 在计算开销方面, 构造一种高效的验证结构可以聚合数据验证信息, 免去大量计算开销较高的双线性配对运算. 基于变色龙哈希函数易于制造新碰撞的特性设计高效的数据所有权共享机制, 共享数据所有权只需更新对应用户的密钥即可, 无需修改云服务器中存储的密文. 此外, 方案还提供了数据细粒度共享、密态数据验证以及数据动态修改功能. 安全性分析和性能分析表明, 方案可以在保证数据安全的同时不对方案的运行效率产生影响, 具有较高的实用性.
    优先出版日期:  2024-12-11 , DOI: 10.13328/j.cnki.jos.007197
    摘要:
    随机块模型可以拟合各种网络的生成, 挖掘网络的隐含结构与潜在联系, 在社团检测中具有明显的优势. 广义随机块模型GSB是基于链接社团的思想发现广义社团的, 但其仅适用于有向无属性网络. 针对无向属性网络, 对网络拓扑信息建模的同时对节点属性进行建模, 提出一种度修正的属性网络广义随机块模型DCGSB (degree corrected general stochastic block model). 在该模型中, 假设网络拓扑信息和属性信息的生成过程都服从幂函数形式的分布, 并且引入节点的度来刻画网络的无标度特性, 可以更好地拟合真实网络的生成. 利用期望最大化算法对DCGSB模型的参数进行估计, 通过硬划分处理, 得到节点隶属度, 进而完成社团检测. 在3个含有不同结构的真实属性网络数据集上进行实验, 并与10种社团检测算法进行对比, 结果表明DCGSB模型不仅继承了GSB模型的优点, 能发现广义社团, 而且由于属性信息和节点度的引入, 使其社团检测能力优于其他10种比较算法.
    优先出版日期:  2024-12-09 , DOI: 10.13328/j.cnki.jos.007245
    [摘要] (314) [HTML] (0) [PDF 6.37 M] (531)
    摘要:
    多模态信息抽取任务是指从非结构化或半结构化的多模态数据(包含文本和图像等)中提取结构化知识. 其研究内容主要包含多模态命名实体识别、多模态实体关系抽取和多模态事件抽取. 首先对多模态信息抽取任务进行分析, 然后对多模态命名实体识别、多模态实体关系抽取和多模态事件抽取这3个子任务的共同部分, 即多模态表示和融合模块进行归纳和总结. 随后梳理上述3个子任务的常用数据集和主流研究方法. 最后总结多模态信息抽取的研究趋势并分析该研究存在的问题和挑战, 为后续相关研究提供参考.
    优先出版日期:  2024-12-09 , DOI: 10.13328/j.cnki.jos.007254
    [摘要] (470) [HTML] (0) [PDF 10.74 M] (532)
    摘要:
    随着深度学习技术在计算机视觉与自然语言处理等领域取得巨大成功, 软件工程研究者开始尝试将其引入到软件工程任务求解当中. 已有研究结果显示, 深度学习技术在各种代码相关任务(例如代码检索与代码摘要)上具有传统方法与机器学习方法无法比拟的优势. 这些面向代码相关任务训练的深度学习模型统称为深度代码模型. 然而, 由于神经网络的脆弱性和不可解释性, 与自然语言处理模型与图像处理模型一样, 深度代码模型安全也面临众多挑战, 已经成为软件工程领域的焦点. 近年来, 研究者提出了众多针对深度代码模型的攻击与防御方法. 然而, 目前仍缺乏对深度代码模型安全研究的系统性综述, 不利于后续研究者对该领域进行快速的了解. 因此, 为了总结该领域研究现状、挑战及时跟进该领域的最新研究成果, 搜集32篇该领域相关论文, 并将现有的研究成果主要分为后门攻击与防御技术和对抗攻击与防御技术两类. 按照不同技术类别对所收集的论文进行系统地梳理和总结. 随后, 总结该领域中常用的实验数据集和评估指标. 最后, 分析该领域所面临的关键挑战以及未来可行的研究方向, 旨在为后续研究者进一步推动深度代码模型安全的发展提供有益指导.
    优先出版日期:  2024-12-04 , DOI: 10.13328/j.cnki.jos.007251
    摘要:
    动态对称可搜索加密允许用户安全地搜索和动态更新存储在半可信云服务器中的加密文档, 近年来备受关注. 然而, 现有多数对称可搜索加密方案仅支持单关键词搜索, 无法在实现联合搜索的同时满足前向和后向隐私. 此外, 多数方案不具有鲁棒性, 即无法处理客户端重复添加或删除某个关键词/文件标识符对或删除不存在的关键词/文件标识符对等不合理更新请求. 针对上述挑战, 提出一个鲁棒的前后向隐私联合动态对称可搜索加密方案RFBC. 在该方案中, 服务器为每个关键词建立两个布隆过滤器, 分别用于存储所要添加和删除的关键词/文件标识符对的相关哈希值. 当客户端发送更新请求时, 服务器利用两个布隆过滤器进行判断, 过滤不合理请求, 以满足方案的鲁棒性. 此外, 利用多关键词中最低频关键词的状态信息, 结合布隆过滤器与更新计数器, 筛选掉不包含其余关键词的文件标识实现联合查询. 通过定义方案的泄露函数, 经过一系列的安全性游戏证明RFBC支持前向隐私与Type-III后向隐私. 实验分析表明相较于相关方案, RFBC较大幅度提高了计算和通信效率. 具体来说, RFBC更新操作的计算开销分别为ODXT和BDXT的28%和61.7%, 搜索操作的计算开销分别为ODXT和BDXT的21.9%和27.3%, 而搜索操作的通信开销分别为ODXT和BDXT的19.7%和31.6%. 而且, 当不合理更新的比例逐渐增加时, 搜索效率的提升明显高于BDXT与ODXT.
    优先出版日期:  2024-12-04 , DOI: 10.13328/j.cnki.jos.007252
    摘要:
    代码注释生成是软件工程领域的重要研究任务. 当前主流的注释生成方法训练深度学习模型以生成注释, 依靠在开放的代码注释数据集上采用BLEU等指标来进行注释质量评价, 主要反映生成注释与数据集中人工参考注释的相似性. 但由于开放注释数据集中人工参考注释的质量难以保障, 其有效性受到越来越多质疑. 因此, 面向代码注释生成任务, 亟需一种直观有效的代码注释质量评价方法, 一方面改进开放注释数据集的质量, 另一方面提升生成注释的评价效果. 针对该问题, 对现有量化的注释质量评价方法进行调研和分析, 并将一套多维度注释质量评价指标用于对主流开放数据集、典型注释生成方法以及ChatGPT生成代码注释的质量评价, 由此给出一些具有参考价值的研究发现: 1)现有主流开放数据集中的代码注释质量俱有待提高, 均存在不同程度的不准确、可读性差、过于简短、缺乏有用信息等问题; 2)现有方法生成的注释普遍在词汇和语义上与代码更接近, 缺乏代码高层意图等对开发者更有用的信息; 3)生成注释的BLEU值较低, 一个重要原因是数据集中大量的参考注释本身质量不佳, 譬如与代码缺乏关联、自然性较差等, 应过滤或改进此种参考注释; 4)大语言模型ChatGPT生成的代码注释内容丰富但较为冗长, 其质量评价需要根据开发者意图与具体场景进行针对性改进. 基于这些发现, 也对未来代码注释生成任务及注释质量评价研究给出若干建议.
    优先出版日期:  2024-12-04 , DOI: 10.13328/j.cnki.jos.007253
    摘要:
    软件概念漂移指同类型软件的软件结构和组成成分会随着时间的推移而改变. 在恶意软件分类领域, 发生概念漂移意味着同一家族的恶意样本的结构和组成特征会随时间发生变化, 这会导致固定模式的恶意软件分类算法的性能会随时间推移而发生下降. 现有的恶意软件静态分类研究方法在面临概念漂移场景时都会有显著的性能下降, 因此难以满足实际应用的需求. 针对这一问题, 鉴于自然语言理解领域与二进制程序字节流分析领域的共性, 基于BERT和自定义的自编码器架构提出一种高精度、鲁棒的恶意软件分类方法. 该方法首先通过反汇编分析提取执行导向的恶意软件操作码序列, 减少冗余信息; 然后使用BERT理解序列的上下文语义并进行向量嵌入, 有效地理解恶意软件的深层程序语义; 再通过几何中位数子空间投影和瓶颈自编码器进行任务相关的有效特征筛选; 最后通过全连接层构成的分类器输出分类结果. 在普通场景和概念漂移场景中, 通过与最先进的9种恶意软件分类方法进行对比实验验证所提方法的实际有效性. 实验结果显示: 所提方法在普通场景下的分类F1值达到99.49%, 高于所有对比方法, 且在概念漂移场景中的分类F1值比所有对比方法提高10.78%–43.71%.
    优先出版日期:  2024-11-27 , DOI: 10.13328/j.cnki.jos.007250
    [摘要] (258) [HTML] (0) [PDF 13.89 M] (609)
    摘要:
    近年来随着计算机视觉和人工智能领域的不断发展, 具身人工智能(embodied AI)受到国内外学术界和工业界的广泛关注. 具身人工智能强调具身智能体通过与环境进行情景化的交互来主动获取物理世界的真实反馈, 并通过对反馈进行学习使具身智能体更加智能. 作为具身人工智能具体化的任务之一, 物体目标导航要求具身智能体在事先未知的、复杂且语义丰富的场景中搜寻并导航至指定的物体目标(例如: 找到水槽). 物体目标导航在辅助人类日常活动的智能助手方面有着巨大的应用潜力, 是其他基于交互的具身智能研究的基础和前置任务. 系统地分类和梳理当前物体目标导航相关工作, 首先介绍环境表示和视觉自主探索相关知识, 从3种不同的角度对现有的物体目标导航方法进行分类和分析, 其次介绍两类更高层次的物体重排布任务, 描述逼真的室内仿真环境数据集、评价指标和通用的导航策略训练范式, 最后比较和分析现有的物体目标导航策略在不同数据集上的性能, 总结该领域所面临的挑战, 并对发展前景作出展望.
    优先出版日期:  2024-11-20 , DOI: 10.13328/j.cnki.jos.007235
    摘要:
    随着大数据时代的到来, 海量的用户数据赋能了众多数据驱动的行业应用, 例如智慧交通、智能电网、商品推荐等. 在数据实时性要求高的应用场景下, 数据中的业务价值随时间增长快速降低, 因此数据分析系统需要具有高吞吐和低延迟能力, 以Apache Flink为代表的流式大数据处理系统得到广泛应用. Flink通过在集群的计算节点上并行化计算任务, 水平扩展系统吞吐量. 然而, 已有研究指出, Flink存在单点性能弱, 集群水平可扩展性差的问题. 为了提高流式大数据处理系统的吞吐量, 研究者在控制平面设计、系统算子实现和垂直可扩展性等方面开展优化, 但现有工作尚缺乏对流式分析应用数据流的关注. 流式分析应用是由事件流驱动并使用有状态处理函数的应用, 例如智能电网场景下的低电压检测应用、商品推荐场景下的广告活动分析应用等. 对典型的流式分析应用的数据流特征进行分析, 总结其中存在的3个水平可扩展性瓶颈并给出相应的优化策略, 包括: 键级水位线, 动态负载分发策略和基于键值的数据交换策略. 基于上述优化技术, 对Flink框架进行扩展并形成原型系统Trilink, 选取真实场景数据集: 低电压检测应用, 桥梁拱顶监测应用和典型流式分析测试基准Yahoo Streaming Benchmark, 与现有工作进行测试比较. 实验结果表明, 相较于Flink, Trilink在单机环境下吞吐率提升了5倍以上, 8节点下水平扩展加速比提高了1.6倍以上.
    优先出版日期:  2024-11-20 , DOI: 10.13328/j.cnki.jos.007184
    摘要:
    强化学习在智能对话系统等决策任务中取得了令人瞩目的结果, 但其在复杂的、奖励稀疏的任务中学习效率较低. 研究人员在强化学习中引入技能发现框架, 以最大化不同技能间的差异为目标构建技能策略, 提升了智能体在上述任务中的学习效率. 然而, 受到采样轨迹数据多样性的限制, 现有的技能发现方法局限于在一个强化学习回合中学习一种技能, 导致其在一回合中具有序贯技能组合的复杂任务中表现欠佳. 针对该问题, 提出一种基于分组对比学习的序贯感知技能发现方法(group-wise contrastive learning based sequence-aware skill discovery, GCSSD), 该方法将对比学习融合到技能发现框架中. 首先, 为了提升轨迹数据的多样性, 将与环境交互的完整轨迹分段并进行分组, 利用分组轨迹构建对比损失学习技能嵌入表征; 其次, 结合技能嵌入表征与强化学习进行技能策略训练; 最后, 为了提升在具有不同序贯技能组合任务上的性能, 对采样轨迹进行分段技能表征并将其嵌入策略网络, 实现对已学技能策略的序贯组合. 实验结果表明, GCSSD方法在具有序贯技能组合的稀疏奖励任务中具有较好的训练效果, 并且在具有与训练任务不同的序贯技能组合任务中, 能够利用已学技能对该任务进行快速适应.
    优先出版日期:  2024-11-18 , DOI: 10.13328/j.cnki.jos.007236
    摘要:
    视频应用平台的兴起使得视频得以快速传播并渗透社会生活的各个方面. 网络中传播的视频也混杂了一些公害视频, 因此网络空间安全监管迫切需要准确地识别网络中加密传播的公害视频. 已有方法在网络主要接入点采集流量数据, 提取加密视频流量的特征, 基于公害视频库, 通过流量特征的匹配识别出被传输的公害视频. 然而随着视频加密传输协议的更新, 使用新型多路复用技术的HTTP/2协议已经大规模部署应用, 这导致传统的基于HTTP/1.1传输特征的流量分析方法无法识别使用HTTP/2传输的加密视频. 此外, 当前的研究大多针对的是播放时分辨率固定的视频, 很少考虑到流媒体自适应播放时分辨率切换给识别带来的影响. 针对以上问题, 详细分析了视频平台使用HTTP/2协议传输视频时音视频数据长度发生偏移的原理, 并提出了将多路复用的加密数据精准修正还原为组合音视频数据单元长度的方法, 从而构建出精准还原的加密视频修正指纹. 然后, 利用加密视频修正指纹和大型视频明文指纹库, 提出了视频修正指纹滑动匹配机制和以隐马尔可夫模型与维特比算法为基础的加密视频识别模型. 该模型使用动态规划方法解决了视频分辨率自适应切换带来的问题, 其在40万级的Facebook和Instagram真实指纹库场景中, 对固定分辨率和自适应分辨率的加密视频的识别准确率分别达到了98.41%和97.91%. 使用Triller、Twitter和芒果TV这3个视频平台进行了方法通用性和泛化性验证. 与类似工作在识别效果、泛化性和时间开销方面的比较进一步验证了所提出的方法具有较高的应用价值.
    优先出版日期:  2024-11-18 , DOI: 10.13328/j.cnki.jos.007237
    [摘要] (188) [HTML] (0) [PDF 5.64 M] (532)
    摘要:
    近年来, 机器学习在人们日常生活中应用愈发广泛, 这些模型在历史数据上进行训练, 预测未来行为, 极大地便利了人们生活. 然而, 机器学习存在隐私泄露隐患: 当用户不希望个人数据被使用时, 单纯地把其数据从训练集中删去并不够, 已训练好的模型仍包含用户信息, 可能造成隐私泄露. 为了解决这一问题, 让机器学习模型“遗忘”该用户个人数据, 最简单的方法是在不包含其数据的训练集上重新训练, 此时得到的新模型必定不包含个人数据的信息. 然而, 重新训练往往代价较大, 成本较高, 由此产生“机器遗忘”的关键问题: 能否以更低的代价, 获取与重新训练模型尽可能相似的模型. 对研究这一问题的文献进行梳理归纳, 将已有机器遗忘方法分为基于训练的方法、基于编辑的方法和基于生成的方法这3类, 介绍机器遗忘的度量指标, 并对已有方法进行测试和评估, 最后对机器遗忘作未来展望.
    优先出版日期:  2024-11-18 , DOI: 10.13328/j.cnki.jos.007238
    摘要:
    随着城市规模不断增加, 城市交通系统面临着越来越多的挑战, 如交通拥堵、交通安全等问题. 交通仿真是一种解决城市交通问题的方法, 其采用虚实结合的计算技术, 以处理实时交通数据、优化城市交通效率, 是平行城市理论在智能交通的重要实现方法. 然而, 传统的计算系统在运行大规模城市交通仿真中会出现计算资源不足、仿真延迟过长等问题. 针对上述问题, 基于平行城市理论, 结合天河新一代超算的异构体系结构, 提出一种平行城市交通仿真并行算法. 该算法能够精确模拟车辆、道路、交通信号等交通要素, 并采取路网划分、车辆并行化行驶、信号灯并行化控制等方法, 以实现高性能交通仿真. 该算法运行在16节点、超过2.5万核心的天河新一代超算平台, 并针对北京市五环内240万辆车、7797个路口和17万条车道的真实交通场景进行仿真. 相比于传统的单节点仿真, 每步仿真时间从2.21 s减少到0.37 s, 取得近6倍的加速效果, 在国产超算异构平台上成功实现百万车辆规模的城市交通仿真.
    优先出版日期:  2024-11-18 , DOI: 10.13328/j.cnki.jos.007239
    [摘要] (188) [HTML] (0) [PDF 6.32 M] (553)
    摘要:
    交通流预测是智能交通系统(intelligent transportation system, ITS)中交通管理的重要基础和热门研究方向. 传统的交通流预测方法通常需要借助大量高质量历史观测数据进行预测, 而针对更为普遍的数据稀缺的交通路网场景预测精度则急剧下降. 针对这一问题, 提出一种基于时空图卷积网络的迁移学习模型(transfer learning based on spatial-temporal graph convolutional network, TL-STGCN), 结合数据充足的源路网的交通流特征, 辅助预测数据稀缺的目标路网未来交通流. 首先, 采用基于时间注意力的时空图卷积网络学习源路网和目标路网交通流数据的时空特征表示; 其次, 结合迁移学习方法, 提取两个路网特征表示的域不变时空特征; 最后, 利用这些域不变时空特征对目标路网未来交通流做出预测. 为了验证模型的有效性, 在真实世界数据集上进行实验. 结果表明, 与现有方法对比, TL-STGCN在平均绝对误差、均方根误差以及平均绝对百分比误差指标中均取得最高精度, 证明对于数据稀缺的交通路网预测任务, TL-STGCN具有更好的预测性能.
    优先出版日期:  2024-11-06 , DOI: 10.13328/j.cnki.jos.007181
    [摘要] (101) [HTML] (0) [PDF 9.40 M] (688)
    摘要:
    随着移动终端的普及和用户隐私数据保护需求的增强, 基于移动终端的身份认证研究引起了广泛关注. 近年来, 移动终端的音频传感器为设计性能优良的新颖身份认证方案提供了更大的灵活性和可拓展性. 在调研了大量相关科研文献的基础上, 首先按照依赖凭据和感知方法的不同将基于声感知的移动终端身份认证方案进行分类, 并描述相应的攻击模型; 然后梳理移动终端基于不同认证凭据和基于声感知的身份认证国内外研究进展, 并进行分析、总结和对比; 最后结合当前研究的困难和不足, 给出衡量身份认证系统性能的两大指标(安全性和实用性), 对未来的研究方向进行展望.
    优先出版日期:  2024-11-06 , DOI: 10.13328/j.cnki.jos.007176
    摘要:
    连续动力系统安全验证是一个重要的研究问题, 多年来各类验证方法所能处理的问题规模非常受限. 对此, 对于给定的连续动力系统, 提出通过反例制导方法生成一组组合式概率近似正确(PAC)障碍证书的算法, 最终给出无限时间范畴安全验证问题在概率统计意义下的形式化描述. 通过建立和求解基于大M法的混合整数规划方法, 将障碍证书的求解转化为约束优化问题. 通过微分中值定理将非线性不等式进行区间线性化. 最后, 实现组合式PAC障碍证书生成工具CPBC, 并在11个基准系统上评估其性能. 实验结果表明, CPBC均能成功验证每个动力系统在指定不同的安全需求阈值下的安全性. 与现有方法相比, 所提方法可以更高效地为复杂系统或高维系统生成可靠的概率障碍证书, 验证的样例规模已高达百维.
    优先出版日期:  2024-10-12 , DOI: 10.13328/j.cnki.jos.007243
    [摘要] (106) [HTML] (0) [PDF 7.78 M] (734)
    摘要:
    动态信息网(DIN)包含了真实世界中随时间推移不断发生变化的对象以及对象间的联系, 常常被刻画为一系列静态无向图快照. 社区, 由信息网中一些内部联系紧密的对象组成. 动态信息网中常常存在这样的社区: 在一段时间内, 随着时间的推移, 社区成员规模不断扩大, 并且社区内部成员间始终保持紧密的联系. 这样的社区在相应时间段内的演化轨迹在动态信息网的多张图快照上形成了一个社区序列, 称为持续扩展社区序列. 在动态信息网中查找持续扩展社区序列有重要的实用价值, 但是以前的工作并未对此进行研究. 结合集合的包含关系和三角连通$k$-truss模型, 提出动态信息网中基于查询点$q$的持续扩展社区序列(qLEC)模型, 设计了一个正向计算社区候选顶点集-反向回溯查找社区序列的持续扩展社区序列两阶段查找算法, 并给出基于提早终止策略的时间优化和基于TCP索引压缩技术的空间优化方法. 通过充分的实验证明: 相比于现有动态社区模型, qLEC模型具有特定的实际意义; 两阶段查找算法能够有效找到qLEC模型所刻画的持续扩展社区序列; 优化策略显著降低了两阶段查找算法的时间和空间开销.
    优先出版日期:  2024-09-30 , DOI: 10.13328/j.cnki.jos.007234
    [摘要] (126) [HTML] (0) [PDF 3.97 M] (885)
    摘要:
    最小弱连通支配集问题是一个经典的NP难问题, 在许多领域都有广泛的应用. 提出一种高效的局部搜索算法求解该问题. 在该算法中, 首先采用一个基于锁定顶点和频率反馈信息的初始解构造方法. 该方法可以确保将一定处于最优解中的顶点和大概率存在于最优解中的顶点添加到初始解中, 从而可以得到高质量的初始解. 其次, 提出基于双层格局检测策略, 年龄属性和禁忌策略的方法来避免循环问题. 第三, 提出扰动策略, 使得算法能够有效跳出局部最优. 第四, 将两个评分函数DscoreNscore与避免循环问题的策略相结合, 提出有效的顶点选择方法, 帮助算法选择适合添加到候选解中或从当前候选解中删除的顶点. 最后, 与现有的最优启发式算法和CPELX求解器, 在4组基准测试实例上对提出的局部搜索算法进行了对比. 实验结果表明, 该算法在4组经典基准测试实例上表现出更好的性能.
    优先出版日期:  2024-09-30 , DOI: 10.13328/j.cnki.jos.007218
    摘要:
    在Q1量子模型下, 针对Lai-Massey结构、Misty结构、Type-1型广义Feistel结构、类SMS4 广义Feistel结构和类MARS 广义Feistel结构, 提出了低数据量子密钥恢复攻击. 该攻击仅需选择常数项级别规模的明密文, 通过分析分组密码结构的加密过程, 利用Grover算法对某些中间态进行搜索计算, 从而恢复密钥. 且该攻击属于Q1模型, 相比于Q2模型, 无需量子叠加查询, 更具有实际意义. 对于3轮Lai-Massey结构, 相比于其他量子攻击, 该攻击仅需$ \mathrm{O}(1) $数据, 且属于Q1模型, 在复杂度乘积(时间×数据×经典存储×量子比特)评估上降低了$ n{2^{n/4}} $因子. 对于6轮Misty结构, 该方法依然保留着低数据复杂度的优势, 尤其是6轮Misty L/R-FK结构, 在复杂度乘积评估上降低了$ {2^{n/2}} $因子. 对于9轮3分支Type-1型广义Feistel结构, 与其他量子攻击在复杂度乘积评估上保持一致, 该攻击依然保留着低数据复杂度的优势, 且属于选择明文攻击. 此外, 也给出了针对类SMS4 广义Feistel结构和类MARS 广义Feistel结构的低数据量子密钥恢复攻击, 补充了其在Q1模型下的安全性评估.
    优先出版日期:  2024-09-14 , DOI: 10.13328/j.cnki.jos.007186
    [摘要] (145) [HTML] (0) [PDF 6.32 M] (1170)
    摘要:
    在联邦学习领域, 激励机制是吸引高质量数据持有者参与联邦学习并获得更优模型的重要工具. 然而, 现有的联邦学习研究鲜有考虑到参与者可能滥用激励机制的情况, 也就是他们可能会通过操纵上传的本地模型信息来获取更多的奖励. 针对这一问题进行了深入研究. 首先, 明确定义联邦学习中的参与者激励欺诈攻击问题, 并引入激励成本比来评估不同激励欺诈攻击方法的效果以及防御方法的有效性. 其次, 提出一种名为“梯度放大攻击(gradient scale-up attack)”的攻击方法, 专注于对模型梯度进行激励欺诈. 这种攻击方法计算出相应的放大因子, 并利用这些因子来提高本地模型梯度的贡献, 以获取更多奖励. 最后, 提出一种高效的防御方法, 通过检验模型梯度的二范数值来识别欺诈者, 从而有效地防止梯度放大攻击. 通过对MNIST等数据集进行详尽地分析和实验验证, 研究结果表明, 所提出的攻击方法能够显著提高奖励, 而相应的防御方法能够有效地抵制欺诈参与者的攻击行为.
    优先出版日期:  2024-09-11 , DOI: 10.13328/j.cnki.jos.007187
    [摘要] (107) [HTML] (0) [PDF 7.96 M] (1087)
    摘要:
    点云自监督表示学习以无标签预训练的方式, 探索三维拓扑几何空间结构关系并捕获特征表示, 可应用至点云分类、分割以及物体探测等下游任务. 为提升预训练模型的泛化性和鲁棒性, 提出基于双向拟合掩码重建的多模态自监督点云表示学习方法, 主要由3部分构成: (1) 逆密度尺度指导下的“坏教师”模型通过基于逆密度噪声表示和全局特征表示的双向拟合策略, 加速掩码区域逼近真值. (2) 基于StyleGAN的辅助点云生成模型以局部几何信息为基础, 生成风格化点云并与掩码重建结果在阈值约束下融合, 旨在抵抗重建过程噪声对表示学习的不良影响. (3) 多模态教师模型以增强三维特征空间多样性及防止模态信息崩溃为目标, 依靠三重特征对比损失函数, 充分汲取点云-图像-文本样本空间中所蕴含的潜层信息. 所提出的方法在ModelNet、ScanObjectNN和ShapeNet这3种点云数据集上进行微调任务测试. 实验结果表明, 预训练模型在点云分类、线性支持向量机分类、小样本分类、零样本分类以及部件分割等点云识别任务上的效果达到领先水平.
    优先出版日期:  2024-09-11 , DOI: 10.13328/j.cnki.jos.007185
    [摘要] (117) [HTML] (0) [PDF 6.07 M] (1089)
    摘要:
    服务描述中包含的应用场景信息有限, 使得以功能相似度计算为主的Mashup服务组件Web API推荐与需求预期常存在差异, 功能匹配精确度有待进一步提高. 部分研究者虽利用Web API的协作关联提升推荐兼容性, 但忽视了功能关联对Mashup服务创建的负反馈影响, 从而限制了推荐多样性的提升. 为此, 提出一种融合潜在联合词与异质关联兼容的Mashup服务的组件Web API推荐方法. 该方法为Mashup需求和Web API提取潜在应用场景联合词并融入到功能向量的生成中, 进而提高二者功能相似度的匹配精确度, 以获得高质量的候选组件Web API集合. 将功能关联与协作关联建模为异质服务关联, 并利用异质关联兼容替代传统方法中的协作兼容, 以提升Web API的推荐多样性. 相较于对比方法, 所提方法在评价指标RecallPrecisionNCDG上分别提升了4.17%–16.05%, 4.46%–16.62%与5.57%–17.26%, 多样性指标ILS降低了8.22%–15.23%. 冷启动Web API推荐的RecallPrecision指标值分别为非冷启动Web API推荐的47.71%和46.58%. 实验表明所提方法不仅提升了Web API推荐质量, 而且对冷启动Web API具有很好的推荐效果.
    优先出版日期:  2024-09-04 , DOI: 10.13328/j.cnki.jos.007167
    [摘要] (181) [HTML] (0) [PDF 6.75 M] (1407)
    摘要:
    近年来, 超导量子互连技术的研究取得了重要进展, 这为构建分布式超导量子计算架构提供了有效途径. 分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束. 为在分布式架构上调度和执行量子线路, 需要通过专门的映射工序对量子线路进行适配底层架构的变换, 并将变换后的线路交由网络中多个QPU (quantum processing unit)协同运行. 分布式量子线路映射需向原始线路插入辅助的量子态移动操作, 这些操作(尤其是QPU间量子态移动操作)具有较高的错误率. 因此, 减少映射所需的量子态移动操作数对于保证分布式计算的成功率至关重要. 基于超导量子互连技术和超导QPU的技术特征构建一种抽象的分布式量子计算模型, 并基于该抽象模型提出一种分布式量子线路映射方法, 该方法由量子比特分布式映射和量子态路由两个核心模块组成, 前者以量子态路由开销为代价函数, 通过局部寻优和模拟退火相结合的策略生成近最优的初始映射; 后者根据量子门执行的不同情形构建多个启发式量子态路由策略, 并通过灵活应用这些策略最小化插入的量子态移动操作数. 所构建的分布式抽象模型屏蔽了底层架构中和量子线路映射无关的物理细节, 这使得基于该模型的映射方法可适用于一类分布式超导架构而非某个特定架构. 另外, 所提方法可作为辅助工具参与分布式网络拓扑结构的设计和评价. 实验结果表明, 所提算法可以有效降低映射所需的QPU内量子态移动操作(即SWAP门)数和QPU间量子态移动操作(即ST门)数. 相较已有算法, 在所有基准线路上平均减少69.69%的SWAP门和85.88%的ST门, 且时间开销和已有算法接近.
    优先出版日期:  2024-09-04 , DOI: 10.13328/j.cnki.jos.007178
    [摘要] (95) [HTML] (0) [PDF 5.87 M] (1254)
    摘要:
    软件可追踪性被认为是软件开发过程可信的一个重要因素, 确保对软件开发过程的可见性并进行全面追踪, 从而提高软件的可信度和可靠性. 近年来, 自动化的软件可追踪性恢复方法取得了显著进展, 但在企业项目中的应用仍面临挑战. 通过调研研究和实验案例分析, 发现工业界场景中可追踪性模型表现不佳的3个关键挑战: 原始数据低质量、样本稀疏性和不平衡性, 并提出一种结合主动学习和半监督学习的软件可追踪性恢复框架STRACE(AL+SSL). 该框架通过选择有价值的标注样本和生成高质量的伪标签样本, 有效利用未标注的样本, 克服数据低质量和稀疏性挑战. 实验基于10个样本规模在几万至近百万个issue-commit跟踪对实例的企业项目, 进行多组对比实验, 结果表明该框架在当前真实企业项目软件可追踪性恢复任务上具有有效性. 其中消融实验结果表明STRACE(AL+SSL)中主动学习模块所选择的无标签样本在可追踪性恢复任务中发挥了更为重要的作用. 此外, 还验证各个模块最佳的样本选择策略组合, 包括调整后的半监督类平衡自训练样本选择策略CBST-Adjust和低成本高效率的主动学习子模块互信息SMI_Flqmi样本选择策略.
    优先出版日期:  2024-08-28 , DOI: 10.13328/j.cnki.jos.007233
    [摘要] (205) [HTML] (0) [PDF 4.99 M] (1426)
    摘要:
    域适应(domain adaptation, DA)是一类训练集(源域)和测试集(目标域)数据分布不一致条件下的机器学习任务. 其核心在于如何克服数据域的分布差异对分类器泛化能力的负面影响, 即设计合理而有效的训练策略, 通过最小化数据域之间的差异, 获得高泛化能力的分类模型. 研究了源域中包含标注信息, 目标域中缺少标注信息条件下的无监督域适应(unsupervised domain adaptation, UDA)任务. 将其形式化为如何利用部分标注样本和其余未标注样本进行分类器训练的半监督学习问题, 进而引入伪标签(pseudo label, PL)和一致性正则化(consistent regularization, CR)这两种半监督学习技术, 对所观测数据域有目的进行标记和样本扩增, 使用扩增后的训练样本学习分类器, 从而, 在无监督域适应任务上取得了良好的泛化能力. 提出一种融合扩增技术的无监督域适应(augmentation-based unsupervised domain adaptation, A-UDA)方法, 在分类器的训练过程中: 首先, 使用随机数据增强技术(random augmentation)对目标域中的未标注样本进行扩增, 即样本扩增; 其次, 利用模型的预测输出结果, 对高置信度的未标注样本添加伪标记, 即标注扩增; 最后, 使用扩增后的数据集训练分类模型, 利用最大均值差异(maximum mean difference, MMD)计算源域和目标域的分布距离, 通过最小化该分布距离获得具有高泛化能力的分类器. 在MNIST-USPS, Office-Home和ImageCLEF-DA等多个无监督域适应任务上对所提出方法进行比较, 与现有其他工作相比, 获得了更好的分类效果.
    优先出版日期:  2024-08-21 , DOI: 10.13328/j.cnki.jos.007230
    [摘要] (120) [HTML] (0) [PDF 8.85 M] (1549)
    摘要:
    安卓操作系统和恶意软件的持续进化导致现有检测方法的性能随时间大幅下降. 提出一种基于API聚类和调用图优化的安卓恶意软件检测方法DroidSA (droid slow aging). 首先, 在恶意软件检测之前进行API聚类, 生成代表API功能的聚类中心. 通过设计API句子概括API的名称、权限等重要特征并使用自然语言处理工具对API句子的语义信息进行挖掘, 获得更全面反映API语义相似性的嵌入向量, 使聚类结果更为准确. 然后, 为了确保提取到更能准确反映软件行为逻辑的API上下文信息, 采用调用图优化方法对从待检测软件中提取的函数调用图进行优化并得到优化后的调用图, 在删除图中难以识别的未知方法的同时保留API节点之间的连接性. 为了提高对安卓框架和恶意软件变化的适应性, DroidSA从优化后的调用图中提取函数调用对, 将调用对中的API抽象为API聚类时获得的聚类中心. 最后, 使用独热编码生成特征向量, 并从随机森林、支持向量机和K近邻算法中选择表现最好的分类器进行恶意软件检测. 实验结果表明, DroidSA的恶意软件检测平均F1值为96.7%; 在消除时间偏差的实验设置下, 经2012–2013年的软件样本集合训练后, DroidSA对2014–2018年的恶意软件样本的检测平均F1值达到82.6%. 与经典检测方法MaMaDroid和MalScan等相比, DroidSA始终能将各项检测指标稳定地维持在高水平且受到时间变化的影响较小, 能有效检测进化后的恶意软件.
    优先出版日期:  2024-08-21 , DOI: 10.13328/j.cnki.jos.007204
    [摘要] (97) [HTML] (0) [PDF 4.17 M] (1406)
    摘要:
    基于进化优化的消息传递接口(message-passing interface, MPI)程序路径覆盖测试中, 进化个体适应值的评价需要反复执行MPI程序, 而程序的重复执行往往需要高昂的计算成本. 鉴于此, 提出一种代理辅助多任务进化优化引导的MPI程序路径覆盖测试用例生成方法, 该方法能够显著约减MPI程序的实际执行次数, 进而提高测试效率. 首先, 面向MPI程序目标路径内每条目标子路径, 训练相应的代理模型; 然后, 基于对应每条目标子路径的代理模型, 估计相应测试用例生成优化任务中进化个体的适应值, 并形成候选测试用例集; 最后, 基于候选测试用例集及其面向每条目标子路径的真实适应值, 更新对应每条目标子路径的代理模型. 将所提方法应用于7个基准MPI程序的基本路径覆盖测试中, 并与其他若干先进方法比较. 实验结果表明, 所提方法能够在确保测试用例生成高有效性的前提下, 显著提高测试效率.
    优先出版日期:  2024-08-21 , DOI: 10.13328/j.cnki.jos.007179
    [摘要] (180) [HTML] (0) [PDF 7.36 M] (1441)
    摘要:
    本地差分隐私被广泛地应用于保护用户隐私的同时收集和分析敏感数据, 但是也易于受到恶意用户的伪数据攻击. 子集选择机制和环机制是具有最优效用的频率估计本地差分隐私方案, 然而, 它们的抗伪数据攻击能力尚缺少深入地分析和评估. 因此, 针对子集选择机制和环机制, 设计伪数据攻击方法, 以评估其抗伪造攻击的能力. 首先讨论随机扰动攻击和随机项目攻击, 然后构建针对子集选择机制和环机制的攻击效用最大化伪数据攻击方法. 攻击者可以利用该攻击方法, 通过假用户向数据收集方发送精心制作的伪数据, 最大化地提高攻击者所选目标值的频率. 理论上严格分析和对比攻击效用, 并通过实验评估伪数据攻击效果, 展示伪数据攻击对子集选择机制和环机制的影响. 最后, 提出防御措施, 可缓解伪数据攻击的效果.
    优先出版日期:  2024-08-21 , DOI: 10.13328/j.cnki.jos.007180
    [摘要] (84) [HTML] (0) [PDF 5.59 M] (1352)
    摘要:
    社交网络情感数据最为显著的特征是其动态性. 针对群体文本情感漂移分析任务, 提出一种高斯混合多层自编码器(GHVAE)用于情感漂移检测. GHVAE将高斯混合分布作为潜在分布的假设先验, 对应潜在分布的多中心性质从而提高模型性能. 此外, 还对原始HVAE模型内建的漂移度量算法进行改进, 改善了高漂移值之间过于接近导致分类性能下降的问题. 采用多项对照实验和消融实验用于验证GHVAE的性能, 实验结果显示新模型的创新点为其漂移检测表现带来了提升.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007213
    [摘要] (395) [HTML] (0) [PDF 5.27 M] (2122)
    摘要:
    知识图谱补全任务旨在根据已有的事实三元组(头实体、关系、尾实体)来挖掘知识图谱中缺失的事实三元组. 现有的研究工作主要致力于利用知识图谱中的结构信息来进行知识图谱补全任务. 然而, 这些工作忽略了知识图谱中蕴含的其他模态的信息也可能对知识图谱补全有帮助. 并且, 由于基于特定任务的知识通常没有被注入通用的预训练模型, 因而如何在抽取模态信息的过程中融合任务的相关知识变得至关重要. 此外, 因为不同模态特征对于知识图谱补全的贡献不一样, 所以如何有效地保留有用的多模态信息也是一大挑战. 为了解决上述问题, 提出一种融合任务知识的多模态知识图谱补全方法. 利用在当前任务上微调过的多模态编码器, 来获取不同模态下的实体向量表示. 并且, 通过一个基于循环神经网络的模态融合过滤模块, 去除与任务无关的多模态特征. 最后, 利用同构图网络表征并更新所有特征, 从而有效地完成多模态知识图谱补全任务. 实验结果表明, 所提出的方法能有效地抽取不同模态的信息, 并且能够通过进一步的多模态过滤融合来增强实体的表征能力, 进而提高多模态知识图谱补全任务的性能.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007219
    [摘要] (103) [HTML] (0) [PDF 5.26 M] (1490)
    摘要:
    自训练是缓解标注数据不足问题的常见方法, 其通常做法是利用教师模型去获取高置信度的自动标注数据作为可靠数据. 然而在低资源场景关系抽取任务上, 该方法不仅存在教师模型泛化能力差的问题, 而且受到关系抽取任务中易混淆关系类别的影响, 导致难以从自动标注数据中有效地识别出可靠数据, 同时产生大量难以利用的低置信度噪音数据. 因此, 提出一种有效利用低置信度数据的自训练方法ST-LRE (self-training approach for low-resource relation extraction). 该方法一方面基于复述增强的预测方法来加强教师模型筛选可靠数据的能力; 另一方面, 基于部分标注模式从低置信度数据中提炼出可利用的模糊数据. 基于模糊数据的候选类别集合, 提出了基于负标签集合的负向训练方法. 最后, 为了支持可靠数据和模糊数据的融合训练, 提出一种支持正负向训练的联合方法. 在两个广泛使用的关系抽取数据集SemEval2010 Task-8和Re-TACRED的低资源场景上进行实验, ST-LRE方法取得显著且一致的提升.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007220
    [摘要] (89) [HTML] (0) [PDF 6.30 M] (1721)
    摘要:
    学习型索引因其低内存占用和高查询性能的特点, 正辅助或逐步取代传统的索引结构. 然而, 数据更新导致的在线重新训练使其无法适应数据频繁更新的场景. 为了在不过多消耗内存的前提下 尽量避免由于数据频繁更新导致的索引重构, 提出了一种自适应的感知更新分布学习型索引结构DRAMA. 使用类LSM-Tree的延迟学习方式主动学习数据更新的分布特征; 利用近似拟合技术快速建立更新分布模型; 采用模型合并策略代替频繁的重训练过程; 采用一种混合压缩技术降低索引中模型参数的内存占用率. 在真实和合成的数据集上构建了索引并进行验证. 结果表明, 相比于传统索引和最先进的学习型索引, 该索引可以在不额外消耗过多内存的情况下, 有效降低数据更新环境下的查询延迟.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007226
    [摘要] (186) [HTML] (0) [PDF 17.33 M] (1563)
    摘要:
    软件开发者在编写代码时, 常常会参考项目中实现了相似功能的代码. 代码生成模型在生成代码时也具有类似特点, 会以输入中给出的代码上下文信息作为参考. 基于检索增强的代码补全技术与这一思想类似, 该技术从检索库中检索到外部代码作为额外信息, 对生成模型起到提示的作用, 从而生成目标代码. 现有的基于检索增强的代码补全方法将输入代码和检索结果直接拼接到一起作为生成模型的输入, 这种方法带来了一个风险, 即检索到的代码片段可能并不能对模型起到提示作用, 反而有可能会误导模型, 导致生成的代码结果不准确. 此外, 由于无论检索到的外部代码是否与输入代码完全相关, 都会被与输入代码拼接起来输入到模型, 这导致该方法的效果在很大程度上依赖于代码检索阶段的准确性. 如果检索阶段不能返回可用的代码片段, 那么后续的代码补全效果可能也会受到影响. 首先, 针对现有的代码补全方法中的检索增强策略进行了经验研究, 通过定性和定量实验分析检索增强的各个阶段对于代码补全效果的影响, 在经验研究中重点识别了代码粒度、代码检索方法、代码后处理方法这3种影响检索增强效果的因素. 接着, 基于经验研究的结论设计改进方法, 提出一种通过分阶段优化代码检索策略来改进检索增强的代码补全方法MAGIC (multi-stage optimization for retrieval augmented code completion), 设计了代码切分、二次检索精排、模板提示生成等改进策略, 可以有效地提升检索增强对代码补全模型的辅助生成作用, 并减少模型在代码生成阶段受到的噪声干扰, 提升生成代码的质量. 最后, 在Java代码数据集上的实验结果表明: 与现有的基于检索增强的代码补全方法相比, 该方法在编辑相似度和完全匹配指标上分别提升了6.76个百分点和7.81个百分点. 与6B参数量的代码大模型相比, 该方法能够在节省94.5%的显存和73.8%的推理时间的前提下, 在编辑相似度和完全匹配指标上分别提升了5.62个百分点和4.66个百分点.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007228
    [摘要] (97) [HTML] (0) [PDF 5.05 M] (1464)
    摘要:
    在软件工程领域, 代码库承载着丰富的知识资源, 可以为开发者提供编程实践的案例参考. 源代码中频繁出现的模式化重复片段, 若能以代码模板的形式有效提炼, 就能显著提升编程效率. 当前实践中, 开发者常常通过源代码搜索复用现有解决方案, 然而此方法往往产生大量相似且冗余的结果, 增加了后续筛选工作的负担. 与此同时, 以克隆代码为基础的模板挖掘技术往往未能涵盖由分散小克隆片段构成的广泛模式, 进而限制了模板的实用性. 提出了一种基于代码克隆检测的代码模板提取和检索方法, 通过拼接多个片段级克隆以及提取和聚合方法级克隆的共享部分, 实现了更高效的函数级代码模板提取, 并解决了模板质量问题. 基于所挖掘的代码模板, 提出了一种代码结构特征的三元组表示法, 有效地对纯文本特征进行补充, 并实现了高效而简洁的结构表示. 此外, 提出了一种结构和文本检索相结合的模板特征检索方法, 以便通过匹配编程上下文的特征来检索这些模板. 基于该方法实现的工具CodeSculptor, 在包含45个高质量Java开源项目的代码库测试中展现了其提取高质量代码模板的显著能力. 结果表明, 该工具挖掘的模板平均可实现减少60.87%的代码量, 且有92.09%是通过拼接片段级克隆产生的, 这一比例的模板在传统方法中是无法识别出来的, 这印证了该方法在识别和构建代码模板方面的卓越性能. 在代码模板检索和推荐的实验中, Top-5检索结果精确度达到了96.87%. 通过对随机选择的9600个模板进行的初步案例研究, 讨论了模板的实用性, 并发现大多数抽样代码模板在语义上是完整的, 少数无意义的模板表明该模板提取工作未来的潜力. 用户研究进一步表明, 使用CodeSculptor能够更有效率地完成代码开发任务.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007227
    [摘要] (74) [HTML] (0) [PDF 7.14 M] (1288)
    摘要:
    在基于模型的诊断领域中, 因为极小冲突集 (minimal conflict set, MCS) 的极小碰集 (minimal hitting set, MHS) 即为待诊断设备的候选诊断, 所以计算极小碰集是候选诊断的一个关键步骤. 其中, 极小碰集是一个NP-hard约束求解问题, 随着问题规模增大, 求解难度成指数级增长. Boolean算法是计算极小碰集的经典算法, 然在求解过程中, 解集的极小化却占据运算的绝大部分时间. 为了解决该问题并提升计算效率, 提出了结合可疑集合簇计算极小碰集的BWSS (Boolean with suspicious sets) 算法, 通过深度分析Boolean算法生成树规则, 找到使候选解成为超集的集合, 在向根节点扩展元素时, 如果候选解与可疑集合簇中至少1个集合交集为空, 那么该解为极小候选解, 否则删除该解, 通过递归的策略保证算法结束时产生且仅产生所有极小碰集. 除此之外, 每个候选解在极小化时, 至少存在m (m$ \geqslant $1)个元素甚至整个解无须极小化. 理论上, BWSS算法的复杂度要远低于Boolean算法. 通过随机数据及大量基准电路数据, 实验结果表明, 所提算法与目前最先进的几种算法相比, 运行时间减少了几个数量级.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007221
    [摘要] (118) [HTML] (0) [PDF 8.32 M] (1445)
    摘要:
    布谷鸟过滤器是一种空间高效的近似成员资格查询数据结构, 在网络系统中被广泛应用于网络路由、网络测量和网络缓存等. 然而, 传统的布谷鸟过滤器设计并未充分考虑在网络系统中, 部分或全部查询集合已知的情况, 以及这部分查询具有代价的情况. 这导致现有的布谷鸟过滤器在该情况下性能无法达到最优. 为此, 设计了指纹可变哈希布谷鸟过滤器(VHCF). VHCF提出了指纹可变哈希技术, 感知已知的查询集合及其代价, 通过为每个哈希桶搜索最优指纹哈希函数, 从而大幅降低误判代价. 随后, 每个哈希桶的最优指纹哈希函数会被独立地记录进入每个哈希桶内的哈希索引单元. 此外, 提出了一种单哈希的技术用于降低引入指纹可变哈希技术导致的额外计算开销, 还对VHCF的操作复杂度和误判率进行了理论分析. 最后, 实验和理论结果都一致表明, VHCF在保证查询吞吐量相当的情况下, 取得了比现有布谷鸟过滤器及其变种都要低的误判率. 特别的, 在保持指纹长度相同的情况下, VHCF只需为每个哈希索引单元分配 1–2比特, 即可相比标准布谷鸟过滤器降低误判率12.5%–50%.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007222
    [摘要] (85) [HTML] (0) [PDF 6.29 M] (1356)
    摘要:
    智能合约是运行在以太坊区块链上的脚本, 能够处理复杂的业务逻辑. 大多数的智能合约采用Solidity语言开发. 近年来智能合约的安全问题日益突出, 为此提出了一种采用时序逻辑程序设计语言(MSVL)与命题投影时序逻辑(PPTL)的智能合约形式化验证方法, 开发了SOL2M转换器, 实现了Solidity程序到MSVL程序的半自动化建模, 但是缺乏对Solidity与MSVL操作语义等价性的证明. 首先采用大步语义的形式, 从语义元素、求值规则、表达式以及语句4个层次详细定义了Solidity的操作语义. 其次给出了Solidity与MSVL的状态、表达式和语句之间的等价关系, 并基于Solidity与MSVL的操作语义, 使用结构归纳法对表达式操作语义进行等价证明, 同时使用规则归纳法对语句操作语义进行等价证明.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007223
    [摘要] (146) [HTML] (0) [PDF 5.42 M] (1443)
    摘要:
    形式化方法在需求一致性验证领域已经取得了显著的成就. 然而, 随着嵌入式系统需求复杂度的不断提升, 需求一致性验证面临着状态空间过大的挑战. 为了有效约减验证的状态空间, 同时考虑到嵌入式系统需求所涉及的设备强依赖性, 提出一种复杂嵌入式系统需求一致性的组合验证方法. 它基于需求分解, 识别需求间的依赖关系, 通过这些依赖关系组装验证子系统, 从而实现对复杂嵌入式系统需求的组合验证, 并能初步定位到不一致的需求. 具体而言, 采用问题框架方法对需求进行建模和分解, 并预设领域设备知识库对设备的物理特性进行建模. 在验证子系统的组装过程中, 生成预期软件的行为模型, 并结合物理设备的模型进行动态组装. 最后, 采用航空领域机载侦查系统进行了实例研究, 验证了方法的可行性和有效性, 并通过5个案例评估证实了验证状态空间的显著减小. 此方法为复杂嵌入式系统需求的验证提供了一种切实可行的解决方案.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007208
    [摘要] (169) [HTML] (0) [PDF 3.90 M] (1724)
    摘要:
    众包是一种分布式解决问题的方式, 可以降低成本并有效利用资源. 区块链技术的引入解决了传统众包平台集中化程度过高的问题, 但它的透明性却带来了隐私泄露的风险. 传统的匿名认证虽然可以隐藏用户身份, 但存在匿名滥用的问题, 同时还增加了对工作者筛选的难度. 提出一种去中心化可问责属性认证方案, 并将其与区块链结合设计一种新型众包方案. 该方案利用去中心化属性加密与非交互式零知识证明技术, 在保护用户身份隐私的同时实现可链接性和可追踪性, 并且请求者可以制定访问策略来筛选工作者. 此外, 该方案通过门限秘密分享技术实现了属性授权机构和追踪组, 提高系统的安全性. 通过实验仿真和分析证明该方案在时间和存储开销上符合实际应用需求.
    优先出版日期:  2024-07-03 , DOI: 10.13328/j.cnki.jos.007224
    [摘要] (309) [HTML] (0) [PDF 5.02 M] (1690)
    摘要:
    Python丰富的开发生态提供了多种多样的第三方库, 极大地提高了开发者的开发效率和质量. 第三方库开发者通过对代码底层的封装, 使得上层应用开发者只需调用API就可以使用相关功能, 从而快速完成开发任务. 然而, 第三方库API不会保持恒定不变. 由于缺陷修复、代码重构、功能新增等, 第三方库代码会不断更新. 更新后部分API发生了不兼容的更改, 从而导致上层应用运行异常终止或者产生不一致的结果. 因此, Python第三方库API的兼容性问题已成为目前开源生态中亟需解决的问题之一. 目前已有相关研究工作对Python第三方库API兼容性问题展开研究, 但兼容性问题原因的分类覆盖不够完全, 无法输出兼容性问题的细粒度原因. 为此, 对Python第三方库API兼容性问题的表现形式和产生原因开展了实证研究, 并针对性提出了Python不兼容API的静态检测方法. 首先, 针对flask库和pandas库的总共6个版本对, 通过收集版本更新日志、运行回归测试相结合的方法, 共收集108个不兼容API对. 接着, 对收集到的数据开展实证研究, 总结了Python第三方库API兼容性问题的表现形式和产生原因. 最后, 提出了一种基于静态分析技术的Python不兼容API的检测方法, 输出句法层面的不兼容API问题产生原因. 在4个常用Python第三方库的共计12个版本对上进行了实验评估, 结果表明检测方法具有良好的有效性、泛化性、时间性能、空间性能以及易用性.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007209
    [摘要] (153) [HTML] (0) [PDF 3.16 M] (1639)
    摘要:
    首次对时间有序事务数据中聚簇频繁模式的挖掘问题进行研究. 为了解决Naive算法处理该问题时存在冗余运算的问题, 提出一种改进的聚簇频繁模式挖掘算法ICFPM (improved cluster frequent pattern mining). 该算法使用2种优化策略, 一方面可以利用定义的参数minCF, 有效减少挖掘结果的搜索空间, 另一方面可以参考(n–1)项集的判别结果加速聚簇频繁n项集的判别过程, 算法还使用了ICFPM-list结构来减少候选n项集的构建开销. 基于两个真实世界数据集的仿真实验证明了ICFPM算法的有效性, 与Naive算法相比, ICFPM算法在时间和空间效率方面得到了大幅度的提高, 是解决聚簇频繁模式挖掘的有效方法.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007210
    [摘要] (181) [HTML] (0) [PDF 5.69 M] (1561)
    摘要:
    DEFAULT是于2021年亚洲密码学年会中提出的一种新型轻量级密码算法, 适用于保护物联网中的微型芯片、微控制器和传感器等设备的信息安全. 基于唯密文的基本假设, 针对DEFAULT密码提出了一种基于代数关系的统计故障分析方法. 该方法使用随机半字节故障模型, 通过对代数关系的构造分析并结合故障注入前后中间状态的统计分布变化来破译密码. 此外, 采用AD检验-平方欧氏距离(AD-SEI)、AD检验-极大似然估计(AD-MLE)和AD检验-汉明重量(AD-HW)等新型区分器, 最少仅需1344个故障即可以99%及以上的成功率破解该算法的128比特原始密钥. 理论分析和实验结果表明, DEFAULT密码不能抵抗基于代数关系的统计故障分析的攻击. 该研究为其他轻量级分组密码算法的安全性分析提供了有价值的参考.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007211
    [摘要] (366) [HTML] (0) [PDF 1.99 M] (1498)
    摘要:
    现实场景中, 电子商务、消费点评、社交网络等不同平台用户之间往往存在着丰富的交互关系, 将其构建成图结构, 并基于图神经网络GNN进行恶意用户检测已成为相关领域近几年的研究趋势. 然而, 由于恶意用户通常占比较小且存在伪装和标记成本高的情况, 导致了数据不平衡、数据不一致和标签稀缺等问题, 从而使传统GNN方法的效果受到了一定的限制. 提出基于半监督图表示学习的恶意节点检测方法, 该方法通过改进的GNN方法进行图节点表示学习并对图中节点分类. 具体地, 构造类别感知的恶意节点检测方法(class-aware malicious node detection, CAMD), 引入类别感知注意力系数、不一致图神经网络编码器、类别感知不平衡损失函数以解决数据不一致与不平衡问题. 接下来, 针对CAMD在标签稀缺情况下检测效果受限的问题, 提出基于图对比学习的方法CAMD+, 引入数据增强、自监督图对比学习及类别感知图对比学习, 使模型可以从未标记的数据中学习更多信息并充分利用稀缺的标签信息. 最后, 在真实数据集上的大量实验结果验证所提方法优于所有基线方法, 且在不同程度的标签稀缺情况下都表现出良好的检测效果.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007206
    [摘要] (171) [HTML] (0) [PDF 9.76 M] (1468)
    摘要:
    在文本和表格的数值问答任务中, 模型需要在给定的文本和表格下进行数值推理. 任务目标是生成一个包含多步数值计算的计算程序, 并将计算程序结果作为问题的答案. 为了建模文本和表格, 当前工作通过模板将表格线性化为一系列单元格句子, 再基于文本和单元格句子设计生成器以产生计算程序. 然而, 这种方法面临一个特定问题: 由模板生成的单元格句子间差异微小, 生成器难以区分回答问题所必需的单元格句子(支撑单元格句子)和回答问题无关的单元格句子(干扰单元格句子), 最终导致模型基于干扰单元格句子生成错误的计算程序. 为了解决这个问题, 在生成器上设计一个多粒度单元格语义对比方法, 其主要目的是增加支撑单元格句子和干扰单元格句子表示距离, 进而帮助生成器区分它们. 这个方法由粗粒度单元格语义对比和细粒度单元格语义构成元素对比(包括行名对比, 列名对比及单元格数值对比)共同构成. 实验结果验证所提出的多粒度单元格语义对比方法可以使生成器在FinQA和MultiHiertt数值推理数据集上取得优于基准模型的表现. 在FinQA数据集上, 多粒度单元格语义对比方法上最高可以提升答案正确率达到3.38%; 特别地, 在更为困难的层次化表格数据集MultiHiertt中, 该方法使生成器的正确率显著提高了7.8%. 同大语言模型GPT-3结合思维链相比, 基于多粒度单元格语义对比的生成器性能在FinQA和MultiHiertt上分别表现出 5.44%和1.69%的答案正确率提升. 后续分析实验进一步验证多粒度单元格语义对比方法有助于生成器区分支撑单元格句子和干扰单元格句子.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007207
    [摘要] (136) [HTML] (0) [PDF 6.84 M] (1584)
    摘要:
    当下, 软件系统中元素间的交互错综复杂, 涵盖了包间、类间和函数间等多种关系. 准确理解这些关系对于优化系统结构以及提高软件质量至关重要. 分析包间关系有助于揭示模块间的依赖性, 有利于开发者更好地管理和组织软件架构; 而类间关系的明晰理解则有助于构建更具扩展性和可维护性的代码库; 清晰了解函数间关系则能够迅速定位和解决程序中的逻辑错误, 提升软件的鲁棒性和可靠性. 然而, 现有的软件系统交互关系预测存在着粒度差异、特征不足和版本变化等问题. 针对这一挑战, 从软件包、类和函数这3种粒度构建相应的软件网络模型, 并提出一种结合局部和全局特征的全新方法, 通过软件网络的特征提取和链路预测方式, 来增强对软件系统的分析和预测. 该方法基于软件网络的构建和处理, 具体步骤包括利用node2vec方法学习软件网络的局部特征, 并结合拉普拉斯特征向量编码以综合表征节点的全局位置信息. 随后, 利用Graph Transformer模型进一步优化节点属性的特征向量, 最终完成软件系统的交互关系预测任务. 在3个Java开源项目上进行广泛的实验验证, 包括版本内和跨版本的交互关系预测任务. 实验结果显示, 相较于基准方法, 所提方法在版本内的预测任务中, 平均AUCAP值分别提升8.2%和8.5%; 在跨版本预测任务中, 平均AUCAP值分别提升3.5%和2.4%.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007199
    [摘要] (180) [HTML] (0) [PDF 4.48 M] (1519)
    摘要:
    社交媒体文本摘要旨在为面向特定话题的大规模社交媒体短文本(称为帖子)产生简明扼要的摘要描述. 考虑帖子表达内容短小、非正式等特点, 传统方法面临特征稀疏与信息不足的挑战. 近期研究利用帖子间的社交关系学习更好的帖子表示并去除冗余信息, 但其忽略了真实社交媒体情景中存在的不可靠噪声关系, 使得模型会误导帖子的重要性与多样性判断. 因此, 提出一种无监督模型DSNSum, 其通过去除社交网络中的噪声关系来改善摘要性能. 首先, 对真实社交关系网络中的噪声关系进行了统计验证; 其次, 根据社会学理论设计两个噪声函数, 并构建一种去噪图自编码器(denoising graph auto-encoder, DGAE), 以降低噪声关系的影响, 并学习融合可信社交关系的帖子表示; 最终, 通过稀疏重构框架选择保持覆盖性、重要性及多样性的帖子构成一定长度的摘要. 在两个真实社交媒体(Twitter与新浪微博)共计22个话题上的实验结果证明了所提模型的有效性, 也为后续相关领域的研究提供了新的思路.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007200
    [摘要] (269) [HTML] (0) [PDF 6.56 M] (1672)
    摘要:
    针对基于图卷积神经网络(GCN)的人体姿态估计方法不能充分聚合关节点时空特征、限制判别性特征提取的问题, 构造基于平行多尺度时空图卷积的网络模型(PMST-GNet), 提高三维人体姿态估计的性能. 该模型首先设计对角占优的时空注意力图卷积(DDA-STGConv), 构建跨域时空邻接矩阵, 对骨架关节点信息进行基于自约束和注意力机制约束的建模, 增强节点间的信息交互; 然后, 通过设计图拓扑聚合函数构造不同的图拓扑结构, 以DDA-STGConv为基本单元构建平行多尺度子网络模块(PM-SubGNet); 最后, 为了更好地提取骨架关节的上下文信息, 设计多尺度特征交叉融合模块(MFEB), 实现平行子图网络之间多尺度信息的交互, 提高GCN的特征表示能力. 在主流3D姿态估计数据集Human3.6M和MPI-INF-3DHP数据集上的对比实验结果表明, 所提PMST-GNet模型在三维人体姿态估计中具有较好的效果, 优于Sem-GCN、GraphSH、UGCN等当前基于GCN网络的主流算法.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007202
    [摘要] (281) [HTML] (0) [PDF 4.88 M] (2151)
    摘要:
    近年来, 深度学习研究成果在全球范围内得到广泛应用. 为了提高大规模深度学习模型的训练效率, 业界通常采用建设GPU集群并配置高效的任务调度器的策略. 然而, 深度学习训练任务具有性能异构性和放置拓扑敏感性等复杂性能特性. 对性能无感知的调度容易导致资源利用率低下、训练效率差等问题. 为了应对这一挑战, 近期涌现出大量基于性能建模的深度学习训练任务调度器. 这些调度器通过构建精确的性能模型, 深入了解任务的复杂性能特性, 并据此设计更优化的调度算法, 从而形成更高效的调度方案. 首先基于建模设计思路, 对目前调度器使用的性能建模方法进行分类综述. 随后, 根据调度器利用性能建模的调度优化途径, 对现有的任务调度工作进行系统性分析. 最后, 对性能建模与调度在未来的研究方向进行展望.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007203
    [摘要] (114) [HTML] (0) [PDF 1.23 M] (1363)
    摘要:
    针对安卓自动化测试工具生成的崩溃测试序列包含过多冗余事件, 造成测试回放、缺陷理解与修复困难的现状, 很多测试序列约减工作被提出. 但目前工作仅关注应用界面状态变化而忽略了程序执行过程中内部状态变化, 此外, 目前工作仅在单一抽象粒度上对应用状态进行建模, 例如控件粒度或活动粒度, 导致约减后测试序列过长或约减效率低下. 针对以上问题, 提出基于事件标记的多粒度结合的安卓测试序列约减方法, 结合安卓生命周期管理机制、程序静态数据流分析等对触发程序崩溃的关键事件进行标记, 缩小序列约减空间, 并设计了低粒度粗筛选、高粒度细约减的策略. 最后, 收集包含程序间交互、用户输入等复杂场景的崩溃测试序列集, 在此数据集上与其他测试序列约减工作的对比评估结果也验证了所提方法的有效性.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007214
    [摘要] (149) [HTML] (0) [PDF 6.40 M] (1596)
    摘要:
    布谷鸟过滤器是一种高效的概率型数据结构, 该数据结构可以快速判断某个元素是否存在于给定集合中, 被广泛应用于计算机网络、物联网应用以及数据库系统中. 在实践中, 上述系统通常需要处理海量数据以及大量并发请求. 实现支持高并发的布谷鸟过滤器可以显著提升系统吞吐以及数据处理能力, 对提升系统性能至关重要. 为此, 设计一个支持无锁并发的布谷鸟过滤器. 该过滤器通过所提出的两阶段查询、路径探查与元素迁移分离, 以及基于多机器字比较并交换的原子迁移技术实现高性能的查询、插入和删除操作. 理论分析和实验验证结果均表明, 无锁并发布谷鸟过滤器显著提升现有最先进算法的并发性能. 无锁并发布谷鸟过滤器的查询吞吐量, 平均为使用细粒度锁的布谷鸟过滤器的查询吞吐量的1.94倍.
    优先出版日期:  2024-06-20 , DOI: 10.13328/j.cnki.jos.007215
    [摘要] (141) [HTML] (0) [PDF 6.90 M] (1406)
    摘要:
    先前的预训练语言模型已在众多自然语言理解任务中展现了其卓越的性能. 然而, 它们常表现出捷径学习的问题, 即学习了非鲁棒性特征与标签之间的虚假关联, 导致模型在不同于训练分布的测试场景中的泛化能力不佳. 近期, 生成式预训练大模型在理解任务中的出色表现引起了广泛的关注, 但它们是否受到捷径学习的影响尚未被充分研究. 以LLaMA系列模型与FLAN-T5模型为代表, 探究生成式预训练大模型在多个自然语言理解任务中的捷径学习现象. 研究结果表明, 近期流行的生成式大模型仍然存在捷径学习的问题. 进而, 提出针对生成式预训练大模型的捷径学习问题的缓解策略——基于可控性解释的混合数据增强框架. 该框架以数据为中心, 基于模型生成的可控性解释数据与部分原始提示性数据构造小规模混合数据集, 开展模型微调. 在3个具有代表性的自然语言理解任务中的大量实验结果表明, 使用该框架所构造的数据集训练模型能够有效缓解模型的捷径学习问题, 提升模型在分布外测试场景中的鲁棒性与泛化能力, 同时不牺牲甚至提升模型在分布内测试场景中的性能. 代码已公开发布在https://github.com/Mint9996/HEDA.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007198
    [摘要] (169) [HTML] (0) [PDF 6.76 M] (1468)
    摘要:
    持久化内存(persistent memory, PM)作为主存的补充和替代, 为数据存储提供了相对较低的价格成本, 并且保证了数据的持久化. 为PM设计的传统结构索引(如B+树等)未能充分利用数据分布特点来发挥索引在PM上的读写性能. 最近的研究尝试利用学习索引的数据分布感知能力提升索引在PM上的读写性能并实现持久化. 但在面对真实世界的数据时, 现有基于PM的持久化学习索引的数据结构设计会导致额外的内存访问, 从而影响读写性能. 针对PM学习索引在面对真实数据时读写性能下降的问题, 提出一种DRAM/PM混合架构的学习索引PLTree. 它通过以下方法提升在PM上的读写性能并减轻数据分布颠簸对性能的影响: (1)使用两阶段方法构建索引消除内部节点的局部搜索, 减少PM的访问. (2)利用模型搜索来优化PM上的查找性能并通过在DRAM存储元数据加速查找. (3)根据PM的特性设计了日志式分层溢出缓存结构, 优化写入性能. 实验结果表明, 在不同数据集上, 与现有的持久化内存索引(APEX, FPTree, uTree, NBTree和DPTree)相比, PLTree在索引构建性能上平均提升了约1.9–34倍; 单线程查询/插入性能平均提升了约1.26–4.45倍和2.63–6.83倍; 在多线程场景, 查询/插入性能最高提升了约10.2倍和23.7倍.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007188
    [摘要] (109) [HTML] (0) [PDF 6.55 M] (1459)
    摘要:
    虽然卷积神经网络凭借优异的泛化性能被广泛应用在图像识别领域中, 但被噪声污染的对抗样本可以轻松欺骗训练完全的网络模型, 带来安全性的隐患. 现有的许多防御方法虽然提高了模型的健壮性, 但大多数不可避免地牺牲了模型的泛化性. 为了缓解这一问题, 提出了标签筛选权重参数正则化方法, 在模型训练过程中利用样本的标签信息权衡模型的泛化性和健壮性. 先前的许多健壮模型训练方法存在下面两个问题: 1)大多通过增加训练集样本的数量或复杂度来提高模型的健壮性, 这不仅弱化了干净样本在模型训练过程中的主导作用, 也使得训练任务的工作量大大提高; 2)样本的标签信息除了被用于与模型预测结果对比来控制模型参数的更新方向以外, 在模型训练中几乎不被另作使用, 这无疑忽视了隐藏于样本标签中的更多信息. 所提方法通过样本的正确标签和对抗样本的分类标签筛选出模型在分类该样本时起决定性作用的权重参数, 对这些参数进行正则优化, 达到模型泛化性和健壮性权衡的效果. 在MNIST、CIFAR-10和CIFAR-100数据集上的实验和分析表明, 提出的方法能够取得很好的训练效果.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007189
    [摘要] (122) [HTML] (0) [PDF 5.47 M] (1500)
    摘要:
    作为任务型对话系统的一个核心部分, 槽填充任务通过识别话语中存在的特定槽实体来服务于后续的下游任务. 但是, 针对一个特定领域, 需要大量有标记的数据作为支撑, 收集成本较高. 在此背景下, 跨领域槽填充任务出现, 该任务通过迁移学习的方式高效地解决了数据稀缺问题. 已有的跨领域槽填充方法都忽视了槽类型之间在话语中存在的依赖, 导致现有的模型在迁移到新领域时性能欠佳. 为了弥补这个缺陷, 提出基于槽依赖建模的跨领域槽填充方法. 基于生成式预训练模型的提示学习方法, 设计一种融入槽依赖信息的提示模板, 该模板建立了不同槽类型之间的隐式依赖关系, 充分挖掘预训练模型的实体预测性能. 此外, 为了进一步提高槽类型和槽实体与话语文本之间的语义依赖, 增加了话语填充子任务, 通过反向填充的方式增强话语与槽实体的内在联系. 通过对多个领域的迁移实验表明, 所提模型在零样本和少样本的设置上取得了较大的性能提升. 此外, 对模型中的主要结构进行了详细地分析和消融实验.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007191
    [摘要] (173) [HTML] (0) [PDF 7.05 M] (1580)
    摘要:
    服务器无感知计算是一种新兴的云计算范型, 它允许开发者专注于应用逻辑的开发, 而不需要负责底层复杂的任务管理. 通过这种范型, 开发者可以快速构建更小粒度的应用, 即函数级别的应用. 随着服务器无感知计算的日益流行, 各大云计算厂商相继推出各自的商业服务器无感知平台. 然而, 这些平台的特点尚未得到系统的研究和可靠的比较. 全面分析这些特点可以帮助开发者选择合适的服务器无感知平台, 并以正确的方式开发和执行基于服务器无感知计算的应用. 为此, 开展了面向主流的商业服务器无感知平台特征的实证研究. 涵盖的主流服务器无感知平台包括亚马逊Lambda、谷歌Cloud Functions、微软Azure Functions和阿里巴巴Function Compute. 研究内容主要分为两大类: 特征总结和运行时性能分析. 在特征总结中, 通过对这些服务器无感知平台的官方文档进行探究, 从开发、部署和运行时3个方面的关键特征进行总结和比较. 在运行时性能分析中, 我们使用代表性的基准测试程序, 从多个维度分析了这些服务器无感知平台提供的运行时性能. 具体而言, 首先分析了影响应用冷启动性能的关键因素, 如编程语言和内存大小. 其次, 探究了服务器无感知平台执行各类任务的执行性能. 基于特征总结和运行时性能分析的结果, 总结了一系列发现, 并为开发者、云计算厂商和研究者提供了具有现实指导意义的启示和潜在的研究机会.
    优先出版日期:  2024-06-14 , DOI: 10.13328/j.cnki.jos.007192
    [摘要] (213) [HTML] (0) [PDF 7.98 M] (1660)
    摘要:
    微内核系统将系统服务迁移到用户态运行, 因其架构隔离性而具有高可靠性的优势, 这一优势与航天领域的需求相契合. SPARC架构的处理器被广泛应用于航天飞船、卫星载荷以及星球车的控制设备上, 而该架构的寄存器窗口机制会影响微内核进程间通信(inter-process communication, IPC)的性能, 其核间中断(inter-processor interrupt, IPI)也会严重影响跨核IPC的效率. IPC作为微内核系统的关键机制, 对微内核上应用程序的整体性能十分重要. 基于对SPARC寄存器窗口机制的观察, 重新设计实现寄存器组机制, 由系统内核对寄存器窗口进行分配和管理, 并藉此实现SPARC架构上的BankedIPC. 同时, 在多核场景下, 针对SPARC上IPI性能较差的问题, 设计实现FlexIPC以优化跨核IPC的性能. 使用这些方法对自研微内核ChCore上已经实现的通用的同步IPC进行优化. 测试表明, 优化后SPARC上微内核的IPC平均性能提升至原来的2倍, 应用性能提升最高可达15%.
    优先出版日期:  2023-10-11 , DOI: 10.13328/j.cnki.jos.006978
    [摘要] (536) [HTML] (0) [PDF 3.90 M] (2723)
    摘要:
    近年来, 已有多种SM2数字签名算法的两方门限计算方案被提出, 这些方案能够有效地增强SM2数字签名算法的私钥安全性. 根据不同的密钥拆分方法, 已有公开方案可以分为两类, 分别基于乘法和加法拆分. 再根据不同的签名随机数构造方法, 衍生出多种两方门限计算方案. 提出SM2数字签名算法的两方门限计算方案框架, 所提框架给出安全的两方门限计算基本过程, 又可以引入不同构造的签名随机数. 利用提出的框架, 结合随机数的不同构造, 完成所提框架的多种实例化, 即得到SM2数字签名算法多种不同的两方门限计算方案. 所提框架的实例化, 包括现有已知的23种两方门限计算方案, 也包括多种新的方案.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2982) [HTML] (0) [PDF 525.21 K] (6247)
    摘要:
    Data race is a major source of concurrency bugs. Dynamic data race detection tools (e.g., FastTrack) monitor the execu-tions of a program to report data races occurring in runtime. However, such tools incur significant overhead that slows down and perturbs executions. To address the issue, the state-of-the-art dynamic data race detection tools (e.g., LiteRace) ap-ply sampling techniques to selectively monitor memory access-es. Although they reduce overhead, they also miss many data races as confirmed by existing studies. Thus, practitioners face a dilemma on whether to use FastTrack, which detects more data races but is much slower, or LiteRace, which is faster but detects less data races. In this paper, we propose a new sam-pling approach to address the major limitations of current sampling techniques, which ignore the facts that a data race involves two threads and a program under testing is repeatedly executed. We develop a tool called AtexRace to sample memory accesses across both threads and executions. By selectively monitoring the pairs of memory accesses that have not been frequently observed in current and previous executions, AtexRace detects as many data races as FastTrack at a cost as low as LiteRace. We have compared AtexRace against FastTrack and LiteRace on both Parsec benchmark suite and a large-scale real-world MySQL Server with 223 test cases. The experiments confirm that AtexRace can be a replacement of FastTrack and LiteRace.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2909) [HTML] (0) [PDF 352.38 K] (7188)
    摘要:
    It is difficult to fix atomicity violations correctly. Existing gate lock algorithm (GLA) simply inserts gate locks to serialize exe-cutions, which may introduce performance bugs and deadlocks. Synthesized context-aware gate locks (by Grail) require complex source code synthesis. We propose ?Fixer to adaptively fix ato-micity violations. It firstly analyses the lock acquisitions of an atomicity violation. Then it either adjusts the existing lock scope or inserts a gate lock. The former addresses cases where some locks are used but fail to provide atomic accesses. For the latter, it infers the visibility (being global or a field of a class/struct) of the gate lock such that the lock only protects related accesses. For both cases, ?Fixer further eliminates new lock orders to avoid introducing deadlocks. Of course, ?Fixer can produce both kinds of fixes on atomicity violations with locks. The experi-mental results on 15 previously used atomicity violations show that: ?Fixer correctly fixed all 15 atomicity violations without introducing deadlocks. However, GLA and Grail both intro-duced 5 deadlocks. HFix (that only targets on fixing certain types of atomicity violations) only fixed 2 atomicity violations and introduced 4 deadlocks. ?Fixer also provides an alternative way to insert gate locks (by inserting gate locks with proper visibility) considering fix acceptance.
    优先出版日期:  2017-09-11 , DOI:
    [摘要] (3491) [HTML] (0) [PDF 276.42 K] (4462)
    摘要:
    对Github上Python科学计算软件生态系统中的跨项目关联缺陷进行了实证分析,聚焦于开发者对缺陷根源的追踪和上下游项目开发者修复缺陷的协作。通过定性和定量的分析,揭示了影响这类缺陷定位与修复的因素,以及开发者应对它们的常见行为。
    优先出版日期:  2017-06-21 , DOI:
    [摘要] (3494) [HTML] (0) [PDF 169.43 K] (4316)
    摘要:
    Numerical instability is a well-known problem that may cause serious runtime failures. This paper discusses the reason of instability in software development process, and presents a toolchain that not only detects the potential instability in software, but also diagnoses the reason for such instability. We classify the reason of instability into two categories. When it is introduced by software requirements, we call the instability caused by problem. In this case, it cannot be avoided by improving software development, but requires inspecting the requirements, especially the underlying mathematical properties. Otherwise, we call the instability caused by practice. We design our toolchain as 4 loosely-coupled tools, which combine stochastic arithmetic with infinite-precision testing. Each tool in our toolchain can be configured with different strategies according to the properties of the analyzed software. We evaluate our toolchain on subjects from literature. The results show that it effectively detects and separates the instabilities caused by problems from others. We also conduct an evaluation on the latest version of GNU Scientific Library, and the toolchain finds a few real bugs in the well-maintained and widely deployed numerical library. With the help of our toolchain, we report the details and fixing advices to the GSL buglist.
    优先出版日期:  2017-06-13 , DOI:
    [摘要] (4740) [HTML] (0) [PDF 174.91 K] (4759)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-25 , DOI:
    [摘要] (3582) [HTML] (0) [PDF 254.98 K] (4283)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-18 , DOI:
    [摘要] (4079) [HTML] (0) [PDF 472.29 K] (4465)
    摘要:
    Software should behave correctly even in adverse conditions. Particularly, we study the problem of automated validation of crash consistency, i.e., file system data safety when systems crash. Existing work requires non-trivial manual efforts of specifying checking scripts and workloads, which is an obstacle for software developers. Therefore, we propose C3, a novel approach that makes crash consistency validation as easy as pressing a single button. With a program and an input, C3 automatically reports inconsistent crash sites. C3 not only exempts developers from the need of writing crash site checking scripts (by an algorithm that computes editing distance between file system snapshots) but also reduces the reliance on dedicated workloads (by test amplification). We implemented C3 as an open-source tool. With C3, we found 14 bugs in open-source software that have severe consequences at crash and 11 of them were previously unknown to the developers, including in highly mature software (e.g., GNU zip and GNU coreutils sort) and popular ones being actively developed (e.g., Adobe Brackets and TeXstudio).
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3808) [HTML] (0) [PDF 293.93 K] (3992)
    摘要:
    本文提出了一种可部署的数据竞争动态采样检测技术,首先提出了基于线程本地时序的数据竞争定义,之后基于硬件断点进行采样检测。在采样率为1%时,时间开销约为5%,且有效性得以保证。
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (4136) [HTML] (0) [PDF 244.61 K] (4569)
    摘要:
    在软件开发过程中,软件更新时常发生,怎样保证软件更新后的软件质量呢?这就是回归测试的任务。传统上,回归测试通过检测软件异常行为来保证软件质量。然而,在实践中所有的软件行为不可能全部被检测到,尤其针对于大型的复杂软件系统。为帮助开发人员更好的进行回归测试,传统工作集中在增加测试用例上,即通过人工或自动生成测试输入的方法,观测测试输出以捕获程序行为。这种方法虽一定程度上有效,但也存在很大缺陷:人工编写测试用例费时费力,不能覆盖的代码较多,而且容易受人主观判断的误导(例如忽略某些特别容易存在缺陷的类、方法等);自动生成测试用例技术存在很多问题,例如代价大和无法很好的处理数组、字符串等。基于目前软件测试技术存在的缺陷,很多软件不得不在面临诸多安全威胁的状态下发布,有时甚至造成重大财产损失甚至人员伤亡。因此,我们迫切需要新技术来辅助现有技术以更好的进行回归测试、保障软件质量。
    优先出版日期:  2016-12-12 , DOI:
    [摘要] (3665) [HTML] (0) [PDF 358.69 K] (4402)
    摘要:
    在程序分析中,循环(Loop)的处理与分析是一个非常重要而且很有挑战的任务。例如,在符号执行(Symbolic Execution)中,循环的不断展开会导致程序路径数量指数级地增长。因此,符号执行通常会陷入不停的循环展开,而不能覆盖到新的程序分支上,最终影响了测试用例生成或者缺陷检测的效率。
    优先出版日期:  2016-09-30 , DOI:
    摘要:
    在软件测试中,测试预言是一种判断程序在给定测试输入下的执行结果是否符合预期的机制。测试预言通常由在测试中需要被观测的变量以及这些变量的预期值组成。对于相同的测试输入,不同的测试预言可能有不同的缺陷检测能力。因此,高质量的测试预言对于检测软件中的缺陷是非常必要的。在已有的研究中,虽然研究人员提出了各种各样的自动化测试输入生成技术,但是测试预言问题仍然被公认为是软件测试中最难解决的问题之一。
    优先出版日期:  2016-09-09 , DOI:
    [摘要] (4123) [HTML] (0) [PDF 313.52 K] (191)
    摘要:
    本文基于众测平台,提出了一种基于局部的主动学习方法,能够将众测报告中的缺陷进行自动分类,该方法解决了众测报告分类中的局部偏见问题、及缺少历史训练数据的问题,并基于实际的众测数据进行了验证。
    优先出版日期:  2016-09-07 , DOI:
    [摘要] (4671) [HTML] (0) [PDF 231.98 K] (114)
    摘要:
    并发缺陷是由于某些事件按照一定的顺序发生而导致的,本文提出了一种基于缺陷半径的并发缺陷的概率检测方法RPro,并用于死锁的检测,且有概率保证。实验表明该方法可以显著提高死锁的检测概率。
    优先出版日期:  2016-08-29 , DOI:
    摘要:
    当公司投入资源到开源社区,其诉求可能跟开放共享的开源开发方法存在冲突,继而影响自由贡献者.因此我们研究:公司参与会对开源社区带来怎样的影响?面向三个技术同构的混合项目,我们总结了三个商业参与模型,并量化了不同模型对贡献者稳定性和持续性的影响.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (37681) [HTML] (0) [PDF 832.28 K] (83300)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2010,21(3):427-437, DOI:
    [摘要] (33284) [HTML] (0) [PDF 308.76 K] (41378)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (30368) [HTML] (0) [PDF 781.42 K] (59140)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (30284) [HTML] (4613) [PDF 880.96 K] (34135)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2008,19(1):48-61, DOI:
    [摘要] (28767) [HTML] (0) [PDF 671.39 K] (64073)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2009,20(5):1337-1348, DOI:
    [摘要] (28491) [HTML] (0) [PDF 1.06 M] (47337)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289, DOI:
    [摘要] (27523) [HTML] (0) [PDF 675.56 K] (46869)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2005,16(1):1-7, DOI:
    [摘要] (22641) [HTML] (0) [PDF 614.61 K] (23363)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2010,21(8):1834-1848, DOI:
    [摘要] (21354) [HTML] (0) [PDF 682.96 K] (60395)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2004,15(3):428-442, DOI:
    [摘要] (20848) [HTML] (0) [PDF 1009.57 K] (19089)
    摘要:
    随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务成为电子商务的有效解决方案.Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制.Web服务的新型构架,Web服务的高效执行方式,Web服务与其他成熟技术的有机结合以及Web服务的集成是解决现实应用问题的重要技术.从Web服务研究的不同侧面对其进行了综述,阐述了Web服务的基本概念,分析了当前Web服务的主要研究问题及其核心支撑技术,概括了Web服务中的数据集成技术、Web服务的组合、语义Web服务、Web服务发现,Web服务安全,P2P(Peer-to-Peer)新型计算环境下的Web服务解决方案和网格服务等方面的研究内容,并对这些技术进行了总结,结合已有的研究成果,展望了Web服务未来的研究方向及其面临的挑战.
    2005,16(5):857-868, DOI:
    [摘要] (19982) [HTML] (0) [PDF 489.65 K] (32832)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2009,20(1):54-66, DOI:
    [摘要] (19936) [HTML] (0) [PDF 1.41 M] (53405)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (19124) [HTML] (0) [PDF 2.09 M] (35375)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (18869) [HTML] (0) [PDF 408.86 K] (34068)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2009,20(3):524-545, DOI:
    [摘要] (17574) [HTML] (0) [PDF 1.09 M] (25390)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2009,20(1):124-137, DOI:
    [摘要] (17202) [HTML] (0) [PDF 1.06 M] (24748)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (16675) [HTML] (5296) [PDF 1.04 M] (33137)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2004,15(8):1208-1219, DOI:
    [摘要] (16672) [HTML] (0) [PDF 948.49 K] (16873)
    摘要:
    随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,网络蠕虫成为恶意代码研究中的首要课题.首先综合论述网络蠕虫的研究概况,然后剖析网络蠕虫的基本定义、功能结构和工作原理,讨论网络蠕虫的扫描策略和传播模型,归纳总结目前防范网络蠕虫的最新技术.最后给出网络蠕虫研究的若干热点问题与展望.
    2009,20(2):350-362, DOI:
    [摘要] (16666) [HTML] (0) [PDF 1.39 M] (43327)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2009,20(11):2965-2976, DOI:
    [摘要] (16602) [HTML] (0) [PDF 442.42 K] (18002)
    摘要:
    研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.
    2009,20(5):1226-1240, DOI:
    [摘要] (16541) [HTML] (0) [PDF 926.82 K] (19615)
    摘要:
    对几种智能规划方法中利用的逻辑演绎与推理技术予以分析,分别介绍利用命题逻辑的基于可满足性的规划方法与规划系统,利用模态逻辑与析取推理的Conformant规划方法与规划系统,利用非单调逻辑的规划方法和利用模糊描述逻辑的Flexible规划方法,并结合国际规划竞赛和相关论文等的实验结论说明上述方法的有效性和可行性.最后,提出目前基于自动推理技术的智能规划方法所面临的挑战、可能的处理方法以及与之相关的研究热点与趋势.
    2003,14(10):1717-1727, DOI:
    [摘要] (16386) [HTML] (0) [PDF 839.25 K] (17758)
    摘要:
    传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到这些信息的用户.传感器网络是计算机科学技术的一个新的研究领域,具有十分广阔的应用前景,引起了学术界和工业界的高度重视.介绍了传感器网络及其数据管理的概念和特点,探讨了传感器网络及其数据管理的研究问题,并综述了传感器网络及其数据管理的研究现状.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (15714) [HTML] (3877) [PDF 1.32 M] (23436)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (14795) [HTML] (0) [PDF 1017.73 K] (35051)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2009,20(10):2729-2743, DOI:
    [摘要] (14560) [HTML] (0) [PDF 1.12 M] (13114)
    摘要:
    基于多跳的无线传感器网络,越靠近sink的传感器节点因需要转发更多的数据,其能量消耗就越快,从而在sink周围形成了一种称为“能量洞”的现象.“能量洞”问题会导致整个网络由于内部节点能量过早耗尽而结束寿命,同时,网络中离sink较远的节点仍有大量能量剩余.研究“能量洞”现象,基于改进的分级环模型,总结出调节各环内节点的数据传输距离是实现网络节能的有效方法.证明搜索各区域最优的传输距离是一个多目标优化问题,即是NP难问题.从而提出一种基于蚁群优化的分布式算法,各区域根据其节点分布情况自适应地探索近似最优的传输距离,延长网络寿命.模拟实验结果表明,该算法在较短的时间内能够收敛到合理的解,并且得到的网络寿命接近于理想情况下的最优时间,与现有的类似算法相比,该算法提供了更长的网络寿命,并能适用于非均匀节点分布情况.
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (14530) [HTML] (0) [PDF 946.37 K] (19952)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2000,11(11):1460-1466, DOI:
    [摘要] (14492) [HTML] (0) [PDF 520.69 K] (13074)
    摘要:
    入侵检测是近年来网络安全研究的热 点.首先说明入侵检测的必要性,并给出入侵检测的概念和模型,概述了多种入侵检测方法及 体系结构.最后,讨论了该领域当前存在的问题及今后的研究方向.
    2015,26(1):26-39, DOI:10.13328/j.cnki.jos.004631
    [摘要] (14359) [HTML] (3513) [PDF 763.52 K] (19552)
    摘要:
    近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
    2002,13(7):1228-1237, DOI:
    [摘要] (14282) [HTML] (0) [PDF 500.04 K] (17211)
    摘要:
    近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的软件体系结构概念之后,给出了软件体系结构的定义.通过总结软件体系结构领域的若干研究活动,提出了软件体系结构研究的两大思路,并从7个方面介绍了软件体系结构研究进展.探讨了软件体系结构研究中的不足之处,并分析其原因.作为总结,给出了软件体系结构领域最有前途的发展趋势.
    2013,24(8):1786-1803, DOI:10.3724/SP.J.1001.2013.04416
    [摘要] (14191) [HTML] (0) [PDF 1.04 M] (20803)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (13918) [HTML] (0) [PDF 845.91 K] (30701)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2006,17(7):1588-1600, DOI:
    [摘要] (13890) [HTML] (0) [PDF 808.73 K] (16982)
    摘要:
    在无线传感器网络体系结构中,网络层的路由技术至关重要.分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,成为当前重点研究的路由技术.分析了无线传感器网络分簇路由机制,着重从簇头的产生、簇的形成和簇的路由角度系统地描述了当前典型的分簇路由算法,并比较和分析了这些算法的特点和适用情况.最后结合该领域当前研究现状,指出分簇路由算法未来的研究重点.
    2004,15(4):571-583, DOI:
    [摘要] (13886) [HTML] (0) [PDF 1005.17 K] (11770)
    摘要:
    在诸如文件共享等无中心的Peer-to-Peer环境中,资源共享是用户自愿的行为.在这类系统中,由于用户不为自身的行为担负(法律)责任,因而节点间的信任关系往往很难通过传统的信任机制建立.一种更合理的考虑是参考人际网络中基于推荐的信任关系建立方法.现有的模型不能很好地解决模型的迭代收敛性问题,同时缺乏对诸如冒名、诋毁等安全性问题的考虑.针对上述问题,在节点推荐的基础上提出了一种基于Peer-to-Peer环境的信任模型,并给出了该模型的数学分析和分布式实现方法.分析及仿真表明,该信任模型较已有模型在迭代的收敛性、模型的安全性等问题上有较大改进.
    2009,20(1):11-29, DOI:
    [摘要] (13784) [HTML] (0) [PDF 787.30 K] (17212)
    摘要:
    约束优化问题是科学和工程应用领域经常会遇到的一类数学规划问题.近年来,约束优化问题求解已成为进化计算研究的一个重要方向.从约束优化进化算法=约束处理技术+进化算法的研究框架出发,从约束处理技术和进化算法两个基本方面对约束优化进化算法的研究及进展进行了综述.此外,对约束优化进化算法中的一些重要问题进行了探讨.最后进行了各种算法的比较性总结,深入分析了目前约束优化进化算法中亟待解决的问题,并指出了值得进一步研究的方向.
    2008,19(zk):112-120, DOI:
    [摘要] (13633) [HTML] (0) [PDF 594.29 K] (16760)
    摘要:
    无线移动Ad Hoc网络是一种不依赖任何固定基础设施的移动无线多跳网络.由于其动态性和资源的限制,在Ad Hoc网络中提供多路径路由是一个重要的研究课题.描述了一种Ad Hoc网络中基于信息熵选择的稳定多路径路由算法(stability multipath on-demand routing,简称SMDR),提出了路径熵的度量参数,并利用路径熵来选择稳定的、长寿命的多路径,减少了重构路由的次数,从而在网络拓扑频繁变化的Ad Hoc网络环境中较好地提供QoS保证和提高数据传输率.仿真结果表明,SMDR协议改进了分组传输率、端到端时延和路由负载率.SMDR协议为解决动态的Ad Hoc网络多路径传输提供了一种新的有效途径.
    2013,24(1):50-66, DOI:10.3724/SP.J.1001.2013.04276
    [摘要] (13614) [HTML] (0) [PDF 0.00 Byte] (19674)
    摘要:
    作为云平台提升应用性能的一种重要手段,分布式缓存技术近年来受到了工业界和学术界的广泛关注.从云计算与分布式缓存技术的结合入手,分析介绍了分布式缓存的特性、典型应用场景、发展阶段、相关标准规范以及推动缓存技术发展的若干关键要素.为系统地了解分布式缓存技术的现状和不足,建立了一个云环境下分布式缓存技术的分析框架——DctAF.该框架从分析云计算的特点和缓存技术的边界出发,涵盖6个分析维度.基于DctAF框架,对当前缓存技术进行总结和分析,并对典型系统进行比较.在此基础上,深入阐述了云环境下分布式缓存系统面临的挑战;围绕上述挑战,分析和比较了已有的研究工作.
    2002,13(10):1952-1961, DOI:
    [摘要] (13396) [HTML] (0) [PDF 570.96 K] (15508)
    摘要:
    对个性化服务技术中用户描述文件的表达与更新、资源描述文件的表达、个性化推荐技术、个性化服务体系结构以及该领域的主要研究成果进行了综述.通过比较现有原型系统的实现方式,详细讨论了实现个性化服务的关键技术.此外,分析了3个具有代表性的个性化服务系统.最后对个性化服务技术进一步研究工作的方向进行了展望.
    2003,14(9):1621-1628, DOI:
    [摘要] (13393) [HTML] (0) [PDF 680.35 K] (22386)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2003,14(9):1635-1644, DOI:
    [摘要] (13291) [HTML] (0) [PDF 622.06 K] (14377)
    摘要:
    计算机取证研究的是如何为调查计算机犯罪提供彻底、有效和安全的技术.其关键是确保证据的真实性、可靠性、完整性和符合法律规定.介绍了计算机取证的过程以及取证软件的原理和实现,并且给出完整的取证实例.从理论和实现两个方面讨论了现有取证技术的局限性和面临的挑战,并展望其未来的发展方向.由于计算机犯罪手段的变化和其他技术的引入,现有的取证工作将向着深入和综合的方向发展.
    2008,19(7):1565-1580, DOI:
    [摘要] (13226) [HTML] (0) [PDF 815.02 K] (18890)
    摘要:
    软件缺陷预测技术从20世纪70年代发展至今,一直是软件工程领域最活跃的内容之一,在分析软件质量、平衡软件成本方面起着重要的作用.研究和讨论了软件缺陷预测技术的起源、发展和当前所面临的挑战,对主流的缺陷预测技术进行了分类讨论和比较,并对典型的软件缺陷的分布模型给出了案例研究.
    2012,23(1):82-96, DOI:10.3724/SP.J.1001.2012.04101
    [摘要] (13133) [HTML] (0) [PDF 394.07 K] (17203)
    摘要:
    以僵尸网络为载体的各种网络攻击活动是目前互联网所面临的最为严重的安全威胁之一.虽然近年来这方面的研究取得了显著的进展,但是由于僵尸网络不断演化、越来越复杂和隐蔽以及网络和系统体系结构的限制给检测和防御带来的困难,如何有效应对僵尸网络的威胁仍是一项持续而具有挑战性的课题.首先从僵尸网络的传播、攻击以及命令与控制这3 个方面介绍了近年来僵尸网络工作机制的发展,然后从监测、工作机制分析、特征分析、检测和主动遏制这5 个环节对僵尸网络防御方面的研究进行总结和分析,并对目前的防御方法的局限、僵尸网络的发展趋势和进一步的研究方向进行了讨论.
    2008,19(8):1947-1964, DOI:
    [摘要] (13123) [HTML] (0) [PDF 811.11 K] (12159)
    摘要:
    设计与实现面向领域应用的交互式信息可视化软件十分困难.缺乏统一的开发方法与支撑工具箱,为非专家用户提供对层次、网络、多维等数据类型的统一支持,对各种可视化技术与交互技术的统一支持,以及对信息可视化任务的统一支持.针对此问题,提出了一种模型驱动的交互式信息可视化开发方法Daisy.首先,提出了交互式信息可视化界面模型IIVM(interactive information visualization interface model);然后,提出了基于IIVM的交互式信息可视化开发方法Daisy,讨论了该方法的两个核心技术:IIVM建模与描述文件生成方法、系统自动生成方法.同时,给出了Daisy工具箱,包括Daisy建模工具、Daisy系统自动生成工具以及运行时框架与组件库.最后,给出了该开发方法与工具箱的应用实例.实例表明,该方法能够为交互式信息可视化开发的统一支撑方法问题提供一种有效的解决方案.
    2008,19(8):1902-1919, DOI:
    [摘要] (13050) [HTML] (0) [PDF 521.73 K] (15305)
    摘要:
    可视化语言技术比一维文本语言在描述软件组成方面具有优越性.由于图表和图形概念在系统建模中的广泛使用,可视化语言可以应用于需求分析、设计、测试和维护等软件开发的各个阶段.除了具有直观易见的特点之外,图文法在计算机上的精确建模和验证能力,为设计可视化语言提供了一个坚实的理论基础.讨论了可视化语言的形式理论基础,回顾了相关的可视化图形编程环境.特别提出了一种空间图文法,并且用该图文法定义了统一建模语言的行为语义.基于空间图文法,开发了一种基于模式驱动的框架,以帮助软件架构与设计.
    2006,17(9):1848-1859, DOI:
    [摘要] (12863) [HTML] (0) [PDF 770.40 K] (23089)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2010,21(2):231-247, DOI:
    [摘要] (12815) [HTML] (0) [PDF 1.21 M] (18804)
    摘要:
    通过分析服务组合的故障需求,给出服务组合故障处理的框架.该框架采用Petri网来解决服务组合的错误发现及其处理问题.重点讨论了可用服务失败、组件失败及网络故障的情况,并相应地给出了服务组合故障模型.在此基础上对故障处理模型进行分析,给出服务组合故障处理正确性准则,并证明了其正确性.最后,采用CTL (computational tree logic)描述相关性质并提出验证服务组合故障分析的实施算法.仿真结果表明,该方法在处理服务组合故障时具有一定的优越性.
    2017,28(1):1-16, DOI:10.13328/j.cnki.jos.005139
    [摘要] (12724) [HTML] (4837) [PDF 1.75 M] (12343)
    摘要:
    背包问题(knapsack problem,简称KP)是一类著名的组合优化问题,也是一类NP难问题,它包括0-1背包问题、有界背包问题、多维背包问题、多背包问题、多选择背包问题、二次背包问题、动态背包问题和折扣背包问题等多种形式,在众多领域有着广泛的应用.演化算法(EAs)是一类有效的快速近似求解KP的算法.对近10余年来利用EAs求解KP的研究情况进行了较为详细的总结,一方面讨论了利用EAs求解各种KP问题时个体的编码方法与处理不可行解的有效方法,另一方面,为今后进一步利用最新提出的EAs求解KP问题提供了一条可借鉴的思路.
    2010,21(7):1620-1634, DOI:
    [摘要] (12629) [HTML] (0) [PDF 765.23 K] (22138)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2010,21(5):916-929, DOI:
    [摘要] (12579) [HTML] (0) [PDF 944.50 K] (20288)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2009,20(6):1393-1405, DOI:
    [摘要] (12406) [HTML] (0) [PDF 831.86 K] (21780)
    摘要:
    组合测试能够在保证错误检出率的前提下采用较少的测试用例测试系统.但是,组合测试用例集的构造问题的复杂度是NP完全的.组合测试方法的有效性和复杂性吸引了组合数学领域和软件工程领域的学者们对其进行深入的研究.总结了近年来在组合测试方面的研究进展,主要内容包括:组合测试准则的研究、组合测试生成问题与其他NP完全问题的联系、组合测试用例的数学构造方法、采用计算机搜索的组合测试生成方法以及基于组合测试的错误定位技术.
    2008,19(10):2706-2719, DOI:
    [摘要] (12273) [HTML] (0) [PDF 778.29 K] (13703)
    摘要:
    Web搜索引擎已经成为人们从海量Web信息中快速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求.随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的Web搜索技术并迅速成为研究热点.研究的目的是对现有的基于P2P的Web搜索技术进行总结,以期为进一步研究指明方向.首先分析了基于P2P的Web搜索面临的诸多挑战;然后重点总结分析了基于P2P的Web搜索的各项关键技术的研究现状,包括系统拓扑结构、数据存放策略、查询路由机制、索引切分策略、数据集选择、相关性排序、网页收集方法等;最后对已有的3个较有特色的基于P2P的Web搜索原型系统进行了介绍.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (37681) [HTML] (0) [PDF 832.28 K] (83300)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2008,19(1):48-61, DOI:
    [摘要] (28767) [HTML] (0) [PDF 671.39 K] (64073)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2010,21(8):1834-1848, DOI:
    [摘要] (21354) [HTML] (0) [PDF 682.96 K] (60395)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (30368) [HTML] (0) [PDF 781.42 K] (59140)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2009,20(1):54-66, DOI:
    [摘要] (19936) [HTML] (0) [PDF 1.41 M] (53405)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2009,20(5):1337-1348, DOI:
    [摘要] (28491) [HTML] (0) [PDF 1.06 M] (47337)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289, DOI:
    [摘要] (27523) [HTML] (0) [PDF 675.56 K] (46869)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2014,25(9):1889-1908, DOI:10.13328/j.cnki.jos.004674
    [摘要] (12104) [HTML] (4598) [PDF 550.98 K] (44025)
    摘要:
    首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.
    2009,20(2):350-362, DOI:
    [摘要] (16666) [HTML] (0) [PDF 1.39 M] (43327)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2004,15(10):1493-1504, DOI:
    [摘要] (9262) [HTML] (0) [PDF 937.72 K] (41486)
    摘要:
    多年来计算机图形处理器(GP以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战.
    2010,21(3):427-437, DOI:
    [摘要] (33284) [HTML] (0) [PDF 308.76 K] (41378)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2021,32(2):349-369, DOI:10.13328/j.cnki.jos.006138
    [摘要] (8931) [HTML] (10259) [PDF 2.36 M] (39954)
    摘要:
    小样本学习旨在通过少量样本学习到解决问题的模型.近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习的相关工作,具体来说介绍了基于模型微调、基于数据增强和基于迁移学习这3大类小样本学习模型与算法的研究进展;将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强这3类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络这3类;总结了目前常用的小样本数据集和代表性的小样本学习模型在这些数据集上的实验结果;随后对小样本学习的现状和挑战进行了概述;最后展望了小样本学习的未来发展方向.
    2022,33(7):2464-2481, DOI:10.13328/j.cnki.jos.006585
    [摘要] (1344) [HTML] (2776) [PDF 2.00 M] (39034)
    摘要:
    基于线性抽象的符号传播方法在神经网络验证中具有重要地位.针对这类方法,提出了多路径回溯的概念.现有方法可看作仅使用单条回溯路径计算每个神经网络节点的上下界,是这一概念的特例.使用多条回溯路径,可以有效地改善这类方法的精度.在数据集ACAS Xu,MNIST和CIFAR10上,将多路径回溯方法与使用单条回溯路径的DeepPoly进行定量比较,结果表明,多路径回溯方法能够获得明显的精度提升,而仅引入较小的额外时间代价.此外,在数据集MNIST上,将多路径回溯方法与使用全局优化的Optimized LiRPA比较,结果表明,该方法仍然具有精度优势.
    2013,24(11):2476-2497, DOI:10.3724/SP.J.1001.2013.04486
    [摘要] (10737) [HTML] (0) [PDF 1.14 M] (38553)
    摘要:
    概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
    2018,29(5):1471-1514, DOI:10.13328/j.cnki.jos.005519
    [摘要] (6489) [HTML] (6362) [PDF 4.38 M] (36148)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (19124) [HTML] (0) [PDF 2.09 M] (35375)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (14795) [HTML] (0) [PDF 1017.73 K] (35051)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (30284) [HTML] (4613) [PDF 880.96 K] (34135)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (18869) [HTML] (0) [PDF 408.86 K] (34068)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (16675) [HTML] (5296) [PDF 1.04 M] (33137)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2005,16(5):857-868, DOI:
    [摘要] (19982) [HTML] (0) [PDF 489.65 K] (32832)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (13918) [HTML] (0) [PDF 845.91 K] (30701)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2013,24(1):77-90, DOI:10.3724/SP.J.1001.2013.04339
    [摘要] (11361) [HTML] (0) [PDF 0.00 Byte] (29443)
    摘要:
    任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向.
    2017,28(4):959-992, DOI:10.13328/j.cnki.jos.005143
    [摘要] (9510) [HTML] (6530) [PDF 3.58 M] (29150)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2010,21(2):344-358, DOI:
    [摘要] (8513) [HTML] (0) [PDF 1.01 M] (28412)
    摘要:
    将现有入侵容忍、自毁技术与自律计算相结合,提出了一种基于SM-PEPA(semi-Markov performance evaluation process algebra)的关键任务系统自律可信性模型以支持形式化分析和推理.该模型具有一定程度的自管理能力,采用分级处理的方式应对各种程度的可信性威胁,满足了关键任务系统对可信性的特殊需求.在此基础上,从稳态概率角度提出了一种自律可信性度量方法.最后,结合具体实例对模型参数对自律可信性的影响进行了初步分析.实验结果表明,增大关键任务系统可信性威胁检测率和自恢复成功率,可在较大范围内提高系统的自律可信 特性.
    2014,25(1):37-50, DOI:10.13328/j.cnki.jos.004497
    [摘要] (10337) [HTML] (4966) [PDF 929.87 K] (27091)
    摘要:
    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.
    2011,22(6):1299-1315, DOI:10.3724/SP.J.1001.2011.03993
    [摘要] (11605) [HTML] (0) [PDF 987.90 K] (27044)
    摘要:
    由于属性基加密(attribute-based encryption,简称ABE)机制以属性为公钥,将密文和用户私钥与属性关联,能够灵活地表示访问控制策略,从而极大地降低了数据共享细粒度访问控制带来的网络带宽和发送结点的处理开销.因此,ABE 在细粒度访问控制领域具有广阔的应用前景.在对基本ABE 机制及其两种扩展:密钥-策略ABE(KP-ABE)和密文-策略ABE(CP-ABE)进行深入研究、分析后,针对ABE 中的CP-ABE 机制访问结构的设计、属性密钥撤销、ABE 的密钥滥用、多授权机构等难点问题进行了深入探讨和综合分析,对比了现有研究工作的功能及开销.最后讨论了ABE 未来需进一步研究的问题和主要研究方向.
    2009,20(3):524-545, DOI:
    [摘要] (17574) [HTML] (0) [PDF 1.09 M] (25390)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2018,29(10):2966-2994, DOI:10.13328/j.cnki.jos.005551
    [摘要] (10481) [HTML] (6570) [PDF 610.06 K] (25297)
    摘要:
    近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
    2009,20(1):124-137, DOI:
    [摘要] (17202) [HTML] (0) [PDF 1.06 M] (24748)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2013,24(4):825-842, DOI:10.3724/SP.J.1001.2013.04369
    [摘要] (8979) [HTML] (0) [PDF 1.09 M] (24446)
    摘要:
    蜜罐是防御方为了改变网络攻防博弈不对称局面而引入的一种主动防御技术,通过部署没有业务用途的安全资源,诱骗攻击者对其进行非法使用,从而对攻击行为进行捕获和分析,了解攻击工具与方法,推测攻击意图和动机.蜜罐技术赢得了安全社区的持续关注,得到了长足发展与广泛应用,并已成为互联网安全威胁监测与分析的一种主要技术手段.介绍了蜜罐技术的起源与发展演化过程,全面分析了蜜罐技术关键机制的研究现状,回顾了蜜罐部署结构的发展过程,并归纳总结了蜜罐技术在互联网安全威胁监测、分析与防范等方向上的最新应用成果.最后,对蜜罐技术存在的问题、发展趋势与进一步研究方向进行了讨论.
    2019,30(2):440-468, DOI:10.13328/j.cnki.jos.005659
    [摘要] (9244) [HTML] (7236) [PDF 3.27 M] (24229)
    摘要:
    近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对基于深度学习的图像语义分割的经典方法与研究现状进行分类、梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分为基于区域分类的图像语义分割方法和基于像素分类的图像语义分割方法.把基于像素分类的图像语义分割方法进一步细分为全监督学习图像语义分割方法和弱监督学习图像语义分割方法.对每类方法的代表性算法进行了分析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语义分割相关实验进行了分析对比,并介绍了图像语义分割实验中常用公共数据集和性能评价指标.最后,预测并分析总结了该领域未来可能的研究方向及相应的发展趋势.
    2018,29(10):3068-3090, DOI:10.13328/j.cnki.jos.005607
    [摘要] (9168) [HTML] (9481) [PDF 2.28 M] (24159)
    摘要:
    设计类问题在科学研究和工业领域无处不在.作为一种十分有效的全局优化算法,近年来,贝叶斯优化方法在设计类问题上被广泛应用.通过设计恰当的概率代理模型和采集函数,贝叶斯优化框架只需经过少数次目标函数评估即可获得理想解,非常适用于求解目标函数表达式未知、非凸、多峰和评估代价高昂的复杂优化问题.从方法论和应用领域两方面深入分析、讨论和展望了贝叶斯优化的研究现状、面临的问题和应用领域,期望为相关领域的研究者提供有益的借鉴和参考.
    2020,31(7):2245-2282, DOI:10.13328/j.cnki.jos.006037
    [摘要] (3224) [HTML] (6007) [PDF 967.02 K] (23954)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2004,15(11):1583-1594, DOI:
    [摘要] (9294) [HTML] (0) [PDF 1.57 M] (23881)
    摘要:
    在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式.研究了随机性和模糊性之间的关联性,统一用熵作为客观事物和主观认知中不确定状态的度量,用超熵来度量不确定状态的变化,并利用熵和超熵进一步研究了混沌、分形和复杂网络中的不确定性,以及由此带来的种种进化和变异,为实现不确定性人工智能找到了一种简单、有效的形式化方法,也为包括形象思维在内的不确定性思维的自动化打下了基础.不确定性人工智能是人工智能进入21世纪的新发展.这个由多学科交叉渗透构成的新学科,必将使得机器能够具备人脑一样的不确定性信息和知识的表示能力、处理能力和思维能力.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (15714) [HTML] (3877) [PDF 1.32 M] (23436)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2005,16(1):1-7, DOI:
    [摘要] (22641) [HTML] (0) [PDF 614.61 K] (23363)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2006,17(9):1848-1859, DOI:
    [摘要] (12863) [HTML] (0) [PDF 770.40 K] (23089)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2012,23(8):2058-2072, DOI:10.3724/SP.J.1001.2012.04237
    [摘要] (10284) [HTML] (0) [PDF 800.05 K] (22944)
    摘要:
    分布式拒绝服务(distributed denial of service,简称DDoS)攻击是当今互联网的重要威胁之一.基于攻击包所处网络层次,将DDoS 攻击分为网络层DDoS 攻击和应用层DDoS 攻击,介绍了两类攻击的各种检测和控制方法,比较了处于不同部署位置控制方法的优劣.最后分析了现有检测和控制方法应对DDoS 攻击的不足,并提出了DDoS 过滤系统的未来发展趋势和相关技术难点.
    2005,16(10):1743-1756, DOI:
    [摘要] (10444) [HTML] (0) [PDF 545.62 K] (22709)
    摘要:
    论述了可证明安全性理论在安全方案与安全协议的设计与分析中的应用,内容主要包括:什么是可证明安全性,可证明安全性理论涉及到的一些基本概念,RO(random oracle)模型方法论的基本思想及其在公钥加密和数字签名等方案中的应用研究进展,标准模型下可证明安全性理论在公钥加密和数字签名等方案中的应用研究进展,以及可证明安全性理论在会话密钥分配协议的设计与分析中的应用研究进展.
    2013,24(2):295-316, DOI:10.3724/SP.J.1001.2013.04336
    [摘要] (9986) [HTML] (0) [PDF 0.00 Byte] (22615)
    摘要:
    在新的应用模式下,传统层次结构数据中心网络在规模、带宽、扩展性和成本方面存在诸多不足.为了适应新型应用的需求,数据中心网络需要在低成本的前提下,满足高扩展性、低配置开销、健壮性和节能的要求.首先,概述了传统数据中心网络体系结构及其不足,并指出了新的需求;其次,将现有方案划分为两类,即以网络为中心和以服务器为中心的方案;然后,对两类方案中的代表性结构进行了详细的综述和对比分析;最后指出了数据中心网络未来的发展方向.
    2023,34(2):625-654, DOI:10.13328/j.cnki.jos.006696
    [摘要] (3663) [HTML] (4951) [PDF 3.04 M] (22610)
    摘要:
    源代码缺陷检测是判别程序代码中是否存在非预期行为的过程,广泛应用于软件测试、软件维护等软件工程任务,对软件的功能保障与应用安全方面具有至关重要的作用.传统的缺陷检测研究以程序分析为基础,通常需要很强的领域知识与复杂的计算规则,面临状态爆炸问题,导致检测性能有限,在误报漏报率上都有较大提高空间.近年来,开源社区的蓬勃发展积累了以开源代码为核心的海量数据,在此背景下,利用深度学习的特征学习能力能够自动学习语义丰富的代码表示,从而为缺陷检测提供一种新的途径.搜集了该领域最新的高水平论文,从缺陷代码数据集与深度学习缺陷检测模型两方面系统地对当前方法进行了归纳与阐述.最后对该领域研究所面临的主要挑战进行总结,并展望了未来可能的研究重点.
    2021,32(2):496-518, DOI:10.13328/j.cnki.jos.006140
    [摘要] (6184) [HTML] (9458) [PDF 2.20 M] (22559)
    摘要:
    深度学习在计算机视觉领域取得了重大成功,超越了众多传统的方法.然而近年来,深度学习技术被滥用在假视频的制作上,使得以Deepfakes为代表的伪造视频在网络上泛滥成灾.这种深度伪造技术通过篡改或替换原始视频的人脸信息,并合成虚假的语音来制作色情电影、虚假新闻、政治谣言等.为了消除此类伪造技术带来的负面影响,众多学者对假视频的鉴别进行了深入的研究,并提出一系列的检测方法来帮助机构或社区去识别此类伪造视频.尽管如此,目前的检测技术仍然存在依赖特定分布数据、特定压缩率等诸多的局限性,远远落后于假视频的生成技术.并且不同学者解决问题的角度不同,使用的数据集和评价指标均不统一.迄今为止,学术界对深度伪造与检测技术仍缺乏统一的认识,深度伪造和检测技术研究的体系架构尚不明确.回顾了深度伪造与检测技术的发展,并对现有研究工作进行了系统的总结和科学的归类.最后讨论了深度伪造技术蔓延带来的社会风险,分析了检测技术的诸多局限性,并探讨了检测技术面临的挑战和潜在研究方向,旨在为后续学者进一步推动深度伪造检测技术的发展和部署提供指导.
    2003,14(9):1621-1628, DOI:
    [摘要] (13393) [HTML] (0) [PDF 680.35 K] (22386)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2018,29(7):2092-2115, DOI:10.13328/j.cnki.jos.005589
    [摘要] (10942) [HTML] (7351) [PDF 2.52 M] (22148)
    摘要:
    区块链是一种源于数字加密货币比特币的分布式总账技术,其发展引起了产业界与学术界的广泛关注.区块链具有去中心化、去信任、匿名、数据不可篡改等优势,突破了传统基于中心式技术的局限,具有广阔的发展前景.介绍了区块链技术在信息安全领域的研究现状和进展.首先,从区块链的基础框架、关键技术、技术特点、应用模式、应用领域这5个方面介绍了区块链的基本理论与模型;然后,从区块链在当前信息安全领域研究现状的角度出发,综述了区块链应用于认证技术、访问控制技术、数据保护技术的研究进展,并对比了各类研究的特点;最后,分析了区块链技术的应用挑战,对区块链在信息安全领域的发展进行了总结与展望,希望对未来进一步的研究工作有一定的参考价值.
    2010,21(7):1620-1634, DOI:
    [摘要] (12629) [HTML] (0) [PDF 765.23 K] (22138)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2016,27(11):2855-2869, DOI:10.13328/j.cnki.jos.004932
    [摘要] (3242) [HTML] (2395) [PDF 1.85 M] (22056)
    摘要:
    随着中文社交网络的发展(特别是微博的兴起),互联网中文公众事件越来越深刻地影响现实社会的生产和生活.由于缺乏有效的技术手段,信息处理的效率受到了限制.提出了一种公众事件信息熵的计算方法,其基本思想是:首先,对公众事件信息内容进行建模;然后,以香农信息论为理论基础,对公众事件的多维随机变量信息熵进行计算.这为互联网公众事件的定量化分析提供了一个重要的技术指标,为进一步的研究工作打下基础.
    2010,21(7):1605-1619, DOI:
    [摘要] (10093) [HTML] (0) [PDF 856.25 K] (21869)
    摘要:
    随着Internet规模的迅速扩大,复杂性和不确定性也随之增加,基于融合的网络态势感知必将成为网络管理的发展方向.在分析现有网络管理不足以及发展需求的基础上,介绍了网络态势感知的起源、概念、目标和特点.首先,提出了一个网络态势感知研究框架,介绍了研究历程,指出了研究重点以及存在的问题,并将现有评估方法分为3类:基于数学模型的方法、基于知识推理的方法、基于模式识别的方法.然后详细讨论了模型、知识表示和评估方法这3方面的研究内容,总结存在的共性问题,着重评价了每种评估方法的基本思路、评估过程和优缺点,并进行了对比分析.随后介绍了网络态势感知在安全、传输、生存性、系统评价等领域的应用研究.最后指出了网络态势感知的发展方向,并从问题体系、技术体系和应用体系3方面作了总结.
    2009,20(6):1393-1405, DOI:
    [摘要] (12406) [HTML] (0) [PDF 831.86 K] (21780)
    摘要:
    组合测试能够在保证错误检出率的前提下采用较少的测试用例测试系统.但是,组合测试用例集的构造问题的复杂度是NP完全的.组合测试方法的有效性和复杂性吸引了组合数学领域和软件工程领域的学者们对其进行深入的研究.总结了近年来在组合测试方面的研究进展,主要内容包括:组合测试准则的研究、组合测试生成问题与其他NP完全问题的联系、组合测试用例的数学构造方法、采用计算机搜索的组合测试生成方法以及基于组合测试的错误定位技术.
    2018,29(2):225-250, DOI:10.13328/j.cnki.jos.005424
    [摘要] (6484) [HTML] (6854) [PDF 2.66 M] (21531)
    摘要:
    路网匹配是基于位置服务中的关键预处理步骤,它将GPS轨迹点匹配到实际路网上.以此为基础对数据进行分析和挖掘,能够辅助解决城市计算中相关问题,例如建立智能交通系统、协助用户规划出行.对国内外学者在该研究领域取得的成果进行了分类总结,发现这些匹配算法可以较好地解决高采样率的路网匹配问题.但是,随着城市交通的快速发展,获取和处理车辆位置信息的成本不断提高,低频采样点越来越多,现有算法匹配精确度大幅度下降.于是,近年来出现了基于隐马尔可夫模型(hidden Markov model,简称HMM)的路网匹配算法.隐马尔可夫模型可以较为平滑地将噪声数据和路径约束进行整合,从有许多可能状态的路径中选择一条最大似然路径.重点总结了基于隐马尔可夫模型的路网匹配算法,主要是从特点与实验结果的角度对其进行对比总结,有些实验结果的正确率在一定条件下最高可达90%,这说明了基于隐马尔可夫模型的路网匹配算法在低采样率下的有效性.最后,对未来的研究可能采取的方法进行了展望.
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号