推荐文章

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  AI赋能的关系型数据库系统研究: 标准化、技术与挑战
    姬涛,钟锴,李奕言,李翠平,陈红
    2026, 37(2):817-859. DOI: 10.13328/j.cnki.jos.007506
    [摘要](1085) [HTML](211) [PDF 4.20 M](1013)
    摘要:
    随着大数据时代的到来, 海量数据应用呈现出规模性(volume)、多样性(variety)、高速性(velocity)和价值性(value)的典型特征. 这种数据范式对传统数据采集方法、管理策略及数据库处理能力提出了革命性挑战. 近年来, 人工智能技术的突破性发展, 特别是机器学习和深度学习在表征学习能力、计算效率提升及模型可解释性方面的显著进步, 为应对这些挑战提供了创新性解决方案. 在此背景下, 人工智能与数据库系统的深度融合催生了新一代智能数据库管理系统. 这类系统通过AI技术深度赋能实现了交互层、管理层、内核层这3大核心创新: 面向终端用户的自然语言交互; 支持自动化运维的数据库管理框架(如参数调优、索引推荐、数据库诊断和负载管理等); 基于机器学习的高效可扩展内核组件(如学习索引、智能分区、智能查询优化、智能查询调度等). 此外, 新兴的智能组件开发接口(API)进一步降低了AI与数据库系统的集成门槛. 系统性地探讨智能数据库的关键问题, 以“标准化”为核心视角, 提炼出各研究主题(交互范式、管理架构和内核设计)内在的通用处理范式和特征. 通过深入分析这些标准化的流程、组件接口与协作机制, 揭示驱动智能数据库自优化的核心逻辑, 综述当前研究进展, 并深入分析该领域面临的技术挑战与未来发展方向.
    2  LA-tree: 查询感知的自适应学习型多维索引
    刘佳伟,范举,张超,杜小勇
    2026, 37(2):485-507. DOI: 10.13328/j.cnki.jos.007570
    [摘要](535) [HTML](239) [PDF 5.24 M](1869)
    摘要:
    结构化数据分析通常需要在表格数据的多维属性上执行联合范围查询, 高效的多维索引因此成为数据库系统的关键支撑. 然而, 现有多维索引方法在高维场景下存在局限: 传统多维索引仅按数据分布进行均匀划分, 缺乏对查询特征的感知, 导致筛选效果有限; 而现有学习型多维索引虽引入查询感知, 但划分往往极不均匀, 使部分单元过大, 扫描成本显著增加. 为了解决上述问题, 提出一种新型的LA-tree学习型树形多维索引, 同时兼顾数据分布与查询负载感知. 在离线构建阶段, LA-tree将节点维度选择建模为最小化查询扫描比的问题, 并提出分层贪心搜索算法, 实现了均匀划分与查询感知的统一. 在在线查询阶段, 引入轻量线性模型与分段线性模型, 将传统的数值比较转化为快速映射计算, 在保证结果完整性的同时显著降低筛选延迟. 在动态场景中, 提出基于扫描量监控的自适应增量更新机制, 通过局部子树重构高效适配数据与查询负载的变化, 避免了整体索引重建的高昂代价. 实验结果表明, LA-tree在多个真实和基准数据集上均显著优于现有方法: 在静态场景中查询用时较最佳基准方法平均降低52%, 在动态场景中更新开销较重构方法减少97%, 同时保持低查询延迟与轻量级索引规模.
    3  数据要素流通全流程隐私关键技术: 现状、挑战与展望
    刘立伟,傅超豪,孙泽堃,周耘,阮娜,蒋昌俊
    2026, 37(1):301-325. DOI: 10.13328/j.cnki.jos.007478
    [摘要](458) [HTML](1031) [PDF 5.14 M](1023)
    摘要:
    近年来以大语言模型为代表的一系列数据驱动型 AIGC 应用深刻地改变了人们的生活范式, 引起国家对数据流通、数据隐私等问题的高度重视. 健全数据市场规范, 完善数据要素流通机制成为数字经济时代下又一重大研究课题. 但是现有数据隐私研究普遍聚焦于数据流通中的单一环节, 并未展现数据流通的全貌, 技术研究相对孤立, 存在不兼容性等问题. 因此数据服务提供商在实际生产活动中往往需要投入额外人力成本以进行全方位的数据隐私保护. 聚焦数据流通问题, 依据数据生命周期将流通全过程划分为3个阶段, 对各阶段的隐私关键技术建立系统的分类体系, 并对各领域的最新进展、未来挑战等问题进行深入剖析. 以数据流通为载体, 隐私技术为目标, 涵盖数据流通全过程, 有助于研究者快速建立对数据流通全流程隐私技术的系统认识, 为后续研究建立完备的全流程数据流通隐私保护范式奠定基础.
    4  图对比学习方法综述
    刘子扬,王朝坤,章衡
    2026, 37(1):180-199. DOI: 10.13328/j.cnki.jos.007417
    [摘要](1747) [HTML](451) [PDF 2.30 M](976)
    摘要:
    对比学习是一种在计算机视觉和自然语言处理等领域广泛应用的自监督学习技术. 图对比学习指的是在图数据上应用对比学习技术的一类方法. 给出图对比学习的基本概念、算法和应用的一个综述. 首先介绍图对比学习的背景和意义及其在图数据上的基本概念; 然后详细阐述图对比学习的主流方法, 包括基于不同图数据增强策略的方法分类、基于不同图神经网络编码器结构的方法分类以及基于不同对比损失目标的方法分类等; 最后提出了3个图对比学习的研究思路. 研究结果表明, 图对比学习是一项有效的技术, 可以用来解决图数据上节点分类、图分类等一系列下游任务.
    5  面向整车系统的自动驾驶安全测试研究综述
    任睿晗,杨超,杨凯,张柏迪,张晓东,王利娟,马建峰
    2026, 37(1):157-179. DOI: 10.13328/j.cnki.jos.007486
    [摘要](1664) [HTML](520) [PDF 2.84 M](982)
    摘要:
    自动驾驶系统能够产生极大的经济效益、安全效益和社会效益, 受到工业界和学术界的格外关注, 逐渐被深入研究, 普及应用. 然而, 引入此类复杂生态系统会产生新的安全问题, 威胁行人的生命安全, 影响现有的法律体系. 因此, 在自动驾驶系统实装、自动驾驶车辆上路、自动驾驶行业商业化落地前, 必须通过仿真测试、准入审核、试点运营等多种途径验证自动驾驶系统. 当前对模块安全研究的总结已经成熟, 但仍然缺乏对整车安全研究的归纳整理工作. 因此, 系统性地分析面向整车系统的自动驾驶安全测试研究, 全面回顾当前的主流工作. 首先, 概述自动驾驶系统结构和仿真测试的基本流程, 梳理近6年整车系统安全测试领域的文献, 并依托于通用的测试框架形成面向整车系统的自动驾驶安全测试框架. 其次, 基于上述框架提炼出当前工作的5类核心研究问题, 即关键场景生成、测试充分性、对抗样本生成、测试优化和测试预言, 并详细地分析和整理每类问题的关键技术、研究现状、发展脉络, 归纳当前研究常用的评价指标和对比方法. 最后, 总结各个研究方向面临的严峻挑战, 并展望未来的研究机遇, 思考潜在的解决方案.
    6  面向编译优化结果不一致的代码高效定位
    于恒彪,易昕,范小康,唐滔,黄春,尹帮虎,王戟
    2025, 36(12):5387-5401. DOI: 10.13328/j.cnki.jos.007406
    [摘要](1022) [HTML](408) [PDF 6.76 K](1497)
    摘要:
    编译器是程序开发人员最依赖的性能优化工具之一. 然而, 受限于浮点数有限精度编码问题, 很多编译优化选项会改变浮点计算的语义, 进而导致程序计算结果不一致. 定位程序中导致编译优化结果不一致的语句对于程序性能优化和结果可复现具有重要意义. 当前最先进的方法PLiner采用基于语句精度增强的二分搜索来定位导致编译优化结果不一致的代码段, 受限于对多源问题代码的定位支持不够和搜索效率不高问题. 提出一种浮点指令差异性引导的Delta调试定位方法FI3D, 利用Delta调试中的回溯机制更好地支持多源问题代码定位, 基于不同编译优化选项下函数浮点指令序列的差异性来引导定位. 使用NPB基准测试集中的6个应用、GSL数学库中的10个程序和floatsmith混合精度测试集中的2个程序对FI3D进行了评测, 实验结果显示FI3D能够成功定位PLiner失效的4个测试用例, 且对PLiner成功定位的14个测试用例获得了平均26.8%的性能提升.
    7  基于可编程交换机的网络安全研究进展
    邹志凯,张梦豪,李冠宇,杨任宇,沃天宇,胡春明,徐明伟
    2025, 36(11):5274-5295. DOI: 10.13328/j.cnki.jos.007385
    [摘要](1242) [HTML](376) [PDF 8.93 M](1484)
    摘要:
    随着云计算、移动互联网和人工智能等网络应用的快速发展, 网络攻击和威胁日益增多和复杂化, 这要求网络安全防御技术能够有效地防御网络攻击, 保障关键基础设施网络的安全. 传统基于专有中间件的防御技术能够通过专有硬件实现高性能, 然而这些防御措施成本高昂, 部署新的防御通常需要升级设备. 基于软件的防御技术非常灵活, 但是基于软件的数据包处理会导致较高的性能开销. 可编程交换机的出现则为网络安全防御带来了新的契机, 由于其在灵活性和性能上的显著优势, 基于可编程交换机的网络安全研究已经成为近期的研究热点之一. 首先回顾可编程交换机的起源和架构, 然后深入探讨其相关特性在网络安全防御中的应用和优势, 包括易于管理、低成本、高灵活性和高性能. 接着, 从网络安全防御的基本三元组即预防、检测和响应的角度出发, 系统阐述了利用可编程交换机进行网络安全防御的技术, 包括访问控制、网络扫描、网络混淆、深度数据包检查、DDoS检测与防御、智能数据平面等多个方面, 并且分析了这些技术的设计理念、实现机制和潜在局限性. 最后, 对基于可编程交换机的网络安全研究的未来发展方向进行了展望.
    8  深度学习驱动的软件漏洞预测: 问题、进展与挑战
    唐家昕,王璇,赖伟,路则雨,郭肇强,杨已彪,周毓明
    2025, 36(11):4906-4952. DOI: 10.13328/j.cnki.jos.007376
    [摘要](1779) [HTML](417) [PDF 11.69 M](2034)
    摘要:
    软件漏洞是软件中易于被攻击利用的代码片段, 确保软件不易受到攻击是软件开发中必须重视的安全性需求. 软件漏洞预测是指对软件代码进行分析预测, 从而及时找出潜在的漏洞. 深度学习驱动的软件漏洞预测是近年来一个热门的研究领域, 时间跨度大、研究数目众多、研究成果丰厚. 为梳理相关研究成果、总结研究热点, 对2017–2024年间发表的151篇深度学习驱动的软件漏洞预测相关的文献进行综述, 总结相关文献的研究问题、进展以及遇到的问题与挑战等内容, 为后续研究提供参考.
    9  结合大语言模型和领域知识库的证券规则规约方法
    李靓果,薛志一,陈小红,张民,陈良育,李萍萍,姜婷婷
    2025, 36(10):4671-4694. DOI: 10.13328/j.cnki.jos.007294
    [摘要](614) [HTML](388) [PDF 6.76 K](1188)
    摘要:
    业务规则在证券领域至关重要, 它们是证券交易系统的需求的来源. 鉴于业务规则的易变性, 如何提升从业务规则交易文档中规约出软件需求的效率, 成为一个核心的问题. 证券业务规则文档具有与软件不相关描述多、专业术语多、上下文相关表述多和抽象表示多等特性, 其自动化规约需要领域相关知识的支持. 如何将领域相关知识融入自动化过程中, 成为规约的关键问题. 提出了一种结合大语言模型和领域知识库的证券领域业务规则自动规约方法, 对大语言模型通过微调、上下文学习等嵌入领域知识执行规则分类和需求信息提取等自然语言处理任务. 此外, 还通过领域知识库提供专业领域知识, 进行需求的可操作化和关系识别, 最终形成数据流形式的需求规约. 评估结果显示, 该方法能够处理各种证券交易领域的业务规则文档, 在评估数据集上的平均功能点识别率为91.97%, 达到甚至超越了领域专家的水平, 与人类参与者相比, 效率平均提高了10倍.
    10  高精度滑动窗口模型下的图流三角形近似计数算法
    苟向阳,邹磊,于旭
    2025, 36(9):4349-4372. DOI: 10.13328/j.cnki.jos.007256
    [摘要](419) [HTML](1048) [PDF 6.72 K](1569)
    摘要:
    近年来, 图流分析在研究领域和工业领域都变得愈发重要. 图流是从数据源持续高速到达的边序列, 这些边组成了一个不断变化的动态图. 在图流上可以进行多种不同的分析, 而三角形计数是其中最基础的操作之一. 由于图流数据规模大, 更新速度高, 在图流上进行精确三角形计数效率较低, 而且并不必要. 因为大部分三角形计数应用都允许一定的误差, 所以, 图流上的近似三角形计数一直都是研究热点之一. 研究基于采样的滑动窗口模型下的图流近似三角形计数. 滑动窗口模型只关注最近到达的图流数据, 较早的图流数据被认定为过期. 它被广泛应用于不同的工业场景和研究工作中. 将一种“采样前计数”的方法与该问题场景下最新的算法结合, 并提出一套策略以应对由于边过期产生的困难. 使用真实数据集展开广泛的实验以测试提出的CBS算法. 实验结果表明, CBS相比目前最好的工作, 估算误差降低了70%以上.
    11  面向深度学习的后门攻击及防御研究综述
    高梦楠,陈伟,吴礼发,张伯雷
    2025, 36(7):3271-3305. DOI: 10.13328/j.cnki.jos.007364
    [摘要](2293) [HTML](3122) [PDF 6.73 K](2962)
    摘要:
    深度学习模型是人工智能系统的重要组成部分, 被广泛应用于现实多种关键场景. 现有研究表明, 深度学习的低透明度与弱可解释性使得深度学习模型对扰动敏感. 人工智能系统面临多种安全威胁, 其中针对深度学习的后门攻击是人工智能系统面临的重要威胁. 为了提高深度学习模型的安全性, 全面地介绍计算机视觉、自然语言处理等主流深度学习系统的后门攻击与防御研究进展. 首先根据现实中攻击者能力将后门攻击分为全过程可控后门、模型修改后门和仅数据投毒后门. 然后根据后门构建方式进行子类划分. 接着根据防御策略对象将现有后门防御方法分为基于输入的后门防御与基于模型的后门防御. 最后汇总后门攻击常用数据集与评价指标, 并总结后门攻击与防御领域存在的问题, 在后门攻击的安全应用场景与后门防御的有效性等方面提出建议与展望.
    12  区块链测试基准综述
    张孝,秦春玲,王文收,刘昊,陈晋川,杜小勇
    2025, 36(7):3151-3183. DOI: 10.13328/j.cnki.jos.007366
    [摘要](1565) [HTML](3037) [PDF 6.71 K](2418)
    摘要:
    近年来, 区块链技术已经广泛应用到数据要素流通、金融、物流、政务以及司法等领域. 随之也出现了若干区块链测试基准, 以评测不同区块链系统的性能. 然而, 现有区块链测试基准内容差异较大, 缺少统一的区块链测试基准框架来规范基准的内容, 也缺失统一的指标体系来明确区块链系统在性能和安全性方面应具备的能力. 从数据库发展历程来看, 统一的、可重复的、公平的测试基准规范可以更好地引导行业发展. 区块链本身也是一种特殊的分布式数据库管理系统, 应该借鉴数据库技术在发展过程中积累的宝贵经验. 参考数据库测试基准的内容, 针对区块链系统所特有的去中心化、不可篡改、可信等特点, 提出一个区块链测试基准参考框架UFBCB. 该参考框架定义了区块链测试基准的5个核心要素: 应用模型、数据模型、负载、指标和执行规则, 并阐明5个要素相互之间的关系, 为区块链性能评测提供了一个统一的参考标准. 提出一个全面衡量区块链系统各项关键能力的测试指标体系, 包含性能、能耗、扩展性和安全性这4个方面的指标, 基本覆盖了已有的区块链测试指标. 在此基础上, 将UFBCB框架与现有区块链测试基准进行详尽的对比分析, 指出目前区块链测试基准存在的普遍问题. 最后, 对区块链测试基准未来的发展方向进行了讨论.
    13  面向函数内联场景的二进制到源代码函数相似性检测方法
    贾昂,范铭,徐茜,晋武侠,王海军,刘烃
    2025, 36(7):3003-3021. DOI: 10.13328/j.cnki.jos.007335
    [摘要](777) [HTML](837) [PDF 6.75 K](2634)
    摘要:
    二进制到源代码函数相似性检测是软件组成成分分析的基础性工作之一. 现有方法主要采用一对一的匹配策略, 即使用单一的二进制函数和单一的源代码函数进行比对. 然而, 由于函数内联的存在, 函数之间的映射关系实际上表现为一对多——单一的二进制函数能够关联至多个源代码函数. 这一差异导致现有方法在函数内联场景下遭受了30%的性能损失. 针对函数内联场景下的二进制到源代码函数匹配需求, 提出了一种面向一对多匹配的二进制到源代码函数相似性检测方法, 旨在生成源代码函数集合作为内联二进制函数的匹配对象, 以弥补源代码函数库的缺失. 通过一系列实验评估了方法的有效性. 实验数据表明, 方法不仅能够提升现有二进制到源代码函数相似性检测的能力, 而且还能够找到内联的源代码函数, 帮助现有工具更好地应对内联挑战.
    14  软件设计模式检测技术: 现状、挑战和展望
    王雷,袁野,王国仁
    2025, 36(6):2643-2682. DOI: 10.13328/j.cnki.jos.007290
    [摘要](1118) [HTML](1221) [PDF 6.75 K](2669)
    摘要:
    设计模式检测是软件工程领域中非常重要的研究课题. 国内外很多学者致力于设计模式检测问题的研究与解决, 取得了丰硕的研究成果. 对当前软件设计模式检测技术进行综述并展望了其前景. 首先, 简要介绍软件设计模式检测领域的发展历程, 讨论并总结了设计模式的检测对象和特征类型, 给出了设计模式检测评估指标. 然后, 总结了设计模式检测技术现有的分类方法, 引出了分类方法. 根据设计模式检测技术发展的时间线从非机器学习设计模式检测、机器学习设计模式检测、基于预训练语言模型的设计模式检测这3类方法出发探讨了当前软件设计模式检测技术的研究现状和最新进展, 并对当前成果进行了总结和比较. 最后, 分析了该领域存在的主要问题与挑战, 指出了今后值得进一步研究的方向以及可能的解决方案. 涵盖了从早期的非机器学习方法到利用机器学习技术, 再到现代预训练语言模型的应用, 全面系统地展现了该领域的发展历程、最新进展和未来发展前景, 对于该领域今后的研究方向和思路具有指导意义.
    15  高维贝叶斯优化研究综述
    陈泉霖,陈奕宇,霍静,曹宏业,高阳,李栋,郝建业
    2025, 36(6):2576-2603. DOI: 10.13328/j.cnki.jos.007304
    [摘要](1251) [HTML](1393) [PDF 6.76 K](2828)
    摘要:
    贝叶斯优化是一种优化黑盒函数的技术, 高效的样本利用率使其在众多科学和工程领域中得到了广泛应用, 如深度模型调参、化合物设计、药物开发和材料设计等. 然而, 当输入空间维度较高时, 贝叶斯优化的性能会显著下降. 为了克服这一限制, 许多研究对贝叶斯优化方法进行了高维扩展. 为了深入剖析高维贝叶斯优化的研究方法, 根据不同工作的假设与特征将高维贝叶斯优化方法分为3类: 基于有效低维度假设的方法、基于加性假设的方法以及基于局部搜索的方法, 并对这些方法进行阐述和分析. 首先着重分析这3类方法的研究进展, 然后比较各类方法在贝叶斯优化应用中的优劣势, 最后总结当前阶段高维贝叶斯优化的主要研究趋势, 并对未来发展方向展开讨论.
    16  智能化芯片设计程序测试研究综述
    李晓鹏,闫明,樊兴宇,唐振韬,开昰雄,郝建业,袁明轩,陈俊洁
    2025, 36(6):2453-2476. DOI: 10.13328/j.cnki.jos.007328
    [摘要](1606) [HTML](1537) [PDF 6.71 K](4741)
    摘要:
    在当今智能化的时代背景下, 芯片作为智能电子设备的核心组件, 在人工智能、物联网、5G通信等诸多领域发挥着关键作用, 保障芯片的正确性、安全性和可靠性至关重要. 在芯片的开发流程中, 开发人员首先需要利用硬件描述语言, 将芯片设计实现成软件形式(即芯片设计程序), 然后再进行物理设计并最终流片(即生产制造). 作为芯片设计制造的基础, 芯片设计程序的质量直接影响了芯片的质量. 因此, 针对芯片设计程序的测试具有重要研究意义. 早期的芯片设计程序测试方法主要依赖开发人员人工设计测试用例来测试芯片设计程序, 往往需要大量的人工成本和时间代价. 随着芯片设计程序复杂度的日益增长, 诸多基于仿真的自动化芯片设计程序测试方法被提出, 提升了芯片设计程序测试效率及有效性. 近年来, 越来越多的研究者致力于将机器学习、深度学习和大语言模型(LLM)等智能化方法应用于芯片设计程序测试领域. 调研88篇智能化芯片设计程序测试相关的学术论文, 从测试输入生成、测试预言构造及测试执行优化这3个角度对智能化芯片设计程序测试已有成果进行整理归纳, 重点梳理芯片设计程序测试方法从机器学习阶段、深度学习阶段到大语言模型阶段的演化, 探讨不同阶段方法在提高测试效率和覆盖率、降低测试成本等方面的潜力. 同时, 介绍芯片设计程序测试领域的研究数据集和工具, 并展望未来的发展方向和挑战.
    17  基于大语言模型的模糊测试研究综述
    李岩,杨文章,张翼,薛吟兴
    2025, 36(6):2404-2431. DOI: 10.13328/j.cnki.jos.007323
    [摘要](4319) [HTML](4155) [PDF 6.76 K](4826)
    摘要:
    模糊测试是一种自动化的软件测试方法, 通过向目标软件系统输入大量自动生成的测试数据, 以发现系统潜在的安全漏洞、软件缺陷或异常行为. 然而, 传统模糊测试技术受限于自动化程度低、测试效率低、代码覆盖率低等因素, 无法应对现代的大型软件系统. 近年来, 大语言模型的迅猛发展不仅为自然语言处理领域带来重大突破, 也为模糊测试领域带来了新的自动化方案. 因此, 为了更好地提升模糊测试技术的效果, 现有的工作提出了多种结合大语言模型的模糊测试方法, 涵盖了测试输入生成、缺陷检测、后模糊处理等模块. 但是现有工作缺乏对基于大语言模型的模糊测试技术的系统性调研和梳理讨论, 为了填补上述综述方面的空白, 对现有的基于大语言模型的模糊测试技术的研究发展现状进行全面的分析和总结. 主要内容包括: (1)概述模糊测试的整体流程和模糊测试研究中常用的大语言模型相关技术; (2)讨论大模型时代之前的基于深度学习的模糊测试方法的局限性; (3)分析大语言模型在模糊测试方法中不同环节的应用方式; (4)探讨大语言模型技术在模糊测试中的主要挑战和今后可能的发展方向.
    18  智能网联汽车自动驾驶安全: 威胁、攻击与防护
    郗来乐,林声浩,王震,谢天鸽,孙玉砚,朱红松,孙利民
    2025, 36(4):1859-1880. DOI: 10.13328/j.cnki.jos.007272
    [摘要](2934) [HTML](2108) [PDF 3.17 M](2093)
    摘要:
    智能网联汽车在国家发展战略中占有重要地位, 是关系汽车产业革新、大国核心竞争力的关键技术, 自动驾驶是智能网联汽车发展的最终目标, 智能网联汽车自动驾驶(以下称“自动驾驶汽车”)的安全问题直接影响人民生命财产安全、国家公共安全, 但目前还缺少对其的系统性研究. 深度剖析自动驾驶面临的安全威胁能对其安全防护和保障提供指导, 促进其大规模应用. 通过整理学术界与工业界对自动驾驶安全的相关研究工作, 分析和总结自动驾驶所面临的安全问题. 首先介绍自动驾驶汽车架构、安全的特殊性, 其次从模型视角出发, 全过程地梳理自动驾驶的物理域输入、信息域输入和驾驶模型这3个方面可能存在的9个攻击作用点及其攻击方式与安全防护手段, 最后通过对近7年相关研究论文数据的统计分析, 总结自动驾驶安全研究的现状, 讨论未来的研究方向.
    19  神经形态计算: 从脉冲神经网络到边缘部署
    俞诗航,易梦军,吴洲,申富饶,赵健
    2025, 36(4):1758-1795. DOI: 10.13328/j.cnki.jos.007298
    [摘要](1323) [HTML](1628) [PDF 10.36 M](2246)
    摘要:
    受生物神经系统启发, 神经形态计算的概念于20世纪80年代被提出, 旨在模拟生物大脑的结构和功能, 实现更高效、更具生物合理性的计算方式. 作为神经形态计算的代表模型, 脉冲神经网络(SNN)因其脉冲稀疏性, 事件驱动性、生物可解释性以及硬件契合性等优势, 在资源严格受限的边缘智能任务中得到了广泛应用. 针对脉冲神经网络的边缘部署情况进行梳理和汇总, 首先从脉冲神经网络模型自身的原理出发, 论述脉冲神经网络的高能效计算方式以及巨大的边缘部署潜力. 然后介绍当下常见的脉冲神经网络硬件实现工具链, 并重点对脉冲神经网络在各类神经形态硬件平台的部署情况做详细的整理与分析. 最后, 考虑到硬件故障行为已发展为当下研究中不可避免的问题, 对脉冲神经网络边缘部署时的故障与容错研究进行概述. 从软件模型原理到硬件平台实现, 全面系统地介绍神经形态计算的最新进展, 分析脉冲神经网络边缘部署时遇到的困难与挑战, 并针对这些挑战给出未来可能的解决方向.
    20  深度学习在基于信息检索的缺陷定位中的应用综述
    曹帅,牛菲菲,李传艺,陈俊洁,刘逵,葛季栋,骆斌
    2025, 36(4):1530-1556. DOI: 10.13328/j.cnki.jos.007288
    [摘要](937) [HTML](1355) [PDF 3.47 M](2288)
    摘要:
    缺陷自动定位方法可以极大程度减轻开发人员调试和维护软件程序的负担. 基于信息检索的缺陷定位方法是广泛研究的缺陷自动定位方法之一, 并已取得了较好的成果. 随着深度学习的普及, 将深度学习应用于基于信息检索的缺陷定位成为近年来的研究趋势之一. 系统梳理和总结了52篇近年来将深度学习引入基于信息检索缺陷定位的工作. 首先, 总结该类缺陷定位的数据集和评价指标, 接着从不同粒度和可迁移性分析了该类技术的定位效果, 随后着重梳理了相关工作中信息编码表征方法和特征提取方法. 最后总结对比分析了各领域最先进的定位方法, 并展望了使用深度学习的基于信息检索的缺陷定位方法的未来发展方向.
    21  大模型在软件缺陷检测与修复的应用发展综述
    香佳宏,徐霄阳,孔繁初,彭湃,张钊,张煜群
    2025, 36(4):1489-1529. DOI: 10.13328/j.cnki.jos.007268
    [摘要](2276) [HTML](3417) [PDF 10.46 M](4275)
    摘要:
    随着信息化的深入, 大量应用程序的开发和功能迭代不可避免引入软件缺陷, 并潜在地对程序可靠性和安全性造成了严重的威胁. 检测与修复软件漏洞, 已经成为开发者维护软件质量必要的任务, 同时也是沉重的负担. 对此, 软件工程的研究者在过去的数十年中提出大量相关技术, 帮助开发者解决缺陷相关问题. 然而这些技术都面对着一些严峻的挑战, 在工业实践落地上鲜有进展. 大模型, 如代码大模型CodeX和对话大模型ChatGPT, 通过在海量数据集上进行训练, 能够捕捉代码中的复杂模式和结构, 处理大量上下文信息并灵活地适应各种任务, 以其优秀的性能吸引了大量研究人员的关注. 在诸多软件工程任务中, 基于大模型的技术展现出显著的优势, 有望解决不同领域过去所面对的关键挑战. 因此, 尝试对目前已经存在基于大模型相关成熟技术的3个缺陷检测领域: 深度学习库的缺陷检测、GUI自动化测试、测试用例的自动生成, 与软件缺陷修复的成熟领域: 缺陷自动化修复, 进行分析和探究, 在阐述其发展脉络的同时对不同技术流派的特性和挑战进行深入的探讨. 最后, 基于对已有研究的分析, 总结这些领域和技术所面临的关键挑战及对未来研究的启示.
    22  面向深度学习的图像数据增强综述
    杨锁荣,杨洪朝,申富饶,赵健
    2025, 36(3):1390-1412. DOI: 10.13328/j.cnki.jos.007263
    [摘要](2858) [HTML](1582) [PDF 8.90 M](3011)
    摘要:
    深度学习已经在许多计算机视觉任务中取得了显著的成果. 然而, 深度神经网络通常需要大量的训练数据以避免过拟合, 但实际应用中标记数据可能非常有限. 因此, 数据增强已成为提高训练数据充分性和多样性的有效方法, 也是深度学习模型成功应用于图像数据的必要环节. 系统地回顾不同的图像数据增强方法, 并提出一个新的分类方法, 为研究图像数据增强提供了新的视角. 从不同的类别出发介绍各类数据增强方法的优势和局限性, 并阐述各类方法的解决思路和应用价值. 此外, 还介绍语义分割、图像分类和目标检测这3种典型计算机视觉任务中常用的公共数据集和性能评价指标, 并在这3个任务上对数据增强方法进行实验对比分析. 最后, 讨论当前数据增强所面临的挑战和未来的发展趋势.
    23  ChannelLink: 基于链下状态通道的跨片状态迁移协议
    贾林鹏,孙毅
    2025, 36(3):1327-1354. DOI: 10.13328/j.cnki.jos.007174
    [摘要](1119) [HTML](1250) [PDF 7.52 M](4040)
    摘要:
    跨片状态迁移协议是保证跨片交易处理原子性的基础, 其效率高低将直接影响分片系统性能. 现有协议处理过程可以分为源分片状态迁出、片间状态传输和目的分片状态迁入这3个阶段, 各阶段依次执行、紧密绑定. 利用链下状态通道灵活度高、即时确认的特点, 提出了ChannelLink跨片状态迁移协议, 将现有协议中紧密耦合的三阶段处理过程解耦, 有效降低了跨片交易平均开销, 提升了状态迁移效率. 基于此, 设计了一种低开销链下通道路由算法. 该算法基于状态迁移交易与链下通道拓扑等特征, 通过改进遗传算法, 求解最优状态路由方案, 兼顾迁移效率的同时, 降低了用户跨片状态迁移开销. 最后, 实现了ChannelLink协议原型系统, 并基于比特币交易以及闪电网络状态信息构造数据集进行实验验证. 实验结果表明, 该协议在16个分片、跨片交易比例为5.21%的场景下, 分片系统吞吐量提升7.04%, 交易确认延迟降低52.51%, 跨片状态迁移开销下降45.44%以上, 并且随着分片数量与跨片交易比例的上升, 该协议的性能优势逐步扩大.
    24  大语言模型的幻觉问题研究综述
    刘泽垣,王鹏江,宋晓斌,张欣,江奔奔
    2025, 36(3):1152-1185. DOI: 10.13328/j.cnki.jos.007242
    [摘要](4694) [HTML](2091) [PDF 8.91 M](4430)
    摘要:
    随着以Transformer为代表的预训练模型等深度学习技术的发展, 大语言模型(LLM)日益展现出强大的理解力和创造力, 对抽象摘要、对话生成、机器翻译和数据到文本生成等下游任务产生了重要影响, 同时也在图像说明、视觉叙事等多模态领域展现出了广阔的应用前景. 虽然大语言模型具备显著的性能优势, 但深度学习架构使其难以避免内容幻觉问题, 这不仅会削减系统性能, 还严重影响其可信性和应用广泛性, 由此衍生的法律风险和伦理风险成为掣肘其进一步发展与落地的主要障碍. 聚焦大语言模型的幻觉问题, 首先, 对大语言模型的幻觉问题展开系统概述, 分析其来源及成因; 其次, 系统概述大语言模型幻觉问题的评估方法和缓解方法, 对不同任务的评估和缓解方法类型化并加以深入比较; 最后, 从评估和缓解角度展望应对幻觉问题的未来趋势和应对方案.
    25  基于思维链的软件漏洞自动修复
    林博,王尚文,毛晓光
    2025, 36(3):1131-1151. DOI: 10.13328/j.cnki.jos.007205
    [摘要](1795) [HTML](1463) [PDF 6.32 M](4419)
    摘要:
    随着软件漏洞的类型、数量和复杂性日渐增长, 研究人员提出了诸多自动化的手段来帮助开发人员发现、检测和定位漏洞, 但研究人员仍需花费大量精力对漏洞进行修复. 近年来, 一些研究者开始关注软件漏洞自动修复技术, 然而当前的先进技术仅将软件漏洞修复规约为通用的文本生成问题, 没有对缺陷修复位置进行定位, 导致修复程序的生成空间较大, 使得生成的修复程序质量较低, 将其提供给开发人员反而影响漏洞修复的效率和效果. 针对上述问题, 提出一种基于思维链的通用类型漏洞修复方法CotRepair, 利用思维链技术, 模型首先对产生漏洞概率较高的位置进行预测, 而后依托预测结果, 更加准确地生成修复程序. 实验结果表明提出的方法在评价生成修复程序的各项指标上均显著优于基线方法, 从多个维度验证所提方法的有效性.
    26  区块链分片技术研究进展
    唐海波,张焕,张召,金澈清,周傲英
    2025, 36(3):1040-1064. DOI: 10.13328/j.cnki.jos.007276
    [摘要](3183) [HTML](2019) [PDF 9.06 M](4271)
    摘要:
    云原生数据库基于云基础设施提供高可用、可弹性伸缩的数据管理, 近年来得到了快速发展. 区块链作为一种透明、防篡改、可追溯的数据库系统, 其中区块链分片是对区块链系统进行扩容的最直接且最有潜力的方案, 利用云基础设施的弹性伸缩特点可以实现更灵活的扩缩容. 首先总结当前区块链分片解决的3个关键技术问题: 节点划分的安全性、高效链上数据分片以及跨片交易处理, 分别梳理这3个问题的研究现状, 对每个问题下相应的方案进行介绍和对比, 也讨论了将这些方案运用在云原生环境下面临的新挑战. 随后, 围绕这3个维度, 从对区块链系统整体影响的角度, 对所有方案进行全面的分析和对比. 最后, 分析区块链分片技术发展趋势, 指出几个值得进一步探索的研究方向.
    27  大语言模型驱动的跨领域属性级情感分析
    李诗晨,王中卿,周国栋
    2025, 36(2):644-659. DOI: 10.13328/j.cnki.jos.007156
    [摘要](2220) [HTML](1626) [PDF 6.36 M](5112)
    摘要:
    属性级情感分析作为一种细粒度情感分析方法, 目前在许多应用场景中都具有重要作用. 然而, 随着社交媒体和在线评论的日益广泛以及各类新兴领域的出现, 使得跨领域属性级情感分析面临着标签数据不足以及源领域与目标领域文本分布差异等挑战. 目前已有许多数据增强方法试图解决这些问题, 但现有方法生成的文本仍存在语义不连贯、结构单一以及特征与源领域过于趋同等问题. 为了克服这些问题, 提出一种基于大语言模型(large language model, LLM)数据增强的跨领域属性级情感分析方法. 所提方法利用大模型丰富的语言知识, 合理构建针对跨领域属性级别情感分析任务的引导语句, 挖掘目标领域与源领域相似文本, 通过上下文学习的方式, 使用领域关联关键词引导LLM生成目标领域有标签文本数据, 用以解决目标领域数据缺乏以及领域特异性问题, 从而有效提高跨领域属性级情感分析的准确性和鲁棒性. 所提方法在多个真实数据集中进行实验, 实验结果表明, 该方法可以有效提升基线模型在跨领域属性级情感分析中的表现.
    28  HTAP 评测基准的评测能力综述
    翁思扬,俞融,王清帅,胡梓锐,倪葎,张蓉,周烜,周傲英,徐泉清,杨传辉,刘维,杨攀飞
    2025, 36(1):424-445. DOI: 10.13328/j.cnki.jos.007225
    [摘要](839) [HTML](1970) [PDF 6.73 K](3873)
    摘要:
    对数据库系统即时修改数据的高效实时分析需求推动了数据库系统向同时支持 OLTP 业务和 OLAP 业务两种场景的 HTAP 数据库系统的快速发展. 面对众多的HTAP数据库系统, 为了推动HTAP数据库系统的公平比较和健康发展, 定义和实现相应的评测基准来评估HTAP数据库系统的新特性至关重要. 首先, 分析HTAP数据库系统的关键特征并抽象总结HTAP数据库系统实现的关键技术. 然后, 提炼出HTAP数据库系统的设计难点和构建HTAP 评测基准的挑战, 并基于此提出HTAP评测基准应考虑的设计维度, 包括数据生成、负载生成、评价指标和一致性模型支持性. 对比现有HTAP 评测基准在设计维度和实现技术上的差异, 总结评测基准在不同设计维度上的优劣. 此外, 运行已公开的典型评测基准, 展示并分析它们对HTAP数据库系统关键特征的评测能力以及对不同HTAP数据库系统的横向对比的支持能力. 最后, 总结对HTAP 评测基准的能力需求和未来的一些研究方向, 指出语义一致的负载控制和新鲜数据访问度量是HTAP数据库系统评测基准定义的关键问题.
    29  广域确定性网络传输技术综述
    李彤,徐都玲,吴波,郭雄文,蒋岱均,罗成,卢卫,杜小勇
    2025, 36(1):371-398. DOI: 10.13328/j.cnki.jos.007231
    [摘要](1587) [HTML](1731) [PDF 6.71 K](2146)
    摘要:
    广域网作为连接新业务、新基础设施和各类新型应用的纽带, 已成为21世纪最重要的基础设施之一. 近年来, 数据量爆炸性增长, 伴随着基于广域网的大模型、数字经济、元宇宙和全息社会等新型应用形态的持续涌现, 以及东数西算、算力网络和数据场等新型业务架构的出现, 业务对广域网的数据传输服务质量提出了越来越高的要求. 以时延为例, 广域网不仅需要提供及时的服务, 还需要提供准时的服务, 即时延成为必须满足的确定性指标. 因此, 广域确定性网络作为广域网的新范式应运而生. 系统地综述确定性网络的内涵, 回顾传统确定性网络相关技术发展脉络, 介绍广域确定性网络的新应用, 探讨广域网确定性网络传输具有的新特征以及面临的新挑战, 并提出广域确定性网络的新目标. 基于上述新应用、新特征、新挑战和新目标, 详细总结当前广域确定性网络领域的主要研究进展, 并给出未来研究的方向. 期望能为广域确定性网络领域的研究提供参考和帮助.
    30  智能网联汽车的车载网络攻防技术研究进展
    陈博言,沈晴霓,张晓磊,张鑫,李聪,吴中海
    2025, 36(1):341-370. DOI: 10.13328/j.cnki.jos.007196
    [摘要](2954) [HTML](1943) [PDF 6.77 K](4702)
    摘要:
    随着人工智能和5G技术在汽车行业的应用, 智能网联汽车应运而生, 它是一种由众多来自不同供应商的电子控制单元(ECU)组成的复杂分布式异构系统, 通过以CAN为代表的车载网络协议交互协同控制各ECU. 然而, 攻击者可能通过各种接口攻击智能网联汽车, 渗透到车载网络, 再攻击车载网络及其各组成部分如ECU. 因此, 智能网联汽车的车载网络安全成为近些年车辆安全研究的焦点之一. 在介绍智能网联汽车整体结构、ECU、CAN总线和车载诊断协议等基础之上, 首先总结了目前车载网络协议的逆向工程技术进展, 逆向工程的目标是获取汽车行业通常不公开的车载网络协议实现细节, 也是实施攻击和防御的前提条件. 然后从车载网络攻、防两个角度展开: 一方面概括了车载网络攻击向量及主要攻击技术, 包括通过物理访问和远程访问方式实施的攻击技术, 以及针对ECU和CAN总线实施的攻击技术; 另一方面, 讨论了车载网络现有的防御技术, 包括基于特征工程和机器学习方法的车载网络入侵检测和基于密码学方法的车载网络协议安全增强技术. 最后展望了未来的研究方向.
    31  多路径传输技术研究综述
    苏金树,宋丛溪,计晓岚,徐草,韩彪
    2025, 36(1):289-320. DOI: 10.13328/j.cnki.jos.007193
    [摘要](1797) [HTML](2594) [PDF 6.73 K](6126)
    摘要:
    多路径传输技术是指通过设备上的多个网络接口, 在通信双方建立多条传输路径, 实现带宽聚合、负载均衡、路径冗余, 增加传输的吞吐量, 提高可靠性. 多路径传输技术凭借其上述优势, 已被广泛应用于服务器、终端和数据中心等场景, 是网络体系结构和传输技术研究的重要组成, 具有重要研究价值和意义. 为此, 从概念、核心机制等方面, 系统梳理了多路径传输技术. 首先概述了多路径传输的基本概念、标准化进程以及应用价值. 其次, 阐述多路径传输技术的核心机制, 包括拥塞控制、报文调度、路径管理、重传机制、安全机制, 以及面向特定应用的机制设计. 对每种机制的分类方法、主要研究成果给予了总结和评述, 分析总结了不同机制的优缺点与发展方向. 最后, 探讨了多路径传输技术研究面临的挑战, 展望了未来研究方向.
    32  混合博弈问题的求解与应用综述
    董绍康,李超,杨光,葛振兴,曹宏业,陈武兵,杨尚东,陈兴国,李文斌,高阳
    2025, 36(1):107-151. DOI: 10.13328/j.cnki.jos.007212
    [摘要](2602) [HTML](2570) [PDF 6.74 K](3729)
    摘要:
    近年来, 随着人工智能技术在序贯决策和博弈对抗等问题的应用方面取得了飞速发展, 围棋、游戏、德扑和麻将等领域取得了巨大的进步, 例如, AlphaGo、OpenAI Five、AlphaStar、DeepStack、Libratus、Pluribus和Suphx等系统都在这些领域中达到或超过人类专家水平. 这些应用集中在双人、两队或者多人的零和博弈问题中, 而对于混合博弈问题的研究缺乏实质性的进展与突破. 区别于零和博弈, 混合博弈需要综合考虑个体收益、集体收益和均衡收益等诸多目标, 被广泛应用于公共资源分配、任务调度和自动驾驶等现实场景. 因此, 对于混合博弈问题的研究至关重要. 通过梳理当前混合博弈领域中的重要概念和相关工作, 深入分析国内外研究现状和未来发展方向. 具体地, 首先介绍混合博弈问题的定义与分类; 其次详细阐述博弈解概念和求解目标, 包含纳什均衡、相关均衡、帕累托最优等解概念, 最大化个体收益、最大化集体收益以及兼顾公平等求解目标; 接下来根据不同的求解目标, 分别对博弈论方法、强化学习方法以及这两种方法的结合进行详细探讨和分析; 最后介绍相关的应用场景和实验仿真环境, 并对未来研究的方向进行总结与展望.
    33  服务器无感知计算系统性能优化技术研究综述
    杨光,刘杰,曲慕子,王帅,叶丹,钟华
    2025, 36(1):47-78. DOI: 10.13328/j.cnki.jos.007190
    [摘要](1248) [HTML](2258) [PDF 6.76 K](3929)
    摘要:
    服务器无感知计算是新兴的云计算模式, 它基于“函数即服务(FaaS)”的范式, 以函数为部署和调度的基本单位, 为用户提供大规模并行和自动伸缩的函数执行服务, 且无需用户管理底层资源. 对于用户, 服务器无感知计算能够帮助他们摆脱集群底层基础设施管理的负担, 专注于业务层的开发和创新; 对于服务提供商, 服务器无感知计算将应用分解为细粒度的函数, 极大地提高了调度效率和资源利用率. 显著的优势让服务器无感知计算迅速吸引了业界的注意, 然而, 服务器无感知计算与传统云计算迥然不同的计算模式以及对任务各方面的严格限制给应用的迁移带来了诸多障碍, 各种越来越复杂的任务也对服务器无感知计算的性能提出了越来越高的要求, 服务器无感知计算的性能优化成为一个重要的研究课题. 从4个方面对服务器无感知计算系统性能优化技术的相关研究工作进行梳理和综述, 并介绍现有的系统实现. (1)介绍面向典型任务的优化技术, 包括任务适配和针对特定任务的系统优化; (2)综述沙箱环境的优化工作, 包括沙箱方案和冷启动优化技术, 它们是决定函数运行速度的核心; (3)概括I/O和通信技术的优化, 它们是服务器无感知计算应用程序的主要性能瓶颈; (4)简述相关的资源调度技术, 包括面向平台和面向用户的调度策略, 它们决定着系统的资源利用率和任务的执行效率. 最后, 总结当前服务器无感知计算性能优化技术所面临的问题和挑战, 并展望未来可能的发展方向.
    34  基于投影的嵌入式系统需求分析方法
    王小齐,陈小红,金芝,顾斌,綦艳霞
    2024, 35(12):5397-5418. DOI: 10.13328/j.cnki.jos.007081
    [摘要](1409) [HTML](1893) [PDF 1.63 K](4678)
    摘要:
    嵌入式系统正变得越来越复杂, 其软件系统的需求分析成为嵌入式系统开发的瓶颈问题. 设备依赖性和执行逻辑的交织性是嵌入式软件系统的典型特征, 要求需求分析方法能根据所依赖的设备进行有效的需求解耦. 从基于环境建模的需求工程思想出发, 针对嵌入式软件系统的特征, 提出一种基于投影的从系统需求到软件需求的分析方法, 帮助需求工程师对需求进行有效解耦. 首先总结嵌入式软件系统的系统需求与软件需求描述, 基于交互环境特性定义嵌入式软件系统的需求解耦策略, 并设计从系统需求到软件需求的规约过程. 在航天器太阳搜索系统进行实际案例研究, 并通过耦合度与内聚性两个指标对5个代表性案例场景进行量化评估, 展示所提方法的有效性.
    35  基于异构图中多层次图结构的级联图卷积网络
    宋凌云,刘至臻,张炀,李战怀,尚学群
    2024, 35(11):5179-5195. DOI: 10.13328/j.cnki.jos.007051
    [摘要](1964) [HTML](1113) [PDF 7.34 M](3881)
    摘要:
    异构图是一种具有多种类型节点或边的图, 也称异构信息网络, 其常被用来建模现实世界中具有丰富特征和关联模式的系统. 异构节点间的链接预测是网络分析领域的一个基本任务. 近年来, 异构图神经网络技术的发展极大地促进了链接预测任务的进步, 其通常将此任务当作节点间的特征相似性分析或基于成对节点特征的二分类问题. 然而, 现有的异构图神经网络技术在进行节点特征表示学习时, 往往仅关注相邻节点间的关联或基于元路径的结构信息. 这使得其不仅难以捕捉异构图中固有的环结构所蕴含的语义信息, 也忽视了不同层次的结构信息之间的互补性. 为解决上述问题, 设计一种基于多层次图结构的级联图卷积网络CGCN-MGS, 其由基于邻居、元路径和环3种不同层次图结构的图神经网络组成, 能从多层次特征中挖掘出丰富、互补的信息, 提高所学节点特征对节点语义和结构信息的表征能力. 多个基准数据集上的实验结果表明, CGCN-MGS在异构图的链接预测任务上能够取得目前最优的性能结果.
    36  半监督场景下多视角信息交互的图卷积神经网络
    王悦天,傅司超,彭勤牧,邹斌,荆晓远,尤新革
    2024, 35(11):5098-5115. DOI: 10.13328/j.cnki.jos.007007
    [摘要](1717) [HTML](1510) [PDF 8.93 M](5120)
    摘要:
    在当前数据来源多样化且人工标记难度大的现实生活中, 半监督场景下多视角数据的分类算法在各个领域中都具有重要的研究意义. 近年来, 基于图神经网络的半监督多视角分类算法研究已经取得了很大的进展. 但是现有的图神经网络算法大多是在分类阶段进行多视角互补信息的融合, 反而忽略了训练阶段同一样本不同视角间互补信息的交互. 针对上述问题, 提出半监督场景下多视角信息交互的图卷积神经网络算法MIGCN (multi-view interaction graph convolutional network). 该方法通过在不同视角上训练的图卷积层之间引入Transformer Encoder模块, 使得同一样本在训练阶段都可以通过注意力机制自适应的在不同视角间获取互补性信息, 进而加强自身的训练; 除此之外, 还通过引入一致性约束损失让不同视角最终特征表达的相似关系尽可能一样, 促使图卷积神经网络在分类阶段更加合理的利用多视角特征之间的一致性和互补性信息, 进一步提升多视角融合特征的鲁棒性. 最后, 在多个真实世界多视角数据集上的实验表明, 相比于基于图的半监督多视角分类模型, MIGCN可以更好地学习到多视角数据的本质特征, 进而提升半监督多视角分类的准确性.
    37  Apache Flink复杂事件处理语言的形式语义
    傅宣登,吴志林
    2024, 35(10):4510-4532. DOI: 10.13328/j.cnki.jos.006968
    [摘要](1080) [HTML](1705) [PDF 5.53 M](3119)
    摘要:
    Apache Flink是目前最流行的流式计算平台之一, 已经在工业界得到了广泛应用. 复杂事件处理是流式计算的一种重要使用场景, Apache Flink平台定义并实现了一种复杂事件处理语言(简称FlinkCEP). FlinkCEP语法特性丰富, 不仅包括常见的过滤、连接、循环等操作, 还包括迭代条件、匹配筛选策略等高级特性. FlinkCEP语义复杂, 尚缺乏语言规范对其语义进行准确描述, 只能通过实现细节来理解, 因此对其语义进行形式描述对于开发人员准确理解其语义非常必要. 针对FlinkCEP提出一种数据流转换器的自动机模型, 该模型包括用于刻画迭代条件的数据变量、存储输出结果的数据流变量、用于刻画匹配筛选策略的迁移优先级等特性. 使用数据流转换器对FlinkCEP的语义进行形式建模, 并且根据形式语义设计FlinkCEP的查询求值算法, 实现原型系统. 进一步, 生成能够较为全面覆盖FlinkCEP语法特性的测试用例集, 利用这些测试用例与FlinkCEP在Flink平台上的实际运行结果进行对比实验. 实验结果表明所提出的形式语义与FlinkCEP在Flink平台上的实际语义基本是一致的. 而且, 对实验结果不一致的情况进行分析, 指出FlinkCEP在Flink平台上的实现对于组模式的处理可能存在错误.
    38  面向PyPI生态系统的漏洞影响范围细粒度评估方法
    王梓博,贾相堃,应凌云,苏璞睿
    2024, 35(10):4493-4509. DOI: 10.13328/j.cnki.jos.006959
    [摘要](1557) [HTML](1720) [PDF 7.10 M](3800)
    摘要:
    Python语言的开放性和易用性使其成为最常用的编程语言之一. 其形成的PyPI生态系统在为开发者提供便利的同时, 也成为攻击者进行漏洞攻击的重要目标. 在发现Python漏洞之后, 如何准确、全面地评估漏洞影响范围是应对Python漏洞的关键. 然而当前的Python漏洞影响范围评估方法主要依靠包粒度的依赖关系分析, 会产生大量误报; 现有的函数粒度的Python程序分析方法由于上下文不敏感等导致存在准确性问题, 应用于实际的漏洞影响范围评估也会产生误报. 提出一种基于静态分析的面向PyPI生态系统的漏洞影响范围评估方法PyVul++. 首先构建PyPI生态系统的索引, 然后通过漏洞函数识别发现受漏洞影响的候选包, 进一步通过漏洞触发条件验证漏洞包, 实现函数粒度的漏洞影响范围评估. PyVul++改进了Python代码函数粒度的调用分析能力, 在基于PyCG的测试集上的分析结果优于其他工具(精确率86.71%, 召回率83.20%). 通过PyVul++对10个Python CVE漏洞进行PyPI生态系统(385855个包)影响范围评估, 相比于pip-audit等工具发现了更多漏洞包且降低了误报. 此外, 在10个Python CVE漏洞影响范围评估实验中, PyVul++新发现了目前PyPI生态系统中仍有11个包存在引用未修复的漏洞函数的安全问题.
    39  面向超图数据的最大独立集算法
    徐兰天,李荣华,戴永恒,王国仁
    2024, 35(6):2999-3012. DOI: 10.13328/j.cnki.jos.006926
    [摘要](1252) [HTML](2075) [PDF 5.38 M](4369)
    摘要:
    超图是普通图的泛化表示, 在许多应用领域都很常见, 包括互联网、生物信息学和社交网络等. 独立集问题是图分析领域的一个基础性研究问题, 传统的独立集算法大多都是针对普通图数据, 如何在超图数据上实现高效的最大独立集挖掘是一个亟待解决的问题. 针对这一问题, 提出一种超图独立集的定义. 首先分析超图独立集搜索的两个特性, 然后提出一种基于贪心策略的基础算法. 接着提出一种超图近似最大独立集搜索的剪枝框架即精确剪枝与近似剪枝相结合, 以精确剪枝策略缩小图的规模, 以近似剪枝策略加快搜索速度. 此外, 还提出4种高效的剪枝策略, 并对每种剪枝策略进行理论证明. 最后, 通过在10个真实超图数据集上进行实验, 结果表明剪枝算法可以高效地搜索到更接近于真实结果的超图最大独立集.
    40  谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法
    周志阳,窦文生,李硕,亢良伊,王帅,刘杰,叶丹
    2024, 35(6):2936-2950. DOI: 10.13328/j.cnki.jos.006928
    [摘要](1226) [HTML](1698) [PDF 8.62 M](3104)
    摘要:
    检测训练集分布之外的分布外(out-of-distribution, OOD)样本对于深度神经网络(deep neural network, DNN)分类器在开放环境的部署至关重要. 检测OOD样本可以视为一种二分类问题, 即把输入样本分类为“分布内(in-distribution, ID)”类或“分布外”类. 进一步地, 检测器自身还可能遭受到恶意的对抗攻击而被再次绕过. 这些带有恶意扰动的OOD样本称为对抗OOD样本. 构建鲁棒的OOD检测器以检测对抗OOD样本是一项更具挑战性的任务. 为习得可分离且对恶意扰动鲁棒的表示, 现有方法往往利用辅助的干净OOD样本邻域内的对抗OOD样本来训练DNN. 然而, 由于辅助的OOD训练集与原ID训练集的分布差异, 训练对抗OOD样本无法足够有效地使分布内决策边界对对抗扰动真正鲁棒. 从ID样本的邻域内生成的对抗ID样本拥有与原ID样本近乎一样的语义信息, 是一种离分布内区域更近的OOD样本, 对提升分布内边界对对抗扰动的鲁棒性很有效. 基于此, 提出一种半监督的对抗训练方法——谛听, 来构建鲁棒的OOD检测器, 用以同时检测干净OOD样本和对抗OOD样本. 谛听将对抗ID样本视为一种辅助的“近OOD”样本, 并将其与其他辅助的干净OOD样本和对抗OOD样本联合训练DNN, 以提升OOD检测的鲁棒性. 实验结果表明, 谛听在检测由强攻击生成的对抗OOD样本上具有显著的优势, 同时在原分类主任务及检测干净OOD样本上保持先进的性能.
    41  二进制翻译技术综述
    谢汶兵,田雪,漆锋滨,武成岗,王俊,罗巧玲
    2024, 35(6):2687-2723. DOI: 10.13328/j.cnki.jos.007099
    [摘要](2905) [HTML](3757) [PDF 9.89 M](6973)
    摘要:
    随着信息技术的快速发展, 涌现出各种新型处理器体系结构. 新的体系结构出现为处理器多样化发展带来机遇的同时也提出了巨大挑战, 需要兼容运行已有软件, 确保较为丰富的软件生态群. 但要在短期内从源码编译构建大量生态软件并非易事, 二进制翻译作为一种直接从二进制层面迁移可执行代码技术, 支持跨平台软件兼容运行, 既扩大了软件生态群, 又有效降低了应用程序与硬件之间的耦合度. 近年来, 二进制翻译技术研究取得了较大进展. 为总结现有成果并分析存在的不足, 首先介绍二进制翻译技术的分类以及典型的二进制翻译系统, 之后从指令翻译方法、关键问题研究、优化技术等方面分别进行分析总结, 接着阐述二进制翻译技术的核心应用领域, 最后对二进制翻译技术的潜在研究方向进行展望.
    42  KENN: 线性结构熵的图核神经网络
    徐立祥,许巍,陈恩红,罗斌,唐远炎
    2024, 35(5):2430-2445. DOI: 10.13328/j.cnki.jos.007039
    [摘要](1827) [HTML](2427) [PDF 4.18 M](3576)
    摘要:
    图神经网络(graph neural network, GNN)是一种利用深度学习直接对图结构数据进行表征的框架, 近年来受到人们越来越多的关注. 然而传统的基于消息传递聚合的图神经网络(messaging passing GNN, MP-GNN)忽略了不同节点的平滑速度, 无差别地聚合了邻居信息, 易造成过平滑现象. 为此, 研究并提出一种线性结构熵的图核神经网络分类方法, 即KENN. 它首先利用图核方法对节点子图进行结构编码, 判断子图之间的同构性, 进而利用同构系数来定义不同邻居间的平滑系数. 其次基于低复杂度的线性结构熵提取图的结构信息, 加深和丰富图数据的结构表达能力. 通过将线性结构熵、图核和图神经网络三者进行深度融合提出了图核神经网络分类方法. 它不仅可以解决生物分子数据节点特征的稀疏问题, 也可以解决社交网络数据以节点度作为特征所产生的信息冗余问题, 同时还使得图神经网络能够自适应调整对图结构特征的表征能力, 使其超越MP-GNN的上界(WL测试). 最后, 在7个公开的图分类数据集上实验验证了所提出模型的性能优于其他的基准模型.
    43  HiLog:OpenHarmony的高性能日志系统
    吴圣垚,王枫,武延军,凌祥,屈晟,罗天悦,吴敬征
    2024, 35(4):2055-2075. DOI: 10.13328/j.cnki.jos.006900
    [摘要](2104) [HTML](2240) [PDF 3.74 M](4687)
    摘要:
    日志是计算机系统中记录事件状态信息的的重要载体, 日志系统负责计算机系统的日志生成、收集和输出. OpenHarmony是新兴的、面向全设备、全场景的开源操作系统. 在所述工作之前, 包括日志系统在内OpenHarmony有许多关键子系统尚未构建, 而OpenHarmony的开源特性使第三方开发者可以为其贡献核心代码. 为了解决OpenHarmony日志系统缺乏的问题, 主要开展如下工作: ① 分析当今主流日志系统的技术架构和优缺点; ② 基于OpenHarmony操作系统的异构设备互联特性设计HiLog日志系统模型规范; ③ 设计并实现第1个面向OpenHarmony的日志系统HiLog, 并贡献到OpenHarmony主线; ④ 对HiLog日志系统的关键指标进行测试和对比试验. 实验数据表明, 在基础性能方面, HiLog和Log的日志写入阶段吞吐量分别为1 500 KB/s和700 KB/s, 相比Android日志系统吞吐量提升114%; 在日志持久化方面, HiLog可以3.5%的压缩率进行持久化, 并且丢包率小于6‰, 远低于Log. 此外, HiLog还具备数据安全、流量控制等新型实用能力.
    44  面向指-笔混合输入的交互原语和交互模型研究
    仝青山,康文惠,付强,黄进,田丰,戴国忠
    2024, 35(4):2022-2038. DOI: 10.13328/j.cnki.jos.006909
    [摘要](761) [HTML](1748) [PDF 9.53 M](3886)
    摘要:
    随着触摸设备的普及, 指、笔输入已成为移动办公的一种主流输入方式. 然而现有的应用主要以手指或笔通道中的一种作为输入, 限制了用户的交互空间. 同时, 现有的指-笔混合研究主要关注串行的指-笔分工协作和特定交互任务的并行处理, 并没有系统地考虑并行协作机制和不同通道输入之间的意图关联. 为此, 提出一种面向指-笔混合输入的交互模型; 结合用户指-笔协作的行为习惯定义指-笔混合交互原语, 拓展指、笔交互空间; 继而利用部分可观察马尔可夫决策过程提出基于时序信息的指-笔混合输入意图提取方法, 用以增量式地提取多义性交互原语的交互意图. 最后通过一个用户实验说明指-笔混合输入的优势.
    45  神经网络结构搜索在脑数据分析领域的研究进展
    李晴,汪启昕,李子遇,祝志远,张诗皓,牟浩南,杨文婷,邬霞
    2024, 35(4):1682-1702. DOI: 10.13328/j.cnki.jos.007012
    [摘要](1846) [HTML](3665) [PDF 2.64 M](6416)
    摘要:
    神经网络结构搜索(neural architecture search, NAS)是自动化机器学习的重要组成部分, 已被广泛应用于多个领域, 包括计算机视觉、语音识别等, 能够针对特定数据、场景、任务寻找最优的深层神经网络结构. 将NAS引入至脑数据分析领域, 能够在图像分割、特征提取、辅助诊断等多个应用领域大幅度提升性能, 展现低能耗自动化机器学习的优势. 基于NAS进行脑数据分析是当前的研究热点之一, 同时也具有一定挑战. 目前, 在此领域,国内外可供参考的综述性文献较少. 对近年来国内外相关文献进行了细致地调研分析, 从算法模型、研究任务、实验数据等不同方面对NAS在脑数据分析领域的研究现状进行了综述. 同时, 也对能够支撑NAS训练的脑数据集进行了系统性总结, 并对NAS在脑数据分析中存在的挑战和未来的研究方向进行了分析和展望.
    46  元强化学习研究综述
    陈奕宇,霍静,丁天雨,高阳
    2024, 35(4):1618-1650. DOI: 10.13328/j.cnki.jos.007011
    [摘要](5888) [HTML](6341) [PDF 4.71 M](12658)
    摘要:
    近年来, 深度强化学习(deep reinforcement learning, DRL)已经在诸多序贯决策任务中取得瞩目成功, 但当前, 深度强化学习的成功很大程度依赖于海量的学习数据与计算资源, 低劣的样本效率和策略通用性是制约其进一步发展的关键因素. 元强化学习(meta-reinforcement learning, Meta-RL)致力于以更小的样本量适应更广泛的任务, 其研究有望缓解上述限制从而推进强化学习领域发展. 以元强化学习工作的研究对象与适用场景为脉络, 对元强化学习领域的研究进展进行了全面梳理: 首先, 对深度强化学习、元学习背景做基本介绍; 然后, 对元强化学习作形式化定义及常见的场景设置总结, 并从元强化学习研究成果的适用范围角度展开介绍元强化学习的现有研究进展; 最后, 分析了元强化学习领域的研究挑战与发展前景.
    47  深度神经网络修复策略综述
    梁震,刘万伟,吴陶然,薛白,王戟,杨文婧
    2024, 35(3):1231-1256. DOI: 10.13328/j.cnki.jos.007061
    [摘要](1568) [HTML](3676) [PDF 10.10 M](5775)
    摘要:
    随着智能信息时代的发展,深度神经网络在人类社会众多领域中的应用,尤其是在自动驾驶、军事国防等安全攸关系统中的部署,引起了学术界和工业界对神经网络模型可能表现出的错误行为的担忧.虽然神经网络验证和神经网络测试可以提供关于错误行为的定性或者定量结论,但这种事后分析并不能防止错误行为的发生,如何修复表现出错误行为的预训练神经网络模型依然是极具挑战性的问题.为此,深度神经网络修复这一领域应运而生,旨在消除有缺陷的神经网络产生的错误预测,使得神经网络满足特定的规约性质.目前为止,典型的神经网络修复范式有3种:重训练、无错误定位的微调和包含错误定位的微调.介绍深度神经网络的发展和神经网络修复的必要性;厘清相近概念;明确神经网络修复的挑战;详尽地调研目前已有的神经网络修复策略,并对内在联系与区别进行分析和比较;调研整理神经网络修复策略常用的评价指标和基准测试;展望未来神经网络修复领域研究中需要重点关注的可行方向.
    48  支持深度学习的视觉数据库管理系统研究进展
    丁光耀,徐辰,钱卫宁,周傲英
    2024, 35(3):1207-1230. DOI: 10.13328/j.cnki.jos.007075
    [摘要](1442) [HTML](3265) [PDF 1.35 M](6091)
    摘要:
    计算机视觉因其强大的学习能力,在各种真实场景中得到了广泛应用.随着数据库的发展,利用数据库中成熟的数据管理技术来处理视觉分析应用,已成为一种日益增长的研究趋势.图像、视频和文本等多模态数据的相互融合处理,也促进了视觉分析应用的多样性和准确性.近年来,因深度学习的兴起,支持深度学习的视觉分析应用开始受到广泛关注.然而,传统的数据库管理技术在深度学习场景下面临着复杂视觉分析语义难以表达、应用执行效率低等问题.因此,支持深度学习的视觉数据库管理系统得到了广泛关注.综述了目前视觉数据库管理系统的研究进展:首先,总结了视觉数据库管理系统在不同层面上面临的挑战,包括编程接口、查询优化、执行调度和数据存储;其次,分别探讨了上述4个层面上的相关技术;最后,对视觉数据库管理系统未来的研究方向进行了展望.
    49  区块链互操作技术综述
    段田田,张瀚文,李博,宋兆雄,李忠诚,张珺,孙毅
    2024, 35(2):800-827. DOI: 10.13328/j.cnki.jos.006950
    [摘要](2635) [HTML](4606) [PDF 9.66 M](6087)
    摘要:
    区块链技术被认为是构建价值互联网的基石, 然而彼此独立的区块链系统形成了数据、价值孤岛. 区块链互操作(也被称为跨链操作)是打破链间壁垒、构建区块链网络的关键技术. 在区分狭义与广义区块链互操作的基础上, 重新定义狭义区块链互操作, 并抽象出跨链读与跨链写两类基本操作; 分析总结实现狭义区块链互操作需要解决的3个关键技术问题: 跨链信息传输、跨链信任传递、跨链操作原子性保障; 系统梳理这3个问题的研究现状, 并分别从多角度进行比较; 在此基础上, 从关键技术问题的角度分析具有代表性的整体解决方案; 最后指出几个值得进一步探索的研究方向.
    50  开源软件供应链研究综述
    高恺,何昊,谢冰,周明辉
    2024, 35(2):581-603. DOI: 10.13328/j.cnki.jos.006975
    [摘要](3195) [HTML](5145) [PDF 1.08 M](6304)
    摘要:
    开源软件已经成为现代社会的一项关键基础设施, 支撑着几乎所有领域的软件开发. 通过安装依赖、API调用、项目fork、文件拷贝和代码克隆等形式的代码复用, 开源软件之间形成了错综复杂的供应(依赖)关系网络, 被称为开源软件供应链. 一方面, 开源软件供应链为软件开发提供了便利, 已然成为软件行业的基石. 另一方面, 上游软件的风险可以沿着开源软件供应链波及众多的下游软件, 使开源软件供应链呈现牵一发而动全身的特点. 开源软件供应链近年来逐渐成为学术界和工业界的关注焦点. 为了帮助增进研究人员对开源软件供应链的认识, 从整体性的角度, 对开源软件供应链给出定义和研究框架; 然后, 对国内外的研究工作进行系统文献调研, 总结结构与演化、风险传播与管理、依赖管理3个方面的研究现状; 最后, 展望开源软件供应链的研究挑战和未来研究方向.
    51  光滑粒子流体动力学流体仿真技术综述
    刘树森,何小伟,王文成,吴恩华
    2024, 35(1):481-512. DOI: 10.13328/j.cnki.jos.006777
    [摘要](2842) [HTML](5055) [PDF 12.50 M](7813)
    摘要:
    光滑粒子流体动力学(smoothed particle hydrodynamics, SPH)是实现流体仿真的主要技术之一. 随着生产实践中流体仿真应用需求的增加, 近些年涌现了许多相关研究成果, 改善了流体不可压缩性、粘性、表面张力等物理特性模拟的视觉真实性、效率与稳定性. 同时, 一些工作探讨了复杂场景的高质量模拟, 以及多场景、多材料的统一仿真框架, 增强了SPH流体仿真技术的应用效能. 从以上几个方面对SPH流体仿真技术进行归纳、总结和讨论, 并对其未来发展进行了展望.
    52  智能数据可视分析技术综述
    骆昱宇,秦雪迪,谢宇鹏,李国良
    2024, 35(1):356-404. DOI: 10.13328/j.cnki.jos.006911
    [摘要](3224) [HTML](3731) [PDF 16.62 M](7123)
    摘要:
    如何从海量数据中快速有效地挖掘出有价值的信息以更好地指导决策, 是大数据分析的重要目标. 可视分析是一种重要的大数据分析方法, 它利用人类视觉感知特性, 使用可视化图表直观呈现复杂数据中蕴含的规律, 并支持以人为本的交互式数据分析. 然而, 可视分析仍然面临着许多挑战, 例如数据准备代价高、交互响应高延迟、可视分析高门槛和交互模式效率低. 为应对这些挑战, 研究者从数据管理、人工智能等视角出发, 提出一系列方法以优化可视分析系统的人机协作模式和提高系统的智能化程度. 系统性地梳理、分析和总结这些方法, 提出智能数据可视分析的基本概念和关键技术框架. 然后, 在该框架下, 综述和分析国内外面向可视分析的数据准备、智能数据可视化、高效可视分析和智能可视分析接口的研究进展. 最后, 展望智能数据可视分析的未来发展趋势.
    53  天地一体化网络关键技术研究综述
    蒋长林,李清,王羽,赵丹,赵达毅,江勇,徐明伟
    2024, 35(1):266-287. DOI: 10.13328/j.cnki.jos.006753
    [摘要](3157) [HTML](5216) [PDF 3.43 M](9039)
    摘要:
    作为地面网络的补充和延伸, 卫星网络有助于加速弥合区域间的数字鸿沟, 扩展地面网络的覆盖和服务范围. 然而卫星网络拓扑动态性高、传播时延大、星上计算能力和存储能力均受限, 因此实现卫星网络与地面网络的有机融合, 构建覆盖全球的天地一体化网络面临路由扩展性、传输稳定性等技术挑战. 针对天地一体化网络的研究挑战, 从网络架构、路由、传输和基于组播的内容分发等方面介绍了国内外的研究现状, 并展望了天地一体化网络的发展趋势.
    54  卷积神经网络的可解释性研究综述
    窦慧,张凌茗,韩峰,申富饶,赵健
    2024, 35(1):159-184. DOI: 10.13328/j.cnki.jos.006758
    [摘要](4509) [HTML](3999) [PDF 9.25 M](8570)
    摘要:
    神经网络模型性能日益强大, 被广泛应用于解决各类计算机相关任务, 并表现出非常优秀的能力, 但人类对神经网络模型的运行机制却并不完全理解. 针对神经网络可解释性的研究进行了梳理和汇总, 就模型可解释性研究的定义、必要性、分类、评估等方面进行了详细的讨论. 从解释算法的关注点出发, 提出一种神经网络可解释算法的新型分类方法, 为理解神经网络提供一个全新的视角. 根据提出的新型分类方法对当前卷积神经网络的可解释方法进行梳理, 并对不同类别解释算法的特点进行分析和比较. 同时, 介绍了常见可解释算法的评估原则和评估方法. 对可解释神经网络的研究方向与应用进行概述. 就可解释神经网络面临的挑战进行阐述, 并针对这些挑战给出可能的解决方向.
    55  开源软件漏洞感知技术综述
    詹奇,潘圣益,胡星,鲍凌峰,夏鑫
    2024, 35(1):19-37. DOI: 10.13328/j.cnki.jos.006935
    [摘要](4060) [HTML](4927) [PDF 7.59 M](6742)
    摘要:
    随着现代软件规模不断扩大, 软件漏洞给计算机系统和软件的安全运行、可靠性造成了极大的威胁, 进而给人们的生产生活造成巨大的损失. 近年来, 随着开源软件的广泛使用, 其安全问题受到广泛关注. 漏洞感知技术可以有效地帮助开源软件用户在漏洞纰漏之前提前感知到漏洞的存在, 从而进行有效防御. 与传统软件的漏洞检测不同, 开源漏洞的透明性和协同性给开源软件的漏洞感知带来巨大的挑战. 因此, 有许多学者和从业人员提出多种技术, 从代码和开源社区中感知开源软件中潜在的漏洞和风险, 以尽早发现开源软件中的漏洞从而降低漏洞所带来的损失. 为了促进开源软件漏洞感知技术的发展, 对已有研究成果进行系统的梳理、总结和点评. 选取45篇开源漏洞感知技术的高水平论文, 将其分为3大类: 基于代码的漏洞感知技术、基于开源社区讨论的漏洞感知技术和基于软件补丁的漏洞感知技术, 并对其进行系统地梳理、归纳和总结. 值得注意的是, 根据近几年最新研究的总结, 首次提出基于开源软件漏洞生命周期的感知技术分类, 对已有的漏洞感知技术分类进行补充和完善. 最后, 探索该领域的挑战, 并对未来研究的方向进行展望.
    56  量子计算系统软件研究综述
    谢磊,翟季冬
    2024, 35(1):1-18. DOI: 10.13328/j.cnki.jos.006908
    [摘要](2460) [HTML](4188) [PDF 3.22 M](6679)
    摘要:
    量子计算理论上有望解决诸多经典难解问题, 近年来量子计算机的快速发展正推动这一理论进入实践. 然而, 当前硬件中繁多的错误会造成计算结果出错, 严重限制了量子计算机解决实际问题的能力. 量子计算系统软件位于应用与硬件之间, 充分挖掘系统软件在硬件错误减缓方面的潜力, 对于近期实现有实用价值的量子计算而言至关重要. 由此, 近期涌现了一批量子计算系统软件研究工作. 将这些工作归纳入编译器、运行时系统和调试器3个范畴, 通过对它们的分析总结, 梳理量子计算系统软件的研究现状, 揭示其在硬件错误减缓方面的重要作用. 并对未来的研究方向进行展望.
    57  在线教育环境中学习共同体研究综述
    张俊涛,杨先娣,宋伟,张雪龙,贺宇阳,彭智勇
    2023, 34(11):5058-5083. DOI: 10.13328/j.cnki.jos.006735
    [摘要](2263) [HTML](4818) [PDF 9.10 M](7933)
    摘要:
    随着信息技术与教育的深度融合, 蓬勃发展的在线教育已成为教育信息化进程的新常态, 并产生了海量的教育数据, 但也面临辍学率高、课程完成率低、监管不足等问题, 因此如何对海量教育数据进行挖掘和分析是解决这些问题的关键. 学习共同体是以学习者为核心要素的学习组织, 强调学习过程中学习者之间互动交流、资源共享以及协作学习等行为, 从而完成共同的学习任务或目标. 对在线教育环境中学习共同体的研究进行回顾、分析和展望. 首先, 介绍在线教育环境中学习共同体的背景与重要性. 其次, 介绍不同学科中学习共同体的定义. 然后, 总结同质、异质和混合3种类型学习共同体的构建方法. 接着, 从共享、协作和激励3个方面讨论学习共同体的管理机制. 最后, 探讨和展望学习共同体未来的研究方向.
    58  面向异质性医学图像处理的深度学习算法综述
    马梓博,米悦,张波,张征,吴静云,黄海文,王文东
    2023, 34(10):4870-4915. DOI: 10.13328/j.cnki.jos.006680
    [摘要](3383) [HTML](5086) [PDF 20.57 M](8547)
    摘要:
    近年来深度学习技术在诸多计算机视觉任务上取得了令人瞩目的进步, 也让越来越多的研究者尝试将其应用于医学图像处理领域, 如面向高通量医学图像(CT、MRI)的解剖结构分割等, 旨在为医生提供诊断辅助, 提高其阅片效率. 由于训练医学图像处理的深度学习模型同样需要大量的标注数据, 同一医疗机构的数据往往不能满足需求, 而受设备和采集协议的差异的影响, 不同医疗机构的数据具有很大的异质性, 这导致通过某些医疗机构的数据训练得到模型很难在其他医疗机构的数据上取得可靠的结果. 此外, 不同的医疗数据在患者个体病情阶段的分布上也往往是十分不均匀的, 这同样会降低模型的可靠性. 为了减少数据异质性的影响, 提高模型的泛化能力, 域适应、多站点学习等技术应运而生. 其中域适应技术作为迁移学习中的研究热点, 旨在将源域上学习的知识迁移到未标记的目标域数据上; 多站点学习和数据非独立同分布的联邦学习技术则旨在在多个数据集上学习一个共同的表示, 以提高模型的鲁棒性. 从域适应、多站点学习和数据非独立同分布的联邦学习技术入手, 对近年来的相关方法和相关数据集进行了综述、分类和总结, 为相关研究提供参考.
    59  逆向强化学习研究综述
    张立华,刘全,黄志刚,朱斐
    2023, 34(10):4772-4803. DOI: 10.13328/j.cnki.jos.006671
    [摘要](5394) [HTML](8626) [PDF 7.90 M](12985)
    摘要:
    逆向强化学习(inverse reinforcement learning, IRL)也称为逆向最优控制(inverse optimal control, IOC), 是强化学习和模仿学习领域的一种重要研究方法, 该方法通过专家样本求解奖赏函数, 并根据所得奖赏函数求解最优策略, 以达到模仿专家策略的目的. 近年来, 逆向强化学习在模仿学习领域取得了丰富的研究成果, 已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中. 首先介绍逆向强化学习理论基础, 然后从奖赏函数构建方式出发, 讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法, 包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等. 随后从逆向强化学习领域的前沿研究方向进行综述, 比较和分析该领域代表性算法, 包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等. 最后总结分析当前存在的关键问题, 并从理论和应用方面探讨未来的发展方向.
    60  大模型: 基于自然交互的人机协同软件开发与演化工具带来的挑战
    李戈,彭鑫,王千祥,谢涛,金芝,王戟,马晓星,李宣东
    2023, 34(10):4601-4606. DOI: 10.13328/j.cnki.jos.007008
    [摘要](5641) [HTML](3005) [PDF 9.32 M](6680)
    摘要:
    以自然语言生成为核心的大模型技术正在人工智能领域掀起热潮, 并持续向更多的领域穿透其影响力. 以ChatGPT为代表的自然语言生成大模型(以下简称大模型), 已经在软件工程的多项活动中展示出其通过自然交互方式给人提供一定程度帮助的能力和潜力, 正在发展成为一种基于自然交互的人机协同软件开发与演化工具. 从人机协同软件开发与演化的视角, 大模型作为一种软件工具呈现出了两大特征: 其一是基于自然语言的人机交互, 在相当大程度上拓展了人机协同的工作空间、提高了人机协同的效率和灵活性; 其二是基于已积累的软件开发和演化知识、针对给定软件开发和演化任务的预测性内容生成, 可以对软件开发和演化工作提供一定程度的支持和帮助. 然而, 由于大模型本质是基于概率与统计原理和训练数据所形成的数学模型, 具有不可解释性和内生不确定性, 其生成的是缺失可信性判断的预测性内容, 而人在软件开发与演化中所需要完成的是具有可信保障的决策性任务, 所以大模型作为一种软件工具, 在人机协同的软件开发和演化工作环境中给人提供帮助的同时, 也带来了诸多的挑战. 围绕如何构造对软件开发与演化更有帮助的代码大模型、如何引导大模型生成对软件开发与演化更有帮助的预测性内容、如何基于大模型生成的预测性内容开发与演化高质量的软件系统等大模型带来的挑战进行分析和阐述.
    61  知识赋能的新一代信息系统研究现状、发展与挑战
    朱迪,张博闻,程雅琪,刘昕悦,吴文隆,王铁鑫,文浩,李博涵
    2023, 34(10):4439-4462. DOI: 10.13328/j.cnki.jos.006884
    [摘要](2897) [HTML](5297) [PDF 3.27 M](8609)
    摘要:
    信息系统的发展目前正处于感知智能迈向认知智能的关键阶段,传统信息系统难以满足发展要求,数字化转型势在必行.数字线索(digital thread)是面向全生命周期的数据处理框架,通过连接生命周期的各阶段数据,实现物理世界与数字空间的映射与分析.知识图谱(knowledge graph)是结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系,通过知识驱动形成体系化的构建与推理流程.两者对知识赋能的信息系统研究具有重要意义.综述了知识赋能的新一代信息系统的研究现状、发展与挑战.首先,从数字线索系统出发,介绍数字线索的概念和发展,分析数字线索的六维数据构成和6个数据处理阶段;然后介绍知识图谱系统,给出普遍认同的知识图谱的定义和发展,概括知识图谱的架构与方法;最后,分析和探索数字线索与知识图谱结合的方向,列举KG4DT (knowledge graph for digital thread)和DT4KG (digital thread for knowledge graph)的受益方向,对未来知识赋能的新一代信息系统提出开放问题.
    62  面向智能计算框架的即时缺陷预测
    葛建,虞慧群,范贵生,唐锏浩,黄子杰
    2023, 34(9):3966-3980. DOI: 10.13328/j.cnki.jos.006874
    [摘要](2509) [HTML](3764) [PDF 6.48 M](6437)
    摘要:
    作为人工智能工程化的实现工具, 智能计算框架已在近年来被广泛应用, 其可靠性对于人工智能的有效实现至关重要. 然而, 智能计算框架的可靠性保障具有挑战性, 一方面, 智能计算框架代码迭代迅速、测试困难; 另一方面, 与传统软件不同, 智能计算框架涉及大量张量计算, 其代码规范缺乏软件工程理论指导. 为了解决这一问题, 现有的工作主要使用模糊测试手段实现缺陷定位, 然而, 这类方法只能实现特定类型缺陷的精准定位, 却难以即时地在开发过程中引导开发者关注软件质量. 因此, 将国内外常见的智能计算框架(TensorFlow, 百度飞桨等)作为研究对象, 选取多种变更特征构建数据集, 在代码提交级别对智能计算框架进行即时缺陷预测. 另外, 在此基础上使用LDA主题建模技术挖掘代码和代码提交信息作为新的特征, 并使用随机森林进行预测. 结果发现AUC-ROC平均值为0.77, 且语义信息可以略微提升预测性能. 最后, 使用可解释机器学习方法SHAP分析各特征属性对模型预测输出的影响, 发现: (1)基本特征对于模型的影响符合传统软件开发规律; (2)代码和提交信息中的语义特征对模型的预测结果有重要影响; (3)不同系统中的不同特征对模型预测输出的贡献度排序也存在较大差异.
    63  人工智能系统可信性度量评估研究综述
    刘晗,李凯旋,陈仪香
    2023, 34(8):3774-3792. DOI: 10.13328/j.cnki.jos.006592
    [摘要](4617) [HTML](8045) [PDF 5.37 M](12177)
    摘要:
    近年来, 人工智能技术突飞猛进, 人工智能系统已经渗透到人们生活中, 成为人们生活中不可或缺的一部分. 然而, 人工智能系统需要数据训练模型, 数据扰动会对其结果造成影响. 并且随着人工智能系统业务多样化, 规模复杂化, 人工智能系统的可信性愈发受到人们的关注. 首先, 在梳理不同组织和学者提出的人工智能系统可信属性基础上, 提出人工智能系统的9个可信属性; 接着, 从数据可信性、模型可信性和结果可信性分别介绍现有的人工智能系统数据、模型、结果可信性度量方法, 设计人工智能系统可信证据收集方法. 其次, 总结当前人工智能系统的可信度量评估理论与方法. 然后, 结合基于属性的软件可信评估方法与区块链技术, 建立一个人工智能系统可信度量评估框架, 包括可信属性分解及可信证据获取方法、联邦式可信度量模型与以及基于区块链的人工智能系统可信度量评估架构. 最后, 讨论人工智能系统可信度量技术面临的机遇和挑战.
    64  用户特征请求分析与处理研究综述
    牛菲菲,李传艺,葛季栋,骆斌
    2023, 34(8):3605-3636. DOI: 10.13328/j.cnki.jos.006558
    [摘要](2269) [HTML](5962) [PDF 12.76 M](7888)
    摘要:
    特征请求是软件产品的真实用户在开放平台上提出的对现有特征的改进或者对新特征的请求. 特征请求在一定程度上反映了用户的真实意愿, 代表了用户的需求. 高效、准确地分析和处理用户特征请求对于提升用户满意度、提高产品竞争力起着至关重要的作用. 用户的广泛参与, 使得特征请求成为越来越重要的需求来源. 然而, 特征请求在其来源、内容以及形式等方面均与传统的软件需求不同. 进而将其充分应用于软件开发过程所采用的具体方法, 也有别于传统的需求工程. 目前已经有许多将特征请求应用于软件开发过程中的相关研究, 比如特征请求的获取、分类、排序、质量评估、为特征请求推荐开发者, 以及定位相关代码等. 随着相关工作的不断增加, 形成一个针对特征请求分析与处理研究综述的必要性日益增强. 因此, 调研121篇关于在软件开发过程中分析和处理特征请求的国内外学术研究论文, 从将特征请求应用于软件开发过程的角度对现有成果进行系统地梳理. 总结现有针对特征请求的研究主题, 提出将特征请求应用于软件开发过程的处理流程, 并与传统的需求工程过程进行对比. 此外, 深入分析在各个需求工程活动中使用的具体方法及方法之间的差别. 最后, 对特征请求的未来研究方向进行展望, 以期为同行研究人员提供参考.
    65  前馈神经网络和循环神经网络的鲁棒性验证综述
    刘颖,杨鹏飞,张立军,吴志林,冯元
    2023, 34(7):3134-3166. DOI: 10.13328/j.cnki.jos.006863
    [摘要](2316) [HTML](4558) [PDF 10.65 M](7200)
    摘要:
    随着智能时代的到来,部署了深度神经网络的智能系统应用已经渗透到了人类生活的各个方面.然而,由于神经网络具有黑盒特性和规模庞大的特点,其预测结果难以让人完全信服,当应用于自动驾驶等安全攸关的领域时,如何保证其安全性仍然是学术界和工业界面临的巨大挑战.为此,学术界针对神经网络一种特殊的安全性——鲁棒性展开了研究,并提出了很多鲁棒性的分析和验证方法.目前为止,验证前馈神经网络的方法包括精确验证方法和近似验证方法,已经发展得比较繁荣;而对于其他类型的网络,如循环神经网络的鲁棒性验证研究还处于起步阶段.回顾深度神经网络的发展以及部署到日常生活中面临的挑战;详尽地调研前馈神经网络和循环神经网络的鲁棒性验证方法,并对这些验证方法间的内在联系进行分析和比较;调研循环神经网络在现实应用场景中的安全性验证方法;阐明神经网络鲁棒性验证领域未来可以深入研究的方向.
    66  联邦学习模型安全与隐私研究进展
    顾育豪,白跃彬
    2023, 34(6):2833-2864. DOI: 10.13328/j.cnki.jos.006658
    [摘要](4519) [HTML](9048) [PDF 5.60 M](12295)
    摘要:
    随着数据孤岛现象的出现和个人隐私保护的重视,集中学习的应用模式受到制约,而联邦学习作为一个分布式机器学习框架,可以在不泄露用户数据的前提下完成模型训练,从诞生之初就备受关注.伴随着联邦学习应用的推广,其安全性和隐私保护能力也开始受到质疑.对近年来国内外学者在联邦学习模型安全与隐私的研究成果进行了系统总结与分析.首先,介绍联邦学习的背景知识,明确其定义和工作流程,并分析存在的脆弱点.其次,分别对联邦学习存在的安全威胁和隐私风险进行系统分析和对比,并归纳总结现有的防护手段.最后,展望未来的研究挑战和方向.
    67  面向关系型数据与知识图谱的数据集成技术综述
    高云君,葛丛丛,郭宇翔,陈璐
    2023, 34(5):2365-2391. DOI: 10.13328/j.cnki.jos.006808
    [摘要](3134) [HTML](8066) [PDF 7.38 M](10817)
    摘要:
    目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关重要的数据组织与存储形式,在现实生活中应用广泛.为此,聚焦关系型数据和知识图谱,归纳总结并分析实体解析、数据融合、数据清洗3方面的数据集成关键技术,最后展望未来研究方向与趋势.
    68  面向软件工程的情感分析技术研究
    陈震鹏,姚惠涵,曹雁彬,刘譞哲,梅宏
    2023, 34(5):2218-2230. DOI: 10.13328/j.cnki.jos.006428
    [摘要](2103) [HTML](3330) [PDF 6.59 M](4524)
    摘要:
    情感分析在软件工程领域具有广泛的应用场景,例如,从代码提交信息中检测开发者的情绪、从程序员问答论坛中识别开发者的观点等.但是,现有的“开箱即用”的情感分析工具无法在软件工程相关的任务中取得可靠的结果.已有研究表明,导致不可靠结果的最主要原因是,这些工具无法理解一些单词和短语在软件工程领域中的特定含义.此后,研究者们开始为软件工程领域定制监督学习和远程监督学习方法.为了验证这些方法的效果,研究者们使用软件工程相关的标注数据集来对它们进行数据集内验证,即,将同一数据集划分为训练集和测试集,分别用于方法的训练和测试.但是,对软件工程领域的某些情感分析任务来说,尚无标注数据集,且人工标注数据集耗时耗力.在此情况下,一种可选的方法就是使用为了相似任务从同一目标平台上提取的数据集或者使用从其他软件工程平台上提取的数据集.为了验证这两种做法的可行性,需要进一步以平台内设置和跨平台设置来验证现有情感分析方法.平台内设置指的是使用提取自同一平台的不同数据集作为训练集和测试集;跨平台设置指的是使用提取自不同平台的数据集作为训练集和测试集.目标旨在数据集内设置、平台内设置、跨平台设置这3种设置下,综合验证现有的为软件工程定制的情感分析方法.最终,实验结果为相关的研究者和从业者提供了具有现实指导意义的启示.
    69  区块链服务网络的构建机理与技术实现
    单志广,张延强,谭敏,何亦凡
    2023, 34(5):2170-2180. DOI: 10.13328/j.cnki.jos.006392
    [摘要](1811) [HTML](3276) [PDF 7.11 M](4116)
    摘要:
    联盟链技术是我国区块链发展和应用的主阵地.传统联盟链应用存在底层技术平台异构、应用技术门槛高、成链成本大、运维监管难等瓶颈问题,限制了区块链技术与应用发展.提出一种区块链公用基础设施——区块链服务网络(blockchain-based service network,BSN)的构建机理,阐述BSN的技术架构和实现机制.BSN已于2020年4月在中国正式商用,能够显著降低区块链开发、部署、运维、互通和监管成本,有利于区块链技术向企业、政府、行业等领域推广应用,为我国新型智慧城市建设和数字经济发展提供了可信可控的公用基础设施和服务载体.
    70  ChattyGraph:面向异构多协处理器的高可扩展图计算系统
    蒋筱斌,熊轶翔,张珩,武延军,赵琛
    2023, 34(4):1977-1996. DOI: 10.13328/j.cnki.jos.006732
    [摘要](1534) [HTML](3379) [PDF 3.93 M](4015)
    摘要:
    现阶段, 随着数据规模扩大化和结构多样化的趋势日益凸现, 如何利用现代链路内链的异构多协处理器为大规模数据处理提供实时、可靠的并行运行时环境, 已经成为高性能以及数据库领域的研究热点. 利用多协处理器(GPU)设备的现代服务器(multi-GPU server)硬件架构环境, 已经成为分析大规模、非规则性图数据的首选高性能平台. 现有研究工作基于Multi-GPU服务器架构设计的图计算系统和算法(如广度优先遍历和最短路径算法),整体性能已显著优于多核CPU计算环境. 然而, 这类图计算系统中, 多GPU协处理器间的图分块数据传输性能受限于PCI-E总线带宽和局部延迟, 导致通过增加GPU设备数量无法达到整体系统性能的类线性增长趋势, 甚至会出现严重的时延抖动, 进而已无法满足大规模图并行计算系统的高可扩展性要求. 经过一系列基准实验验证发现,现有系统存在如下两类缺陷: (1) 现代GPU设备间数据通路的硬件架构发展日益更新(如NVLink-V1, NVLink-V2), 其链路带宽和延迟得到大幅改进, 然而现有系统受限于PCI-E总线进行数据分块通信, 无法充分利用现代GPU链路资源(包括链路拓扑、连通性和路由); (2) 在应对不规则图数据集时, 这类系统常采用过于单一的设备间数据组织和移动策略, 带来大量不必要GPU设备间经PCI-E总线的数据同步开销, 导致本地性计算同步等待时延开销过大.因此, 充分地利用各类现代Multi-GPU服务器通信链路架构来设计可扩展性强的图数据高性能计算系统亟待解决.为了达到Multi-GPU下图计算系统的高可扩展性, 提出一种基于混合感知的细粒度通信来增强Multi-GPU图计算系统的可伸缩性, 即采用架构链路预感知技术对图结构化数据采用模块化数据链路和通信策略, 为大规模图数据(结构型数据、应用型数据)最优化选择数据交换方法. 综合上述优化策略, 提出并设计了一种面向Multi-GPU图并行计算系统ChattyGraph. 通过对GPU图数据缓冲区优化, 基于OPENMP与NCCL优化多核GPU协同计算, ChattyGraph能在Multi-GPU HPC平台上自适应、高效地支持各类图并行计算应用和算法. 在8-GPU NVIDIA DGX服务器上, 对各种真实世界图数据的若干实验评估表明: ChattyGraph显著实现了图计算效率和可扩展性的提升, 并优于其他最先进的竞争对手性能, 计算效率平均提升了1.2×-1.5×, 加速比平均提升了2×-3×, 包括WS-VR和Groute.
    71  项目上下文增强的自动代码摘要
    胡天翔,谢睿,叶蔚,张世琨
    2023, 34(4):1695-1710. DOI: 10.13328/j.cnki.jos.006723
    [摘要](1226) [HTML](3368) [PDF 2.25 M](3415)
    摘要:
    代码摘要通过生成源代码片段的简短自然语言描述, 可帮助开发人员理解代码并减少文档工作. 近期, 关于代码摘要的研究工作主要采用深度学习模型, 这些模型中的大多数都在由独立代码摘要对组成的大型数据集上进行训练. 尽管取得了良好的效果, 这些工作普遍忽略了代码片段和摘要的项目级上下文信息, 而开发人员在编写文档时往往高度依赖这些信息. 针对该问题, 研究了一种与开发者行为和代码摘要工具实现更加一致的代码摘要场景——项目级代码摘要, 其中, 创建了用于项目特定代码摘要的数据集, 该数据集包含800k方法摘要对及其生命周期信息, 用于构建特定时刻准确的项目项目上下文; 提出了一种新颖的深度学习方法, 利用高度相关的代码片段及其相应的摘要来表征上下文语义, 并通过迁移学习整合从大规模跨项目数据集中学到的常识. 实验结果表明: 基于项目级上下文的代码摘要模型不仅能够比通用代码摘要模型获得显著的性能提升, 同时, 针对特定项目能够生成更一致的摘要.
    72  基于区块链的物联网认证机制综述
    程冠杰,邓水光,温盈盈,严学强,赵明宇
    2023, 34(3):1470-1490. DOI: 10.13328/j.cnki.jos.006778
    [摘要](2999) [HTML](8793) [PDF 7.62 M](9049)
    摘要:
    随着物联网(Internet of Things,IoT)技术的高速发展,各类智能设备数量激增,身份认证成为保障IoT安全的首要需求.区块链作为一种分布式账本技术,提供了去信任的协作环境和安全的数据管理平台,使用区块链技术驱动IoT认证成为学术界和工业界关注的热点.基于云计算和云边协同两种架构分析IoT身份认证机制设计的主要需求,总结区块链技术应用于IoT场景面临的挑战;梳理现有IoT身份认证机制的工作,并将其归结为基于密钥的认证、基于证书的认证和基于身份的认证;分析应用区块链技术的IoT认证工作,并根据认证对象和附加属性对相关文献进行归纳和总结.从形式化和非形式化两个方向总结基于区块链的IoT认证机制的安全性分析方法.最后展望了未来研究方向.
    73  数据定价与交易研究综述
    江东,袁野,张小伟,王国仁
    2023, 34(3):1396-1424. DOI: 10.13328/j.cnki.jos.006751
    [摘要](2878) [HTML](10186) [PDF 6.93 M](7308)
    摘要:
    在大数据时代,随着信息技术的发展,各行各业都在收集海量数据.数据是数字经济的基础,蕴含有巨大价值.但是由于缺乏高效可行的共享机制,数据拥有方彼此之间缺乏沟通,形成了一个个数据孤岛.这不利于大数据产业的健康发展.因此,给数据分配一个合适的价格,设计高效的数据交易市场平台成为消除数据孤岛、使数据充分流动的重要途径.系统梳理进行数据定价与交易时涉及的技术性问题.具体来说,介绍数据定价与交易的难点和相关准则;将大数据在市场中的生命周期分为数据收集与集成、数据管理与分析、数据定价和数据交易4个环节;在大数据管理研究的基础上介绍适用于前两个环节的相关方法;然后对数据定价思路和方法进行分类,分析各类方法的适用场景以及优势和短板;介绍数据市场的分类,以博弈论和拍卖为例研究了数据交易中市场类型和参与人行为对交易过程及价格的影响.最后,对数据定价与交易的未来研究方向进行展望.
    74  开源软件供应链安全研究综述
    纪守领,王琴应,陈安莹,赵彬彬,叶童,张旭鸿,吴敬征,李昀,尹建伟,武延军
    2023, 34(3):1330-1364. DOI: 10.13328/j.cnki.jos.006717
    [摘要](5319) [HTML](6356) [PDF 3.90 M](8961)
    摘要:
    随着近年来开源软件的蓬勃发展,现代化软件的开发和供应模式极大地促进了开源软件自身的快速迭代和演进,也提高了社会效益.新兴的开源协作的软件开发模式,使得软件开发供应流程由较为单一的线条转变为复杂的网络形态.在盘根错节的开源软件供应关系中,总体安全风险趋势显著上升,日益受到学术界和产业界的重视.针对开源软件供应链,厘清了其关键环节,基于近10年的攻击事件,归纳了开源软件供应链的威胁模型和安全趋势,并通过对现有安全研究成果的调研分析,从风险识别和加固防御这两个方面总结了开源软件供应链安全的研究现状,最后对开源软件供应链安全所面临的挑战和未来研究方向进行了展望和总结.
    75  联邦学习贡献评估综述
    王勇,李国良,李开宇
    2023, 34(3):1168-1192. DOI: 10.13328/j.cnki.jos.006786
    [摘要](5095) [HTML](8291) [PDF 2.68 M](9373)
    摘要:
    数据不动的联邦学习框架是多个数据持有方合作训练机器学习模型的新范式.多个数据持有方参与联邦学习时的贡献评估是联邦学习的核心问题之一.参与方贡献评估需要兼顾有效性、公平性和合理性等要素,在理论方法与实际应用中均面临多项挑战.贡献评估首先需要明确如何度量数据价值,然而数据估值存在主观性与依赖于实际任务场景的特点,如何设计有效、可靠并对恶意数据鲁棒的数据估值指标是第一大挑战.其次,联邦学习合作中的参与方贡献评估是经典的合作博弈问题,如何制定公平合理的参与方贡献评估方案,实现参与方一致认可的博弈平衡是第二大挑战.最后,参与方贡献评估往往计算复杂度高,同时,联邦学习中围绕模型的数据估值时间开销大,因此,在实践中如何设计高效且准确的近似算法是第三大挑战.近年来,为了有效地解决上述挑战,学术界对联邦学习中的贡献评估问题展开了广泛的研究.首先,简要介绍联邦学习与参与方贡献评估的背景知识;然后,综述数据估值指标、参与方贡献评估方案和相关优化技术;最后,讨论了联邦学习贡献评估仍面临的挑战并展望未来研究的发展方向.
    76  HTAP数据库关键技术综述
    张超,李国良,冯建华,张金涛
    2023, 34(2):761-785. DOI: 10.13328/j.cnki.jos.006713
    [摘要](3850) [HTML](6258) [PDF 2.93 M](10069)
    摘要:
    混合事务与分析处理(hybrid transactional analytical processing,HTAP)技术是一种基于一站式架构同时处理事务请求与查询分析请求的技术.HTAP技术不仅消除了从关系型事务数据库到数据仓库的数据抽取、转换和加载过程,还支持实时地分析最新事务数据.然而,为了同时处理OLTP与OLAP,HTAP系统也需要在系统性能与数据分析新鲜度之间做出取舍,这主要是因为高并发、短时延的OLTP与带宽密集型、高时延的OLAP访问模式不同且互相干扰.目前,主流的HTAP数据库主要以行列共存的方式来支持混合事务与分析处理,但是由于该类数据库面向不同的业务场景,所以它们的存储架构与处理技术各有不同.首先,全面调研HTAP数据库,总结它们主要的应用场景与优缺点,并根据存储架构对它们进行分类、总结与对比.现有综述工作侧重于基于行/列单格式存储的HTAP数据库以及基于Spark的松耦合HTAP系统,而这里侧重于行列共存的实时HTAP数据库.特别地,凝炼了主流HTAP数据库关键技术,包括数据组织技术、数据同步技术、查询优化技术、资源调度技术这4个部分.同时总结分析了HTAP数据库构建技术与评测基准.最后,讨论了HTAP技术未来的研究方向与挑战.
    77  动态图划分算法研究综述
    李贺,刘延娜,袁航,杨舒琪,韵晋鹏,乔少杰,黄健斌,崔江涛
    2023, 34(2):539-564. DOI: 10.13328/j.cnki.jos.006705
    [摘要](3031) [HTML](8459) [PDF 2.84 M](10302)
    摘要:
    图划分是大规模分布式图处理的首要工作,对图应用的存储、查询、处理和挖掘起基础支撑作用.随着图数据规模的不断扩大,真实世界中的图表现出动态性.如何对动态图进行划分,已成为目前图划分研究的热点问题.从不同动态图划分算法的关注点和特点出发,系统性地介绍当前可用于解决动态图划分问题的各类算法,包括流式图划分算法、增量式图划分算法和图重划分算法.首先介绍图划分的3种不同的划分策略及问题定义、图的两种不同的动态性来源以及动态图划分问题;然后介绍3种不同的流式图划分算法,包括基于Hash的划分算法、基于邻居分布的划分算法以及基于流的优化划分算法;其次介绍单元素增量式划分和批量增量式划分这两种不同的增量式图划分算法;再次,分别介绍针对图结构动态的重划分算法和针对图计算动态的重划分算法;最后,在对已有方法分析和比较的基础上,总结目前动态图划分面临的主要挑战,提出相应的研究问题.
    78  演化多任务优化研究综述
    李豪,汪磊,张元侨,武越,公茂果
    2023, 34(2):509-538. DOI: 10.13328/j.cnki.jos.006704
    [摘要](2540) [HTML](5997) [PDF 3.02 M](7630)
    摘要:
    演化多任务优化研究利用种群进行优化搜索、借助任务间遗传信息的迁移达到多任务同时处理的目的.演化多任务优化被认为是继单目标优化、多目标优化后的第三种问题优化研究范例,是近年来计算智能领域兴起的一大研究热点.演化多任务优化算法模拟自然界选型交配和垂直文化传播的生物文化现象,通过任务间和任务内的知识迁移来促进多个优化任务各自的收敛.对近年来演化多任务优化领域的研究进展做出了系统总结:首先,引入了演化多任务优化问题的概念,给出了其相关的5个定义,并从知识迁移优化的角度对这一问题做出阐述;然后,详细介绍了演化多任务优化算法的基本框架,总结了这一算法近年来的改进情况和基于这一算法框架下其他经典算法的实现情况;之后,对演化多任务优化算法的学术、工程应用情况做出了较为完整的归纳介绍;最后,指出了演化多任务优化领域目前存在的主要问题和挑战,并对这一方向的进一步发展做出了展望.
    79  面向大数据处理框架的JVM优化技术综述
    汪钇丞,曾鸿斌,许利杰,王伟,魏峻,黄涛
    2023, 34(1):463-488. DOI: 10.13328/j.cnki.jos.006502
    [摘要](2847) [HTML](7174) [PDF 12.94 M](8328)
    摘要:
    当前, 以Hadoop、Spark为代表的大数据处理框架, 已经在学术界和工业界被广泛应用于大规模数据的处理和分析. 这些大数据处理框架采用分布式架构, 使用Java、Scala等面向对象语言编写, 在集群节点上以Java虚拟机(JVM)为运行时环境执行计算任务, 因此依赖JVM的自动内存管理机制来分配和回收数据对象. 然而, 当前的JVM并不是针对大数据处理框架的计算特征设计的, 在实际运行大数据应用时经常出现垃圾回收(GC)时间长、数据对象序列化和反序列化开销大等问题. 在一些大数据场景下, JVM的垃圾回收耗时甚至超过应用整体运行时间的50%, 已经成为大数据处理框架的性能瓶颈和优化热点. 对近年来相关领域的研究成果进行了系统性综述: (1)总结了大数据应用在JVM中运行时性能下降的原因; (2)总结了现有面向大数据处理框架的JVM优化技术, 对相关优化技术进行了层次划分, 并分析比较了各种方法的优化效果、适用范围、使用负担等优缺点; (3)探讨了JVM未来的优化方向, 有助于进一步提升大数据处理框架的性能.
    80  知识图谱嵌入技术研究综述
    张天成,田雪,孙相会,于明鹤,孙艳红,于戈
    2023, 34(1):277-311. DOI: 10.13328/j.cnki.jos.006429
    [摘要](8678) [HTML](7576) [PDF 5.78 M](14328)
    摘要:
    知识图谱(KG)是一种用图模型来描述知识和建模事物之间关联关系的技术. 知识图谱嵌入(KGE)作为一种被广泛采用的知识表示方法, 其主要思想是将知识图谱中的实体和关系嵌入到连续的向量空间中, 用来简化操作, 同时保留KG的固有结构. 可以使得多种下游任务受益, 例如KG补全和关系提取等. 首先对现有的知识图谱嵌入技术进行全面回顾, 不仅包括使用KG中观察到的事实进行嵌入的技术, 还包括添加时间维度的动态KG嵌入方法, 以及融合多源信息的KG嵌入技术. 对相关模型从实体嵌入、关系嵌入、评分函数等方面进行分析、对比与总结. 然后简要介绍KG嵌入技术在下游任务中的典型应用, 包括问答系统、推荐系统和关系提取等. 最后阐述知识图谱嵌入面临的挑战, 对未来的研究方向进行展望.
    81  联邦学习中的隐私问题研究进展
    汤凌韬,陈左宁,张鲁飞,吴东
    2023, 34(1):197-229. DOI: 10.13328/j.cnki.jos.006411
    [摘要](5572) [HTML](8403) [PDF 7.89 M](12154)
    摘要:
    随着大数据、云计算等领域的蓬勃发展, 重视数据安全与隐私已经成为世界性的趋势, 不同团体为保护自身利益和隐私不愿贡献数据, 形成了数据孤岛. 联邦学习使数据不出本地就可被多方利用, 为解决数据碎片化和数据隔离等问题提供了解决思路. 然而越来越多研究表明, 由谷歌首先提出的联邦学习算法不足以抵抗精心设计的隐私攻击, 因此如何进一步加强隐私防护, 保护联邦学习场景下的用户数据隐私成为一个重要问题. 对近些年来联邦学习隐私攻击与防护领域取得的成果进行了系统总结. 首先介绍了联邦学习的定义、特点和分类; 然后分析了联邦学习场景下隐私威胁的敌手模型, 并根据敌手攻击目标对隐私攻击方法进行了分类和梳理; 介绍了联邦学习中的主流隐私防护技术, 并比较了各技术在实际应用中的优缺点; 分析并总结了6类目前联邦学习的隐私保护方案; 最后指出目前联邦学习隐私保护面临的挑战, 展望了未来可能的研究方向.
    82  轻量级区块链技术综述
    谢晴晴,董凡
    2023, 34(1):33-49. DOI: 10.13328/j.cnki.jos.006421
    [摘要](3868) [HTML](5646) [PDF 10.77 M](9801)
    摘要:
    传统的区块链技术为了保证交易账本的全网共识和不可篡改性, 要求矿工节点具有强大的计算能力和足够的存储空间, 这就限制了资源受限的设备加入区块链. 近几年, 区块链技术已经拓展到金融经济、医疗健康、物联网、供应链等多个领域, 但是这些应用场景存在大量算力弱、存储容量低的设备, 这给区块链的应用带来了巨大挑战. 为此轻量级的区块链技术应运而生. 从轻量级计算和轻量级存储两方面出发, 总结当前轻量级区块链的研究现状, 对比分析各个方案的优缺点. 最后展望未来轻量级区块链的发展.
    83  区块链数据安全服务综述
    王利朋,关志,李青山,陈钟,胡明生
    2023, 34(1):1-32. DOI: 10.13328/j.cnki.jos.006402
    [摘要](5559) [HTML](7043) [PDF 10.36 M](10605)
    摘要:
    区块链是由一系列网络节点构建的一种分布式账本, 本身具有不可篡改性、去中心化、去信任化、密码算法安全性和不可否认性等安全属性, 对基于区块链实现的安全服务进行了综述, 这些安全服务包括数据机密性、数据完整性、身份认证、数据隐私、数据可信删除. 首先介绍了区块链和公钥密码学的基础知识, 并围绕上述5种安全服务, 给出了用户真实场景中面临的安全问题以及传统的解决方案, 讨论了这些传统实现方案所面临的问题, 之后介绍了使用区块链技术解决相关问题的实现方案, 最后讨论了区块链的价值以及面临的问题.
    84  文本风格迁移研究综述
    陈可佳,费子阳,陈景强,杨子农
    2022, 33(12):4668-4687. DOI: 10.13328/j.cnki.jos.006544
    [摘要](3412) [HTML](7691) [PDF 17.32 M](8299)
    摘要:
    文本风格迁移是近年来自然语言处理领域的热点问题之一,旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性(如情感、时态和性别等).旨在梳理已有的技术,以推进该方向的研究.首先,给出文本风格迁移问题的定义及其面临的挑战;然后,对已有方法进行分类综述,重点介绍基于无监督学习的文本风格迁移方法并将其进一步分为隐式和显式两类方法,对各类方法在实现机制、优势、局限性和性能等方面进行分析和比较;同时,还通过实验比较了几种代表性方法在风格迁移准确率、文本内容保留和困惑度等自动化评价指标上的性能;最后,对文本风格迁移研究进行总结和展望.
    85  对话推荐算法研究综述
    赵梦媛,黄晓雯,桑基韬,于剑
    2022, 33(12):4616-4643. DOI: 10.13328/j.cnki.jos.006521
    [摘要](3606) [HTML](5679) [PDF 27.77 M](8803)
    摘要:
    推荐系统是一种通过理解用户的兴趣和偏好帮助用户过滤大量无效信息并获取感兴趣的信息或者物品的信息过滤系统.目前主流的推荐系统主要基于离线的、历史的用户数据,不断训练和优化线下模型,继而为在线的用户推荐物品,这类训练方式主要存在3个问题:基于稀疏且具有噪声的历史数据估计用户偏好的不可靠估计、对影响用户行为的在线上下文环境因素的忽略和默认用户清楚自身偏好的不可靠假设.由于对话系统关注于用户的实时反馈数据,获取用户当前交互的意图,因此“对话推荐”通过结合对话形式与推荐任务成为解决传统推荐问题的有效手段.对话推荐将对话系统实时交互的数据获取方式应用到推荐系统中,采用了与传统推荐系统不同的推荐思路,通过利用在线交互信息,引导和捕捉用户当前的偏好兴趣,并及时进行反馈和更新.在过去的几年里,越来越多的研究者开始关注对话推荐系统,这一方面归功于自然语言处理领域中语音助手以及聊天机器人技术的广泛使用,另一方面受益于强化学习、知识图谱等技术在推荐策略中的成熟应用.将对话推荐系统的整体框架进行梳理,将对话推荐算法研究所使用的数据集进行分类,同时对评价对话推荐效果的相关指标进行讨论,重点关注于对话推荐系统中的后台对话策略与推荐逻辑,对近年来的对话推荐算法进行综述,最后对对话推荐领域的未来发展方向进行展望.
    86  个性化学习路径推荐综述
    云岳,代欢,张育培,尚学群,李战怀
    2022, 33(12):4590-4615. DOI: 10.13328/j.cnki.jos.006518
    [摘要](5519) [HTML](13660) [PDF 24.08 M](17940)
    摘要:
    近年来,伴随着现代信息技术的迅猛发展,以人工智能为代表的新兴技术在教育领域得到了广泛应用,引发了学习理念和方式的深刻变革.在这种大背景下,在线学习超越了时空的限制,为学习者“随时随地”学习提供了更多的可能性,从而得到了蓬勃发展.然而,在线学习中师生时间、空间分离的特征,导致教师无法及时掌握学生的学习状态,一定程度上制约了在线学习中教学质量的提升.面对多元化的学习需求及海量学习资源,如何迅速完成学习目标、降低学习成本、合理分配学习资源等问题成为限制个人和时代发展的重大问题.然而,传统的“一刀切”的教育模式已经不能满足人们获取知识的需求了,需要一个更高效、更科学的个性化教育模式,以帮助学习者以最小的学习成本最大限度地完成学习目标.基于以上背景,如何自动高效识别学习者特征,高效地组织和分配学习资源,为每一位学习者规划个性化路径,成为面向个体的精准化教育资源匹配机制研究中亟待解决的问题.系统地综述并分析了当前个性化学习路径推荐的研究现状,并从多学科领域的角度分析了对于同一问题的不同研究思路,同时也归纳总结了当前研究中最为主流的核心推荐算法.最后,强调当前研究存在的主要不足之处.
    87  基于互联网群体智能的知识图谱构造方法
    蒋逸,张伟,王佩,张馨月,梅宏
    2022, 33(7):2646-2666. DOI: 10.13328/j.cnki.jos.006313
    [摘要](3648) [HTML](3343) [PDF 2.44 M](6760)
    摘要:
    知识图谱是一种基于图的结构化知识表示方式.如何构造大规模高质量的知识图谱,是研究和实践面临的一个重要问题.提出了一种基于互联网群体智能的协同式知识图谱构造方法.该方法的核心是一个持续运行的回路,其中包含自由探索、自动融合、主动反馈3个活动.在自由探索活动中,每一参与者独立进行知识图谱的构造活动.在自动融合活动中,所有参与者的个体知识图谱被实时融合在一起,形成群体知识图谱.在主动反馈活动中,支撑环境根据每一参与者的个体知识图谱和当前时刻的群体知识图谱,向该参与者推荐特定的知识图谱片段信息,以提高其构造知识图谱的效率.针对这3个活动,建立了一种层次式的个体知识图谱表示机制,提出了一种以最小化广义熵为目标的个体知识图谱融合算法,设计了情境无关和情境相关两种类型的信息反馈方式.为了验证所提方法及关键技术的可行性,设计并实施了3种类型的实验:仅包含结构信息的仿真图融合实验、大规模真实知识图谱的融合实验,以及真实知识图谱的协同式构造实验.实验结果表明,该知识图谱融合算法能够有效利用知识图谱的结构信息以及节点的语义信息,形成高质量的知识图谱融合方案;基于“探索-融合-反馈”回路的协同方法能够提升群体构造知识图谱的规模和个体构造知识图谱的效率,并展现出较好的群体规模可扩展性.
    88  代码审查中代码变更恢复的经验研究
    王青叶,万志远,李善平,夏鑫
    2022, 33(7):2581-2598. DOI: 10.13328/j.cnki.jos.006312
    [摘要](1703) [HTML](3180) [PDF 2.25 M](5328)
    摘要:
    代码审查是一种由其他开发者而非代码作者本人评审代码的形式.在代码审查系统中,开发者通过提交代码变更来修复软件缺陷或添加软件特性.并非所有的代码变更都会被集成到代码库中,部分代码变更会被拒收.被拒收的代码变更有可能被恢复,并继续接受审查,提供代码贡献者改进代码变更的机会.然而,审查恢复过的代码变更需要花费更多的时间.收集了4个开源项目中的920 700条代码变更,采用主题分析方法识别出11类代码变更恢复的原因,并定量分析被恢复的代码变更的特征.主要发现包括:1)导致代码变更恢复的原因中,“提升改进”类型占比最大;2)不同项目之间,代码变更被恢复的原因类别分布存在差异,但并不显著;3)与从未恢复过的代码变更相比,恢复的代码变更接收率低10%,评论数量平均多1.9倍,审查所用时间平均多5.8倍;4)81%的恢复代码变更被接收,19%的恢复代码变更被拒收.
    89  人脸识别反欺诈研究进展
    张帆,赵世坤,袁操,陈伟,刘小丽,赵涵捷
    2022, 33(7):2411-2446. DOI: 10.13328/j.cnki.jos.006590
    [摘要](3800) [HTML](6365) [PDF 3.23 M](8685)
    摘要:
    当前,人脸识别理论和技术取得了巨大的成功,被广泛应用于政府、金融和军事等关键领域.与其他信息系统类似,人脸识别系统也面临着各类安全问题,其中,人脸欺诈(face spoofing,FS)是最主要的安全问题之一.所谓的人脸欺诈,是指攻击者采用打印照片、视频回放和3D面具等攻击方式,诱骗人脸识别系统做出错误判断,因而是人脸识别系统所必须解决的关键问题.对人脸反欺诈(face anti-spoofing,FAS)的最新进展进行研究:首先,概述了FAS的基本概念;其次,介绍了当前FAS所面临的主要科学问题以及主要的解决方法及其优缺点;在此基础上,将已有的FAS工作分为传统方法和深度学习方法两大类,并分别进行详细论述;接着,针对基于深度学习的FAS域泛化和可解释性问题,从理论和实践的角度进行说明;然后,介绍了FAS研究所使用的典型数据集及其特点,并给出了FAS算法的评估标准和实验对比结果;最后,总结了FAS未来的研究方向并对发展趋势进行展望.
    90  可信系统性质的分类和形式化研究综述
    王淑灵,詹博华,盛欢欢,吴昊,易士程,王令泰,金翔宇,薛白,李静辉,向霜晴,向展,毛碧飞
    2022, 33(7):2367-2410. DOI: 10.13328/j.cnki.jos.006587
    [摘要](3177) [HTML](6814) [PDF 3.92 M](7801)
    摘要:
    计算机系统被应用于各种重要领域,这些系统的失效可能会带来重大灾难.不同应用领域的系统对于可信性具有不同的要求,如何建立高质量的可信计算机系统,是这些领域共同面临的巨大挑战.近年来,具有严格数学基础的形式化方法已经被公认为开发高可靠软硬件系统的有效方法.目标是对形式化方法在不同系统的应用进行不同维度的分类,以更好地支撑可信软硬件系统的设计.首先从系统的特征出发,考虑6种系统特征:顺序系统、反应式系统、并发与通信系统、实时系统、概率随机系统以及混成系统.同时,这些系统又运行在众多应用场景,分别具有各自的需求.考虑4种应用场景:硬件系统、通信协议、信息流以及人工智能系统.对于以上的每个类别,介绍和总结其形式建模、性质描述以及验证方法与工具.这将允许形式化方法的使用者对不同的系统和应用场景,能够更准确地选择恰当的建模、验证技术与工具,帮助设计人员开发更加可靠的系统.
    91  基于预测编码的样本自适应行动策略规划
    梁星星,马扬,冯旸赫,张驭龙,张龙飞,廖世江,刘忠
    2022, 33(4):1477-1500. DOI: 10.13328/j.cnki.jos.006472
    [摘要](2604) [HTML](4989) [PDF 1.31 M](10175)
    摘要:
    军事行动、反恐突击等强对抗场景中,实时信息的碎片化、不确定性对制定具有博弈优势的弹性行动方案提出了更高的要求,研究具有自学习能力的智能行动策略规划方法已成为编队级强对抗任务的核心问题.针对复杂场景下行动策略规划状态表征困难、数据效率低下等问题,提出了基于预测编码的样本自适应行动策略规划方法.利用自编码模型压缩表示任务的原始状态空间,通过任务环境的状态转移样本,在低维度状态空间中使用混合密度分布网络对任务环境的动态模型进行学习,获得了表征环境动态性的预测编码;基于预测编码展开行动策略规划研究,利用时间差分敏感的样本自适应方法对状态评估值函数进行预测,改善了数据效率,加速了算法收敛.为了验证算法的有效性,基于全国兵棋推演大赛机机挑战赛的想定,构建了包含大赛获奖选手操作策略的5种规则智能体,利用消融实验验证编码方式、样本采样策略等不同因子组合对算法的影响,并使用Elo评分机制对各个智能体进行排序;实验结果表明:基于预测编码的样本自适应算法——MDN-AF得分排序最高,对战平均胜率为71%,其中大比分获胜局占比为67.6%,而且学习到了自主波次划分、补充侦察策略、“蛇形”打击策略、轰炸机靠后突袭等4种长时行动策略.该算法框架应用于2020年全国兵棋推演大赛的智能体开发,并获得了全国一等奖.
    92  ReChorus: 综合高效易扩展的轻量级推荐算法框架
    王晨阳,任一,马为之,张敏,刘奕群,马少平
    2022, 33(4):1430-1438. DOI: 10.13328/j.cnki.jos.006473
    [摘要](2429) [HTML](4420) [PDF 449.92 K](7459)
    摘要:
    近年来,各种各样的推荐算法层出不穷,特别是深度学习的发展,极大地推动了推荐系统的研究.然而,各个推荐算法在实现细节、评价方式、数据集处理等方面存在众多差异,越来越多的研究者开始对推荐领域的可复现性产生担忧.为了帮助缓解上述问题,基于PyTorch实现了一个综合、高效、易扩展的轻量级推荐算法框架ReChorus,意为构建一个推荐算法的“合唱团”.ReChorus框架中实现了多种不同类型的推荐算法,类别涵盖常规推荐、序列推荐、引入知识图谱的推荐、引入时间动态性的推荐等;同时,对于一些常见的数据集也提供统一的预处理范式.相比其他推荐系统库,ReChorus在保证综合高效的基础上尽可能做到了轻量实用,同时具有较高的可扩展性,尤其以方便学术研究为导向,非常容易上手实现新的模型.不同的推荐算法在ReChorus框架中能够在相同的实验设定下进行训练和评测,从而实现推荐算法间的有效对比.该项目目前已在GitHub发布:https://github.com/THUwangcy/ReChorus.
    93  类脑超大规模深度神经网络系统
    吕建成,叶庆,田煜鑫,韩军伟,吴枫
    2022, 33(4):1412-1429. DOI: 10.13328/j.cnki.jos.006470
    [摘要](2730) [HTML](8210) [PDF 920.08 K](6829)
    摘要:
    大规模神经网络展现出强大的端到端表示能力和非线性函数的无限逼近能力,在多个领域表现出优异的性能,成为一个重要的发展方向.如自然语言处理(NLP)模型GPT,经过几年的发展,目前拥有1 750亿网络参数,在多个NLP基准上到达最先进性能.然而,按照现有的神经网络组织方式,目前的大规模神经网络难以到达人脑生物神经网络连接的规模.同时,现有的大规模神经网络在多通道协同处理、知识存储和迁移、持续学习方面表现不佳.提出构建一种启发于人脑功能机制的大规模神经网络模型,该模型以脑区划分和脑区功能机制为启发,集成大量现有数据和预训练模型,借鉴脑功能分区来模块化构建大规模神经网络模型,并由脑功能机制提出相应的学习算法,根据场景输入和目标,自动构建神经网络通路,设计神经网络模型来获得输出.该神经网络模型关注输入到输出空间的关系构建,通过不断学习,提升模型的关系映射能力,目标在于让该模型具备多通道协同处理能力,实现知识存储和持续学习,向通用人工智能迈进.整个模型和所有数据、类脑功能区使用数据库系统进行管理,该系统了还集成了分布式神经网络训练算法,为实现超大规模神经网络的高效训练提供支撑.提出了一种迈向通用人工智能的思路,并在多个不同模态任务验证该模型的可行性.
    94  基于K近邻和优化分配策略的密度峰值聚类算法
    孙林,秦小营,徐久成,薛占熬
    2022, 33(4):1390-1411. DOI: 10.13328/j.cnki.jos.006462
    [摘要](2878) [HTML](4552) [PDF 1.55 M](7363)
    摘要:
    密度峰值聚类(density peak clustering,DPC)是一种简单有效的聚类分析方法.但在实际应用中,对于簇间密度差别大或者簇中存在多密度峰的数据集,DPC很难选择正确的簇中心;同时,DPC中点的分配方法存在多米诺骨牌效应.针对这些问题,提出一种基于K近邻(K-nearest neighbors,KNN)和优化分配策略的密度峰值聚类算法.首先,基于KNN、点的局部密度和边界点确定候选簇中心;定义路径距离以反映候选簇中心之间的相似度,基于路径距离提出密度因子和距离因子来量化候选簇中心作为簇中心的可能性,确定簇中心.然后,为了提升点的分配的准确性,依据共享近邻、高密度最近邻、密度差值和KNN之间距离构建相似度,并给出邻域、相似集和相似域等概念,以协助点的分配;根据相似域和边界点确定初始聚类结果,并基于簇中心获得中间聚类结果.最后,依据中间聚类结果和相似集,从簇中心到簇边界将簇划分为多层,分别设计点的分配策略;对于具体层次中的点,基于相似域和积极域提出积极值以确定点的分配顺序,将点分配给其积极域中占主导地位的簇,获得最终聚类结果.在11个合成数据集和27个真实数据集上进行仿真实验,与最新的基于密度峰值的聚类算法作对比,结果表明:所提算法在纯度、F度量、准确度、兰德系数、调整兰德系数和标准互信息上均表现出良好的聚类性能.
    95  概念漂移数据流半监督分类综述
    文益民,刘帅,缪裕青,易新河,刘长杰
    2022, 33(4):1287-1314. DOI: 10.13328/j.cnki.jos.006476
    [摘要](2443) [HTML](6006) [PDF 801.83 K](8382)
    摘要:
    在开放环境下,数据流具有数据高速生成、数据量无限和概念漂移等特性.在数据流分类任务中,利用人工标注产生大量训练数据的方式昂贵且不切实际.包含少量有标记样本和大量无标记样本且还带概念漂移的数据流给机器学习带来了极大挑战.然而,现有研究主要关注有监督的数据流分类,针对带概念漂移的数据流的半监督分类的研究尚未引起足够的重视.因此,在全面收集数据流半监督分类研究工作的基础上,对现有带概念漂移的数据流的半监督分类算法进行了多角度划分;并以算法采用的分类器类型为线索,对已有的多个算法进行了介绍与总结,包括现有数据流半监督分类采用的概念漂移检测方法;在一些被广泛使用的真实数据集和人工数据集上,对部分代表性数据流半监督分类算法进行了多方面的比较与分析;最后,提出了当前概念漂移数据流半监督分类中一些值得进一步深入探讨的问题.实验结果表明:数据流半监督分类算法的分类准确率与众多因素有关,但与数据分布的变化关系最大.本综述将有助于感兴趣的研究者快速进入数据流半监督分类问题领域.
    96  标签推荐方法研究综述
    徐鹏宇,刘华锋,刘冰,景丽萍,于剑
    2022, 33(4):1244-1266. DOI: 10.13328/j.cnki.jos.006481
    [摘要](3426) [HTML](5079) [PDF 1.33 M](10940)
    摘要:
    随着互联网信息的爆炸式增长,标签(由用户指定用来描述项目的关键词)在互联网信息检索领域中变得越来越重要.为在线内容赋予合适的标签,有利于更高效的内容组织和内容消费.而标签推荐通过辅助用户进行打标签的操作,极大地提升了标签的质量,标签推荐也因此受到了研究者们的广泛关注.总结出标签推荐任务的三大特性,即项目内容的多样性、标签之间的相关性以及用户偏好的差异性.根据这些特性,将标签推荐方法划分为3个类别,分别是基于内容的方法、基于标签相关性的方法以及基于用户偏好的方法.之后,针对这3个类别下的对应方法进行了梳理和剖析.最后,提出了当前标签推荐领域面临的主要挑战,例如标签的长尾问题、用户偏好的动态性以及多模态信息的融合问题等,并对未来研究方向进行了展望.
    97  面向多方安全的数据联邦系统
    李书缘,季与点,史鼎元,廖旺冬,张利鹏,童咏昕,许可
    2022, 33(3):1111-1127. DOI: 10.13328/j.cnki.jos.006458
    [摘要](3179) [HTML](4936) [PDF 2.36 M](8200)
    摘要:
    大数据时代,数据作为生产要素具有重要价值.因此,通过数据共享实现大规模数据的分析挖掘与利用具有重要意义.然而,近年来日益严格的隐私安全保护要求使得数据分散异质的多方之间不能任意共享数据,加剧了“数据孤岛”问题.数据联邦能让多数据拥有方在保护隐私的前提下完成联合查询.因此,基于“数据不动计算动”的联邦计算思想实现了一种多方安全的关系型数据联邦系统.该系统适配多种关系型数据库,能够为用户屏蔽底层多数据拥有方的数据异构性.系统基于秘密共享实现了支持多方安全的基础操作多方安全算子库,优化了算子的结果重建过程,提高了其执行效率.在此基础上,系统支持求和、求均值、求最值、等值连接和任意连接等查询操作,并充分利用多方特点减少各数据拥有方之间的数据交互,降低安全开销,从而有效支持高效数据共享.最后,在标准测试数据集TPC-H上进行实验,实验结果说明:与目前的数据联邦系统SMCQL和Conclave相比,该系统能够支持更多的数据拥有方参与,并且在多种查询操作上有更高的执行效率,最快可超越现有系统3.75倍.
    98  联邦学习中的隐私保护技术
    刘艺璇,陈红,刘宇涵,李翠平
    2022, 33(3):1057-1092. DOI: 10.13328/j.cnki.jos.006446
    [摘要](6612) [HTML](8625) [PDF 3.36 M](17272)
    摘要:
    联邦学习是顺应大数据时代和人工智能技术发展而兴起的一种协调多个参与方共同训练模型的机制.它允许各个参与方将数据保留在本地,在打破数据孤岛的同时保证参与方对数据的控制权.然而联邦学习引入了大量参数交换过程,不仅和集中式训练一样受到模型使用者的威胁,还可能受到来自不可信的参与设备的攻击,因此亟需更强的隐私手段保护各方持有的数据.分析并展望了联邦学习中的隐私保护技术的研究进展和趋势.简要介绍联邦学习的架构和类型,分析联邦学习过程中面临的隐私风险,总结重建、推断两种攻击策略,然后依据联邦学习中的隐私保护机制归纳隐私保护技术,并深入调研应用上述技术的隐私保护算法,从中心、本地、中心与本地结合这3个层面总结现有的保护策略.最后讨论联邦学习隐私保护面临的挑战并展望未来的发展方向.
    99  基于键值存储的分布式时序相似性搜索方法
    俞自生,李瑞远,郭阳,蒋忠元,鲍捷,郑宇
    2022, 33(3):950-967. DOI: 10.13328/j.cnki.jos.006445
    [摘要](2365) [HTML](4557) [PDF 1.93 M](6656)
    摘要:
    时序相似性搜索是时序数据分析最基本的操作之一,具有广泛的应用场景.针对现有分布式算法无法应对维度增长、扫描范围过大和相似性计算耗时的问题,提出一种面向键值存储的分布式时序相似性搜索方法KV-Search.首先对时序数据分块,并设计其键值存入键值数据库,解决了时序数据维度高且不断增长的问题;其次,基于切比雪夫距离计算其下界,并利用键值范围扫描提前过滤无效数据,减少了数据传输;最后,利用基于分块的时序表示计算距离下界,避免了更高维度真实数据的计算,加快了查询效率.使用HBase实现了KV-Search,并利用真实的大规模数据集做了大量实验.实验结果表明,KV-Search算法在效率和扩展性方面均优于基准实验.
    100  基于大数据的分布式社会治理智能系统
    吕卫锋,郑志明,童咏昕,张瑞升,魏淑越,李卫华
    2022, 33(3):931-949. DOI: 10.13328/j.cnki.jos.006455
    [摘要](2901) [HTML](5236) [PDF 2.08 M](7589)
    摘要:
    近年来,推动社会治理的协同化、智能化,完善共建共治共享的社会治理制度,是国家的重要发展方向.数据作为一种生产要素,在社会治理中起着愈发关键的作用.如何实现多方海量数据的安全查询、协同管理、智能分析,是提升社会治理效果的关键问题.在新冠疫情防控等重大公共事件中,分布式社会治理面临着安全计算效率低、多方可信协同差、复杂任务决策难的三大挑战.针对以上挑战,基于安全多方计算、区块链技术与精准智能理论,提出了一种基于大数据的分布式社会治理智能系统.所提出的系统能够支撑社会治理的各类应用,为新时代社会治理水平的提升提供决策支撑.

    当期目录


    文章目录

    过刊浏览

    年份

    刊期

    联系方式
    • 《软件学报 》
    • 主办单位:中国科学院软件研究所
                       中国计算机学会
    • 邮编:100190
    • 电话:010-62562563
    • 电子邮箱:jos@iscas.ac.cn
    • 网址:https://www.jos.org.cn
    • 刊号:ISSN 1000-9825
    •           CN 11-2560/TP
    • 国内定价:70元
    您是第位访问者
    版权所有:中国科学院软件研究所 京ICP备05046678号-3
    地址:北京市海淀区中关村南四街4号,邮政编码:100190
    电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
    技术支持:北京勤云科技发展有限公司

    京公网安备 11040202500063号