2026, 37(2):485-507. DOI: 10.13328/j.cnki.jos.007570 CSTR: 32375.14.jos.007570
摘要:结构化数据分析通常需要在表格数据的多维属性上执行联合范围查询, 高效的多维索引因此成为数据库系统的关键支撑. 然而, 现有多维索引方法在高维场景下存在局限: 传统多维索引仅按数据分布进行均匀划分, 缺乏对查询特征的感知, 导致筛选效果有限; 而现有学习型多维索引虽引入查询感知, 但划分往往极不均匀, 使部分单元过大, 扫描成本显著增加. 为了解决上述问题, 提出一种新型的LA-tree学习型树形多维索引, 同时兼顾数据分布与查询负载感知. 在离线构建阶段, LA-tree将节点维度选择建模为最小化查询扫描比的问题, 并提出分层贪心搜索算法, 实现了均匀划分与查询感知的统一. 在在线查询阶段, 引入轻量线性模型与分段线性模型, 将传统的数值比较转化为快速映射计算, 在保证结果完整性的同时显著降低筛选延迟. 在动态场景中, 提出基于扫描量监控的自适应增量更新机制, 通过局部子树重构高效适配数据与查询负载的变化, 避免了整体索引重建的高昂代价. 实验结果表明, LA-tree在多个真实和基准数据集上均显著优于现有方法: 在静态场景中查询用时较最佳基准方法平均降低52%, 在动态场景中更新开销较重构方法减少97%, 同时保持低查询延迟与轻量级索引规模.
2026, 37(2):508-542. DOI: 10.13328/j.cnki.jos.007560 CSTR: 32375.14.jos.007560
摘要:带有递归数据结构, 如列表(list) 和二叉树(tree) 等数据类型的程序, 在计算机领域被广泛使用. 程序验证问题通常将程序转换为可满足性模理论(satisfiability modulo theories, SMT)公式进行求解. 递归数据结构通常会转换为代数数据类型(algebraic data type, ADT)和整数等混合理论的一阶逻辑公式. 另外, 为表示递归数据结构的性质, 程序中通常需要包含递归函数, 递归函数在SMT中则需要通过包含量词和未解释函数的断言来表示. 关注带有ADT和递归函数这两类递归定义SMT公式的求解方法. 从SMT求解器、自动定理证明器和约束霍恩子句(constrained Horn clause, CHC)求解器这3方面对现有技术进行梳理和介绍. 同时, 对主流的求解工具进行统一实验对比, 探究现有求解工具和技术在各类问题上的优势和缺陷, 尝试寻找潜在的优化方向, 为研究者提供有价值的分析和参考.
2026, 37(2):543-562. DOI: 10.13328/j.cnki.jos.007421 CSTR: 32375.14.jos.007421
摘要:智能问答系统利用信息检索和自然语言处理技术, 实现对问题的自动化回复. 然而, 与其他人工智能软件相似, 智能问答系统同样存在缺陷. 存在缺陷的智能问答系统会降低用户体验, 造成企业的经济损失, 甚至引发社会层面的恐慌. 因此, 及时检测并修复智能问答系统中的缺陷至关重要. 目前, 智能问答系统自动测试方法主要分为两类. 其一, 基于问题与预测答案合成假定事实, 并基于假定事实生成新问题和预期答案, 以此揭示问答系统中的缺陷. 其二, 从现有数据集中提取不影响原问题答案的知识片段并融入原始测试输入中生成答案一致的新测试输入, 实现对问答系统的缺陷检测任务. 然而, 这两类方法均着重于测试模型的语义理解能力, 未能充分测试模型的逻辑推理能力. 此外, 这两类方法分别依赖于问答系统的回答范式和模型自带的数据集来生成新的测试用例, 限制了其在基于大规模语言模型的问答系统中的测试效能. 针对上述挑战, 提出一种逻辑引导的蜕变测试技术QALT. QALT设计了3种逻辑相关的蜕变关系, 并使用了语义相似度度量和依存句法分析等技术指导生成高质量的测试用例, 实现对智能问答系统的精准测试. 实验结果表明, QALT在两类智能问答系统上一共检测9247个缺陷, 分别比当前两种最先进的技术(即QAQA和QAAskeR)多检测3150和3897个缺陷. 基于人工采样标注结果的统计分析, QALT在两个智能问答系统上检测到真阳性缺陷的期望数量总和为8073, 预期比QAQA和QAAskeR分别多检测2142和4867个真阳性缺陷. 此外, 使用QALT生成的测试输入通过模型微调对被测软件中的缺陷进行修复. 微调后模型的错误率成功地从 22.33% 降至14.37%.
2026, 37(2):563-583. DOI: 10.13328/j.cnki.jos.007424 CSTR: 32375.14.jos.007424
摘要:工作负载的准确预测对于云资源管理至关重要. 然而, 现有预测模型通常使用固化结构从不同视角提取序列特征, 导致不同模型结构之间难以灵活组合以进一步提升预测性能. 提出一种基于软演员-评论家算法(soft actor-critic, SAC)的多视角工作负载预测集成框架SAC-MWF. 首先, 设计一组特征序列构建方法来生成多视角特征序列, 该方法能够以低成本从历史窗口生成特征序列, 从而引导模型关注不同视角下的云工作负载序列模式. 其次, 在历史窗口和特征序列上分别训练基础预测模型和若干特征预测模型, 以捕获不同视角下的云工作负载模式. 最后, 利用SAC算法集成基础预测模型和特征预测模型, 生成最终的云工作负载预测. 在3个数据集上的实验结果表明, SAC-MWF方法在有效性和计算效率方面表现优秀.
2026, 37(2):584-600. DOI: 10.13328/j.cnki.jos.007451 CSTR: 32375.14.jos.007451
摘要:作为人工智能的基础设施, 深度学习框架已经成为人工智能实现跨越发展的重要突破口. 但是由于缺乏统一标准, 不同框架的兼容水平较差. 忠实模型转换通过将源模型迁移为另一种目标框架下的等价模型, 来增强框架间的互操作性. 然而, 深度学习框架数量较多且相互间差异较大, 并且自主框架的需求逐渐增多, 互相转换成本较高. 因此, 提出基于领域知识图谱的框架间AI源码自动迁移方法. 该方法基于领域知识图谱和抽象语法树来系统地处理迁移挑战, 首先将源代码转换为特定的抽象语法树, 提取通用依赖信息和特定算子信息, 然后再利用存储在领域知识图谱中的框架间算子及参数映射关系来迁移到目标框架下, 形成目标框架下的目标模型代码, 大大降低了工程复杂度. 对比同类型的代码迁移工具, 所提方法可以在国内外流行深度学习框架如PyTorch、PaddlePaddle和MindSpore之间进行互相迁移, 达到了较好的成熟度和质量, 部分成果已经开源到百度官方迁移工具PaConvert中.
2026, 37(2):601-620. DOI: 10.13328/j.cnki.jos.007470 CSTR: 32375.14.jos.007470
摘要:代码注释是对源代码功能的自然语言描述, 其可以帮助开发人员快速地理解代码语义及功能, 从而提高软件开发和维护的效率. 然而, 书写与维护代码注释费时费力, 导致代码注释经常出现缺失、不匹配以及过时等问题. 因此, 如何自动化地为源代码生成注释引起了大量研究人员的关注. 现有方法通常利用信息检索技术或深度学习技术来进行代码注释自动生成, 但这二者均存在自身的一些局限. 目前已有一些对信息检索技术和深度学习技术进行集成的研究工作, 但它们无法有效利用这两种技术优势. 针对这些问题, 提出一种基于语义重排序的代码注释生成方法SRBCS, 该方法通过语义重排序模型对不同方法所生成代码注释进行排序选择来实现代码注释生成, 从而在实现对不同方法集成的同时最大化地利用不同方法在代码注释生成上的优势. 在两个数据集上将SRBCS与14种代码注释生成方法进行比较. 实验评估结果表明SRBCS可以有效地对不同代码注释生成方法进行集成, 实现了优于现有14种代码注释生成方法的性能.
2026, 37(2):621-640. DOI: 10.13328/j.cnki.jos.007473 CSTR: 32375.14.jos.007473
摘要:根因分析是指找出引起复杂系统异常故障的根源因素. 基于因果关系的溯因方法基于结构因果模型, 是实现根因分析的最优选择之一. 目前大多数因果驱动的根因分析方法大都需要数据因果结构的发现作为前置条件, 这使得根因分析本身严重依赖于因果发现这一先验任务的效果. 最近, 基于得分函数的干预识别受到了广泛关注, 其通过对比干预前后的得分函数导数的方差来检测被干预的变量集合, 具备突破因果发现对根因分析约束的潜力. 然而, 主流的基于得分函数的干预识别大都受限于得分函数估计这一步骤, 其采用的解析求解方法并不能很好地对真实的高维复杂数据分布进行建模. 因此, 鉴于最近在数据生成中取得的进展, 提出一种扩散模型引导的根因分析策略. 具体来说, 所提方法首先利用扩散模型针对异常发生前后的数据分布对应的得分函数进行估计, 进而通过观察对加权融合后的总体得分函数的一阶导方差, 识别导致异常发生的根因变量集合. 此外, 为了进一步减小在识别过程中剪枝操作带来的扩散模型重复训练的开销, 提出一种可靠的估计策略, 其只需要训练一次扩散模型即可估计所有剪枝过程中对应节点的得分函数. 在仿真数据和真实数据上的实验结果表明, 所提出的方法实现了对于根因变量集合的精准识别. 此外, 相关的消融实验也表明, 扩散模型的引导作用对于表现提升至关重要.
2026, 37(2):641-661. DOI: 10.13328/j.cnki.jos.007482 CSTR: 32375.14.jos.007482
摘要:在大规模在线服务系统中, 为了适应快速变化的用户需求和信息技术如连续集成/交付等, 软件变更频繁发生且呈现上升趋势. 尽管工程师会在软件变更上线之前对新版本进行严格的测试, 但由于测试环境与生产环境之间在负载、规模、用户等方面存在诸多差异, 导致部分隐蔽缺陷未能被及时发现, 随新版本发布带入生产环境, 对系统的可用性和稳定性造成影响. 为了更深入地了解缺陷变更在部署到生产环境后的影响和行为, 基于来自全球大规模即时通信系统微信的真实变更故障数据进行了实证分析, 并得出5个关于缺陷变更的关键发现. 基于实证研究的发现和结论, 提出一种轻量级故障根因变更识别方法. 该方法旨在自动化地识别导致变更故障的根因变更, 从而帮助运维工程师完成根因定位和故障修复工作. 为了验证提出的故障根因变更识别方法的有效性, 在微信的生产环境中采集了包含多种类型缺陷变更的真实数据集, 同时还构建一个微服务基准测试系统的模拟变更数据集, 然后对提出的方法进行系统性评估. 实验结果表明, 所提方法在微信生产环境数据集和模拟变更数据上的故障根因变更Top-3命中率分别达到80%和84%, 并且故障根因变更识别效果显著优于当前最先进的缺陷变更检测方法. 此外, 从工程实践角度, 系统在处理典型规模故障时内存占用仅为2.3 GB, 平均分析时延28.6 s, 满足实际生产环境需求.
2026, 37(2):662-683. DOI: 10.13328/j.cnki.jos.007504 CSTR: 32375.14.jos.007504
摘要:作为软件工程领域的一项新兴技术, 源代码自动生成注释旨在为给定的代码片段生成自然语言描述. 目前最先进的代码注释技术采用编码器-解码器神经网络模型: 编码器提取源代码的语义表示, 而解码器则将其转换为人类可读的代码注释. 然而, 许多现有方法将输入的代码片段视为独立函数, 往往忽略了目标函数与其调用的子函数之间的上下文依赖关系. 忽视这些依赖关系可能导致关键语义信息的缺失, 从而降低生成注释的质量. 为此, 提出了一种函数依赖感知的分层代码注释神经网络模型DHCS (dependency-aware hierarchical code summarization). DHCS通过显式建模目标函数与其子函数之间的分层依赖关系, 旨在提高代码注释的质量. 采用了一个分层编码器, 包括子函数编码器和目标函数编码器, 使模型能够有效地捕捉局部和上下文的语义表示. 同时, 引入了一项自监督任务, 即掩码子函数预测, 以增强子函数的表示学习. 此外, 提出挖掘子函数的主题分布, 并将其与主题感知的复制机制相结合, 集成到注释解码器中. 因此, 它能够直接从子函数中提取关键信息, 从而更有效地生成目标函数的注释. 最后, 在针对Python、Java和Go语言构建的3个真实数据集上进行了大量实验, 结果充分验证了所提方法的有效性.
2026, 37(2):684-699. DOI: 10.13328/j.cnki.jos.007419 CSTR: 32375.14.jos.007419
摘要:自监督学习可以从原始数据中挖掘自监督信号, 在提高推荐性能方面蕴含着巨大的潜力. 然而, 目前基于自监督学习的推荐方法存在两个关键的挑战. 首先, 大多数自监督推荐模型采用对同一节点随机扰动的方式, 将生成的不同结果作为自监督信号, 然而, 由于推荐系统中存在着广泛的同质性, 这种方式会忽略邻居节点信息, 影响推荐性能. 其次, 用户-物品之间的历史交互信息以及用户与用户之间的社交关系信息是目前基于自监督学习推荐模型关注的焦点, 而忽略了物品之间的内在联系, 同样会导致产生的自监督信号不够充分. 基于这些挑战, 提出一种基于多视角的自监督推荐方法, 分别从偏好视角、用户视角、物品视角考虑, 进而使用多视图共同训练的自监督学习方法, 结合用户之间的社交关系、物品之间的类别关系、用户-物品之间的历史交互信息, 充分挖掘自监督信号. 在3个真实的公开数据集上进行实验, 实验结果验证了基于多视角的自监督学习方法在改进推荐性能方面是有效的.
2026, 37(2):700-715. DOI: 10.13328/j.cnki.jos.007439 CSTR: 32375.14.jos.007439
摘要:研究目标是从未标记的图数据中学习健壮的图表示. 开发了一种结构关系建模 (structural relation modeling, SRM)框架, 用于自监督图表示学习, 缓解了由未标记数据和图拓扑不平衡引起的固有限制. 首先, 与大多数现有方法专注于局部结构或节点嵌入不同, 通过在统一框架内对节点、子图和整个图之间的复杂关系(即局部-全局关系和节点相关性)进行建模来捕捉图结构. 这有助于更好地理解图的拓扑结构, 并利用结构自监督信号. 其次, 引入了一种基于分区的子图采样机制, 通过小批量训练缓解了由图拓扑不平衡引起的过度聚合和拓扑衰减. 该机制确保更均匀的信息传播. 第三, 施加了一种节点正则化策略, 以提高训练的稳定性和效率, 产生更精确的结构表示. 对12个公共数据集进行的节点和图分类的广泛实验证明了所提方法的有效性和普适性.
2026, 37(2):716-731. DOI: 10.13328/j.cnki.jos.007440 CSTR: 32375.14.jos.007440
摘要:近年来, 由于异质图卷积网络能够有效学习异质网络语义信息, 逐渐成为网络节点分类的主流算法, 但仍面临诸多挑战: 现有的大多数工作主要集中在普通异质网络上, 即假设两个节点之间只有一种类型的边, 忽略了多层异质网络中多类型节点间的多重关系, 以及没有显式地探索不同关系对各类节点表征的影响. 此外, 图神经网络的过平滑问题也限制了现有模型仅能捕获低阶的局部信息, 几乎无法学习网络的全局相关信息. 为了应对这些挑战, 提出了一种面向节点分类的多层异质图神经网络(multiplex heterogeneous graph neural network, MHGNN). 具体来说, MHGNN首先学习各类节点在不同关系下的局部初始表征, 再显式地探索不同关系下的表征的重要性以及有效融合不同关系下各类型节点的表征, 从而捕获多层异质网络中不同交互关系的差异性. 其次, 基于微观经济学中的替代品和互补品概念, 构造了考虑全局相似性特征的替代品和互补品矩阵, 并通过图神经网络进行信息聚合, 以更好地捕获不同关系下各类节点之间的高阶全局语义信息. 最后, 通过对比学习协调局部和全局两个视图中学习到的差异性和相似性表征并融合获得最终节点表征. 在6个真实数据集上的广泛实验评估证明所提的MHGNN在节点分类任务上的各项评估指标都显著优于最新模型.
2026, 37(2):732-748. DOI: 10.13328/j.cnki.jos.007445 CSTR: 32375.14.jos.007445
摘要:随着数据隐私问题越来越受重视, 能有效保护数据隐私的安全多方计算 (secure multi-party computation, MPC) 吸引了众多研究者的目光. 然而安全多方计算协议的通信和内存要求限制了它在隐私保护机器学习 (privacy-preserving machine learning, PPML) 中的性能. 减少安全计算协议的交互轮数和内存开销十分重要但也极具挑战性, 尤其是在使用 GPU 硬件加速的情况下. 重点关注线性和非线性计算的 GPU友好协议的设计和实现. 首先, 为避免整数计算的额外开销, 基于 PyTorch 的 CUDA 扩展实现了 64 位整数的矩阵乘法和卷积运算. 然后, 提出一种基于 0-1 编码方法的低通信轮数的最高符号位 (most significant bit, MSB) 获取协议, 并针对性地提出低通信复杂度的混合相乘协议, 简化了安全比较计算的通信开销, 可实现快速的 ReLU 激活层计算. 最后提出Antelope, 一个基于 GPU 的快速三方隐私保护机器学习框架, 进一步缩短了与明文框架之间的性能差距, 且支持深层网络的完整训练. 实验结果表明, 与 CPU 上广泛使用的经典架构 FALCON (PoPETs 2020) 相比, 训练和推理性能是 FALCON 的29–101 倍和 1.6–35 倍. 与基于 GPU 的工作相比, 在训练方面是 CryptGPU (S&P 2021) 的 2.5–3倍, 是 Piranha (USENIX Security 2022) 的 1.2–1.6 倍. 在推理方面, 是 CryptGPU 的 11 倍, 是 Piranha 的2.8 倍. 特别地, 所提安全比较协议在输入数据量较小时具有很大优势.
2026, 37(2):749-761. DOI: 10.13328/j.cnki.jos.007447 CSTR: 32375.14.jos.007447
摘要:类属特征是一种解决多标记分类问题的有效策略. 通过为不同标记的判别过程提供不同的定制特征, 类属特征能够同时兼顾各个标记潜在不同的判别偏好, 进而改善多标记分类模型的泛化性能. 为学习类属特征, 已有方法通常关注于利用特征处理技术对样本中标记判别的相关特征进行提取. 不同于上述常规做法, 尝试从特征不变性的视角解决类属特征的学习问题: 通过操纵标记判别的无关特征, 为分类模型注入关于无关特征的不变性, 从而充分地兼顾各个标记的判别偏好. 相应地, 提出一种基于不变性注入的多标记类属特征学习方法INVA. INVA方法通过估计特征协方差矩阵捕获各个标记的类内特征变化, 从而辨识标记判别的无关特征; 通过求解扰动风险最小化问题, 赋予分类模型关于无关特征变化的不变性. 进一步地, 推导扰动风险最小化问题的上界, 提高了方法的计算效率. 在多标记基准数据集上, 与已有方法进行全面的实验对比, 验证所提方法的有效性.
2026, 37(2):762-783. DOI: 10.13328/j.cnki.jos.007463 CSTR: 32375.14.jos.007463
摘要:完全非自回归翻译(fully non-autoregressive translation, Fully NAT)的主要挑战在于, 如何在保持解码速度优势的同时, 达到与自回归翻译(autoregressive translation, AT)相当的翻译质量. 这是因为并行解码的特性使得Fully NAT方法难以捕捉目标端的依赖信息, 从而导致翻译质量下降. 因此, 利用源端的依赖信息来增强模型能力显得十分自然, 尤其是在句法信息已被证明能够有效提升AT方法效果的背景下. 尽管近年来这一领域取得了显著进展, 但关于在Fully NAT中应用句法信息的研究仍然有限. 通过在5个翻译基准(如workshop on machine translation, WMT)上的实验发现, 依存语法信息对Fully NAT方法非常有帮助, 可以显著提升翻译表现, 同时解码速度的损失成本也在可接受范围内. 代码开源地址https://github.com/tianxiexiaozhu77/syngec.
2026, 37(2):784-798. DOI: 10.13328/j.cnki.jos.007465 CSTR: 32375.14.jos.007465
摘要:随着商家评论网站的快速发展, 网站上的内容越来越多, 用户难以在短时间内获取到有价值的评论. 引入了一项名为“多模态定制化评论生成”的新任务. 该任务旨在为特定用户生成他们尚未评价的产品的定制化评论, 这有助于用户对特定产品提供宝贵的意见. 为了实现这一目标, 探索了一种基于预训练语言模型的多模态评论生成框架. 具体而言, 采用了一种多模态预训练语言模型. 该模型接受产品图片和用户偏好作为输入. 之后对视觉和文本特征进行融合, 从而生成定制化评论. 实验结果表明, 该模型在生成高质量的定制化评论方面具有显著效果.
2026, 37(2):799-816. DOI: 10.13328/j.cnki.jos.007481 CSTR: 32375.14.jos.007481
摘要:时间序列异常检测技术在许多实际应用中发挥着重要作用. 例如, 云原生数据库系统通过监测关键指标 (如CPU和内存使用情况) 实现系统故障的及时识别. 尽管近年来已经提出了许多先进的时间序列异常检测算法, 但研究表明, 在异常检测准确率方面, 不同算法擅于应对不同的应用场景, 没有通用的最佳方法. 因此, 为了实现更高的异常检测准确率, 研究如何基于不同场景的数据特征自动选择最佳时间序列异常检测算法的问题尤为重要. 现有方法通常基于时间序列分类 (TSC) 技术来解决这一问题. 实现方法是利用历史任务积累的数据, 以时间序列为输入、对应的最准确异常检测算法为输出训练分类器, 从而预测未知时间序列的最佳异常检测算法. 尽管这类基于TSC的解决方案能有效提高异常检测准确率, 但现有的标准TSC算法未能充分利用来自异常检测历史任务的知识. 为弥补这一缺陷, 提出一个知识增强的时间序列异常检测框架. 在训练TSC模型时, 不仅使用现有方法普遍采用的、代表每个历史时间序列最佳检测算法的硬标签, 还利用历史数据上所有候选算法的准确率来估计输入时间序列的类别分布, 将其作为软标签来为算法选择器 (即TSC模型) 提供更多关于异常检测算法之间相互关系的知识. 与此同时, 设计了一个外部知识融合模块, 可以灵活地将各类外部知识 (例如时间序列的应用领域及数据与异常特点的描述) 融入TSC模型中. 所提方法能够作为插件无缝集成到任意架构的TSC模型中, 提高其在异常检测算法选择方面的性能. 在多种类型的时间序列数据集上进行大量实验, 验证所提方法的有效性.
2026, 37(2):817-859. DOI: 10.13328/j.cnki.jos.007506 CSTR: 32375.14.jos.007506
摘要:随着大数据时代的到来, 海量数据应用呈现出规模性(volume)、多样性(variety)、高速性(velocity)和价值性(value)的典型特征. 这种数据范式对传统数据采集方法、管理策略及数据库处理能力提出了革命性挑战. 近年来, 人工智能技术的突破性发展, 特别是机器学习和深度学习在表征学习能力、计算效率提升及模型可解释性方面的显著进步, 为应对这些挑战提供了创新性解决方案. 在此背景下, 人工智能与数据库系统的深度融合催生了新一代智能数据库管理系统. 这类系统通过AI技术深度赋能实现了交互层、管理层、内核层这3大核心创新: 面向终端用户的自然语言交互; 支持自动化运维的数据库管理框架(如参数调优、索引推荐、数据库诊断和负载管理等); 基于机器学习的高效可扩展内核组件(如学习索引、智能分区、智能查询优化、智能查询调度等). 此外, 新兴的智能组件开发接口(API)进一步降低了AI与数据库系统的集成门槛. 系统性地探讨智能数据库的关键问题, 以“标准化”为核心视角, 提炼出各研究主题(交互范式、管理架构和内核设计)内在的通用处理范式和特征. 通过深入分析这些标准化的流程、组件接口与协作机制, 揭示驱动智能数据库自优化的核心逻辑, 综述当前研究进展, 并深入分析该领域面临的技术挑战与未来发展方向.
2026, 37(2):860-874. DOI: 10.13328/j.cnki.jos.007423 CSTR: 32375.14.jos.007423
摘要:随着信息技术发展, 信息网络、人类社会与物理空间交互加深, 信息空间风险外溢现象严峻. 欺诈事件激增, 欺诈检测成为重要研究领域. 欺诈行为给社会带来了诸多负面影响, 且逐渐呈现出智能化、产业化及高度隐蔽性等新兴特征, 传统的专家规则与深度图神经网络算法在应对上显得愈发局限. 当前反欺诈算法多从节点自身与邻居节点的局部信息出发, 或聚焦于用户个体, 或分析节点与网络拓扑关系, 或利用图嵌入技术学习节点表示, 这些视角虽然能具备一定的欺诈检测能力, 但是忽略了实体长程关联模式的关键作用, 缺乏对于海量欺诈链路之间共性模式的挖掘, 限制了全面的欺诈检测能力. 针对以上欺诈检测算法的局限性, 提出一种基于链路聚合的图欺诈检测模型PA-GNN (path aggregation graph neural network), 包含不定长链路采样, 位置关联的统一链路编码, 链路信息交互聚合, 以及聚合关联的欺诈检测. 从节点出发的若干链路之间通过全局模式交互与相似度比对, 挖掘欺诈链路之间的共性规律, 从而更全面地揭示欺诈行为之间的关联模式, 并通过链路聚合继而实现欺诈检测. 在金融交易、社交网络和评论网络这3类欺诈场景下的多个数据集上的实验结果表明, 所提方法的曲线下面积(AUC)和平均精度(AP)指标相较于最优基准模型均有显著提升. 此外, 该方法为欺诈检测任务挖掘了潜在的共性欺诈链路模式, 驱动节点学习这些重要的模式并获得更具表现力的表示, 具备一定的可解释性.
2026, 37(2):875-893. DOI: 10.13328/j.cnki.jos.007426 CSTR: 32375.14.jos.007426
摘要:随着物联网的快速发展, 越来越多智能终端设备采集大量患者的医疗数据进行辅助医疗, 具有十分重要的医疗研究价值. 然而, 这些医疗数据通常涉及患者的敏感信息, 且医疗数据在聚合和传输过程中可能面临数据篡改和未经授权访问等安全问题. 为了解决上述安全与隐私问题, 同时支持医疗数据的细粒度的聚合统计分析, 提出了基于TEE (trusted execution environment) 安全高效细粒度统计分析与可验证数据聚合方案. 该方案对m与m2 双消息类型BGN同态加密算法进行了改进, 并结合了数字签名等技术, 确保了医疗数据的机密性和完整性. 采用了一种可验证的聚合签名算法, 实现了医疗密文数据的批量验证, 降低了认证成本. 通过将医疗密文数据复杂的统计分析过程转换成为TEE内的统计分析过程, 提高了医疗数据的统计分析的效率, 同时也降低了计算代价. 采用边缘服务器对研究中心进行授权访问的机制, 实现了医疗数据的细粒度统计分析. 在性能分析方面, 该方案在统计分析侧和数据拥有者侧的计算开销方面具有明显优势.
2026, 37(2):894-914. DOI: 10.13328/j.cnki.jos.007455 CSTR: 32375.14.jos.007455
摘要:近年来, 密码芯片迅速发展, 与此同时也面临着非入侵式攻击的严重威胁. 目前已有国内外标准给出了非入侵式攻击检测流程与方法, 但这些标准均针对公开算法制定, 对于私有算法并不适用, 私有算法密码芯片存在着很大的安全隐患. 针对这一问题, 提出面向私有算法密码芯片的非入侵式攻击检测框架, 该框架包含计时分析测试、简单能量/电磁分析测试、差分能量/电磁分析测试3大部分. 对于计时分析测试, 采用基于平均去噪的计时分析方法, 提高所采集时间的可用性. 针对简单能量/电磁分析, 提出面向私有密码算法的视觉观察法和交叉关联分析方法. 针对差分能量/电磁分析, 通过TVLA-1和TVLA-2双重检测方法有效检测私有算法密码芯片不同来源的泄露, 评估私有算法密码芯片的抗差分能量/电磁攻击能力. 该框架是对传统非入侵式攻击检测的有效补充, 极大提高了非入侵式攻击检测的检测范围. 为了验证该框架的有效性, 在多款密码芯片上开展黑盒实验, 实验结果表明该框架能够有效检测私有算法密码芯片的抗非入侵式攻击安全性.
2026, 37(2):915-933. DOI: 10.13328/j.cnki.jos.007461 CSTR: 32375.14.jos.007461
摘要:提出一种云存储协助下以用户为中心的数据安全流转方案CADC (user-centric secure cloud-assisted cross-application data circulation scheme), 实现多App环境下移动用户的便捷身份认证与海量数据的按需可信流转, 支撑移动互联网环境下的数据价值充分释放. 形式化的安全性分析表明, CADC能够抵御半诚实的云服务提供商与App服务提供商. 仿真实验结果表明, CADC在用户端与App端具有较高的效率.
2026, 37(2):934-952. DOI: 10.13328/j.cnki.jos.007490 CSTR: 32375.14.jos.007490
摘要:5G车联网通过将5G技术应用于车联网来实现高速的信息传输. 然而, 随着车辆数量的急剧增长, 采用传统单一第三方生成密钥容易引发单点故障问题, 同时无线通信会面临消息被拦截、篡改以及大量不可信的虚假消息干扰网络等风险. 为应对这些问题, 提出一种基于区块链的半分布式消息认证加密方案. 首先, 设计基于联盟区块链的半分布式密钥生成与分布式信息共享框架, 通过5G基站提供全覆盖的网络, 并由各区域的车辆管理中心充当联盟链的全节点来维护区块链的正常运行, 而车辆作为轻节点加入区块链, 仅可查看区块链上存储的信息. 其次, 设计了无双线性运算的无证书签名算法, 确保消息来源可认证, 并使用反向哈希链生成信誉票证来加解密消息, 保证消息的机密性. 然后, 针对不可信的虚假消息问题, 为车辆设置信誉值, 传播虚假消息将导致其信誉值下降, 以此约束车辆行为, 进而从源头减少虚假消息数量. 最后, 安全性分析与实验结果表明, 所提方案能够保障通信安全, 并通过实现半分布式密钥获取有效缓解单点故障风险, 同时防止篡改、重放和假冒等攻击. 此外, 该方案的计算和通信开销较低, 满足车联网的时效性需求, 且执行信誉值更新合约的 Gas 成本较低, 进一步说明所提方案具备良好的实用性和可行性.
2026, 37(2):953-968. DOI: 10.13328/j.cnki.jos.007443 CSTR: 32375.14.jos.007443
摘要:当前, 显著性目标检测技术正在迅速发展, 但仍然存在一些问题亟待解决. 大多数现有的显著性目标检测方法在处理高分辨率图像任务时, 存在计算资源需求过高或者检测质量较差等问题. 其次, 许多现有算法采用的传统卷积操作缺乏针对性, 无法有效增强边缘细节特征, 导致边缘分割模糊不清. 为了在降低算力消耗的同时提高物体边缘分割质量, 并提升小尺度目标的检测性能, 提出了基于边缘增强的宽解码器显著性目标检测方法. 采用残差网络和Swin Transformer组合结构作为特征编码器, 以降低算力消耗. 并且将传统卷积替换为差分卷积模块, 通过多种不同类型的差分卷积并行使用, 从图像中提取了更加丰富的边缘信息. 设计了多尺度注意力模块, 对4层不同尺度特征进行注意力计算, 以更好地关注不同大小的目标. 此外, 采用含有大卷积核的多级宽解码器, 对融合特征进行长距离的上下文建模, 减少冗余信息, 进一步提升了网络的检测性能.

