2025年第36卷第7期文章目次

2025, 36(7):2927-2928. DOI: 10.13328/j.cnki.jos.007342 CSTR: 32375.14.jos.007342

摘要 (644) HTML (706) PDF 6.74 K (1175) 评论 (0) 收藏

摘要:符号音乐理解(Symbolic Music Understanding, SMU)是多媒体内容理解的重要任务之一,旨在从符号化音乐表示中提取旋律、力度、作曲家风格、情感与流派等多维音乐属性.现有方法在音乐序列依赖建模方面取得了显著进展,但是仍然存在两方面关键问题:(1)表示单一化:将复杂的音乐结构简化为线性符号序列,忽略了音乐固有的多维层级信息;(2)乐理知识缺乏:基于序列数据驱动的模型难以融入系统化乐理知识,限制了对音乐深层语义的理解.针对上述问题,本文提出了一种融合音乐知识结构化表征的高精度符号音乐理解模型CNN-Midiformer.该模型首先基于音乐理论构建音乐知识和音乐序列的结构化表征;其次,设计互补音乐特征提取模块,利用卷积神经网络(Convolutional Neural Networks, CNN)提取音乐知识结构化表征的深层局部特征,并通过Transformer编码器的自注意力机制捕获音乐序列的深层语义特征;最后,设计音乐知识自适应增强的特征融合模块,利用高效的交叉注意力机制将CNN提取的深层音乐知识特征与Transformer编码器的深层语义特征进行动态融合,实现对序列语境的感知与特征增强.在6个公开符号音乐理解数据集Pop1K7、ASAP、POP909、Pianist8、EMOPIA和ADL上的对比实验表明,本文提出的模型CNN-Midiformer在旋律识别、力度预测、作曲家分类、情感分类和流派分类5个符号音乐理解的基准下游任务上均优于最新方法,相较于基线模型精度平均提高0.21%～7.14%.

eDPRF: 高效的差分隐私随机森林训练算法

王树兰，邱瑶，赵陈斌，邹家须，王彩芬

2025, 36(7):2929-2946. DOI: 10.13328/j.cnki.jos.007332 CSTR: 32375.14.jos.007332

摘要 (859) HTML (724) PDF 6.75 K (1707) 评论 (0) 收藏

摘要:差分隐私凭借其强大的隐私保护能力被应用在随机森林算法解决其中的隐私泄露问题, 然而, 直接将差分隐私应用在随机森林算法会使模型的分类准确率严重下降. 为了平衡隐私保护和模型准确性之间的矛盾, 提出了一种高效的差分隐私随机森林训练算法eDPRF (efficient differential privacy random forest). 具体而言, 该算法设计了决策树构建方法, 通过引入重排翻转机制高效地查询输出优势, 进一步设计相应的效用函数实现分裂特征以及标签的精准输出, 有效改善树模型在扰动情况下对于数据信息的学习能力. 同时基于组合定理设计了隐私预算分配的策略, 通过不放回抽样获得训练子集以及差异化调整内部预算的方式提高树节点的查询预算. 最后, 通过理论分析以及实验评估, 表明算法在给定相同隐私预算的情况下, 模型的分类准确度优于同类算法.

语义可感知的灰盒编译器模糊测试

欧先飞，蒋炎岩，许畅

2025, 36(7):2947-2963. DOI: 10.13328/j.cnki.jos.007333 CSTR: 32375.14.jos.007333

摘要 (1118) HTML (743) PDF 6.72 K (1391) 评论 (0) 收藏

摘要:模糊测试技术在软件质量保障、软件安全测试等领域起到重要作用. 然而, 在面对编译器这样输入语义复杂的系统时, 现有的模糊测试工具由于其变异策略中缺乏对语义的感知能力, 导致生成的程序难以通过编译器前端检查. 提出了一种语义可感知的灰盒模糊测试方法, 旨在提高模糊测试工具在编译器测试领域的效能. 设计并实现了一系列可保持输入语义合法性并探索上下文多样性的变异操作符, 并针对这些操作符的特点开发了高效的选择策略. 将这些策略与传统的灰盒模糊测试工具相结合, 实现了灰盒模糊测试工具SemaAFL. 实验结果表明, 通过应用这些变异操作符, SemaAFL在GCC和Clang编译器上的代码覆盖率相比AFL++和同类工具GrayC提高了约14.5%和11.2%. 在为期一周的实验期间, SemaAFL发现并报告了6个以前未被发现的GCC和Clang缺陷.

分布式系统动态测试技术研究综述

陈元亮，马福辰，周远航，颜臻，姜宇，孙家广

2025, 36(7):2964-3002. DOI: 10.13328/j.cnki.jos.007334 CSTR: 32375.14.jos.007334

摘要 (1334) HTML (1651) PDF 6.75 K (1620) 评论 (0) 收藏

摘要:分布式系统是当今计算生态系统的支柱, 它使得现代计算更加强大、可靠和灵活, 覆盖了从云计算、大数据处理到物联网等多个关键领域. 然而, 由于系统的复杂性, 分布式系统在代码实现过程中总是不可避免地引入一些代码缺陷, 从而对系统的可用性、鲁棒性以及安全性造成巨大威胁. 因此, 分布式系统的测试以及缺陷挖掘工作十分重要. 动态测试技术在系统运行中进行实时分析, 以挖掘其缺陷, 评估其行为和功能, 被广泛用于各种系统应用的缺陷检测中, 并成功发现了许多代码缺陷. 首先提出了分布式系统4层缺陷威胁模型, 并基于它分析了分布式系统测试需求与主要挑战, 提出了对分布式系统进行动态测试的一般框架. 从挖掘不同类型系统缺陷的角度介绍了典型的分布式系统动态测试工具. 总结了包括不同维度测试输入生成、系统关键状态感知、缺陷判定准则构建在内的分布式动态测试的关键技术. 对当前主流分布式系统动态测试工具的覆盖率和缺陷发现能力进行了评估, 从初步实验结果中可以看出多维度测试输入技术能有效提高分布式系统测试效率. 最后, 讨论了分布式系统动态测试的新趋势以及可能的未来发展方向.

面向函数内联场景的二进制到源代码函数相似性检测方法

贾昂，范铭，徐茜，晋武侠，王海军，刘烃

2025, 36(7):3003-3021. DOI: 10.13328/j.cnki.jos.007335 CSTR: 32375.14.jos.007335

摘要 (684) HTML (753) PDF 6.75 K (2415) 评论 (0) 收藏

摘要:二进制到源代码函数相似性检测是软件组成成分分析的基础性工作之一. 现有方法主要采用一对一的匹配策略, 即使用单一的二进制函数和单一的源代码函数进行比对. 然而, 由于函数内联的存在, 函数之间的映射关系实际上表现为一对多——单一的二进制函数能够关联至多个源代码函数. 这一差异导致现有方法在函数内联场景下遭受了30%的性能损失. 针对函数内联场景下的二进制到源代码函数匹配需求, 提出了一种面向一对多匹配的二进制到源代码函数相似性检测方法, 旨在生成源代码函数集合作为内联二进制函数的匹配对象, 以弥补源代码函数库的缺失. 通过一系列实验评估了方法的有效性. 实验数据表明, 方法不仅能够提升现有二进制到源代码函数相似性检测的能力, 而且还能够找到内联的源代码函数, 帮助现有工具更好地应对内联挑战.

深度学习编译器缺陷实证研究: 现状与演化分析

沈庆超，田家硕，陈俊洁，陈翔，陈庆燕，王赞

2025, 36(7):3022-3040. DOI: 10.13328/j.cnki.jos.007336 CSTR: 32375.14.jos.007336

摘要 (685) HTML (798) PDF 6.73 K (1386) 评论 (0) 收藏

摘要:深度学习编译器已被广泛应用于深度学习模型的性能优化和部署. 与传统编译器类似, 深度学习编译器也存在缺陷. 存在缺陷的深度学习编译器会导致编译失败或者产生错误的编译结果, 甚至有时会带来灾难性的后果. 为了深入理解深度学习编译器缺陷的特性, 已有工作针对深度学习编译器早期的603个缺陷进行研究分析. 近年来, 深度学习编译器在快速迭代更新, 伴随着大量新特性的引入和旧特性的弃用. 与此同时, 一些针对深度学习编译器缺陷的检测工具已被开发出来. 因此, 需要分析之前对深度学习编译器缺陷的研究结论是否依然适用. 此外, 缺乏对缺陷症状、根因、位置三者之间关系的深入挖掘, 并且缺乏对触发缺陷的回归测试用例特征和修复缺陷的补丁特征的研究. 为了深入分析当下深度学习编译器缺陷特征和缺陷分布随时间的演化过程, 收集当前3款主流深度学习编译器(即Apache的TVM、Facebook的Glow和华为的AKG)中的613个近期修复的缺陷, 并对缺陷的根因、症状、位置等特征进行人工标注. 基于标注结果, 从多个不同角度深入挖掘缺陷的分布特征,并与已有研究进行对比分析. 同时, 对触发缺陷的回归测试用例和修复缺陷的补丁进行研究. 最终获得12个主要研究发现, 以全面了解深度学习编译器缺陷现状与演变过程, 并为深度学习编译器缺陷的检测、定位、修复提供一系列可行的指导方案. 最后, 为了验证这些研究发现的有效性, 开发了一款基于优化配置的测试工具CfgFuzz. CfgFuzz通过对编译配置选项进行组合测试, 最终检测到8个TVM缺陷, 其中7个缺陷已被开发人员确认或修复.

Java依赖异味的实证研究与统一检测技术

孙伟杰，许畅，王莹

2025, 36(7):3041-3086. DOI: 10.13328/j.cnki.jos.007338 CSTR: 32375.14.jos.007338

摘要 (632) HTML (1029) PDF 6.74 K (1371) 评论 (0) 收藏

摘要:Java语言因丰富的依赖库和便捷的构建工具(如Maven和Gradle)已成为当今最流行的应用项目开发语言之一. 然而, 随着依赖库规模的持续增大, Java项目的依赖管理变得愈益复杂, 也不断超越现有工具的管理能力, 其潜藏问题容易在未预期情况下触发, 严重影响当前项目及所在Java生态中其他项目的构建和运行, 如造成构建错误、运行崩溃或语义冲突等后果. 针对现有调研和技术工作对Java语言依赖管理问题分析不足的缺陷, 提出依赖异味(dependency smell)的概念, 统一建模此类问题, 并对涉及Maven和Gradle构建工具所有类别的依赖管理问题开展大规模实证研究, 分析来自开源社区(如GitHub)、官方文档(如Maven依赖管理手册)和系列调研及技术论文的各类依赖管理问题, 最终总结出13类依赖异味及其触发根源和影响特征等. 基于该实证研究发现, 设计了面向Java项目依赖异味的统一检测算法, 并实现了适配于Maven和Gradle构建工具的专项检测工具JDepAna. 实验结果表明, 对已知依赖异味, JDepAna达到95.9%的检测召回率, 对新的上百个Java项目, JDepAna检测出30689个依赖异味实例, 从中选出360个实例, 人工验证真阳率达到96.1%, 其中, 进一步汇报48个实例给开发者, 42个已被快速确认, 21个已被及时修复, 充分验证了所提出的Java依赖异味检测算法和工具的效果和实用性以及对Java项目质量保障的有效支撑.

结合特征生成与重放的可扩展安全虹膜识别

赵冬冬，宋宝刚，廖虎成，闫江，向剑文

2025, 36(7):3087-3108. DOI: 10.13328/j.cnki.jos.007339 CSTR: 32375.14.jos.007339

摘要 (500) HTML (851) PDF 6.77 K (1249) 评论 (0) 收藏

摘要:随着信息技术的快速发展, 安全认证技术成为个人隐私和数据安全的重要保障. 其中, 虹膜识别技术凭借其出色的准确性和稳定性, 被广泛应用于系统访问控制、医疗保健以及司法实践等领域. 然而用户的虹膜特征数据泄露, 就是永久性丢失, 无法进行更改或者撤销. 因此, 虹膜特征数据的隐私保护尤为重要. 随着神经网络技术在图像处理上体现的突出性能, 基于神经网络的安全虹膜识别方案被提出, 在保护隐私数据的同时保持了识别系统的高性能. 然而, 面对不断变化的数据和环境, 安全虹膜识别方案需要具备有效的可扩展性, 即识别方案应当能够在新的用户注册下依旧保持性能. 但大多数现有基于神经网络的安全虹膜识别方案研究并未考虑方案的可扩展性. 针对上述问题, 提出了基于生成特征重放的安全增量虹膜识别(generative feature replay-based secure incremental iris recognition, GFR-SIR)方法和基于隐私保护模板重放的安全增量虹膜识别(privacy-preserving template replay-based secure incremental iris recognition, PTR-SIR)方法. 具体而言, GFR-SIR方法通过生成特征重放和特征蒸馏技术, 缓解神经网络扩展过程中对以往任务知识的遗忘, 并采用改进的TNCB方法来保护虹膜特征数据的隐私. PTR-SIR方法保存了以往任务中通过TNCB方法转换得到的隐私保护模板, 并在当前任务的模型训练中重放这些模板, 以实现识别方案的可扩展性. 实验结果表明, 在完成5轮扩展任务后, GFR-SIR和PTR-SIR在CASIA-Iris-Lamp数据集上的识别准确率分别达到了68.32%和98.49%, 比微调方法分别提升了58.49%和88.66%. 分析表明, GFR-SIR方法由于未保存以往任务的数据, 在安全性和模型训练效率方面具有明显优势; PTR-SIR方法则在维持识别性能方面更为出色, 但其安全性和效率低于GFR-SIR.

面向智能体路径规划算法的动态随机测试方法

张逍怡，李幸，刘洋，郑征，孙昌爱

2025, 36(7):3109-3133. DOI: 10.13328/j.cnki.jos.007340 CSTR: 32375.14.jos.007340

摘要 (774) HTML (1133) PDF 6.74 K (1320) 评论 (0) 收藏

摘要:智能体路径规划算法旨在规划某个智能体的行为轨迹, 使其在不碰到障碍物的情况下安全且高效地从起始点到达目标点. 目前智能体路径规划算法已经被广泛应用到各种重要的物理信息系统中, 因此在实际投入使用前对算法进行测试, 以评估其性能是否满足需求就非常重要. 然而, 作为路径规划算法的输入, 任务空间中威胁障碍物的分布形式复杂且多样. 此外, 路径规划算法在为每个测试用例规划路径时, 通常需要较高的运行代价. 为了提升路径规划算法的测试效率, 将动态随机测试思想引入到路径规划算法中, 提出了面向智能体路径规划算法的动态随机测试方法(dynamic random testing approach for intelligent agent path planning algorithms, DRT-PP). 具体来说, DRT-PP 对路径规划任务空间进行离散划分, 并在每个子区域内引入威胁生成概率, 进而构建测试剖面, 该测试剖面可以作为测试策略在测试用例生成过程中使用. 此外, DRT-PP在测试过程中通过动态调整测试剖面, 使其逐渐优化, 从而提升测试效率. 实验结果显示, 与随机测试及自适应随机测试相比, DRT-PP方法能够在保证测试用例多样性的同时, 生成更多能够暴露被测算法性能缺陷的测试用例.

基于函数间结构特征关联的软件漏洞检测方法

邱少健，程嘉濠，黄梦阳，黄琼

2025, 36(7):3134-3150. DOI: 10.13328/j.cnki.jos.007341 CSTR: 32375.14.jos.007341

摘要 (1295) HTML (686) PDF 6.73 K (1274) 评论 (0) 收藏

摘要:漏洞检测是软件系统安全领域的关键技术. 近年来, 深度学习凭借其代码特征提取的卓越能力, 在漏洞检测领域取得了显著进展. 然而, 当前基于深度学习的方法仅关注于代码实例自身的独立结构特征, 而忽视了不同漏洞代码间存在的结构特征相似关联, 限制了漏洞检测技术的性能. 针对这一问题, 提出了一种基于函数间结构特征关联的软件漏洞检测方法(vulnerability detection method based on correlation of structural features between functions, CSFF-VD). 该方法首先将函数解析为代码属性图, 并通过门控图神经网络提取函数内的独立结构特征. 在此基础之上, 利用特征之间的相似性构建函数间的关联网络并构建基于图注意力网络进一步提取函数间关联信息, 以此提升漏洞检测的性能. 实验结果显示, CSFF-VD在3个公开的漏洞检测数据集上超过了当前基于深度学习的漏洞检测方法. 此外, 在函数内各独立特征提取的基础上, 通过增加CSFF-VD中函数间关联特征提取方法的实验, 证明了集成函数间关联信息的有效性.

区块链测试基准综述

张孝，秦春玲，王文收，刘昊，陈晋川，杜小勇

2025, 36(7):3151-3183. DOI: 10.13328/j.cnki.jos.007366 CSTR: 32375.14.jos.007366

摘要 (1431) HTML (2822) PDF 6.71 K (2113) 评论 (0) 收藏

摘要:近年来, 区块链技术已经广泛应用到数据要素流通、金融、物流、政务以及司法等领域. 随之也出现了若干区块链测试基准, 以评测不同区块链系统的性能. 然而, 现有区块链测试基准内容差异较大, 缺少统一的区块链测试基准框架来规范基准的内容, 也缺失统一的指标体系来明确区块链系统在性能和安全性方面应具备的能力. 从数据库发展历程来看, 统一的、可重复的、公平的测试基准规范可以更好地引导行业发展. 区块链本身也是一种特殊的分布式数据库管理系统, 应该借鉴数据库技术在发展过程中积累的宝贵经验. 参考数据库测试基准的内容, 针对区块链系统所特有的去中心化、不可篡改、可信等特点, 提出一个区块链测试基准参考框架UFBCB. 该参考框架定义了区块链测试基准的5个核心要素: 应用模型、数据模型、负载、指标和执行规则, 并阐明5个要素相互之间的关系, 为区块链性能评测提供了一个统一的参考标准. 提出一个全面衡量区块链系统各项关键能力的测试指标体系, 包含性能、能耗、扩展性和安全性这4个方面的指标, 基本覆盖了已有的区块链测试指标. 在此基础上, 将UFBCB框架与现有区块链测试基准进行详尽的对比分析, 指出目前区块链测试基准存在的普遍问题. 最后, 对区块链测试基准未来的发展方向进行了讨论.

面向Apache Flink流式分析应用的高吞吐优化技术

秦政，许利杰，陈伟，王毅，吴铭钞，曾鸿斌，王伟

2025, 36(7):3184-3208. DOI: 10.13328/j.cnki.jos.007235 CSTR: 32375.14.jos.007235

摘要 (528) HTML (728) PDF 6.72 K (1337) 评论 (0) 收藏

摘要:随着大数据时代的到来, 海量的用户数据赋能了众多数据驱动的行业应用, 例如智慧交通、智能电网、商品推荐等. 在数据实时性要求高的应用场景下, 数据中的业务价值随时间增长快速降低, 因此数据分析系统需要具有高吞吐和低延迟能力, 以Apache Flink为代表的流式大数据处理系统得到广泛应用. Flink通过在集群的计算节点上并行化计算任务, 水平扩展系统吞吐率. 然而, 已有研究指出, Flink存在单点性能弱, 集群水平可扩展性差的问题. 为了提高流式大数据处理系统的吞吐率, 研究者在控制平面设计、系统算子实现和垂直可扩展性等方面开展优化, 但现有工作尚缺乏对流式分析应用数据流的关注. 流式分析应用是由事件流驱动并使用有状态处理函数的应用, 例如智能电网场景下的低电压检测应用、商品推荐场景下的广告活动分析应用等. 对典型的流式分析应用的数据流特征进行分析, 总结其中存在的3个水平可扩展性瓶颈并给出相应的优化策略, 包括: 键级水位线, 动态负载分发策略和基于键值的数据交换策略. 基于上述优化技术, 对Flink框架进行扩展并形成原型系统Trilink, 选取真实场景数据集: 低电压检测应用, 桥梁拱顶监测应用和典型流式分析测试基准Yahoo Streaming Benchmark, 与现有工作进行测试比较. 实验结果表明, 相较于Flink, Trilink在单机环境下吞吐率提升了5倍以上, 8节点下水平扩展加速比提高了1.6倍以上.

基于API聚类和调用图优化的安卓恶意软件检测

杨宏宇，汪有为，张良，胡泽，姜来为，成翔

2025, 36(7):3209-3225. DOI: 10.13328/j.cnki.jos.007230 CSTR: 32375.14.jos.007230

摘要 (643) HTML (696) PDF 6.76 K (2595) 评论 (0) 收藏

摘要:安卓操作系统和恶意软件的持续进化导致现有检测方法的性能随时间大幅下降. 提出一种基于API聚类和调用图优化的安卓恶意软件检测方法DroidSA (droid slow aging). 首先, 在恶意软件检测之前进行API聚类, 生成代表API功能的聚类中心. 通过设计API句子概括API的名称、权限等重要特征并使用自然语言处理工具对API句子的语义信息进行挖掘, 获得更全面反映API语义相似性的嵌入向量, 使聚类结果更为准确. 然后, 为了确保提取到更能准确反映软件行为逻辑的API上下文信息, 采用调用图优化方法对从待检测软件中提取的函数调用图进行优化并得到优化后的调用图, 在删除图中难以识别的未知方法的同时保留API节点之间的连接性. 为了提高对安卓框架和恶意软件变化的适应性, DroidSA从优化后的调用图中提取函数调用对, 将调用对中的API抽象为API聚类时获得的聚类中心. 最后, 使用独热编码生成特征向量, 并从随机森林、支持向量机和K近邻算法中选择表现最好的分类器进行恶意软件检测. 实验结果表明, DroidSA的恶意软件检测平均F1值为96.7%; 在消除时间偏差的实验设置下, 经2012–2013年的软件样本集合训练后, DroidSA对2014–2018年的恶意软件样本的检测平均F1值达到82.6%. 与经典检测方法MaMaDroid和MalScan等相比, DroidSA始终能将各项检测指标稳定地维持在高水平且受到时间变化的影响较小, 能有效检测进化后的恶意软件.

BWSS: 结合可疑集合簇计算极小碰集的Boolean算法

赵相福，黄森，魏霞，童向荣，欧阳丹彤，张立明

2025, 36(7):3226-3238. DOI: 10.13328/j.cnki.jos.007227 CSTR: 32375.14.jos.007227

摘要 (514) HTML (538) PDF 6.77 K (2171) 评论 (0) 收藏

摘要:在基于模型的诊断领域中, 因为极小冲突集 (minimal conflict set, MCS) 的极小碰集 (minimal hitting set, MHS) 即为待诊断设备的候选诊断, 所以计算极小碰集是候选诊断的一个关键步骤. 其中, 极小碰集是一个NP-hard约束求解问题, 随着问题规模增大, 求解难度成指数级增长. Boolean算法是计算极小碰集的经典算法, 然在求解过程中, 解集的极小化却占据运算的绝大部分时间. 为了解决该问题并提升计算效率, 提出了结合可疑集合簇计算极小碰集的BWSS (Boolean with suspicious sets) 算法, 通过深度分析Boolean算法生成树规则, 找到使候选解成为超集的集合, 在向根节点扩展元素时, 如果候选解与可疑集合簇中至少1个集合交集为空, 那么该解为极小候选解, 否则删除该解, 通过递归的策略保证算法结束时产生且仅产生所有极小碰集. 除此之外, 每个候选解在极小化时, 至少存在m (m$ \geqslant $1)个元素甚至整个解无须极小化. 理论上, BWSS算法的复杂度要远低于Boolean算法. 通过随机数据及大量基准电路数据, 实验结果表明, 所提算法与目前最先进的几种算法相比, 运行时间减少了几个数量级.

基于特征融合动态图网络的多标签文本分类算法

黄靖，陶竹林，杜晓宇，项欣光

2025, 36(7):3239-3252. DOI: 10.13328/j.cnki.jos.007229 CSTR: 32375.14.jos.007229

摘要 (553) HTML (660) PDF 6.72 K (1514) 评论 (0) 收藏

摘要:多标签文本分类旨在为文本分配若干预定义的标签或类别. 为了充分发掘标签间的关联, 目前的方法通常使用标签关系图并结合图神经网络获取标签特征表示. 然而, 这类方法过度依赖初始建图策略, 忽视了当前文本中固有的标签相关性, 使得分类结果更依赖于数据集统计信息, 而容易忽视当前文本段中的标签相关信息. 因此, 提出一种基于特征融合动态图网络的多标签文本分类算法, 设计动态图来建模当前文本中的标签相关性, 并结合特征融合与图神经网络, 形成基于当前文本的标签表示, 并由此形成更为准确的多标签文本结果. 随后, 设计实验进行验证, 在3个数据集实验结果表明, 所提出的模型在多标签分类任务中取得优秀的性能, 验证其有效性和可行性.

融合扩增技术的无监督域适应方法

曹艺，郭茂祖，吴伟宁

2025, 36(7):3253-3270. DOI: 10.13328/j.cnki.jos.007233 CSTR: 32375.14.jos.007233

摘要 (696) HTML (977) PDF 6.76 K (2150) 评论 (0) 收藏

摘要:域适应(domain adaptation, DA)是一类训练集(源域)和测试集(目标域)数据分布不一致条件下的机器学习任务. 其核心在于如何克服数据域的分布差异对分类器泛化能力的负面影响, 即设计合理而有效的训练策略, 通过最小化数据域之间的差异, 获得高泛化能力的分类模型. 研究了源域中包含标注信息, 目标域中缺少标注信息条件下的无监督域适应(unsupervised domain adaptation, UDA)任务. 将其形式化为如何利用部分标注样本和其余未标注样本进行分类器训练的半监督学习问题, 进而引入伪标签(pseudo label, PL)和一致性正则化(consistent regularization, CR)这两种半监督学习技术, 对所观测数据域有目的进行标记和样本扩增, 使用扩增后的训练样本学习分类器, 从而, 在无监督域适应任务上取得了良好的泛化能力. 提出一种融合扩增技术的无监督域适应(augmentation-based unsupervised domain adaptation, A-UDA)方法, 在分类器的训练过程中: 首先, 使用随机数据增强技术(random augmentation)对目标域中的未标注样本进行扩增, 即样本扩增; 其次, 利用模型的预测输出结果, 对高置信度的未标注样本添加伪标记, 即标注扩增; 最后, 使用扩增后的数据集训练分类模型, 利用最大均值差异(maximum mean difference, MMD)计算源域和目标域的分布距离, 通过最小化该分布距离获得具有高泛化能力的分类器. 在MNIST-USPS, Office-Home和ImageCLEF-DA等多个无监督域适应任务上对所提出方法进行比较, 与现有其他工作相比, 获得了更好的分类效果.

面向深度学习的后门攻击及防御研究综述

高梦楠，陈伟，吴礼发，张伯雷

2025, 36(7):3271-3305. DOI: 10.13328/j.cnki.jos.007364 CSTR: 32375.14.jos.007364

摘要 (1920) HTML (2897) PDF 6.73 K (2745) 评论 (0) 收藏

摘要:深度学习模型是人工智能系统的重要组成部分, 被广泛应用于现实多种关键场景. 现有研究表明, 深度学习的低透明度与弱可解释性使得深度学习模型对扰动敏感. 人工智能系统面临多种安全威胁, 其中针对深度学习的后门攻击是人工智能系统面临的重要威胁. 为了提高深度学习模型的安全性, 全面地介绍计算机视觉、自然语言处理等主流深度学习系统的后门攻击与防御研究进展. 首先根据现实中攻击者能力将后门攻击分为全过程可控后门、模型修改后门和仅数据投毒后门. 然后根据后门构建方式进行子类划分. 接着根据防御策略对象将现有后门防御方法分为基于输入的后门防御与基于模型的后门防御. 最后汇总后门攻击常用数据集与评价指标, 并总结后门攻击与防御领域存在的问题, 在后门攻击的安全应用场景与后门防御的有效性等方面提出建议与展望.

支持高效数据所有权共享的动态云存储审计方案

殷新春，王经纬，宁建廷

2025, 36(7):3306-3320. DOI: 10.13328/j.cnki.jos.007216 CSTR: 32375.14.jos.007216

摘要 (393) HTML (444) PDF 6.74 K (1393) 评论 (0) 收藏

摘要:云存储审计技术的出现为存储在云中的数据提供了可靠的安全保障, 数据拥有者可以轻易地验证存储在云中数据的完整性. 然而, 云服务器中可能存储着海量的数据, 目前的云存储审计方案在进行数据完整性验证以及数据所有权变更时均需花费大量的计算开销. 为了缓解该问题并提高云存储审计方案的实用性, 提出一种支持高效数据所有权共享的动态云存储审计方案. 在计算开销方面, 构造一种高效的验证结构可以聚合数据验证信息, 免去大量计算开销较高的双线性配对运算. 基于变色龙哈希函数易于制造新碰撞的特性设计高效的数据所有权共享机制, 共享数据所有权只需更新对应用户的密钥即可, 无需修改云服务器中存储的密文. 此外, 方案还提供了数据细粒度共享、密态数据验证以及数据动态修改功能. 安全性分析和性能分析表明, 方案可以在保证数据安全的同时不对方案的运行效率产生影响, 具有较高的实用性.

分组密码结构的低数据量子密钥恢复攻击

许垠松，罗宜元，董晓阳，袁征

2025, 36(7):3321-3338. DOI: 10.13328/j.cnki.jos.007218 CSTR: 32375.14.jos.007218

摘要 (1043) HTML (456) PDF 6.74 K (1835) 评论 (0) 收藏

摘要:在Q1量子模型下, 针对Lai-Massey结构、Misty结构、Type-1型广义Feistel结构、类SMS4 广义Feistel结构和类MARS 广义Feistel结构, 提出了低数据量子密钥恢复攻击. 该攻击仅需选择常数项级别规模的明密文, 通过分析分组密码结构的加密过程, 利用Grover算法对某些中间态进行搜索计算, 从而恢复密钥. 且该攻击属于Q1模型, 相比于Q2模型, 无需量子叠加查询, 更具有实际意义. 对于3轮Lai-Massey结构, 相比于其他量子攻击, 该攻击仅需$ \mathrm{O}(1) $数据, 且属于Q1模型, 在复杂度乘积(时间×数据×经典存储×量子比特)评估上降低了$ n{2^{n/4}} $因子. 对于6轮Misty结构, 该方法依然保留着低数据复杂度的优势, 尤其是6轮Misty L/R-FK结构, 在复杂度乘积评估上降低了$ {2^{n/2}} $因子. 对于9轮3分支Type-1型广义Feistel结构, 与其他量子攻击在复杂度乘积评估上保持一致, 该攻击依然保留着低数据复杂度的优势, 且属于选择明文攻击. 此外, 也给出了针对类SMS4 广义Feistel结构和类MARS 广义Feistel结构的低数据量子密钥恢复攻击, 补充了其在Q1模型下的安全性评估.

无锁并发布谷鸟过滤器

王瀚橙，陈志鹏，戴海鹏，顾荣，KIMChaewon，陈贵海

2025, 36(7):3339-3357. DOI: 10.13328/j.cnki.jos.007214 CSTR: 32375.14.jos.007214

摘要 (601) HTML (394) PDF 6.77 K (2621) 评论 (0) 收藏

摘要:布谷鸟过滤器是一种高效的概率型数据结构, 该数据结构可以快速判断某个元素是否存在于给定集合中, 被广泛应用于计算机网络、物联网应用以及数据库系统中. 在实践中, 上述系统通常需要处理海量数据以及大量并发请求. 实现支持高并发的布谷鸟过滤器可以显著提升系统吞吐以及数据处理能力, 对提升系统性能至关重要. 为此, 设计一个支持无锁并发的布谷鸟过滤器. 该过滤器通过所提出的两阶段查询、路径探查与元素迁移分离, 以及基于多机器字比较并交换的原子迁移技术实现高性能的查询、插入和删除操作. 理论分析和实验验证结果均表明, 无锁并发布谷鸟过滤器显著提升现有最先进算法的并发性能. 无锁并发布谷鸟过滤器的查询吞吐量, 平均为使用细粒度锁的布谷鸟过滤器的查询吞吐量的1.94倍.

代价敏感的指纹可变哈希布谷鸟过滤器

李猛，罗文啟，戴海鹏，王瀚橙，顾荣，陈贵海

2025, 36(7):3358-3374. DOI: 10.13328/j.cnki.jos.007221 CSTR: 32375.14.jos.007221

摘要 (530) HTML (899) PDF 6.75 K (2693) 评论 (0) 收藏

摘要:布谷鸟过滤器是一种空间高效的近似成员资格查询数据结构, 在网络系统中被广泛应用于网络路由、网络测量和网络缓存等. 然而, 传统的布谷鸟过滤器设计并未充分考虑在网络系统中, 部分或全部查询集合已知的情况, 以及这部分查询具有代价的情况. 这导致现有的布谷鸟过滤器在该情况下性能无法达到最优. 为此, 设计了指纹可变哈希布谷鸟过滤器(VHCF). VHCF提出了指纹可变哈希技术, 感知已知的查询集合及其代价, 通过为每个哈希桶搜索最优指纹哈希函数, 从而大幅降低误判代价. 随后, 每个哈希桶的最优指纹哈希函数会被独立地记录进入每个哈希桶内的哈希索引单元. 此外, 提出了一种单哈希的技术用于降低引入指纹可变哈希技术导致的额外计算开销, 还对VHCF的操作复杂度和误判率进行了理论分析. 最后, 实验和理论结果都一致表明, VHCF在保证查询吞吐量相当的情况下, 取得了比现有布谷鸟过滤器及其变种都要低的误判率. 特别的, 在保持指纹长度相同的情况下, VHCF只需为每个哈希索引单元分配 1–2比特, 即可相比标准布谷鸟过滤器降低误判率12.5%–50%.

面向HTTP/2流量多路复用特征的加密视频识别方法

吴桦，罗浩，赵士顺，刘嵩涛，程光，胡晓艳

2025, 36(7):3375-3404. DOI: 10.13328/j.cnki.jos.007236 CSTR: 32375.14.jos.007236

摘要 (582) HTML (716) PDF 6.78 K (1641) 评论 (0) 收藏

摘要:视频应用平台的兴起使得视频得以快速传播并渗透社会生活的各个方面. 网络中传播的视频也混杂了一些公害视频, 因此网络空间安全监管迫切需要准确地识别网络中加密传播的公害视频. 已有方法在网络主要接入点采集流量数据, 提取加密视频流量的特征, 基于公害视频库, 通过流量特征的匹配识别出被传输的公害视频. 然而随着视频加密传输协议的更新, 使用新型多路复用技术的HTTP/2协议已经大规模部署应用, 这导致传统的基于HTTP/1.1传输特征的流量分析方法无法识别使用HTTP/2传输的加密视频. 此外, 当前的研究大多针对的是播放时分辨率固定的视频, 很少考虑到流媒体自适应播放时分辨率切换给识别带来的影响. 针对以上问题, 详细分析了视频平台使用HTTP/2协议传输视频时音视频数据长度发生偏移的原理, 并提出了将多路复用的加密数据精准修正还原为组合音视频数据单元长度的方法, 从而构建出精准还原的加密视频修正指纹. 然后, 利用加密视频修正指纹和大型视频明文指纹库, 提出了视频修正指纹滑动匹配机制和以隐马尔可夫模型与维特比算法为基础的加密视频识别模型. 该模型使用动态规划方法解决了视频分辨率自适应切换带来的问题, 其在40万级的Facebook和Instagram真实指纹库场景中, 对固定分辨率和自适应分辨率的加密视频的识别准确率分别达到了98.41%和97.91%. 使用Triller、Twitter和芒果TV这3个视频平台进行了方法通用性和泛化性验证. 与类似工作在识别效果、泛化性和时间开销方面的比较进一步验证了所提出的方法具有较高的应用价值.

基于自适应剪枝的满足本地差分隐私的真值发现算法

张朋飞，朱伊波，程祥，张治坤，刘西蒙，孙笠，方贤进，张吉

2025, 36(7):3405-3428. DOI: 10.13328/j.cnki.jos.007287 CSTR: 32375.14.jos.007287

摘要 (521) HTML (685) PDF 6.69 K (1501) 评论 (0) 收藏

摘要:为了对移动群智感知中工人上传的不同质量的感知数据做必要的聚合处理, 真值发现技术应运而生, 其是为后续应用提供精确数据支持的基础. 为了应对可能的隐私泄露问题, 现有研究往往结合本地差分隐私技术来进行保护, 然而这些研究往往忽略了感知数据中的异常值对本地差分隐私下真值发现精度的影响. 这些异常值往往具有极大的取值范围, 导致注入数据中的噪音量较大. 而且在现实世界中, 工人出于对隐私泄露的担心, 移动群智感知服务器无法在无隐私保护的情况下预先处理数据. 为解决以上问题, 提出基于自适应剪枝的满足本地差分隐私的真值发现算法NATURE. 该算法的核心思想是考虑数据中蕴含的噪音类型来自适应剪枝掉不需要的工人的所有值或者某些任务值. 在NATURE中, 为便于剪枝, 在形式化约束优化问题的基础上, 设计基于优化问题的噪音感知的权重和重要性估计方法; 为进行剪枝, 在证明最优剪枝问题是NP-hard的基础上, 设计具有多项式时间复杂度的效用感知的自适应剪枝方法. 进一步从理论上分析NATURE的隐私、效用和复杂度. 在两个真实数据集和一个合成数据集上的实验结果表明, 相较于对比算法, NATURE在求得噪音“真值”的精度上至少提高20%.

微信小程序

微信服务号

微信订阅号

>专刊文章

>综述文章

>专刊文章

>综述文章

>综述文章

当期目录

年份

刊期