• 2026年第37卷第3期文章目次
    全 选
    显示方式: |
    • >专刊文章
    • 向量数据库及DB4LLM技术专题前言

      2026, 37(3):969-970. DOI: 10.13328/j.cnki.jos.007520

      摘要 (52) HTML (0) PDF 268.44 K (64) 评论 (0) 收藏

      摘要:

    • >综述文章
    • 向量数据库中近似最近邻搜索关键技术综述

      2026, 37(3):971-1005. DOI: 10.13328/j.cnki.jos.007516

      摘要 (614) HTML (0) PDF 1.06 M (513) 评论 (0) 收藏

      摘要:高维向量近似最近邻搜索 (approximate nearest neighbor search, ANNS)是向量数据库的基础和核心之一. 随着人工智能的发展, 向量数据库发挥了日益关键的作用, 获得了广泛的关注, 高效的ANNS方法对向量数据库的性能优化十分关键. 在几十年的发展中, ANNS取得了一系列成果. 近些年随着该领域的快速发展, 涌现出来的新方法和研究成果亟须系统性梳理. 首先介绍了ANNS的基本概念; 其次在已有的综述框架的基础上, 根据向量数据组织方式将当前的内容进一步归纳为基于图、层次、量化、哈希和混合数据组织这5类, 并结合代表性和最新的成果进行介绍; 然后从向量数据搜索优化方法的角度提出面向硬件加速、面向学习增强、面向距离比较操作、面向磁盘内存混合场景、面向数据访问优化、面向分布式场景、面向混合查询和理论分析这8个方面的分类体系对最近的搜索方法进行综述; 最后基于当前的研究成果和趋势, 展望未来的研究方向.

    • >专刊文章
    • 向量数据库的K近邻图高效更新方法

      2026, 37(3):1006-1020. DOI: 10.13328/j.cnki.jos.007517

      摘要 (437) HTML (0) PDF 2.19 M (425) 评论 (0) 收藏

      摘要:在高维数据处理中, K近邻图作为一种关键的数据结构, 广泛应用于聚类、图神经网络和推荐系统等领域. 然而, 随着预训练嵌入模型在非结构化数据建模与检索中的广泛使用, 嵌入模型的微调逐渐成为提升嵌入向量的语义表示能力的核心步骤. 嵌入微调通常会导致全部数据的向量表示发生系统性变化, 从而使原有K近邻图的邻接关系失效. 现有研究主要关注于如何为静态数据构建K近邻图, 缺乏对微调后的嵌入向量进行快速适应的研究. 为此, 提出一种面向嵌入模型微调场景的高效K近邻图更新方法FastAdjust. 该方法基于嵌入模型微调为每条数据嵌入带来的影响较小的观察, 通过局部更新策略对原始K近邻图进行增量调整, 在确保最终K近邻图质量的同时, 显著提升更新效率. 具体而言, 首先, FastAdjust利用基于乘积量化的聚类结构, 为每条数据高效且准确地定位可能成为邻居的数据子集, 缩小候选邻居搜索范围; 其次, 基于数据密度和嵌入变化幅度, FastAdjust结合二者与数据K近邻变化程度的相关性, 为邻居关系变化程度不同的数据针对性地分配不同的更新资源, 从而提升整体更新效率. 真实数据集上的实验结果表明, FastAdjust在嵌入模型微调的场景下能够快速调整K近邻图, 准确地适应数据嵌入的变化, 同时大幅减少计算开销, 具有良好的实用价值和扩展性.

    • GoVector: I/O-高效的高维向量近邻查询缓存策略

      2026, 37(3):1021-1036. DOI: 10.13328/j.cnki.jos.007518

      摘要 (472) HTML (0) PDF 3.00 M (462) 评论 (0) 收藏

      摘要:基于图结构的高维向量索引 (索引图)因其高效的近似最近邻搜索能力, 已成为大规模向量检索的主流方法. 索引图执行近似最近邻搜索 (approximate nearest neighbor search, ANNS)的过程分为两个阶段: 第1阶段从入口点出发快速定位到查询向量附近区域; 第2阶段在查询向量附近搜索离其最近的k个向量. 然而, 由于索引图需存储大量邻接关系, 导致内存开销大, 因此实际部署时通常需将其存储于外存. 当执行近似最近邻搜索时, 按需加载索引图和向量数据会导致频繁发生I/O操作, 并成为检索性能的主要瓶颈 (I/O时间占90%以上). 现有系统利用入口点及其附近邻居被高频访问的特性, 采用静态缓存策略将入口点及其若干跳邻居预先缓存在内存中, 以减少第1阶段的I/O访问. 然而分析发现, 第2阶段为了获取更高精度的检索结果, 需访问大量与查询向量相关的图顶点, 成为I/O开销的主要来源. 由于第2阶段的访问顶点随查询向量动态变化, 现有静态缓存策略难以有效命中, 导致其在此阶段几乎失效. 针对此问题, 设计了一个静态-动态混合缓存策略GoVector, 其核心设计体现在: (1) 静态缓存区预加载入口点及其高频近邻; (2) 动态缓存区自适应地缓存第2阶段中空间局部性高的顶点. 为了进一步适配第2阶段中以向量相似性为导向的搜索过程, 设计了基于向量空间相似性磁盘布局策略, 通过重排顶点存储顺序, 使相似向量在物理存储上聚集于相同或相邻磁盘页, 从而显著提升数据访问的局部性. 这种双重优化机制使得缓存命中率得到显著提升, 有效降低了整体I/O开销. 在多个公开数据集上的实验结果表明, 当召回率为90%时, 相较于当前最先进的基于磁盘的索引图系统, GoVector实现I/O次数平均降低46%、查询吞吐率提升1.73倍、延迟下降42%.

    • GPU加速的高维向量聚类算法

      2026, 37(3):1037-1057. DOI: 10.13328/j.cnki.jos.007512

      摘要 (454) HTML (0) PDF 2.53 M (457) 评论 (0) 收藏

      摘要:聚类是大规模高维向量数据分析的关键技术之一. 近年来, 基于密度的聚类算法DBSCAN (density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性, 在数据分析领域得到了广泛应用. 然而, 现有的基于密度的聚类算法在处理高维向量数据时将产生极高的时间代价且面临维度灾难等问题, 难以在实际场景中部署应用. 此外, 随着信息技术的发展, 高维向量数据规模急剧增加, 使用CPU进行高维向量聚类在时间代价和可扩展性等方面将面临更大的挑战. 为此, 提出一种GPU加速的高维向量聚类算法, 通过引入K近邻 (K-nearest neighbor, KNN) 图索引加速DBSCAN的计算. 首先, 设计了GPU加速的并行K近邻图构建算法, 显著降低了K近邻图索引的构建开销. 其次, 提出了基于层间并行的K-means树分区算法及基于广度优先搜索和核心近邻图的并行聚类算法, 改进了DBSCAN算法的计算流程, 实现了高并发向量聚类. 最后, 在真实向量数据集上进行了大量实验, 并将所提出的方法与现有方法进行了性能对比. 实验结果表明, 所提方法在保证聚类精度的前提下, 将大规模向量聚类的效率提高了5.7–2822.5倍.

    • LSMDiskANN: 更新友好型磁盘向量索引框架

      2026, 37(3):1058-1083. DOI: 10.13328/j.cnki.jos.007513

      摘要 (433) HTML (0) PDF 2.74 M (493) 评论 (0) 收藏

      摘要:在大模型时代, 向量数据库的广泛应用推动了向量索引规模的急剧膨胀. 如何在磁盘级向量索引中高效支持大规模向量的更新操作, 并同时提供高性能的查询服务, 已成为近年来的重要研究课题. 针对当前领先算法 FreshDiskANN 在查询与更新混合负载场景中面临的查询吞吐瓶颈和极端查询延迟过高等问题, 受到日志合并思想在次级索引中的成功应用启发, 提出了一种基于LSM (log-structured merge)思想的更新友好型磁盘向量索引框架LSMDiskANN. 在继承 FreshDiskANN架构的基础上, 设计并实现了包含磁盘中间层的3层架构, 同时引入了磁盘组件搜索参数的动态确定机制以及面向合并操作删除阶段的重布局算法, 从而进一步降低查询延迟和合并过程中的 I/O 开销. 实验结果表明, 在多个经典大规模高维向量数据集上, LSMDiskANN系统查询吞吐量最高提升35.5%, 更新吞吐量最高提升14.24%, 极端查询延迟最多降低73.45%, 所提出框架和策略能够有效提升系统在混合负载场景下的整体性能与稳定性.

    • 面向批量更新的向量索引召回率优化

      2026, 37(3):1084-1103. DOI: 10.13328/j.cnki.jos.007519

      摘要 (385) HTML (0) PDF 1.01 M (393) 评论 (0) 收藏

      摘要:近似最近邻搜索 (approximate nearest neighbor search, ANNS)是支撑向量数据库、推荐系统及大语言模型等上层应用的关键技术. 其中, 分层可导航小世界 (hierarchical navigable small world, HNSW)图索引通过构建层级化结构, 迅速定位结果至目标区域, 从而以较低的计算成本实现较高的检索召回率. 然而, 现有HNSW算法主要面向静态数据检索场景而设计, 而忽略了数据更新对检索性能的影响. 通过对现实数据集的研究发现, 向量数据库中的数据通常以批量方式进行更新, 其相似特性会削弱HNSW算法中启发式剪枝的有效性, 并诱发相似向量连接的稀疏化问题, 共同造成查询召回率的显著下降. 针对上述问题, 提出一种基于图结构局部调整的自适应细粒度剪枝策略, 构建了融合识别与修复机制的优化方案. 首先, 在识别阶段, 通过计算区域邻居距离量化局部拓扑密度, 从而精准定位待干预的致密区域. 其次, 在修复阶段, 针对处于致密区域的枢纽节点, 采用双重剪枝的邻居选择策略: 协同应用原生的与修正的启发式剪枝规则, 合并两种规则的结果集以在保证检索精度的同时提升邻居连接的多样性, 有效缓解过度剪枝与连接稀疏化问题. 在多个公开数据集上的实验结果表明, 所提方法对数据更新频繁的场景具备良好的适应性, 在维持查询延迟和吞吐量稳定的前提下, 实现了1%–4%的召回率提升.

    • 权重残差向量量化: 向量压缩与分层索引结构

      2026, 37(3):1104-1120. DOI: 10.13328/j.cnki.jos.007515

      摘要 (389) HTML (0) PDF 2.12 M (353) 评论 (0) 收藏

      摘要:随着多源异构数据、多模态等在大模型和数据湖等场景的广泛应用, 基于向量的数据检索和存储管理显著增长. 通过将异构数据映射为高维向量表示, 并以向量索引为基础, 向量数据库将多种数据类型统一管理和高质量相似性检索, 成为生成式检索和AI数据库等重要基础. 然而, 现有向量数据库在存储索引效率、索引构建复杂度及检索准确性方面面临显著瓶颈: 一方面, 海量高维向量导致索引存储开销和维护成本增加; 另一方面, 向量索引结构冗长, 内存消耗巨大; 此外, 压缩技术失真引发的检索准确性下降问题仍未有效解决. 提出了一种基于权重残差向量量化 (weight residual vector quantization, WRVQ)的框架. 该方法通过将量化方向与残差长度分离处理, 以单位向量形式存储残差方向并附加权重标记, 实现了低失真率下的高效压缩与存储. 在索引构建方面, 设计了适配WRVQ量化特性的三层倒排索引结构——精确匹配层、模糊匹配层与搜索层, 有机结合非对称距离计算 (asymmetric distance computation, ADC)与近邻搜索技术, 实现了高准确度与高效率兼具的近似最近邻检索. 在大规模数据集上的实验结果表明, 与传统低维嵌入模型及现有量化方法相比, WRVQ在量化损失、存储压缩比和检索召回率等关键指标上均取得了显著提升, 且索引构建与查询性能具有显著优势.

    • 基于大语言模型的空间数据库自然语言查询转换方法

      2026, 37(3):1121-1142. DOI: 10.13328/j.cnki.jos.007514

      摘要 (511) HTML (0) PDF 1.01 M (460) 评论 (0) 收藏

      摘要:Text2SQL技术通过减少非专业用户与关系数据库交互的技术障碍, 已发展为数据分析和数据库管理的重要工具. 以GPT为代表的大语言模型 (large language model, LLM)的引入, 进一步提升了Text2SQL系统的性能. 然而, 由于空间数据涉及复杂的几何关系、多样化的查询类型和对高精度语义理解的需求, 现有的Text2SQL技术难以直接适用于空间数据库领域. 为了解决上述问题, 降低普通用户与空间数据库的交互门槛, 提出了面向空间数据库的自然语言查询 (natural language query, NLQ)转换方法. 该方法有两个核心阶段: (1) 自然语言理解; (2) 可执行语言生成. 在阶段(1)中使用实体信息提取算法提取关键查询实体, 并基于大语言模型构建空间数据查询语料库进而确定查询类型. 在阶段(2)中根据查询类型选择结构化语言模型 (structured language model, SLM), 然后将实体映射到结构化语言模型中, 得到最终的空间数据库可执行语言. 在多组真实数据集上的实验结果表明, 该方法可以实现从用户的自然语言查询到空间数据库可执行语言的高效转换.

    • 基于信息共享的改进双归档高维多目标进化算法

      2026, 37(3):1143-1169. DOI: 10.13328/j.cnki.jos.007496

      摘要 (85) HTML (0) PDF 1.57 M (240) 评论 (0) 收藏

      摘要:高维多目标优化问题(many-objective optimization problems, MaOPs)广泛存在于科学研究和工程应用领域. 受高维目标冲突引起的非支配解集数量呈指数增加影响, 传统的多目标进化算法在求解MaOPs时面临计算复杂度增加、解质量降低等困难. 为此, 提出一种基于信息共享的改进双归档高维多目标进化算法 (improved two-archive high-dimensional multi-objective evolutionary algorithm based on information sharing, Two-Arch/IS), 旨在利用双归档算法计算复杂度低、收敛及多样性独立优化等优势特性, 实现高维多目标优化问题的高效求解. 相较于传统的算法, Two-Arch/IS基于空间划分的子种群互映更新策略实现档案库的维护, 进一步增强种群的多样性表现; 其次, 利用基于角度选择与转移密度估计的存档截断策略移除档案库中冗余解, 在进化过程中保持算法的选择压力; 最后, 在种群进化过程中引入边界解驱动的信息补偿机制, 增强收敛性存档和多样性存档间的信息交流, 实现种群个体间的优势互补. 将Two-Arch/IS与其他代表性的算法一同在69个具有2–20个目标的基准测试与真实世界问题上进行性能对比实验. 实验结果表明, Two-Arch/IS算法在高维多目标优化问题上能够有效克服种群收敛性与多样性的冲突, 并在不同性能评价指标上均表现出明显优势.

    • CoDefense: 面向对抗性攻击的多粒度代码归一化防御方法

      2026, 37(3):1170-1196. DOI: 10.13328/j.cnki.jos.007425

      摘要 (242) HTML (0) PDF 2.37 M (436) 评论 (0) 收藏

      摘要:近年来, 以代码为输入的预训练模型在许多基于代码的关键任务中取得了显著的性能优势, 但这类模型可能易受到通过保留语义的代码转换实现的对抗性攻击, 这种攻击会显著降低模型鲁棒性并可能进一步引发严重的安全问题. 尽管已有对抗性训练方法通过生成对抗性样本作为增强数据来提升模型鲁棒性, 但其有效性和效率在面对不同粒度和策略的未知对抗性攻击时仍显不足. 为了克服这一局限性, 提出一种基于代码归一化的预训练代码模型对抗性防御方法, 命名为CoDefense. 该方法的核心思想是作为代码模型的一个前置数据处理模块, 通过多粒度代码归一化技术, 对训练阶段的原始训练集和推理阶段的代码输入进行归一化预处理, 以避免潜在对抗性样本对代码模型的影响. 这种策略能够高效地防御不同粒度和策略的对抗性攻击. 为验证CoDefense的有效性和效率, 针对3种先进的对抗性攻击方法、3种流行的预训练代码模型以及3个基于代码的分类和生成任务, 共设计了27个实验场景进行全面的实证研究. 实验结果表明, CoDefense相较于最先进的对抗性训练方法, 在防御对抗性攻击方面显著提升了有效性和效率. 具体而言, CoDefense平均成功防御了95.33%的对抗性攻击. 同时, 在时间效率上, CoDefense相对于对抗性训练方法平均提升了85.86%.

    • Go语言程序的内存性能与安全问题实证研究

      2026, 37(3):1197-1224. DOI: 10.13328/j.cnki.jos.007464

      摘要 (57) HTML (0) PDF 1.58 M (102) 评论 (0) 收藏

      摘要:Go语言 (Go programming language, Golang)作为一门新兴编程语言, 利用编译时的逃逸分析与运行时的垃圾回收实现了高效的内存自动管理, 同时提供了interface、slice、map等内建数据类型, 显著提升了开发效率和程序性能. 然而, 这些特性也带来与传统C/C++语言不同的内存性能与安全性挑战. 通过静态代码分析, 实证研究了Go语言程序的内存性能与安全问题. 通过设计基于CodeQL的GitHub开源代码分析框架PatStat, 利用声明式语言QL分析开源仓库中的内存性能相关的代码模式, 并辅助人工总结和自动检测内存安全问题. 研究涵盖Go程序的内存访问特征和安全问题模式. 在分析996个近1年内更新的Go语言开源项目后发现: Go程序中域访问和解引用操作在内存访问中占比较高, 分别为25.44%与17.63%, 意味着需要在程序分析或优化中关注域敏感性和指向分析. 此外, Go特有的interface类型转换引发的隐式内存分配也是程序优化的重点. 通过人工分析130个涉及内存泄漏、无效内存地址或空指针解引用、悬垂指针的Issues, 总结10类Issue模式, 其中悬垂指针问题在Go语言中较少见. 这些Issues通常需要约30天修复, 但大多只需修改数十行代码即可完成. 研究成果为优化Go语言程序和减缓内存安全问题提供了参考. 此外, 针对包含切片表达式赋值, 可能导致内存泄漏的Issue模式开发代码检查工具, 并在真实项目中报告了6个Issues, 其中1个得到了肯定回复.

    • JIT编译技术在可插拔存储引擎数据库中的应用

      2026, 37(3):1225-1239. DOI: 10.13328/j.cnki.jos.007467

      摘要 (97) HTML (0) PDF 1.54 M (188) 评论 (0) 收藏

      摘要:数据库系统作为数据存储与处理的基础设施, 其性能对现代社会的运行效率具有重要影响. 随着内存技术的进步及SSD (solid state drive)的广泛应用, 磁盘数据库的性能瓶颈逐渐转向CPU的利用率和内存管理的优化. 现代数据库系统通常采用解释执行的方式处理查询, 造成了大量虚函数调用、上下文切换和高速缓存未命中, 不能充分发挥现代CPU的流水线和缓存机制, 导致低效的查询执行效率, 尤其是在大数据量和复杂查询的场景中表现更为明显. 为了解决上述问题, 针对传统数据库解释执行提供若干JIT (just-in-time)编译优化方案, 并在MySQL数据库中进行验证. 首先给出利用LLVM (low level virtual machine)编译器将SQL谓词在运行时转换为机器码的方案代替解释执行, 以减少虚函数调用和系统上下文切换的开销. 接着提出混合编译与解释执行的方案, 扩展了JIT编译执行的适用范围. 最后针对日益流行的可插拔数据库系统架构设计了一种将JIT机器码推送至存储引擎层的查询下推方案, 避免不必要的数据传输和计算开销. 实验结果表明, 启用JIT编译后, MySQL的查询性能显著提升, 尤其在处理复杂查询和大数据量的场景, JIT编译系统能够有效降低解释执行带来的开销, 显著提高系统的响应速度和吞吐量. 在类TPC-H的测试中, 对比原生MySQL, 采用JIT编译执行的系统性能提升可达148%.

    • 嵌入式软件IP通用模型

      2026, 37(3):1240-1263. DOI: 10.13328/j.cnki.jos.007495

      摘要 (69) HTML (136) PDF 3.05 M (1095) 评论 (0) 收藏

      摘要:软件IP (intellectual property)是具有知识产权的可复用的软件知识实体, 是软件智能合成的基石. 针对嵌入式系统的关键特性, 提出了面向嵌入式系统的软件IP通用模型, 包括知识模型、形式模型和实现, 并且讨论了它们三者之间的一致性关系. 与目前的主流模型相比, 提出的方法充分考虑了嵌入式系统的关键特性、系统对环境和平台的假设、软件中间知识的表示和使用、模型组装的正确性, 以及模型与实现之间的关系, 因此具有明显的优势. 提出的嵌入式软件IP通用模型在一定程度上揭示了软件构成的本质, 即软件并非代码的集合, 而是知识、规约和代码的三位一体. 此外, 为了简化软件IP的使用, 根据不同的使用目的(关注点), 将软件IP表示为不同的视图. 最后, 提出从存量嵌入式软件资产提取软件IP的方法, 并且通过实际案例展示了提取方法的有效性和可行性.

    • 空间飞行器控制软件在轨自适应可信演化框架

      2026, 37(3):1264-1289. DOI: 10.13328/j.cnki.jos.007549

      摘要 (63) HTML (0) PDF 3.31 M (156) 评论 (0) 收藏

      摘要:空间飞行器的智能自主水平和在轨稳定运行能力是提升航天任务成功率的关键, 而软件自适应演化技术则是实现这一目标的重要途径, 并成为当前软件工程领域的研究热点. 首先对空间飞行器控制软件自适应演化的研究现状和存在问题进行综述. 然后, 针对空间飞行器在轨运行环境的开放性、宿主计算资源的有限性以及飞行任务对实时响应的高要求, 提出名为MAPE-KV (monitor-analyze-plan-execute over knowledge and verification)的空间飞行器控制软件在轨自适应可信演化框架. 此外, 在该框架的指导下对航天器软件应用逻辑、自适应控制逻辑、可信保障逻辑以及支撑知识库进行设计. 最后, 通过非预期故障和业务变更两类典型案例验证所提框架的有效性, 仿真结果表明该方法能够有效应对星载软件在运行过程中面临的异常事件挑战.

    • >综述文章
    • 人机共驾场景中驾驶权接管技术研究综述

      2026, 37(3):1290-1315. DOI: 10.13328/j.cnki.jos.007561

      摘要 (85) HTML (0) PDF 1.15 M (157) 评论 (0) 收藏

      摘要:智能驾驶技术的快速发展使人机共驾成为平衡自动化能力与人类驾驶权责的重要范式. 实现控制权在人与机器之间的安全、平滑、高效转移的驾驶权接管技术, 成为该领域面临的核心挑战与技术瓶颈之一. 通过从理论框架、技术挑战和交互机制这3个维度系统梳理相关研究, 揭示目前驾驶权接管技术在实时决策和个性化适配方面的局限性, 可以深入剖析当前进展, 明确未来研究方向. 首先, 基于多学科交叉视角, 阐述驾驶权接管的理论基础, 提出基于场景特征的接管分类框架, 分析环境复杂度与驾驶员状态等因素的作用机理, 系统比较唤醒策略与控制算法, 指出当前技术在复杂场景适应性和个性化设计方面的不足. 其次, 探讨人机信任对驾驶权接管的影响机制, 从信任动态建模与多模态交互两个维度, 提出基于信任校准的接管策略优化方法. 最后, 展望大模型与跨模态认知技术融合的发展趋势, 为未来人机无缝协同驾驶提供研究方向.

    • 检索增强生成在软件工程中的应用综述

      2026, 37(3):1316-1339. DOI: 10.13328/j.cnki.jos.007567

      摘要 (227) HTML (0) PDF 2.53 M (229) 评论 (0) 收藏

      摘要:检索增强生成(retrieval-augmented generation, RAG)通过融合信息检索与语言生成模型, 显著提升代码生成、补全、程序修复等软件工程下游任务的性能. 随着RAG在软件工程领域的迅速发展, 研究者难以全面掌握其最新的进展、面临的挑战及未来的潜在机遇. 为此, 系统性地综述2021–2024年间RAG在软件工程中的应用, 围绕RAG的核心架构及其在软件工程中的应用, 对108篇相关高质量研究进行汇总与深入分析. 首先, 探讨软件工程领域中RAG架构的关键组成部分, 详细总结检索器和生成器的通用分类, 并概述二者的集成方式. 其次, 重点分析RAG在各类软件工程下游任务中的应用, 包括代码生成、测试生成、程序修复等, 梳理其在不同任务场景下的实践方法与技术趋势. 最后, 讨论当前RAG应用所面临的挑战, 涉及知识库构建、检索和生成这3个阶段, 并探讨未来的研究方向与潜在发展路径. 总体而言, 为软件工程社区提供一份全面的RAG研究综述, 旨在帮助研究者系统了解现有成果, 洞察关键问题, 并推动该领域的进一步发展.

    • 时序数据域自适应的时空卷积与对抗互学习

      2026, 37(3):1340-1356. DOI: 10.13328/j.cnki.jos.007430

      摘要 (294) HTML (0) PDF 2.78 M (645) 评论 (0) 收藏

      摘要:在时序数据分析领域, 跨域数据分布的偏移显著削弱了模型的泛化性能. 为此, 开发一种称为TPN的端到端时序数据域自适应框架. 该框架融合了时序模式激活模块(TPAM)与Transformer编码器. TPAM通过双层时空卷积操作捕捉序列特征的空间及时间依赖性, 结合Sigmoid和tanh激活函数对提取的特征进行非线性融合, 再经由线性投影恢复至原通道尺寸, 以此强化模型的时序特征提取能力. TPN还引入了增强对抗范式(EAP), 通过域分类损失和操作顺序预测损失, 增强生成器与判别器的协同对抗, 有效缩减源域与目标域间的数据分布差距, 提升模型的域适应性. 在Opportunity、WISDM及HHAR这3大公开人体活动识别数据集上的实证结果显示, TPN在准确率和F1值方面较现有方法最高提升了6%, 且参数量和运行时间较少. 深入的消融与可视化实验进一步验证了TPAM和EAP的有效性, 表明TPN在特征抽取与域对齐上具有良好表现.

    • 基于块级多输出和知识自蒸馏的高效联邦学习框架

      2026, 37(3):1357-1373. DOI: 10.13328/j.cnki.jos.007466

      摘要 (100) HTML (0) PDF 1.83 M (1420) 评论 (0) 收藏

      摘要:联邦学习 (federated learning, FL)是一种分布式模型训练框架, 允许多个客户端在边缘计算(edge computing, EC)环境中协同训练全局模型, 同时保护客户端的本地数据隐私. 然而, 在边缘网络中进行联邦学习训练时, 常常面临资源受限和数据异构(或称非独立同分布数据)的问题, 这会导致模型训练性能显著下降. 为了应对这些挑战, 提出了一种高效的联邦学习框架——FedAlt, 以提升边缘网络中模型训练的性能 (如测试精度)和减少资源开销. FedAlt 在经典联邦学习算法FedAvg 的基础上, 引入了块级多输出和知识自蒸馏技术, 使客户端在本地训练时能够更有效地吸收模型表征层信息, 从而缓解非独立同分布数据对模型训练的负面影响. 具体而言, 将模型划分为多个连续的模型块, 服务器在每个全局训练轮次开始时仅向客户端发送前部分的全局模型块, 从而减少通信开销. 然后, 客户端将全局模型和本地模型进行组合, 并利用知识自蒸馏技术吸收模型表征层的信息, 以应对数据异构带来的挑战. 此外, 考虑到通信开销随传输的模型块数量增加而增加, 分别在服务器和客户端设计了自适应算法, 即服务器分发模型块算法和客户端块级多输出正则化算法, 根据客户端的数据分布、计算能力和通信能力来动态调整服务器分发的模型块数量. 大量实验结果表明, 与现有方法相比, FedAlt 在有限的通信带宽条件下, 可以提升约 2.64%的平均测试精度.

    • 基于多源信息结构化序列建模的药物推荐方法

      2026, 37(3):1374-1392. DOI: 10.13328/j.cnki.jos.007500

      摘要 (60) HTML (133) PDF 1.96 M (569) 评论 (0) 收藏

      摘要:药物推荐旨在依据患者的临床问诊信息, 制定出最适宜的药物治疗方案. 然而, 现有的药物推荐方法往往缺少对患者问诊序列中纵向和结构化特征的有效挖掘. 针对这一问题, 提出了一种端到端的基于多源信息结构化序列建模的药物推荐方法. 具体地, 该方法首先构建了高效的压缩编码器来刻画细粒度的EHR编码信息; 然后, 设计了一个循环注意力网络, 在时间维度上通过掩码注意力机制来捕捉问诊序列中的全局依赖关系, 允许网络在学习时动态地调整历史问诊的权重, 从而更准确地捕获问诊序列的纵向依赖关系; 此外, 通过引入图对比学习策略和知识增强检索模块以提高模型的结构化表征能力, 帮助理解药物之间的结构关系并降低DDI风险. 在MIMIC-III和MIMIC-IV等真实世界数据集上的实验结果表明, 所提方法在多个性能指标上都优于对比方法.

    • 支持索引动态更新的高效可搜索属性加密方案

      2026, 37(3):1393-1412. DOI: 10.13328/j.cnki.jos.007428

      摘要 (413) HTML (0) PDF 1.53 M (702) 评论 (0) 收藏

      摘要:基于属性的可搜索加密技术实现了多用户场景下加密数据安全且细粒度的共享, 但往往面临着加解密计算开销大、查询效率低、索引无法更新等问题. 为同时解决上述问题, 在可搜索属性加密技术的基础上提出了一个支持索引动态更新的高效检索方案. 具体而言, 通过复用相同的访问策略, 减少加密过程中因策略重复带来的计算开销, 并将大部分解密运算安全外包给云服务器, 减轻了本地设备的解密计算负担. 结合哈希表和跳表构建了一个支持多关键词检索的倒排索引结构, 使用BLS短签名技术实现了索引更新的权限验证. 形式化的安全分析证明, 该方案能够有效抵御合谋攻击、选择明文攻击、伪造更新令牌和解密私钥等多种攻击方式. 实验结果显示, 该方案兼具高效的检索和索引更新性能, 在策略重复时能有效降低加密计算开销.

    • 融合TextCNN和对抗训练的以太坊庞氏骗局检测模型

      2026, 37(3):1413-1426. DOI: 10.13328/j.cnki.jos.007564

      摘要 (77) HTML (0) PDF 1.36 M (167) 评论 (0) 收藏

      摘要:以太坊上智能合约的广泛部署为区块链生态系统注入了活力, 而智能合约的不可逆性和匿名性却给监管带来了巨大挑战. 不法分子趁机在以太坊部署庞氏骗局, 引发了严重的安全风险和经济损失. 因此, 迅速高效地检测庞氏骗局智能合约至关重要. 目前的庞氏骗局检测方法存在主要挑战包括智能合约操作码行为特征被忽略, 特征提取不全面, 检测方法在受到对抗干扰时性能不稳定、准确率低等问题. 为克服这些不足, 提出一种融合TextCNN和对抗训练的以太坊庞氏骗局检测方法. 该方法通过静态分析智能合约操作以提取智能合约的行为特征, 同时结合Word2Vec模型保留智能合约的语义信息, 确保了操作码特征的完整性. 与此同时, 还采用改进后的动态步长投影梯度下降算法训练TextCNN模型, 增强检测模型的鲁棒性, 提高检测准确率. 在XBlock数据集上展开实验, 实验结果表明, 所提方法在确保精确率和鲁棒性的同时, 召回率达到98.36%, F1分数达到98.31%. 该方法重点关注智能合约操作码而不依赖交易特征, 能在智能合约部署时迅速、高效地检测出庞氏骗局智能合约.

    • 容器文件系统隔离增强机制

      2026, 37(3):1427-1446. DOI: 10.13328/j.cnki.jos.007507

      摘要 (104) HTML (0) PDF 2.13 M (1308) 评论 (0) 收藏

      摘要:随着容器技术的广泛应用, 容器技术的安全性和隔离性受到广泛关注. 目前, 各类容器工具中长期存在大量容器逃逸漏洞, 其中由于容器文件系统隔离不足导致的安全漏洞已成为占比较大的一类安全威胁. 此类漏洞允许攻击者在容器与宿主机交互时操纵容器内文件路径解析过程或窃取宿主机中文件描述符来实施容器逃逸. 各容器工具社区虽实践了多种修复方法, 但仍无法彻底消除此类漏洞, 甚至因修复不彻底而引入了多个同类的新漏洞. 为彻底消除此类漏洞, 需从内核层面完善容器文件系统隔离机制. 因此提出了一种细粒度容器文件系统隔离增强机制, 将容器文件系统隔离从原有仅隔离文件系统挂载点扩展到inode级别. 该机制将对容器内文件的inode进行标识, 以区分容器与宿主机的文件对象, 继而基于标识设计并实施容器与宿主机间的访问控制, 以完成对容器与宿主机间文件系统隔离的增强. 实验表明该机制能够有效阻止所有文件系统相关的容器逃逸漏洞, 引入的平均开销低于2%, 且远低于容器工具提供的漏洞补丁带来的开销.

当期目录


文章目录

过刊浏览

年份

刊期

联系方式
  • 《软件学报 》
  • 主办单位:中国科学院软件研究所
                     中国计算机学会
  • 邮编:100190
  • 电话:010-62562563
  • 电子邮箱:jos@iscas.ac.cn
  • 网址:https://www.jos.org.cn
  • 刊号:ISSN 1000-9825
  •           CN 11-2560/TP
  • 国内定价:70元
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号