2026, 37(5):1885-1886. DOI: 10.13328/j.cnki.jos.007546
摘要:
2026, 37(5):1887-1902. DOI: 10.13328/j.cnki.jos.007542
摘要:符号音乐理解(symbolic music understanding, SMU)是多媒体内容理解的重要任务之一, 旨在从符号化音乐表示中提取旋律、力度、作曲家风格、情感与流派等多维音乐属性. 现有方法在音乐序列依赖建模方面取得了显著进展, 但是仍然存在两方面关键问题: (1)表示单一化: 将复杂的音乐结构简化为线性符号序列, 忽略了音乐固有的多维层级信息; (2)乐理知识缺乏: 基于序列数据驱动的模型难以融入系统化乐理知识, 限制了对音乐深层语义的理解. 针对上述问题, 提出了一种融合音乐知识结构化表征的高精度符号音乐理解模型CNN-Midiformer. 该模型首先基于音乐理论构建音乐知识和音乐序列的结构化表征; 其次, 设计互补音乐特征提取模块, 利用卷积神经网络(convolutional neural network, CNN)提取音乐知识结构化表征的深层局部特征, 并通过Transformer编码器的自注意力机制捕获音乐序列的深层语义特征; 最后, 设计音乐知识自适应增强的特征融合模块, 利用高效的交叉注意力机制将CNN提取的深层音乐知识特征与Transformer编码器的深层语义特征进行动态融合, 实现对序列语境的感知与特征增强. 在6个公开符号音乐理解数据集Pop1K7、ASAP、POP909、Pianist8、EMOPIA和ADL上的对比实验表明, 所提出的模型CNN-Midiformer在旋律识别、力度预测、作曲家分类、情感分类和流派分类这5个符号音乐理解的基准下游任务上均优于最新方法, 相较于基线模型准确率提升0.21–7.14个百分点.
2026, 37(5):1903-1918. DOI: 10.13328/j.cnki.jos.007541
摘要:会议纪要、客服质检等应用对多说话人语音转写与归属判断的需求正日益增长. 随着近年来多模态大语言模型的迅速发展, 音频-语言模型因其能够同时理解音频信号与自然语言提示, 并在自回归解码框架中统一处理两种模态的能力, 天然契合这种“说话人日志”任务的需求, 为端到端多说话人音频转写提供了全新的思路. 提出一种基于音频-语言模型的端到端说话人日志系统, 通过两阶段训练策略实现语音识别能力与判断说话人归属能力的协同优化, 将音频-语言模型的能力泛化到具体的下游任务上. 训练的第1阶段采用监督微调(SFT), 在标准交叉熵损失中引入“说话人损失”, 以加权的方式强化对稀疏说话人标签token的学习信号; 第2阶段使用了基于组相对策略优化(GRPO)算法的强化学习策略, 以联合指标cpCER与SA-CER设计奖励函数, 突破了监督学习的性能瓶颈. 在双说话人的场景下开展实验, 对比了热门开源工具3D-Speaker、Diar Sortformer和闭源的AssemblyAI、Microsoft Azure说话人日志API, 并通过消融实验证明了训练方法的合理性, 随后将实验拓宽至四说话人场景. 结果表明, 两阶段的训练方法在双说话人环境中显著提升了模型的语音识别能力与判断说话人归属的能力, 而在四说话人场景中, 常规的监督微调已取得较大收益. 进一步讨论了大模型资源消耗、输入时长限制、跨域适应等问题, 提出了引入流式音频编码器、课程学习、拒绝采样策略等未来优化方向. 研究表明音频-语言模型在多说话人日志任务中具备显著潜力, 但亦需在复杂声学场景下完成更多技术突破.
2026, 37(5):1919-1935. DOI: 10.13328/j.cnki.jos.007545
摘要:智能驾驶技术的最新进展主要体现在环境感知层面, 其中传感器数据融合对提升系统性能至关重要. 点云数据虽能提供精确三维空间描述, 但存在无序性和稀疏性; 图像数据则分布规则且稠密, 二者融合可弥补单模态检测的不足. 然而, 现有融合算法存在语义信息有限、模态交互不足等问题, 多模态三维目标检测在高精度检测方面仍有提升空间. 针对此问题, 提出一种多传感器融合方法: 利用RGB图像深度补全生成伪点云, 与真实点云结合以识别感兴趣区域. 关键改进包括: 采用可变形注意力的多层次特征提取, 自适应扩展感受野至目标区域; 利用二维稀疏卷积对伪点云进行高效特征提取, 发挥其图像域规则分布特性; 提出双阶反馈机制, 在特征级通过多模态交叉注意力解决数据对齐问题, 在决策级采用高效融合策略, 实现多阶段交互训练. 该方法有效解决了伪点云精度受限与计算量增大的矛盾, 显著提升了特征提取效率与检测精度. 在KITTI数据集的实验表明, 所提方法在三维交通要素检测任务中实现了更优的性能, 充分验证了算法的有效性, 为智能驾驶环境感知中的多模态融合提供了新思路.
2026, 37(5):1936-1949. DOI: 10.13328/j.cnki.jos.007543
摘要:在大规模图像检索任务中, 图像哈希技术通常依赖大量人工标注数据来训练深度哈希模型, 但高昂的人工标注成本限制了其实际应用. 为缓解对人工标注的依赖, 现有研究尝试利用网络用户提供的文本作为弱监督信息, 引导模型从图像中挖掘和文本关联的语义信息. 然而, 用户标签中普遍存在噪声, 限制了这些方法的性能. 多模态预训练基础模型(如CLIP)具备较强的图像-文本对齐能力. 受此启发, 利用CLIP来优化用户标签, 并提出一种CLIP引导标签优化的弱监督哈希方法(CLIP-guided tag refinement hashing, CTRH). 该方法包含3个主要内容: 标签置换模块、标签赋权模块和标签平衡损失函数. 标签置换模块通过微调CLIP挖掘图像关联的潜在标签. 标签赋权模块利用优化后的文本和图像进行跨模态全局语义交互, 学习判别性的联合表示. 针对用户标签的分布不平衡问题, 设计了一种标签平衡损失, 通过动态加权增强模型对困难样本的表征学习. 在MirFlickr和NUS-WIDE两个通用数据集上与最先进的方法对比验证了所提方法的有效性.
2026, 37(5):1950-1963. DOI: 10.13328/j.cnki.jos.007544
摘要:近年来, 免训练的视频问答模型因其即插即用的特性, 成为轻量级多模态推理研究的热点. 然而, 包含丰富语义信息的高帧率视频往往具备天然的冗余性, 导致在时间维度上存在信息密度与计算效率之间的平衡问题, 传统的采样策略容易受到噪声帧的干扰. 此外, 在复杂的动态场景中, 背景干扰物和局部身体部位等非目标区域会引入空间特征偏差, 严重影响答案生成的可靠性. 为解决以上两个问题, 提出了双重自适应冗余消除框架, 旨在通过时空冗余协同优化机制, 实现免训练范式下视频语义理解精度与答案质量的系统性提升. 首先, 提出一种基于文本-视觉对齐与帧间语义一致的双关联时间采样方法, 通过双向交互推理筛选视频关键帧序列, 并同步剔除与文本语境冲突的冗余帧. 其次, 引入一种动态空间采样方法, 从与提示相关的热力图候选区域中提取最大连通语义区域, 以消除与问题无关的分散区域的干扰, 增强空间特征表达的紧密相关性. 所提方法在MSVD-QA、MSRVTT-QA、TGIF-QA和ActivityNet-QA等广泛使用的数据集上进行了实验, 并在零样本(zero-shot)设定下与14个最新模型进行了对比评估. 实验结果表明, 所提方法在使用更少视频特征序列的情况下实现了更具竞争力的性能. 可视化分析进一步验证了该方法在复杂场景中(如多人交互和细粒度动作识别)表现出更准确的时空定位能力. 所提出的双重自适应冗余消除框架通过协同优化时空冗余, 在免训练范式下显著提升了视频问答任务的性能, 能够生成准确且高质量的答案, 展现出其在多模态视频理解中的应用潜力.
2026, 37(5):1964-1981. DOI: 10.13328/j.cnki.jos.007537
摘要:通过专利推荐将科技创新成果转化为现实生活中的实际应用, 让科学技术实现经济价值, 对社会经济发展具有重大意义. 然而, 现有的专利推荐算法往往忽略了专利本身所包含的多模态信息, 导致推荐结果无法全面反映专利的真实价值与应用潜力, 进而影响专利与企业需求之间的匹配精度. 为此, 提出了一种基于多模态异质图网络的专利推荐算法(multimodal heterogeneous graph network for patent recommendation, MHGN). 首先, 利用预训练表征模型将专利的多属性文本信息、图像, 以及企业信息进行初始化表征学习. 随后, 采用图注意力网络学习企业在不同模态下的偏好表征, 在此基础上, 进一步基于偏好表征的相似度学习企业-专利交互的关系权重, 并设计了一个图卷积网络来学习企业和专利的节点偏好表征. 最后, 引入了适配向量, 并使用注意力机制对节点偏好表征与多模态表征进行融合. 在实验验证上, 构建了4个真实的高校向企业转让的专利数据集, 并与7个先进的基线模型进行了实验对比, 结果表明, 所提模型在各项指标上均显著优于基线模型. 将公开这4个数据集及模型的源代码, 为专利推荐和科技成果转化领域的研究提供坚实的数据和模型基础, 推动科技服务科技.
2026, 37(5):1982-2005. DOI: 10.13328/j.cnki.jos.007539
摘要:生成技术的飞速发展揭示了相关技术在实际应用中的潜力, 姿态控制人物生成技术(pose-guided person image and video generation)的核心目标是将输入信息的人物转换为指定姿态, 同时保持人物外观的高度一致性. 其技术可以广泛应用于虚拟试穿与时尚行业、广告内容生成领域的视频生成与编辑以及多模态结合生成等多个应用场景, 推动用户体验和技术创新的进步. 然而, 尽管技术已经取得了显著进展, 仍面临着多个挑战, 包括姿态迁移过程中外观信息的有效提取和重排、不可见信息的生成、一致性保持、模型的高效训练与使用等. 基于现有技术的挑战, 详细分析了当前主流的姿态控制生成方法应对挑战的策略, 并探讨了它们在实际应用中的可行性和局限性. 同时, 还讨论了姿态控制生成技术的常用生成模型, 以及不同的姿态信息表示方法. 此外, 整理讨论了该技术常用的数据集大小、特点等信息、各项测试基准, 并从虚拟试穿、视频生成与编辑、多模态结合生成等应用场景展开了讨论. 此外, 还揭示了目前方法仍遇到的个性化信息的保留、复杂场景的生成以及模型效率与实时性能等挑战, 并讨论姿态控制生成技术可能的未来发展趋势, 旨在为相关领域的研究人员提供系统的总结与参考, 以期推动该技术在各行业中的应用与创新.
2026, 37(5):2006-2023. DOI: 10.13328/j.cnki.jos.007540
摘要:帕金森病(Parkinson’s disease, PD)影响着全球近千万的患者, 尚无根治方法, 但循证医学表明基于感官信息提示的训练可以延缓疾病进展. 然而, 目前的研究大多基于单一模态, 且缺乏对于用户的感知与反馈. 为此, 提出了视听协同的多模态步态训练方法, 基于用户步态数据生成并动态调节多模态提示, 进而探究其辅助早期PD康复的可行性. 该方法首先构建了多模态提示生成框架, 通过用户步态数据计算周期和步高参数, 生成视觉与听觉协同的提示; 然后搭建了交互式干预训练系统, 基于用户步态变化动态调整视听提示, 实现了用户感知与多模态提示生成的交互式迭代. 最后, 在临床招募了40名早期PD患者(H&Y≤2)进行实验, 与对照组相比视听协同组改善效果最优, 与基线状态相比视听协同组在训练中和训练后步态对称性平均提高20.776% (p=0.0001)和21.157% (p=0.0001), 病患侧步速平均提高33.924% (p=0.0001)和36.433% (p<0.0001). 结果同时表明视听协同提示, 能够更快速、更持久地帮助患者改善步态表现. 所提出的基于步态数据生成多模态提示的训练方法, 为建立量化驱动的精准康复模式提供了新思路, 促进了多模态交互技术在医疗领域的应用与发展.
2026, 37(5):2024-2042. DOI: 10.13328/j.cnki.jos.007563
摘要:在动态环境下的双边匹配问题中, 对于时间约束与多目标优化的处理机制是影响匹配效率的重要因素之一, 网络货运平台的运单分配即为此类问题的典型实例. 现有方法在处理时间约束的刚性建模和多目标冲突的权衡机制方面存在显著局限性, 难以准确刻画决策主体在约束边界附近的行为特征. 提出一种基于条件扩散模型与分层强化学习的时间约束感知匹配框架TB-Match, 通过弹性约束量化、偏好表征学习、动态权衡优化和策略生成这4个协同模块实现系统性能提升. 该方法的核心贡献包括: (1)基于条件扩散概率模型的约束弹性化表征机制, 通过渐进噪声扩散与逆向去噪过程将确定性时间边界转化为连续概率分布, 精确建模决策主体在约束临界区域的接受概率; (2)融合动态目标权衡与近端策略优化的分层决策架构, 高层网络根据反馈信号自适应调节目标权重, 低层网络通过信任域约束实现长期累积收益最大化. 在两个大规模真实数据集上的实验验证表明, TB-Match在匹配率指标上比现有最优方法相对提升了17.66%, 同时在满意度等指标中均展现出显著的性能优势, 证明了该方法在复杂约束环境下的有效性和适用性.
2026, 37(5):2043-2062. DOI: 10.13328/j.cnki.jos.007436
摘要:测试用例优先级排序方法TCP在缓解测试开销方面备受关注. 基于不同优先级策略的贪心算法是TCP中常用的方法. 然而, 现有基于贪心算法的TCP技术多使用单一的排序策略, 且每轮迭代排序过程一次性考虑全部测试用例, 而未关注用例间的关系, 导致在覆盖信息和排序方面的处理上耗时过长, 极大降低排序效率. 同时, 在单一的排序策略中, Additional策略得到广泛研究, 但其受随机因素影响较大, 当出现平局时, 通常会随机选择待排用例, 影响排序的有效性. 基于此, 提出一种面向两阶段分组的测试用例优先级排序方法TPG-TCP. 第1阶段进行粗粒度测试用例分组, 通过挖掘用例间的隐藏关系, 将它们分为关键用例组和普通用例组, 为下一阶段采用多样性策略排序做准备, 以提高排序效率. 第2阶段进行细粒度测试用例分组排序, 根据迭代次数将关键用例分组, 为减少Additional策略中随机因素的干扰, 提出基于用例潜力度的TP-Additional策略对一部分关键用例排序, 同时采用简单高效的Total策略对普通用例与另一部分关键用例排序, 将排序结果追加至TP-Additional策略的排序结果中, 在排序有效性提升的同时也提高了效率. 通过与8种相关方法在6个数据集上的对比结果发现, 所提方法是高效且可行的, 在APFD与TETC指标上分别平均提升约1.29%和9.54%.
2026, 37(5):2063-2084. DOI: 10.13328/j.cnki.jos.007453
摘要:关键类是理解复杂软件的极佳起点, 不仅有助于优化软件的文档化过程, 也有助于压缩逆向工程得到的类图. 尽管目前已经提出了很多有效的关键类识别方法, 但普遍存在3点不足: 1)现有工作所依赖的软件网络(由软件元素及其依赖构建的图)不可避免地会包含软件运行时永远不会(或极少)被执行到的软件元素; 2)基于动态分析构建的软件网络往往不够完整, 会遗漏真正的关键类; 3)现有工作通常只考虑类之间的直接耦合对类重要性的影响, 而忽视类之间的间接(非接触)耦合及邻居节点度分布的多样性对类重要性的影响. 有鉴于此, 提出一种融合动态分析和引力公式的关键类识别方法. 首先, 使用静态分析技术构建面向对象软件的类依赖网络CCN (class coupling network), 以抽象类及类之间的耦合关系. 其次, 综合考虑CCN中类之间“直接和间接的耦合”“邻居节点度分布的多样性”等对类重要性的影响, 构建引力熵GEN (gravitational entropy)度量指标以量化类的重要性. 然后, 按照类的GEN值对所有类进行降序排列, 从而得到初步的排序结果. 最后, 通过动态分析技术收集运行时类之间真实的交互关系, 进而对初步排序的结果进行优化, 并通过设定阈值来过滤非关键类, 从而得到候选的关键类. 8个开源Java软件上的实验结果表明: 1) 在检查不超过前15% (或top-25)的节点时, 所提出的方法从整体上而言均显著优于其他11种对比方法; 2)使用动态分析对结果进行优化, 有助于显著提升所提出方法的性能; 3)耦合类型的不同赋权方式对所提出方法的性能没有显著影响; 4)所提出的方法在运行效率上是可以接受的.
2026, 37(5):2085-2102. DOI: 10.13328/j.cnki.jos.007458
摘要:错误定位是软件维护过程中的关键环节, 如何提升自动化故障定位的有效性和效率是软件工程领域的研究焦点之一. 随着开源软件数量激增且软件热更新需求增多, 面向变更集的自动化错误定位成为软件质量保障的重要手段. 传统基于信息检索的错误定位方法只能表征自身文本信息, 未能充分考虑变更集中的结构和语义变化, 无法直接应用于变更集的错误定位任务. 因此, 提出一种基于图Transformer的变更集错误定位方法, 使用基于变更信息抽象语法树表征代码结构变化信息, 并从局部和全局角度表征变更代码和错误报告的语义信息, 进而实现变更集中错误信息的匹配和定位. 为验证方法的有效性, 对来自6个错误诱发变更集的错误报告和变更进行测试, 与最先进模型相比, MAP和MRR指标分别提升11.4%和12.9%, 证明了提出方法的有效性.
2026, 37(5):2103-2130. DOI: 10.13328/j.cnki.jos.007484
摘要:软件配置是软件系统的重要组成部分, 在增强软件功能多样性和灵活性方面具有重要作用. 而随着软件系统越来越复杂, 软件配置项之间复杂的约束关系成为困扰运维人员的问题. 因此研究人员提出了基于不同数据源、使用不同技术的配置约束提取方法, 来识别软件配置之间的复杂约束关系. 然而, 这些方法存在难以应用于多种编程语言、分析规模有限、对高质量有标注数据需求大等多种问题, 针对上述问题提出了一种基于大语言模型的配置间约束提取方法LLM-Extractor. 该方法包括了配置-功能关联图构建和基于多配置关联子图的配置约束推断两个部分. 在配置-功能关联图构建阶段, LLM-Extractor借助大语言模型强大的文本理解和分析能力, 从配置文本中识别配置和软件功能相关的实体, 并抽取多种关联关系. 在配置间约束推断部分, LLM-Extractor在已有配置-功能关联图上搜索多配置关联子图, 并依据关联子图信息引导大语言模型推断配置间约束. 基于多配置关联子图的配置间约束推断方法让LLM-Extractor能够提取通过软件功能状态传递的配置约束, 填补了已有方法的空缺, 同时具有对编程语言不敏感、分析规模大的特点. 在3个开源软件系统的配置文档上评估了方法的效果, 分析了超过1400个软件配置项, 实验结果表明, LLM-Extarctor的效果相对已有的文本分析方法具有显著提高, F1分数有至少43.4%的提升. 消融实验的实验结果进一步表明, 多配置关联子图对于配置间约束推断方法的效果具有重要的积极影响.
2026, 37(5):2131-2150. DOI: 10.13328/j.cnki.jos.007508
摘要:随着大语言模型(LLM)技术的迅速发展, 涌现了众多代码大模型(Code LLM), 以支持代码生成、代码补全、代码测试和代码重构等任务. 不同模型在处理相同任务时可能表现出显著的性能差异, 且推理阶段的解码参数也会对模型性能产生重要影响. 研究如何为特定代码开发任务高效地选择最佳模型及其最优解码参数. 现有方法通常将模型选择和参数调优分为两个独立阶段, 由于不同阶段的采样策略差异导致无法共享样本数据, 采样与评估计算成本较高. 考虑到不同代码大模型解码参数空间相同, 提出利用倾向评分匹配(PSM)算法加权调整和对齐不同分布的样本数据, 以提高样本数据复用效率、降低计算成本. 由此提出了一个基于样本重用的代码大模型选择与解码参数调优框架CodeLLMTuner. 该框架包含3个阶段: (1)独立采样阶段, 对多个代码大模型并行执行解码参数调优(如贝叶斯优化)并进行数据采样与评估以收集样本数据; (2)模型选择阶段, 利用PSM技术对齐不同模型的样本数据, 从中选出性能期望最优的模型; (3)获选模型的解码参数调优阶段, 复用获选模型的样本数据, 并在其基础上继续进行解码参数调优, 以全面探索性能空间并显著降低采样成本. 实验结果表明, 在代码生成、代码摘要和测试用例生成这3项任务上, CodeLLMTuner相比基线方法在相同成本下性能提升10%–15%, 或在达到相同性能下成本降低超过20%.
2026, 37(5):2151-2166. DOI: 10.13328/j.cnki.jos.007510
摘要:在现代软件开发中, 频繁的代码提交和更新已成为常态, 虽然加速了功能实现, 但更可能会引入新的缺陷, 进而威胁软件的稳定性和可靠性. 一旦缺陷导致程序错误或故障, 开发团队必须迅速采取行动隔离缺陷以确保系统持续正常运行. 缺陷隔离是快速定位问题并恢复系统稳定性的关键技术手段, 但传统的增量调试(delta debugging, DD)方法依赖大量测试尝试, 导致在变更集合较大时性能瓶颈明显, 且缺乏对代码变更语义的有效利用, 无法精准定位与缺陷相关的代码变更. 提出了一种基于代码变更语义拆解的缺陷隔离方法——DISAC. 该方法通过将缺陷引入的复合提交拆解为具有单一功能语义的原子提交, 并通过建模提交之间的顺序依赖关系, 确保隔离过程中不破坏变更间的前置依赖. 与传统的DD方法相比, DISAC不仅能够返回最小的功能语义变更, 还能保留必要的上下文和依赖信息, 从而为开发人员提供更完整、精确的缺陷修复支持. 实验结果表明, 与DD方法相比, DISAC在缺陷隔离效率和精度上均有显著提升. 具体而言, DISAC在Defects4J数据集上的隔离效率提高了633.65%, 在回归缺陷集上的效率提升了733.75%. 此外, 当DISAC与DD结合使用时, 约减率分别提高了2.36%和8.66%, 显著提高了隔离效果. 用户实验显示, DISAC能提高根因确定效率约59.90%, 准确率提升12%. 这些结果表明, DISAC在提高缺陷隔离精度的同时减少了不必要的变更组合尝试, 从而在复杂代码提交的缺陷隔离任务中表现出更高的效率和稳定性.
2026, 37(5):2167-2201. DOI: 10.13328/j.cnki.jos.007580
摘要:分布式系统作为现代计算基础设施的核心, 其正确性至关重要. 然而, 由于分布式系统所处的计算环境中的高度不确定性以及代码设计与实现的复杂性, 验证分布式系统的正确性始终面临巨大挑战. 分布式系统模型检验(DMCK)技术通过代码级的穷尽式状态探索, 能够发现深层缺陷, 在真实系统中确定性重现缺陷并验证修复正确性, 有效应对了分布式系统缺陷“难发现、难诊断、难修复”等典型难题. 系统性梳理了 DMCK 的研究进展, 围绕“状态爆炸”与“人工成本”的权衡, 归纳其发展脉络为3个阶段: 第1阶段聚焦于使 DMCK 有效的代码级确定性模拟执行与状态空间探索技术; 第2阶段通过引入少量人工建模以利用系统语义信息缓解状态爆炸问题; 第3阶段致力于增强模型层与代码层的交互能力以进一步提升代码级模型检验效率. 最后, 在总结既有工作的基础上, 探讨了目前DMCK 的局限和未来可能的发展方向.
2026, 37(5):2202-2234. DOI: 10.13328/j.cnki.jos.007483
摘要:移动对象的来源丰富、获取简单、运动频繁, 导致数据量呈现爆发式增长, 高效管理移动对象数据的需求日益增加, 使得移动对象数据的索引及查询成为亟待解决的热点问题. 传统的移动对象索引基于空间划分, 能够有效地处理对象的空间位置和时间变化, 但由于移动对象的动态特性需要频繁更新索引, 在对象数量庞大时会导致维护成本显著增加. 学习索引作为新型索引技术, 可以运用机器学习方法提高查询效率, 降低存储成本, 但学习索引并不适用于具有多维特性的移动对象数据. 为此, 提出了一种基于非均匀网格降维的学习索引NUGC_LI, 使用类似B+树的递归层次模型结构. 该学习索引分为根节点、内部节点和叶子节点这3个部分, 使用多阶段线性模型对灵活划分后的数据分布进行拟合学习, 并在叶子节点中设置有空隙的数组和节点关键值范围, 提高节点更新和查询效率. 同时, 对真实出租车轨迹、系统仿真火车轨迹和随机生成轨迹数据集分别建立了B+树、RMI、ALEX、NUGC_LI、3DR树与TB树索引. 真实数据集、仿真数据集和随机数据集中涉及的轨迹点分别约917000个、51544个和5222752个. 通过对比实验与伸缩性测试, 在索引构建上, NUGC_LI相较于TB树、3DR树、B+树、RMI和ALEX分别降低了约91.45%、89.63%、90.38%、87.46%及13.71%的构建时间; 在更新操作上, 其更新时间降低至少93.76%. 基于NUGC_LI的范围查询、最近邻查询和相似轨迹查询在大数据量条件下均显示出显著优势, 查询时间分别至少比ALEX降低8.74%、30%和16.07%; 比RMI降低29.38%、77.44%和25.24%; 比B+树降低52.72%、92.44%和70.5%; 比3DR树降低53.09%、91.2%和67.58%; 比TB树降低52.67%、90.43%和67.47%. NUGC_LI索引在多任务负载下不仅具备较高的扩展性, 而且在构建、更新以及查询操作中均实现了显著的性能提升.
2026, 37(5):2235-2256. DOI: 10.13328/j.cnki.jos.007493
摘要:现实世界中许多应用场景都可以用图数据表示, 图上的查询也具有广泛的应用, 如可达、最短路径、关键字、图匹配、PageRank、SimRank、k-core、k-truss和Clique等. 针对特定的查询问题, 目前的研究方法可概括为: 提出相应的查询处理算法, 并构建索引结构来加速查询. 然而, 现实应用中需求的多样化以及图数据规模爆炸式的增长为该研究方法带来了两方面挑战. 第一, 同一个图数据在应用中会涉及多种查询, 但针对不同查询问题的处理机制和索引结构均不相同, 因此在设计图数据库时需构建多个索引和相应的查询算法; 第二, 索引的规模通常比原图数据的规模大, 多个索引同时存在会占用大量的系统空间, 导致图数据库的性能急剧下降, 不能被真正的应用. 为解决上述挑战, 提出一种统一的查询处理机制, 即为大图数据构建统一且高效的索引结构, 并基于统一索引结构设计可达、最短路径、关键字和图匹配这4种查询处理算法. 为构建统一索引结构, 对大图数据进行划分, 并根据可达、最短路径、关键字和图匹配这4种查询的特点提取出图数据中的重要顶点, 该统一索引结构规模比图数据规模小, 并且能高效地支持上述4种查询. 最后, 通过在4组真实数据上的实验验证了统一索引结构和4种查询处理算法的高效性和扩展性.
2026, 37(5):2257-2273. DOI: 10.13328/j.cnki.jos.007448
摘要:研究3类非平衡广义Feistel结构的中间相遇攻击, 并在Q1模型下对这3类结构进行量子中间相遇攻击. 首先, 采用多重集和差分枚举技术对3分支Type-III型广义Feistel结构构建4轮中间相遇区分器, 分别向前向后扩展1轮进行6轮中间相遇攻击, 并利用Grover算法和量子爪搜索算法对该结构进行6轮量子密钥恢复攻击, 该攻击所需的时间复杂度为O(23?/2·?)次量子查询, 其中?为广义Feistel结构的分支长度. 其次, 对3分支Type-I型广义Feistel结构的9轮区分器分别向前向后扩展1轮进行11轮中间相遇攻击及量子密钥恢复攻击, 相应的时间复杂度分别为O(22?)次11轮加密和O(23?/2·?)次量子查询. 最后, 以 3-cell型广义Feistel结构为例探讨了n-cell型广义Feistel结构的量子中间相遇过程, 对n-cell型广义Feistel结构构建2n轮中间相遇区分器, 并进行2(n+1)轮中间相遇攻击及量子密钥恢复攻击, 且时间复杂度分别为O(22?)次2(n+1)轮加密和O(23?/2·?)次量子查询. 结果表明, 相比于经典环境, Q1模型下消耗的时间复杂度更低.
2026, 37(5):2274-2285. DOI: 10.13328/j.cnki.jos.007457
摘要:差分-线性分析是的一种组合类分析方法, 已经被应用于许多对称密码的分析中. 特别地, 对于ARX类分组密码算法SPECK, 差分-线性分析是评估其安全性的一种强有力的方式. 在最新的差分-线性分析框架中, 密码算法被分解为3部分: 差分部分、中间部分和线性部分, 其中差分部分、中间部分和线性部分分别包含高概率的差分特征, 高相关性的差分-线性逼近和高相关性的线性逼近, 组合3部分特征可以得到一个完整的差分-线性区分器. 对于ARX类对称密码算法, 在传统的差分-线性区分器的搜索过程中, 通常是首先借助实验方法来计算得到中间部分一个高相关性的差分-线性逼近, 然后再分别向前向后搜索线性特征和差分特征, 但是该策略容易忽视掉一些好的差分-线性区分器. 区别于传统的搜索算法, 该算法结合高相关性的差分-线性逼近中差分部分和线性部分的特点, 从高概率的差分特征和线性特征出发, 给出一个差分-线性区分器搜索算法. 将所提搜索算法应用于SPECK中, 首次得到SPECK32的11轮差分-线性区分器和SPECK48的12轮差分-线性区分器. 所提区分器都优于SPECK32和SPECK48目前已知最好的差分-线性区分器.
2026, 37(5):2286-2308. DOI: 10.13328/j.cnki.jos.007491
摘要:随着计算机视觉技术的不断进步, 细粒度图像识别在众多应用领域中发挥着重要作用. 与传统的粗粒度图像识别不同, 细粒度图像识别着重于在同一大类别下对具有细微视觉差异的子类别进行精确划分, 因此该任务更具有挑战性. 近年来, 视觉Transformer以其在全局上下文信息建模方面的出色表现而被广泛应用于图像识别领域. 然而, 当应用于细粒度图像识别任务时, 视觉Transformer在处理细节特征和背景噪声方面却存在一定的局限性. 针对上述问题, 提出一种基于视觉Transformer的双视图融合识别框架, 有效融合细粒度图像的全局视图与局部视图以提升识别准确率. 该框架设计了一个基于注意力融合的冗余信息过滤模块, 在编码器内部通过层级注意力权重的融合筛选图像块特征, 以优化全局视图的分类标记嵌入. 同时, 还设计了一个基于注意力阈值的关键区域定位模块, 通过自适应阈值策略动态选定并放大全局视图中的关键区域, 形成细致的局部视图以供再次分析. 此外, 所提出的局部区域特征自适应增强模块进一步增强了对局部细节的关注, 有效提升了细粒度特征的辨识能力. 为优化此双视图融合框架, 提出了基于双视图相似度的对比损失函数和基于双视图置信度的自适应推理策略, 旨在增强视觉Transformer模型输出的全局与局部特征辨识性, 同时有效节约计算资源并缩短推理时间. 在CUB-200-2011、Stanford Dogs、NABirds和iNaturalist2017这4个公共数据集上的实验结果表明, 该方法相较于传统视觉Transformer模型在识别准确率上实现了显著提升, 展示了其在细粒度图像识别任务中的有效性和优越性.
2026, 37(5):2309-2324. DOI: 10.13328/j.cnki.jos.007494
摘要:图像去模糊因其在安防监控、医学影像处理、遥感图像处理等领域的广泛应用而备受关注. 尽管基于端到端的方法已经取得了巨大的进步, 但单一的U-Net网络难以处理复杂的运动模糊, 而基于辅助任务的恢复方式往往存在参数量大的问题. 此外, 绝大多数方法均无法实现对不同图像模糊位置和模糊程度的精确识别, 而模糊感知往往是决定模型恢复性能的关键因素之一. 受此启发, 提出一种模糊感知引导的渐进图像去模糊算法(progressive image deblurring guided by blur perception, PDBP-Net), 该算法的主要思想是利用辅助任务来生成模糊感知特征图从而引导算法实现更精细的恢复. 首先, 高频差异与图像残差生成子网络(high frequency difference and image residual generative subnetwork, HDIRG-net)采用辅助学习的方式同时生成高频差异特征图和残差图; 然后, 将两者输入高频差异引导的模糊感知模块(blur perception module guided by high-frequency differences, BPGHD)深入融合并提取模糊信息, 从而生成模糊感知特征图. 此外, 为了缓解单网络对复杂场景难恢复的问题, 本模块利用残差图和模糊图生成初步恢复图; 最后, 模糊感知指导的细节恢复子网络(blur perception guided detail restoration subnetwork, BPGDR-net)在模糊感知特征图的指导下对初步恢复图进行有针对性的再优化, 从而生成最终的恢复图. 提出的去模糊模型在多个基准数据集上进行了广泛的评估, 并且与最先进的去模糊方法相比, 取得了显著的优势. 特别地, 在GoPro数据集上, 峰值信噪比(PSNR)和结构相似性(SSIM)值达到了33.85 dB和0.967, 其中PSNR指标高于第2名0.39 dB. 大量实验表明, PDBP-Net优于最先进的辅助学习方法, 并显著提升了图像去模糊的性能, 印证了所提方法的有效性.

