快速检索
    过刊检索
    全选反选导出
    显示模式:
    2025,36(12):5387-5401, DOI: 10.13328/j.cnki.jos.007406, CSTR: 32375.14.jos.007406
    [摘要] (401) [HTML] (35) [PDF 122.12 K] (541)
    摘要:
    编译器是程序开发人员最依赖的性能优化工具之一. 然而, 受限于浮点数有限精度编码问题, 很多编译优化选项会改变浮点计算的语义, 进而导致程序计算结果不一致. 定位程序中导致编译优化结果不一致的语句对于程序性能优化和结果可复现具有重要意义. 当前最先进的方法PLiner采用基于语句精度增强的二分搜索来定位导致编译优化结果不一致的代码段, 受限于对多源问题代码的定位支持不够和搜索效率不高问题. 提出一种浮点指令差异性引导的Delta调试定位方法FI3D, 利用Delta调试中的回溯机制更好地支持多源问题代码定位, 基于不同编译优化选项下函数浮点指令序列的差异性来引导定位. 使用NPB基准测试集中的6个应用、GSL数学库中的10个程序和floatsmith混合精度测试集中的2个程序对FI3D进行了评测, 实验结果显示FI3D能够成功定位PLiner失效的4个测试用例, 且对PLiner成功定位的14个测试用例获得了平均26.8%的性能提升.
    2025,36(12):5402-5422, DOI: 10.13328/j.cnki.jos.007407, CSTR: 32375.14.jos.007407
    [摘要] (325) [HTML] (17) [PDF 110.78 K] (433)
    摘要:
    随着异构融合体系结构在高性能计算领域的普及, 挖掘其潜能并探索新的应用构建策略变得至关重要. 传统的静态编译方法已无法满足复杂计算需求, 动态编程语言因其灵活性和高效性而备受瞩目. Julia是一种现代的高性能动态编程语言, 其基于即时编译机制, 在科学计算等领域表现出色. 结合申威异构众核架构特点, 构建ORCJIT编译引擎并提出了动态模式下的片上存储管理方法, 并以此为基础实现针对新一代神威超级计算机的Julia动态语言编译器swJulia. 其不仅继承了Julia编译器的灵活性, 同时还有效支持了SACA众核编程模型及运行时封装. 利用swJulia编译系统, 成功在新一代神威超级计算机上部署了NNQS-Transformer量子化学模拟器, 并在多个维度验证了swJulia的好用性和高效性. 实验结果显示, swJulia在单线程基准测试和众核加速上性能卓越, 并能够有效支撑NNQS-Transformer量子化学模拟器的超大规模可扩展并行模拟.
    2025,36(12):5423-5437, DOI: 10.13328/j.cnki.jos.007408, CSTR: 32375.14.jos.007408
    [摘要] (1253) [HTML] (7) [PDF 127.10 K] (450)
    摘要:
    随着自动驾驶技术的快速发展, 车辆控制权的接管问题成为研究的热点. 装载辅助驾驶系统的汽车并不能完全处理所有的驾驶场景, 当实际驾驶场景超出辅助系统的操作设计域时, 仍需要人类驾驶员控制汽车以安全完成驾驶任务. 接管绩效是衡量驾驶员接管表现的重要指标, 包括接管反应时间和接管质量两个方面. 接管反应时间是指系统发出接管请求后到驾驶员控制方向盘的时间开销, 接管反应时间长短不仅一定程度上反映了当前驾驶员的状态, 还对后续面对复杂场景进行操作也有一定影响. 接管质量是指驾驶员获得车辆控制权后手动驾驶车辆的质量. 基于CARLA驾驶模拟器, 构建6个典型驾驶场景下, 对车辆控制权接管过程进行仿真并通过多通道采集系统搜集了31名驾驶员的生理信号和眼动数据. 根据驾驶员的接管表现, 参考国际标准基于多个车辆数据提出包括驾驶员接管反应时间、最大横、纵向加速度、最小碰撞时间在内的更为客观的接管绩效评价标准. 综合驾驶员数据、车辆数据和场景数据, 研究利用深度神经网络(DNN)模型对接管绩效进行了预测, 并运用SHAP模型分析各特征的影响, 以提高模型的解释性和透明度. 实验结果表明, 所提出的DNN模型在接管绩效预测方面优于传统机器学习方法, 预测准确率达到92.2%, 且具备良好的泛化性. SHAP分析揭示了心率变异性、驾驶经验、最小安全距离等关键特征对预测结果的重要影响. 为自动驾驶系统的安全性优化和人机交互设计提供了理论和实证基础, 对提高自动驾驶技术中人车合作的效率和安全性具有重要意义.
    2025,36(12):5438-5455, DOI: 10.13328/j.cnki.jos.007409, CSTR: 32375.14.jos.007409
    摘要:
    时序逻辑已被广泛应用于形式化验证和机器人控制等领域, 但是对于非专家用户来说难以掌握使用. 因此, 采用自动化手段从自然语言文本中提取时序逻辑公式, 是至关重要的. 然而, 现有工作受限于需求样本稀疏和自然语言语义模糊等因素, 导致其难以准确地识别自然语言文本中隐含的时序语义, 进而造成最终得到的时序逻辑公式错误表达了原始自然语言的语义. 为了解决该问题, 提出一种基于小样本网络的时序逻辑语义分析方法FSLNets-TLSA, 它采用了数据预处理用来增强文本时序语义逻辑特征, 网络结构由编码器、归纳模块和关系模块组成, 旨在捕捉需求文本的隐含时序逻辑语义信息, 并集成模型增强模块识别监控语义准确度. 在3个公开数据集3533个需求样本上与相似工具上完成实验评估, 其分析的平均准确率、召回率和F1值达到了96.55%, 96.29%和96.42%, 验证了所提方法的有效性.
    2025,36(12):5456-5479, DOI: 10.13328/j.cnki.jos.007414, CSTR: 32375.14.jos.007414
    摘要:
    GUI测试是移动应用质量保障的重要手段之一. 随着移动生态的不断发展, 尤其是国产移动应用(如鸿蒙等)生态的强势崛起, GUI测试脚本跨平台录制回放成为了当前GUI测试的主要挑战之一. 开发者需将传统平台中GUI测试脚本迁移至新兴环境中, 以保证应用质量可靠性与多平台用户体验一致性. 然而, 不同平台间的底层实现差异导致了移动应用测试跨平台迁移的重大障碍, 这一挑战在面向新兴国产移动生态平台的测试迁移方面尤为突出. 移动应用的跨平台测试脚本录制回放是确保应用在不同操作系统和设备上保持一致性和高质量用户体验的关键. 现有技术仅解决了“一对一”事件匹配的情况, 而由于平台间GUI开发实践的不一致性, 测试事件的回放并非完全一对一映射, 而存在普遍的“多对多”映射情况, 即若干测试事件所对应的业务流程在不同平台上对应数量不等的测试事件. 为解决上述问题与挑战, 提出了一种基于大模型语义匹配的跨平台移动应用测试脚本录制回放方法(LLMRR). LLMRR方法结合图像匹配、文本匹配和大语言模型语义匹配技术, 在录制阶段通过图像分割算法记录用户操作信息, 并保存为录制测试脚本; 在回放阶段, 通过图像匹配和文本匹配模块在回放页面上找到对应的控件, 执行操作, 当无法匹配时, 调用大模型语义匹配模块进行语义匹配, 确保在不同平台上的高效运行. 对国产鸿蒙应用的测试进行了探索, 选择了20个应用共100个测试脚本, 在iOS、安卓和鸿蒙平台之间进行迁移测试, 并与当前最先进跨平台测试脚本录制回放方法LIRAT和MAPIT进行有效性对比. 结果表明, LLMRR方法在测试脚本录制回放中均表现出显著优势.
    2025,36(12):5480-5494, DOI: 10.13328/j.cnki.jos.007432, CSTR: 32375.14.jos.007432
    [摘要] (301) [HTML] (9) [PDF 90.76 K] (353)
    摘要:
    边缘服务器(edge server)为移动智能应用提供了低延时、高性能的服务. 然而, 由于边缘服务器上的负载量随时间波动较大, 在负载较低的时刻, 许多边缘服务器处于闲置状态, 其计算资源并没有得到充分利用. 与边缘服务器的利用率不同, 随着人工智能技术在人们生活中的应用越来越广泛, 云计算集群中的计算资源对于深度学习训练作业来说仍较为紧张. 现有的集群调度策略不能有效利用云计算集群外的空闲计算资源, 而有效利用云计算集群外的空闲计算资源可以缓解云计算集群的资源紧张问题, 从而使得更多截止期敏感的深度学习训练作业在截止期之前完成. 针对这一问题, 设计一种面向截止期敏感的深度学习训练作业的集群调度策略, 协同调度云计算资源和空闲的边缘计算资源, 充分利用不同深度学习训练作业的性能特征和空闲的边缘服务器设备, 使得更多的截止期敏感的深度学习训练作业在其截止期之前完成. 最后, 实验结果表明, 云边协同的调度方法在提升作业的截止期满足率方面优于其他基线方法, 并有效地利用空闲的边缘服务器设备, 提高计算资源的利用率.
    2025,36(12):5495-5511, DOI: 10.13328/j.cnki.jos.007433, CSTR: 32375.14.jos.007433
    摘要:
    为了对漏洞进行细粒度检测, 理想的模型必须确定软件是否包含漏洞, 并确定漏洞的类型(即进行漏洞分类). 一系列深度学习模型在漏洞分类任务中取得了良好的整体性能. 然而, 观察到不同漏洞类型之间存在严重的数据不平衡. 许多漏洞类型只有少量的漏洞样本(称为少样本类型), 这导致了对少样本类型的分类性能和泛化能力较差. 为了提高少样本漏洞类型的分类性能, 实现VulFewShot. 这种基于对比学习的漏洞分类框架通过使相同类型的漏洞样本“接近”, 同时使不同类型的漏洞样本彼此“远离”, 从而为仅有少数漏洞样本类型赋予了更多的权重. 实验结果表明, VulFewShot可以提高对所有类型漏洞的分类性能. 类型包含的漏洞样本数量越少, 改进就越显著. 因此, VulFewShot可以提高样本不足的漏洞的分类性能, 并减少样本量对学习过程的影响.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2025-12-10 , DOI: 10.13328/j.cnki.jos.007463
    摘要:
    完全非自回归翻译(fully non-autoregressive translation, Fully NAT)的主要挑战在于, 如何在保持解码速度优势的同时, 达到与自回归翻译(autoregressive translation, AT)相当的翻译质量. 这是因为并行解码的特性使得Fully NAT方法难以捕捉目标端的依赖信息, 从而导致翻译质量下降. 因此, 利用源端的依赖信息来增强模型能力显得十分自然, 尤其是在句法信息已被证明能够有效提升AT方法效果的背景下. 尽管近年来这一领域取得了显著进展, 但关于在Fully NAT中应用句法信息的研究仍然有限. 通过在5个翻译基准(如workshop on machine translation, WMT)上的实验发现, 依存语法信息对Fully NAT方法非常有帮助, 可以显著提升翻译表现, 同时解码速度的损失成本也在可接受范围内. 代码开源地址https://github.com/tianxiexiaozhu77/syngec.
    优先出版日期:  2025-12-10 , DOI: 10.13328/j.cnki.jos.007533
    摘要:
    吉布斯采样的临界行为是计算相变理论所关注的核心问题. 以硬核模型这一经典模型为例, 研究了吉布斯采样在临界点前的快速收敛. 在该模型中, 给定一个最大度为Δ≥3的n顶点图G以及参数λ≥0, 则图G中的每个独立集S以正比于λ|S|的概率被采样. 研究了实现这一采样的经典吉布斯采样算法——Glauber dynamics, 在临界条件λ<(Δ–1)Δ–1/(Δ–2)Δ下, 证明了该采样过程的马尔可夫链具有渐进最优的谱隙为Ω(1/n), 因此这一经典采样算法在该临界点前始终快速收敛.吉布斯采样过程在临界点前的快速收敛是马尔可夫链蒙特卡洛(MCMC) 理论中的一类重要问题. 针对硬核模型上的这一问题, 此前已有若干依赖高等数学工具的证明. 为这个重要问题提供了一个简化的组合证明, 引入计算复杂性归约的思想来分析采样过程的收敛速率.
    优先出版日期:  2025-12-10 , DOI: 10.13328/j.cnki.jos.007570
    摘要:
    结构化数据分析通常需要在表格数据的多维属性上执行联合范围查询, 高效的多维索引因此成为数据库系统的关键支撑. 然而, 现有多维索引方法在高维场景下存在局限: 传统多维索引仅按数据分布进行均匀划分, 缺乏对查询特征的感知, 导致筛选效果有限; 而现有学习型多维索引虽引入查询感知, 但划分往往极不均匀, 使部分单元过大, 扫描成本显著增加. 为了解决上述问题, 提出一种新型的LA-tree学习型树形多维索引, 同时兼顾数据分布与查询负载感知. 在离线构建阶段, LA-tree将节点维度选择建模为最小化查询扫描比的问题, 并提出分层贪心搜索算法, 实现了均匀划分与查询感知的统一. 在在线查询阶段, 引入轻量线性模型与分段线性模型, 将传统的数值比较转化为快速映射计算, 在保证结果完整性的同时显著降低筛选延迟. 在动态场景中, 提出基于扫描量监控的自适应增量更新机制, 通过局部子树重构高效适配数据与查询负载的变化, 避免了整体索引重建的高昂代价. 实验结果表明, LA-tree在多个真实和基准数据集上均显著优于现有方法: 在静态场景中查询用时较最佳基准方法平均降低52%, 在动态场景中更新开销较重构方法减少97%, 同时保持低查询延迟与轻量级索引规模.
    优先出版日期:  2025-12-10 , DOI: 10.13328/j.cnki.jos.007560
    摘要:
    带有递归数据结构, 如列表(list) 和二叉树(tree) 等数据类型的程序, 在计算机领域被广泛使用. 程序验证问题通常将程序转换为可满足性模理论(satisfiability modulo theories, SMT)公式进行求解. 递归数据结构通常会转换为代数数据类型(algebraic data type, ADT)和整数等混合理论的一阶逻辑公式. 另外, 为表示递归数据结构的性质, 程序中通常需要包含递归函数, 递归函数在SMT中则需要通过包含量词和未解释函数的断言来表示. 关注带有ADT和递归函数这两类递归定义SMT公式的求解方法. 从SMT求解器、自动定理证明器和约束霍恩子句(constrained Horn clause, CHC)求解器这3方面对现有技术进行梳理和介绍. 同时, 对主流的求解工具进行统一实验对比, 探究现有求解工具和技术在各类问题上的优势和缺陷, 尝试寻找潜在的优化方向, 为研究者提供有价值的分析和参考.
    优先出版日期:  2025-12-10 , DOI: 10.13328/j.cnki.jos.007507
    摘要:
    随着容器技术的广泛应用, 容器技术的安全性和隔离性受到广泛关注. 目前, 各类容器工具中长期存在大量容器逃逸漏洞, 其中由于容器文件系统隔离不足导致的安全漏洞已成为占比较大的一类安全威胁. 此类漏洞允许攻击者在容器与宿主机交互时操纵容器内文件路径解析过程或窃取宿主机中文件描述符来实施容器逃逸. 各容器工具社区虽实践了多种修复方法, 但仍无法彻底消除此类漏洞, 甚至因修复不彻底而引入了多个同类的新漏洞. 为彻底消除此类漏洞, 需从内核层面完善容器文件系统隔离机制. 因此提出了一种细粒度容器文件系统隔离增强机制, 将容器文件系统隔离从原有仅隔离文件系统挂载点扩展到inode级别. 该机制将对容器内文件的inode进行标识, 以区分容器与宿主机的文件对象, 继而基于标识设计并实施容器与宿主机间的访问控制, 以完成对容器与宿主机间文件系统隔离的增强. 实验表明该机制能够有效阻止所有文件系统相关的容器逃逸漏洞, 引入的平均开销低于2%, 且远低于容器工具提供的漏洞补丁带来的开销.
    优先出版日期:  2025-12-10 , DOI: 10.13328/j.cnki.jos.007508
    摘要:
    随着大语言模型(LLM)技术的迅速发展, 涌现了众多代码大模型(Code LLM), 以支持代码生成、代码补全、代码测试和代码重构等任务. 不同模型在处理相同任务时可能表现出显著的性能差异, 且推理阶段的解码参数也会对模型性能产生重要影响. 研究如何为特定代码开发任务高效地选择最佳模型及其最优解码参数. 现有方法通常将模型选择和参数调优分为两个独立阶段, 由于不同阶段的采样策略差异导致无法共享样本数据, 采样与评估计算成本较高. 考虑到不同代码大模型解码参数空间相同, 提出利用倾向评分匹配(PSM)算法加权调整和对齐不同分布的样本数据, 以提高样本数据复用效率、降低计算成本. 由此提出了一个基于样本重用的代码大模型选择与解码参数调优框架CodeLLMTuner. 该框架包含3个阶段: (1)独立采样阶段, 对多个代码大模型并行执行解码参数调优(如贝叶斯优化)并进行数据采样与评估以收集样本数据; (2)模型选择阶段, 利用PSM技术对齐不同模型的样本数据, 从中选出性能期望最优的模型; (3)获选模型的解码参数调优阶段, 复用获选模型的样本数据, 并在其基础上继续进行解码参数调优, 以全面探索性能空间并显著降低采样成本. 实验结果表明, 在代码生成、代码摘要和测试用例生成这3项任务上, CodeLLMTuner相比基线方法在相同成本下性能提升10%–15%, 或在达到相同性能下成本降低超过20%.
    优先出版日期:  2025-12-10 , DOI: 10.13328/j.cnki.jos.007496
    摘要:
    高维多目标优化问题(many-objective optimization problems, MaOPs)广泛存在于科学研究和工程应用领域. 受高维目标冲突引起的非支配解集数量呈指数增加影响, 传统的多目标进化算法在求解MaOPs时面临计算复杂度增加、解质量降低等困难. 为此, 提出一种基于信息共享的改进双归档高维多目标进化算法 (improved two-archive high-dimensional multi-objective evolutionary algorithm based on information sharing, Two-Arch/IS), 旨在利用双归档算法计算复杂度低、收敛及多样性独立优化等优势特性, 实现高维多目标优化问题的高效求解. 相较于传统的算法, Two-Arch/IS基于空间划分的子种群互映更新策略实现档案库的维护, 进一步增强种群的多样性表现; 其次, 利用基于角度选择与转移密度估计的存档截断策略移除档案库中冗余解, 在进化过程中保持算法的选择压力; 最后, 在种群进化过程中引入边界解驱动的信息补偿机制, 增强收敛性存档和多样性存档间的信息交流, 实现种群个体间的优势互补. 将Two-Arch/IS与其他代表性的算法一同在69个具有2–20个目标的基准测试与真实世界问题上进行性能对比实验. 实验结果表明, Two-Arch/IS算法在高维多目标优化问题上能够有效克服种群收敛性与多样性的冲突, 并在不同性能评价指标上均表现出明显优势.
    优先出版日期:  2025-12-10 , DOI: 10.13328/j.cnki.jos.007498
    摘要:
    大模型在推理任务中的性能表现显著优于传统模型, 但仍难以应对复杂任务对计算成本、回复质量等方面提出的要求. 在此背景下, 模型互联通过构建模型协作范式实现了大模型能力的共享、整合和互补. 串联架构是一种典型的模型协作形式, 其将多个大模型按照链式顺序进行组合, 以逐级优化的方式增强多模型系统的能力. 模型串联中的路由旨在选择合适的串联路径, 其是提高系统能力的关键因素. 然而, 当前模型串联路由评估与选择缺乏对模型协作关系的系统性考量. 为此, 设计一种基于协作关系的模型动态路由方法. 它首先通过互评量化机制建立模型协作关系图谱, 然后利用动态协作路由算法逐跳分析回复并优化路径选择. 互评量化机制利用梯度互评来分析两两模型协作关系质量. 基于所得协作质量信息, 动态协作路由算法采取模型“一致同意规则”分析每一跳回复并确定路径顺序, 从而支持动态路由调整. 实验结果表明, 在基线任务数据集上, 所提路由算法在准确性和回复胜率等方面优于非预设路由及非针对性路由算法. 在OMGEval数据集上的胜率较非预设路由最大可提升45%.
    优先出版日期:  2025-12-10 , DOI: 10.13328/j.cnki.jos.007499
    摘要:
    随着人工智能技术的蓬勃发展和广泛应用, 越来越多的恶意软件检测方法和工具利用深度学习的强大学习能力来检测安卓平台上新出现的恶意软件. 然而, 深度学习模型已经被证明容易受到对抗攻击的威胁. 与此同时, 攻击者已经开始提出多种针对安卓恶意软件检测方法的对抗攻击方法, 即生成对抗性安卓恶意软件, 从而达到绕过恶意软件检测的目的. 现有安卓恶意软件检测方法容易受到对抗攻击威胁的主要原因在于, 这些恶意软件检测方法都建立在单一模态特征之上, 而以单一模态存在的特征却很容易被攻击者恶意性地操控. 因此, 为了提高当前安卓恶意软件检测方法可以抵御对抗攻击的鲁棒性, 提出一种基于多模态融合学习的安卓恶意软件鲁棒检测方法RMDroid, 可以在不影响针对一般性安卓恶意软件检测准确性的基础上, 显著提高其抵御对抗攻击的鲁棒性. 具体而言, RMDroid首先会从待测安卓软件的多种模态中提取多种模态的特征信息, 然后分别利用相应的深度学习模型学习表征相应模态深层语义信息的特征向量, 最后利用异类识别网络降低甚至消除多模态特征中受到对抗攻击干扰的模态特征对最终恶意软件预测的影响, 从而提高其抵御对抗攻击的鲁棒性. 实验结果表明, 所提出的RMDroid在5项有效性指标和1项鲁棒性指标上均优于所有基线检测方法. 特别的, 在误报率FPR相同的情况下, RMDroid的检出率TPR比最好的基线检测方法的检出率TPR高出10%以上; 并且针对最先进的HRAT攻击, RMDroid的鲁棒性值高达96%以上, 显著高于MaMaDroid和MalScan基线检测方法的鲁棒性值.
    优先出版日期:  2025-12-03 , DOI: 10.13328/j.cnki.jos.007494
    摘要:
    图像去模糊因其在安防监控、医学影像处理、遥感图像处理等领域的广泛应用而备受关注. 尽管基于端到端的方法已经取得了巨大的进步, 但单一的U-Net网络难以处理复杂的运动模糊, 而基于辅助任务的恢复方式往往存在参数量大的问题. 此外, 绝大多数方法均无法实现对不同图像模糊位置和模糊程度的精确识别, 而模糊感知往往是决定模型恢复性能的关键因素之一. 受此启发, 提出一种模糊感知引导的渐进图像去模糊算法(progressive image deblurring guided by blur perception, PDBP-Net), 该算法的主要思想是利用辅助任务来生成模糊感知特征图从而引导算法实现更精细的恢复. 首先, 高频差异与图像残差生成子网络(high frequency difference and image residual generative subnetwork, HDIRG-net)采用辅助学习的方式同时生成高频差异特征图和残差图; 然后, 将两者输入高频差异引导的模糊感知模块(blur perception module guided by high-frequency differences, BPGHD)深入融合并提取模糊信息, 从而生成模糊感知特征图. 此外, 为了缓解单网络对复杂场景难恢复的问题, 本模块利用残差图和模糊图生成初步恢复图; 最后, 模糊感知指导的细节恢复子网络(blur perception guided detail restoration subnetwork, BPGDR-net)在模糊感知特征图的指导下对初步恢复图进行有针对性的再优化, 从而生成最终的恢复图. 提出的去模糊模型在多个基准数据集上进行了广泛的评估, 并且与最先进的去模糊方法相比, 取得了显著的优势. 特别地, 在GoPro数据集上, 峰值信噪比(PSNR)和结构相似性(SSIM)值达到了33.85 dB和0.967, 其中PSNR指标高于第2名0.39 dB. 大量实验表明, PDBP-Net优于最先进的辅助学习方法, 并显著提升了图像去模糊的性能, 印证了所提方法的有效性.
    优先出版日期:  2025-12-03 , DOI: 10.13328/j.cnki.jos.007479
    摘要:
    随着区块链技术及应用的不断发展, 人们对区块链之间的交互需求日益增加. 然而, 不同区块链系统之间缺乏有效的互操作性, 限制了区块链技术的进一步发展. 为解决区块链异构互联互通问题, 跨链技术应运而生, 并迅速成为新的研究热点. 其中, 跨链消息传递(XCMP)协议作为最流行的跨链通信协议之一, 不仅提供了一个安全高效的跨链通信机制, 还为未来的区块链创新和应用提供了广阔的平台. 然而, XCMP协议仍然处于不断发展和完善的阶段, 面临着重放攻击、拒绝服务攻击、延迟攻击等安全问题. 对XCMP协议进行了形式化验证与改进, 旨在为在其基础上构建更安全、功能更丰富的去中心化应用提供坚实支撑. 首先, 利用一种以经典集合论和一阶谓词逻辑为基础的形式化描述语言——Z语言, 对XCMP协议的10条关键安全目标、协议内容进行总结提炼与形式化建模, 并借助支持Z语言的自动化验证工具Z/EVES验证XCMP协议是否满足安全目标. 验证结果表明XCMP协议未满足3条安全目标. 其次, 通过对验证结果进行全面分析, 针对XCMP协议未满足的安全目标, 引入承诺机制、监督机制和轮询机制, 提出了E-XCMP (enhanced cross-chain message passing)协议. 最后, 将E-XCMP协议形式化建模, 并借助安全协议分析工具Scyther和自动化验证工具Z/EVES对其安全性和可靠性进行评估, 评估结果表明E-XCMP协议不仅满足上述未满足要求的3条安全目标, 并且能够有效解决重放攻击、拒绝服务攻击、延迟攻击等安全问题, 具有较好的安全性和可靠性.
    优先出版日期:  2025-12-03 , DOI: 10.13328/j.cnki.jos.007481
    摘要:
    时间序列异常检测技术在许多实际应用中发挥着重要作用. 例如, 云原生数据库系统通过监测关键指标 (如CPU和内存使用情况) 实现系统故障的及时识别. 尽管近年来已经提出了许多先进的时间序列异常检测算法, 但研究表明, 在异常检测准确率方面, 不同算法擅于应对不同的应用场景, 没有通用的最佳方法. 因此, 为了实现更高的异常检测准确率, 研究如何基于不同场景的数据特征自动选择最佳时间序列异常检测算法的问题尤为重要. 现有方法通常基于时间序列分类 (TSC) 技术来解决这一问题. 实现方法是利用历史任务积累的数据, 以时间序列为输入、对应的最准确异常检测算法为输出训练分类器, 从而预测未知时间序列的最佳异常检测算法. 尽管这类基于TSC的解决方案能有效提高异常检测准确率, 但现有的标准TSC算法未能充分利用来自异常检测历史任务的知识. 为弥补这一缺陷, 提出一个知识增强的时间序列异常检测框架. 在训练TSC模型时, 不仅使用现有方法普遍采用的、代表每个历史时间序列最佳检测算法的硬标签, 还利用历史数据上所有候选算法的准确率来估计输入时间序列的类别分布, 将其作为软标签来为算法选择器 (即TSC模型) 提供更多关于异常检测算法之间相互关系的知识. 与此同时, 设计了一个外部知识融合模块, 可以灵活地将各类外部知识 (例如时间序列的应用领域及数据与异常特点的描述) 融入TSC模型中. 所提方法能够作为插件无缝集成到任意架构的TSC模型中, 提高其在异常检测算法选择方面的性能. 在多种类型的时间序列数据集上进行大量实验, 验证所提方法的有效性.
    优先出版日期:  2025-12-03 , DOI: 10.13328/j.cnki.jos.007482
    摘要:
    在大规模在线服务系统中, 为了适应快速变化的用户需求和信息技术如连续集成/交付等, 软件变更频繁发生且呈现上升趋势. 尽管工程师会在软件变更上线之前对新版本进行严格的测试, 但由于测试环境与生产环境之间在负载、规模、用户等方面存在诸多差异, 导致部分隐蔽缺陷未能被及时发现, 随新版本发布带入生产环境, 对系统的可用性和稳定性造成影响. 为了更深入地了解缺陷变更在部署到生产环境后的影响和行为, 基于来自全球大规模即时通讯系统微信的真实变更故障数据进行了实证分析, 并得出5个关于缺陷变更的关键发现. 基于实证研究的发现和结论, 提出一种轻量级故障根因变更识别方法. 该方法旨在自动化地识别导致变更故障的根因变更, 从而帮助运维工程师完成根因定位和故障修复工作. 为了验证提出的故障根因变更识别方法的有效性, 在微信的生产环境中采集了包含多种类型缺陷变更的真实数据集, 同时还构建一个微服务基准测试系统的模拟变更数据集, 然后对提出的方法进行系统性评估. 实验结果表明, 所提方法在微信生产环境数据集和模拟变更数据上的故障根因变更Top-3命中率分别达到80%和84%, 并且故障根因变更识别效果显著优于当前最先进的缺陷变更检测方法. 此外, 从工程实践角度, 系统在处理典型规模故障时内存占用仅为2.3 GB, 平均分析时延28.6 s, 满足实际生产环境需求.
    优先出版日期:  2025-12-03 , DOI: 10.13328/j.cnki.jos.007466
    摘要:
    联邦学习 (federated learning, FL)是一种分布式模型训练框架, 允许多个客户端在边缘计算(edge computing, EC)环境中协同训练全局模型, 同时保护客户端的本地数据隐私. 然而, 在边缘网络中进行联邦学习训练时, 常常面临资源受限和数据异构(或称非独立同分布数据)的问题, 这会导致模型训练性能显著下降. 为了应对这些挑战, 提出了一种高效的联邦学习框架——FedAlt, 以提升边缘网络中模型训练的性能 (如测试精度)和减少资源开销. FedAlt 在经典联邦学习算法FedAvg 的基础上, 引入了块级多输出和知识自蒸馏技术, 使客户端在本地训练时能够更有效地吸收模型表征层信息, 从而缓解非独立同分布数据对模型训练的负面影响. 具体而言, 将模型划分为多个连续的模型块, 服务器在每个全局训练轮次开始时仅向客户端发送前部分的全局模型块, 从而减少通信开销. 然后, 客户端将全局模型和本地模型进行组合, 并利用知识自蒸馏技术吸收模型表征层的信息, 以应对数据异构带来的挑战. 此外, 考虑到通信开销随传输的模型块数量增加而增加, 分别在服务器和客户端设计了自适应算法, 即服务器分发模型块算法和客户端块级多输出正则化算法, 根据客户端的数据分布、计算能力和通信能力来动态调整服务器分发的模型块数量. 大量实验结果表明, 与现有方法相比, FedAlt 在有限的通信带宽条件下, 可以提升约 2.64%的平均测试精度.
    优先出版日期:  2025-12-03 , DOI: 10.13328/j.cnki.jos.007462
    摘要:
    以大语言模型(large language model, LLM)为基座的软件编程助手(如Copilot), 能够显著提升程序员开发效率, 但LLM的计算和存储需求大、本地化部署难. 构建轻量化小参数LLM能够满足计算、存储、部署需求, 但其代码生成的精度损失比大参数LLM 大. 知识蒸馏(knowledge distillation, KD)技术, 让小参数LLM (学生模型)在目标训练数据集上拟合大参数LLM (教师模型)的生成分布, 降低代码生成精度损失. 人工智能领域前沿的KD技术基于Kullback-Leibler (KL)散度损失函数, 度量并缩小因学生/教师模型的生成分布差异导致的精度损失, 但学生模型难以学习教师模型的趋零分布区域. 随后, 学者利用反向KL散度损失函数(RKL)解决该趋零分布区域的学习问题. 研究发现, RKL在高概率分布区域存在学习问题, 与KL散度损失函数存在互补性; 对于一些数据, 教师模型生成质量低, 导致学生模型学习效果差. 提出一种自适应知识蒸馏 (adaptive knowledge distillation, AKD)方法, 通过prompt提升教师模型的生成质量, 并构造自适应损失函数, 根据学生/教师模型之间的生成分布差异自适应调整学习的优先级, 确保学生模型在主要概率区域和趋零概率区域均具备学习能力. 基于AKD方法, 利用StarCoder-1B/7B (学生/教师模型)和CodeAlpaca数据, 训练了轻量化代码生成大模型, 并评估代码生成大模型的精度损失及生成代码的质量问题. 实验结果显示, 轻量化代码生成大模型规模降低85.7%, 在HumanEval和MBPP数据集上, 任务提示明确的prompt可以提高教师模型的代码生成质量, 使训练的学生模型降低6%的平均精度损失; AKD方法训练的模型较教师模型(StarCoder-7B)的平均精度损失为17.14%, 较原始学生模型平均降低30.6%; AKD方法训练的模型较前沿的KD和RKD方法的精度损失平均降低19.9%; 关于推理显存需求情况, KD和RKD方法需要54.7 GB, 而AKD方法仅增加3 GB. 关于训练时间方面, AKD方法所需训练时间增加30%; 相较而言, 即使KD和RKD方法训练至相同时长, 他们的平均效果仅提升3%, 相比AKD方法低16.9%. 因此, AKD方法增加的训练成本是值得的. 此外, 将AKD方法应用到CodeLlama和CodeGen系列模型, 相较前沿的KD及RKD方法的精度损失平均降低19.2%, 证明了AKD方法的泛化能力.
    优先出版日期:  2025-11-26 , DOI: 10.13328/j.cnki.jos.007461
    摘要:
    提出一种云存储协助下以用户为中心的数据安全流转方案CADC (user-centric secure cloud-assisted cross-application data circulation scheme), 实现多App环境下移动用户的便捷身份认证与海量数据的按需可信流转, 支撑移动互联网环境下的数据价值充分释放. 形式化的安全性分析表明, CADC能够抵御半诚实的云服务提供商与App服务提供商. 仿真实验结果表明, CADC在用户端与App端具有较高的效率.
    优先出版日期:  2025-11-26 , DOI: 10.13328/j.cnki.jos.007511
    摘要:
    随着深度学习技术和扩散模型的快速发展, 图像及视频生成模型展示了高质量、多样化的强大生成能力. 如何利用这些模型实现高效、精准的个性化生成成为当前研究的热点. 个性化图像生成方法能够通过结合文本描述和用户提供的特定概念或主体, 实现定制化图像的生成, 满足用户对个性化视觉内容的多样化需求. 综述基于扩散模型的个性化图像生成方法, 从生成目标的角度将现有方法分为单主体驱动生成和多概念组合生成两类, 前者聚焦于根据单一主体生成定制化图像, 重点研究如何精确捕捉和重建主体的视觉特征, 后者则专注于将多个概念或主体融合到同一图像中, 解决跨概念语义对齐和视觉一致性等问题. 结合具体任务和应用场景, 对个性化生成代表性工作进行了详细分析. 此外, 比较和总结了常用的数据集、生成模型的评估方法和个性化生成方法间的性能对比, 进一步探讨了个性化生成方法在实际应用中面临的挑战及未来发展方向, 对研究趋势进行了展望. 旨在为相关领域的研究者提供全面的参考, 推动个性化生成方法的发展与创新.
    优先出版日期:  2025-11-26 , DOI: 10.13328/j.cnki.jos.007503
    摘要:
    遗忘学习在隐私保护、减少污染数据影响和冗余数据处理等方面具有重要应用价值, 但现有的遗忘学习方法多用于神经网络等黑箱模型中, 在可解释的TSK模糊分类系统中实现高效的单类和多类遗忘仍面临挑战. 为此, 提出了一种面向分类的TSK模糊遗忘学习方法(TSK-FUC). 首先, 通过各规则的前件参数在(单类或多类)遗忘数据上的归一化激活强度, 将规则库划分为与遗忘数据高相关的删减规则集、与遗忘数据低相关的保留规则集以及与遗忘数据和保留数据关系较为重叠的更新规则集. 继而采取差异化处理策略: 直接剔除删减规则集, 以消除主要信息残留, 并降低分类系统参数量; 完整保存保留规则集, 以缩小遗忘学习过程的参数调整范围; 对于更新规则集, 通过为每个遗忘类添加噪声, 用以进一步消除规则中关于遗忘数据的信息, 从而实现单类和多类遗忘. 实验结果表明, 在16个真实数据集的已建好的0阶和1阶TSK分类系统上, TSK-FUC能够较为准确地划分规则空间, 并结合差异化的处理展现出良好的单类和多类遗忘效果. 该方法在保持规则库可解释性的同时, 使得遗忘学习后的TSK模糊分类系统在结构上更加轻量化.
    优先出版日期:  2025-11-26 , DOI: 10.13328/j.cnki.jos.007505
    摘要:
    HTAP数据库在一套系统中同时支持OLTP和OLAP工作负载. 其中工作负载的识别是查询执行中路由分发的关键, 只有准确识别出查询属于OLTP或OLAP, 才能对查询进行合理优化和分配资源. 因此, 准确识别工作负载类型是HTAP数据库性能的关键因素之一. 然而, 现有的负载识别方法主要基于SQL语句中的规则和成本代价, 以及传统机器学习的方法来区分工作负载. 这些方法没有考虑查询语句的自身特点, 也没有利用执行计划的结构信息, 影响识别工作负载的准确率. 为了提高负载识别的准确性, 提出了一种智能识别OLTP和OLAP工作负载的方法, 该方法通过对SQL语句和执行计划进行特征提取和特征编码, 基于BERT构建SQL语句编码器, 结合树卷积神经网络和注意力机制构建执行计划的编码器, 两种特征融合构建分类器, 该模型能够智能识别HTAP混合负载中的工作负载. 通过实验验证, 模型可以准确识别OLTP和OLAP工作负载, 具有较高的识别准确率. 同时, 在多种数据集中验证了模型的鲁棒性, 并将模型集成到TiDB数据库中验证了其对数据库性能的提升.
    优先出版日期:  2025-11-20 , DOI: 10.13328/j.cnki.jos.007500
    摘要:
    药物推荐旨在依据患者的临床问诊信息, 制定出最适宜的药物治疗方案. 然而, 现有的药物推荐方法往往缺少对患者问诊序列中纵向和结构化特征的有效挖掘. 针对这一问题, 提出了一种端到端的基于多源信息结构化序列建模的药物推荐方法. 具体地, 该方法首先构建了高效的压缩编码器来刻画细粒度的EHR编码信息; 然后, 设计了一个循环注意力网络, 在时间维度上通过掩码注意力机制来捕捉问诊序列中的全局依赖关系, 允许网络在学习时动态地调整历史问诊的权重, 从而更准确地捕获问诊序列的纵向依赖关系; 此外, 通过引入图对比学习策略和知识增强检索模块以提高模型的结构化表征能力, 帮助理解药物之间的结构关系并降低DDI风险. 在MIMIC-III和MIMIC-IV等真实世界数据集上的实验结果表明, 所提方法在多个性能指标上都优于对比方法.
    优先出版日期:  2025-11-20 , DOI: 10.13328/j.cnki.jos.007501
    摘要:
    随着高铁无线通信质量需求日益增长, 高速移动场景下的通信可靠性已成为高铁无线通信中亟需关注和解决的核心问题. 构建可靠的信道模型是解决这一问题的关键. 高铁复合无线通信信道建模应充分考虑实际运行环境与信道传播特性, 以构建通用性强且可靠性高的无线通信信道模型. 在复杂无线信道建模方面, 形式化方法凭借其严谨的数学建模与严格的逻辑推理能力展现出显著优势. 在高架桥这一典型的高铁通信场景中, 结合形式化验证方法, 提出一种基于小尺度衰落模型的复合无线通信信道的高阶逻辑模型. 针对复合信道的长尾分布特性, 运用定理证明技术验证了复合无线通信信道的概率密度函数符合第2类修正Bessel函数的分布.
    优先出版日期:  2025-11-20 , DOI: 10.13328/j.cnki.jos.007440
    摘要:
    近年来, 由于异质图卷积网络能够有效学习异质网络语义信息, 逐渐成为网络节点分类的主流算法, 但仍面临诸多挑战: 现有的大多数工作主要集中在普通异质网络上, 即假设两个节点之间只有一种类型的边, 忽略了多层异质网络中多类型节点间的多重关系, 以及没有显式地探索不同关系对各类节点表征的影响. 此外, 图神经网络的过平滑问题也限制了现有模型仅能捕获低阶的局部信息, 几乎无法学习网络的全局相关信息. 为了应对这些挑战, 提出了一种面向节点分类的多层异质图神经网络(multiplex heterogeneous graph neural network, MHGNN). 具体来说, MHGNN首先学习各类节点在不同关系下的局部初始表征, 再显式地探索不同关系下的表征的重要性以及有效融合不同关系下各类型节点的表征, 从而捕获多层异质网络中不同交互关系的差异性. 其次, 基于微观经济学中的替代品和互补品概念, 构造了考虑全局相似性特征的替代品和互补品矩阵, 并通过图神经网络进行信息聚合, 以更好地捕获不同关系下各类节点之间的高阶全局语义信息. 最后, 通过对比学习协调局部和全局两个视图中学习到的差异性和相似性表征并融合获得最终节点表征. 在6个真实数据集上的广泛实验评估证明所提的MHGNN在节点分类任务上的各项评估指标都显著优于最新模型.
    优先出版日期:  2025-11-13 , DOI: 10.13328/j.cnki.jos.007443
    摘要:
    当前, 显著性目标检测技术正在迅速发展, 但仍然存在一些问题亟待解决. 大多数现有的显著性目标检测方法在处理高分辨率图像任务时, 存在计算资源需求过高或者检测质量较差等问题. 其次, 许多现有算法采用的传统卷积操作缺乏针对性, 无法有效增强边缘细节特征, 导致边缘分割模糊不清. 为了在降低算力消耗的同时提高物体边缘分割质量, 并提升小尺度目标的检测性能, 提出了基于边缘增强的宽解码器显著性目标检测方法. 采用残差网络和Swin Transformer组合结构作为特征编码器, 以降低算力消耗. 并且将传统卷积替换为差分卷积模块, 通过多种不同类型的差分卷积并行使用, 从图像中提取了更加丰富的边缘信息. 设计了多尺度注意力模块, 对4层不同尺度特征进行注意力计算, 以更好地关注不同大小的目标. 此外, 采用含有大卷积核的多级宽解码器, 对融合特征进行长距离的上下文建模, 减少冗余信息, 进一步提升了网络的检测性能.
    优先出版日期:  2025-11-13 , DOI: 10.13328/j.cnki.jos.007419
    摘要:
    自监督学习可以从原始数据中挖掘自监督信号, 在提高推荐性能方面蕴含着巨大的潜力. 然而, 目前基于自监督学习的推荐方法存在两个关键的挑战. 首先, 大多数自监督推荐模型采用对同一节点随机扰动的方式, 将生成的不同结果作为自监督信号, 然而, 由于推荐系统中存在着广泛的同质性, 这种方式会忽略邻居节点信息, 影响推荐性能. 其次, 用户-物品之间的历史交互信息以及用户与用户之间的社交关系信息是目前基于自监督学习推荐模型关注的焦点, 而忽略了物品之间的内在联系, 同样会导致产生的自监督信号不够充分. 基于这些挑战, 提出一种基于多视角的自监督推荐方法, 分别从偏好视角、用户视角、物品视角考虑, 进而使用多视图共同训练的自监督学习方法, 结合用户之间的社交关系、物品之间的类别关系、用户-物品之间的历史交互信息, 充分挖掘自监督信号. 在3个真实的公开数据集上进行实验, 实验结果验证了基于多视角的自监督学习方法在改进推荐性能方面是有效的.
    优先出版日期:  2025-11-13 , DOI: 10.13328/j.cnki.jos.007495
    摘要:
    软件IP (intellectual property)是具有知识产权的可复用的软件知识实体, 是软件智能合成的基石. 针对嵌入式系统的关键特性, 提出了面向嵌入式系统的软件IP通用模型, 包括知识模型、形式模型和实现, 并且讨论了它们三者之间的一致性关系. 与目前的主流模型相比, 提出的方法充分考虑了嵌入式系统的关键特性、系统对环境和平台的假设、软件中间知识的表示和使用、模型组装的正确性, 以及模型与实现之间的关系, 因此具有明显的优势. 提出的嵌入式软件IP通用模型在一定程度上揭示了软件构成的本质, 即软件并非代码的集合, 而是知识、规约和代码的三位一体. 此外, 为了简化软件IP的使用, 根据不同的使用目的(关注点), 将软件IP表示为不同的视图. 最后, 提出从存量嵌入式软件资产提取软件IP的方法, 并且通过实际案例展示了提取方法的有效性和可行性.
    优先出版日期:  2025-11-05 , DOI: 10.13328/j.cnki.jos.007460
    摘要:
    聚焦于教学视频(instructional videos)中的操作规划(procedure planning)问题, 探讨如何根据给定的开始和结束视觉状态, 在教学视频提供的动作空间中规划出一条将开始状态转变为结束状态的动作序列. 教学视频以记录和展示各种事件的操作过程为特点, 每个事件对应一组特定动作, 从而形成事件的动作空间. 多个事件的动作空间共同构成了教学视频的整体动作空间. 传统方法未能充分挖掘事件的语义信息, 过于依赖强化学习等复杂训练方法, 既增加了算法设计的复杂性, 又导致模型的可解释性较差. 针对这些问题, 结合教学视频的特点, 提出了一种基于分类检索的操作规划方法CPP (classification-based retrieval procedure planner), 分阶段解决操作规划任务. 具体而言, 该方法首先通过视觉状态识别事件类别, 将动作空间限定在一个较小的子空间内, 显著降低规划的复杂性; 随后, 在该子空间中进行动作序列的规划. 此外, 提出了一种混合规划策略, 将动作序列的检索与预测相结合, 进一步提升了规划性能. 实验结果表明, 方法在3个不同规模的教学视频数据集上均取得了显著效果, 为操作规划任务提供了一种简单而高效的基准方法.
    优先出版日期:  2025-11-05 , DOI: 10.13328/j.cnki.jos.007439
    摘要:
    研究目标是从未标记的图数据中学习健壮的图表示. 开发了一种结构关系建模框架 (structural relation modeling, SRM), 用于自监督图表示学习, 缓解了由未标记数据和图拓扑不平衡引起的固有限制. 首先, 与大多数现有方法专注于局部结构或节点嵌入不同, 通过在统一框架内对节点、子图和整个图之间的复杂关系(即局部-全局关系和节点相关性)进行建模来捕捉图结构. 这有助于更好地理解图的拓扑结构, 并利用结构自监督信号. 其次, 引入了一种基于分区的子图采样机制, 通过小批量训练缓解了由图拓扑不平衡引起的过度聚合和拓扑衰减. 该机制确保更均匀的信息传播. 第三, 施加了一种节点正则化策略, 以提高训练的稳定性和效率, 产生更精确的结构表示. 对12个公共数据集进行的节点和图分类的广泛实验证明了所提方法的有效性和普适性.
    优先出版日期:  2025-11-05 , DOI: 10.13328/j.cnki.jos.007484
    摘要:
    软件配置是软件系统的重要组成部分, 在增强软件功能多样性和灵活性方面具有重要作用. 而随着软件系统越来越复杂, 软件配置项之间复杂的约束关系成为困扰运维人员的问题. 因此研究人员提出了基于不同数据源、使用不同技术的配置约束提取方法, 来识别软件配置之间的复杂约束关系. 然而, 这些方法存在难以应用于多种编程语言、分析规模有限、对高质量有标注数据需求大等多种问题, 针对上述问题提出了一种基于大语言模型的配置间约束提取方法LLM-Extractor. 该方法包括了配置-功能关联图构建和基于多配置关联子图的配置约束推断两个部分. 在配置-功能关联图构建阶段, LLM-Extractor借助大语言模型强大的文本理解和分析能力, 从配置文本中识别配置和软件功能相关的实体, 并抽取多种关联关系. 在配置间约束推断部分, LLM-Extractor在已有配置-功能关联图上搜索多配置关联子图, 并依据关联子图信息引导大语言模型推断配置间约束. 基于多配置关联子图的配置间约束推断方法让LLM-Extractor能够提取通过软件功能状态传递的配置约束, 填补了已有方法的空缺, 同时具有对编程语言不敏感、分析规模大的特点. 在3个开源软件系统的配置文档上评估了方法的效果, 分析了超过1400个软件配置项, 实验结果表明, LLM-Extarctor的效果相对已有的文本分析方法具有显著提高, F1分数有至少43.4%的提升. 消融实验的实验结果进一步表明, 多配置关联子图对于配置间约束推断方法的效果具有重要的积极影响.
    优先出版日期:  2025-11-05 , DOI: 10.13328/j.cnki.jos.007485
    摘要:
    近年来, 许多研究提出利用共识机制增强网络层安全性. 然而, 现有共识机制存在密钥维护数量多、信任关系传递不灵活和节点身份验证开销大等局限, 难以满足网络层功能的性能需求. 为解决这些问题, 提出一种基于真实源地址验证技术的轻量共识框架. 该框架在多个层次上优化共识效率: 首先, 针对同一地址域内的共识节点, 该框架利用真实地址作为身份识别标志, 通过域内节点共享同一密钥的方式实现密钥聚合, 从而大幅降低所需维护的密钥数量; 其次, 在地址域的粒度上, 该框架构建以真实地址为信任基础的网络信任联盟, 基于前缀树聚合可信地址域, 从而在实现灵活信任传递的同时, 进一步降低所需维护的密钥数量; 最后, 在节点层面, 针对传统共识节点身份验证开销大的问题, 该框架设计基于真实地址和对称密钥的分步验证机制, 从而有效降低共识开销, 实现共识过程轻量化. 仿真实验证明, 所提出的轻量共识框架与基于ECDSA身份验证的共识机制相比, 平均可提升70%共识吞吐量并降低40%共识计算开销, 显著提升了共识效率.
    优先出版日期:  2025-11-05 , DOI: 10.13328/j.cnki.jos.007489
    摘要:
    命题可满足性问题(SAT)和可满足性模理论问题(SMT)是重要的计算机科学基础问题, 其在电路设计, 软件分析验证等领域都有着重要应用, 并且目前已有大量工作对其求解技术进行研究. 在实际应用场景中, SAT/SMT求解器通常需要求解一系列互相紧密联系的公式. 相比于每次都调用独立的求解器重新求解, 增量求解技术可以复用之前搜索得到的信息, 包括之前的求解结果以及学习子句等, 从而有效提高了求解效率. 目前, 增量SAT/SMT求解已经受到广泛重视与研究, 并成功应用于有界模型检测, 符号执行, 最大可满足性问题等领域中. 对增量SAT/SMT的求解技术进行详细综述与梳理, 涵盖了完备与非完备算法. 此外, 详细总结增量SAT/SMT求解技术在实际场景中的主要应用. 最后, 对该领域的发展方向进行总结和展望.
    优先出版日期:  2025-11-05 , DOI: 10.13328/j.cnki.jos.007510
    摘要:
    在现代软件开发中, 频繁的代码提交和更新已成为常态, 虽然加速了功能实现, 但更可能会引入新的缺陷, 进而威胁软件的稳定性和可靠性. 一旦缺陷导致程序错误或故障, 开发团队必须迅速采取行动隔离缺陷以确保系统持续正常运行. 缺陷隔离是快速定位问题并恢复系统稳定性的关键技术手段, 但传统的增量调试(delta debugging, DD)方法依赖大量测试尝试, 导致在变更集合较大时性能瓶颈明显, 且缺乏对代码变更语义的有效利用, 无法精准定位与缺陷相关的代码变更. 提出了一种基于代码变更语义拆解的缺陷隔离方法——DISAC. 该方法通过将缺陷引入的复合提交拆解为具有单一功能语义的原子提交, 并通过建模提交之间的顺序依赖关系, 确保隔离过程中不破坏变更间的前置依赖. 与传统的DD方法相比, DISAC不仅能够返回最小的功能语义变更, 还能保留必要的上下文和依赖信息, 从而为开发人员提供更完整、精确的缺陷修复支持. 实验结果表明, 与DD方法相比, DISAC在缺陷隔离效率和精度上均有显著提升. 具体而言, DISAC在Defects4J数据集上的隔离效率提高了633.65%, 在回归缺陷集上的效率提升了733.75%. 此外, 当DISAC与DD结合使用时, 约减率分别提高了2.36%和8.66%, 显著提高了隔离效果. 用户实验显示, DISAC能提高根因确定效率约59.90%, 准确率提升12%. 这些结果表明, DISAC在提高缺陷隔离精度的同时减少了不必要的变更组合尝试, 从而在复杂代码提交的缺陷隔离任务中表现出更高的效率和稳定性.
    优先出版日期:  2025-11-05 , DOI: 10.13328/j.cnki.jos.007456
    摘要:
    UML活动图是软件需求分析的重要工具. 实现由需求文本生成UML活动图流程的自动化有助于缩短软件开发时间, 降低人力成本. 现有的UML活动图自动生成方法通过人工编写或数据驱动的方式来构建规则, 从需求文本中提取活动图图元素及其关系. 然而, 这些方法通常只考虑到需求文本的语法特征, 忽略了需求文本的语义特征, 导致自动生成的UML活动图中可能出现图元素错误或冗余. 因此, 提出一种融合中文需求文本语义特征的UML活动图自动生成方法. 该方法结合需求文本与UML活动图的相关性、需求文本的时序性提取UML活动图图元素及其关系, 弥补了现有方法易受需求文本中无关信息干扰、难以正确识别并表示多种类型业务活动的缺陷. 在100个工业界实际应用案例上的消融和对比实验结果验证了该方法在UML活动图的完整性、正确性和冗余性方面较其他主流方法的优越性.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007426
    摘要:
    随着物联网的快速发展, 越来越多智能终端设备采集大量患者的医疗数据进行辅助医疗, 具有十分重要的医疗研究价值. 然而, 这些医疗数据通常涉及患者的敏感信息, 且医疗数据在聚合和传输过程中可能面临数据篡改和未经授权访问等安全问题. 为了解决上述安全与隐私问题, 同时支持医疗数据的细粒度的聚合统计分析, 提出了基于TEE (trusted execution environment) 安全高效细粒度统计分析与可验证数据聚合方案. 该方案对mm2 双消息类型BGN同态加密算法进行了改进, 并结合了数字签名等技术, 确保了医疗数据的机密性和完整性. 采用了一种可验证的聚合签名算法, 实现了医疗密文数据的批量验证, 降低了认证成本. 通过将医疗密文数据复杂的统计分析过程转换成为TEE内的统计分析过程, 提高了医疗数据的统计分析的效率, 同时也降低了计算代价. 采用边缘服务器对研究中心进行授权访问的机制, 实现了医疗数据的细粒度统计分析. 在性能分析方面, 该方案在统计分析侧和数据拥有者侧的计算开销方面具有明显优势.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007435
    摘要:
    政务问答系统能实时处理政务咨询, 在降低人工咨询压力的同时提高了企业和群众的办事效率. 政务问答系统的服务场景多样且重视回答表述的准确规范, 现有方法或基于预设知识库产生回答, 或基于规模有限的语言模型生成回答, 均无法在多服务场景下有效理解咨询并生成准确且可解释的可信回答. 为此, 提出一种基于大语言模型的政务问答技术以实现可信政务回答. 所提方法以政务大语言模型为内容理解和生成的核心模块并由分析引导模块和领域知识库模块辅助. 政务大语言模型生成咨询回答时参考分析引导模块提供的咨询分析结果和领域知识库模块提供的咨询相关领域知识, 并针对咨询生成内容表述与事实一致的准确回答. 生成回答时参考的信息可作为回答依据提升回答的可解释性. 为构建方法涉及的相关模块并测试其有效性, 收集并整理了一个包含多层次多粒度政务公开信息的综合性数据集, 其中包含1901篇文档和10503条问答对数据. 最后, 通过实验分析验证了基于该方法实现的原型系统能在多服务场景下针对用户咨询生成表述准确且可解释的可信咨询回答.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007483
    摘要:
    移动对象的来源丰富、获取简单、运动频繁, 导致数据量呈现爆发式增长, 高效管理移动对象数据的需求日益增加, 使得移动对象数据的索引及查询成为亟待解决的热点问题. 传统的移动对象索引基于空间划分, 能够有效地处理对象的空间位置和时间变化, 但由于移动对象的动态特性需要频繁更新索引, 在对象数量庞大时会导致维护成本显著增加. 学习索引作为新型索引技术, 可以运用机器学习方法提高查询效率, 降低存储成本, 但学习索引并不适用于具有多维特性的移动对象数据. 为此, 提出了一种基于非均匀网格降维的学习索引NUGC_LI, 使用类似B+树的递归层次模型结构. 该学习索引分为根节点、内部节点和叶子节点这3个部分, 使用多阶段线性模型对灵活划分后的数据分布进行拟合学习, 并在叶子节点中设置有空隙的数组和节点关键值范围, 提高节点更新和查询效率. 同时, 对真实出租车轨迹、系统仿真火车轨迹和随机生成轨迹数据集分别建立了B+树、RMI、ALEX、NUGC_LI、3DR树与TB树索引. 真实数据集、仿真数据集和随机数据集中涉及的轨迹点分别约917000个、51544个和5222752个. 通过对比实验与伸缩性测试, 在索引构建上, NUGC_LI相较于TB树、3DR树、B+树、RMI和ALEX分别降低了约91.45%、89.63%、90.38%、87.46%及13.71%的构建时间; 在更新操作上, 其更新时间降低至少93.76%. 基于NUGC_LI的范围查询、最近邻查询和相似轨迹查询在大数据量条件下均显示出显著优势, 查询时间分别至少比ALEX降低8.74%、30%和16.07%; 比RMI降低29.38%、77.44%和25.24%; 比B+树降低52.72%、92.44%和70.5%; 比3DR树降低53.09%、91.2%和67.58%; 比TB树降低52.67%、90.43%和67.47%. NUGC_LI索引在多任务负载下不仅具备较高的扩展性, 而且在构建、更新以及查询操作中均实现了显著的性能提升.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007492
    摘要:
    临床12导联心电图(ECG)是测试心脏活动最常用的信号源, 其自动分类及可解释性对心血管疾病的早期筛查和诊断至关重要. 现有的ECG分类研究多集中于单标记分类, 即每条心电记录仅对应一种心功能障碍, 而在临床中, 心血管疾病患者常常伴有多种并发心脏疾病, 因此多标记ECG分类任务更符合现实需求. 现有基于深度网络的多标记ECG分类方法主要聚焦于标记相关性分析或神经网络架构的改进, 而忽略了多标记学习中的本质问题, 即天然存在的正负标记不平衡. 为此, 提出一种策略, 即每次仅推开一对标记使得正负标记在训练过程中维持平衡. 具体而言, 最大化正负标记之间的间隔并由此导出一个新的损失函数, 以缓解正负标记不平衡问题. 此外, 针对现有ECG方法可解释性不足, 难以辅助诊断的问题, 引入时域显著性重缩放方法对提出方法的实验结果进行可视化展示, 以辅助定位并解释不同的疾病. 在PhysioNet Challenge 2021 ECG标准数据集上(包含8个子集)进行实验, 结果表明与最先进的多标记ECG分类方法相比, 所提方法取得了更优的性能.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007457
    摘要:
    差分-线性分析是的一种组合类分析方法, 已经被应用于许多对称密码的分析中. 特别地, 对于ARX类分组密码算法SPECK, 差分-线性分析是评估其安全性的一种强有力的方式. 在最新的差分-线性分析框架中, 密码算法被分解为3部分: 差分部分、中间部分和线性部分, 其中差分部分、中间部分和线性部分分别包含高概率的差分特征, 高相关性的差分-线性逼近和高相关性的线性逼近, 组合3部分特征可以得到一个完整的差分-线性区分器. 对于ARX类对称密码算法, 在传统的差分-线性区分器的搜索过程中, 通常是首先借助实验方法来计算得到中间部分一个高相关性的差分-线性逼近, 然后再分别向前向后搜索线性特征和差分特征, 但是该策略容易忽视掉一些好的差分-线性区分器. 区别于传统的搜索算法, 该算法结合高相关性的差分-线性逼近中差分部分和线性部分的特点, 从高概率的差分特征和线性特征出发, 给出一个差分-线性区分器搜索算法. 将所提搜索算法应用于SPECK中, 首次得到SPECK32的11轮差分-线性区分器和SPECK48的12轮差分-线性区分器. 所提区分器都优于SPECK32和SPECK48目前已知最好的差分-线性区分器.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007477
    [摘要] (44) [HTML] (147) [PDF 1.10 M] (81)
    摘要:
    随着鸿蒙生态系统的快速发展, 鸿蒙应用的安全问题逐渐成为研究重点. 在安卓领域, 已有多种成熟的静态分析框架广泛应用于安全检测任务. 然而, 针对鸿蒙应用的静态分析框架尚处于初步发展阶段. OpenHarmony社区正在基于鸿蒙应用ArkTS源代码开展静态分析, 但在实际的安全检测任务中, 应用源代码往往难以获取, 限制了其适用范围. 为缓解上述问题, 提出一种基于方舟中间表示(Panda IR)的鸿蒙应用静态分析框架. 该框架提供方舟Panda IR的基本信息接口, 设计适应ArkTS语法特性的字段敏感指针分析算法, 并实现与指针分析交互的拓展分析接口. 具体来说, 对Panda IR中的318条指令进行语义分类和处理, 进一步定制化设计指针流图. 为了支持ArkTS语法特性, 新增指向集合传播规则, 对特殊调用的相关语义进行准确建模. 此外, 基于指针分析结果优化过程间数据依赖关系并提供别名分析能力. 从ArkTS语法特性覆盖性, 指针分析精度和指针分析速度这3个方面对HarmonyFlow进行实验评估. 实验结果表明, HarmonyFlow可以正确处理ArkTS的关键语法, 在9个开源鸿蒙应用上调用边识别的精确率和召回率分别为98.33%和92.22%, 在35个真实鸿蒙应用上的平均运行时间为96 s.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007488
    [摘要] (32) [HTML] (113) [PDF 1.85 M] (61)
    摘要:
    随着编译技术的不断进步, 现代编译器支持了更为丰富的编程模型和复杂的编译优化, 使得手动调整编译选项以获得最佳性能变得非常困难. 尽管已有多种自动化的编译调优方法被提出, 但是面对庞大的搜索空间, 传统的启发式搜索算法很难避免陷入局部最优解. 同时, 现有调优方法主要针对单核或多核架构设计, 这限制了它们在大规模并行计算系统中的应用. 为了解决这些问题, 设计并实现基于机器学习方法的分布式编译调优框架SWTuner, 通过引入AUC-Bandit分布式元搜索策略、机器学习模型指导的性能预测以及基于SHAP的编译选项分析及筛选等技术手段, 有效提升了编译调优过程中的资源利用率和搜索效率. 实验结果显示, SWTuner在神威新一代超级计算机上对典型测试用例的调优中表现出色, 相较于其他调优方法, 其不仅缩短了搜索时间, 还能够显著降低搜索过程中的实际运行功耗. 在调优过程中, SWTuner所使用的随机森林模型显示出了良好的泛化能力和预测准确性, 并且在保证调优效果的前提下有效降低了搜索空间的维度, 为高性能计算中的自动编译调优提供了一个高效且可靠的解决方案.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007490
    摘要:
    5G车联网通过将5G技术应用于车联网来实现高速的信息传输. 然而, 随着车辆数量的急剧增长, 采用传统单一第三方生成密钥容易引发单点故障问题, 同时无线通信会面临消息被拦截、篡改以及大量不可信的虚假消息干扰网络等风险. 为应对这些问题, 提出一种基于区块链的半分布式消息认证加密方案. 首先, 设计基于联盟区块链的半分布式密钥生成与分布式信息共享框架, 通过5G基站提供全覆盖的网络, 并由各区域的车辆管理中心充当联盟链的全节点来维护区块链的正常运行, 而车辆作为轻节点加入区块链, 仅可查看区块链上存储的信息. 其次, 设计了无双线性运算的无证书签名算法, 确保消息来源可认证, 并使用反向哈希链生成信誉票证来加解密消息, 保证消息的机密性. 然后, 针对不可信的虚假消息问题, 为车辆设置信誉值, 传播虚假消息将导致其信誉值下降, 以此约束车辆行为, 进而从源头减少虚假消息数量. 最后, 安全性分析与实验结果表明, 所提方案能够保障通信安全, 并通过实现半分布式密钥获取有效缓解单点故障风险, 同时防止篡改、重放和假冒等攻击. 此外, 该方案的计算和通信开销较低, 满足车联网的时效性需求, 且执行信誉值更新合约的 Gas 成本较低, 进一步说明所提方案具备良好的实用性和可行性.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007491
    摘要:
    随着计算机视觉技术的不断进步, 细粒度图像识别在众多应用领域中发挥着重要作用. 与传统的粗粒度图像识别不同, 细粒度图像识别着重于在同一大类别下对具有细微视觉差异的子类别进行精确划分, 因此该任务更具有挑战性. 近年来, 视觉Transformer以其在全局上下文信息建模方面的出色表现而被广泛应用于图像识别领域. 然而, 当应用于细粒度图像识别任务时, 视觉Transformer在处理细节特征和背景噪声方面却存在一定的局限性. 针对上述问题, 提出一种基于视觉Transformer的双视图融合识别框架, 有效融合细粒度图像的全局视图与局部视图以提升识别准确率. 该框架设计了一个基于注意力融合的冗余信息过滤模块, 在编码器内部通过层级注意力权重的融合筛选图像块特征, 以优化全局视图的分类标记嵌入. 同时, 还设计了一个基于注意力阈值的关键区域定位模块, 通过自适应阈值策略动态选定并放大全局视图中的关键区域, 形成细致的局部视图以供再次分析. 此外, 所提出的局部区域特征自适应增强模块进一步增强了对局部细节的关注, 有效提升了细粒度特征的辨识能力. 为优化此双视图融合框架, 提出了基于双视图相似度的对比损失函数和基于双视图置信度的自适应推理策略, 旨在增强视觉Transformer模型输出的全局与局部特征辨识性, 同时有效节约计算资源并缩短推理时间. 在CUB-200-2011、Stanford Dogs、NABirds和iNaturalist2017这4个公共数据集上的实验结果表明, 该方法相较于传统视觉Transformer模型在识别准确率上实现了显著提升, 展示了其在细粒度图像识别任务中的有效性和优越性.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007487
    [摘要] (38) [HTML] (124) [PDF 2.85 M] (54)
    摘要:
    现有静态恶意软件相似性度量方法受到静态免杀技术影响, 模型使用的特征易被混淆或者恶意软件语义未被充分挖掘. 提出一种基于异质图匹配网络的恶意软件相似性度量方法HGMSim (heterogeneous graph matching network-based similarity)解决上述问题, 该方法首先利用反汇编工具IDA Pro提取恶意软件的函数调用图, 将函数调用图抽象为异质图, 充分挖掘函数调用图中不同类型函数节点和函数调用关系的异质语义. 同时, 为了挖掘不同函数调用图节点之间的隐式邻居语义, 对两个函数调用图中相似的同类型函数节点建立跨图边, 构建异质图匹配网络. 然后, 提出基于局部点图匹配的异质图嵌入方法并实现恶意软件相似性度量, 解决现有方法对不同家族之间图结构高度相似恶意软件难区分的问题. 最后, 通过对比实验验证HGMSim在恶意软件相似性度量方面具有最佳的性能表现.
    优先出版日期:  2025-09-28 , DOI: 10.13328/j.cnki.jos.007473
    [摘要] (93) [HTML] (166) [PDF 2.11 M] (154)
    摘要:
    根因分析是指找出引起复杂系统异常故障的根源因素. 基于因果关系的溯因方法基于结构因果模型, 是实现根因分析的最优选择之一. 目前大多数因果驱动的根因分析方法大都需要数据因果结构的发现作为前置条件, 这使得根因分析本身严重依赖于因果发现这一先验任务的效果. 最近, 基于得分函数的干预识别受到了广泛关注, 其通过对比干预前后的得分函数导数的方差来检测被干预的变量集合, 具备突破因果发现对根因分析约束的潜力. 然而, 主流的基于得分函数的干预识别大都受限于得分函数估计这一步骤, 其采用的解析求解方法并不能很好地对真实的高维复杂数据分布进行建模. 因此, 鉴于最近在数据生成中取得的进展, 提出一种扩散模型引导的根因分析策略. 具体来说, 所提方法首先利用扩散模型针对异常发生前后的数据分布对应的得分函数进行估计, 进而通过观察对加权融合后的总体得分函数的一阶导方差, 识别导致异常发生的根因变量集合. 此外, 为了进一步减小在识别过程中剪枝操作带来的扩散模型重复训练的开销, 提出一种可靠的估计策略, 其只需要训练一次扩散模型即可估计所有剪枝过程中对应节点的得分函数. 在仿真数据和真实数据上的实验结果表明, 所提出的方法实现了对于根因变量集合的精准识别. 此外, 相关的消融实验也表明, 扩散模型的引导作用对于表现提升至关重要.
    优先出版日期:  2025-09-28 , DOI: 10.13328/j.cnki.jos.007474
    [摘要] (86) [HTML] (363) [PDF 2.76 M] (152)
    摘要:
    GitHub是目前最流行的开源项目管理平台之一. 由于团队协作的需要, GitHub引入了问题报告跟踪功能方便项目使用者提交和追踪项目中出现的问题或新功能请求. 问题报告贡献者在解决问题报告时, 通常需要执行故障复现测试用例来复现问题报告中提到的问题并验证问题报告是否解决. 然而, 在SWE-bench Lite数据集上进行实证研究发现, 有近90%的问题报告在用户提交时没有附带故障复现测试用例, 这导致问题报告贡献者在解决问题报告时还需额外编写故障复现测试用例, 带来了额外的工作负担. 现有的故障复现测试用例生成技术通常依赖错误栈信息, 然而GitHub问题报告中并未明确要求有这类信息. 因此, 提出基于大语言模型的故障复现测试用例生成方法, 旨在自动化地为GitHub问题报告生成故障复现测试用例, 帮助问题报告贡献者复现、理解并验证问题报告, 提升问题报告解决效率. 该方法首先通过检索与问题报告相关的多样化代码上下文信息, 包括报错根函数、import语句和测试用例样本, 随后构建精确的prompt, 以引导大语言模型生成有效的故障复现测试用例. 开展对比实验和消融实验, 验证所提方法在面向GitHub问题报告的故障复现测试用例生成任务上的有效性.
    优先出版日期:  2025-09-28 , DOI: 10.13328/j.cnki.jos.007475
    摘要:
    针对隐私保护卷积神经网络预测, 先前的研究采用同态加密、安全多方计算等方法来保护客户端隐私敏感数据. 然而, 这些方法通常面临预测时间开销过大的问题. 为了解决此问题, 提出一个高效的隐私保护卷积神经网络预测方案. 该方案根据卷积神经网络中线性层和非线性层不同计算特点, 设计矩阵分解计算协议和参数化二次多项式近似ReLU激活函数方法, 从而实现了线性层和非线性层高效安全计算, 并缓解了近似处理而导致的预测准确率损失. 在线性层和非线性层中的计算都可以通过轻量级密码原语秘密分享来完成. 理论分析和实验结果表明, 在保证安全性前提下, 所提方案将预测速度提高了2–15倍, 同时预测准确率损失仅约为2%.
    优先出版日期:  2025-09-28 , DOI: 10.13328/j.cnki.jos.007476
    [摘要] (82) [HTML] (143) [PDF 900.19 K] (131)
    摘要:
    黑盒漏洞扫描器是用于Web应用漏洞检测的重要辅助工具, 能够在Web应用正式上线前有效识别潜在的安全威胁, 从而提升Web应用的整体安全性. 当前大多数黑盒扫描器主要通过模拟用户操作和正则匹配来收集攻击面. 然而, 模拟用户操作容易被输入验证机制拦截, 且难以处理复杂的事件操作, 而正则匹配方法无法有效处理动态内容. 这导致扫描器难以有效处理JavaScript代码中的隐藏攻击面和动态生成的攻击面, 使其在部分Web应用中漏洞检测效果不佳. 为解决上述问题, 提出一种基于JavaScript代码分析的漏洞扫描器增强框架JSEScan. 该框架结合静态与动态代码分析技术, 绕过表单验证和事件触发的限制, 通过提取JavaScript代码中攻击面的特征, 实现JavaScript代码中攻击面的挖掘, 并且攻击面将被同步至多种扫描器, 从而增强其漏洞检测能力. 实验结果表明, JSEScan能将单个扫描器的代码覆盖量提高81.02%–242.15%, 并且相比于多扫描器同时工作的情况, 额外发现239个安全漏洞, 具备更强的攻击面收集能力和漏洞检测能力.
    优先出版日期:  2025-09-24 , DOI: 10.13328/j.cnki.jos.007465
    [摘要] (57) [HTML] (82) [PDF 13.33 M] (142)
    摘要:
    随着商家评论网站的快速发展, 网站上的内容越来越多, 用户难以在短时间内获取到有价值的评论. 引入了一项名为“多模态定制化评论生成”的新任务. 该任务旨在为特定用户生成他们尚未评价的产品的定制化评论, 这有助于为用户对特定产品提供宝贵的意见. 为实现这一目标, 探索了一种基于预训练语言模型的多模态评论生成框架. 具体而言, 采用了一种多模态预训练语言模型. 该模型接受产品图片和用户偏好作为输入. 之后对视觉和文本特征进行融合, 从而生成定制化评论. 实验结果表明, 该模型在生成高质量的定制化评论方面具有显著效果.
    优先出版日期:  2025-09-24 , DOI: 10.13328/j.cnki.jos.007451
    [摘要] (85) [HTML] (71) [PDF 1.30 M] (137)
    摘要:
    作为人工智能的基础设施, 深度学习框架已经成为人工智能实现跨越发展的重要突破口. 但是由于缺乏统一标准, 不同框架的兼容水平较差. 忠实模型转换通过将源模型迁移为另一种目标框架下的等价模型, 来增强框架间的互操作性. 然而, 深度学习框架数量较多且相互间差异较大, 并且自主框架的需求逐渐增多, 互相转换成本较高. 因此, 提出基于领域知识图谱的框架间AI源码自动迁移方法. 该方法基于领域知识图谱和抽象语法树来系统地处理迁移挑战, 首先将源代码转换为特定的抽象语法树, 提取通用依赖信息和特定算子信息, 然后再利用存储在领域知识图谱中的框架间算子及参数映射关系来迁移到目标框架下, 形成目标框架下的目标模型代码, 大大降低了工程复杂度. 对比同类型的代码迁移工具, 所提方法可以在国内外流行深度学习框架如PyTorch、PaddlePaddle和MindSpore之间进行互相迁移, 达到了较好的成熟度和质量, 部分成果已经开源到百度官方迁移工具PaConvert中.
    优先出版日期:  2025-09-17 , DOI: 10.13328/j.cnki.jos.007453
    [摘要] (130) [HTML] (42) [PDF 2.12 M] (164)
    摘要:
    关键类是理解复杂软件的极佳起点, 不仅有助于优化软件的文档化过程, 也有助于压缩逆向工程得到的类图. 尽管目前已经提出了很多有效的关键类识别方法, 但普遍存在3点不足: 1)现有工作所依赖的软件网络(由软件元素及其依赖构建的图)不可避免地会包含软件运行时永远不会(或极少)被执行到的软件元素; 2)基于动态分析构建的软件网络往往不够完整, 会遗漏真正的关键类; 3)现有工作通常只考虑类之间的直接耦合对类重要性的影响, 而忽视类之间的间接(非接触)耦合及邻居节点度分布的多样性对类重要性的影响. 有鉴于此, 提出一种融合动态分析和引力公式的关键类识别方法. 首先, 使用静态分析技术构建面向对象软件的类依赖网络CCN (class coupling network), 以抽象类及类之间的耦合关系. 其次, 综合考虑CCN中类之间“直接和间接的耦合”“邻居节点度分布的多样性”等对类重要性的影响, 构建引力熵GEN (gravitational entropy)度量指标以量化类的重要性. 然后, 按照类的GEN值对所有类进行降序排列, 从而得到初步的排序结果. 最后, 通过动态分析技术收集运行时类之间真实的交互关系, 进而对初步排序的结果进行优化, 并通过设定阈值来过滤非关键类, 从而得到候选的关键类. 8个开源Java软件上的实验结果表明: 1) 在检查不超过前15% (或top-25)的节点时, 所提出的方法从整体上而言均显著优于其他11种对比方法; 2)使用动态分析对结果进行优化, 有助于显著提升所提出方法的性能; 3)耦合类型的不同赋权方式对所提出方法的性能没有显著影响; 4)所提出的方法在运行效率上是可以接受的.
    优先出版日期:  2025-09-17 , DOI: 10.13328/j.cnki.jos.007470
    [摘要] (107) [HTML] (97) [PDF 1.22 M] (146)
    摘要:
    代码注释是对源代码功能的自然语言描述, 其可以帮助开发人员快速地理解代码语义及功能, 从而提高软件开发和维护的效率. 然而, 书写与维护代码注释费时费力, 导致代码注释经常出现缺失、不匹配以及过时等问题. 因此, 如何自动化地为源代码生成注释引起了大量研究人员的关注. 现有方法通常利用信息检索技术或深度学习技术来进行代码注释自动生成, 但这二者均存在自身的一些局限. 目前已有一些对信息检索技术和深度学习技术进行集成的研究工作, 但它们无法有效利用这两种技术优势. 针对这些问题, 提出一种基于语义重排序的代码注释生成方法SRBCS, 该方法通过语义重排序模型对不同方法所生成代码注释进行排序选择来实现代码注释生成, 从而在实现对不同方法集成的同时最大化地利用了不同方法在代码注释生成上的优势. 在两个数据集上将SRBCS与14种代码注释生成方法进行比较. 实验评估结果表明SRBCS可以有效地对不同代码注释生成方法进行集成, 实现了优于现有14种代码注释生成方法的性能.
    优先出版日期:  2025-09-17 , DOI: 10.13328/j.cnki.jos.007471
    [摘要] (1216) [HTML] (138) [PDF 2.02 M] (191)
    摘要:
    自动驾驶系统的安全性对于自动驾驶汽车在现实世界中的实施非常重要. 因此, 自动驾驶系统在公开发布和部署之前必须进行充分的评估. 如何生成多样化的安全关键测试场景是自动驾驶系统测试的关键任务. 现有的自动驾驶系统关键场景生成方法, 包括再现现实世界的交通事故和基于搜索的关键场景生成. 然而, 前者由于自动驾驶与人类驾驶存在鸿沟, 现实世界交通事故大多无法发现自动驾驶系统的问题; 后者由于传统搜索算法的局限性, 发现的问题相似度较高. 此外, 由于测试场景的空间非常庞大, 二者生成关键场景的效率较低. 为了解决上述问题, 提出LEADE, 一种基于道路网络建模的自动驾驶系统安全关键场景生成和自适应演化方法. 具体来说, 它根据用户的测试需求构建抽象场景, 并通过道路网络建模生成具体场景. 然后, LEADE采用改进的自适应进化搜索来生成各种安全关键场景来测试自动驾驶系统. 在工业级全栈自动驾驶系统平台百度Apollo上实施和评估LEADE. 实验结果表明, LEADE可以有效和高效地生成安全关键场景, 并揭露Apollo的10种不同安全违背行为. 它通过识别同一道路上的4种新型安全关键场景, 优于两种最先进的基于搜索的自动驾驶系统测试技术.
    优先出版日期:  2025-09-10 , DOI: 10.13328/j.cnki.jos.007468
    [摘要] (98) [HTML] (68) [PDF 1.39 M] (172)
    摘要:
    Android应用开发人员需要快速、准确地复现错误报告以保障应用质量. 然而, 现有方法通常仅依赖堆栈跟踪中提供的崩溃信息生成事件序列, 难以准确定位崩溃页面, 无法为动态探索提供有效指导以触发崩溃. 为解决这一问题, 提出一种组件感知的安卓应用崩溃自动复现方法CReDroid, 能够结合崩溃报告的标题信息和堆栈跟踪来有效地复现崩溃. 首先, CReDroid通过动态探索被测应用构建组件转换图(component transition graph, CTG), 结合堆栈跟踪的动态异常信息与CTG的静态组件交互信息, 精确定位目标崩溃组件; 其次, 基于崩溃报告标题中的关键操作与CTG中的可达路径, 设计自适应评分策略, 利用当前页面所属组件与崩溃组件的上下文关系为GUI控件分配选择优先级分数, 并通过强化学习全局优化动态探索过程, 有效减轻预测过程中的不准确性. 在74个崩溃报告上评估了CReDroid的性能, 并与当前先进的崩溃复现工具CrashTranslator、ReCDroid、ReproBot以及广泛使用的自动化测试工具Monkey和APE进行对比实验. 实验结果显示, CReDroid成功复现了57个崩溃报告, 分别比CrashTranslator、ReCDroid、ReproBot、Monkey和APE多复现13、25、27、30和17个. 此外, 在成功复现相同崩溃的情况下, CReDroid的平均用时较CrashTranslator、ReCDroid、ReproBot、Monkey和APE分别减少26.71%、94.96%、71.65%、84.72%和88.56%.
    优先出版日期:  2025-09-10 , DOI: 10.13328/j.cnki.jos.007469
    摘要:
    签名计算通常在移动电话或小型物联网设备等不安全的物理设备上进行, 这可能导致私钥暴露, 从而引发整个密码系统的崩溃. 密钥隔离签名方案是减轻私钥暴露造成的损害的一种方法. 在密钥隔离密码系统中, 公钥在整个时间周期内保持不变, 固定私钥被存储在物理安全设备上. 在每个离散的时间段开始时, 不安全设备通过与存储固定私钥的物理安全设备的交互以获得当前时间片的临时私钥. 一个安全的基于身份的密钥隔离签名方案需要满足签名不可伪造性和密钥隔离性. 密钥隔离性保证了即使一个攻击者获得了多个时间段的临时私钥, 它也无法伪造其他时间段的签名. SM9是我国自主设计的商用标识密码算法. 将密钥隔离方法应用于SM9基于身份的签名方案中, 解决原方案中存在的私钥暴露问题. 首先给出基于身份的密钥隔离签名的安全模型. 然后构造一个基于身份的SM9密钥隔离签名方案. 最后给出详细的安全性证明和实验分析.
    优先出版日期:  2025-09-10 , DOI: 10.13328/j.cnki.jos.007458
    [摘要] (119) [HTML] (67) [PDF 1.41 M] (185)
    摘要:
    错误定位是软件维护过程中的关键环节, 如何提升自动化故障定位的有效性和效率是软件工程领域的研究焦点之一. 随着开源软件数量激增且软件热更新需求增多, 面向变更集的自动化错误定位成为软件质量保障的重要手段. 传统基于信息检索的错误定位方法只能表征自身文本信息, 未能充分考虑变更集中的结构和语义变化, 无法直接应用于变更集的错误定位任务. 因此, 提出一种基于图Transformer的变更集错误定位方法, 使用基于变更信息抽象语法树表征代码结构变化信息, 并从局部和全局角度表征变更代码和错误报告的语义信息, 进而实现变更集中错误信息的匹配和定位. 为验证方法的有效性, 对来自6个错误诱发变更集的错误报告和变更进行测试, 与最先进模型相比, MAPMRR指标分别提升11.4%和12.9%, 证明了提出方法的有效性.
    优先出版日期:  2025-09-10 , DOI: 10.13328/j.cnki.jos.007455
    [摘要] (118) [HTML] (49) [PDF 4.71 M] (198)
    摘要:
    近年来, 密码芯片迅速发展, 与此同时也面临着非入侵式攻击的严重威胁. 目前已有国内外标准给出了非入侵式攻击检测流程与方法, 但这些标准均针对公开算法制定, 对于私有算法并不适用, 私有算法密码芯片存在着很大的安全隐患. 针对这一问题, 提出面向私有算法密码芯片的非入侵式攻击检测框架, 该框架包含计时分析测试、简单能量/电磁分析测试、差分能量/电磁分析测试3大部分. 对于计时分析测试, 采用基于平均去噪的计时分析方法, 提高所采集时间的可用性. 针对简单能量/电磁分析, 提出面向私有密码算法的视觉观察法和交叉关联分析方法. 针对差分能量/电磁分析, 通过TVLA-1和TVLA-2双重检测方法有效检测私有算法密码芯片不同来源的泄露, 评估私有算法密码芯片的抗差分能量/电磁攻击能力. 该框架是对传统非入侵式攻击检测的有效补充, 极大提高了非入侵式攻击检测的检测范围. 为了验证该框架的有效性, 在多款密码芯片上开展黑盒实验, 实验结果表明该框架能够有效检测私有算法密码芯片的抗非入侵式攻击安全性.
    优先出版日期:  2025-09-10 , DOI: 10.13328/j.cnki.jos.007447
    [摘要] (101) [HTML] (84) [PDF 804.01 K] (175)
    摘要:
    类属特征是一种解决多标记分类问题的有效策略. 通过为不同标记的判别过程提供不同的定制特征, 类属特征能够同时兼顾各个标记潜在不同的判别偏好, 进而改善多标记分类模型的泛化性能. 为学习类属特征, 已有方法通常关注于利用特征处理技术对样本中标记判别的相关特征进行提取. 不同于上述常规做法, 尝试从特征不变性的视角解决类属特征的学习问题: 通过操纵标记判别的无关特征, 为分类模型注入关于无关特征的不变性, 从而充分地兼顾各个标记的判别偏好. 相应地, 提出一种基于不变性注入的多标记类属特征学习方法INVA. INVA方法通过估计特征协方差矩阵捕获各个标记的类内特征变化, 从而辨识标记判别的无关特征; 通过求解扰动风险最小化问题, 赋予分类模型关于无关特征变化的不变性. 进一步地, 推导扰动风险最小化问题的上界, 提高了方法的计算效率. 在多标记基准数据集上, 与已有方法进行全面的实验对比, 验证所提方法的有效性.
    优先出版日期:  2025-09-02 , DOI: 10.13328/j.cnki.jos.007509
    摘要:
    SAT求解的CDCL算法被广泛应用于软硬件验证领域, 重启策略是其中的核心组件之一. 目前, 主流的CDCL求解器采用了“热重启”技术, 保留了变元序、赋值倾向、学习子句等主要搜索信息, 且重启频率极高. 热重启技术会使CDCL重启之后更倾向于搜索重启前的搜索空间, 有可能会长期陷于一个不利的局部区域, 缺乏探索性. 首先对现有的CDCL算法进行测试, 证实了在不同的初始搜索设置下, 主流CDCL求解器的求解时间有巨大的扰动. 为了利用上述观察, 提出一种遗忘搜索信息的“冷重启”技术, 即阶段性的遗忘变元序、赋值倾向、学习子句, 实验证明了该技术可以有效地提高主流的CDCL算法. 同时, 也进一步拓展了其并行版本, 每个线程探索不同的区域, 提高了并行算法的性能. 此外, 冷重启技术主要改进了串并行求解器可满足实例的求解能力, 为设计可满足导向的 SAT求解器提供了新的改进思路. 通过引入并行冷重启技术, PaKis求解器可满足性实例的PAR2打分平均提高41.81%. 基于相关技术设计的并行SAT求解器ParKissat-RS以领先亚军24%的大幅领先优势取得国内首个国际SAT竞赛并行组冠军.
    优先出版日期:  2025-09-02 , DOI: 10.13328/j.cnki.jos.007506
    [摘要] (494) [HTML] (0) [PDF 1.12 M] (228)
    摘要:
    随着大数据时代的到来, 海量数据应用呈现出规模性(volume)、多样性(variety)、高速性(velocity)和价值性(value)的典型特征. 这种数据范式对传统数据采集方法、管理策略及数据库处理能力提出了革命性挑战. 近年来, 人工智能技术的突破性发展, 特别是机器学习和深度学习在表征学习能力、计算效率提升及模型可解释性方面的显著进步, 为应对这些挑战提供了创新性解决方案. 在此背景下, 人工智能与数据库系统的深度融合催生了新一代智能数据库管理系统. 这类系统通过AI技术深度赋能实现了交互层、管理层、内核层这3大核心创新: 面向终端用户的自然语言交互; 支持自动化运维的数据库管理框架(如参数调优、索引推荐、数据库诊断和负载管理等); 基于机器学习的高效可扩展内核组件(如学习索引、智能分区、智能查询优化、智能查询调度等). 此外, 新兴的智能组件开发接口(API)进一步降低了AI与数据库系统的集成门槛. 系统性地探讨智能数据库的关键问题, 以“标准化”为核心视角, 提炼出各研究主题(交互范式、管理架构和内核设计)内在的通用处理范式和特征. 通过深入分析这些标准化的流程、组件接口与协作机制, 揭示驱动智能数据库自优化的核心逻辑, 综述当前研究进展, 并深入分析该领域面临的技术挑战与未来发展方向.
    优先出版日期:  2025-09-02 , DOI: 10.13328/j.cnki.jos.007504
    摘要:
    作为软件工程领域的一项新兴技术, 源代码自动生成注释旨在为给定的代码片段生成自然语言描述. 目前最先进的代码注释技术采用编码器-解码器神经网络模型: 编码器提取源代码的语义表示, 而解码器则将其转换为人类可读的代码注释. 然而, 许多现有方法将输入的代码片段视为独立函数, 往往忽略了目标函数与其调用的子函数之间的上下文依赖关系. 忽视这些依赖关系可能导致关键语义信息的缺失, 从而降低生成注释的质量. 为此, 提出了一种函数依赖感知的分层代码注释神经网络模型DHCS (dependency-aware hierarchical code summarization). DHCS通过显式建模目标函数与其子函数之间的分层依赖关系, 旨在提高代码注释的质量. 采用了一个分层编码器, 包括子函数编码器和目标函数编码器, 使模型能够有效地捕捉局部和上下文的语义表示. 同时, 引入了一项自监督任务, 即掩码子函数预测, 以增强子函数的表示学习. 此外, 提出挖掘子函数的主题分布, 并将其与主题感知的复制机制相结合, 集成到注释解码器中. 因此, 它能够直接从子函数中提取关键信息, 从而更有效地生成目标函数的注释. 最后, 在针对Python、Java和Go语言构建的3个真实数据集上进行了大量实验, 结果充分验证了所提方法的有效性.
    优先出版日期:  2025-08-20 , DOI: 10.13328/j.cnki.jos.007448
    [摘要] (640) [HTML] (0) [PDF 1.32 M] (193)
    摘要:
    研究3类非平衡广义Feistel结构的中间相遇攻击, 并在Q1模型下对这3类结构进行量子中间相遇攻击. 首先, 采用多重集和差分枚举技术对3分支Type-III型广义Feistel结构构建4轮中间相遇区分器, 分别向前向后扩展1轮进行6轮中间相遇攻击, 并利用Grover算法和量子爪搜索算法对该结构进行6轮量子密钥恢复攻击, 该攻击所需的时间复杂度为O(23?/2·?)次量子查询, 其中?为广义Feistel结构的分支长度. 其次, 对3分支Type-I型广义Feistel结构的9轮区分器分别向前向后扩展1轮进行11轮中间相遇攻击及量子密钥恢复攻击, 相应的时间复杂度分别为O(22?)次11轮加密和O(23?/2·?)次量子查询. 最后, 以 3-cell型广义Feistel结构为例探讨了n-cell型广义Feistel结构的量子中间相遇过程, 对n-cell型广义Feistel结构构建2n轮中间相遇区分器, 并进行2(n+1)轮中间相遇攻击及量子密钥恢复攻击, 且时间复杂度分别为O(22?)次2(n+1)轮加密和O(23?/2·?)次量子查询. 结果表明, 相比于经典环境, Q1模型下消耗的时间复杂度更低.
    优先出版日期:  2025-08-20 , DOI: 10.13328/j.cnki.jos.007424
    [摘要] (152) [HTML] (0) [PDF 1.50 M] (181)
    摘要:
    工作负载的准确预测对于云资源管理至关重要. 然而, 现有预测模型通常使用固化结构从不同视角提取序列特征, 导致不同模型结构之间难以灵活组合以进一步提升预测性能. 提出一种基于软演员-评论家算法(soft actor-critic, SAC)的多视角工作负载预测集成框架SAC-MWF. 首先, 设计一组特征序列构建方法来生成多视角特征序列, 该方法能够以低成本从历史窗口生成特征序列, 从而引导模型关注不同视角下的云工作负载序列模式. 其次, 在历史窗口和特征序列上分别训练基础预测模型和若干特征预测模型, 以捕获不同视角下的云工作负载模式. 最后, 利用SAC算法集成基础预测模型和特征预测模型, 生成最终的云工作负载预测. 在3个数据集上的实验结果表明, SAC-MWF方法在有效性和计算效率方面表现优秀.
    优先出版日期:  2025-08-20 , DOI: 10.13328/j.cnki.jos.007425
    [摘要] (158) [HTML] (0) [PDF 2.36 M] (198)
    摘要:
    近年来, 以代码为输入的预训练模型在许多基于代码的关键任务中取得了显著的性能优势, 但这类模型可能易受到通过保留语义的代码转换实现的对抗性攻击, 这种攻击会显著降低模型鲁棒性并可能进一步引发严重的安全问题. 尽管已有对抗性训练方法通过生成对抗性样本作为增强数据来提升模型鲁棒性, 但其有效性和效率在面对不同粒度和策略的未知对抗性攻击时仍显不足. 为了克服这一局限性, 提出一种基于代码归一化的预训练代码模型对抗性防御方法, 命名为CoDefense. 该方法的核心思想是作为代码模型的一个前置数据处理模块, 通过多粒度代码归一化技术, 对训练阶段的原始训练集和推理阶段的代码输入进行归一化预处理, 以避免潜在对抗性样本对代码模型的影响. 这种策略能够高效地防御不同粒度和策略的对抗性攻击. 为验证CoDefense的有效性和效率, 针对3种先进的对抗性攻击方法、3种流行的预训练代码模型以及3个基于代码的分类和生成任务, 共设计了27个实验场景进行全面的实证研究. 实验结果表明, CoDefense相较于最先进的对抗性训练方法, 在防御对抗性攻击方面显著提升了有效性和效率. 具体而言, CoDefense平均成功防御了95.33%的对抗性攻击. 同时, 在时间效率上, CoDefense相对于对抗性训练方法平均提升了85.86%.
    优先出版日期:  2025-08-13 , DOI: 10.13328/j.cnki.jos.007445
    摘要:
    随着数据隐私问题越来越受重视, 能有效保护数据隐私的安全多方计算 (secure multi-party computation, MPC) 吸引了众多研究者的目光. 然而安全多方计算协议的通信和内存要求限制了它在隐私保护机器学习 (privacy-preserving machine learning, PPML) 中的性能. 减少安全计算协议的交互轮数和内存开销十分重要但也极具挑战性, 尤其是在使用 GPU 硬件加速的情况下. 重点关注线性和非线性计算的 GPU友好协议的设计和实现. 首先, 为避免整数计算的额外开销, 基于 PyTorch 的 CUDA 扩展实现了 64 位整数的矩阵乘法和卷积运算. 然后, 提出一种基于 0-1 编码方法的低通信轮数的最高符号位 (most significant bit, MSB) 获取协议, 并针对性地提出低通信复杂度的混合相乘协议, 简化了安全比较计算的通信开销, 可实现快速的 ReLU 激活层计算. 最后提出Antelope, 一个基于 GPU 的快速三方隐私保护机器学习框架, 进一步缩短了与明文框架之间的性能差距, 且支持深层网络的完整训练. 实验结果表明, 与 CPU 上广泛使用的经典架构 FALCON (PoPETs 2020) 相比, 训练和推理性能是 FALCON 的29–101 倍和 1.6–35 倍. 与基于 GPU 的工作相比, 在训练方面是 CryptGPU (S&P 2021) 的 2.5–3倍, 是 Piranha (USENIX Security 2022) 的 1.2–1.6 倍. 在推理方面, 是 CryptGPU 的 11 倍, 是 Piranha 的2.8 倍. 特别地, 所提安全比较协议在输入数据量较小时具有很大优势.
    优先出版日期:  2025-07-30 , DOI: 10.13328/j.cnki.jos.007436
    [摘要] (289) [HTML] (0) [PDF 5.20 M] (237)
    摘要:
    测试用例优先级排序方法TCP在缓解测试开销方面备受关注. 基于不同优先级策略的贪心算法是TCP中常用的方法. 然而, 现有基于贪心算法的TCP技术多使用单一的排序策略, 且每轮迭代排序过程一次性考虑全部测试用例, 而未关注用例间的关系, 导致在覆盖信息和排序方面的处理上耗时过长, 极大降低排序效率. 同时, 在单一的排序策略中, Additional策略得到广泛研究, 但其受随机因素影响较大, 当出现平局时, 通常会随机选择待排用例, 影响排序的有效性. 基于此, 提出一种面向两阶段分组的测试用例优先级排序方法TPG-TCP. 第1阶段进行粗粒度测试用例分组, 通过挖掘用例间的隐藏关系, 将它们分为关键用例组和普通用例组, 为下一阶段采用多样性策略排序做准备, 以提高排序效率. 第2阶段进行细粒度测试用例分组排序, 根据迭代次数将关键用例分组, 为减少Additional策略中随机因素的干扰, 提出基于用例潜力度的TP-Additional策略对一部分关键用例排序, 同时采用简单高效的Total策略对普通用例与另一部分关键用例排序, 将排序结果追加至TP-Additional策略的排序结果中, 在排序有效性提升的同时也提高了效率. 通过与8种相关方法在6个数据集上的对比结果发现, 所提方法是高效且可行的, 在APFDTETC指标上分别平均提升约1.29%和9.54%.
    优先出版日期:  2025-07-30 , DOI: 10.13328/j.cnki.jos.007423
    [摘要] (226) [HTML] (0) [PDF 7.43 M] (314)
    摘要:
    随着信息技术发展, 信息网络、人类社会与物理空间交互加深, 信息空间风险外溢现象严峻. 欺诈事件激增, 欺诈检测成为重要研究领域. 欺诈行为给社会带来了诸多负面影响, 且逐渐呈现出智能化、产业化及高度隐蔽性等新兴特征, 传统的专家规则与深度图神经网络算法在应对上显得愈发局限. 当前反欺诈算法多从节点自身与邻居节点的局部信息出发, 或聚焦于用户个体, 或分析节点与网络拓扑关系, 或利用图嵌入技术学习节点表示, 这些视角虽然能具备一定的欺诈检测能力, 但是忽略了实体长程关联模式的关键作用, 缺乏对于海量欺诈链路之间共性模式的挖掘, 限制了全面的欺诈检测能力. 针对以上欺诈检测算法的局限性, 提出一种基于链路聚合的图欺诈检测模型PA-GNN (path aggregation graph neural network), 包含不定长链路采样, 位置关联的统一链路编码, 链路信息交互聚合, 以及聚合关联的欺诈检测. 从节点出发的若干链路之间通过全局模式交互与相似度比对, 挖掘欺诈链路之间的共性规律, 从而更全面地揭示欺诈行为之间的关联模式, 并通过链路聚合继而实现欺诈检测. 在金融交易、社交网络和评论网络这3类欺诈场景下的多个数据集上的实验结果表明, 所提方法的曲线下面积(AUC)和平均精度(AP)指标相较于最优基准模型均有显著提升. 此外, 该方法为欺诈检测任务挖掘了潜在的共性欺诈链路模式, 驱动节点学习这些重要的模式并获得更具表现力的表示, 具备一定的可解释性.
    优先出版日期:  2025-07-30 , DOI: 10.13328/j.cnki.jos.007434
    [摘要] (160) [HTML] (0) [PDF 5.57 M] (257)
    摘要:
    (t, N)门限多方隐私集合交集协议(threshold multi-party private set intersection, TMP-PSI)允许当指定参与方的集合元素x在其余不少于t–1 (tN)个参与方的私有集合中出现时, 数据元素x作为交集结果输出, 在提案投票、金融交易威胁识别、安全评估等场景具有广泛应用. 现有的门限多方隐私集合交集协议运行效率低、通信轮数多且只能由某一个指定参与方获取交集. 针对这些问题, 设计一种基于弹性秘密共享的参与方门限测试方法, 结合不经意键值对存储(oblivious key-value store, OKVS)提出一种TMP-PSI方案, 能够有效减少计算开销和通信轮数. 为了满足多参与方获取私有集合中交集信息的需求, 提出第2种拓展门限多方隐私集合交集(extended threshold multi-party private set intersection, ETMP-PSI)协议对份额分发方式进行改变, 与第1种方案相比, 秘密分发者和秘密重构方没有额外增加通信轮数和计算复杂度, 实现了多参与方获取私有集合中的交集元素. 所设计的协议在数据集合大小为n = 216的三方场景下运行时间为6.4 s (TMP-PSI)和8.7 s (ETMP-PSI), 与现有的门限多方隐私集合交集协议相比, 重构方和分发方的通信复杂度由O(nNtlog)降为O(bNλ).
    优先出版日期:  2025-07-23 , DOI: 10.13328/j.cnki.jos.007421
    [摘要] (228) [HTML] (0) [PDF 7.43 M] (303)
    摘要:
    智能问答系统利用信息检索和自然语言处理技术, 实现对问题的自动化回复. 然而, 与其他人工智能软件相似, 智能问答系统同样存在缺陷. 存在缺陷的智能问答系统会降低用户体验, 造成企业的经济损失, 甚至引发社会层面的恐慌. 因此, 及时检测并修复智能问答系统中的缺陷至关重要. 目前, 智能问答系统自动测试方法主要分为两类. 其一, 基于问题与预测答案合成假定事实, 并基于假定事实生成新问题和预期答案, 以此揭示问答系统中的缺陷. 其二, 从现有数据集中提取不影响原问题答案的知识片段并融入原始测试输入中生成答案一致的新测试输入, 实现对问答系统的缺陷检测任务. 然而, 这两类方法均着重于测试模型的语义理解能力, 未能充分测试模型的逻辑推理能力. 此外, 这两类方法分别依赖于问答系统的回答范式和模型自带的数据集来生成新的测试用例, 限制了其在基于大规模语言模型的问答系统中的测试效能. 针对上述挑战, 提出一种逻辑引导的蜕变测试技术QALT. QALT设计了3种逻辑相关的蜕变关系, 并使用了语义相似度度量和依存句法分析等技术指导生成高质量的测试用例, 实现对智能问答系统的精准测试. 实验结果表明, QALT在两类智能问答系统上一共检测9247个缺陷, 分别比当前两种最先进的技术(即QAQA和QAAskeR)多检测3150和3897个缺陷. 基于人工采样标注结果的统计分析, QALT在两个智能问答系统上检测到真阳性缺陷的期望数量总和为8073, 预期比QAQA和QAAskeR分别多检测2142和4867个真阳性缺陷. 此外, 使用QALT生成的测试输入通过模型微调对被测软件中的缺陷进行修复. 微调后模型的错误率成功地从 22.33% 降低到了14.37%.
    优先出版日期:  2025-07-17 , DOI: 10.13328/j.cnki.jos.007429
    [摘要] (265) [HTML] (0) [PDF 8.83 M] (273)
    摘要:
    域名系统(domain name system, DNS)协议的性能和操作特性引起了研究和网络运营界的极大兴趣. 在这项工作中, 通过测量分析来自一个大型DNS服务商递归服务器数据, 从一个大型DNS运营商递归服务的角度考察了用户访问模式及解析状况. 面向海量的DNS数据, 首先提供一种多机分布式并行测量机制和大数据平台存储监控方案, 实现了对DNS海量数据的高效测量分析. 然后, 从用户请求响应率, 请求域名的情况, 请求用户的情况和域名解析的情况多个维度系统分析了DNS数据的特征, 并呈现了多个有价值的测量结果, 对提升DNS的运维和洞察DNS的特性具有重要价值. 最后, 基于对DNS缓存命中率的测量分析, 提出一种适用于DNS大型运营商进行在线异常检测的通用框架, 并初步验证了框架方案的正确性和可行性.
    优先出版日期:  2025-07-09 , DOI: 10.13328/j.cnki.jos.007430
    [摘要] (200) [HTML] (0) [PDF 10.05 M] (318)
    摘要:
    在时序数据分析领域, 跨域数据分布的偏移显著削弱了模型的泛化性能. 为此, 开发一种称为TPN的端到端时序数据域自适应框架. 该框架融合了时序模式激活模块(TPAM)与Transformer编码器. TPAM通过双层时空卷积操作捕捉序列特征的空间及时间依赖性, 结合Sigmoid和tanh激活函数对提取的特征进行非线性融合, 再经由线性投影恢复至原通道尺寸, 以此强化模型的时序特征提取能力. TPN还引入了增强对抗范式(EAP), 通过域分类损失和操作顺序预测损失, 增强生成器与判别器的协同对抗, 有效缩减源域与目标域间的数据分布差距, 提升模型的域适应性. 在Opportunity、WISDM及HHAR这3大公开人体活动识别数据集上的实证结果显示, TPN在准确率和F1值方面较现有方法最高提升了6%, 且参数量和运行时间较少. 深入的消融与可视化实验进一步验证了TPAM和EAP的有效性, 表明TPN在特征抽取与域对齐上具有良好表现.
    优先出版日期:  2025-07-09 , DOI: 10.13328/j.cnki.jos.007427
    [摘要] (199) [HTML] (0) [PDF 4.43 M] (297)
    摘要:
    区块链, 又称分布式账本, 作为新一代信息技术的典型代表, 在金融、医疗、能源和政务等领域得到广泛应用. 区块链中可监管的隐私保护技术既能保护用户隐私, 增强用户对区块链应用的信任, 又能防止区块链被用于非法活动, 确保应用的合规性. 现有可监管区块链隐私保护方案通常基于双线性配对构造, 运算效率较低, 无法满足高并发场景应用需求. 针对上述问题, 提出一种高效的区块链中可监管身份隐私保护方案, 通过设计一种无需配对的接收者身份一致性零知识证明和可追踪环签名方案, 在保护交易双方身份隐私的同时保证监管的有效性. 实验结果表明, 当按照Monero参数配置将环签名成员数量设置为16时, 高效的区块链中可监管身份隐私保护方案中所有算法执行时间均为5 ms以内, 相较于同类型方案效率提升14倍以上, 消息长度缩短为原方案的50%, 具有更高的计算效率和更短的消息长度.
    优先出版日期:  2025-07-09 , DOI: 10.13328/j.cnki.jos.007428
    [摘要] (321) [HTML] (0) [PDF 6.61 M] (306)
    摘要:
    基于属性的可搜索加密技术实现了多用户场景下加密数据安全且细粒度的共享, 但往往面临着加解密计算开销大、查询效率低、索引无法更新等问题. 为同时解决上述问题, 在可搜索属性加密技术的基础上提出了一个支持索引动态更新的高效检索方案. 具体而言, 通过复用相同的访问策略, 减少加密过程中因策略重复带来的计算开销, 并将大部分解密运算安全外包给云服务器, 减轻了本地设备的解密计算负担. 结合哈希表和跳表构建了一个支持多关键词检索的倒排索引结构, 使用BLS短签名技术实现了索引更新的权限验证. 形式化的安全分析证明, 该方案能够有效抵御合谋攻击、选择明文攻击、伪造更新令牌和解密私钥等多种攻击方式. 实验结果显示, 该方案兼具高效的检索和索引更新性能, 在策略重复时能有效降低加密计算开销.
    优先出版日期:  2017-10-18
    [摘要] (3149) [HTML] (0) [PDF 525.21 K] (6893)
    摘要:
    Data race is a major source of concurrency bugs. Dynamic data race detection tools (e.g., FastTrack) monitor the execu-tions of a program to report data races occurring in runtime. However, such tools incur significant overhead that slows down and perturbs executions. To address the issue, the state-of-the-art dynamic data race detection tools (e.g., LiteRace) ap-ply sampling techniques to selectively monitor memory access-es. Although they reduce overhead, they also miss many data races as confirmed by existing studies. Thus, practitioners face a dilemma on whether to use FastTrack, which detects more data races but is much slower, or LiteRace, which is faster but detects less data races. In this paper, we propose a new sam-pling approach to address the major limitations of current sampling techniques, which ignore the facts that a data race involves two threads and a program under testing is repeatedly executed. We develop a tool called AtexRace to sample memory accesses across both threads and executions. By selectively monitoring the pairs of memory accesses that have not been frequently observed in current and previous executions, AtexRace detects as many data races as FastTrack at a cost as low as LiteRace. We have compared AtexRace against FastTrack and LiteRace on both Parsec benchmark suite and a large-scale real-world MySQL Server with 223 test cases. The experiments confirm that AtexRace can be a replacement of FastTrack and LiteRace.
    优先出版日期:  2017-10-18
    [摘要] (3101) [HTML] (0) [PDF 352.38 K] (7653)
    摘要:
    It is difficult to fix atomicity violations correctly. Existing gate lock algorithm (GLA) simply inserts gate locks to serialize exe-cutions, which may introduce performance bugs and deadlocks. Synthesized context-aware gate locks (by Grail) require complex source code synthesis. We propose ?Fixer to adaptively fix ato-micity violations. It firstly analyses the lock acquisitions of an atomicity violation. Then it either adjusts the existing lock scope or inserts a gate lock. The former addresses cases where some locks are used but fail to provide atomic accesses. For the latter, it infers the visibility (being global or a field of a class/struct) of the gate lock such that the lock only protects related accesses. For both cases, ?Fixer further eliminates new lock orders to avoid introducing deadlocks. Of course, ?Fixer can produce both kinds of fixes on atomicity violations with locks. The experi-mental results on 15 previously used atomicity violations show that: ?Fixer correctly fixed all 15 atomicity violations without introducing deadlocks. However, GLA and Grail both intro-duced 5 deadlocks. HFix (that only targets on fixing certain types of atomicity violations) only fixed 2 atomicity violations and introduced 4 deadlocks. ?Fixer also provides an alternative way to insert gate locks (by inserting gate locks with proper visibility) considering fix acceptance.
    优先出版日期:  2017-09-11
    [摘要] (3670) [HTML] (0) [PDF 276.42 K] (5097)
    摘要:
    对Github上Python科学计算软件生态系统中的跨项目关联缺陷进行了实证分析,聚焦于开发者对缺陷根源的追踪和上下游项目开发者修复缺陷的协作。通过定性和定量的分析,揭示了影响这类缺陷定位与修复的因素,以及开发者应对它们的常见行为。
    优先出版日期:  2017-06-21
    [摘要] (3642) [HTML] (0) [PDF 169.43 K] (4824)
    摘要:
    Numerical instability is a well-known problem that may cause serious runtime failures. This paper discusses the reason of instability in software development process, and presents a toolchain that not only detects the potential instability in software, but also diagnoses the reason for such instability. We classify the reason of instability into two categories. When it is introduced by software requirements, we call the instability caused by problem. In this case, it cannot be avoided by improving software development, but requires inspecting the requirements, especially the underlying mathematical properties. Otherwise, we call the instability caused by practice. We design our toolchain as 4 loosely-coupled tools, which combine stochastic arithmetic with infinite-precision testing. Each tool in our toolchain can be configured with different strategies according to the properties of the analyzed software. We evaluate our toolchain on subjects from literature. The results show that it effectively detects and separates the instabilities caused by problems from others. We also conduct an evaluation on the latest version of GNU Scientific Library, and the toolchain finds a few real bugs in the well-maintained and widely deployed numerical library. With the help of our toolchain, we report the details and fixing advices to the GSL buglist.
    优先出版日期:  2017-06-13
    [摘要] (4918) [HTML] (0) [PDF 174.91 K] (5284)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-25
    [摘要] (3775) [HTML] (0) [PDF 254.98 K] (4800)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-18
    [摘要] (4290) [HTML] (0) [PDF 472.29 K] (5061)
    摘要:
    Software should behave correctly even in adverse conditions. Particularly, we study the problem of automated validation of crash consistency, i.e., file system data safety when systems crash. Existing work requires non-trivial manual efforts of specifying checking scripts and workloads, which is an obstacle for software developers. Therefore, we propose C3, a novel approach that makes crash consistency validation as easy as pressing a single button. With a program and an input, C3 automatically reports inconsistent crash sites. C3 not only exempts developers from the need of writing crash site checking scripts (by an algorithm that computes editing distance between file system snapshots) but also reduces the reliance on dedicated workloads (by test amplification). We implemented C3 as an open-source tool. With C3, we found 14 bugs in open-source software that have severe consequences at crash and 11 of them were previously unknown to the developers, including in highly mature software (e.g., GNU zip and GNU coreutils sort) and popular ones being actively developed (e.g., Adobe Brackets and TeXstudio).
    优先出版日期:  2017-01-04
    [摘要] (4015) [HTML] (0) [PDF 293.93 K] (4521)
    摘要:
    本文提出了一种可部署的数据竞争动态采样检测技术,首先提出了基于线程本地时序的数据竞争定义,之后基于硬件断点进行采样检测。在采样率为1%时,时间开销约为5%,且有效性得以保证。
    优先出版日期:  2017-01-04
    [摘要] (4345) [HTML] (0) [PDF 244.61 K] (5362)
    摘要:
    在软件开发过程中,软件更新时常发生,怎样保证软件更新后的软件质量呢?这就是回归测试的任务。传统上,回归测试通过检测软件异常行为来保证软件质量。然而,在实践中所有的软件行为不可能全部被检测到,尤其针对于大型的复杂软件系统。为帮助开发人员更好的进行回归测试,传统工作集中在增加测试用例上,即通过人工或自动生成测试输入的方法,观测测试输出以捕获程序行为。这种方法虽一定程度上有效,但也存在很大缺陷:人工编写测试用例费时费力,不能覆盖的代码较多,而且容易受人主观判断的误导(例如忽略某些特别容易存在缺陷的类、方法等);自动生成测试用例技术存在很多问题,例如代价大和无法很好的处理数组、字符串等。基于目前软件测试技术存在的缺陷,很多软件不得不在面临诸多安全威胁的状态下发布,有时甚至造成重大财产损失甚至人员伤亡。因此,我们迫切需要新技术来辅助现有技术以更好的进行回归测试、保障软件质量。
    优先出版日期:  2016-12-12
    [摘要] (3855) [HTML] (0) [PDF 358.69 K] (4922)
    摘要:
    在程序分析中,循环(Loop)的处理与分析是一个非常重要而且很有挑战的任务。例如,在符号执行(Symbolic Execution)中,循环的不断展开会导致程序路径数量指数级地增长。因此,符号执行通常会陷入不停的循环展开,而不能覆盖到新的程序分支上,最终影响了测试用例生成或者缺陷检测的效率。
    优先出版日期:  2016-09-30
    摘要:
    在软件测试中,测试预言是一种判断程序在给定测试输入下的执行结果是否符合预期的机制。测试预言通常由在测试中需要被观测的变量以及这些变量的预期值组成。对于相同的测试输入,不同的测试预言可能有不同的缺陷检测能力。因此,高质量的测试预言对于检测软件中的缺陷是非常必要的。在已有的研究中,虽然研究人员提出了各种各样的自动化测试输入生成技术,但是测试预言问题仍然被公认为是软件测试中最难解决的问题之一。
    优先出版日期:  2016-09-09
    [摘要] (4320) [HTML] (0) [PDF 313.52 K] (191)
    摘要:
    本文基于众测平台,提出了一种基于局部的主动学习方法,能够将众测报告中的缺陷进行自动分类,该方法解决了众测报告分类中的局部偏见问题、及缺少历史训练数据的问题,并基于实际的众测数据进行了验证。
    优先出版日期:  2016-09-07
    [摘要] (4997) [HTML] (0) [PDF 231.98 K] (114)
    摘要:
    并发缺陷是由于某些事件按照一定的顺序发生而导致的,本文提出了一种基于缺陷半径的并发缺陷的概率检测方法RPro,并用于死锁的检测,且有概率保证。实验表明该方法可以显著提高死锁的检测概率。
    优先出版日期:  2016-08-29
    摘要:
    当公司投入资源到开源社区,其诉求可能跟开放共享的开源开发方法存在冲突,继而影响自由贡献者.因此我们研究:公司参与会对开源社区带来怎样的影响?面向三个技术同构的混合项目,我们总结了三个商业参与模型,并量化了不同模型对贡献者稳定性和持续性的影响.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2015,26(6):1356-1372 , DOI: 10.13328/j.cnki.jos.004831
    [摘要] (2761209) [HTML] (5221) [PDF 877.35 K] (17563)
    摘要:
    近年来,社会化推荐系统已成为推荐系统研究领域较为活跃的研究方向之一.如何利用用户社会属性信息缓解推荐系统中数据稀疏性和冷启动问题、提高推荐系统的性能,成为社会化推荐系统的主要任务.对最近几年社会化推荐系统的研究进展进行综述,对信任推理算法、推荐关键技术及其应用进展进行前沿概括、比较和分析.最后,对社会化推荐系统中有待深入研究的难点、热点及发展趋势进行展望.
    2019,30(1):22-32 , DOI: 10.13328/j.cnki.jos.005648
    [摘要] (598294) [HTML] (4848) [PDF 310.24 K] (7601)
    摘要:
    系统软件是计算学科的基本概念之一,从系统软件的本质特征、时代特点和发展趋势这3个方面给出了关于系统软件的新洞察.洞察1认为,通用图灵机和存储程序思想是系统软件的理论源头和技术源头,其本质特征是"操纵计算系统执行",编码加载和执行管控是两种主要的操纵方式.洞察2认为,系统软件在互联网时代的时代特点是持续在线提供基础服务,为"软件即服务"的新型应用模式奠定了基础.洞察3认为,系统软件的发展趋势是持续在线演化,在计算系统创新、信息物理融合和智能技术的推动下,将成为未来软件生态的核心.
    2016,27(6):1328-1348 , DOI: 10.13328/j.cnki.jos.005004
    [摘要] (98478) [HTML] (8262) [PDF 816.86 K] (15314)
    摘要:
    伴随云计算技术的飞速发展,其所面临的安全问题日益凸显,在工业界和学术界引起了广泛的关注.传统的云基础架构中存在较高安全风险,攻击者对虚拟机的非法入侵破坏了云服务或资源的可用性,不可信的云存储环境增大了用户共享、检索私有数据的难度,各类外包计算和云应用需求带来了隐私泄露的风险.从云计算环境下安全与隐私保护技术的角度出发,通过介绍云虚拟化安全、云数据安全以及云应用安全的相关研究进展,分析并对比典型方案的特点、适用范围及其在安全防御和隐私保护方面的不同效用,讨论已有工作的局限性,进而指出未来发展趋势和后续研究方向.
    2015,26(1):26-39 , DOI: 10.13328/j.cnki.jos.004631
    [摘要] (43488) [HTML] (4607) [PDF 763.52 K] (22810)
    摘要:
    近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
    2015,26(1):62-81 , DOI: 10.13328/j.cnki.jos.004701
    [摘要] (41792) [HTML] (8070) [PDF 1.04 M] (39222)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2003,14(7):1282-1291
    [摘要] (38435) [HTML] (0) [PDF 832.28 K] (86757)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2010,21(3):427-437
    [摘要] (33754) [HTML] (0) [PDF 308.76 K] (45772)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2016,27(3):691-713 , DOI: 10.13328/j.cnki.jos.004948
    [摘要] (33420) [HTML] (4497) [PDF 2.43 M] (22245)
    摘要:
    排序学习技术尝试用机器学习的方法解决排序问题,已被深入研究并广泛应用于不同的领域,如信息检索、文本挖掘、个性化推荐、生物医学等.将排序学习融入推荐算法中,研究如何整合大量用户和物品的特征,构建更加贴合用户偏好需求的用户模型,以提高推荐算法的性能和用户满意度,成为基于排序学习推荐算法的主要任务.对近些年基于排序学习的推荐算法研究进展进行综述,并对其问题定义、关键技术、效用评价、应用进展等进行概括、比较和分析.最后,对基于排序学习的推荐算法的未来发展趋势进行探讨和展望.
    2013,24(1):91-108 , DOI: 10.3724/SP.J.1001.2013.04292
    [摘要] (31230) [HTML] (0) [PDF 0.00 Byte] (18218)
    摘要:
    近年来,移动推荐系统已成为推荐系统研究领域最为活跃的课题之一.如何利用移动上下文、移动社会化网络等信息进一步提高移动推荐系统的推荐精确度和用户满意度,成为移动推荐系统的主要任务.对最近几年移动推荐系统研究进展进行综述,对其关键技术、效用评价以及应用实践等进行前沿概括、比较和分析.最后,对移动推荐系统有待深入的研究难点和发展趋势进行分析和展望.
    2011,22(1):71-83 , DOI: 10.3724/SP.J.1001.2011.03958
    [摘要] (31031) [HTML] (0) [PDF 781.42 K] (63809)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2018,29(2):340-362 , DOI: 10.13328/j.cnki.jos.005391
    [摘要] (30850) [HTML] (4890) [PDF 2.44 M] (13996)
    摘要:
    随着社交网络的发展,融合社交信息的推荐成为推荐领域中的一个研究热点.基于矩阵分解的协同过滤推荐方法(简称矩阵分解推荐方法)因其算法可扩展性好及灵活性高等诸多特点,成为研究人员在其基础之上进行社交推荐模型构建的重要原因.围绕基于矩阵分解的社交推荐模型,依据模型的构建方式对社交推荐模型进行综述.在实际数据上,对已有代表性社交推荐方法进行对比,分析各种典型社交推荐模型在不同视角下的性能(如整体用户、冷启动用户、长尾物品).最后,分析了基于矩阵分解的社交推荐模型及其求解算法存在的问题,并对未来研究方向与发展趋势进行展望.
    2016,27(1):45-71 , DOI: 10.13328/j.cnki.jos.004914
    [摘要] (30842) [HTML] (5858) [PDF 880.96 K] (43720)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2008,19(1):48-61
    [摘要] (29523) [HTML] (0) [PDF 671.39 K] (68184)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2009,20(5):1337-1348
    [摘要] (29056) [HTML] (0) [PDF 1.06 M] (50671)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289
    [摘要] (28689) [HTML] (0) [PDF 675.56 K] (51852)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2018,29(9):2681-2696 , DOI: 10.13328/j.cnki.jos.005274
    [摘要] (28542) [HTML] (2762) [PDF 1.66 M] (7485)
    摘要:
    推荐系统已成为一种解决信息过载和帮助用户决策的有效工具.当前的研究表明,结合社会关系的推荐模型能够提升推荐的性能.然而,已有的社会化推荐模型大都忽略了物品之间的关联关系对推荐性能的影响.针对此问题,提出一种度量物品之间关联程度的方法,并将其用于获取物品之间的关联关系.然后,将关联关系与社会关系相结合,提出一种基于联合正则化的矩阵分解推荐模型,并证明了联合正则化是一种加权的原子范数.最后,根据提出的模型构建了一种推荐算法CRMF.在4个真实数据集上的实验结果表明:与主流的推荐算法相比,该算法不仅可以缓解用户的冷启动问题,而且更能有效地预测不同类型用户的实际评分.
    2018,29(3):786-798 , DOI: 10.13328/j.cnki.jos.005437
    [摘要] (27692) [HTML] (4034) [PDF 1.36 M] (9835)
    摘要:
    图表示学习是实现各类图挖掘任务的基础.现实中的图数据不仅包含复杂的网络结构,还包括多样化的节点信息.如何将网络结构和节点信息更加有效地融入图的表示学习中,是一个重要的问题.为了解决这一问题,基于深度学习,提出了融合节点先验信息的图表示学习方法.该方法将节点特征作为先验知识,要求学习到的表示向量同时保持图数据中的网络结构相似性和节点特征相似性.该方法的时间复杂度为O(|V|),其中,|V|为图节点数量,表明该方法适用于大规模图数据分析.同时,在多个数据集上的实验结果表明:所提出的方法相比目前流行的几种基线方法,在分类任务上能够获得良好而稳定的优势.
    2018,29(10):3164-3183 , DOI: 10.13328/j.cnki.jos.005288
    [摘要] (27402) [HTML] (2960) [PDF 2.31 M] (7047)
    摘要:
    近年来,组推荐系统已经逐渐成为推荐系统领域的研究热点之一.在电影电视和旅游推荐中,用户常常是参与活动的一组人,这就需要为多个用户形成的群组进行推荐.作为解决群组推荐问题的有效手段,组推荐系统将单个用户推荐扩展为群组推荐,目前已经应用在新闻、音乐、电影、餐饮等诸多领域.现有的组推荐融合方法主要是模型融合与推荐融合,其效用好坏目前仍没有定论,并且它们各有自己的优缺点.模型融合存在着群组成员间的公平性问题,推荐融合忽视了群组成员间的交互.提出一种改进的偏好融合组推荐方法,它结合了两种融合方法的优点.同时根据实验得出了"群组偏好与个人偏好具有相似性"的结论,并将它结合在改进方法中.最后,通过在Movielens数据集上的实验分析,验证了该方法的有效性,证明了它能够有效地提高推荐准确率.
    2018,29(10):3134-3149 , DOI: 10.13328/j.cnki.jos.005284
    [摘要] (27069) [HTML] (2328) [PDF 1.90 M] (7230)
    摘要:
    随着基于活动的社交网络的迅速发展,活动推荐已成为一个重要的工具,帮助人们在线上发现有趣的活动,并在线下面对面地参与活动.但是,相对于传统的推荐系统,活动推荐面临着很多挑战.(1)用户只能参与很少的活动,这就导致一个非常稀疏的用户-活动矩阵;(2)用户对活动的响应是隐性反馈;(3)活动本身有生命周期,已经过期的活动不能再向用户推荐;(4)每天会有很多新的活动产生,需要及时向用户推荐.为了应对这些挑战,提出一个联合建模异构社交和内容信息的活动推荐模型.该模型可同时探索用户的线上和线下社交活动,并结合活动内容建模用户对活动的决策行为.在Meetup数据集上做实验以评估所提出模型的性能.实验结果表明,提出的模型优于其他方法.
    2017,28(4):959-992 , DOI: 10.13328/j.cnki.jos.005143
    [摘要] (27021) [HTML] (8658) [PDF 3.58 M] (34253)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2019,30(3):822-844 , DOI: 10.13328/j.cnki.jos.005681
    [摘要] (26919) [HTML] (4610) [PDF 7.87 M] (11053)
    摘要:
    因子分解机(factorization machine,简称FM)模型因为能够有效解决高维数据特征组合的稀疏问题且具有较高的预测精度和计算效率,在广告点击率预测和推荐系统领域被广泛研究和应用.对FM及其相关模型的研究进展进行综述,有利于促进该模型的进一步改进和应用.通过比较FM模型与多项式回归模型和因子分解模型之间的关联关系,阐述FM模型的灵活性和普适性.从特征的高阶交互、特征的场交互、特征的分层交互以及基于特征工程的特征提取、合并、智能选择和提升等角度,总结模型在宽度扩展方面的方法、策略和关键技术.比较和分析了FM模型与其他模型的集成方式和特点,尤其是与深度学习模型的集成,为传统模型的深度扩展提供了思路.对FM模型的优化学习方法和基于不同并行与分布式计算框架的实现进行概括、比较和分析.最后,对FM模型中有待深入研究的难点、热点及发展趋势进行展望.
    2018,29(12):3747-3763 , DOI: 10.13328/j.cnki.jos.005322
    [摘要] (25587) [HTML] (2052) [PDF 1.97 M] (4296)
    摘要:
    互联网的蓬勃发展,在为用户提供便利的同时,其海量信息也为用户选择造成了困难,基于用户理解的信息推荐服务正成为应时之需.相较于面向单个用户信息的传统推荐技术,基于社交信息的推荐技术通过引入影响力建模,可以更真实地还原用户属性及行为.然而,已有的社交推荐技术往往停留于对用户影响的笼统归纳,并没有对其内在机制进行清晰分类和量化.针对这一问题,通过对用户评分行为中的信任关系进行分析,着重研究了信任用户间接影响用户偏好和直接影响用户评分两种不同机制,进而提出了基于用户间信任关系融合建模的概率矩阵分解模型TPMF,从而实现对上述两种机制的有效融合.在此基础之上,针对不同用户受两种机制影响权重不同的问题,通过借助评分相关性对用户进行聚类并映射到相应权重,实现了用户模型参数的个性化选择.公开数据集的多项实验结果表明:提出的TPMF及其衍生算法在各项指标上优于现有代表性算法,验证了所提出的影响机制及技术框架的有效性.
    2019,30(11):3397-3412 , DOI: 10.13328/j.cnki.jos.005545
    [摘要] (25392) [HTML] (2382) [PDF 1.76 M] (5505)
    摘要:
    向微博用户推荐对其有价值和感兴趣的内容,是改善用户体验的重要途径.通过分析微博特点以及现有微博推荐算法的缺陷,利用标签信息表征用户兴趣,提出一种结合标签扩充与标签概率相关性的微博推荐方法.首先,考虑到大部分微博用户未给自己添加任何标签或添加标签过少,视用户发布微博为超边,微博中的词视为超点来构建超图,并以一定的加权策略对超边和超点进行加权,通过在超图上随机游走,得到一定数量的关键词,对微博用户标签进行扩充;然后,采用相关性标签权重加权方案构建用户-标签矩阵,利用标签之间的概率相关性,构造标签相似性矩阵,对用户-标签矩阵进行更新,使该矩阵既包含用户兴趣信息,又包含标签与标签之间的关系.以新浪微博公开API抓取的微博信息作为实验数据进行了一系列的实验和分析,结果表明,该推荐算法具有较好的效果.
    2020,31(2):421-438 , DOI: 10.13328/j.cnki.jos.005618
    [摘要] (25206) [HTML] (2345) [PDF 1.65 M] (5080)
    摘要:
    新兴的基于活动的社交网络以活动为核心,结合线上关系与线下活动促进用户真实、有效的社交关系的形成,但过多的活动信息会使用户难以分辨和选择.结合上下文进行个性化同城活动推荐,是解决活动信息过载问题的一种有效手段.然而大部分现有的同城活动推荐算法都是从用户参与活动记录中间接统计用户对上下文信息的偏好,忽略了两者之间潜在的交叉影响关系,从而影响了推荐结果的有效性.为了解决用户参与活动偏好与上下文信息潜在交叉影响关系利用不足的问题,提出了一种基于协同上下文关系学习的同城活动推荐算法(colletivecontextual relation learning,简称CCRL).首先,对用户参与活动记录和活动主办方、活动内容、活动地点、举办时间等相关上下文信息进行关系建模;然后,采用多关系贝叶斯个性化排序学习方法进行协同上下文关系学习及同城活动推荐.Meetup数据集上的实验结果表明,该算法在多项指标上均优于现有的主流活动推荐算法.
    2015,26(1):145-166 , DOI: 10.13328/j.cnki.jos.004688
    [摘要] (24254) [HTML] (6763) [PDF 1.65 M] (12566)
    摘要:
    数据的爆炸式增长给传统的关系型数据库带来了巨大的挑战,使其在扩展性、容错性等方面遇到了瓶颈.而云计算技术依靠其高扩展性、高可用性、容错性等特点,成为大规模数据管理的有效方案.然而现有的云数据管理系统也存在不足之处,其只能支持基于主键的快速查询,因缺乏索引、视图等机制,所以不能提供高效的多维查询、join等操作,这限制了云计算在很多方面的应用.主要对云数据管理中的索引技术的相关工作进行了深入调研,并作了对比分析,指出了其各自的优点和不足;对在云计算环境下针对海量物联网数据的多维索引技术研究工作进行了简单介绍;最后指出了在云计算环境下针对大数据索引技术的若干挑战性问题.
    2005,16(1):1-7
    [摘要] (23154) [HTML] (0) [PDF 614.61 K] (27092)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2012,23(1):1-20 , DOI: 10.3724/SP.J.1001.2012.04100
    [摘要] (22954) [HTML] (0) [PDF 1017.73 K] (40237)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2010,21(8):1834-1848
    [摘要] (21947) [HTML] (0) [PDF 682.96 K] (63846)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2004,15(3):428-442
    [摘要] (21411) [HTML] (0) [PDF 1009.57 K] (22019)
    摘要:
    随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务成为电子商务的有效解决方案.Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制.Web服务的新型构架,Web服务的高效执行方式,Web服务与其他成熟技术的有机结合以及Web服务的集成是解决现实应用问题的重要技术.从Web服务研究的不同侧面对其进行了综述,阐述了Web服务的基本概念,分析了当前Web服务的主要研究问题及其核心支撑技术,概括了Web服务中的数据集成技术、Web服务的组合、语义Web服务、Web服务发现,Web服务安全,P2P(Peer-to-Peer)新型计算环境下的Web服务解决方案和网格服务等方面的研究内容,并对这些技术进行了总结,结合已有的研究成果,展望了Web服务未来的研究方向及其面临的挑战.
    2009,20(1):54-66
    [摘要] (20437) [HTML] (0) [PDF 1.41 M] (56958)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2005,16(5):857-868
    [摘要] (20395) [HTML] (0) [PDF 489.65 K] (36127)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2017,28(4):860-882 , DOI: 10.13328/j.cnki.jos.005190
    [摘要] (20329) [HTML] (6423) [PDF 2.49 M] (24431)
    摘要:
    信息流分析可以有效保证计算机系统中信息的保密性和完整性,污点分析作为其实践,被广泛用于软件系统的安全保障技术领域.对近些年来面向解决应用程序安全问题的污点分析技术进行综述:首先,总结了污点分析的基本原理以及在应用中的通用技术,即,使用动态和静态的方法解决污点传播;随后,分析该技术在移动终端、互联网平台上的应用过程中遇到的问题和解决方案,包括解决Android应用隐私泄露与检测Web系统安全漏洞的污点分析技术;最后,展望该技术的研究前景和发展趋势.
    2012,23(4):962-986 , DOI: 10.3724/SP.J.1001.2012.04175
    [摘要] (19629) [HTML] (0) [PDF 2.09 M] (38569)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2014,25(2):400-418 , DOI: 10.13328/j.cnki.jos.004540
    [摘要] (19397) [HTML] (2943) [PDF 1.24 M] (9216)
    摘要:
    信息物理融合系统(cyber-physical system,简称CPS)蕴藏着巨大的潜在应用价值.时间在CPS中起到非常重要的作用,应该在需求早期阶段明确.提出了一个基于逻辑时钟的CPS时间需求一致性分析框架.首先,构建了CPS软件的时间需求概念模型,提供时间需求和功能需求的基本概念,并给出了概念模型的形式化语义;然后,在模型制导下,从CPS的交互环境特性和约束中提取出其软件时间需求规约.基于形式化语义,定义了时间需求规约的一致性特性.为了支持形式化验证,将时间需求规约转换成NuSMV模型,用CTL公式表述要检测的特性,并使用NuSMV工具实施了一致性检测.
    2012,23(1):32-45 , DOI: 10.3724/SP.J.1001.2012.04091
    [摘要] (19260) [HTML] (0) [PDF 408.86 K] (37981)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2010,21(5):899-915
    [摘要] (18090) [HTML] (0) [PDF 972.65 K] (19609)
    摘要:
    首先归纳了AADL(architecture analysis and design language)的发展历程及其主要建模元素.其次,从模型 驱动设计与实现的角度综述了AADL 在不同阶段的研究与应用,总结了研究热点,分析了现有研究的不足,并对 AADL 的建模与分析工具、应用实践进行了概述.最后,探讨了AADL 的发展与研究方向.
    2009,20(3):524-545
    [摘要] (17911) [HTML] (0) [PDF 1.09 M] (30528)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2009,20(1):124-137
    [摘要] (17741) [HTML] (0) [PDF 1.06 M] (28031)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(2):350-362
    [摘要] (17218) [HTML] (0) [PDF 1.39 M] (46800)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2004,15(8):1208-1219
    [摘要] (17103) [HTML] (0) [PDF 948.49 K] (20114)
    摘要:
    随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,网络蠕虫成为恶意代码研究中的首要课题.首先综合论述网络蠕虫的研究概况,然后剖析网络蠕虫的基本定义、功能结构和工作原理,讨论网络蠕虫的扫描策略和传播模型,归纳总结目前防范网络蠕虫的最新技术.最后给出网络蠕虫研究的若干热点问题与展望.
    2009,20(11):2965-2976
    [摘要] (16929) [HTML] (0) [PDF 442.42 K] (21476)
    摘要:
    研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.
    2009,20(5):1226-1240
    [摘要] (16837) [HTML] (0) [PDF 926.82 K] (22760)
    摘要:
    对几种智能规划方法中利用的逻辑演绎与推理技术予以分析,分别介绍利用命题逻辑的基于可满足性的规划方法与规划系统,利用模态逻辑与析取推理的Conformant规划方法与规划系统,利用非单调逻辑的规划方法和利用模糊描述逻辑的Flexible规划方法,并结合国际规划竞赛和相关论文等的实验结论说明上述方法的有效性和可行性.最后,提出目前基于自动推理技术的智能规划方法所面临的挑战、可能的处理方法以及与之相关的研究热点与趋势.
    2003,14(10):1717-1727
    [摘要] (16706) [HTML] (0) [PDF 839.25 K] (21133)
    摘要:
    传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到这些信息的用户.传感器网络是计算机科学技术的一个新的研究领域,具有十分广阔的应用前景,引起了学术界和工业界的高度重视.介绍了传感器网络及其数据管理的概念和特点,探讨了传感器网络及其数据管理的研究问题,并综述了传感器网络及其数据管理的研究现状.
    2014,25(4):839-862 , DOI: 10.13328/j.cnki.jos.004558
    [摘要] (16087) [HTML] (4888) [PDF 1.32 M] (26901)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2000,11(11):1460-1466
    [摘要] (14921) [HTML] (0) [PDF 520.69 K] (16189)
    摘要:
    入侵检测是近年来网络安全研究的热 点.首先说明入侵检测的必要性,并给出入侵检测的概念和模型,概述了多种入侵检测方法及 体系结构.最后,讨论了该领域当前存在的问题及今后的研究方向.
    2012,23(5):1148-1166 , DOI: 10.3724/SP.J.1001.2012.04195
    [摘要] (14862) [HTML] (0) [PDF 946.37 K] (23102)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2009,20(10):2729-2743
    [摘要] (14860) [HTML] (0) [PDF 1.12 M] (16052)
    摘要:
    基于多跳的无线传感器网络,越靠近sink的传感器节点因需要转发更多的数据,其能量消耗就越快,从而在sink周围形成了一种称为“能量洞”的现象.“能量洞”问题会导致整个网络由于内部节点能量过早耗尽而结束寿命,同时,网络中离sink较远的节点仍有大量能量剩余.研究“能量洞”现象,基于改进的分级环模型,总结出调节各环内节点的数据传输距离是实现网络节能的有效方法.证明搜索各区域最优的传输距离是一个多目标优化问题,即是NP难问题.从而提出一种基于蚁群优化的分布式算法,各区域根据其节点分布情况自适应地探索近似最优的传输距离,延长网络寿命.模拟实验结果表明,该算法在较短的时间内能够收敛到合理的解,并且得到的网络寿命接近于理想情况下的最优时间,与现有的类似算法相比,该算法提供了更长的网络寿命,并能适用于非均匀节点分布情况.
    2002,13(7):1228-1237
    [摘要] (14662) [HTML] (0) [PDF 500.04 K] (20355)
    摘要:
    近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的软件体系结构概念之后,给出了软件体系结构的定义.通过总结软件体系结构领域的若干研究活动,提出了软件体系结构研究的两大思路,并从7个方面介绍了软件体系结构研究进展.探讨了软件体系结构研究中的不足之处,并分析其原因.作为总结,给出了软件体系结构领域最有前途的发展趋势.
    2013,24(8):1786-1803 , DOI: 10.3724/SP.J.1001.2013.04416
    [摘要] (14632) [HTML] (0) [PDF 1.04 M] (25992)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2006,17(7):1588-1600
    [摘要] (14424) [HTML] (0) [PDF 808.73 K] (19796)
    摘要:
    在无线传感器网络体系结构中,网络层的路由技术至关重要.分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,成为当前重点研究的路由技术.分析了无线传感器网络分簇路由机制,着重从簇头的产生、簇的形成和簇的路由角度系统地描述了当前典型的分簇路由算法,并比较和分析了这些算法的特点和适用情况.最后结合该领域当前研究现状,指出分簇路由算法未来的研究重点.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291
    [摘要] (38435) [HTML] (0) [PDF 832.28 K] (86757)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2008,19(1):48-61
    [摘要] (29523) [HTML] (0) [PDF 671.39 K] (68184)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2010,21(8):1834-1848
    [摘要] (21947) [HTML] (0) [PDF 682.96 K] (63846)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2011,22(1):71-83 , DOI: 10.3724/SP.J.1001.2011.03958
    [摘要] (31031) [HTML] (0) [PDF 781.42 K] (63809)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2009,20(1):54-66
    [摘要] (20437) [HTML] (0) [PDF 1.41 M] (56958)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2009,20(2):271-289
    [摘要] (28689) [HTML] (0) [PDF 675.56 K] (51852)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2009,20(5):1337-1348
    [摘要] (29056) [HTML] (0) [PDF 1.06 M] (50671)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2014,25(9):1889-1908 , DOI: 10.13328/j.cnki.jos.004674
    [摘要] (12479) [HTML] (6269) [PDF 550.98 K] (47652)
    摘要:
    首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.
    2009,20(2):350-362
    [摘要] (17218) [HTML] (0) [PDF 1.39 M] (46800)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2010,21(3):427-437
    [摘要] (33754) [HTML] (0) [PDF 308.76 K] (45772)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2021,32(2):349-369 , DOI: 10.13328/j.cnki.jos.006138
    [摘要] (10034) [HTML] (13108) [PDF 2.36 M] (44641)
    摘要:
    小样本学习旨在通过少量样本学习到解决问题的模型.近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习的相关工作,具体来说介绍了基于模型微调、基于数据增强和基于迁移学习这3大类小样本学习模型与算法的研究进展;将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强这3类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络这3类;总结了目前常用的小样本数据集和代表性的小样本学习模型在这些数据集上的实验结果;随后对小样本学习的现状和挑战进行了概述;最后展望了小样本学习的未来发展方向.
    2004,15(10):1493-1504
    [摘要] (9573) [HTML] (0) [PDF 937.72 K] (44508)
    摘要:
    多年来计算机图形处理器(GP以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战.
    2013,24(11):2476-2497 , DOI: 10.3724/SP.J.1001.2013.04486
    [摘要] (11174) [HTML] (0) [PDF 1.14 M] (44061)
    摘要:
    概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
    2016,27(1):45-71 , DOI: 10.13328/j.cnki.jos.004914
    [摘要] (30842) [HTML] (5858) [PDF 880.96 K] (43720)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2022,33(7):2464-2481 , DOI: 10.13328/j.cnki.jos.006585
    [摘要] (1661) [HTML] (3844) [PDF 2.00 M] (42906)
    摘要:
    基于线性抽象的符号传播方法在神经网络验证中具有重要地位.针对这类方法,提出了多路径回溯的概念.现有方法可看作仅使用单条回溯路径计算每个神经网络节点的上下界,是这一概念的特例.使用多条回溯路径,可以有效地改善这类方法的精度.在数据集ACAS Xu,MNIST和CIFAR10上,将多路径回溯方法与使用单条回溯路径的DeepPoly进行定量比较,结果表明,多路径回溯方法能够获得明显的精度提升,而仅引入较小的额外时间代价.此外,在数据集MNIST上,将多路径回溯方法与使用全局优化的Optimized LiRPA比较,结果表明,该方法仍然具有精度优势.
    2012,23(1):1-20 , DOI: 10.3724/SP.J.1001.2012.04100
    [摘要] (22954) [HTML] (0) [PDF 1017.73 K] (40237)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2020,31(7):2245-2282 , DOI: 10.13328/j.cnki.jos.006037
    [摘要] (3572) [HTML] (7605) [PDF 967.02 K] (39999)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2018,29(5):1471-1514 , DOI: 10.13328/j.cnki.jos.005519
    [摘要] (7204) [HTML] (7639) [PDF 4.38 M] (39781)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2015,26(1):62-81 , DOI: 10.13328/j.cnki.jos.004701
    [摘要] (41792) [HTML] (8070) [PDF 1.04 M] (39222)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2012,23(4):962-986 , DOI: 10.3724/SP.J.1001.2012.04175
    [摘要] (19629) [HTML] (0) [PDF 2.09 M] (38569)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):32-45 , DOI: 10.3724/SP.J.1001.2012.04091
    [摘要] (19260) [HTML] (0) [PDF 408.86 K] (37981)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2005,16(5):857-868
    [摘要] (20395) [HTML] (0) [PDF 489.65 K] (36127)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2013,24(1):77-90 , DOI: 10.3724/SP.J.1001.2013.04339
    [摘要] (11701) [HTML] (0) [PDF 0.00 Byte] (35390)
    摘要:
    任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向.
    2011,22(1):115-131 , DOI: 10.3724/SP.J.1001.2011.03950
    [摘要] (14267) [HTML] (0) [PDF 845.91 K] (35287)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2017,28(4):959-992 , DOI: 10.13328/j.cnki.jos.005143
    [摘要] (27021) [HTML] (8658) [PDF 3.58 M] (34253)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2010,21(2):344-358
    [摘要] (8859) [HTML] (0) [PDF 1.01 M] (32541)
    摘要:
    将现有入侵容忍、自毁技术与自律计算相结合,提出了一种基于SM-PEPA(semi-Markov performance evaluation process algebra)的关键任务系统自律可信性模型以支持形式化分析和推理.该模型具有一定程度的自管理能力,采用分级处理的方式应对各种程度的可信性威胁,满足了关键任务系统对可信性的特殊需求.在此基础上,从稳态概率角度提出了一种自律可信性度量方法.最后,结合具体实例对模型参数对自律可信性的影响进行了初步分析.实验结果表明,增大关键任务系统可信性威胁检测率和自恢复成功率,可在较大范围内提高系统的自律可信 特性.
    2011,22(6):1299-1315 , DOI: 10.3724/SP.J.1001.2011.03993
    [摘要] (12201) [HTML] (0) [PDF 987.90 K] (32051)
    摘要:
    由于属性基加密(attribute-based encryption,简称ABE)机制以属性为公钥,将密文和用户私钥与属性关联,能够灵活地表示访问控制策略,从而极大地降低了数据共享细粒度访问控制带来的网络带宽和发送结点的处理开销.因此,ABE 在细粒度访问控制领域具有广阔的应用前景.在对基本ABE 机制及其两种扩展:密钥-策略ABE(KP-ABE)和密文-策略ABE(CP-ABE)进行深入研究、分析后,针对ABE 中的CP-ABE 机制访问结构的设计、属性密钥撤销、ABE 的密钥滥用、多授权机构等难点问题进行了深入探讨和综合分析,对比了现有研究工作的功能及开销.最后讨论了ABE 未来需进一步研究的问题和主要研究方向.
    2009,20(3):524-545
    [摘要] (17911) [HTML] (0) [PDF 1.09 M] (30528)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2014,25(1):37-50 , DOI: 10.13328/j.cnki.jos.004497
    [摘要] (11133) [HTML] (6634) [PDF 929.87 K] (30349)
    摘要:
    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.
    2018,29(10):2966-2994 , DOI: 10.13328/j.cnki.jos.005551
    [摘要] (11036) [HTML] (8313) [PDF 610.06 K] (29402)
    摘要:
    近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
    2013,24(4):825-842 , DOI: 10.3724/SP.J.1001.2013.04369
    [摘要] (9384) [HTML] (0) [PDF 1.09 M] (28748)
    摘要:
    蜜罐是防御方为了改变网络攻防博弈不对称局面而引入的一种主动防御技术,通过部署没有业务用途的安全资源,诱骗攻击者对其进行非法使用,从而对攻击行为进行捕获和分析,了解攻击工具与方法,推测攻击意图和动机.蜜罐技术赢得了安全社区的持续关注,得到了长足发展与广泛应用,并已成为互联网安全威胁监测与分析的一种主要技术手段.介绍了蜜罐技术的起源与发展演化过程,全面分析了蜜罐技术关键机制的研究现状,回顾了蜜罐部署结构的发展过程,并归纳总结了蜜罐技术在互联网安全威胁监测、分析与防范等方向上的最新应用成果.最后,对蜜罐技术存在的问题、发展趋势与进一步研究方向进行了讨论.
    2018,29(10):3068-3090 , DOI: 10.13328/j.cnki.jos.005607
    [摘要] (10157) [HTML] (10786) [PDF 2.28 M] (28484)
    摘要:
    设计类问题在科学研究和工业领域无处不在.作为一种十分有效的全局优化算法,近年来,贝叶斯优化方法在设计类问题上被广泛应用.通过设计恰当的概率代理模型和采集函数,贝叶斯优化框架只需经过少数次目标函数评估即可获得理想解,非常适用于求解目标函数表达式未知、非凸、多峰和评估代价高昂的复杂优化问题.从方法论和应用领域两方面深入分析、讨论和展望了贝叶斯优化的研究现状、面临的问题和应用领域,期望为相关领域的研究者提供有益的借鉴和参考.
    2004,15(11):1583-1594
    [摘要] (9760) [HTML] (0) [PDF 1.57 M] (28051)
    摘要:
    在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式.研究了随机性和模糊性之间的关联性,统一用熵作为客观事物和主观认知中不确定状态的度量,用超熵来度量不确定状态的变化,并利用熵和超熵进一步研究了混沌、分形和复杂网络中的不确定性,以及由此带来的种种进化和变异,为实现不确定性人工智能找到了一种简单、有效的形式化方法,也为包括形象思维在内的不确定性思维的自动化打下了基础.不确定性人工智能是人工智能进入21世纪的新发展.这个由多学科交叉渗透构成的新学科,必将使得机器能够具备人脑一样的不确定性信息和知识的表示能力、处理能力和思维能力.
    2009,20(1):124-137
    [摘要] (17741) [HTML] (0) [PDF 1.06 M] (28031)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2010,21(7):1605-1619
    [摘要] (10379) [HTML] (0) [PDF 856.25 K] (27804)
    摘要:
    随着Internet规模的迅速扩大,复杂性和不确定性也随之增加,基于融合的网络态势感知必将成为网络管理的发展方向.在分析现有网络管理不足以及发展需求的基础上,介绍了网络态势感知的起源、概念、目标和特点.首先,提出了一个网络态势感知研究框架,介绍了研究历程,指出了研究重点以及存在的问题,并将现有评估方法分为3类:基于数学模型的方法、基于知识推理的方法、基于模式识别的方法.然后详细讨论了模型、知识表示和评估方法这3方面的研究内容,总结存在的共性问题,着重评价了每种评估方法的基本思路、评估过程和优缺点,并进行了对比分析.随后介绍了网络态势感知在安全、传输、生存性、系统评价等领域的应用研究.最后指出了网络态势感知的发展方向,并从问题体系、技术体系和应用体系3方面作了总结.
    2011,22(3):381-407 , DOI: 10.3724/SP.J.1001.2011.03934
    [摘要] (10918) [HTML] (0) [PDF 614.69 K] (27683)
    摘要:
    互联网的普及和万维网的兴起,引发了软件技术的变革,催生了新的软件形态——网络化软件,为大众用户提供多样化、个性化的按需服务.随着应用领域的不断扩展和用户群的日益庞大,其规模与复杂度正以超越人类处理能力的速度增长,使得软件工程不得不面临一系列的挑战.为了科学地认识和理解这类规模庞大的人工复杂系统,从网络化-服务化-社会化的三维视角出发,对其基础设施、应用服务和大众交互三方面的复杂网络特性实证研究进行了综述分析,并系统论述了网络化软件中隐含的“小世界”和“无尺度”复杂网络特性对软件工程今后研究的影响和启示.软件工程与其他学科的交叉汇聚,将迸发新的观点和思想,为网络化软件的研究提供新的思维方式和方法论,有望实现软件工程理论、方法和关键技术的创新,从而推动我国软件服务业的快速发展.
    2019,30(2):440-468 , DOI: 10.13328/j.cnki.jos.005659
    [摘要] (9984) [HTML] (9509) [PDF 3.27 M] (27620)
    摘要:
    近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对基于深度学习的图像语义分割的经典方法与研究现状进行分类、梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分为基于区域分类的图像语义分割方法和基于像素分类的图像语义分割方法.把基于像素分类的图像语义分割方法进一步细分为全监督学习图像语义分割方法和弱监督学习图像语义分割方法.对每类方法的代表性算法进行了分析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语义分割相关实验进行了分析对比,并介绍了图像语义分割实验中常用公共数据集和性能评价指标.最后,预测并分析总结了该领域未来可能的研究方向及相应的发展趋势.
    2018,29(7):2092-2115 , DOI: 10.13328/j.cnki.jos.005589
    [摘要] (11403) [HTML] (8435) [PDF 2.52 M] (27231)
    摘要:
    区块链是一种源于数字加密货币比特币的分布式总账技术,其发展引起了产业界与学术界的广泛关注.区块链具有去中心化、去信任、匿名、数据不可篡改等优势,突破了传统基于中心式技术的局限,具有广阔的发展前景.介绍了区块链技术在信息安全领域的研究现状和进展.首先,从区块链的基础框架、关键技术、技术特点、应用模式、应用领域这5个方面介绍了区块链的基本理论与模型;然后,从区块链在当前信息安全领域研究现状的角度出发,综述了区块链应用于认证技术、访问控制技术、数据保护技术的研究进展,并对比了各类研究的特点;最后,分析了区块链技术的应用挑战,对区块链在信息安全领域的发展进行了总结与展望,希望对未来进一步的研究工作有一定的参考价值.
    2005,16(1):1-7
    [摘要] (23154) [HTML] (0) [PDF 614.61 K] (27092)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2014,25(4):839-862 , DOI: 10.13328/j.cnki.jos.004558
    [摘要] (16087) [HTML] (4888) [PDF 1.32 M] (26901)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2021,32(2):496-518 , DOI: 10.13328/j.cnki.jos.006140
    [摘要] (6875) [HTML] (11662) [PDF 2.20 M] (26299)
    摘要:
    深度学习在计算机视觉领域取得了重大成功,超越了众多传统的方法.然而近年来,深度学习技术被滥用在假视频的制作上,使得以Deepfakes为代表的伪造视频在网络上泛滥成灾.这种深度伪造技术通过篡改或替换原始视频的人脸信息,并合成虚假的语音来制作色情电影、虚假新闻、政治谣言等.为了消除此类伪造技术带来的负面影响,众多学者对假视频的鉴别进行了深入的研究,并提出一系列的检测方法来帮助机构或社区去识别此类伪造视频.尽管如此,目前的检测技术仍然存在依赖特定分布数据、特定压缩率等诸多的局限性,远远落后于假视频的生成技术.并且不同学者解决问题的角度不同,使用的数据集和评价指标均不统一.迄今为止,学术界对深度伪造与检测技术仍缺乏统一的认识,深度伪造和检测技术研究的体系架构尚不明确.回顾了深度伪造与检测技术的发展,并对现有研究工作进行了系统的总结和科学的归类.最后讨论了深度伪造技术蔓延带来的社会风险,分析了检测技术的诸多局限性,并探讨了检测技术面临的挑战和潜在研究方向,旨在为后续学者进一步推动深度伪造检测技术的发展和部署提供指导.
    2006,17(9):1848-1859
    [摘要] (13355) [HTML] (0) [PDF 770.40 K] (26275)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2012,23(8):2058-2072 , DOI: 10.3724/SP.J.1001.2012.04237
    [摘要] (10682) [HTML] (0) [PDF 800.05 K] (26009)
    摘要:
    分布式拒绝服务(distributed denial of service,简称DDoS)攻击是当今互联网的重要威胁之一.基于攻击包所处网络层次,将DDoS 攻击分为网络层DDoS 攻击和应用层DDoS 攻击,介绍了两类攻击的各种检测和控制方法,比较了处于不同部署位置控制方法的优劣.最后分析了现有检测和控制方法应对DDoS 攻击的不足,并提出了DDoS 过滤系统的未来发展趋势和相关技术难点.
    2005,16(10):1743-1756
    [摘要] (10849) [HTML] (0) [PDF 545.62 K] (26005)
    摘要:
    论述了可证明安全性理论在安全方案与安全协议的设计与分析中的应用,内容主要包括:什么是可证明安全性,可证明安全性理论涉及到的一些基本概念,RO(random oracle)模型方法论的基本思想及其在公钥加密和数字签名等方案中的应用研究进展,标准模型下可证明安全性理论在公钥加密和数字签名等方案中的应用研究进展,以及可证明安全性理论在会话密钥分配协议的设计与分析中的应用研究进展.
    2016,27(11):2855-2869 , DOI: 10.13328/j.cnki.jos.004932
    [摘要] (3509) [HTML] (3491) [PDF 1.85 M] (25995)
    摘要:
    随着中文社交网络的发展(特别是微博的兴起),互联网中文公众事件越来越深刻地影响现实社会的生产和生活.由于缺乏有效的技术手段,信息处理的效率受到了限制.提出了一种公众事件信息熵的计算方法,其基本思想是:首先,对公众事件信息内容进行建模;然后,以香农信息论为理论基础,对公众事件的多维随机变量信息熵进行计算.这为互联网公众事件的定量化分析提供了一个重要的技术指标,为进一步的研究工作打下基础.
    2013,24(8):1786-1803 , DOI: 10.3724/SP.J.1001.2013.04416
    [摘要] (14632) [HTML] (0) [PDF 1.04 M] (25992)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2013,24(2):295-316 , DOI: 10.3724/SP.J.1001.2013.04336
    [摘要] (10315) [HTML] (0) [PDF 0.00 Byte] (25908)
    摘要:
    在新的应用模式下,传统层次结构数据中心网络在规模、带宽、扩展性和成本方面存在诸多不足.为了适应新型应用的需求,数据中心网络需要在低成本的前提下,满足高扩展性、低配置开销、健壮性和节能的要求.首先,概述了传统数据中心网络体系结构及其不足,并指出了新的需求;其次,将现有方案划分为两类,即以网络为中心和以服务器为中心的方案;然后,对两类方案中的代表性结构进行了详细的综述和对比分析;最后指出了数据中心网络未来的发展方向.
    2023,34(2):625-654 , DOI: 10.13328/j.cnki.jos.006696
    [摘要] (4239) [HTML] (6836) [PDF 3.04 M] (25901)
    摘要:
    源代码缺陷检测是判别程序代码中是否存在非预期行为的过程,广泛应用于软件测试、软件维护等软件工程任务,对软件的功能保障与应用安全方面具有至关重要的作用.传统的缺陷检测研究以程序分析为基础,通常需要很强的领域知识与复杂的计算规则,面临状态爆炸问题,导致检测性能有限,在误报漏报率上都有较大提高空间.近年来,开源社区的蓬勃发展积累了以开源代码为核心的海量数据,在此背景下,利用深度学习的特征学习能力能够自动学习语义丰富的代码表示,从而为缺陷检测提供一种新的途径.搜集了该领域最新的高水平论文,从缺陷代码数据集与深度学习缺陷检测模型两方面系统地对当前方法进行了归纳与阐述.最后对该领域研究所面临的主要挑战进行总结,并展望了未来可能的研究重点.
    2020,31(7):2127-2156 , DOI: 10.13328/j.cnki.jos.006052
    [摘要] (7124) [HTML] (8882) [PDF 802.56 K] (25842)
    摘要:
    机器学习已成为大数据、物联网和云计算等领域的核心技术.机器学习模型训练需要大量数据,这些数据通常通过众包方式收集,其中含有大量隐私数据,包括个人身份信息(如电话号码、身份证号等)、敏感信息(如金融财务、医疗健康等信息).如何低成本且高效地保护这些数据是一个重要的问题.介绍了机器学习及其隐私定义和隐私威胁,重点对机器学习隐私保护主流技术的工作原理和突出特点进行了阐述,并分别按照差分隐私、同态加密和安全多方计算等机制对机器学习隐私保护领域的研究成果进行了综述.在此基础上,对比分析了机器学习不同隐私保护机制的主要优缺点.最后,对机器学习隐私保护的发展趋势进行展望,并提出该领域未来可能的研究方向.
    2003,14(9):1621-1628
    [摘要] (13828) [HTML] (0) [PDF 680.35 K] (25594)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号