• 当期目录
  • 优先出版
  • 过刊浏览
  • 点击排行
  • 下载排行
  • 综述文章
  • 专刊文章
  • 分辑系列
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2023,34(5):2000-2023, DOI: 10.13328/j.cnki.jos.006774
    [摘要] (1610) [HTML] (402) [PDF 10.38 M] (2244)
    摘要:
    近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能.
    2023,34(5):2024-2034, DOI: 10.13328/j.cnki.jos.006770
    [摘要] (852) [HTML] (308) [PDF 6.91 M] (1126)
    摘要:
    大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation,UniVL).UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据.UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法.
    2023,34(5):2035-2050, DOI: 10.13328/j.cnki.jos.006766
    [摘要] (849) [HTML] (217) [PDF 15.99 M] (1015)
    摘要:
    文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像.近年来受到学术界和工业界的广泛关注.该任务同时面临两个挑战:细粒度检索以及图像与文本之间的异构鸿沟.部分方法提出使用有监督属性学习提取属性相关特征,在细粒度上关联图像和文本.然而属性标签难以获取,导致这类方法在实践中表现不佳.如何在没有属性标注的情况下提取属性相关特征,建立细粒度的跨模态语义关联成为亟待解决的关键问题.为解决这个问题,融合预训练技术提出基于虚拟属性学习的文本-图像行人检索方法,通过无监督属性学习建立细粒度的跨模态语义关联.第一,基于行人属性的不变性和跨模态语义一致性提出语义引导的属性解耦方法,所提方法利用行人的身份标签作为监督信号引导模型解耦属性相关特征.第二,基于属性之间的关联构建语义图提出基于语义推理的特征学习模块,所提模块通过图模型在属性之间交换信息增强特征的跨模态识别能力.在公开的文本-图像行人检索数据集CUHK-PEDES和跨模态检索数据集Flickr30k上与现有方法进行实验对比,实验结果表明了所提方法的有效性.
    2023,34(5):2051-2067, DOI: 10.13328/j.cnki.jos.006768
    [摘要] (843) [HTML] (230) [PDF 9.96 M] (1055)
    摘要:
    卷积神经网络(convolutional neural network,CNN)在图像篡改检测任务中不断取得性能突破,但在面向真实场景下篡改手段未知的情况时,现有方法仍然无法有效地捕获输入图像的长远依赖关系以缓解识别偏差问题,从而影响检测精度.此外,由于标注困难,图像篡改检测任务通常缺乏精准的像素级图像标注信息.针对以上问题,提出一种预训练驱动的多模态边界感知视觉Transformer.首先,为捕获在RGB域中不可见的细微伪造痕迹,引入图像的频域模态并将其与RGB空间域结合作为多模态嵌入形式.其次利用ImageNet对主干网络的编码器进行训练以缓解当前训练样本不足的问题.然后,Transformer模块被整合到该编码器的尾部,以达到同时捕获低级空间细节信息和全局上下文的目的,从而提升模型的整体表征能力.最后,为有效地缓解因伪造区域边界模糊导致的定位难问题,构建边界感知模块,其可以通过Scharr卷积层获得的噪声分布以更多地关注噪声信息而不是语义内容,并利用边界残差块锐化边界信息,从而提升模型的边界分割性能.大量实验结果表明,所提方法在识别精度上优于现有的图像篡改检测方法,并对不同的篡改手段具有较好的泛化性和鲁棒性.
    2023,34(5):2068-2082, DOI: 10.13328/j.cnki.jos.006771
    [摘要] (954) [HTML] (196) [PDF 5.85 M] (999)
    摘要:
    深度学习模型取得了令人瞩目的成绩,但其训练依赖于大量的标注样本,在标注样本匮乏的场景下模型表现不尽人意.针对这一问题,近年来以研究如何从少量样本快速学习的小样本学习被提了出来,方法主要采用元学习方式对模型进行训练,取得了不错的学习效果.但现有方法:1)通常仅基于样本的视觉特征来识别新类别,信息源较为单一;2)元学习的使用使得模型从大量相似的小样本任务中学习通用的、可迁移的知识,不可避免地导致模型特征空间趋于一般化,存在样本特征表达不充分、不准确的问题.为解决上述问题,将预训练技术和多模态学习技术引入小样本学习过程,提出基于多模态引导的局部特征选择小样本学习方法.所提方法首先在包含大量样本的已知类别上进行模型预训练,旨在提升模型的特征表达能力;而后在元学习阶段,方法利用元学习对模型进行进一步优化,旨在提升模型的迁移能力或对小样本环境的适应能力,所提方法同时基于样本的视觉特征和文本特征进行局部特征选择来提升样本特征的表达能力,以避免元学习过程中模型特征表达能力的大幅下降;最后所提方法利用选择后的样本特征进行小样本学习.在MiniImageNet、CIFAR-FS和FC-100这3个基准数据集上的实验表明,所提的小样本学习方法能够取得更好的小样本学习效果.
    2023,34(5):2083-2100, DOI: 10.13328/j.cnki.jos.006775
    [摘要] (876) [HTML] (240) [PDF 6.36 M] (1115)
    摘要:
    视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2023-05-24 , DOI: 10.13328/j.cnki.jos.006813
    摘要:
    从单体系统迁移到微服务系统是当前业界对遗留系统实施再工程化的主流选项之一, 基于单体遗留系统的微服务体系架构重构则是实现该迁移的关键步骤. 目前学界多集中在微服务识别方法的研究上; 业界虽有许多面向微服务架构的遗留系统重构的实践, 但缺乏系统性的方法及高效鲁棒的工具. 鉴于此, 在微服务识别与模型驱动开发方法前期研究的基础上, 研发一种模型驱动的、可用于单体遗留系统微服务化重构的集成设计平台MSA-Lab. 它通过分析单体遗留系统运行日志中的方法调用序列, 对其中的类和数据表进行类型识别和聚类以构造抽象微服务, 同时生成包括微服务图和微服务序列图在内的系统架构设计模型. 它包括用于微服务自动识别与设计模型自动生成的核心部件MSA-Generator, 以及用于微服务静态结构模型与动态行为模型可视化展现、交互式建模、模型语法约束检验的核心部件MSA-Modeller. 在MSA-Lab平台上, 通过对4个开源项目实施有效性、鲁棒性、功能转换完备性等实验以及对3个同类型工具实施性能对比实验; 结果表明: 所提平台拥有很好的有效性、鲁棒性及实现面向日志的功能转换完备性, 且性能更加优越.
    优先出版日期:  2023-05-24 , DOI: 10.13328/j.cnki.jos.006823
    摘要:
    如何减轻安全回复和重复回复一直是开放域多轮对话模型的两大挑战性难题. 然而, 现有开放域对话模型往往忽略了对话目标的引导性作用, 以及如何在对话历史和对话目标中引入和选择更精确的知识信息. 鉴于此, 提出基于知识增强的多轮对话模型. 所提模型首先将对话历史中实词进行义原及领域词替换, 达到消除歧义和丰富对话文本表示的效果. 然后将经过知识增强后的对话历史、扩充的三元组世界知识、知识管理和知识拷贝加以集成, 以融合知识、词汇、对话历史和对话目标多种信息, 生成多样性回复. 通过两个国际基准开放域汉语对话语料库上的实验结果及可视化验证所提模型同时在自动评测和人工评测上的有效性.
    优先出版日期:  2023-05-24 , DOI: 10.13328/j.cnki.jos.006894
    摘要:
    深度学习在图像、文本、语音等媒体数据的分析任务上取得了优异的性能. 数据增强可以非常有效地提升训练数据的规模以及多样性, 从而提高模型的泛化性. 但是, 对于给定数据集, 设计优异的数据增强策略大量依赖专家经验和领域知识, 而且需要反复尝试, 费时费力. 近年来, 自动化数据增强通过机器自动设计数据增强策略, 已引起了学界和业界的广泛关注. 为了解决现有自动化数据增强算法尚无法在预测准确率和搜索效率之间取得良好平衡的问题, 提出一种基于自引导进化策略的自动化数据增强算法SGES AA. 首先, 设计一种有效的数据增强策略连续化向量表示方法, 并将自动化数据增强问题转换为连续化策略向量的搜索问题. 其次, 提出一种基于自引导进化策略的策略向量搜索方法, 通过引入历史估计梯度信息指导探索点的采样与更新, 在能够有效避免陷入局部最优解的同时, 可提升搜索过程的收敛速度. 在图像、文本以及语音数据集上的大量实验结果表明, 所提算法在不显著增加搜索耗时的情况下, 预测准确率优于或者匹配目前最优的自动化数据增强方法.
    优先出版日期:  2023-05-24 , DOI: 10.13328/j.cnki.jos.006822
    摘要:
    数据复制是分布式数据库提高可用性的重要手段, 通过在不同区域放置数据库的部分副本, 还可以提高本地读写操作的响应速度, 增加副本数量也会提升读负载的线性扩展能力. 考虑到这些优良特性, 近年来国内外都出现了众多多副本分布式数据库系统, 包括Google Spanner、CockroachDB、TiDB、OceanBase等一系列主流的工业界系统, 也出现了包括Calvin、Aria、Berkeley Anna等一系列优秀的学术界系统. 然而, 多副本数据库带来诸多收益的同时, 也带来了一致性维护、跨节点事务、事务隔离等一系列挑战. 总结分析现有的复制架构、一致性维护策略、跨节点事务并发控制等技术, 对比几个代表性多副本数据库系统之间在分布式事务处理方面上的差异与共同点, 并在阿里云环境下搭建跨区域的分布式集群环境, 对几个代表性系统的分布式事务处理能力进行了实验测试分析.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006727
    摘要:
    给出批量矩阵的LU分解和批量求逆算法在GPU上实现及优化方法. 针对批量LU分解问题, 分析Left-looking和Right-looking等常用LU分解块算法在GPU上实现时对全局内存的数据读写次数, 针对GPU架构特点, 选择具有较少访存数据量的Left-looking块算法. 在LU分解的选主元过程, 采用适合GPU架构的并行二叉树搜索算法. 此外, 为了降低选主元引起的行交换过程对算法性能的影响, 提出Warp分组行交换和行交换延迟2个优化技术. 针对LU分解后的批量求逆问题, 分析矩阵求逆过程中修正方法, 为了减少修正过程对全局内存的访问, 在批量求逆的GPU实现中采用延迟修正的矩阵求逆块算法. 同时, 为了加快数据读写速度, 采用更多利用寄存器和共享内存的优化方法和减少访存数据量的列交换优化方法. 另外, 为了避免线程的闲置和共享内存等GPU资源浪费, 提出运行时动态GPU资源分配方法, 相较于一次性分配的静资源分配方法性能得到明显提升. 最终, 在TITAN V GPU上, 我们对10000个规模在33–190之间的随机矩阵进行测试, 测试的数据类型为单精度复数、双精度复数、单精度实数和双精度实数. 我们实现的批量LU分解算法的浮点计算性能分别可达到约2 TFLOPS、1.2 TFLOPS、1 TFLOPS、0.67 TFLOPS, 与CUBLAS中的实现相比加速比最高分别达到了约9×、8×、12×、13×, 与MAGMA中的实现相比加速比分别达到了约1.2×–2.5×、1.2×–3.2×、1.1×–3×、1.1×–2.7×. 批量求逆算法的浮点计算性能分别可达到约4 TFLOPS、2 TFLOPS、2.2 TFLOPS、1.2 TFLOPS, 与CUBLAS中的实现相比加速比最高分别达到了约5×、4×、7×、7×, 与MAGMA中的实现相比加速比分别达到了约2×–3×、2×–3×、2.8×–3.4×、1.6×–2×.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006728
    摘要:
    近年来, 随着互联网信息传播以及新型冠状病毒COVID-19传播链阻断等重大应用问题的出现, 社会网络影响最大化问题的研究受到了科学界广泛关注. 影响最大化问题旨在根据特定应用问题的传播模型, 识别出最优影响种子节点集, 最大化其信息传播影响. 现有影响最大化算法主要针对单连接影响传播模型, 将影响最大化问题模拟为离散的影响力种子节点组合选取优化问题. 然而, 这些算法具有较高的计算时间复杂度, 且无法解决具有大规模冲突关系的符号网络影响最大化问题. 针对上述问题, 首先, 构建适用于符号网络的正负影响传播模型以及影响最大化优化模型. 其次, 通过引入由神经网络构成的deep Q network来选取种子节点集, 将离散的种子节点组合选取问题转化为更易优化的网络权重连续优化问题. 最后, 提出基于演化深度强化学习的符号网络影响最大化算法SEDRL-IM. 该算法将演化算法的个体视作策略, 结合演化算法的无梯度全局搜索以及强化学习的局部搜索特性, 实现对deep Q network权重优化问题解的有效搜索, 从而找到最优影响种子节点集. 在基准符号网络以及真实社交网络数据集上的大量实验结果表明, 所提算法在影响传播范围与求解效率上都优于经典的基准算法.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006729
    摘要:
    社交媒体主题检测旨在从大规模短帖子中挖掘潜在的主题信息. 由于帖子形式简短、表达非正规化, 且社交媒体中用户交互复杂多样, 使得该任务具有一定的挑战性. 前人工作仅考虑了帖子的文本内容, 或者同时对同构情境下的社交上下文进行建模, 忽略了社交网络的异构性. 然而, 不同的用户交互方式, 如转发, 评论等, 可能意味着不同的行为模式和兴趣偏好, 其反映了对主题的不同的关注与理解; 此外, 不同用户对同一主题的发展和演化具有不同影响, 社区中处于引领地位的权威用户相对于普通用户对主题推断会产生更重要的作用. 因此, 提出一种新的多视图主题模型(multi-view topic model, MVTM), 通过编码微博会话网络中的异构社交上下文来推断更加完整、连贯的主题. 首先根据用户之间的交互关系构建一个属性多元异构会话网络, 并将其分解为具有不同交互语义的多个视图; 接着, 考虑不同交互方式与不同用户的重要性, 借助邻居级注意力和交互级注意力机制, 得到特定视图的嵌入表示; 最后, 设计一个多视图驱动的神经变分推理方法, 以捕捉不同视图之间的深层关联, 并自适应地平衡它们的一致性和独立性, 从而产生更连贯的主题. 在3个月新浪微博数据集上的实验结果证明所提方法的有效性.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006730
    摘要:
    选择式阅读理解通常采用证据抽取和答案预测的两阶段流水线框架, 答案预测的效果非常依赖于证据句抽取的效果. 传统的证据抽取多依赖词段匹配或利用噪声标签监督证据抽取的方法, 准确率不理想, 这极大地影响了答案预测的性能. 针对该问题, 提出一种联合学习框架下基于多视角图编码的选择式阅读理解方法, 从多视角充分挖掘文档句子之间以及文档句子和问句之间的关联关系, 实现证据句及其关系的有效建模; 同时通过联合训练证据抽取和答案预测任务, 利用证据和答案之间强关联关系提升证据抽取与答案预测的性能. 具体来说, 该方法首先基于多视角图编码模块对文档、问题和候选答案联合编码, 从统计特性、相对距离和深度语义3个视角捕捉文档、问题和候选答案之间的关系, 获得问答对感知的文档编码特征; 然后, 构建证据抽取和答案预测的联合学习模块, 通过协同训练强化证据与答案之间的关系, 证据抽取子模块实现证据句的选择, 并将其结果和文档编码特征进行选择性融合, 并用于答案预测子模块完成答案预测. 在选择式阅读理解数据集ReCO和RACE上的实验结果表明, 所提方法提升了从文档中选择证据句子的能力, 进而提高答案预测的准确率. 同时, 证据抽取与答案预测联合学习很大程度减缓了传统流水线所导致的误差累积问题.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006731
    摘要:
    在基于事件的社交网络(EBSNs)上, 事件规划一直是一个热点研究问题. 事件规划问题的核心是基于事件和用户的约束条件, 对于一组事件, 为每个事件选择一组用户, 以最大化预先定义的目标函数. 在实际应用中, 事件冲突、事件容量、用户容量、社交偏好、事件偏好, 简称为CCP, 即冲突conflict、容量capacity、偏好preference, 是规划方案需要考虑的重要因素. 然而, 现有的所有工作均未在研究事件规划问题时考虑CCP. 为了获得更加合理有效的规划方案, 首次提出一种CCP事件规划问题. 相比只考虑部分因素的规划, CCP事件规划面临着问题更复杂、约束条件更多的困难. 为了有效求解该问题, 提出事件导向的贪心用户选择算法、事件导向的动态规划算法及基于收益预测的快速版本和事件导向的近似最优用户选择算法. 大量的实验结果验证所提算法的有效性和高效性.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006733
    摘要:
    WiFi作为当前最重要的通信方式之一, 基于WiFi信号的室内定位系统最有望在日常生活中得到广泛地部署应用. 最新研究表明, 当采用WiFi通信过程中获取的信道状态信息(CSI)对目标进行定位时, 系统可实现亚米级的定位精度. 然而, 实验场景下的定位精度受到测试样点位置、WiFi设备布局、天线布局等诸多因素的影响. 因为目前仍缺少WiFi CSI定位性能预测方法, WiFi定位系统部署后往往难以获得预期的精度. 为此, 面向多样化场景提出WiFi CSI定位性能的预测模型. 首先, 从CSI定位的基本物理模型出发, 定义天线对的误差微元函数, 并通过对定位空间的分析生成误差微元矩阵以及定位性能热度图; 其次, 对天线对进行拓展, 通过引入多天线融合方法、多设备融合方法构建通用的CSI定位性能预测模型; 最后, 为了将真实场景地图考虑在内, 提出将上述热度图与场景地图相融合的方法, 从而实现场景定制化的性能预测. 在理论分析的基础上, 结合2个不同场景下的实验数据验证了定位性能预测模型有效性. 实验结果表明, 实际定位精度的变化趋势与理论模型相吻合, 通过理论模型分析可将定位精度优化32%–37%.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006734
    摘要:
    时间序列分割是数据挖掘领域中的一个重要研究方向. 目前基于矩阵轮廓(matrix profile, MP)的时间序列分割技术得到了越来越多研究人员的关注, 并且取得了不错的研究成果. 不过该技术及其衍生算法仍然存在不足: 首先, 基于矩阵轮廓的快速低代价语义分割算法中对给定活动状态的时间序列分割时, 最近邻之间通过弧进行连接, 会出现弧跨越非目标活动状态匹配相似子序列问题; 其次, 现有提取分割点算法在提取分割点时采用给定长度窗口, 容易得到与真实值偏差较大的分割点, 降低准确性. 针对以上问题, 提出一种限制弧跨越的时间序列分割算法(limit arc curve cross-FLOSS, LAC-FLOSS), 该算法给弧添加权重, 形成一种带权弧, 并通过设置匹配距离阈值解决弧的跨状态子序列误匹配问题. 此外, 提出一种改进的提取分割点算法(improved extract regimes, IER), 它通过纠正弧跨越(corrected arc crossings, CAC)序列的形状特性, 从波谷中提取极值, 避免直接使用窗口在非拐点处取到分割点的问题. 在公开数据集datasets_seg和MobiAct上面进行对比实验, 验证以上两种解决方案的可行性和有效性.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006735
    摘要:
    随着信息技术与教育的深度融合, 蓬勃发展的在线教育已成为教育信息化进程的新常态, 并产生了海量的教育数据, 但也面临辍学率高、课程完成率低、监管不足等问题, 因此如何对海量教育数据进行挖掘和分析是解决这些问题的关键. 学习共同体是以学习者为核心要素的学习组织, 强调学习过程中学习者之间互动交流、资源共享以及协作学习等行为, 从而完成共同的学习任务或目标. 对在线教育环境中学习共同体的研究进行回顾、分析和展望. 首先, 介绍在线教育环境中学习共同体的背景与重要性. 其次, 介绍不同学科中学习共同体的定义. 然后, 总结同质、异质和混合3种类型学习共同体的构建方法. 接着, 从共享、协作和激励3个方面讨论学习共同体的管理机制. 最后, 探讨和展望学习共同体未来的研究方向.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006736
    摘要:
    视频描述技术旨在为视频自动生成包含丰富内容的文字描述, 近年来吸引了广泛的研究兴趣. 一个准确而精细的视频描述生成方法, 不仅需要对视频有全局上的理解, 更离不开具体显著目标的局部空间和时序特征. 如何建模一个更优的视频特征表达, 一直是视频描述工作的研究重点和难点. 另一方面, 大多数现有工作都将句子视为一个链状结构, 并将视频描述任务视为一个生成单词序列的过程, 而忽略了句子的语义结构, 这使得算法难以应对和优化复杂的句子描述及长句子中易引起的逻辑错误. 为了解决上述问题, 提出一种新颖的语言结构引导的可解释视频语义描述生成方法, 通过设计一个基于注意力的结构化小管定位机制, 充分考虑局部对象信息和句子语义结构. 结合句子的语法分析树, 所提方法能够自适应地加入具有文本内容的相应时空特征, 进一步提升视频描述的生成效果. 在主流的视频描述任务基准数据集MSVD和MSR-VTT上的实验结果表明, 所提出方法在大多数评价指标上都达到了最先进的水平.
    优先出版日期:  2023-05-18 , DOI: 10.13328/j.cnki.jos.006737
    摘要:
    随着信息通信技术的不断突破与发展, 信息获取变得非常便利. 与此同时, 隐私信息也更容易泄露. 将智能领域与安全多方计算技术相结合, 有望解决隐私保护问题. 目前, 安全多方计算已经解决了许多不同隐私保护问题, 但还有更多的问题等待人们去解决. 对于极差、极值和的安全多方计算问题目前研究的结果很少, 极差、极值和作为统计学的常用工具在实际中有广泛的应用, 研究极差、极值和的保密计算具有重要意义. 本文提出了新编码方法, 用新编码方法解决了两种不同的安全多方计算问题, 一是极差的保密计算问题, 二是极值和的保密计算问题. 新编码方法结合Lifted ElGamal门限密码系统, 设计多方参与、每方拥有一个数据场景下分布式隐私数据集极差的保密计算协议; 将新编码方法稍作改动解决相同场景下保密计算极值和的问题. 以此为基础, 对新编码方法进一步修改, 结合Paillier密码系统设计了两方参与、每方拥有多个数据情况下分布式隐私数据集极差、极值和的保密计算协议. 用模拟范例方法证明协议在半诚实模型下的安全性. 最后, 用模拟实验测试协议的复杂性. 效率分析和实验结果表明本文协议简单高效, 可广泛用于实际应用中, 是解决其他很多安全多方计算问题的重要工具.
    优先出版日期:  2023-05-17 , DOI: 10.13328/j.cnki.jos.006826
    摘要:
    近年来, 随着普适计算概念的深入人心, 智能感知技术已成为研究者们关注的焦点, 且基于WiFi的非接触式感知因其优秀的普适性、低廉的部署成本以及良好的用户体验越来越受到学术界和工业界的青睐. 典型的WiFi非接触式感知工作有手势识别、呼吸检测、入侵检测、行为识别等, 这些工作若实际部署, 需首先避免其他无关区域中无关行为的干扰, 因此需要判断目标是否进入到特定的感知区域中. 这意味着系统应具备精准判断目标在界线哪一侧的能力, 然而现有工作没能找到一个可以对某个自由设定的边界进行精确监控的方法, 这阻碍了WiFi感知应用的实际落地. 基于这一关键问题, 从电磁波衍射的物理本质出发, 结合菲涅尔衍射模型(Fresnel diffraction model), 找到一种目标穿越link (收发设备天线的连线)时的信号特征(Rayleigh distribution in Fresnel diffraction model, RFD), 并揭示该信号特征与人体活动之间的数学关系; 之后以link作为边界, 结合天线间距带来的波形时延以及AGC (automatic?gain?control)在link被遮挡时的特征, 通过越线检测实现对边界的监控. 在此基础上, 还实现两个实际应用, 即入侵检测系统和居家状态监测系统, 前者的精确率超过89%、召回率超过91%, 后者的准确率超过89%, 在验证所提边界监控算法的可用性和鲁棒性的同时, 也展示了所提方法与其他WiFi感知技术相结合的巨大潜力, 为WiFi感知技术的实际部署提供思考方向.
    优先出版日期:  2023-05-17 , DOI: 10.13328/j.cnki.jos.006810
    [摘要] (191) [HTML] (0) [PDF 7.78 M] (123)
    摘要:
    智能合约作为可信的去中心化应用, 获得了广泛的关注, 但其安全漏洞问题对其可靠性带来了巨大威胁. 为此, 研究者们利用各种前沿技术(如模糊测试、机器学习、形式化验证等)研究了多种漏洞检测技术, 并取得了可观的效果. 为了系统性地梳理与分析现有智能合约漏洞检测技术, 搜集截至2021年7月关于智能合约漏洞检测的84篇论文, 根据它们的核心方法进行分类, 从每种技术的实现方法、漏洞类型、实验数据等方面展开分析, 同时对比国内外研究现状在这些方面的差异. 最后, 对现有的智能合约漏洞检测技术进行总结, 探讨面临的挑战, 并展望了未来的研究方向.
    优先出版日期:  2023-05-17 , DOI: 10.13328/j.cnki.jos.006821
    摘要:
    因严重遮挡和剧烈形变等挑战长期共存, 精准鲁棒的视频分割已成为计算机视觉的热点之一. 构建联合吸收马尔可夫链和骨架映射的视频分割方法, 经由“预分割—后优化—再提升”逐步递进地生成精准目标轮廓. 预分割阶段, 基于孪生网络和区域生成网络获取目标感兴趣区域, 建立这些区域内超像素的吸收马尔可夫链, 计算出超像素的前景/背景标签. 吸收马尔可夫链可灵活有效的感知和传播目标特征, 能从复杂场景初步预分割出目标物体. 后优化阶段, 设计短期时空线索模型和长期时空线索模型, 以获取目标的短期变化规律和长期稳定特征, 进而优化超像素标签, 降低相似物体和噪声带来的误差. 再提升阶段, 为减少优化结果的边缘毛刺和不连贯, 基于超像素标签和位置, 提出前景骨架和背景骨架的自动生成算法, 并构建基于编解码的骨架映射网络, 以学习出像素级目标轮廓, 最终得到精准视频分割结果. 标准数据集的大量实验表明: 所提方法优于现有主流视频分割方法, 能够产生具有更高区域相似度和轮廓精准度的分割结果.
    优先出版日期:  2023-05-17 , DOI: 10.13328/j.cnki.jos.006814
    摘要:
    高效的移动充电调度是构建长生命期、可持续运行的无线可充电传感器网络(WRSN)的关键之一. 现有基于强化学习的充电策略只考虑了移动充电调度问题的一个维度, 即移动充电器(MC)的路径规划, 而忽略了充电调度问题中的另一维度, 即充电时长调整, 因而仍然存在性能限制. 提出一种基于深度强化学习的WRSN动态时空充电调度方法(SCSD), 建立充电序列调度和充电时长动态调整的深度强化学习模型. 针对移动充电调度中离散的充电序列规划和连续的充电时长调整问题, 使用DQN为待充电节点优化充电序列, 并基于DDPG计算并动态调整序列中待充电节点的充电时长. 通过分别从空间和时间两个维度的优化, 在避免节点缺电失效的同时, 所提出的SCSD可实现充电性能的有效提高. 大量仿真实验结果表明, SCSD与现有的几种有代表性的充电方案相比其充电性能具有明显优势.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006815
    摘要:
    随着深度学习与隐写技术的发展, 深度神经网络在图像隐写领域的应用越发广泛, 尤其是图像嵌入图像这一新兴的研究方向. 主流的基于深度神经网络的图像嵌入图像隐写方法需要将载体图像和秘密图像一起输入隐写模型生成含密图像, 而最近的研究表明, 隐写模型仅需要秘密图像作为输入, 然后将模型输出的含密扰动添加到载体图像上, 就可完成秘密图像的嵌入过程, 这种新颖的不依赖载体图像的嵌入方式极大地扩展了隐写的应用场景, 实现了隐写的通用性. 但这种新的嵌入方式目前仅验证了秘密图像嵌入和恢复的可行性, 而对隐写更重要的评价标准, 即隐蔽性, 未进行考虑和验证. 提出一种基于注意力机制的高容量通用图像隐写模型USGAN, 利用注意力模块, USGAN的编码器可以在通道维度上对秘密图像中像素位置的扰动强度分布进行调整, 从而减小含密扰动对载体图像的影响. 此外, 利用基于CNN的隐写分析模型作为USGAN的目标模型, 通过与目标模型进行对抗训练促使编码器学习生成含密对抗扰动, 从而让含密图像同时成为攻击隐写分析模型的对抗样本. 实验结果表明, 所提模型不仅可以实现不依赖载体图像的通用嵌入方式, 还进一步提高了隐写的隐蔽性.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006816
    摘要:
    大脑如何实现学习以及感知功能对于人工智能和神经科学领域均是一个重要问题. 现有人工神经网络由于结构和计算机制与真实大脑相差较大, 无法直接用于理解真实大脑学习以及处理感知任务的机理. 树突神经元模型是一种对大脑神经元树突信息处理过程进行建模仿真的计算模型, 相比人工神经网络更接近生物真实. 使用树突神经网络模型处理学习感知任务对理解真实大脑的学习过程有重要作用. 然而, 现有基于树突神经元网络的学习模型大都局限于简化树突模型, 无法完整建模树突的信号处理过程. 针对这一问题, 提出一种基于精细中型多棘神经元网络的学习模型, 使得精细神经网络可以通过学习完成相应感知任务. 实验表明, 在经典的图像分类任务上, 所提模型可以达到很好的分类性能. 此外, 精细神经网络对于噪声干扰有很强的鲁棒性. 对网络特性进行进一步分析, 发现学习后网络中的神经元表现出了刺激选择性这种神经科学中的经典现象, 表明所提模型具有一定的生物可解释性, 同时也表明刺激选择特性可能是大脑通过学习完成感知任务的一种重要特性.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006801
    摘要:
    奥林匹克遗产是全人类的宝贵财富, 利用科技与文化艺术相融合, 对实现北京冬奥会及奥林匹克遗产和精神文化的多元呈现和高效传播至关重要. 线上云展厅作为信息时代数字博物馆发展的重要趋势, 虽然在单项数字博物馆与交互系统技术研究方面已具备较好的基础, 但尚未形成体系化、智能化、交互友好的冬奥会奥林匹克数字博物馆系统. 面向北京2022年冬季奥林匹克运动会, 提出一种具有交互反馈的云展厅系统构建方式, 通过构建具有虚拟讲解员的智能交互云展厅, 进一步探索交互反馈在知识传播型的数字博物馆中对于非物质文化遗产的传播作用. 为了探索视听交互反馈对云展厅的奥林匹克精神文化传播的影响, 同时提升知识传播型云展厅中的用户体验, 对32名参与者进行用户实验. 研究结果表明, 所构建的云展厅能够极大地促进奥林匹克文化与精神的传播; 同时, 在云展厅中引入视听交互反馈能够提高用户的感知控制, 从而有效地提升用户体验.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006820
    摘要:
    大型复杂软件系统的需求分析与生成是一个由上而下逐层分解的过程, 跨层需求间追踪关系的构建对于项目的管理、开发与演化都至关重要. 开源系统的松耦合贡献方式需要每位参与者能便捷地理解需求的来龙去脉及需求状态, 这依赖跨层需求间的追踪. 问题描述日志是开源系统中需求的常见呈现方式, 其无固定模板要求, 内容多样(含文本、代码、调试信息等), 术语使用自由, 跨层需求间抽象层次大, 给自动追踪带来极大挑战. 提出一种面向关键特征维度的相关性反馈方法, 通过静态分析项目代码结构, 抽取代码相关术语及其间的关联强度, 构建代码词汇库, 以缓解跨层需求的抽象层次差距及用语不统一的问题; 通过度量词汇对需求描述的重要性并基于此筛选关键特征维度, 以对查询语句进行针对性的优化, 有效减少需求描述长度、内容形式等方面的噪音. 通过在3个开源系统需求集上针对两个场景的实验, 表明所提方法相比基线方法在跨层需求追踪方面的优越性, 相比VSM、Standard Rocchio和Trace BERT, F2值提升分别达到29.01%、7.75%和59.21%.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006811
    摘要:
    BLAS (basic linear algebra subprograms)是最基本、最重要的底层数学库之一. 在一个标准的BLAS库中, BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要, 在许多大规模科学与工程计算应用中被广泛调用. 另外, BLAS 3级属于计算密集型函数, 对充分发挥处理器的计算性能有至关重要的作用. 针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术. 具体而言, 根据SW26010-Pro的存储层次结构, 设计多级分块算法, 挖掘矩阵运算的并行性. 在此基础上, 基于远程内存访问 (remote memory access, RMA)机制设计数据共享策略, 提高从核间的数据传输效率. 进一步, 采用三缓冲、参数调优等方法对算法进行全面优化, 隐藏直接内存访问 (direct memory access, DMA)访存开销和RMA通信开销. 此外, 利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令, 还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化, 提高了函数的浮点计算效率. 实验结果显示, 所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升, 单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%, 多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%.
    优先出版日期:  2023-05-10 , DOI: 10.13328/j.cnki.jos.006824
    摘要:
    流程剩余时间预测对于业务异常的预防和干预有着重要的价值和意义. 现有的剩余时间预测方法通过深度学习技术达到了更高的准确率, 然而大多数深度模型结构复杂难以解释预测结果, 即不可解释问题. 此外, 剩余时间预测除了活动这一关键属性还会根据领域知识选择若干其他属性作为预测模型的输入特征, 缺少通用的特征选择方法, 对于预测的准确率和模型的可解释性存在一定影响. 针对上述问题, 提出基于可解释特征分层模型(explainable feature-based hierarchical model, EFH model)的流程剩余时间预测框架. 具体而言, 首先提出特征自选择策略, 通过基于优先级的后向特征删除和基于特征重要性值的前向特征选择, 得到对预测任务具有积极影响的属性作为模型输入. 然后提出可解释特征分层模型架构, 通过逐层加入不同特征得到每层的预测结果, 解释特征值与预测结果的内在联系. 采用LightGBM (light gradient boosting machine)和LSTM (long short-term memory)算法实例化所提方法, 框架是通用的不限于选用算法. 最后在8个真实事件日志上与最新方法进行比较. 实验结果表明所提方法能够选取出有效特征, 提高预测的准确率, 并解释预测结果.
    优先出版日期:  2023-04-27 , DOI: 10.13328/j.cnki.jos.006678
    摘要:
    软件系统是一个复杂的人工制品, 类之间的交互关系对软件质量有着潜在影响, 如软件缺陷的级联传播效应就是一个典型. 如何准确预测软件系统中类之间合理关系, 优化设计结构是软件质量保障的一个开放问题. 从软件网络观的视角, 综合考虑软件系统中类与类之间关系(外部图), 以及每个类内部方法之间关系(内部图), 将软件系统抽象成一个图中图结构的软件网络, 并在此基础上提出一种基于图中图卷积神经网络的类交互关系预测方法. 首先对每个类内部图进行卷积得到类节点的初始特征, 再通过外部图的卷积更新类节点的表征向量, 最后通过计算类节点对的评估值进行交互预测. 根据在6个Java开源项目上的实验结果显示, 图中图结构有助于提高软件系统结构的表征能力, 且所提方法与常规网络嵌入方法相比, AUC值和AP值的平均增长率超过5.5%. 与此同时, 和两种同行方法相比, AUC值和AP值的平均增长率分别在9.36%和5.22%以上.
    优先出版日期:  2023-04-27 , DOI: 10.13328/j.cnki.jos.006685
    摘要:
    对称可搜索加密(symmetric searchable encryption, SSE)能实现密文数据的检索而不泄露用户隐私, 在云存储领域得到了广泛的研究与应用. 然而, 在SSE方案中, 半诚实或者不诚实的服务器可能篡改文件中的数据, 返回给用户不可信的文件, 因此对这些文件进行验证是十分必要的. 现有的可验证SSE方案大多是用户本地进行验证, 恶意用户可能会伪造验证结果, 无法保证验证的公平性. 基于以上考虑, 提出一种基于区块链的动态可验证对称可搜索加密方案(verifiable dynamic symmetric searchable encryption, VDSSE); VDSSE采用对称加密实现动态更新过程中的前向安全; 在此基础上, 利用区块链实现搜索结果的验证, 验证过程中, 提出一种新的验证标签——Vtag, 利用Vtag的累积性实现验证信息的压缩存储, 降低验证信息在区块链上的存储开销, 并能够有效支持SSE方案的动态验证. 由于区块链具有不可篡改的性质, 验证的公平性得以保证. 最后, 对VDSSE进行实验评估和安全性分析, 验证方案的可行性和安全性.
    优先出版日期:  2023-04-27 , DOI: 10.13328/j.cnki.jos.006689
    摘要:
    资源丰富场景下, 利用相似性翻译作为目标端原型序列, 能够有效提升神经机器翻译的性能. 然而在低资源场景下, 由于平行语料资源匮乏, 导致不能匹配得到原型序列或序列质量不佳. 针对此问题, 提出一种基于多种策略进行原型生成的方法. 首先结合利用关键词匹配和分布式表示匹配检索原型序列, 如未能获得匹配, 则利用伪原型生成方法产生可用的伪原型序列. 其次, 为有效地利用原型序列, 对传统的编码器-解码器框架进行改进. 编码端使用额外的编码器接收原型序列输入; 解码端在利用门控机制控制信息流动的同时, 使用改进的损失函数减少低质量原型序列对模型的影响. 多个数据集上的实验结果表明, 相比基线模型, 所提出的方法能够有效提升低资源场景下的机器翻译性能.
    优先出版日期:  2023-04-27 , DOI: 10.13328/j.cnki.jos.006720
    摘要:
    稀疏三角线性方程组求解(SpTRSV)是预条件子部分的重要操作, 其中结构化SpTRSV问题, 在以迭代方法求解偏微分方程组的科学计算程序中, 是一种较为常见的问题类型, 而且通常是科学计算程序的需要解决的一个性能瓶颈. 针对GPU平台, 目前以CUSPARSE为代表的商用GPU数学库, 采用分层调度(level-scheduling)方法并行化SpTRSV操作. 该方法不仅预处理耗时较长, 而且在处理结构化SpTRSV问题时会出现较为严重GPU线程闲置问题. 针对结构化SpTRSV问题, 提出一种面向结构化SpTRSV问题的并行算法. 该算法利用结构化SpTRSV问题的特殊非零元分布规律进行任务划分, 避免对输入问题的非零元结构进行预处理分析. 并对现有分层调度方法的逐元素处理策略进行改进, 在有效缓解GPU线程闲置问题的基础上, 还隐藏了部分矩阵非零元素的访存延迟. 还根据算法的任务划分特点, 采用状态变量压缩技术, 显著提高算法状态变量操作的缓存命中率. 在此基础上, 还结合谓词执行等GPU硬件特性, 对算法实现进行全面的优化. 所提算法在NVIDIA V100 GPU上的实测性能, 相比CUSPARSE平均有2.71倍的加速效果, 有效访存带宽最高可达225.2 GB/s. 改进后的逐元素处理策略, 配合针对GPU硬件的一系列调优手段, 优化效果显著, 将算法的有效访存带宽提高了约1.15倍.
    优先出版日期:  2023-04-26 , DOI: 10.13328/j.cnki.jos.006805
    摘要:
    移动边缘计算场景中任务的不确定性增加了任务卸载及资源分配的复杂性和难度. 鉴于此, 提出一种移动边缘计算不确定性任务持续卸载及资源分配方法. 首先, 构建一种移动边缘计算不确定性任务持续卸载模型, 通过基于持续时间片划分的任务多批次处理技术应对任务的不确定性, 并设计多设备计算资源协同机制提升对计算密集型任务的承载能力. 其次, 提出一种基于负载均衡的自适应策略选择算法, 避免计算资源过度分配导致信道拥堵进而产生额外能耗. 最后, 基于泊松分布实现了对不确定任务场景模型的仿真, 大量实验结果表明时间片长度减小能够降低系统总能耗. 此外, 所提算法能够更有效地实现任务卸载及资源分配, 相较于对比算法, 最大可降低能耗11.8%.
    优先出版日期:  2023-04-26 , DOI: 10.13328/j.cnki.jos.006807
    [摘要] (177) [HTML] (0) [PDF 6.17 M] (137)
    摘要:
    情感对话技术着眼于对话机器人的“情商”, 旨在让对话机器人具有像人类一样观察、理解和表达情感的能力. 这项技术可以看作是情感计算和对话技术的交叉, 兼顾对话机器人的“智商”和“情商”, 从而实现对用户的精神陪伴、情感慰藉和心理疏导. 结合对话中情感的特点, 对情感对话技术进行全面解析: 1)规划对话场景下的情感识别、情感管理、情感表达等3个重要的技术点, 并拓展多模态场景下的情感对话技术. 2)介绍情感对话4项关键技术的最新研究进展, 并总结这些技术面临的主要挑战和可能解决方案. 3)介绍情感对话技术的数据资源. 4)分析情感对话技术的难点, 展望其未来发展方向与前景.
    优先出版日期:  2023-04-26 , DOI: 10.13328/j.cnki.jos.006809
    摘要:
    混合云模式下企业业务应用和数据经常跨云流转迁移, 面对多样复杂的云服务环境, 当前大多数混合云应用仅以主体为中心制定数据的访问控制策略并通过人工调整策略, 无法满足数据在全生命周期不同阶段时的细粒度动态访问控制需求. 为此, 提出一种混合云环境下面向数据生命周期的自适应访问控制方法AHCAC. 该方法首先采用基于关键属性的策略描述思想去统一混合云下数据全生命周期的异构策略, 尤其引入“阶段”属性显式标识数据的生命周期状态, 为实现面向数据生命周期的细粒度访问控制提供基础; 其次针对数据生命周期同阶段策略具有相似性和一致性的特点, 定义策略距离, 引入基于策略距离的层次聚类算法实现数据生命周期各阶段对应访问控制策略的构建; 最后通过关键属性匹配实现当数据所处阶段变化时, 触发策略评估引擎上数据对应阶段策略的自适应调整和加载, 最终实现面向数据生命周期的自适应访问控制. 在OpenStack和开源策略评估引擎Balana上通过实验验证了所提方法的有效性和可行性.
    优先出版日期:  2023-04-19 , DOI: 10.13328/j.cnki.jos.006797
    摘要:
    在边缘计算场景中, 通过将部分待执行任务卸载到边缘服务器执行能够达到降低移动设备的负载、提升移动应用性能和减少设备开销的目的. 对于时延敏感任务, 只有在截止期限内完成才具有实际意义. 但是边缘服务器的资源往往有限, 当同时接收来自多个设备的数据传输及处理任务时, 可能造成任务长时间的排队等待, 导致部分任务因超时而执行失败, 因此无法兼顾多个设备的性能目标. 鉴于此, 在计算卸载的基础上优化边缘服务器端的任务调度顺序. 一方面, 将时延感知的任务调度建模为一个长期优化问题, 并使用基于组合多臂赌博机的在线学习方法动态调整服务器的调度顺序. 另一方面, 由于不同的任务执行顺序会改变任务卸载性能提升程度, 因而影响任务卸载决策的有效性. 为了增加卸载策略的鲁棒性, 采用了带有扰动回报的深度Q学习方法决定任务执行位置. 仿真算例证明了该策略可在平衡多个用户目标的同时减少系统的整体开销.
    优先出版日期:  2023-04-19 , DOI: 10.13328/j.cnki.jos.006799
    摘要:
    近年来, 研究者已经提出多种方法来解决知识库问答(KBQA)中的复杂问题, 并取得一定成果. 然而, 由于语义构成的复杂性以及可能存在推理路径的缺失, 复杂问题的求解效果依然不佳. 为了更好地解决这类问题, 提出基于知识图谱全局和局部特征的问答方法——CGL-KBQA. 所提方法利用知识嵌入技术提取知识图谱整体的拓扑结构和语义特征作为候选实体节点的全局特征, 根据实体表示和问句表示将复杂问答建模为复合的三元组分类任务. 同时, 将图谱在搜索过程生成的核心推导路径作为局部特征, 结合问句的语义相似性来构建候选实体不同维度特征, 最终形成混合特征评分器. 由于最终推理路径可能缺失, 采用基于无监督的多重聚类方法设计了聚类器模块, 进而根据候选实体的两类特征表示直接生成最终答案簇, 这使得非完全知识图谱问答成为可能. 实验结果表明, 所提方法在两个常见KBQA数据集上均取得不错的效果, 特别是在图谱知识不完全的情况下也具备非常好的效果.
    优先出版日期:  2023-04-19 , DOI: 10.13328/j.cnki.jos.006760
    摘要:
    近年来, 对运动目标的定位和追踪被广泛地应用于室内导航、智能家居、安防监控和智慧医疗等场景. 基于无线射频信号的非接触式定位追踪受到了研究人员的广泛关注, 其中基于商用IR-UWB的技术能够以较低的成本和功耗实现目标定位和追踪的功能, 具有较强的发展潜力. 然而, 现有工作大多存在以下问题: 1)追踪场景受限, 只针对理想情况下室外或者相对空旷的室内场景进行建模和处理; 2)目标的运动状态受限且建模过于理想; 3)虚假动态目标引起的追踪精度不足. 为了解决这些问题, 在理解多径场景下接收信号谱组成的基础上, 提出一个基于IR-UWB的动态目标追踪方法. 首先提取原始信号谱中动态成分, 并利用基于高斯模糊的多径消除和距离提取算法, 消除了多径干扰, 仅保留与运动目标直接相关的一次反射信息, 从而准确地获取了目标的距离变化曲线. 随后, 提出多视角融合算法, 将不同视角上的设备距离信息进行融合, 实现对自由活动目标的准确定位和追踪. 此外, 还搭建一个基于低成本商用IR-UWB雷达的实时动态目标追踪系统. 真实室内家居场景中的实验结果表明, 系统估计的人体中心的位置与真实运动轨迹的误差始终小于20 cm. 在改变实验环境、实验者、活动速度、设备高度等影响因素的情况下, 系统依然鲁棒.
    优先出版日期:  2023-04-19 , DOI: 10.13328/j.cnki.jos.006761
    摘要:
    SPN结构是目前最广泛使用的一种分组密码整体结构, AES、ARIA等分组密码算法均采用此结构, 对此类SPN型密码的安全性分析是密码分析中的一个研究热点. 将子空间迹密码分析方法应用到典型二维SPN型密码和典型三维SPN型密码中, 可分别得到其相应的子空间迹和基于子空间迹的通用性质, 该性质与密钥、S盒以及列混淆矩阵的定义均无关, 可具体描述为: 针对一个状态可形式化为n×m二维数组的典型二维SPN型密码, 属于类对角子空间同一陪集的所有明文经过5轮加密得到的密文中属于混淆子空间同一陪集的不同密文对数量一定为$ {2^{n - 1}} $的倍数; 针对一个状态可形式化为l×n×m三维数组的典型三维SPN型密码, 属于类对角子空间同一陪集的所有明文经过7轮加密得到的密文中属于混淆子空间同一陪集的不同密文对数量一定为$ {2^{nl - 1}} $的倍数. 此外, 不仅对该性质进行了证明, 还在PHOTON算法的内部置换以及小规模版本Rijndael算法、3D算法、Saturnin算法上进行了实验验证, 结果与该性质完全一致.
    优先出版日期:  2023-04-13 , DOI: 10.13328/j.cnki.jos.006780
    摘要:
    核心网络切片通过虚拟网络功能(VNF)的组合链接实现灵活组网. 软件故障和硬件故障均会导致VNF失效, 从而导致切片服务中断. 由于网络切片共享资源, 需要特定的隔离机制以满足切片健壮性需求. 现有的可用性保障机制大多面向随机VNF故障, 一些涉及外部攻击的研究很少考虑网络切片特殊的隔离需求. 为了在隔离机制下实现切片可用性保障, 提出一种基于多级隔离的网络切片可用性保障方法. 首先, 建立核心网切片资源感知的可用性保障问题模型, 旨在满足隔离需求的同时, 消耗最少的备份资源来达到可用性目标. 然后, 提出一种隔离级别评估模型对VNF的隔离级别进行评估. 最后, 提出一种基于多级隔离的备份算法MLIBA解决所提出的可用性保障问题. 此外, 针对共享备份可用性计算这一PP-complete问题, 提出一种基于等效备份实例的计算方法. 仿真结果表明, 所提可用性计算方法具有较高的准确性, 引入多级隔离的可用性保障方法可以使切片的健壮性提高一倍. 与现有研究的对比表明, 在相同的隔离约束和可用性目标下, 所提方法可减少20%–70%资源消耗, 提高5%–30%的有效资源占比.
    优先出版日期:  2023-04-13 , DOI: 10.13328/j.cnki.jos.006798
    摘要:
    近年来, 随着区块链的快速发展, 加密货币种类和匿名交易的类型不断多元化. 如何在加密货币市交易类型中进行最优决策是用户关注的问题, 用户的决策目标是在确保交易被打包的前提下实现交易费用最小化和隐私最大化. 加密货币交易市场是复杂的, 不同的加密货币技术差异大, 现有的工作都是研究比特币市场, 很少有对Zcash等其他匿名币市场和用户的匿名需求的讨论. 因此提出一个基于博弈的通用加密货币交易市场模型, 通过结合用户的匿名需求运用博弈论探究交易市场和用户对于交易类型和交易费用的决策. 以最具代表性的可选隐私加密货币Zcash为例, 结合CoinJoin交易, 对交易市场进行分析, 按照交易流程模拟用户和矿工找到最佳策略的过程, 讨论区块大小、折扣因子和用户数量对交易市场和用户行为的影响. 在多种交易市场类型中对模型进行仿真实验, 并对实验结果进行深入讨论. 以三类型交易市场为例, 交易市场恶性竞价情景下, 参数设置为$plnum = 75$, $\theta {\text{ = }}0.4$, ${s_t} = 100$, ${s_{\textit{z}}} = 400$时, 100%的用户在交易市场前期(前500轮)倾向于选择CoinJoin交易, 而在交易市场中后期(15002000轮), 隐私敏感度低于0.7的用户中有97%倾向于选择CoinJoin交易, 隐私敏感度高于0.7的用户中有73%倾向于选择屏蔽交易. CoinJoin交易和大小在400以上的区块大小能有效缓解交易费用的恶性竞争. 所提的交易市场模型能够有效地帮助研究人员理解不同加密货币交易市场博弈, 分析用户交易行为, 揭示市场运行规律.
    优先出版日期:  2023-04-13 , DOI: 10.13328/j.cnki.jos.006803
    摘要:
    图像可逆认证是一项将可逆信息隐藏和脆弱水印相结合的新技术, 其既能实现对图像的脆弱认证, 还能在提取认证信息的同时无失真地恢复出原始载体, 对图像的原始性和完整性认证具有非常重要的意义. 针对现有可逆认证方法认证精度低、对具有复杂纹理的图像或图像中部分纹理复杂区域无法实现有效保护的问题, 提出一种新的图像可逆认证方法. 首先对待认证图像进行分块, 根据每个子块可嵌入容量将其分为差分块和平移块, 并采用不同的可逆嵌入方法对不同类型的块进行认证码嵌入操作. 为了增大嵌入容量以提高对每个子块的认证效果, 还采取了分层嵌入的方式. 在认证方, 可以通过从每个子块中提取认证码实现子块的篡改检测和定位. 此外, 所提方法还可与形态学中的膨胀和腐蚀操作结合以细化篡改检测标记, 进一步提高检测效果. 实验结果表明, 所提方法能够在同样的认证精度下对纹理平滑和纹理复杂的图像进行保护, 同时还能够实现对几乎所有子块的独立认证和恢复, 具有广泛的适用性.
    优先出版日期:  2023-04-13 , DOI: 10.13328/j.cnki.jos.006806
    [摘要] (100) [HTML] (0) [PDF 7.08 M] (154)
    摘要:
    域适应通过将源域知识迁移到任务相似的目标域, 旨在辅助后者更好地学习. 当目标域的数据标签集为源域标签的子集时, 该类场景的域适应称为部分或偏域适应(partial domain adaption, PDA). 相比一般的域适应, 尽管PDA更具普遍性, 但也更具挑战性, 相关研究较少, 尤其缺少系统的综述. 为此, 旨在弥补这一欠缺, 对现有PDA方法进行全面回顾、分析和总结, 为相关社区提供主题研究概貌和参考. 首先针对PDA背景、概念和应用领域进行概况总结. 其次, 根据方法的建模特点, PDA被划分为促进正迁移和抑制负迁移两大类, 进而分别作出回顾和分析. 然后, 对常用的实验基准数据集进行归类和总结. 最后, 对现有PDA工作存在的问题进行了分析, 并提出了其未来可能的发展方向.
    优先出版日期:  2023-04-04 , DOI: 10.13328/j.cnki.jos.006669
    [摘要] (157) [HTML] (0) [PDF 4.14 M] (227)
    摘要:
    可编程数据平面(PDP)一方面支持网络应用的卸载与加速, 给网络应用带来了革命性的发展机遇; 另一方面支持新协议、新服务的快速实现和部署, 促进了网络创新和演进, 是近年来网络领域的研究热点. FPGA因其通用的计算架构、丰富的片内资源和扩展接口提供了多种可编程数据平面的具体实现, 支持更广范围的应用场景. 同时, FPGA还为探索更通用的可编程数据平面抽象提供了可能. 因此, 基于FPGA的可编程数据平面受到了学术界与产业界的广泛关注. 首先分类别阐述基于FPGA的可编程数据平面(F-PDP)抽象. 接着, 介绍基于F-PDP快速构建网络应用的关键技术的研究进展. 之后, 介绍基于F-PDP的新型可编程网络设备. 此外, 从提升网络性能、构建网络测量框架以及部署网络安全应用这3个方面, 详细梳理近年来基于F-PDP的应用研究成果. 最后, 探讨F-PDP未来可能的研究趋势.
    优先出版日期:  2023-04-04 , DOI: 10.13328/j.cnki.jos.006670
    摘要:
    贝叶斯网(BN)是不确定性知识表示和推理的基本框架, 广泛用于社交网络、知识图谱和医疗诊断等领域. 特定领域中基于BN的分析诊断和决策支持, 其核心计算任务是基于BN进行多次概率推理. 然而, 使用传统的概率推理方法, 基于同一BN的多次概率推理其中间过程存在很多重复的计算结果, 具有较高的时间复杂度. 为了提高多次概率推理的效率, 提出易于重用和易于计算的贝叶斯网嵌入及相应的概率推理方法. 首先, 借鉴图嵌入的基本思想, 使用点互信息矩阵来表示BN的有向无环图结构和条件概率参数, 提出基于自编码器和注意力机制的BN嵌入方法. 其中, 自编码器的每一编码层利用节点与其邻居节点(父节点和子节点)的相关性生成节点嵌入, 从而在嵌入向量中保存BN节点间的概率依赖关系. 然后, 使用嵌入向量之间的距离来度量节点之间的联合概率, 提出基于嵌入向量的BN概率推理方法. 实验证明, 针对BN的多次概率推理, 所提方法的效率高于现有方法, 且能得到准确的推理结果.
    优先出版日期:  2023-04-04 , DOI: 10.13328/j.cnki.jos.006674
    摘要:
    代码审查是现代软件分布式并行开发过程中的重要机制. 在代码评审时, 帮助代码评审者快速查看某一段源代码的演化过程, 可以让评审者快速理解此段代码变更的原因和必要性, 从而有效提升代码评审的效率与质量. 现有工作虽然提供了一些类似的代码提交历史回溯方法及对应工具, 但缺乏从历史数据中进一步提取辅助代码评审相关辅助信息的能力. 为此, 提出一个面向代码评审的细粒度代码变更溯源方法C2Tracker. 给定一段方法(函数)级别的细粒度代码变更, C2Tracker能够自动追溯到历史开发过程中修改该段代码相关的代码提交, 并在此基础上进一步挖掘其中与该段代码频繁共现修改的代码元素以及相关的变更片段, 辅助代码评审者对当前代码变更的理解与决策. 在10个著名开源项目的数据集下进行实验验证. 实验结果表明, C2Tracker在追溯历史提交的准确率上达到97%, 在挖掘频繁共现代码元素任务上的准确率达到95%, 在追溯相关代码变更片段任务上的准确率达到97%; 相比现有评审方式, C2Tracker在具体案例的代码评审效率和质量上均有较大提升, 在绝大多数的代码评审案例中被评审者认为能提供“明显帮助”或“很大帮助”.
    优先出版日期:  2023-04-04 , DOI: 10.13328/j.cnki.jos.006675
    [摘要] (102) [HTML] (0) [PDF 6.35 M] (164)
    摘要:
    弱监督目标定位是指仅利用图像级的类别标注信息来训练目标定位器, 而不需要使用精确的目标位置标注信息来进行算法训练. 当前的一些方法往往只能定位出目标对象中最具鉴别性的部分而无法准确地标识出完整的目标对象, 或者易受背景无关信息干扰从而导致定位结果不精确. 为了解决上述问题, 提出了一种基于注意力机制和类别层次结构的弱监督目标定位方法. 该方法通过对卷积神经网络的注意力图进行均值分割提取更完整的目标区域. 进一步, 通过类别层次结构网络实现对背景区域注意力的削弱, 从而提高对感兴趣目标的定位精度. 基于多个网络结构和公共数据集上的大量实验结果表明, 相比目前已有的弱监督定位方法, 所提方法在多个评价指标下均能够获得更好的定位效果.
    优先出版日期:  2023-04-04 , DOI: 10.13328/j.cnki.jos.006676
    摘要:
    在Linux内核等大型底层系统中广泛采用引用计数来管理共享资源. 引用计数需要与引用资源的对象个数保持一致, 否则可能导致不恰当引用计数更新缺陷, 使得资源永远无法释放或者被提前释放. 为检测不恰当引用计数更新缺陷, 现有静态检测方法通常需要知道哪些函数增加引用计数, 哪些函数减少引用计数. 而手动获取这些关于引用计数的先验知识过于费时且可能有遗漏. 基于挖掘的缺陷检测方法虽然可以减少对先验知识的依赖, 但难以有效检测像不恰当引用计数更新缺陷这类路径敏感的缺陷. 为此, 提出一个将数据挖掘技术和静态分析技术深度融合的不恰当引用计数更新缺陷检测方法RTDMiner. 首先, 根据引用计数的通用规律, 利用数据挖掘技术从大规模代码中自动识别增加或减少引用计数的函数. 然后, 采用路径敏感的静态分析方法检测增加了引用计数但没有减少引用计数的缺陷路径. 为了降低误报, 在检测阶段再次利用数据挖掘技术来识别例外模式. 在Linux内核上的实验结果表明, 所提方法能够以将近90%的准确率自动识别增加或减少引用计数的函数. 而且RTDMiner检测到的排行靠前的50个疑似缺陷中已经有24个被内核维护人员确认为真实缺陷.
    优先出版日期:  2023-03-29 , DOI: 10.13328/j.cnki.jos.006748
    [摘要] (154) [HTML] (0) [PDF 6.28 M] (203)
    摘要:
    认证数据结构(authenticated data structure, ADS) 解决了数据外包存储场景下服务器的不可信问题, 用户通过ADS可以验证不可信服务器返回查询结果的正确性与完整性, 但数据拥有者的安全性难以保证, 攻击者可以篡改数据拥有者存储的ADS, 破坏对查询结果的完整性、正确性验证. 数据拥有者将ADS存储在区块链上, 借助区块链的不可篡改性, 可以解决上述问题. 但现有ADS实现方案在区块链上维护成本较高并且大部分只支持静态数据的可验证查询, 目前缺少一种针对区块链设计的高效ADS. 通过分析智能合约的gas消耗机制与基于传统MHT的ADS的gas开销, 提出一种新型ADS认证结构SMT, 实现对流数据的高效可验证查询, 并且在区块链上具备更低的gas消耗. 从理论及实验出发, 验证了SMT的高效性, 通过安全性分析, 证明了SMT的安全性.
    优先出版日期:  2023-03-15 , DOI: 10.13328/j.cnki.jos.006802
    [摘要] (157) [HTML] (0) [PDF 7.34 M] (414)
    摘要:
    基于深度学习的多标签文本分类方法存在两个主要缺陷: 缺乏对文本信息多粒度的学习, 以及对标签间约束性关系的利用. 针对这些问题, 提出一种多粒度信息关系增强的多标签文本分类方法. 首先, 通过联合嵌入的方式将文本与标签嵌入到同一空间, 并利用BERT预训练模型获得文本和标签的隐向量特征表示. 然后, 构建3个多粒度信息关系增强模块: 文档级信息浅层标签注意力分类模块、词级信息深层标签注意力分类模块和标签约束性关系匹配辅助模块. 其中, 前两个模块针对共享特征表示进行多粒度学习: 文档级文本信息与标签信息浅层交互学习, 以及词级文本信息与标签信息深层交互学习. 辅助模块通过学习标签间关系来提升分类性能. 最后, 所提方法在3个代表性数据集上, 与当前主流的多标签文本分类算法进行了比较. 结果表明, 在主要指标Micro-F1、Macro-F1、nDCG@kP@k上均达到了最佳效果.
    优先出版日期:  2023-03-08 , DOI: 10.13328/j.cnki.jos.006756
    [摘要] (179) [HTML] (0) [PDF 6.96 M] (240)
    摘要:
    密度峰值聚类(density peaks clustering, DPC)是一种基于密度的聚类算法, 该算法可以直观地确定类簇数量, 识别任意形状的类簇, 并且自动检测、排除异常点. 然而, DPC仍存在些许不足: 一方面, DPC算法仅考虑全局分布, 在类簇密度差距较大的数据集聚类效果较差; 另一方面, DPC中点的分配策略容易导致“多米诺效应”. 为此, 基于代表点(representative points)与K近邻(K-nearest neighbors, KNN)提出了RKNN-DPC算法. 首先, 构造了K近邻密度, 再引入代表点刻画样本的全局分布, 提出了新的局部密度; 然后, 利用样本的K近邻信息, 提出一种加权的K近邻分配策略以缓解“多米诺效应”; 最后, 在人工数据集和真实数据集上与5种聚类算法进行了对比实验, 实验结果表明, 所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果.
    优先出版日期:  2023-03-02 , DOI: 10.13328/j.cnki.jos.006759
    [摘要] (100) [HTML] (0) [PDF 18.93 M] (223)
    摘要:
    图形口令既可以减轻用户记忆传统文本口令的负担, 又可以简化用户输入口令的步骤, 近年来, 广泛应用于移动设备的用户认证. 现有的图形口令认证方案面临严峻的安全问题. 首先, 图形口令容易遭受肩窥攻击: 用户的登录过程被攻击者通过眼睛或者摄像头等方式偷窥导致图形口令泄露. 更为严重的是, 这类认证方案不能抵抗凭证泄露攻击: 服务器存储与用户图形口令有关的认证凭证并利用其验证用户身份, 攻击者如果得到服务器保存的凭证就可以通过离线口令猜测攻击恢复用户图形口令. 为了解决上述问题, 提出了一个安全的图形口令认证方案(GADL). GADL方案通过将随机的挑战值嵌入到用户的图形口令来抵御肩窥攻击, 因此攻击者即使捕获了用户的登录信息也无法得到用户图形口令. 为了解决服务器凭证数据库泄露问题, GADL方案采用了一种确定性的门限盲签名技术来保护用户图形口令. 该技术利用多个密钥服务器来协助用户生成凭证, 使得攻击者即使获得凭证也无法实施离线猜测攻击来获得用户口令. 给出的安全性分析证明了GADL方案可以抵抗上述攻击. 此外, 给出了全面的性能分析表明GADL方案在计算、存储和通信开销这3个方面性能较高, 且在移动设备上易于部署.
    优先出版日期:  2023-03-02 , DOI: 10.13328/j.cnki.jos.006779
    [摘要] (171) [HTML] (0) [PDF 7.82 M] (299)
    摘要:
    伴随着云计算的发展, 以及软件即服务(SaaS)、方法即服务(FaaS)等服务框架的提出, 数据中心作为服务的提供商, 面临着持续性的资源管理挑战: 一方面需要保证服务质量(quality of service, QoS), 另一方面又需要控制资源成本. 为了在提升资源使用率的同时确保负载压力在可承受范围内波动, 一种精确衡量当前算力消耗程度的方法成为关键性的研究问题. 传统的评估指标CPU利用率, 由于虚拟化技术的成熟以及并行技术的发展, 无法应对资源竞争所产生的干扰, 失去了评估精度. 而当前数据中心的主流处理器基本都开启了超线程技术, 这导致评估超线程处理器算力消耗程度的需求亟待解决. 为了应对这一评估挑战, 基于超线程机制的理解以及线程行为的建模, 提出一种评估超线程处理器算力消耗的方法APU. 同时考虑到不同权限的用户能访问的系统层级不同, 还提出了两种实现方案: 一种基于硬件层支持的实现, 以及一种基于操作系统层支持的实现. APU方法利用传统CPU利用率指标作为输入, 没有其他维度的需求, 免去了新监测工具的开发部署代价, 也无需特殊硬件体系结构的支持, 确保该方法的通用性和易用性. 最后通过SPEC基准测试程序进一步证明该方法提升了算力评估的精度, 分别将3种基准程序运行情况的算力评估误差从原先的20%, 50%, 以及20%下降至5%以内. 为了进一步证明APU的实际应用能力, 将其运用在了字节跳动的集群中, 在案例研究中展示了它的应用效果.
    优先出版日期:  2023-03-02 , DOI: 10.13328/j.cnki.jos.006763
    [摘要] (154) [HTML] (0) [PDF 7.82 M] (265)
    摘要:
    动态链接库(dynamic link library, DLL)的出现给开发人员提供了极大的便利, 也提高了操作系统与应用程序之间的交互性. 然而, 动态链接库本身存在的安全性隐患不容忽视, 如何有效地挖掘Windows平台下安装程序执行过程中出现的DLL劫持漏洞是当下保障Windows操作系统安全的关键问题之一. 搜集并提取大量安装程序的属性特征, 从安装程序、安装程序调用DLL模式、DLL文件本身3个角度出发, 使用双层BiLSTM (bi-directional long short-term memory)神经网络进行学习, 抽取出漏洞数据集的多维特征, 挖掘DLL劫持未知漏洞. 实验可有效检测Windows平台下安装程序的DLL劫持漏洞, 共挖掘10个未知漏洞并获得CNVD漏洞授权, 此外通过和其他漏洞分析工具进行对比进一步验证该方法的有效性和完整性.
    优先出版日期:  2023-03-02 , DOI: 10.13328/j.cnki.jos.006764
    [摘要] (199) [HTML] (0) [PDF 6.66 M] (371)
    摘要:
    实体分辨广泛地存在于数据质量控制、信息检索、数据集成等数据任务中. 传统的实体分辨主要面向关系型数据, 而随着大数据技术的发展, 文本、图像等模态不同的数据大量涌现催生了跨模态数据应用需求, 将跨模态数据实体分辨提升为大数据处理和分析的基础问题之一. 对跨模态实体分辨问题的研究进展进行回顾, 首先介绍问题的定义、评价指标; 然后, 以模态内关系的保持和模态间关系的建立为主线, 对现有研究进行总结和梳理; 并且, 通过在多个公开数据集上对常用方法进行测试, 对出现差异的原因和进行分析; 最后, 总结当前研究仍然存在的问题, 并依据这些问题给出未来可能的研究方向.
    优先出版日期:  2023-02-22 , DOI: 10.13328/j.cnki.jos.006641
    [摘要] (155) [HTML] (0) [PDF 7.57 M] (253)
    摘要:
    异常行为检测是智能监控系统中重要的功能之一, 在保障社会治安等方面发挥着积极的作用. 为提高监控视频中异常行为的检测率, 从学习正常行为分布的角度出发, 设计了基于概率记忆模型的半监督异常行为检测网络, 解决正常行为数据与异常行为数据极度不均衡的问题. 该网络以自编码网络为主干网络, 利用预测的未来帧与真实帧之间的差距来衡量异常程度. 在主干网络提取时空特征时, 使用因果三维卷积和时间维度共享全连接层来避免未来信息的泄露, 保证信息的时序性. 在辅助模块方面, 从概率熵和正常行为数据模式多样性的角度, 设计了概率模型和记忆模块提高主干网络视频帧重建质量. 概率模型利用自回归过程拟合输入数据分布, 促使模型收敛于正常分布的低熵状态; 记忆模块存储历史数据中的正常行为的原型特征, 实现多模式数据的共存, 同时避免主干网络的过度参与而造成对异常帧的重建. 最后, 利用公开数据集进行了消融实验和与经典算法的对比实验, 以验证所提算法的有效性.
    优先出版日期:  2023-02-22 , DOI: 10.13328/j.cnki.jos.006652
    [摘要] (171) [HTML] (0) [PDF 1.39 M] (240)
    摘要:
    经过多年的技术发展和攻防对抗, Android平台应用加固技术已较为成熟, 防护粒度逐步从通用的DEX动态修改发展为高度定制化的Native层混淆机制, 通过不断提高逆向分析的难度和工作量, 增强客户端代码防护能力. 针对近期崛起的OLLVM混淆加固技术, 提出一种基于Capstone和流敏感混合执行的自动化反混淆决方案(CiANa). CiANa采用Capstone引擎分析基本块及其指令结构, 识别散落在程序反汇编控制流程图中的真实块, 并基于流敏感的混合执行确定各真实块间的执行顺序, 最后对真实块汇编指令进行指令修复得到反混淆后的可执行二进制文件. 实验对比结果表明, CiANa可有效恢复ARM/ARM64架构下经OLLVM混淆的Android Native文件. CiANa是目前为止首个在ARM/ARM64架构中, 支持对全版本(Debug/Realse版本) OLLVM进行有效反混淆并生成可执行文件的框架, 为逆向分析提供了必要的辅助支撑.
    优先出版日期:  2023-02-22 , DOI: 10.13328/j.cnki.jos.006757
    [摘要] (179) [HTML] (0) [PDF 7.67 M] (279)
    摘要:
    混合精度在深度学习和精度调整与优化方面取得了许多进展, 广泛研究表明, 面向Stencil计算的混合精度优化也是一个很有挑战性的方向. 同时, 多面体模型在自动并行化领域取得的一系列研究成果表明, 该模型为循环嵌套提供很好的数学抽象, 可以在其基础上进行一系列的循环变换. 基于多面体编译技术设计并实现了一个面向Stencil计算的自动混合精度优化器, 通过在中间表示层进行迭代空间划分、数据流分析和调度树转换, 首次实现了源到源的面向Stencil计算的混合精度优化代码自动生成. 实验表明, 经过自动混合精度优化之后的代码, 在减少精度冗余的基础上能够充分发挥其并行潜力, 提升程序性能. 以高精度计算为基准, 在x86平台上最大加速比是1.76, 几何平均加速比是1.15; 在新一代国产申威平台上最大加速比是1.64, 几何平均加速比是1.20.
    优先出版日期:  2023-02-22 , DOI: 10.13328/j.cnki.jos.006758
    [摘要] (500) [HTML] (0) [PDF 7.38 M] (667)
    摘要:
    神经网络模型性能日益强大, 被广泛应用于解决各类计算机相关任务, 并表现出非常优秀的能力, 但人类对神经网络模型的运行机制却并不完全理解. 针对神经网络可解释性的研究进行了梳理和汇总, 就模型可解释性研究的定义、必要性、分类、评估等方面进行了详细的讨论. 从解释算法的关注点出发, 提出一种神经网络可解释算法的新型分类方法, 为理解神经网络提供一个全新的视角. 根据提出的新型分类方法对当前卷积神经网络的可解释方法进行梳理, 并对不同类别解释算法的特点进行分析和比较. 同时, 介绍了常见可解释算法的评估原则和评估方法. 对可解释神经网络的研究方向与应用进行概述. 就可解释神经网络面临的挑战进行阐述, 并针对这些挑战给出可能的解决方向.
    优先出版日期:  2023-02-15 , DOI: 10.13328/j.cnki.jos.006750
    [摘要] (151) [HTML] (0) [PDF 4.53 M] (234)
    摘要:
    实体识别是信息抽取的关键任务. 随着信息抽取技术的发展, 研究人员从简单实体的识别转向复杂实体的识别. 然而, 复杂实体缺乏明显的特征且在句法结构与词性组成上更加复杂多样, 给实体识别带来了巨大挑战. 此外, 现有模型广泛采用基于跨度的方法来识别嵌套实体, 在实体边界检测方面呈现出模糊化, 影响识别的性能. 针对这些问题和挑战, 提出了一种基于语义先验知识与类型嵌入的实体识别模型GIA-2DPE. 该模型使用实体类别的关键词序列作为语义先验知识来提升对实体的认知, 并通过类型嵌入捕获不同实体类型的潜在特征, 然后通过门控交互注意力机制将先验知识与类型特征相融合以辅助复杂实体识别. 另外, 模型通过2D概率编码来预测实体边界, 并利用边界特征和上下文特征来增强对边界的精准检测, 从而提升嵌套实体的识别效果. 在7个英文数据集和2个中文数据集上进行了广泛实验. 结果表明, GIA-2DPE超越了目前最先进的模型; 并且在ScienceIE数据集的实体识别任务中, 相对基线F1分数取得了最高10.4%的提升.
    优先出版日期:  2023-02-15 , DOI: 10.13328/j.cnki.jos.006754
    [摘要] (216) [HTML] (0) [PDF 4.56 M] (316)
    摘要:
    标签感知推荐算法利用标签标注数据提升推荐模型对用户偏好和项目属性的理解, 受到业界的广泛关注. 但是, 现有方法常忽视了用户关注点、项目属性和标签含义的多样性, 干扰了三者关系推断, 从而影响推荐结果. 因此, 提出一种基于解耦图神经网络的可解释标签感知推荐算法(DETRec), 解构用户、项目和标签的关注角度, 并由此形成可解释的推荐依据. 具体来讲, DETRec构造关系图以建模用户、项目和标签的关系; 通过邻域路由机制和消息传播机制, 分离结点形成属性子图, 以描述不同属性下的结点关系; 最终根据属性子图形成推荐依据. 实现了两种DETRec实例: 单图实例(DETRec-S)在单个关系图中描述全部结点关系; 多图实例(DETRec-M)使用3个二分图分别描述用户-项目、项目-标签、用户-标签关系. 在3个公开数据集上进行的大量实验表明, DETRec的两种实例均明显优于标签感知推荐的基准模型, 也为推荐结果生成了对应的推荐依据, 是有效的可解释标签感知推荐算法.
    优先出版日期:  2023-02-15 , DOI: 10.13328/j.cnki.jos.006765
    [摘要] (377) [HTML] (0) [PDF 4.99 M] (3782)
    摘要:
    近些年, 软件构造、运行和演化过程面临着诸多新需求, 例如开发测试环境需要高效切换或配置、应用隔离、减少资源消耗、提高测试和部署效率等, 给开发人员开发和维护软件带来了巨大的负担. 容器技术有希望将开发人员从繁重的开发运维负担中解脱出来, 尤其是Docker作为目前工业界的容器行业标准, 近年来逐渐成为学术界一个热门的研究领域. 为了帮助研究人员全面准确地理解当前Docker容器研究的现状和趋势, 使用系统文献综述(systematic literature review)的方法搜集了75篇该领域最新的高水平论文, 进行了详细的分析和总结. 首先, 使用定量研究方法调查了Docker容器研究的基本现状, 包括研究数量、研究质量、研究领域和研究方式. 其次, 首次提出了面向Docker容器研究的分类框架, 分别从核心、平台和支持3个方面对当前研究进行了系统性地归纳和梳理. 最后, 讨论了Docker容器技术的发展趋势并总结了7个未来的研究方向.
    优先出版日期:  2023-02-15 , DOI: 10.13328/j.cnki.jos.006762
    [摘要] (237) [HTML] (0) [PDF 4.55 M] (350)
    摘要:
    Linux内核中的eBPF (extended Berkeley packet filter)机制可以将用户提供的不受信任的程序安全地加载到内核中. 在eBPF机制中, 检查器负责检查并保证用户提供的程序不会导致内核崩溃或者恶意地访问内核地址空间. 近年来, eBPF机制得到了快速发展, 随着加入越来越多的新功能, 其检查器也变得愈发复杂. 观察到复杂的eBPF安全检查器存在的两个问题: 一是“假阴性”问题: 检查器复杂的安全检查逻辑中存在诸多漏洞, 而攻击者可以利用这些漏洞设计能够通过检查的恶意eBPF程序来攻击内核; 二是“假阳性”问题: 检查器采用静态检查的方式, 由于缺乏运行时信息只能进行保守检查, 可能造成原本安全的程序无法通过检查, 也只能支持很受限的语义, 为eBPF程序的开发带来了困难. 通过进一步分析, 发现eBPF检查器中的静态模拟执行检查机制代码量大, 复杂度高, 分析保守, 是引起安全漏洞和误报的主要原因. 因此, 提出使用轻量级动态检查的方式取代eBPF检查器中的静态模拟执行检查机制, eBPF检查器中原本由于模拟执行而存在的漏洞与保守检查不复存在, 从而能够消除诸多上述的“假阴性”和“假阳性”问题. 具体来说, 将eBPF程序运行在内核态沙箱中, 由沙箱对程序运行时的内存访问进行动态检查, 保证程序无法对内核内存进行非法访问; 为高效实现轻量化的内核态沙箱, 利用新型硬件特性Intel PKS (protection keys for supervisor)进行零开销的访存指令检查, 并提出高效的内核与沙箱中eBPF程序交互方法. 评测结果表明, 所提方法能够消除内核eBPF检查器中的内存安全漏洞(自2020年以来该类型漏洞在eBPF检查器的总漏洞中占比超过60%); 即使在吞吐量较高的网络包处理场景下, 轻量化内核沙箱带来的性能开销低于3%.
    优先出版日期:  2023-02-08 , DOI: 10.13328/j.cnki.jos.006651
    [摘要] (134) [HTML] (0) [PDF 6.78 M] (354)
    摘要:
    并行化是区块链扩容方案中最有效的一类方案, 现有的并行化方案可根据网络架构分为星型架构与平行架构两类, 但是当前的研究工作中, 缺少对于星型分片架构方案的性能边界及性能瓶颈影响因素的分析. 因此, 针对不同的星型分片架构方案抽象出了一种通用的区块链星型分片架构, 并对该通用架构中的交易过程进行了量化建模, 得到了区块链通量与分片数量的关系, 建立了星型分片架构的通量模型. 根据建立的星型分片架构通量模型, 可以发现星型架构的通量性能存在上限, 存在一个最优的分片数量使得系统的通量达到最高, 且通量的最大值与主链功能复杂度存在明确的函数关系. 基于所提的通量模型, 相关的区块链系统可以结合自身方案的设计, 平衡分片数量与主链功能复杂度, 使得系统通量达到理论上限, 因此对于星型并行化方案设计具有重要指导意义.
    优先出版日期:  2023-02-08 , DOI: 10.13328/j.cnki.jos.006660
    [摘要] (148) [HTML] (0) [PDF 6.00 M] (302)
    摘要:
    域间路由系统自治域 (ASes)间具有不同的商业关系和路由策略. 违反自治域间出站策略协定的路由传播可能引发路由泄露, 进而导致网络中断、流量窃听、链路过载等严重后果. 路由策略符合性验证对于保证域间路由系统安全性和稳定性至关重要. 但自治域对本地路由策略自主配置与隐私保护的双重需求增加了验证路由策略符合性的难度, 使其一直是域间路由安全领域尚未妥善解决的难点问题. 提出一种基于区块链的域间路由策略符合性验证方法. 该方法以区块链和密码学技术作为信任背书, 使自治域能够以安全和隐私的方式发布、交互、验证和执行路由策略期望, 通过生成对应路由更新的路由证明, 保证路由传播过程的真实性, 从而以多方协同的方式完成路由策略符合性验证. 通过实现原型系统并基于真实路由数据开展实验与分析, 结果表明该方法可以在不泄露自治域商业关系和本地路由策略的前提下针对路由传播出站策略符合性进行可追溯的验证, 以合理的开销有效抑制策略违规路由传播, 在局部部署情况下也具有显著的策略违规路由抑制能力.
    优先出版日期:  2023-01-18 , DOI: 10.13328/j.cnki.jos.006663
    [摘要] (189) [HTML] (0) [PDF 8.13 M] (470)
    摘要:
    分布式哈希表(distributed hash table, DHT)由于其高效的数据寻址方式而被广泛应用于分布式存储. 传统DHT必须将数据存放在指定节点中才能实现高效的数据分布式寻址, 极大地限制了DHT技术的应用范围. 例如, 在异构存储网络中, 节点的存储空间、带宽、稳定性等均有较大差异, 结合数据特征和节点性能差异选择合适的数据存放节点可以很大程度上提高数据的访问效率, 而传统DHT数据和存储位置紧耦合的特征导致其难以应用于异构的存储网络中. 针对此问题, 提出了vRoute算法以实现DHT中数据标识与其存储位置的解耦. 通过构建基于Bloom Filter的分布式数据索引, vRoute算法可以在不降低数据寻址效率的基础上允许数据存储在网络中的任意节点. 通过扩展Kademlia算法实现了vRoute, 并从理论上证明了vRoute算法的有有效性. 最后, 模拟实验表明vRoute以较低的存储、网络开销实现了和传统的DHT算法接近的数据寻址效率.
    优先出版日期:  2023-01-18 , DOI: 10.13328/j.cnki.jos.006649
    [摘要] (169) [HTML] (0) [PDF 3.55 M] (319)
    摘要:
    在已发表文献中, 研究了基于图灵归约求解$ \varepsilon $-NN的问题, 即给定查询点q、点集P及近似参数$ \varepsilon $, 找到qP中近似比不超过$ 1 + \varepsilon $的近似最近邻, 并提出了一个具有${\rm{O}}(\log n)$查询时间复杂度的图灵归约算法, 这里的查询时间是调用神谕的次数. 经过对比, 此时间优于所有现存的归约算法. 但是已发表文献中提出的归约算法的缺点在于, 其预处理时间和空间复杂度中有${\rm{O}}({(d/\varepsilon )^d})$的因子, 当维度数d较大或者近似参数$ \varepsilon $较小时, 此因子将变得不可接受. 因此, 重新研究了该归约算法, 在输入点集服从泊松点过程的情况下, 分析算法的期望时间和空间复杂度, 将算法的期望预处理时间复杂度降到${\rm{O}}(n\log n)$, 期望空间复杂度降到${\rm{O}}(n\log n)$, 而期望查询时间复杂度保持${\rm{O}}(\log n)$不变, 从而完成了在已发表文献中所提出的未来工作.
    优先出版日期:  2023-01-13 , DOI: 10.13328/j.cnki.jos.006818
    [摘要] (456) [HTML] (0) [PDF 7.96 M] (490)
    摘要:
    随着物联网技术的发展, 物联网设备广泛应用于生产和生活的各个领域, 但也为设备资产管理和安全管理带来了严峻的挑战. 首先, 由于物联网设备类型和接入方式的多样性, 网络管理员通常难以得知网络中的物联网设备类型及运行状态. 其次, 物联网设备由于其计算、存储资源有限, 难以部署传统防御措施, 正逐渐成为网络攻击的焦点. 因此, 通过设备识别了解网络中的物联网设备并基于设备识别结果进行异常检测, 以保证其正常运行尤为重要. 近几年来, 学术界围绕上述问题开展了大量的研究. 系统地梳理物联网设备识别和异常检测方面的相关工作. 在设备识别方面, 根据是否向网络中发送数据包, 现有研究可分为被动识别方法和主动识别方法. 针对被动识别方法按照识别方法、识别粒度和应用场景进行进一步的调研, 针对主动识别方法按照识别方法、识别粒度和探测粒度进行进一步的调研. 在异常检测方面, 按照基于机器学习算法的检测方法和基于行为规范的规则匹配方法进行梳理. 在此基础上, 总结物联网设备识别和异常检测领域的研究挑战并展望其未来发展方向.
    优先出版日期:  2023-01-13 , DOI: 10.13328/j.cnki.jos.006537
    [摘要] (223) [HTML] (0) [PDF 8.56 M] (448)
    摘要:
    人工智能的发展为信息隐藏技术带来越来越多的挑战, 提高现有隐写方法的安全性迫在眉睫. 为提高图像的信息隐藏能力, 提出一种基于U-Net结构的生成式多重对抗隐写算法. 所提算法通过生成对抗网络与隐写分析器优化网络、隐写分析对抗网络间的多重对抗训练, 构建生成式多重对抗隐写网络模型, 生成适合信息隐写的载体图像, 提高隐写图像抗隐写分析能力; 同时, 针对现有生成对抗网络只能生成随机图像, 且图像质量不高的问题, 设计基于U-Net结构的生成式网络模型, 将参考图像的细节信息传递到生成载体图像中, 可控地生成高质量目标载体图像, 增强信息隐藏能力; 其次, 采用图像判别损失、均方误差(MSE)损失和隐写分析损失动态加权组合作为网络迭代优化总损失, 保障生成式多重对抗隐写网络快速稳定收敛. 实验表明, 基于U-Net结构的生成式多重对抗隐写算法生成的载体图像PSNR最高可达到48.60 dB, 隐写分析器对生成载体图像及其隐写图像的判别率为50.02%, 所提算法能够生成适合信息嵌入的高质量载体图像, 保障隐写网络快速稳定收敛, 提高了图像隐写安全性, 可以有效抵御当前优秀的隐写分析算法的检测.
    优先出版日期:  2023-01-13 , DOI: 10.13328/j.cnki.jos.006542
    [摘要] (256) [HTML] (0) [PDF 6.06 M] (412)
    摘要:
    近年来, 随着全球定位系统(global positioning system, GPS)的大范围应用, 越来越多的电动自行车装配了GPS传感器, 由此产生的海量轨迹数据是深入了解用户出行规律、为城市规划者提供科学决策支持等诸多应用的重要基础. 但是, 电动自行车上普遍使用的价格低廉的GPS传感器无法提供高精度的定位, 同时, 电动自行车轨迹地图匹配过程因以下原因更具有挑战性: (1)存在大量停留点; (2)高采样频率导致相邻轨迹点的距离较短; (3)电动自行车可行驶的路段更多, 存在大量无效轨迹. 针对上述问题, 提出了一种可自适应路网精度的电动自行车轨迹地图匹配方法KFTS-AMM. 该方法融合了基于分段卡尔曼滤波算法的轨迹简化算法(KFTS), 和分段隐马尔可夫模型的地图匹配算法(AMM). 首先, 利用卡尔曼滤波算法可用于最优状态估计的特性, KFTS能够在轨迹简化过程中对轨迹点进行自动修正, 使轨迹曲线变得平滑并减少了异常点对于地图匹配准确率的影响. 同时, 使用基于分段隐马尔可夫模型的地图匹配算法AMM, 避免了部分无效轨迹对整条轨迹匹配的影响. 此外, 在轨迹数据的处理过程加入了停留点的识别与合并, 进一步提升了匹配准确率. 在郑州市真实电动自行车轨迹数据的实验结果表明, KFTS-AMM在准确率上相对于已有的对比算法有较大的提升, 并可通过使用简化后的轨迹数据显著提升匹配速度.
    优先出版日期:  2023-01-04 , DOI: 10.13328/j.cnki.jos.006646
    [摘要] (182) [HTML] (0) [PDF 6.79 M] (348)
    摘要:
    SQL是一种被广泛应用于操作关系数据库的编程语言, 很多用户(如数据分析人员和初级程序员等)由于缺少编程经验和SQL语法知识, 导致在编写SQL查询程序时会碰到各种困难. 当前, 使用程序合成方法根据<输入-输出>样例表自动生成相应的SQL查询程序, 吸引了越来越多人的关注. 所提ISST (正反例归纳合成)方法, 能够根据用户编辑的含有少量元组的<输入-输出>示例表自动合成满足用户期望的SQL查询程序. ISST方法包括5个主要阶段: 构建SQL查询程序草图、扩展工作表数据、划分正反例集合、归纳谓词和验证排序. 在PostgreSQL在线数据库上验证SQL查询程序, 并依据奥卡姆剃刀原则对已合成的SQL查询程序候选集打分排序. 使用Java语言实现了ISST方法, 并在包含28条样例的测试集上进行验证, ISST方法能正确合成其中的24条测试样例, 平均耗时2 s.
    优先出版日期:  2023-01-04 , DOI: 10.13328/j.cnki.jos.006647
    [摘要] (433) [HTML] (0) [PDF 6.56 M] (1165)
    摘要:
    图神经网络由于其强大的表示能力和灵活性最近取得了广泛的关注. 随着图数据规模的增长和显存容量的限制, 基于传统的通用深度学习系统进行图神经网络训练已经难以满足要求, 无法充分发挥GPU设备的性能. 如何高效利用GPU硬件进行图神经网络的训练已经成为了该领域重要的研究问题之一. 传统做法是基于稀疏矩阵乘法, 完成图神经网络中的计算过程, 当面对GPU显存容量限制时, 通过分布式矩阵乘法, 把计算任务分发到每个设备上, 这类方法的主要不足有: (1)稀疏矩阵乘法忽视了图数据本身的稀疏分布特性, 计算效率不高; (2)忽视了GPU本身的计算和访存特性, 无法充分利用GPU硬件. 为了提高训练效率, 现有一些研究通过图采样方法, 减少每轮迭代的计算带价和存储需求, 同时也可以支持灵活的分布式拓展, 但是由于采样随机性和方差, 它们往往会影响训练的模型精度. 为此, 提出了一套面向多GPU的高性能图神经网络训练框架, 为了保证模型精度, 基于全量图进行训练, 探索了不同的多GPU图神经网络切分方案, 研究了GPU上不同的图数据排布对图神经网络计算过程中GPU性能的影响, 并提出了稀疏块感知的GPU访存优化技术. 基于C++和CuDNN实现了该原型系统, 在4个不同的大规模GNN数据集上的实验表明: (1)通过图重排优化, 提高了GPU约40%的缓存命中率, 计算加速比可达2倍; (2)相比于现有系统DGL, 取得了5.8倍的整体加速比.
    优先出版日期:  2023-01-04 , DOI: 10.13328/j.cnki.jos.006665
    [摘要] (239) [HTML] (0) [PDF 5.30 M] (450)
    摘要:
    随着业务数据的规模增大, 一些重要的应用场景需要使用分布式在线分析处理(OLAP)支持大规模数据的分析, 例如商务智能(BI), 企业资源计划(ERP), 用户行为分析等. 同时, 分布式OLAP打破单机存储的限制, 可以将数据放在内存中以提升OLAP的处理性能. 然而, 基于内存的分布式OLAP在消除磁盘I/O后, 性能瓶颈转移到了连接操作. 连接操作是OLAP中的一种常用操作, 会进行大量的数据读取与计算操作. 通过对现有的几种连接操作方式进行分析, 提出了一种能够加速连接操作的图结构索引以及基于图结构索引的连接操作方式LinkJoin. 图结构索引通过用户所指定的连接关系, 将数据在内存中的位置以图结构的形式进行存储. 基于图结构索引的连接方式, 不仅能够有等同于哈希连接的较低复杂度, 而且在执行过程中能减少数据读取与计算操作次数. 将目前先进的开源内存OLAP系统MonetDB从单机系统扩展成分布式系统, 并且在该系统上设计与实现了基于图结构索引的连接操作方式. 针对该系统的图索引结构, 列式存储以及分布式执行引擎等3个重要方面, 进行一系列设计与优化, 以提升系统的分布式OLAP处理性能. 测试结果表明, 在TPC-H标准测试中, 基于图结构索引的连接操作对于有连接操作的查询的平均性能提升达1.64倍(最多达4.1倍). 对于这些查询中的连接操作, 性能提升达9.8–22.1倍.
    优先出版日期:  2022-12-30 , DOI: 10.13328/j.cnki.jos.006777
    [摘要] (437) [HTML] (0) [PDF 10.32 M] (878)
    摘要:
    光滑粒子流体动力学(smoothed particle hydrodynamics, SPH)是实现流体仿真的主要技术之一. 随着生产实践中流体仿真应用需求的增加, 近些年涌现了许多相关研究成果, 改善了流体不可压缩性、粘性、表面张力等物理特性模拟的视觉真实性、效率与稳定性. 同时, 一些工作探讨了复杂场景的高质量模拟, 以及多场景、多材料的统一仿真框架, 增强了SPH流体仿真技术的应用效能. 从以上几个方面对SPH流体仿真技术进行归纳、总结和讨论, 并对其未来发展进行了展望.
    优先出版日期:  2022-12-30 , DOI: 10.13328/j.cnki.jos.006724
    [摘要] (272) [HTML] (0) [PDF 5.81 M] (619)
    摘要:
    知识追踪任务是根据学生历史答题记录追踪学生知识状态的变化, 预测学生未来的答题情况. 近年来, 基于注意力机制的知识追踪模型在灵活性和预测性能上都明显优于传统知识追踪模型. 但是现有深度模型大多只考虑了单一知识点题目的情况, 无法直接处理多知识点题目, 而智能教育系统中存在着大量的多知识点题目. 此外, 如何提高可解释性是深度知识追踪模型的关键挑战之一. 为了解决这些问题, 提出一种多知识点融合嵌入的深度知识追踪模型. 所提模型考虑涉及多知识点的题目中知识点之间的关系, 提出两种新颖的多知识点嵌入方式, 并且结合教育心理学模型和遗忘因素提升预测性能和可解释性. 实验表明所提模型在大规模真实数据集上预测性能上优于现有模型, 并验证各个模块的有效性.
    优先出版日期:  2022-12-30 , DOI: 10.13328/j.cnki.jos.006800
    [摘要] (304) [HTML] (0) [PDF 7.89 M] (674)
    摘要:
    随着深度学习技术的快速发展和深入应用, 深度学习训练规模持续增大, 内存不足已成为影响深度学习可用性的主要瓶颈之一. 内存交换机制是应对深度学习训练内存问题的关键技术, 该机制利用深度学习训练内存需求的“时变”特征, 在专用计算加速设备内存与外部存储之间按需移动数据, 通过瞬时内存需求替代累积内存需求, 保障深度学习训练任务的运行. 对面向深度学习训练的内存交换机制进行综述, 以深度学习训练内存需求的时变特征为研究视角, 分别针对基于算子运行特征的内存换出机制、基于数据依赖关系的内存换入机制以及效能驱动的联合换出与换入决策等重要研究工作进行了总结分析, 并针对该技术领域的发展方向进行了展望.
    优先出版日期:  2022-12-30 , DOI: 10.13328/j.cnki.jos.006804
    [摘要] (451) [HTML] (0) [PDF 5.38 M] (676)
    摘要:
    随机配置网络(stochastic configuration network, SCN)是一种新兴的增量式神经网络模型, 与其他随机化神经网络方法不同, 它能够通过监督机制进行隐含层节点参数配置, 保证了模型的快速收敛性能. 因其具有学习效率高、人为干预程度低和泛化能力强等优点, 自2017年提出以来, SCN吸引了大量国内外学者的研究兴趣, 得到了快速地推广和发展. 从SCN的基础理论、典型算法变体、应用领域以及未来研究方向等方面切入, 全面地概述SCN研究进展. 首先, 从理论的角度分析SCN的算法原理、通用逼近性能及其优点; 其次, 重点研究深度SCN、二维SCN、鲁棒SCN、集成SCN、分布式并行SCN、正则化SCN等典型变体; 随后介绍SCN在硬件实现、计算机视觉、医学数据分析、故障检测与诊断、系统建模预测等不同领域的应用进展; 最后指出SCN在卷积神经网络架构、半监督学习、无监督学习、多视图学习、模糊神经网络、循环神经网络等研究方向的发展潜力.
    优先出版日期:  2022-12-28 , DOI: 10.13328/j.cnki.jos.006662
    [摘要] (203) [HTML] (0) [PDF 6.92 M] (349)
    摘要:
    近年来, 社交推荐的研究主要聚焦于社交网络中显式、隐式关系的联合建模, 却忽视了高阶隐式关系并非对每个用户都同等重要这一特殊现象. 高阶隐式关系对一个有着足够多邻居的用户与一个仅有少量邻居的用户重要性存在明显差异. 此外, 由于社交关系建立的随机性, 显式关系并不总是可用的. 提出了一种新的自适应高阶隐式关系建模方法(adaptive high-order implicit relations modeling, AHIRM), 该模型由3个部分组成: 首先, 过滤不可靠关系且识别出潜在可靠关系. 旨在避免不可靠关系带来的负面影响, 并部分缓解数据稀疏的问题; 其次, 设计自适应随机游走算法, 结合规范化后的节点中心度为用户捕获不同阶数的邻居, 构建用户间的高阶隐式关系, 进而重构社交网络; 最后, 运用图卷积网络(graph convolutional network, GCN)聚合邻居节点信息, 更新用户嵌入, 实现高阶隐式关系建模, 从而进一步缓解数据稀疏问题. 在建模过程中, 同时考虑到社交结构和个人偏好的影响, 模拟并保留了社交影响传播的过程. 在LastFM、Douban和Gowalla这3个数据集上与相关算法做了对比验证, 结果证实了该模型的有效性和合理性.
    优先出版日期:  2022-12-28 , DOI: 10.13328/j.cnki.jos.006644
    [摘要] (172) [HTML] (0) [PDF 4.52 M] (358)
    摘要:
    约束规划(constraint programming, CP)是表示和求解组合问题的经典范式之一. 扩展约束(extensional constraint)或称表约束(table constraint)是约束规划中最为常见的约束类型. 绝大多数约束规划问题都可以用表约束表达. 在问题求解时, 相容性算法用于缩减搜索空间. 目前, 最为高效的表约束相容性算法是简单表约缩减(simple table reduction, STR)算法簇, 如Compact-Table (CT)和STRbit算法. 它们在搜索过程中维持广义弧相容(generalized arc consistency, GAC). 此外, 完全成对相容性(full pairwise consistency, fPWC)是一种比GAC剪枝能力更强的相容性. 最为高效的维持fPWC算法是PW-CT算法. 多年来, 人们提出了多种表约束相容性算法来提高剪枝能力和执行效率. 因子分解编码(factor-decomposition encoding, FDE)通过对平凡问题重新编码. 它一定程度地扩大了问题模型, 使在新的问题上维持相对较弱的GAC等价于在原问题上维持fPWC. 目前, FDE的合适STR算法是STRFDE和STR2, 而不是CT. 这是由于CT算法可能产生内存溢出问题. 在维持相容性算法的过程中, 需要将迭代地调用各个约束执行其相容性算法过滤搜索空间, 这个过程称为约束传播. 动态提交方案是一个并行约束传播框架, 可以并行地调度约束执行传播算法. 它在大规模问题中, 改进效果尤为明显. 改进STRFDE和动态提交传播算法. 针对FDE提出了PSTRFDE算法.PSTRFDE可以嵌入到动态提交方案中, 进一步提高了约束规划问题的求解效率. 大量的实验表明, PSTRFDE与CT和STRbit相比, 可以减少内存占用; 与STRFDE和STR2相比, 可以提高算法的效率. 所作工作充分说明了PSTRFDE是FDE上最为高效的过滤算法.
    优先出版日期:  2022-12-22 , DOI: 10.13328/j.cnki.jos.006643
    [摘要] (249) [HTML] (0) [PDF 5.37 M] (476)
    摘要:
    针对视觉异常检测任务, 提出一种基于特征约束的蒸馏学习方法, 充分利用教师网络模型的特征来指导学生模型高效的识别异常图像. 具体地, 引入Vision Transformer (ViT)作为异常检测任务的主干网络, 并提出中心特征策略约束学生网络的输出特征. 由于教师网络的特征表达能力较强, 特征中心策略从教师网络中动态地为学生网络生成正常样本的特征表示中心, 从而提升学生网络对正常数据特征输出的描述能力, 进而扩大了学生网络和教师网络对于异常数据的特征差异; 另一方面, 为了最小化学生网络和教师网络在正常图像特征表示上的差异, 引入格拉姆损失函数对学生网络编码层之间的关系进行约束. 在3个异常检测通用数据集和1个真实工业异常检测数据集上进行了实验验证, 相比当前最优方法, 所提方法取得了显著的性能提升.
    优先出版日期:  2022-12-22 , DOI: 10.13328/j.cnki.jos.006661
    [摘要] (319) [HTML] (0) [PDF 8.63 M] (466)
    摘要:
    传统的水印攻击方法虽然能够干扰水印信息的正确提取, 但同时会对含水印图像的视觉质量造成较大损失, 为此提出了一种基于残差学习的新型不可感知水印攻击方法. 首先, 通过构建基于卷积神经网络的水印攻击模型, 在含水印图像和无水印图像之间进行端到端非线性学习, 完成含水印图像映射到无水印图像的任务, 达到水印攻击的目的; 其次, 根据水印信息的嵌入区域选择合适数目的特征提取块以提取含水印信息的特征图. 鉴于含水印图像和无水印图像之间的差异过小, 水印攻击模型在训练过程中的可学习性受到限制, 导致模型很难收敛. 引入残差学习机制来提升水印攻击模型的收敛速度和学习能力, 通过减少残差图像(含水印图像和提取的特征图像做差)与无水印图像之间的差异来提升被攻击图像的不可感知性. 此外, 还根据DIV2K2017超分辨率数据集以及所攻击的基于四元数指数矩的鲁棒彩色图像水印算法构建了训练水印攻击模型的数据集. 实验结果表明该水印攻击模型能够在不破坏含水印图像视觉质量的前提下以高误码率实现对鲁棒水印算法的攻击.
    优先出版日期:  2022-12-22 , DOI: 10.13328/j.cnki.jos.006512
    [摘要] (192) [HTML] (0) [PDF 5.24 M] (486)
    摘要:
    现存的图像去噪算法在处理加性高斯白噪声上已经取得令人满意的效果, 然而其在未知噪声强度的真实噪声图像上泛化性能较差. 鉴于深度卷积神经网络极大地促进了图像盲去噪技术的发展, 针对真实噪声图像提出一种基于自监督约束的双尺度真实图像盲去噪算法. 首先, 所提算法借助小尺度网络分支得到的初步去噪结果为大尺度分支的图像去噪提供额外的有用信息, 以帮助后者实现良好的去噪效果. 其次, 用于去噪的网络模型由噪声估计子网络和图像非盲去噪子网络构成, 其中噪声估计子网络用于预测输入图像的噪声强度, 非盲去噪子网络则在所预测的噪声强度指导下进行图像去噪. 鉴于真实噪声图像通常缺少对应的清晰图像作为标签, 提出了一种基于全变分先验的边缘保持自监督约束和一个基于图像背景一致性的背景自监督约束, 前者可通过调节平滑参数将网络泛化到不同的真实噪声数据集上并取得良好的无监督去噪效果, 后者则可借助多尺度高斯模糊图像之间的差异信息辅助双尺度网络完成去噪. 此外, 还提出一种新颖的结构相似性注意力机制, 用于引导网络关注图像中微小的结构细节, 以便复原出纹理细节更加清晰的真实去噪图像. 相关实验结果表明在SIDD, DND和Nam这3个真实基准数据集上, 所提的基于自监督的双尺度盲去噪算法无论在视觉效果上还是在量化指标上均优于多种有监督图像去噪方法, 且泛化性能也得到了较为明显的提升.
    优先出版日期:  2022-12-22 , DOI: 10.13328/j.cnki.jos.006659
    [摘要] (185) [HTML] (0) [PDF 2.55 M] (390)
    摘要:
    在分类器链方法中, 如何确定标签学习次序至关重要, 为此, 提出一种基于关联规则和拓扑序列的分类器链方法(TSECC). 该方法首先结合频繁模式设计了一种基于强关联规则的标签依赖度量策略; 接下来通过标签间依赖关系构建有向无环图, 对图中所有顶点进行拓扑排序; 最后将得到的拓扑序列作为分类器链方法中标签的学习次序, 对每个标签的分类器依次迭代更新. 特别地, 为减少无标签依赖或标签依赖度较低的“孤独”标签对其余标签预测性能的影响, 将“孤独”标签排在拓扑序列之外, 利用二元关联模型训练. 在多种公共多标签数据集上的实验结果表明, TSECC能够有效提升分类性能.
    优先出版日期:  2022-12-16 , DOI: 10.13328/j.cnki.jos.006655
    [摘要] (246) [HTML] (0) [PDF 2.59 M] (446)
    摘要:
    提高生成样本的质量和多样性一直是生成对抗网络(generative adversarial network, GAN)领域主要挑战任务之一. 为此, 提出了一种双向约束生成对抗网络(bidirectional constraint generative adversarial network, BCGAN). 与传统GAN变体相比, 该网络在架构设计上增加了一个生成器模块, 两个生成器分别从两个不同方向逼近真实样本的数据分布. 然后根据BCGAN的网络架构, 设计了新的损失函数, 并对其进行了理论分析及证明. 在BCGAN的训练过程中, 一方面通过增加两个生成样本数据分布之间的距离来丰富生成样本的多样性, 另一方面通过减小鉴别器对两个生成样本数据分布之间的差异来稳定训练过程, 提高生成样本的质量. 最后, 在1个合成数据集和3个不同公开挑战数据集上进行了实验. 一系列实验证明, 较其他生成方法相比, 所提方法对真实数据分布具有更强的拟合能力, 能够有效提升生成样本的质量和多样性. 此外, 所提方法的训练过程更加平滑稳定.
    优先出版日期:  2022-12-16 , DOI: 10.13328/j.cnki.jos.006504
    [摘要] (151) [HTML] (0) [PDF 6.50 M] (348)
    摘要:
    分层量子密钥分发在量子通信中有重要作用, 除了使用EPRGHZ态可实现分层量子密钥分发, 非对称高维多粒子纠缠也为解决分层量子密钥分发提供了一种新思路, 这种方法在量子信道使用次数上比传统的使用二部链路的量子密钥分发更有效. 介绍了3用户在同构意义下的5种分层密钥结构, 并给出4、5用户的可分区分层密钥结构. 然后对于所介绍的各类分层密钥结构, 通过将上述两种方法进行对比, 得到实现各类密钥结构理想化密钥率最高的方案. 当量子网络用户大于3且密钥结构可分区时, 证明仅使用EPRGHZ态就可实现各层理想化密钥率是1, 并以4、5用户的可分区分层密钥结构为例展开说明.
    优先出版日期:  2022-12-16 , DOI: 10.13328/j.cnki.jos.006511
    [摘要] (268) [HTML] (0) [PDF 5.99 M] (457)
    摘要:
    稳定学习的目标是利用单一的训练数据构造一个鲁棒的预测模型, 使其可以对任意与训练数据具有相似分布的测试数据进行精准的分类. 为了在未知分布的测试数据上实现精准预测, 已有的稳定学习算法致力于去除特征与类标签之间的虚假相关关系. 然而, 这些算法只能削弱特征与类标签之间部分虚假相关关系并不能完全消除虚假相关关系; 此外, 这些算法在构建预测模型时可能导致过拟合问题. 为此, 提出一种基于实例加权和双分类器的稳定学习算法, 所提算法通过联合优化实例权重和双分类器来学习一个鲁棒的预测模型. 具体而言, 所提算法从全局角度平衡混杂因子对实例进行加权来去除特征与类标签之间的虚假相关关系, 从而更好地评估每个特征对分类的作用. 为了完全消除数据中部分不相关特征与类标签之间的虚假相关关系以及弱化不相关特征对实例加权过程的干扰, 所提算法在实例加权之前先进行特征选择筛除部分不相关特征. 为了进一步提高模型的泛化能力, 所提算法在训练预测模型时构建两个分类器, 通过最小化两个分类器的参数差异来学习一个较优的分类界面. 在合成数据集和真实数据集上的实验结果表明了所提方法的有效性.
    优先出版日期:  2022-12-08 , DOI: 10.13328/j.cnki.jos.006508
    [摘要] (222) [HTML] (0) [PDF 10.92 M] (408)
    摘要:
    随着互联网和面向服务技术的发展, 一种新型的Web应用——Mashup服务, 开始在互联网上流行并快速增长. 如何在众多Mashup服务中找到高质量的服务, 已经成为一个大家关注的热点问题. 寻找功能相似的服务并进行聚类, 能有效提升服务发现的精度与效率. 目前国内外主流方法为挖掘Mashup服务中隐含的功能信息, 进一步采用特定聚类算法如K-means等进行聚类. 然而Mashup服务文档通常为短文本, 基于传统的挖掘算法如LDA无法有效处理短文本, 导致聚类效果并不理想. 针对这一问题, 提出一种基于非负矩阵分解的TWE-NMF (non-negative matrix factorization combining tags and word embedding)模型对Mashup服务进行主题建模. 所提方法首先对Mashup服务规范化处理, 其次采用一种基于改进的Gibbs采样的狄利克雷过程混合模型, 自动估算主题的数量, 随后将词嵌入和服务标签等信息与非负矩阵分解相结合, 求解Mashup服务主题特征, 并通过谱聚类算法将服务聚类. 最后, 对所提方法的性能进行了综合评价, 实验结果表明, 与现有的服务聚类方法相比, 所提方法在准确率、召回率、F-measure、纯度和熵等评价指标方面都有显著提高.
    优先出版日期:  2022-12-08 , DOI: 10.13328/j.cnki.jos.006509
    [摘要] (200) [HTML] (0) [PDF 4.99 M] (403)
    摘要:
    高质量的特征表示可以提高目标检测和其他计算机视觉任务的性能. 现代目标检测器诉诸于通用的特征金字塔结构以丰富表示能力, 但是他们忽略了对于不同方向的路径应当使用不同的融合操作, 以满足其对信息流的不同需求. 提出了分离式空间语义融合 (separated spatial semantic fusion, SSSF) , 它在自上而下的路径中使用通道注意模块 (channel attention block, CAB) 来传递语义信息, 在自下而上的路径中使用具有瓶颈结构的空间注意模块 (spatial attention block, SAB) 来通过较少的参数和较少的计算量 (相比于直接利用不降维的空间注意模块) 将精确的位置信号传递到顶层. SSSF十分有效, 并且具有很强大的泛化能力: 对于目标检测, 它可以将AP提高1.3%以上, 对于自上而下的路径进行语义分割的融合操作, 它可以将普通加和版本的AP提高约0.8%, 对于实例分割, 所提方法能够在所有指标上提高实例分割的包围框AP和掩膜AP.
    优先出版日期:  2022-12-08 , DOI: 10.13328/j.cnki.jos.006514
    [摘要] (184) [HTML] (0) [PDF 5.15 M] (481)
    摘要:
    在智能医疗中, 将云计算技术与物联网技术结合, 可有效解决大规模医疗数据的实时访问问题. 然而, 数据上传到远程云服务器, 将带来额外的通信开销与传输时延. 借助雾计算技术, 以终端设备作为雾节点, 辅助云服务器在本地完成数据存储与访问, 能够实现数据访问的低延迟与高移动性. 如何保障基于雾计算的智能医疗环境的安全性成为近期研究热点. 面向基于雾计算的智能医疗场景, 设计认证协议的挑战在于: 一方面, 医疗数据是高度敏感的隐私数据, 与病人身体健康密切相关, 若用户身份泄漏或者数据遭到非法篡改将导致严重后果; 另一方面, 用户设备和雾节点往往资源受限, 认证协议在保护用户隐私的同时, 需要实现用户、雾节点、云服务器之间的三方数据安全传输. 对智能医疗领域两个具有代表性的认证方案进行安全分析, 指出Hajian等人的协议无法抵抗验证表丢失攻击、拒绝服务攻击、仿冒攻击、设备捕获攻击、会话密钥泄漏攻击; 指出Wu等人的协议无法抵抗离线口令猜测攻击、仿冒攻击. 提出一个基于雾计算的智能医疗三方认证与密钥协商协议, 采用随机预言机模型下安全归约、BAN逻辑证明和启发式分析, 证明所提方案能实现双向认证与会话密钥协商, 并且对已知攻击是安全的; 与同类方案的性能对比分析表明, 所提方案显著提高了安全性, 并具有较高的效率.
    优先出版日期:  2022-12-08 , DOI: 10.13328/j.cnki.jos.006656
    [摘要] (168) [HTML] (0) [PDF 8.77 M] (369)
    摘要:
    肿瘤位置以及生长变化的观测是肿瘤治疗方案的制定中的重要环节. 基于医学图像的干预手段以一种非侵入方式, 能够直观地观察到患者体内肿瘤状态, 来预测肿瘤的生长情况, 从而帮助医师建立适应于患者特定的治疗方案. 提出了一种全新的深度网络模型——条件对抗时空编码器模型来预测肿瘤生长情况. 该模型主要分为3个部分, 肿瘤预测生成器, 相似度得分鉴别器以及由患者个人情况组成的条件. 肿瘤预测生成器会根据两个时期的肿瘤图像预测出下一个时期的肿瘤, 相似度得分鉴别器用来计算预测出的肿瘤与真实肿瘤之间的相似性, 另外, 使用了患者的个人情况作为条件加入到肿瘤生长预测过程中. 该模型在收集到的两个医学数据集上进行实验验证, 实验结果的召回率达到了76.10%, 精准率达到了91.70%, Dice系数达到了82.4%, 表明该模型可以精准地预测出下一个时期的肿瘤影像.
    优先出版日期:  2022-12-08 , DOI: 10.13328/j.cnki.jos.006654
    [摘要] (184) [HTML] (0) [PDF 7.21 M] (405)
    摘要:
    社区是信息网络的重要属性, 社区搜索旨在寻找满足用户给定条件的节点集合, 是信息网络分析的重要研究内容. 异质信息网络由于包含更加全面、丰富的结构和语义信息, 所以异质信息网络的社区搜索近年来受到人们的广泛关注. 针对现有异质信息网络的社区搜索方法难以满足复杂条件社区搜索要求的不足, 定义了复杂条件社区搜索问题, 提出了考虑非对称元路径、受限元路径和禁止节点约束的搜索算法. 3种算法分别通过元路径补全策略、调整带标签的批量搜索策略和拆分复杂搜索条件的方式搜索社区, 同时针对禁止节点约束的搜索算法设计了基于剪枝策略和近似策略的优化算法以提高搜索效率. 在真实数据集上进行了大量实验, 实验结果证明了所提算法的有效性和高效性.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006507
    [摘要] (143) [HTML] (0) [PDF 5.67 M] (469)
    摘要:
    云计算作为一种新型高价值计算系统, 目前被广泛应用于各行业领域; 等保2.0中也提出了对其应用主动免疫可信计算技术进行动态可信验证的要求. 云计算模式下, 虚拟机作为用户使用云服务的直接载体, 其可信启动是虚拟机运行环境可信的基础. 但由于虚拟机以进程的形式运行在物理节点上, 其启动过程呈现出高动态性, 且多虚拟机域间存在非预期干扰等特点; 而现有的虚拟机可信启动方案存在虚拟机启动过程的动态防护性不足、缺乏多虚拟域间非预期干扰性排除等问题. 针对上述问题, 提出一种基于无干扰理论的虚拟机可信启动研究方案. 首先, 基于无干扰理论, 提出了虚拟机进程的运行时可信定理; 进一步地, 给出了虚拟机可信启动的定义并证明了虚拟机可信启动判定定理. 其次, 依据虚拟机可信启动判定定理, 基于系统调用设计监测控制逻辑, 对虚拟机启动过程进行主动动态度量与主动控制. 实验结果表明所提方案能够有效排除复杂云环境下多虚拟机间非预期干扰, 保证虚拟机启动过程的动态可信性, 且性能开销较小.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006497
    [摘要] (240) [HTML] (0) [PDF 11.24 M] (352)
    摘要:
    面部动作单元分析旨在识别人脸图像每个面部动作单元的状态, 可以应用于测谎, 自动驾驶和智能医疗等场景. 近年来, 随着深度学习在计算机视觉领域的普及, 面部动作单元分析逐渐成为人们关注的热点. 面部动作单元分析可以分为面部动作单元检测和面部动作单元强度预测两个不同的任务, 然而现有的主流算法通常只针对其中一个问题. 更重要的是, 这些方法通常只专注于设计更复杂的特征提取模型, 却忽略了面部动作单元之间的语义相关性. 面部动作单元之间往往存在着很强的相互关系, 有效利用这些语义知识进行学习和推理是面部动作单元分析任务的关键. 因此, 通过分析不同人脸面部行为中面部动作单元之间的共生性和互斥性构建了基于面部动作单元关系的知识图谱, 并基于此提出基于语义关系的表征学习算法(semantic relationship embedded representation learning, SRERL). 在现有公开的面部动作单元检测数据集(BP4D、DISFA)和面部动作单元强度预测数据集(FERA2015、DISFA)上, SRERL算法均超越现有最优的算法. 更进一步, 在BP4D+数据集上进行泛化性能测试和在BP4D数据集上进行遮挡测试, 同样取得当前最优的性能.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006533
    [摘要] (235) [HTML] (0) [PDF 4.71 M] (534)
    摘要:
    推荐系统能够根据用户的偏好有效地过滤信息, 已被广泛应用于各行各业, 但随着用户数量的爆炸式增长, 数据稀疏性和冷启动问题日益严重. 多源数据融合可以有效缓解数据稀疏和冷启动情况下的推荐精度, 其主要思想是融合用户在其他方面的辅助信息来填补缺失值, 以优化目标服务的推荐准确度, 受到了研究者的青睐, 但由于数据之间的关联引入了更为严重的隐私泄露风险. 针对以上问题, 提出了一种基于跨域关联与隐私保护的深度推荐模型, 设计了一种具有多源数据融合和差分隐私保护特征的深度学习协同推荐方法. 该方法一方面融合辅助领域信息以提高推荐的精确度, 同时修正异常点的偏差, 改善推荐系统的性能; 另一方面针对数据融合中的数据安全问题, 基于差分隐私模型在协同训练过程中加入噪音以保证数据的安全性. 为了更好地评价推荐系统中的长尾效应, 首次提出一种新的评价指标-发现度, 用以度量推荐算法发现用户隐性需求的能力. 基于已有算法进行了性能对比与分析, 实验结果证明, 所提方法在保证隐私安全的前提下, 比现有方法具有更好的推荐精度和多样性, 能够有效地发现用户的隐性需求.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006534
    [摘要] (256) [HTML] (0) [PDF 5.80 M] (414)
    摘要:
    为了提高空间飞行器计算机的CPU利用率, 新一代空间飞行器操作系统使用了一种同时包含固定时间点启动任务和偶发任务的混合调度算法. 其中固定时间点启动任务往往是安全攸关任务, 需要在固定时间点启动, 且执行期间不能被阻塞. 在固定时间点启动任务和偶发任务共存的条件下, 现有的实时锁协议无法保证固定时间点启动任务的阻塞时间为零, 因此在经典的优先级天花板协议的基础上, 提出了基于避让思想的实时锁协议, 通过提前预判和设置虚拟启动点的方式, 确保偶发任务对共享资源的访问不会影响到固定时间点启动任务的执行. 同时暂时提升部分共享资源的访问优先级, 降低了任务抢占所带来的运行开销. 给出了上述锁协议的最坏阻塞时间, 并通过可调度率实验分析其性能, 实验表明, 在临界区较短的情况下, 本协议可将因访问共享资源而导致的可调度性损失控制在27%以内.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006523
    [摘要] (268) [HTML] (0) [PDF 8.17 M] (470)
    摘要:
    微服务因其敏捷的开发方式、快速的部署方式, 逐渐成为以云为基础的软件系统的主流架构方式之一. 但是, 微服务系统结构复杂, 动辄上百个服务实例, 而且服务之间的调用关系异常复杂, 当微服务系统中出现异常时, 难以定位故障根因. 为了解决这个问题, 端到端请求追踪(trace)成为微服务系统监控的标配. 然而现有的分布式请求追踪实现方式对应用程序具有侵入性, 严重依赖于开发者对请求追踪的经验, 无法在运行时控制追踪功能的开启和关闭. 这些不足不仅会增加开发者的负担, 而且限制了分布式请求追踪技术的实际应用. 设计并实现了对程序开发者透明的请求追踪系统Trace++, 能够自动生成追踪代码, 利用动态代码插桩技术将追踪代码注入到运行中的应用程序. Trace++对程序低侵入, 对开发者透明, 能够灵活控制追踪功能的开启和关闭. 此外, Trace++的自适应采样方法有效减少了请求追踪产生的开销. 在微服务系统TrainTicket上的实验结果证明, Trace++能够准确发现服务依赖关系. 在开启请求追踪时, 性能开销接近于源代码插桩, 在关闭请求追踪时无性能开销. 此外, Trace++的自适应采样方法在采样到具有代表性样本的同时减少了89.4%的追踪数据.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006527
    [摘要] (240) [HTML] (0) [PDF 9.47 M] (546)
    摘要:
    BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块, 广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算. 针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数. 基于RMA通信机制设计了从核归约策略, 提升了BLAS 1、2级若干函数的归约效率. 针对TRSV、TPSV等存在数据依赖关系的函数, 提出了一套高效并行算法, 该算法通过点对点同步维持数据依赖关系, 设计了适用于三角矩阵的高效任务映射机制, 有效减少了从核点对点同步的次数, 提高了函数的执行效率. 通过自适应优化、向量压缩、数据复用等技术, 进一步提升了BLAS 1、2级函数的访存带宽利用率. 实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%, 平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%, 平均可达80%以上. 与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用本文实现的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006529
    [摘要] (182) [HTML] (0) [PDF 4.76 M] (414)
    摘要:
    安全多方计算是国际密码学的研究热点之一, 保密计算集合交集元素之和问题是安全多方计算比较新的问题之一. 该问题在工商业、医疗健康等领域具有重要的理论意义和实用价值. 现有解决方案是在有全集情况下设计的, 在计算过程中会泄露交集的势且存在一定的误判. 在半诚实模型下基于Paillier同态加密算法设计了3个协议, 协议1计算共有标识符的数量(即用户标识符交集的势)以及与这些用户相关联的整数值之和, 协议2和协议3是在不泄露交集势的情况下计算交集元素关联值之和. 整个计算过程不泄露关于协议双方私人输入的任何更多信息. 所提协议是在无全集情况下设计的, 采用模拟范例证明了所设计协议的安全性, 用实验验证协议的高效性.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006516
    [摘要] (344) [HTML] (0) [PDF 8.28 M] (505)
    摘要:
    斯诺登事件揭露了某些密码体制的确存在被颠覆的事实. 椭圆曲线数字签名算法(elliptic curve digital signature algorithm, ECDSA)在同等安全强度下, 因其签名长度短而被广泛应用, 如被用于比特币交易单的签名. ECDSA签名算法是否会被颠覆且存在修复方法仍是一个挑战. 正面回答了这一问题: 首先利用伪随机函数(pseudorandom function, PRF)计算$ \widetilde k $替换ECDSA签名中使用的随机数$ k $, 实现了对ECDSA签名的颠覆, 使得敌手只需获得至多3个连续签名就能够提取出签名私钥; 然后, 将签名私钥、签名消息与其他随机签名组件的哈希值作为签名算法的第2个随机数, 对ECDSA签名进行了改进, 提出了抗颠覆攻击的ECDSA签名, 即使敌手替换新签名算法的某个组件, 也无法提取签名私钥的任何信息; 最后, 对提出的算法与已有算法进行了效率测试, 实验结果证明了提出的算法在计算复杂度与算法执行效率方面都具备优势.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006517
    [摘要] (286) [HTML] (0) [PDF 6.01 M] (584)
    摘要:
    在账本公开、多方共识情况下确保交易身份的隐私保护是区块链技术面临的主要挑战之一. 目前公有链中基于匿名认证和交易混淆的身份隐私保护方案由于缺乏监管又难于在行业应用中推广. 借鉴门罗币中的身份隐私保护方案, 引入监管方的角色, 基于一次性地址加密和零知识证明设计了可监管的交易接收方身份隐私保护方案; 结合可链接环签名和可撤销环签名设计了可链接可撤销环签名方案, 以实现基于自主混淆的可监管交易发送方身份隐私保护方案. 基于上述方案, 系统在保护交易方身份隐私的同时, 还支持监管方可离线恢复交易参与方的真实身份, 从而达到“可控匿名”的监管目的. 分析和测试结果表明, 方案设计的算法运算时间均为毫秒级, 可满足区块链非高频交易场景下的性能需求.
    优先出版日期:  2022-11-30 , DOI: 10.13328/j.cnki.jos.006519
    [摘要] (224) [HTML] (0) [PDF 6.22 M] (523)
    摘要:
    稠密矩阵乘法(GEMM)是很多科学与工程计算应用中大量使用的函数, 也是很多代数函数库中的基础函数, 其性能高低对整个应用往往有决定性的影响. 另外, 因其计算密集的特点, 矩阵乘法效率往往也是体现硬件平台性能的重要指标. 针对国产申威1621处理器, 对稠密矩阵乘法进行了系统性地优化. 基于对各部分开销的分析, 以及对体系结构特点与指令集的充分利用, 对DGEMM函数从循环与分块方案, 打包方式, 核心计算函数实现, 数据预取等方面进行了深入优化. 此外, 开发了代码生成器, 为不同的输入参数生成不同版本的汇编代码和C语言代码, 配合自动调优脚本, 选取最佳参数. 经过优化和调优, 单线程DGEMM性能达到了单核浮点峰值性能的85%, 16线程DGEMM性能达到16核浮点峰值性能的80%. 对DGEMM函数的优化不仅提高了申威1621平台BLAS函数库性能, 也为国产申威系列多核处理器上稠密数据计算优化提供了重要参考.
    优先出版日期:  2022-11-24 , DOI: 10.13328/j.cnki.jos.006498
    [摘要] (184) [HTML] (0) [PDF 4.63 M] (476)
    摘要:
    在软件开发中, 错误定位是修复软件缺陷的必要前提. 为此, 研究者们提出了一系列自动化的错误定位方法. 这些方法利用了测试用例运行时的覆盖路径和运行结果等信息, 大幅减少了定位错误代码的难度. 在竞争性众包软件开发中, 往往存在多个竞争性实现(解决方案), 提出一种专门面向众包软件工程的错误定位方法. 主要思想是, 在定位错误语句时, 将其多个竞争性实现作为参考程序. 针对程序中的各个语句, 在参考程序中搜索参考语句, 并利用参考语句计算其错误概率. 给定一个错误程序和相应的测试用例, 首先运行测试用例并使用广泛流行的基于频谱的错误定位方法计算其初始错误概率. 然后, 根据此语句与其参考语句的相似性调整错误概率. 在118个真实的错误程序上进行实验, 结果表明所提方法相比基于频谱的方法, 定位错误的成本降低了25%以上.
    优先出版日期:  2022-11-16 , DOI: 10.13328/j.cnki.jos.006506
    [摘要] (231) [HTML] (0) [PDF 4.75 M] (548)
    摘要:
    在软件交付越来越强调迅速、可靠的当下, 持续集成成为一项备受关注的技术. 开发人员不断将工作副本集成到代码主干完成软件演化, 每次集成会通过自动构建测试来验证代码更新是否引入错误. 但随着软件规模的增大, 测试用例集包含的测试用例越来越多, 测试用例的覆盖范围、检错效果等特征也随着集成周期的延长而变化, 传统的测试用例排序技术难以适用. 基于强化学习的测试排序技术可以根据测试反馈动态调整排序策略, 但现有的相关技术不能综合考虑测试用例集中的信息进行排序, 这限制了它们的性能. 提出一种新的基于强化学习的持续集成环境中测试用例排序方法——指针排序方法: 方法使用测试用例的历史信息等特征作为输入, 在每个集成周期中, 智能体利用指针注意力机制获得对所有备选测试用例的关注程度, 由此得到排序结果, 并从测试执行的反馈得到策略更新的方向, 在“排序-运行测试-反馈”的过程中不断调整排序策略, 最终达到良好的排序性能. 在5个规模较大的数据集上验证了所提方法的效果, 并探究了使用的历史信息长度对方法性能的影响, 方法在仅含回归测试用例的数据集上的排序效果, 以及方法的执行效率. 最后, 得到如下结论: (1)与现有方法相比, 指针排序方法能够随着软件版本的演化调整排序策略, 在持续集成环境下有效地提升测试序列的检错能力. (2)指针排序方法对输入的历史信息长度有较好的鲁棒性, 少量的历史信息即可使其达到最优效果. (3)指针排序方法能够很好地处理回归测试用例和新增测试用例. (4)指针排序方法的时间开销不大, 结合其更好、更稳定的排序性能, 可以认为指针排序方法是一个非常有竞争力的方法.
    优先出版日期:  2022-11-16 , DOI: 10.13328/j.cnki.jos.006496
    [摘要] (183) [HTML] (0) [PDF 13.64 M] (476)
    摘要:
    垂直数据分区技术从逻辑上将满足一定语义条件的数据库表属性存放在同一个物理块中, 进而降低数据访问成本, 提高查询效率. 数据库查询负载中的每条查询通常只与数据库表中的部分属性有关, 因此只需使用数据库表的某个属性子集便可以得到准确的查询结果. 合理的垂直数据分区方式可以使大多数查询负载不需要扫描完整数据库就可以完成查询任务, 从而达到减少数据访问量, 提高查询处理效率的目的. 传统的数据库垂直分区方法主要基于专家设置的启发式规则, 分区策略粒度较粗, 且不能根据负载的特征进行有针对性的分区优化. 同时, 当负载规模较大或者属性个数较多时, 现有垂直分区方法执行时间过长, 尤其无法满足数据库在线实时调优的性能需求. 为此, 提出在线环境下基于谱聚类的垂直数据分区方法(spectral clustering based vertical partitioning, SCVP), 采用分阶段求解的思想, 减少算法时间复杂度, 加快分区执行速度. 首先通过增加约束条件缩小解空间(即根据谱聚类生成初始分区), 然后对解空间设计算法进行精细的搜索(即采用频繁项集和贪心搜索相结合的策略对初始分区进行优化). 为了进一步提升SCVP在高维属性下的性能, 提出了SCVP的改进版本SCVP-R (spectral clustering based vertical partitioning redesign). SCVP-R通过引入同域竞争机制、双败淘汰机制和循环机制, 对SCVP在分区优化过程中的合并方案进行了进一步的优化. 在不同数据集上的实验结果表明, 相比于目前最好的垂直分区方法, SCVP和SCVP-R有着更快的执行时间和更好的性能表现.
    优先出版日期:  2022-10-28 , DOI: 10.13328/j.cnki.jos.006495
    [摘要] (354) [HTML] (0) [PDF 6.50 M] (506)
    摘要:
    异构缺陷预测(heterogeneous defect prediction, HDP)在具有异构特征的项目间进行缺陷预测, 可以有效解决源项目和目标项目使用了不同特征的问题. 当前大多数HDP方法都是通过学习域不变特征子空间以减少域之间的差异来解决异构特征问题. 但是, 源域和目标域通常呈现出巨大的异质性, 使得域对齐效果并不好. 究其原因, 这些方法都忽视了分类器对于两个域中的同一类别应产生相似的分类概率分布这一潜在知识, 没有挖掘数据中包含的内在语义信息. 另一方面, 由于在新启动项目或历史遗留项目中搜集训练数据依赖于专家知识, 费时费力且容易出错, 探究了基于目标项目内少数标记模块来进行异构缺陷预测的可能性. 鉴于此, 提出了一种基于同步语义对齐的异构缺陷预测方法(SHSSAN). 一方面, 探索从标记的源项目中学到的隐性知识, 从而在类别之间传递相关性, 达到隐式语义信息迁移. 另一方面, 为了学习未标记目标数据的语义表示, 通过目标伪标签进行质心匹配达到显式语义对齐. 同时, SHSSAN可以有效解决异构缺陷数据集中常见的类不平衡和数据线性不可分问题, 并充分利用目标项目中的标签信息. 对包含30个不同项目的公共异构数据集进行的实验表明, 与目前表现优异的CTKCCA、CLSUP、MSMDA、KSETE和CDAA方法相比, 在F-measure和AUC上分别提升了6.96%、19.68%、19.43%、13.55%、9.32%和2.02%、3.62%、2.96%、3.48%、2.47%.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006755
    [摘要] (308) [HTML] (0) [PDF 5.97 M] (582)
    摘要:
    分布式系统的可靠性和可用性至关重要. 然而, 不正确的失效恢复机制及其实现会引发失效恢复缺陷, 威胁分布式系统的可靠性和可用性. 只有发生在特定时机的节点失效才会触发失效恢复缺陷, 因此, 检测分布式系统中的失效恢复缺陷具有挑战性. 提出了一种新方法Deminer来自动检测分布式系统中的失效恢复缺陷. 在大规模分布式系统中观察到, 同一份数据(即共用数据)可能被一组I/O写操作存储到不同位置(如不同的存储路径或节点). 而打断这样一组共用数据写操作执行的节点失效更容易触发失效恢复缺陷. 因此, Deminer以共用数据的使用为指导, 通过自动识别和注入这类容易引发故障的节点失效来检测失效恢复缺陷. 首先, Deminer追踪目标系统的一次正确执行中关键数据的使用. 然后, Deminer基于执行轨迹识别使用共用数据的I/O写操作对, 并预测容易引发错误的节点失效注入点. 最后, Deminer通过测试预测的节点失效注入点以及检查故障征兆来暴露和确认失效恢复缺陷. 实现了Deminer原型工具, 并在4个流行的开源分布式系统ZooKeeper、HBase、YARN和HDFS的最新版本上进行了验证. 实验结果表明Deminer方法能够有效检测分布式系统中的失效恢复缺陷. Deminer已经检测到6个失效恢复缺陷.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006753
    [摘要] (630) [HTML] (0) [PDF 1.88 M] (1223)
    摘要:
    作为地面网络的补充和延伸, 卫星网络有助于加速弥合区域间的数字鸿沟, 扩展地面网络的覆盖和服务范围. 然而卫星网络拓扑动态性高、传播时延大、星上计算能力和存储能力均受限, 因此实现卫星网络与地面网络的有机融合, 构建覆盖全球的天地一体化网络面临路由扩展性、传输稳定性等技术挑战. 针对天地一体化网络的研究挑战, 从网络架构、路由、传输和基于组播的内容分发等方面介绍了国内外的研究现状, 并展望了天地一体化网络的发展趋势.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006752
    [摘要] (225) [HTML] (0) [PDF 7.20 M] (661)
    摘要:
    传统的信息隐藏算法大都通过修改载体达到隐藏秘密信息的目的, 但不可避免地会在载体数据中留下修改痕迹, 故常难以抵抗隐写分析技术的检测, 为此无载体信息隐藏应运而生. 无载体信息隐藏并非不使用载体, 而是不对载体数据进行修改. 为了提高无载体信息隐藏算法的隐藏容量和鲁棒性, 提出了一种基于风格迁移纹理合成与识别的构造式信息隐藏算法. 该算法首先选取不同类别的自然图像和纹理图像分别建立内容图像库和纹理风格图像库, 并根据内容图像库中自然图像的类别构建二进制码的映射字典; 其次为了接收方能够从含密图像中提取出秘密信息, 需要构建带标签的纹理图像库, 并将其作为训练集输入到卷积神经网络中, 通过迭代训练获得纹理图像识别模型. 在秘密信息隐藏时, 根据秘密信息片段选择对应类别的自然图像, 并按照一定的顺序组合成含密拼接图像, 随后从纹理图像库中随机选择一张纹理图像, 通过风格迁移的方法将含密拼接图像转换成含密纹理图像, 从而完成秘密信息隐藏过程. 在信息提取过程中, 通过纹理图像识别模型可准确识别出含密纹理图像原本对应的图像类别, 再对照映射字典即可提取出秘密信息. 实验结果表明, 所提算法生成的含密纹理图像具有良好的视觉效果, 秘密信息隐藏容量较高, 且对JPEG压缩、高斯噪声等攻击具有较强的鲁棒性.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006749
    [摘要] (487) [HTML] (0) [PDF 4.17 M] (915)
    摘要:
    代码变更是软件演化过程中的关键行为, 其质量与软件质量密切相关. 对代码变更进行建模和表示是众多软件工程任务的基础, 例如即时缺陷预测、软件制品可追溯性恢复等. 近年来, 代码变更表示学习技术得到了广泛的关注与应用. 该类技术旨在学习将代码变更的语义信息表示为稠密低维实值向量, 即学习代码变更的分布式表示, 相比于传统的人工设计代码变更特征的方法具有自动学习、端到端训练和表示准确等优点. 但同时该领域目前也存在如结构信息利用困难、基准数据集缺失等挑战. 对近期代码变更表示学习技术的研究及应用进展进行了梳理和总结, 主要内容包括: (1)介绍了代码变更表示学习及其应用的一般框架. (2)梳理了现有的代码变更表示学习技术, 总结了不同技术的优缺点. (3)总结并归类了代码变更表示学习技术的下游应用. (4)归纳了代码变更表示学习技术现存的挑战和潜在的机遇, 展望了该类技术的未来发展方向.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006648
    [摘要] (270) [HTML] (0) [PDF 7.51 M] (619)
    摘要:
    基于分解的超多目标进化算法是求解各类超多目标优化问题的主流方法, 其性能在很大程度上依赖于所采用参考向量与真实帕累托前沿面(Praeto front, PF)的匹配程度. 现有基于分解的超多目标进化算法尚难以同时有效处理各类PF不同的优化问题. 为此, 提出了一种基于PF曲率预估的超多目标进化算法(MaOEA-CE). 所提算法的核心包括两个方面, 首先基于对PF曲率的预估, 在每次迭代过程中生成不同的参考向量, 以渐进匹配不同类型问题的真实PF; 其次在环境选择过程中, 再基于预估的曲率选择合适的聚合函数对精英解进行挑选, 并对参考向量进行动态调整, 在维护种群多样性的同时提升种群的收敛性. 为验证MaOEA-CE的有效性, 将其与7个先进的超多目标算法在3个主流测试问题集DTLZ、WFG和MaF上进行对比, 实验结果表明MaOEA-CE具有明显的竞争力.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006493
    [摘要] (215) [HTML] (0) [PDF 4.94 M] (483)
    摘要:
    近年来, 与二阶段实例分割方法相比, 单阶段实例分割方法由于实时性强, 已在实际应用中取得了初步进展, 但目前仍然存在以下两个主要缺点. (1)精度较低: 单阶段方法缺少多轮优化环节, 因此其精度离实际应用仍存在差距; (2)不够灵活: 目前大多数单阶段方法是独立设计的, 难以兼容实际应用中不同类型的物体检测框架, 因此适用范围相对有限. 提出了一种精确且灵活的单阶段实例分割框架——网格实例分割方法(GridMask), 其中两个关键步骤如下: (1)为了提高实例分割精度, 提出了一种网格切分二值化算法, 将物体边界框内的区域划分为多个独立的网格, 然后在每个网格上进行实例分割. 该步骤将物体分割任务简化成了多个网格切片的分割, 有效降低了特征表示的复杂程度, 进而提高了实例分割的精度; (2)为了兼容不同的物体检测方法, 设计了一个可以即插即用的子网络模块. 该模块可以无缝地接入到目前大多数主流物体检测框架中, 以增强这些方法的分割性能. 所提方法在公共数据集MS COCO上取得了出色的性能, 优于现有的大部分单阶段方法, 甚至一些二阶段方法.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006494
    [摘要] (240) [HTML] (0) [PDF 6.65 M] (567)
    摘要:
    软件定义网络(SDN)是一种将控制与转发平面分离的新型网络架构, 可以基于全局信息进行网络资源的调度和优化, 而精确的调度需要对全网信息(包括网络中所有交换设备状态及拓扑中所有链路信息)进行准确的测量. 带内网络遥测可以在转发数据包的同时实现相关信息的采集, 其中配置全网覆盖的探测路径是带内网络遥测需要解决的关键问题之一. 但现有SDN网络中全网覆盖的带内网络遥测路径配置方案存在以下问题: (1)需要提前部署大量探测节点导致维护开销增大; (2)探测路径过长导致探测分组长度超过网络中的MTU值; (3)冗余的探测路径导致测量引入的流量负荷在网络整体流量中占比过大; (4)动态变化拓扑下探测路径调整恢复时间长等. 为解决上述问题, 提出了SDN中基于图分割的自适应带内网络遥测探测路径配置(ACGS)方法, 其基本思想是: 利用图分割对网络拓扑图进行划分, 通过控制拓扑规模来限制探测路径长度; 在分割后的子图中求解欧拉回路得到只遍历子图中有向边一次的探测路径, 以避免探测节点数量过多、探测路径冗余度高的问题; 并利用局部调整与整体调整相结合的方式解决拓扑动态变化时探测路径恢复时间长的问题. 实验结果证明ACGS方法能够在SDN网络环境下, 实现探测路径长度适中、探测节点数量较少、探测路径冗余程度更低的全网覆盖带内网络遥测探测路径配置, 并实现其在拓扑动态变化后更快速的调整.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006526
    [摘要] (255) [HTML] (0) [PDF 8.54 M] (505)
    摘要:
    文件分层的密文策略基于属性的加密(FH-CP-ABE)方案实现了同一访问策略的多层次文件加密, 节省了加解密的计算开销和密文的存储开销. 然而, 目前的文件分层CP-ABE方案不支持分级用户访问, 且存在越权访问的问题. 为此, 提出一种支持分级用户访问的文件分层CP-ABE方案. 在所提方案中, 通过构造分级用户访问树, 并重新构造密文子项以支持分级用户的访问需求, 同时消除用户进行越权访问的可能性. 安全性分析表明, 所提方案能够抵御选择明文攻击. 理论分析和实验分析均表明, 与相关方案相比, 所提方案在计算和存储方面具有更高的效率.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006489
    [摘要] (197) [HTML] (0) [PDF 5.21 M] (537)
    摘要:
    基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练, 因而有望提高样本效率. 但由于训练样本不足等问题, 构建的环境模型往往是不精确的, 其生成的样本也会因携带的预测误差而对训练过程产生干扰. 针对这一问题, 提出了一种可学习的样本加权机制, 通过对生成样本重加权以减少它们对训练过程的负面影响. 该影响的量化方法为, 先使用待评估样本更新价值和策略网络, 再在真实样本上计算更新前后的损失值, 使用损失值的变化量来衡量待评估样本对训练过程的影响. 实验结果表明, 按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006536
    [摘要] (256) [HTML] (0) [PDF 5.73 M] (559)
    摘要:
    跨模态哈希通过将不同模态的数据映射为同一空间中更紧凑的哈希码, 可以大大提升跨模态检索的效率. 然而现有跨模态哈希方法通常使用二元相似性矩阵, 不能准确描述样本间的语义相似关系, 并且存在平方复杂度问题. 为了更好地挖掘数据间的语义相似关系, 提出了一个基于标记增强的离散跨模态哈希方法. 首先借助迁移学习的先验知识生成样本的标记分布, 然后通过标记分布构建描述度更强的语义相似性矩阵, 再通过一个高效的离散优化算法生成哈希码, 避免了量化误差问题. 最后, 在两个基准数据集上的实验结果验证了所提方法在跨模态检索任务上的有效性.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006545
    [摘要] (215) [HTML] (0) [PDF 6.10 M] (446)
    摘要:
    近年来, 随着电影、游戏、虚拟现实应用等对真实感要求的不断提高, 针对人体组织、牛奶等半透明材质的实时渲染变得越发重要. 针对当前大部分次表面散射计算方法难以正确估计散射范围的问题, 提出了一种全新的次表面散射计算方法用以精确表示最大散射距离. 首先, 针对暴力蒙特卡洛光子追踪结果进行模拟, 以得到反射剖面结果. 其次通过多项式模型进行反射剖面拟合, 计算精确着色点处的最大散射范围. 最后, 提出了一种新的重要性采样方案以减少蒙特卡洛所需的采样数, 进一步提高计算效率. 此外, 方法所需的参数仅由着色点上的反射率以及材质平均自由程提供, 以便于灵活调整渲染效果. 实验证明, 所提模型避免了之前对于散射范围的错误估计, 对材质反射率复杂的区域具有更好的渲染精度, 且渲染速率满足实时要求.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006541
    [摘要] (233) [HTML] (0) [PDF 8.66 M] (584)
    摘要:
    数据中心边界广泛部署的地址转换技术产生的非对称流为负载均衡系统的设计带来了挑战. 为了解决软件负载均衡系统不能充分发挥多核处理器和网卡硬件能力的问题, 提出一种基于流特征的非对称流负载均衡方法. 首先, 分析网卡的数据包散列机制, 提出数据包调度算法, 将数据包调度至预期的CPU核; 然后, 基于会话报文序列的时间与空间特征, 构建大象流识别算法; 最后, 基于识别结果, 提出负载均衡方法. 实验结果表明, 非对称流负载均衡方法可以正确处理非对称流的负载均衡, 平均吞吐率提升约14.5%.
    优先出版日期:  2022-09-23 , DOI: 10.13328/j.cnki.jos.006532
    [摘要] (250) [HTML] (0) [PDF 4.69 M] (442)
    摘要:
    模型学习是一种获取黑盒软件系统行为模型的有效方法, 可分为主动学习和被动学习. 主动学习是基于字母表构造测试用例, 通过与黑盒系统主动交互, 可在多项式时间内得到目标系统的最小完备自动机, 其中等价查询仍是开发和应用主动自动机学习工具的障碍之一. 通过探讨反例对于学习算法的影响, 定义假设的比较规则, 提出测试用例构造的两个原则, 同时依据原则对Wp-method等价查询算法改进, 产生更优的假设, 有效降低查询的数量, 并基于LearnLib开源工具, 分别以3类自动机为实验对象验证原则和改进算法的有效性.
    优先出版日期:  2022-09-23 , DOI: 10.13328/j.cnki.jos.006543
    [摘要] (313) [HTML] (0) [PDF 2.96 M] (545)
    摘要:
    传统密码算法的安全性建立在黑盒攻击模型下. 在这种攻击模型下, 攻击者只能获取密码算法的输入输出, 而无法得知密码算法运行时的内部细节. 近年来白盒攻击模型的概念被提出. 在白盒攻击模型下, 攻击者既可以获取密码算法的输入输出, 也可以直接观测或更改密码算法运行时的内部数据. 为保证已有密码算法在白盒攻击环境下的安全性, 在不改变其功能的基础上通过白盒密码技术对其进行重新设计被称为已有密码算法的白盒实现. 研究白盒实现方案的设计与分析对于解决数字版权管理问题具有重要意义. 近年来, 出现了一类针对白盒实现方案的旁信道分析方法. 这类分析手段只需要知道很少白盒实现方案的内部细节, 却可以提取到密钥, 因此是一类对现有白盒实现方案具有实际威胁的分析手段. 对现有白盒实现方案进行此类分析对于确保方案安全性具有重要现实意义. 此类分析方法中的典型代表是基于差分功耗分析原理的差分计算分析. 基于差分计算分析, 对白-武白盒SM4方案进行了安全性分析. 基于对GF(2)上n阶均匀随机可逆矩阵统计特征的研究结果, 提出了一种改进型差分计算分析(IDCA), 可以在分析成功率几乎不变的前提下显著提升分析效率. 结果表明, 白-武白盒SM4方案在面对差分计算分析时不能保证安全性, 必须对其进行进一步改进使之满足实际应用场景下的安全性需求.
    优先出版日期:  2022-09-23 , DOI: 10.13328/j.cnki.jos.006530
    [摘要] (335) [HTML] (0) [PDF 10.24 M] (874)
    摘要:
    提出一种基于卷积神经网络的Transformer模型来解决全景分割任务, 方法借鉴CNN在图像特征学习方面的先天优势, 避免了Transformer被移植到视觉任务中所导致的计算量增加. 基于卷积神经网络的Transformer模型由执行特征域变换的映射器和负责特征提取的提取器这两种基本结构构成, 映射器和提取器的有效结合构成了该模型的网络框架. 映射器由一种Lattice卷积模型实现, 通过对卷积滤波器进行设计和优化来模拟图像的空间关系. 提取器由链式网络实现, 通过链式单元堆叠提高特征提取能力. 基于全景分割的结构和功能, 构建了基于CNN的全景分割Transformer网络. 在MS COCO和Cityscapes数据集的实验结果表明, 所提方法具有优异的性能.
    优先出版日期:  2022-09-20 , DOI: 10.13328/j.cnki.jos.006531
    [摘要] (387) [HTML] (0) [PDF 5.21 M] (673)
    摘要:
    选择密文安全模型能有效刻画主动攻击, 更接近现实环境. 现有抵抗选择密文攻击的密码算法以国外算法为主, 缺乏我国自主设计且能抵抗选择密文攻击的密码算法. 虽然实现选择密文安全存在通用转化方法, 代价是同时增加计算开销和通信开销. 基于国密SM9标识加密算法, 提出一种具有选择密文安全的标识广播加密方案. 方案的设计继承了SM9标识加密算法结构, 用户密钥和密文的大小都是固定的, 其中用户密钥由一个群元素组成, 密文由3个元素组成, 与实际参与加密的接收者数量无关. 借助随机谕言器, 基于 GDDHE困难问题可证明方案满足CCA安全. 加密算法的设计引入虚设标识, 通过该标识可成功回复密文解密询问, 实现CCA的安全性. 分析表明, 所提方案与现有高效标识广播加密方案在计算效率和存储效率上相当.
    优先出版日期:  2022-09-20 , DOI: 10.13328/j.cnki.jos.006658
    [摘要] (1144) [HTML] (0) [PDF 3.35 M] (2139)
    摘要:
    随着数据孤岛现象的出现和个人隐私保护的重视, 集中学习的应用模式受到制约, 而联邦学习作为一个分布式机器学习框架, 可以在不泄露用户数据的前提下完成模型训练, 从诞生之初就备受关注. 伴随着联邦学习应用的推广, 其安全性和隐私保护能力也开始受到质疑. 对近年来国内外学者在联邦学习模型安全与隐私的研究成果进行了系统总结与分析. 首先, 介绍联邦学习的背景知识, 明确其定义和工作流程, 并分析存在的脆弱点. 其次, 分别对联邦学习存在的安全威胁和隐私风险进行系统分析和对比, 并归纳总结现有的防护手段. 最后, 展望未来的研究挑战和方向.
    优先出版日期:  2022-09-20 , DOI: 10.13328/j.cnki.jos.006664
    [摘要] (322) [HTML] (0) [PDF 12.65 M] (601)
    摘要:
    区块链上运行的智能合约具有一经部署难以修改、调用执行需经过共识等特点, 现有的需要修改智能合约代码或打断其执行过程的调试方法难以直接应用到智能合约上. 由于智能合约的运行过程由区块链交易顺序执行过程组成, 实现对区块链交易执行过程的追溯是提升智能合约可调试性的一个有效途径. 对区块链交易执行过程进行追溯主要目标是找出一条已经出块的区块链交易是如何得到当前的执行结果的. 区块链交易的执行依赖于区块链内部状态, 且该状态取决于之前区块链交易的执行结果, 因此存在着传递性依赖. 区块链交易的依赖性和区块链所提供的执行环境的特点给区块链交易执行追溯带来了挑战. 区块链交易执行追溯面临的挑战主要有3方面, 即如何从智能合约部署的生产环境中获取足够追溯的信息、如何获取区块链交易之间的依赖关系, 以及如何保证追溯结果与实际在线执行过程一致. 提出了一种基于录制重放的区块链交易执行追溯方法, 在合约容器中建立录制重放机制, 无需修改合约代码即可支持交易执行中对状态读写操作的录制, 并且不会打断智能合约运行; 提出了基于状态读写的交易依赖分析算法, 支持对存在依赖关系的前序交易进行按需回溯; 此外, 设计了录制读写操作记录的验证机制, 确保重放的执行过程与真实执行过程之间的一致性可被验证. 所提出的方法能够追溯区块链交易调用智能合约的执行过程, 可用于智能合约调试, 并且当智能合约异常造成损失时可用于举证. 在实验中对比了将录制的读写操作记录存储于链上和存储于链下之间的性能差异, 通过案例研究展示了所提方法在追溯区块链交易执行方面的有效性和优点.
    优先出版日期:  2022-09-09 , DOI: 10.13328/j.cnki.jos.006525
    [摘要] (370) [HTML] (0) [PDF 5.87 M] (561)
    摘要:
    随着近年来机器学习方法在自然语言处理领域的应用越发广泛, 自然语言处理任务的安全性也引起了研究者们重视. 现有研究发现, 向样本施加细微扰动可能令机器学习模型得到错误结果, 这种方法称之为对抗攻击. 文本对抗攻击能够有效发现自然语言模型的弱点从而进行改进. 然而, 目前的文本对抗攻击方法都着重于设计复杂的对抗样本生成策略, 对抗攻击成功率提升有限, 且对样本进行高侵入性修改容易导致样本质量下降. 如何更简单、更高效地提升对抗攻击效果, 并输出高质量对抗样本已经成为重要需求. 为解决此问题, 从改进对抗攻击过程的新角度, 设计了义原级语句稀释法(sememe-level sentence dilution algorithm, SSDA)及稀释池构建算法(dilution pool construction algorithm, DPCA). SSDA是一种可以自由嵌入经典对抗攻击过程中的新过程, 它利用DPCA构建的稀释池先对输入样本进行稀释, 再进行对抗样本生成. 在未知文本数据集与自然语言模型的情况下, 不仅能够提升任意文本对抗攻击方法的攻击成功率, 还能够获得相较于原方法更高的对抗样本质量. 通过对不同文本数据集、稀释池规模、自然语言模型, 以及多种主流文本对抗攻击方法进行对照实验, 验证了SSDA对文本对抗攻击方法成功率的提升效果以及DPCA构建的稀释池对SSDA稀释能力的提升效果. 实验结果显示, SSDA稀释过程能够比经典对抗攻击过程发现更多模型漏洞, 且DPCA能够帮助SSDA在提升成功率的同时进一步提升对抗样本的文本质量.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006486
    [摘要] (277) [HTML] (0) [PDF 4.54 M] (598)
    摘要:
    网络表示学习被认为是提高信息网络分析效率的关键技术之一, 旨在将网络中每个节点映射为低维隐空间中的向量表示, 并使这些向量高效的保持原网络的结构和特性. 近年来, 大量研究致力于网络拓扑和节点属性的深度挖掘, 并在一些网络分析任务中取得了良好应用效果. 事实上, 在这两类关键信息之外, 真实网络中广泛存在的伴随信息, 反映了网络中复杂微妙的各种关系, 对网络的形成和演化起着重要作用. 为提高网络表示学习的有效性, 提出了一种能够融合伴随信息的网络表示学习模型NRLIAI. 该模型以变分自编码器(VAE)作为信息传播和处理的框架, 在编码器中利用图卷积算子进行网络拓扑和节点属性的聚合与映射, 在解码器中完成网络的重构, 并融合伴随信息对网络表示学习过程进行指导. 该模型克服了现有方法无法有效利用伴随信息的缺点, 同时具有一定的生成能力, 能减轻表示学习过程中的过拟合问题. 在真实网络数据集上, 通过节点分类和链路预测任务对NRLIAI模型与几种现有方法进行了对比实验, 实验结果验证了该模型的有效性.
    优先出版日期:  2022-06-06 , DOI: 10.13328/j.cnki.jos.006642
    [摘要] (425) [HTML] (0) [PDF 5.78 M] (881)
    摘要:
    多接入边缘计算 (MEC)中的计算卸载问题已经成为了当前研究的热点之一. 目前的计算卸载方案仅考虑云、边、端结构中的计算卸载问题, 而未考虑到其公、私有云的属性. 提出了一种新的计算卸载方案, 所提方案考虑了边缘计算中公有云与私有云之间的关系, 将公有云作为了私有云资源的补充, 可以缓解由于私有云资源局限性带来的算力不足问题; 并通过建立双层Stackelberg博弈来解决计算卸载问题. 对公有云、私有云、以及用户的策略和收益进行了分析, 求出了各参与人的最优策略, 证明了双层博弈的纳什均衡解的存在性及唯一性. 仿真结果和分析也验证了基于双层Stackelberg博弈的计算卸载方案的可行性, 且相较基于单层Stackelberg博弈的卸载方案更高效, 更适合可扩展的边缘计算的环境.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006645
    [摘要] (849) [HTML] (0) [PDF 4.10 M] (1727)
    摘要:
    事件抽取是从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息, 并以结构化的形式表示出来. 事件抽取是自然语言处理与理解中的重要方向, 在政府公共事务管理、金融业务、生物医学等不同领域有着很高的应用价值. 根据对人工标注数据的依赖程度, 目前基于深度学习的事件抽取方法主要分为两类: 有监督和远程监督学习方法. 对当前深度学习中事件抽取技术进行了全面的综述. 围绕有监督中CNN、RNN、GAN、GCN与远程监督等方法, 系统地总结了近几年的研究情况, 并对不同的深度学习模型的性能进行了详细对比与分析. 最后, 对事件抽取面临的挑战进行了分析, 针对研究趋势进行了展望.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006657
    [摘要] (429) [HTML] (0) [PDF 8.80 M] (982)
    摘要:
    格分析是一种利用格困难问题的求解算法分析公钥密码安全性的分析方法, 是研究RSA类密码算法安全性的有力数学工具之一. 格分析的关键在于构造格基, 虽然目前已有通用简洁的格基构造策略, 然而, 这种通用方法无法充分、灵活地利用RSA及其变体的代数结构. 近年来, RSA类算法的格分析工作大多在通用策略的基础上引入特殊格基构造技巧. 首先介绍了格分析方法以及通用格基构造策略, 并总结提炼了几种常用格基构造技巧; 其次, 回顾了标准RSA算法格分析的主要成果, 即模数分解攻击、小解密指数攻击以及部分私钥泄漏攻击; 然后, 总结了几种主流RSA变体算法的特殊代数结构, 及其适用的特殊格基构造技巧; 最后, 对现有RSA及其变体算法的格分析工作进行了分类总结, 并展望了格分析方法的研究与发展方向.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006650
    [摘要] (339) [HTML] (0) [PDF 6.78 M] (931)
    摘要:
    篇章结构分析旨在理解文章的整体结构及其各部分之间的语义联系. 作为自然语言处理的研究热点, 近年来篇章结构分析研究发展迅速. 首先总结英语和汉语中篇章结构分析理论, 然后介绍相关篇章语料库及其计算模型的研究. 在此基础上, 梳理了当前英语、汉语中篇章结构分析的相关工作脉络, 构建了篇章结构分析研究框架, 归纳总结出当前研究的趋势和热点. 然后, 简要介绍篇章结构在下游任务中的应用. 最后, 指出当前汉语篇章结构分析存在的问题与挑战, 为今后的研究提供指导和帮助.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006666
    [摘要] (661) [HTML] (0) [PDF 6.45 M] (1433)
    摘要:
    软件开发过程中, 开发人员通过大量使用第三方库来实现代码复用. 不同第三方库之间存在依赖关系, 第三方库间的不兼容会导致第三方库的安装、加载、调用时出现错误, 进而导致系统异常, 这类问题称之为第三方库依赖冲突问题. 依赖冲突的根本原因是加载的第三方库无法覆盖软件引用的必需特性(例如: 方法). 依赖冲突问题会在第三方库的下载安装, 项目编译和运行时中出现, 且定位困难. 依赖冲突问题的修复要求开发人员对使用的第三方库版本间差别具有准确的理解, 并且第三方库之间复杂的依赖关系增加了修复难度. 为了能够在软件运行前, 发现软件中存在的依赖冲突, 并且能够响应和处理运行过程中由依赖冲突引发的系统异常, 国内外学者展开了各种针对依赖冲突问题的研究. 从依赖冲突问题的4个方面, 对当前已有研究工作进行了梳理, 包括: 第三方库的使用实证分析、依赖冲突原因分析、依赖冲突检测方法以及依赖冲突常用修复方式. 最后对该领域未来值得关注的研究问题进行了展望.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006677
    [摘要] (710) [HTML] (0) [PDF 7.50 M] (1048)
    摘要:
    分布式账本作为分布式数据管理的体系架构, 通常在多节点之间通过共识机制来共同维护数据记录, 可将数据所有权、传播过程、交易链条等相关信息完整全面地记录在分布的账本中, 并在数据产生、流动的整个生命周期中, 保证数据的不可篡改、不可抵赖, 为确权、维权、审计提供背书. 区块链是一种典型实现. 随着数字货币、数据资产交易等数字经济新应用的发展, 分布式账本技术得到了越来越广泛的关注, 但系统性能是其大规模落地应用的一个主要瓶颈, 账本性能优化成为产业界和学术界一个研究热点. 从账本体系结构、数据结构、共识机制和消息通讯4个方面, 系统地调研分析了分布式账本性能优化的主要方法、关键技术和代表性的解决方案.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006671
    [摘要] (895) [HTML] (0) [PDF 5.32 M] (1510)
    摘要:
    逆向强化学习(inverse reinforcement learning, IRL)也称为逆向最优控制(inverse optimal control, IOC), 是强化学习和模仿学习领域的一种重要研究方法, 该方法通过专家样本求解奖赏函数, 并根据所得奖赏函数求解最优策略, 以达到模仿专家策略的目的. 近年来, 逆向强化学习在模仿学习领域取得了丰富的研究成果, 已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中. 首先介绍了逆向强化学习理论基础, 然后从奖赏函数构建方式出发, 讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法, 包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等. 随后从逆向强化学习领域的前沿研究方向进行综述, 比较和分析该领域代表性算法, 包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等. 最后总结分析当前存在的关键问题, 并从理论和应用方面探讨了未来的发展方向.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006672
    [摘要] (536) [HTML] (0) [PDF 18.84 M] (1297)
    摘要:
    基于分解的演化多目标优化算法(MOEA/D)的基本思想是将一个多目标优化问题转化成一系列子问题 (单目标或者多目标)来进行优化求解. 自2007年提出以来, MOEA/D受到了国内外学者的广泛关注, 已经成为最具代表性的演化多目标优化算法之一. 总结过去13年中关于MOEA/D的一些研究进展, 具体内容包括: (1)关于MOEA/D的算法改进; (2) MOEA/D在超多目标优化问题及约束优化问题上的研究; (3) MOEA/D在一些实际问题上的应用. 然后, 实验对比几个具有代表性的MOEA/D改进算法. 最后, 指出一些MOEA/D未来的研究方向.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006679
    [摘要] (701) [HTML] (0) [PDF 5.88 M] (1115)
    摘要:
    深度学习系统具有强大的学习与推理能力, 在无人驾驶、语音识别和机器人等领域应用广泛. 由于数据集的限制以及依赖人工标签数据, 深度学习系统易于出现非预期的行为. 近年来, 深度学习系统的质量问题受到广泛的关注, 特别是在安全攸关的领域. 由于模糊测试具有较强的故障揭示能力, 运用模糊测试技术对深度学习系统进行测试成为研究热点. 从测试用例生成(包括种子队列构建、种子选择和种子变异)、测试结果判定、覆盖分析3个方面对已有的深度学习系统的模糊测试技术进行总结, 并介绍常用的数据集以及度量指标, 最后对其发展方向进行展望.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006680
    [摘要] (637) [HTML] (0) [PDF 16.26 M] (1027)
    摘要:
    近年来深度学习技术在诸多计算机视觉任务上取得了令人瞩目的进步, 也让越来越多的研究者尝试将其应用于医学图像处理领域, 如面向高通量医学图像(CT、MRI)的解剖结构分割等, 旨在为医生提供诊断辅助, 提高其阅片效率. 由于训练医学图像处理的深度学习模型同样需要大量的标注数据, 同一医疗机构的数据往往不能满足需求, 而受设备和采集协议的差异的影响, 不同医疗机构的数据具有很大的异质性, 这导致通过某些医疗机构的数据训练得到模型很难在其他医疗机构的数据上取得可靠的结果. 此外, 不同的医疗数据在患者个体病情阶段的分布上也往往是十分不均匀的, 这同样会降低模型的可靠性. 为了减少数据异质性的影响, 提高模型的泛化能力, 域适应、多站点学习等技术应运而生. 其中域适应技术作为迁移学习中的研究热点, 旨在将源域上学习的知识迁移到未标记的目标域数据上; 多站点学习和数据非独立同分布的联邦学习技术则旨在在多个数据集上学习一个共同的表示, 以提高模型的鲁棒性. 从域适应、多站点学习和数据非独立同分布的联邦学习技术入手, 对近年来的相关方法和相关数据集进行了综述、分类和总结, 为相关研究提供参考.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006681
    [摘要] (327) [HTML] (0) [PDF 4.87 M] (814)
    摘要:
    异质信息网络是一种异质数据表示形式, 如何融合异质数据复杂语义信息, 是推荐系统面临的挑战之一. 利用弱关系具有的丰富语义和信息传递能力, 构建一种面向推荐系统的异质信息网络高阶嵌入学习框架, 主要包括: 初始化信息嵌入、高阶信息嵌入聚合与推荐预测3个模块. 初始化信息嵌入模块首先采用基于弱关系的异质信息网络最佳信任路径筛选算法, 有效地避免在全关系异质信息网络中, 采样固定数量邻居造成的信息损失, 其次利用新定义的基于多头图注意力的多任务共享特征重要性度量因子, 筛选出节点的语义信息, 并结合交互结构, 有效地表征网络节点; 高阶信息嵌入聚合模块通过融入弱关系及网络嵌入对知识良好的表征能力, 实现高阶信息表达, 并利用异质信息网络的层级传播机制, 将被采样节点的特征聚合到待预测节点; 推荐预测模块利用高阶信息的影响力推荐方法, 实现了推荐任务. 该框架具有嵌入节点类型丰富、融合共享属性和隐式交互信息等特点. 最后, 实验验证UI-HEHo学习框架可有效地改善评级预测的准确性, 以及推荐生成的针对性、新颖性和多样性, 尤其是在数据稀疏的应用场景中, 具有良好的推荐效果.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006684
    [摘要] (574) [HTML] (0) [PDF 6.40 M] (910)
    摘要:
    分布式系统在计算环境中发挥重要的作用, 其中的共识协议算法用于保证节点间行为的一致性. 共识协议的设计错误可能导致系统运行故障, 严重时可能对人员和环境造成灾难性的后果, 因此保证共识协议设计的正确性非常重要. 形式化验证能够严格证明设计模型中目标性质的正确性, 适合用于验证共识协议. 然而, 随着分布式系统的规模增大, 问题复杂度提升, 使得分布式共识协议的形式化验证更为困难. 采用什么方法对共识协议的设计进行形式化验证、如何提升验证规模, 是共识协议形式化验证的重要研究问题. 对目前采用形式化方法验证共识协议的研究工作进行调研, 总结其中提出的重要建模方法和关键验证技术, 并展望该领域未来有潜力的研究方向.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006520
    [摘要] (438) [HTML] (0) [PDF 7.32 M] (930)
    摘要:
    针对事件抽取存在未充分利用句法关系、论元角色缺失的情况, 提出了基于双重注意力机制的事件抽取(event extraction based on dual attention mechanism, EEDAM)方法, 有助于提高事件抽取的精确率和召回率. 首先, 基于4种嵌入向量进行句子编码, 引入依赖关系, 构建依赖关系图, 使深度神经网络可以充分利用句法关系. 然后, 通过图转换注意网络生成新的依赖弧和聚合节点信息, 捕获长程依赖关系和潜在交互, 加权融合注意力网络, 捕捉句中关键的语义信息, 抽取句子级事件论元, 提升模型预测能力. 最后, 利用关键句检测和相似性排序, 进行文档级论元填充. 实验结果表明, 采用基于双重注意力机制的事件抽取方法, 在ACE2005数据集上, 较最佳基线联合多中文事件抽取器(joint multiple Chinese event extractor, JMCEE)在精确率、召回率和F1-score分别提高17.82%、4.61%、9.80%; 在大坝安全运行日志数据集上, 较最佳基线JMCEE在精确率、召回率和F1-score分别提高18.08%、4.41%、9.93%.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006535
    [摘要] (464) [HTML] (0) [PDF 7.22 M] (875)
    摘要:
    异质信息网络能够对真实世界的诸多复杂应用场景进行建模, 其表示学习研究也得到了众多学者的广泛关注. 现有的异质网络表示学习方法大多基于元路径来捕获网络中的结构和语义信息, 已经在后续的网络分析任务中取得很好的效果. 然而, 此类方法忽略了元路径的内部节点信息和不同元路径实例的重要性; 仅能捕捉到节点的局部信息. 因此, 提出互信息与多条元路径融合的异质网络表示学习方法. 首先, 利用一种称为关系旋转编码的元路径内部编码方式, 基于相邻节点和元路径上下文节点捕获异质信息网络的结构和语义信息, 采用注意力机制来建模各元路径实例的重要性; 然后, 提出一种互信息最大化与多条元路径融合的无监督异质网络表示学习方法, 使用互信息捕获全局信息以及全局信息和局部信息之间的联系. 最后, 在两个真实数据集上进行实验, 并与当前主流的算法进行比较分析. 结果表明, 所提方法在节点分类和聚类任务上性能都有提升, 甚至和一些半监督算法相比也表现出强劲性能.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006615
    [摘要] (498) [HTML] (0) [PDF 3.30 M] (750)
    摘要:
    异步程序使用异步非阻塞调用方式来实现程序的并发, 被广泛应用于并行与分布式系统中. 验证异步程序复杂性很高, 无论是安全性还是活性均达到EXPSPACE难. 提出一个异步程序的程序模型系统, 并在其上定义了两个异步程序上的问题: $ \epsilon $等价性问题和$ \epsilon $可达性问题. 通过将3-CNF-SAT规约到这两个问题, 再将其规约至非交互式Petri网的可达性证明两个问题是NP完备的. 案例表明, 这两个问题可以解决异步程序上一系列的程序验证问题.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006616
    [摘要] (393) [HTML] (0) [PDF 4.88 M] (775)
    摘要:
    各类安全攸关系统的可靠运行离不开软件程序的正确执行. 程序的演绎验证技术为程序执行的正确性提供高度保障. 程序语言种类繁多, 且用途覆盖高可靠性场景的新式语言不断涌现, 难以为每种语言设计支撑其程序验证任务的整套逻辑规则, 并证明其相对于形式语义的可靠性和完备性. 语言无关的程序验证技术提供以程序语言的语义为参数的验证过程及其可靠性结果. 对每种程序语言, 提供其形式语义后可直接获得面向该语言的程序验证过程. 提出一种面向大步操作语义的语言无关演绎验证技术, 其核心是对不同语言中循环、递归等可导致无界行为的语法结构进行可靠推理的通用方法. 特别地, 借助大步操作语义的一种函数式形式化提供表达程序中子结构所执行计算的能力, 从而允许借助辅助信息对子结构进行推理. 证明所提出验证技术的可靠性和相对完备性, 通过命令式、函数式语言中的程序验证实例初步评估了该技术的有效性, 并在Coq辅助证明工具中形式化了所有理论结果和验证实例, 为基于辅助证明工具实现面向大步语义的语言无关程序验证工具提供了基础.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006617
    [摘要] (601) [HTML] (0) [PDF 3.39 M] (893)
    摘要:
    随着移动通信的发展, 迎来了第5代移动通信技术(5G). 5G认证与密钥协商 (5G authentication and key agreement, 5G-AKA)协议的提出主要是为了实现用户和服务网络的双向鉴权. 然而, 最近的研究认为其可能会遭受信息破译和消息重放攻击. 同时, 发现当前5G-AKA的一些变种不能满足协议的无连接性. 针对上述缺陷, 提出了一个改进方案: SM-AKA. SM-AKA由两个并行子协议组成, 通过巧妙的模式切换使更加轻量的子协议(GUTI子模块)被频繁采用, 而另一个子协议(SUPI子模块)则主要用于异常发生时的鉴权. 依据这种机制, 它不仅实现了用户和归属网之间的高效认证, 还提升了鉴权的稳定性. 此外, 变量的新鲜性也得到了有效维持, 可以防止消息的重放, 而严格的加解密方式进一步提升了协议的安全性. 最后, 对SM-AKA展开完整的评估, 通过形式建模、攻击假定和Tamarin推导, 证明了该方案可以达到鉴权和隐私目标, 而理论分析部分也论证了协议性能上的优势.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006634
    [摘要] (357) [HTML] (0) [PDF 3.71 M] (719)
    摘要:
    无线信号之间的干扰阻碍了信号的并发传输, 降低了无线网络的吞吐量. 链路调度是提高无线网络吞吐量、减少信号传输延迟的一种有效方法. 因为SINR (signal to interference plus noise ratio)模型准确地描述了无线信号传播的固有特性, 能够真实反映无线信号之间的干扰, 提出了一种在动态无线网络中基于SINR模型的常数近似因子的在线分布式链路调度算法(OLD_LS). 在线的意思是指, 在算法执行的过程中任意节点可以随时加入网络, 也可以随时离开网络. 节点任意加入网络或者从网络中离开体现了无线网络的动态变化的特性. OLD_LS算法把网络区域划分为多个正六边形, 局部化SINR模型的全局干扰. 设计了动态网络下的领导者选举算法(LE), 只要网络节点的动态变化速率小于${1 \mathord{\left/ {\vphantom {1 \varepsilon }} \right. } \varepsilon }$, LE就可以在${\rm{O}}(\log n + \log R)$时间复杂度内以高概率选举出领导者. 其中, 常数$\varepsilon $满足$\varepsilon \leqslant {{5(1 - {2^{1 - {\alpha/ 2}}})} /6}$, $\alpha $表示路径损耗指数, n是网络节点的规模, R是最长链路的长度. 根据文献调研, 所提算法是第1个用于动态无线网络的在线分布式链路调度算法.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006635
    [摘要] (1220) [HTML] (0) [PDF 9.23 M] (1317)
    摘要:
    网络测量是网络性能监控、流量管理和故障诊断等场景的基础. 带内网络遥测由于具有实时性、准确性和扩展性等特点使其成为当前网络测量研究的热点. 随着可编程数据面的出现和发展, 丰富的信息反馈和灵活的功能部署使得国内外学者提出许多具有实用性的带内网络遥测技术方案. 首先分析了典型的带内网络遥测方案INT和AM-PM的原理和部署挑战. 根据带内网络遥测的优化措施和扩展角度, 从数据采集流程和多任务组合方面分析了优化机制的特点, 从无线网络、光网络和混合设备网络等方面分析了技术扩展的可行性. 根据带内网络遥测在典型场景的应用, 从网内性能感知、网络级遥测系统、流量调度和故障诊断几个方面对比分析其在不同场景应用特点. 最后, 对带内网络遥测研究进行总结, 展望了未来的研究方向.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006636
    [摘要] (551) [HTML] (0) [PDF 6.95 M] (794)
    摘要:
    针对Feistel, Misty与Type-1/2型广义Feistel等结构, 创新性地将Simon算法的周期性质与生日攻击思想相结合, 提出了一种新型传统密钥恢复攻击. 与Simon算法可以在多项式时间内恢复周期值不同, 在传统计算环境下至少需要生日攻击界才能恢复出对应的周期值. 利用所提方法, 可以在${\rm{O}}({2^{n/4}})$的选择明文和密文条件下, 以${\rm{O}}({2^{3n/4}})$的时间复杂度恢复出5轮Feistel-F结构的密钥, 对应的存储复杂度为${\rm{O}}({2^{n/4}})$. 上述结果比Isobe和Shibutani的工作结果多扩展了1轮, 并且所需的存储复杂度也更少. 对于Feistel-FK结构, 构造了7轮密钥恢复攻击. 此外, 还将上述方法应用于构造Misty结构和Type-1/2型广义Feistel结构的密钥恢复攻击. 对于不同的Misty密码方案, 分别给出了5轮Misty L-F和Misty R-F结构的密钥恢复攻击, 以及6轮Misty L-KF/FK和Misty R-KF/FK结构的密钥恢复攻击. 对于$d$分支Type-1型广义Feistel结构, 给出了${d^2}$轮的密钥恢复攻击. 当d≥6时, 对于d分支Type-2型广义Feistel结构的新型密钥恢复攻击轮数会优于现有密钥恢复攻击轮数.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006637
    [摘要] (378) [HTML] (0) [PDF 6.75 M] (904)
    摘要:
    软件代码注释生成是软件工程领域近期研究的一个重要问题. 目前很多研究工作已经在包含大量 <代码片段, 注释语句> 对的开源数据集上取得了较好效果. 但在企业应用中, 待注释的代码往往是一个软件项目库, 其必须首先决策在哪些代码行上生成注释更好, 而且待注释的代码片段大小、粒度各不相同, 需要研究提出一种注释决策和生成一体化的、抗噪音的代码注释生成方法. 针对这个问题, 提出了一个面向软件项目的代码自动注释生成方法CoComment. 该方法能够自动抽取软件项目文档中的领域基本概念, 并基于代码解析与文本匹配进行概念传播和扩展. 在此基础上, 通过定位概念相关的代码行/段进行自动注释决策, 最终利用模板融合概念和上下文生成具有高可读性的自然语言代码注释. 目前CoComment已经在3个企业软件项目、超过4.6万条人工代码注释数据上进行了对比试验. 结果表明, 该方法不仅能够有效地进行代码注释决策, 其注释内容与现有方法相比也能够提供更多有益于理解代码的信息, 从而为软件项目代码的注释决策和注释生成问题提供了一种一体化的解决方案.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006638
    [摘要] (450) [HTML] (0) [PDF 6.46 M] (733)
    摘要:
    随着物联网(Internet of Things, IoT)、云计算等技术的飞速发展, 便携式诊所(portable health clinic, PHC)得以实现, 并广泛应用于远程医疗. 我国依托5G通信的大幅优势, 积极推进智慧医疗的建设, 搭建了多功能、高质量的远程医疗信息服务平台. 以PHC为代表的远程医疗得以实现, 离不开远程数据共享系统的技术支撑. 目前IoT和云服务器(cloud server, CS)相结合(通常称为云边协同)的远程数据共享系统以其灵活性、高效性广受关注, 然而其隐私和安全问题却鲜有研究. 考虑到医疗数据的敏感性, 致力于研究PHC数据共享系统的安全隐私问题, 实现了PHC系统中物联网感知数据的安全上传、个性密文的归一化、云服务器上动态多用户的细粒度访问控制、高效的解密操作, 并给出了形式化的安全性证明. 在具体创新上, 第一, 分别对经典的代理重加密和属性基加密算法进行改进, 提出了IPRE-TO-FAME组合加密机制, 以保障云边协同的PHC系统数据共享的安全性. 第二, 为了应对物联网终端数量众多、分散性强带来的密钥更新难题, 借鉴代理重加密(proxy re-encryption, PRE)的思想, 实现了基于单方变换的密钥更新, 即无需变换IoT终端密钥条件下的密钥更新. 同时, 应用场景中重加密方可视为完全可信, 而常规PRE机制重加密方通常为不可信的第三方服务器, 为此, 改进了经典PRE算法, 提出了一种高效的IPRE (improved PRE)算法, 以适应提出的场景; 第三, 改进经典的FAME (fast attribute-based message encryption)机制, 实现了动态多用户的细粒度访问控制, 便于用户可以随时随地使用便携式智能设备访问数据. 安全性证明、理论分析和实验结果证明, 提出的方案具有较好的安全性和较强的实用性, 是一类解决PHC安全数据共享问题的有效方案.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006594
    [摘要] (724) [HTML] (0) [PDF 9.71 M] (1484)
    摘要:
    为汽车自动驾驶提供安全高效的自动驾驶行为决策, 是汽车自动驾驶领域面临的挑战性问题之一. 目前, 随着自动驾驶行业的蓬勃发展, 工业界与学术界提出了诸多自动驾驶行为决策方法, 但由于汽车自动驾驶行为决策受环境不确定因素的影响, 决策本身也要求实效性及高安全性, 现有的行为决策方法难以完全支撑这些要素. 针对以上问题, 提出了一种基于贝叶斯网络构建RoboSim模型的自动驾驶行为决策方法. 首先, 基于领域本体分析自动驾驶场景元素之间的语义关系, 并结合LSTM模型预测场景中动态实体的意图, 进而为构建贝叶斯网络提供驾驶场景理解信息; 然后, 通过贝叶斯网络推理特定场景的自动驾驶行为决策, 并使用 RoboSim模型的状态迁移承载行为决策的动态执行过程, 以减少贝叶斯网络推理的冗余操作, 提高了决策生成的效率. RoboSim模型具有平台无关、能模拟仿真执行周期的特点, 并支持多种形式化的验证技术. 为确保行为决策的安全性, 使用模型检测工具UPPAAL对RoboSim模型进行验证分析. 最后, 结合变道超车场景案例, 进一步证实所提方法的可行性, 为设计安全、高效的自动驾驶行为决策提供了一种可行的途径.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006492
    [摘要] (481) [HTML] (0) [PDF 7.39 M] (907)
    摘要:
    移动对象连续k近邻(CKNN)查询是指给定一个连续移动的对象集合, 对于任意一个k近邻查询q, 实时计算查询q的K近邻并在查询有效时间内对查询结果进行实时更新. 现实生活中, 交通出行、社交网络、电子商务等领域许多基于位置的应用服务都涉及移动对象连续k近邻查询这一基础问题. 已有研究工作解决连续k近邻查询问题时, 大多需要通过多次迭代确定一个包含k近邻的查询范围, 而每次迭代需要根据移动对象的位置计算当前查询范围内移动对象的数量, 整个迭代过程的计算代价占查询代价的很大部分. 为此, 提出了一种基于网络索引和混合高斯函数移动对象分布密度的双重索引结构(grid GMM index, GGI), 并设计了移动对象连续k近邻增量查询算法(incremental search for continuous k nearest neighbors, IS-CKNN). GGI索引结构的底层采用网格索引对海量移动对象进行维护, 上层构建混合高斯模型模拟移动对象在二维空间中的分布. 对于给定的k近邻查询q, IS-CKNN算法能够基于混合高斯模型直接确定一个包含qk近邻的查询区域, 减少了已有算法求解该区域的多次迭代过程; 当移动对象和查询q位置发生变化时, 进一步提出一种高效的增量查询策略, 能够最大限度地利用已有查询结果减少当前查询的计算量. 最后, 在滴滴成都网约车数据集以及两个模拟数据集上进行大量实验, 充分验证了算法的性能.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006614
    [摘要] (430) [HTML] (0) [PDF 5.30 M] (850)
    摘要:
    自动机的确定化是将非确定性自动机转换为接收相同语言的确定性自动机, 是自动机理论的基本问题之一. ω自动机的确定化是诸多逻辑, 如SnS, CTL*, μ演算等, 判定过程的基础, 同时也是解决无限博弈求解问题的关键, 因此对ω自动机确定化的研究具有重要意义. 我们主要关注一类ω自动机——Streett自动机的确定化. 非确定性Streett自动机可以转换为等价的确定性Rabin或Parity自动机, 在前期工作中已经分别得到了状态复杂度最优以及渐进最优算法, 为了验证提出的算法的实际效果, 也为了形象地展示确定化过程, 开发一款支持Streett自动机确定化的工具是必要的. 首先介绍4种不同的Streett确定化结构: μ-Safra tree和H-Safra tree (最优)将Streett确定化为Rabin自动机, compact Streett Safra tree和LIR-H-Safra tree (渐进最优)将Streett确定化为Parity自动机; 然后, 根据Streett确定化算法, 基于开源工具GOAL (graphical tool for omega-automata and logics), 实现了Streett确定化工具NS2DR&PT, 以支持上述4种结构; 最后, 通过随机生成100个Streett自动机, 构造相应的测试集, 进行对比实验, 结果表明各结构状态复杂度的实际效果与理论论证一致, 此外, 对运行效率也进行了比较分析.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006595
    [摘要] (466) [HTML] (0) [PDF 4.84 M] (1051)
    摘要:
    ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术, 并命名为ARM Helium, 声明能为ARM Cortex-M处理器提升达15倍的机器学习性能. 随着物联网的高速发展, 微处理器指令执行正确性尤为重要. 指令集的官方手册作为芯片模拟程序, 片上应用程序开发的依据, 是程序正确性基本保障. 主要介绍利用可执行语义框架K Framework对ARMv8.1-M官方参考手册中向量化机器学习指令的语义正确性研究. 基于ARMv8.1-M的官方参考手册自动提取指令集中描述向量化机器学习指令执行过程的伪代码, 并将其转换为形式化语义转换规则. 通过K Framework提供的可执行框架利用测试用例, 验证机器学习指令算数运算执行的正确性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006612
    [摘要] (619) [HTML] (0) [PDF 19.88 M] (1177)
    摘要:
    可信执行环境的安全问题一直受到国内外学者的关注. 利用内存标签技术可以在可信执行环境中实现更细粒度的内存隔离和访问控制机制, 但已有方案往往依赖于测试或者经验分析表明其有效性, 缺乏严格的正确性和安全性保证. 针对内存标签实现的访问控制提出了通用的形式化模型框架, 并提出了一种基于模型检测的访问控制安全性分析方法. 首先, 利用形式化方法构建了基于内存标签的可信执行环境访问控制通用模型框架, 给出访问控制实体的形式化定义, 定义的规则包括访问控制规则和标签更新规则; 然后利用形式化语言B以递增的方式设计并实现了该框架的抽象机模型, 通过不变式约束形式化描述了模型的基本性质; 再次以可信执行环境的一个具体实现TIMBER-V为应用实例, 通过实例化抽象机模型构建TIMBER-V访问控制模型, 添加安全性质规约并运用模型检测验证了模型的功能正确性和安全性; 最后模拟了具体攻击场景并实现攻击检测, 评估结果表明了提出的安全性分析方法的有效性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006538
    [摘要] (659) [HTML] (0) [PDF 1.82 M] (1194)
    摘要:
    现有恶意软件相似性度量易受混淆技术影响, 同时缺少恶意软件间复杂关系的表征能力, 提出一种基于多重异质图的恶意软件相似性度量方法RG-MHPE (API relation graph enhanced multiple heterogeneous ProxEmbed)解决上述问题. 方法首先利用恶意软件动静态特征构建多重异质图, 然后提出基于关系路径的增强型邻近嵌入方法, 解决邻近嵌入无法应用于多重异质图相似性度量的问题. 此外, 从MSDN网站的API文档中提取知识, 构建API关系图, 学习Windows API间的相似关系, 有效减缓相似性度量模型老化速度. 最后, 通过对比实验验证所提方法RG-MHPE在相似性度量性能和模型抗老化能力等方面表现最好.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006593
    [摘要] (702) [HTML] (0) [PDF 8.51 M] (1271)
    摘要:
    近年来, 深度强化学习在序列决策领域被广泛应用并且效果良好, 尤其在具有高维输入、大规模状态空间的应用场景中优势明显. 然而, 深度强化学习相关方法也存在一些局限, 如缺乏可解释性、初期训练低效与冷启动等问题. 针对这些问题, 提出了一种基于显式知识推理和深度强化学习的动态决策框架, 将显式的知识推理与深度强化学习结合. 该框架通过显式知识表示将人类先验知识嵌入智能体训练中, 让智能体在强化学习中获得知识推理结果的干预, 以提高智能体的训练效率, 并增加模型的可解释性. 将显式知识分为两种, 即启发式加速知识与规避式安全知识. 前者在训练初期干预智能体决策, 加快训练速度; 而后者将避免智能体作出灾难性决策, 使其训练过程更为稳定. 实验表明, 该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率, 并增加了模型的可解释性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006552
    [摘要] (594) [HTML] (0) [PDF 3.59 M] (1068)
    摘要:
    随着新兴技术的迅速发展, 领域软件对开发效率提出了新的要求. Datalog语言作为一门具有简洁语法和良好语义的声明式编程语言, 能帮助开发人员快速开发和解决问题, 近年来越来越受到重视与欢迎. 但解决真实场景问题时, 现有的单机Datalog引擎计算规模往往受限于内存容量大小, 不具有可扩展性. 为解决上述问题, 设计并实现了基于核外计算的Datalog引擎. 方法首先设计了一系列计算Datalog程序所需的支持核外计算的操作算子, 然后将Datalog程序转换合成带核外计算算子的C++程序, 接着方法设计了基于Hash的分区策略和基于搜索树剪枝的最少置换调度策略, 将相应的分区文件调度执行计算并得到最终结果. 基于该方法, 实现了原型工具DDL (disk-based Datalog engine), 并选取广泛应用的真实Datalog程序, 在合成数据集以及真实数据集上进行实验, 实验结果体现了DDL良好性能以及高可扩展性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006618
    [摘要] (490) [HTML] (0) [PDF 6.54 M] (863)
    摘要:
    数据竞争是多线程程序的常见漏洞之一, 传统的数据竞争分析方法在查全率和准确率方面难以两全, 而且所生成检测报告难以定位漏洞的根源. 鉴于Petri网在并发系统建模和分析方面具有行为描述精确、分析工具丰富的优点, 提出一种基于Petri网展开的新型数据竞争检测方法. 首先, 对程序的某一运行轨迹进行分析和挖掘, 构建程序的一个Petri网模型, 它由单一轨迹挖掘得到, 却可隐含程序的多个不同运行轨迹, 由此可在保证效率的同时降低传统动态分析方法的漏报率; 其次, 提出基于Petri网展开的潜在数据竞争检测方法, 相比静态分析方法在有效性上有较大提升, 而且能明确给出数据竞争的产生路径; 最后, 对上一阶段检测到的潜在数据竞争, 给出基于CalFuzzer平台的潜在死锁重演调度方法, 可剔除误报, 保证数据竞争检测结果的真实性. 开发相应的原型系统, 结合公开的程序实例验证了所提方法的有效性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006558
    [摘要] (702) [HTML] (0) [PDF 10.65 M] (966)
    摘要:
    特征请求是软件产品的真实用户在开放平台上提出的对现有特征的改进或者对新特征的请求. 特征请求在一定程度上反映了用户的真实意愿, 代表了用户的需求. 高效、准确地分析和处理用户特征请求对于提升用户满意度、提高产品竞争力起着至关重要的作用. 用户的广泛参与, 使得特征请求成为越来越重要的需求来源. 然而, 特征请求在其来源、内容以及形式等方面均与传统的软件需求不同. 进而将其充分应用于软件开发过程所采用的具体方法, 也有别于传统的需求工程. 目前已经有许多将特征请求应用于软件开发过程中的相关研究, 比如特征请求的获取、分类、排序、质量评估、为特征请求推荐开发者, 以及定位相关代码等. 随着相关工作的不断增加, 形成一个针对特征请求分析与处理研究综述的必要性日益增强. 因此, 调研了121篇关于在软件开发过程中分析和处理特征请求的国内外学术研究论文, 从将特征请求应用于软件开发过程的角度对现有成果进行了系统地梳理. 总结了现有针对特征请求的研究主题, 提出了将特征请求应用于软件开发过程的处理流程, 并与传统的需求工程过程进行对比. 此外, 深入分析了在各个需求工程活动中使用的具体方法及方法之间的差别. 最后, 对特征请求的未来研究方向进行了展望, 以期为同行研究人员提供参考.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006592
    [摘要] (1406) [HTML] (0) [PDF 4.38 M] (2348)
    摘要:
    近年来, 人工智能技术突飞猛进, 人工智能系统已经渗透到人们生活中, 成为人们生活中不可或缺的一部分. 然而, 人工智能系统需要数据训练模型, 数据扰动会对其结果造成影响. 并且随着人工智能系统业务多样化, 规模复杂化, 人工智能系统的可信性愈发受到人们的关注. 首先, 在梳理不同组织和学者提出的人工智能系统可信属性基础上, 提出了人工智能系统的9个可信属性; 接着, 从数据可信性、模型可信性和结果可信性分别介绍现有的人工智能系统数据、模型、结果可信性度量方法, 设计了人工智能系统可信证据收集方法. 其次, 总结当前人工智能系统的可信度量评估理论与方法. 然后, 结合基于属性的软件可信评估方法与区块链技术, 建立了一个人工智能系统可信度量评估框架, 包括可信属性分解及可信证据获取方法、联邦式可信度量模型与以及基于区块链的人工智能系统可信度量评估架构. 最后, 讨论人工智能系统可信度量技术面临的机遇和挑战.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006351
    [摘要] (518) [HTML] (0) [PDF 1.06 M] (1047)
    摘要:
    如何在社交媒体上检测数据流中的突发事件是自然语言处理中的一个热门研究主题,但是,当前用于提取突发事件的方法存在精度低和效率低的问题.为了解决这些问题,本文提出一种基于词相关性特征的突发事件检测方法,能从社会网络数据流中快速地检测出突发事件,以便相关的决策者可以及时有效地采取相关措施进行处理,使突发事件的负面影响能够被尽量降低,维护社会的安定.首先,通过噪声过滤和情绪过滤,我们得到了充满负面情绪的微博文本.然后,根据时间信息,对微博数据进行时间切片,计算每个时间窗口中该数据的每个单词的单词频率特征、用户影响力和单词频率增长率特征,运用突发度计算方法来提取突发词;根据word2vec模型合并相似词,利用突发词的特征相似性构成突发词关系图.最后,运用多归属谱聚类算法对单词关系图进行最优划分,并在时间窗滑过时关注异常词语,通过子图中词语突发度的变化而引起的结构变化对突发事件进行判断.由实验结果知,突发事件检测方法在实时博文数据流中具有很好的事件检测效果,与已有的方法相比,本文提出的突发事件检测方法可以满足突发事件检测的需求,不仅能检测到子事件的详细信息,而且事件的相关信息也能被准确地检测出来.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2754) [HTML] (0) [PDF 525.21 K] (4442)
    摘要:
    Data race is a major source of concurrency bugs. Dynamic data race detection tools (e.g., FastTrack) monitor the execu-tions of a program to report data races occurring in runtime. However, such tools incur significant overhead that slows down and perturbs executions. To address the issue, the state-of-the-art dynamic data race detection tools (e.g., LiteRace) ap-ply sampling techniques to selectively monitor memory access-es. Although they reduce overhead, they also miss many data races as confirmed by existing studies. Thus, practitioners face a dilemma on whether to use FastTrack, which detects more data races but is much slower, or LiteRace, which is faster but detects less data races. In this paper, we propose a new sam-pling approach to address the major limitations of current sampling techniques, which ignore the facts that a data race involves two threads and a program under testing is repeatedly executed. We develop a tool called AtexRace to sample memory accesses across both threads and executions. By selectively monitoring the pairs of memory accesses that have not been frequently observed in current and previous executions, AtexRace detects as many data races as FastTrack at a cost as low as LiteRace. We have compared AtexRace against FastTrack and LiteRace on both Parsec benchmark suite and a large-scale real-world MySQL Server with 223 test cases. The experiments confirm that AtexRace can be a replacement of FastTrack and LiteRace.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2727) [HTML] (0) [PDF 352.38 K] (5601)
    摘要:
    It is difficult to fix atomicity violations correctly. Existing gate lock algorithm (GLA) simply inserts gate locks to serialize exe-cutions, which may introduce performance bugs and deadlocks. Synthesized context-aware gate locks (by Grail) require complex source code synthesis. We propose ?Fixer to adaptively fix ato-micity violations. It firstly analyses the lock acquisitions of an atomicity violation. Then it either adjusts the existing lock scope or inserts a gate lock. The former addresses cases where some locks are used but fail to provide atomic accesses. For the latter, it infers the visibility (being global or a field of a class/struct) of the gate lock such that the lock only protects related accesses. For both cases, ?Fixer further eliminates new lock orders to avoid introducing deadlocks. Of course, ?Fixer can produce both kinds of fixes on atomicity violations with locks. The experi-mental results on 15 previously used atomicity violations show that: ?Fixer correctly fixed all 15 atomicity violations without introducing deadlocks. However, GLA and Grail both intro-duced 5 deadlocks. HFix (that only targets on fixing certain types of atomicity violations) only fixed 2 atomicity violations and introduced 4 deadlocks. ?Fixer also provides an alternative way to insert gate locks (by inserting gate locks with proper visibility) considering fix acceptance.
    优先出版日期:  2017-09-11 , DOI:
    [摘要] (3177) [HTML] (0) [PDF 276.42 K] (2599)
    摘要:
    对Github上Python科学计算软件生态系统中的跨项目关联缺陷进行了实证分析,聚焦于开发者对缺陷根源的追踪和上下游项目开发者修复缺陷的协作。通过定性和定量的分析,揭示了影响这类缺陷定位与修复的因素,以及开发者应对它们的常见行为。
    优先出版日期:  2017-06-21 , DOI:
    [摘要] (3240) [HTML] (0) [PDF 169.43 K] (2719)
    摘要:
    Numerical instability is a well-known problem that may cause serious runtime failures. This paper discusses the reason of instability in software development process, and presents a toolchain that not only detects the potential instability in software, but also diagnoses the reason for such instability. We classify the reason of instability into two categories. When it is introduced by software requirements, we call the instability caused by problem. In this case, it cannot be avoided by improving software development, but requires inspecting the requirements, especially the underlying mathematical properties. Otherwise, we call the instability caused by practice. We design our toolchain as 4 loosely-coupled tools, which combine stochastic arithmetic with infinite-precision testing. Each tool in our toolchain can be configured with different strategies according to the properties of the analyzed software. We evaluate our toolchain on subjects from literature. The results show that it effectively detects and separates the instabilities caused by problems from others. We also conduct an evaluation on the latest version of GNU Scientific Library, and the toolchain finds a few real bugs in the well-maintained and widely deployed numerical library. With the help of our toolchain, we report the details and fixing advices to the GSL buglist.
    优先出版日期:  2017-06-13 , DOI:
    [摘要] (4439) [HTML] (0) [PDF 174.91 K] (3148)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-25 , DOI:
    [摘要] (3318) [HTML] (0) [PDF 254.98 K] (2518)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-18 , DOI:
    [摘要] (3774) [HTML] (0) [PDF 472.29 K] (2472)
    摘要:
    Software should behave correctly even in adverse conditions. Particularly, we study the problem of automated validation of crash consistency, i.e., file system data safety when systems crash. Existing work requires non-trivial manual efforts of specifying checking scripts and workloads, which is an obstacle for software developers. Therefore, we propose C3, a novel approach that makes crash consistency validation as easy as pressing a single button. With a program and an input, C3 automatically reports inconsistent crash sites. C3 not only exempts developers from the need of writing crash site checking scripts (by an algorithm that computes editing distance between file system snapshots) but also reduces the reliance on dedicated workloads (by test amplification). We implemented C3 as an open-source tool. With C3, we found 14 bugs in open-source software that have severe consequences at crash and 11 of them were previously unknown to the developers, including in highly mature software (e.g., GNU zip and GNU coreutils sort) and popular ones being actively developed (e.g., Adobe Brackets and TeXstudio).
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3550) [HTML] (0) [PDF 293.93 K] (2303)
    摘要:
    本文提出了一种可部署的数据竞争动态采样检测技术,首先提出了基于线程本地时序的数据竞争定义,之后基于硬件断点进行采样检测。在采样率为1%时,时间开销约为5%,且有效性得以保证。
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3881) [HTML] (0) [PDF 244.61 K] (2607)
    摘要:
    在软件开发过程中,软件更新时常发生,怎样保证软件更新后的软件质量呢?这就是回归测试的任务。传统上,回归测试通过检测软件异常行为来保证软件质量。然而,在实践中所有的软件行为不可能全部被检测到,尤其针对于大型的复杂软件系统。为帮助开发人员更好的进行回归测试,传统工作集中在增加测试用例上,即通过人工或自动生成测试输入的方法,观测测试输出以捕获程序行为。这种方法虽一定程度上有效,但也存在很大缺陷:人工编写测试用例费时费力,不能覆盖的代码较多,而且容易受人主观判断的误导(例如忽略某些特别容易存在缺陷的类、方法等);自动生成测试用例技术存在很多问题,例如代价大和无法很好的处理数组、字符串等。基于目前软件测试技术存在的缺陷,很多软件不得不在面临诸多安全威胁的状态下发布,有时甚至造成重大财产损失甚至人员伤亡。因此,我们迫切需要新技术来辅助现有技术以更好的进行回归测试、保障软件质量。
    优先出版日期:  2016-12-12 , DOI:
    [摘要] (3422) [HTML] (0) [PDF 358.69 K] (2622)
    摘要:
    在程序分析中,循环(Loop)的处理与分析是一个非常重要而且很有挑战的任务。例如,在符号执行(Symbolic Execution)中,循环的不断展开会导致程序路径数量指数级地增长。因此,符号执行通常会陷入不停的循环展开,而不能覆盖到新的程序分支上,最终影响了测试用例生成或者缺陷检测的效率。
    优先出版日期:  2016-09-30 , DOI:
    摘要:
    在软件测试中,测试预言是一种判断程序在给定测试输入下的执行结果是否符合预期的机制。测试预言通常由在测试中需要被观测的变量以及这些变量的预期值组成。对于相同的测试输入,不同的测试预言可能有不同的缺陷检测能力。因此,高质量的测试预言对于检测软件中的缺陷是非常必要的。在已有的研究中,虽然研究人员提出了各种各样的自动化测试输入生成技术,但是测试预言问题仍然被公认为是软件测试中最难解决的问题之一。
    优先出版日期:  2016-09-09 , DOI:
    [摘要] (3897) [HTML] (0) [PDF 313.52 K] (191)
    摘要:
    本文基于众测平台,提出了一种基于局部的主动学习方法,能够将众测报告中的缺陷进行自动分类,该方法解决了众测报告分类中的局部偏见问题、及缺少历史训练数据的问题,并基于实际的众测数据进行了验证。
    优先出版日期:  2016-09-07 , DOI:
    [摘要] (4330) [HTML] (0) [PDF 231.98 K] (114)
    摘要:
    并发缺陷是由于某些事件按照一定的顺序发生而导致的,本文提出了一种基于缺陷半径的并发缺陷的概率检测方法RPro,并用于死锁的检测,且有概率保证。实验表明该方法可以显著提高死锁的检测概率。
    优先出版日期:  2016-08-29 , DOI:
    摘要:
    当公司投入资源到开源社区,其诉求可能跟开放共享的开源开发方法存在冲突,继而影响自由贡献者.因此我们研究:公司参与会对开源社区带来怎样的影响?面向三个技术同构的混合项目,我们总结了三个商业参与模型,并量化了不同模型对贡献者稳定性和持续性的影响.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (36565) [HTML] (0) [PDF 832.28 K] (77479)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2010,21(3):427-437, DOI:
    [摘要] (32280) [HTML] (0) [PDF 308.76 K] (36664)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (29203) [HTML] (0) [PDF 781.42 K] (52114)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (28437) [HTML] (1418) [PDF 880.96 K] (28369)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2009,20(5):1337-1348, DOI:
    [摘要] (27515) [HTML] (0) [PDF 1.06 M] (42954)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2008,19(1):48-61, DOI:
    [摘要] (27345) [HTML] (0) [PDF 671.39 K] (59273)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2009,20(2):271-289, DOI:
    [摘要] (26433) [HTML] (0) [PDF 675.56 K] (41036)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2005,16(1):1-7, DOI:
    [摘要] (21606) [HTML] (0) [PDF 614.61 K] (19095)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2004,15(3):428-442, DOI:
    [摘要] (20192) [HTML] (0) [PDF 1009.57 K] (15255)
    摘要:
    随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务成为电子商务的有效解决方案.Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制.Web服务的新型构架,Web服务的高效执行方式,Web服务与其他成熟技术的有机结合以及Web服务的集成是解决现实应用问题的重要技术.从Web服务研究的不同侧面对其进行了综述,阐述了Web服务的基本概念,分析了当前Web服务的主要研究问题及其核心支撑技术,概括了Web服务中的数据集成技术、Web服务的组合、语义Web服务、Web服务发现,Web服务安全,P2P(Peer-to-Peer)新型计算环境下的Web服务解决方案和网格服务等方面的研究内容,并对这些技术进行了总结,结合已有的研究成果,展望了Web服务未来的研究方向及其面临的挑战.
    2010,21(8):1834-1848, DOI:
    [摘要] (19736) [HTML] (0) [PDF 682.96 K] (53210)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2005,16(5):857-868, DOI:
    [摘要] (19515) [HTML] (0) [PDF 489.65 K] (28309)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2009,20(1):54-66, DOI:
    [摘要] (19084) [HTML] (0) [PDF 1.41 M] (48057)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (18241) [HTML] (0) [PDF 2.09 M] (29240)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (18200) [HTML] (0) [PDF 408.86 K] (28817)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2009,20(3):524-545, DOI:
    [摘要] (17083) [HTML] (0) [PDF 1.09 M] (20569)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2009,20(1):124-137, DOI:
    [摘要] (16514) [HTML] (0) [PDF 1.06 M] (20589)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(11):2965-2976, DOI:
    [摘要] (16118) [HTML] (0) [PDF 442.42 K] (13854)
    摘要:
    研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.
    2004,15(8):1208-1219, DOI:
    [摘要] (16117) [HTML] (0) [PDF 948.49 K] (12442)
    摘要:
    随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,网络蠕虫成为恶意代码研究中的首要课题.首先综合论述网络蠕虫的研究概况,然后剖析网络蠕虫的基本定义、功能结构和工作原理,讨论网络蠕虫的扫描策略和传播模型,归纳总结目前防范网络蠕虫的最新技术.最后给出网络蠕虫研究的若干热点问题与展望.
    2009,20(5):1226-1240, DOI:
    [摘要] (15934) [HTML] (0) [PDF 926.82 K] (14868)
    摘要:
    对几种智能规划方法中利用的逻辑演绎与推理技术予以分析,分别介绍利用命题逻辑的基于可满足性的规划方法与规划系统,利用模态逻辑与析取推理的Conformant规划方法与规划系统,利用非单调逻辑的规划方法和利用模糊描述逻辑的Flexible规划方法,并结合国际规划竞赛和相关论文等的实验结论说明上述方法的有效性和可行性.最后,提出目前基于自动推理技术的智能规划方法所面临的挑战、可能的处理方法以及与之相关的研究热点与趋势.
    2003,14(10):1717-1727, DOI:
    [摘要] (15798) [HTML] (0) [PDF 839.25 K] (13180)
    摘要:
    传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到这些信息的用户.传感器网络是计算机科学技术的一个新的研究领域,具有十分广阔的应用前景,引起了学术界和工业界的高度重视.介绍了传感器网络及其数据管理的概念和特点,探讨了传感器网络及其数据管理的研究问题,并综述了传感器网络及其数据管理的研究现状.
    2009,20(2):350-362, DOI:
    [摘要] (15705) [HTML] (0) [PDF 1.39 M] (38109)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (15309) [HTML] (1249) [PDF 1.04 M] (23627)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (15037) [HTML] (1359) [PDF 1.32 M] (17671)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2009,20(10):2729-2743, DOI:
    [摘要] (14203) [HTML] (0) [PDF 1.12 M] (9929)
    摘要:
    基于多跳的无线传感器网络,越靠近sink的传感器节点因需要转发更多的数据,其能量消耗就越快,从而在sink周围形成了一种称为“能量洞”的现象.“能量洞”问题会导致整个网络由于内部节点能量过早耗尽而结束寿命,同时,网络中离sink较远的节点仍有大量能量剩余.研究“能量洞”现象,基于改进的分级环模型,总结出调节各环内节点的数据传输距离是实现网络节能的有效方法.证明搜索各区域最优的传输距离是一个多目标优化问题,即是NP难问题.从而提出一种基于蚁群优化的分布式算法,各区域根据其节点分布情况自适应地探索近似最优的传输距离,延长网络寿命.模拟实验结果表明,该算法在较短的时间内能够收敛到合理的解,并且得到的网络寿命接近于理想情况下的最优时间,与现有的类似算法相比,该算法提供了更长的网络寿命,并能适用于非均匀节点分布情况.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (13996) [HTML] (0) [PDF 1017.73 K] (28910)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (13959) [HTML] (0) [PDF 946.37 K] (16011)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2000,11(11):1460-1466, DOI:
    [摘要] (13850) [HTML] (0) [PDF 520.69 K] (10242)
    摘要:
    入侵检测是近年来网络安全研究的热 点.首先说明入侵检测的必要性,并给出入侵检测的概念和模型,概述了多种入侵检测方法及 体系结构.最后,讨论了该领域当前存在的问题及今后的研究方向.
    2013,24(8):1786-1803, DOI:10.3724/SP.J.1001.2013.04416
    [摘要] (13563) [HTML] (0) [PDF 1.04 M] (15181)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2004,15(4):571-583, DOI:
    [摘要] (13468) [HTML] (0) [PDF 1005.17 K] (8874)
    摘要:
    在诸如文件共享等无中心的Peer-to-Peer环境中,资源共享是用户自愿的行为.在这类系统中,由于用户不为自身的行为担负(法律)责任,因而节点间的信任关系往往很难通过传统的信任机制建立.一种更合理的考虑是参考人际网络中基于推荐的信任关系建立方法.现有的模型不能很好地解决模型的迭代收敛性问题,同时缺乏对诸如冒名、诋毁等安全性问题的考虑.针对上述问题,在节点推荐的基础上提出了一种基于Peer-to-Peer环境的信任模型,并给出了该模型的数学分析和分布式实现方法.分析及仿真表明,该信任模型较已有模型在迭代的收敛性、模型的安全性等问题上有较大改进.
    2006,17(7):1588-1600, DOI:
    [摘要] (13390) [HTML] (0) [PDF 808.73 K] (13315)
    摘要:
    在无线传感器网络体系结构中,网络层的路由技术至关重要.分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,成为当前重点研究的路由技术.分析了无线传感器网络分簇路由机制,着重从簇头的产生、簇的形成和簇的路由角度系统地描述了当前典型的分簇路由算法,并比较和分析了这些算法的特点和适用情况.最后结合该领域当前研究现状,指出分簇路由算法未来的研究重点.
    2002,13(7):1228-1237, DOI:
    [摘要] (13376) [HTML] (0) [PDF 500.04 K] (12822)
    摘要:
    近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的软件体系结构概念之后,给出了软件体系结构的定义.通过总结软件体系结构领域的若干研究活动,提出了软件体系结构研究的两大思路,并从7个方面介绍了软件体系结构研究进展.探讨了软件体系结构研究中的不足之处,并分析其原因.作为总结,给出了软件体系结构领域最有前途的发展趋势.
    2008,19(zk):112-120, DOI:
    [摘要] (13367) [HTML] (0) [PDF 594.29 K] (13587)
    摘要:
    无线移动Ad Hoc网络是一种不依赖任何固定基础设施的移动无线多跳网络.由于其动态性和资源的限制,在Ad Hoc网络中提供多路径路由是一个重要的研究课题.描述了一种Ad Hoc网络中基于信息熵选择的稳定多路径路由算法(stability multipath on-demand routing,简称SMDR),提出了路径熵的度量参数,并利用路径熵来选择稳定的、长寿命的多路径,减少了重构路由的次数,从而在网络拓扑频繁变化的Ad Hoc网络环境中较好地提供QoS保证和提高数据传输率.仿真结果表明,SMDR协议改进了分组传输率、端到端时延和路由负载率.SMDR协议为解决动态的Ad Hoc网络多路径传输提供了一种新的有效途径.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (13302) [HTML] (0) [PDF 845.91 K] (26510)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2009,20(1):11-29, DOI:
    [摘要] (13246) [HTML] (0) [PDF 787.30 K] (13116)
    摘要:
    约束优化问题是科学和工程应用领域经常会遇到的一类数学规划问题.近年来,约束优化问题求解已成为进化计算研究的一个重要方向.从约束优化进化算法=约束处理技术+进化算法的研究框架出发,从约束处理技术和进化算法两个基本方面对约束优化进化算法的研究及进展进行了综述.此外,对约束优化进化算法中的一些重要问题进行了探讨.最后进行了各种算法的比较性总结,深入分析了目前约束优化进化算法中亟待解决的问题,并指出了值得进一步研究的方向.
    2015,26(1):26-39, DOI:10.13328/j.cnki.jos.004631
    [摘要] (13124) [HTML] (1388) [PDF 763.52 K] (13330)
    摘要:
    近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
    2013,24(1):50-66, DOI:10.3724/SP.J.1001.2013.04276
    [摘要] (13087) [HTML] (0) [PDF 0.00 Byte] (15469)
    摘要:
    作为云平台提升应用性能的一种重要手段,分布式缓存技术近年来受到了工业界和学术界的广泛关注.从云计算与分布式缓存技术的结合入手,分析介绍了分布式缓存的特性、典型应用场景、发展阶段、相关标准规范以及推动缓存技术发展的若干关键要素.为系统地了解分布式缓存技术的现状和不足,建立了一个云环境下分布式缓存技术的分析框架——DctAF.该框架从分析云计算的特点和缓存技术的边界出发,涵盖6个分析维度.基于DctAF框架,对当前缓存技术进行总结和分析,并对典型系统进行比较.在此基础上,深入阐述了云环境下分布式缓存系统面临的挑战;围绕上述挑战,分析和比较了已有的研究工作.
    2003,14(9):1621-1628, DOI:
    [摘要] (12831) [HTML] (0) [PDF 680.35 K] (18187)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2008,19(8):1902-1919, DOI:
    [摘要] (12788) [HTML] (0) [PDF 521.73 K] (12600)
    摘要:
    可视化语言技术比一维文本语言在描述软件组成方面具有优越性.由于图表和图形概念在系统建模中的广泛使用,可视化语言可以应用于需求分析、设计、测试和维护等软件开发的各个阶段.除了具有直观易见的特点之外,图文法在计算机上的精确建模和验证能力,为设计可视化语言提供了一个坚实的理论基础.讨论了可视化语言的形式理论基础,回顾了相关的可视化图形编程环境.特别提出了一种空间图文法,并且用该图文法定义了统一建模语言的行为语义.基于空间图文法,开发了一种基于模式驱动的框架,以帮助软件架构与设计.
    2008,19(8):1947-1964, DOI:
    [摘要] (12723) [HTML] (0) [PDF 811.11 K] (8957)
    摘要:
    设计与实现面向领域应用的交互式信息可视化软件十分困难.缺乏统一的开发方法与支撑工具箱,为非专家用户提供对层次、网络、多维等数据类型的统一支持,对各种可视化技术与交互技术的统一支持,以及对信息可视化任务的统一支持.针对此问题,提出了一种模型驱动的交互式信息可视化开发方法Daisy.首先,提出了交互式信息可视化界面模型IIVM(interactive information visualization interface model);然后,提出了基于IIVM的交互式信息可视化开发方法Daisy,讨论了该方法的两个核心技术:IIVM建模与描述文件生成方法、系统自动生成方法.同时,给出了Daisy工具箱,包括Daisy建模工具、Daisy系统自动生成工具以及运行时框架与组件库.最后,给出了该开发方法与工具箱的应用实例.实例表明,该方法能够为交互式信息可视化开发的统一支撑方法问题提供一种有效的解决方案.
    2002,13(10):1952-1961, DOI:
    [摘要] (12664) [HTML] (0) [PDF 570.96 K] (10695)
    摘要:
    对个性化服务技术中用户描述文件的表达与更新、资源描述文件的表达、个性化推荐技术、个性化服务体系结构以及该领域的主要研究成果进行了综述.通过比较现有原型系统的实现方式,详细讨论了实现个性化服务的关键技术.此外,分析了3个具有代表性的个性化服务系统.最后对个性化服务技术进一步研究工作的方向进行了展望.
    2003,14(9):1635-1644, DOI:
    [摘要] (12626) [HTML] (0) [PDF 622.06 K] (10842)
    摘要:
    计算机取证研究的是如何为调查计算机犯罪提供彻底、有效和安全的技术.其关键是确保证据的真实性、可靠性、完整性和符合法律规定.介绍了计算机取证的过程以及取证软件的原理和实现,并且给出完整的取证实例.从理论和实现两个方面讨论了现有取证技术的局限性和面临的挑战,并展望其未来的发展方向.由于计算机犯罪手段的变化和其他技术的引入,现有的取证工作将向着深入和综合的方向发展.
    2010,21(2):231-247, DOI:
    [摘要] (12550) [HTML] (0) [PDF 1.21 M] (15174)
    摘要:
    通过分析服务组合的故障需求,给出服务组合故障处理的框架.该框架采用Petri网来解决服务组合的错误发现及其处理问题.重点讨论了可用服务失败、组件失败及网络故障的情况,并相应地给出了服务组合故障模型.在此基础上对故障处理模型进行分析,给出服务组合故障处理正确性准则,并证明了其正确性.最后,采用CTL (computational tree logic)描述相关性质并提出验证服务组合故障分析的实施算法.仿真结果表明,该方法在处理服务组合故障时具有一定的优越性.
    2012,23(1):82-96, DOI:10.3724/SP.J.1001.2012.04101
    [摘要] (12503) [HTML] (0) [PDF 394.07 K] (13176)
    摘要:
    以僵尸网络为载体的各种网络攻击活动是目前互联网所面临的最为严重的安全威胁之一.虽然近年来这方面的研究取得了显著的进展,但是由于僵尸网络不断演化、越来越复杂和隐蔽以及网络和系统体系结构的限制给检测和防御带来的困难,如何有效应对僵尸网络的威胁仍是一项持续而具有挑战性的课题.首先从僵尸网络的传播、攻击以及命令与控制这3 个方面介绍了近年来僵尸网络工作机制的发展,然后从监测、工作机制分析、特征分析、检测和主动遏制这5 个环节对僵尸网络防御方面的研究进行总结和分析,并对目前的防御方法的局限、僵尸网络的发展趋势和进一步的研究方向进行了讨论.
    2010,21(7):1620-1634, DOI:
    [摘要] (12245) [HTML] (0) [PDF 765.23 K] (18633)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2017,28(1):1-16, DOI:10.13328/j.cnki.jos.005139
    [摘要] (12214) [HTML] (1486) [PDF 1.75 M] (7467)
    摘要:
    背包问题(knapsack problem,简称KP)是一类著名的组合优化问题,也是一类NP难问题,它包括0-1背包问题、有界背包问题、多维背包问题、多背包问题、多选择背包问题、二次背包问题、动态背包问题和折扣背包问题等多种形式,在众多领域有着广泛的应用.演化算法(EAs)是一类有效的快速近似求解KP的算法.对近10余年来利用EAs求解KP的研究情况进行了较为详细的总结,一方面讨论了利用EAs求解各种KP问题时个体的编码方法与处理不可行解的有效方法,另一方面,为今后进一步利用最新提出的EAs求解KP问题提供了一条可借鉴的思路.
    2008,19(7):1565-1580, DOI:
    [摘要] (12182) [HTML] (0) [PDF 815.02 K] (14806)
    摘要:
    软件缺陷预测技术从20世纪70年代发展至今,一直是软件工程领域最活跃的内容之一,在分析软件质量、平衡软件成本方面起着重要的作用.研究和讨论了软件缺陷预测技术的起源、发展和当前所面临的挑战,对主流的缺陷预测技术进行了分类讨论和比较,并对典型的软件缺陷的分布模型给出了案例研究.
    2010,21(5):916-929, DOI:
    [摘要] (11987) [HTML] (0) [PDF 944.50 K] (16163)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2008,19(10):2706-2719, DOI:
    [摘要] (11937) [HTML] (0) [PDF 778.29 K] (10649)
    摘要:
    Web搜索引擎已经成为人们从海量Web信息中快速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求.随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的Web搜索技术并迅速成为研究热点.研究的目的是对现有的基于P2P的Web搜索技术进行总结,以期为进一步研究指明方向.首先分析了基于P2P的Web搜索面临的诸多挑战;然后重点总结分析了基于P2P的Web搜索的各项关键技术的研究现状,包括系统拓扑结构、数据存放策略、查询路由机制、索引切分策略、数据集选择、相关性排序、网页收集方法等;最后对已有的3个较有特色的基于P2P的Web搜索原型系统进行了介绍.
    2006,17(9):1848-1859, DOI:
    [摘要] (11889) [HTML] (0) [PDF 770.40 K] (19571)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2004,15(12):1751-1763, DOI:
    [摘要] (11875) [HTML] (0) [PDF 928.33 K] (7093)
    摘要:
    报告了关于少儿图灵测试(CTT)的一项研究工作.研究区别于其他人的主要之处是该测试程序是基于知识的,它依靠一个海量常识知识库的支持.给出了作者研究少儿图灵测试的动机、设计、技术、实验结果和平台(包括一个知识引擎和一个会话引擎).最后给出了关于少儿图灵测试的几点研究结论和思考.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (36565) [HTML] (0) [PDF 832.28 K] (77479)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2008,19(1):48-61, DOI:
    [摘要] (27345) [HTML] (0) [PDF 671.39 K] (59273)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2010,21(8):1834-1848, DOI:
    [摘要] (19736) [HTML] (0) [PDF 682.96 K] (53210)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (29203) [HTML] (0) [PDF 781.42 K] (52114)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2009,20(1):54-66, DOI:
    [摘要] (19084) [HTML] (0) [PDF 1.41 M] (48057)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2009,20(5):1337-1348, DOI:
    [摘要] (27515) [HTML] (0) [PDF 1.06 M] (42954)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289, DOI:
    [摘要] (26433) [HTML] (0) [PDF 675.56 K] (41036)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2009,20(2):350-362, DOI:
    [摘要] (15705) [HTML] (0) [PDF 1.39 M] (38109)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2004,15(10):1493-1504, DOI:
    [摘要] (8873) [HTML] (0) [PDF 937.72 K] (37739)
    摘要:
    多年来计算机图形处理器(GP以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战.
    2010,21(3):427-437, DOI:
    [摘要] (32280) [HTML] (0) [PDF 308.76 K] (36664)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2013,24(11):2476-2497, DOI:10.3724/SP.J.1001.2013.04486
    [摘要] (9748) [HTML] (0) [PDF 1.14 M] (32655)
    摘要:
    概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
    2014,25(9):1889-1908, DOI:10.13328/j.cnki.jos.004674
    [摘要] (11282) [HTML] (1530) [PDF 550.98 K] (32345)
    摘要:
    首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (18241) [HTML] (0) [PDF 2.09 M] (29240)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (13996) [HTML] (0) [PDF 1017.73 K] (28910)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (18200) [HTML] (0) [PDF 408.86 K] (28817)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (28437) [HTML] (1418) [PDF 880.96 K] (28369)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2005,16(5):857-868, DOI:
    [摘要] (19515) [HTML] (0) [PDF 489.65 K] (28309)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2018,29(5):1471-1514, DOI:10.13328/j.cnki.jos.005519
    [摘要] (5194) [HTML] (1733) [PDF 4.38 M] (27827)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (13302) [HTML] (0) [PDF 845.91 K] (26510)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2013,24(1):77-90, DOI:10.3724/SP.J.1001.2013.04339
    [摘要] (10958) [HTML] (0) [PDF 0.00 Byte] (25138)
    摘要:
    任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (15309) [HTML] (1249) [PDF 1.04 M] (23627)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2017,28(4):959-992, DOI:10.13328/j.cnki.jos.005143
    [摘要] (8584) [HTML] (1687) [PDF 3.58 M] (21747)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2021,32(2):349-369, DOI:10.13328/j.cnki.jos.006138
    [摘要] (6351) [HTML] (2645) [PDF 2.36 M] (21132)
    摘要:
    小样本学习旨在通过少量样本学习到解决问题的模型.近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习的相关工作,具体来说介绍了基于模型微调、基于数据增强和基于迁移学习这3大类小样本学习模型与算法的研究进展;将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强这3类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络这3类;总结了目前常用的小样本数据集和代表性的小样本学习模型在这些数据集上的实验结果;随后对小样本学习的现状和挑战进行了概述;最后展望了小样本学习的未来发展方向.
    2011,22(6):1299-1315, DOI:10.3724/SP.J.1001.2011.03993
    [摘要] (10422) [HTML] (0) [PDF 987.90 K] (20823)
    摘要:
    由于属性基加密(attribute-based encryption,简称ABE)机制以属性为公钥,将密文和用户私钥与属性关联,能够灵活地表示访问控制策略,从而极大地降低了数据共享细粒度访问控制带来的网络带宽和发送结点的处理开销.因此,ABE 在细粒度访问控制领域具有广阔的应用前景.在对基本ABE 机制及其两种扩展:密钥-策略ABE(KP-ABE)和密文-策略ABE(CP-ABE)进行深入研究、分析后,针对ABE 中的CP-ABE 机制访问结构的设计、属性密钥撤销、ABE 的密钥滥用、多授权机构等难点问题进行了深入探讨和综合分析,对比了现有研究工作的功能及开销.最后讨论了ABE 未来需进一步研究的问题和主要研究方向.
    2009,20(1):124-137, DOI:
    [摘要] (16514) [HTML] (0) [PDF 1.06 M] (20589)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(3):524-545, DOI:
    [摘要] (17083) [HTML] (0) [PDF 1.09 M] (20569)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2006,17(9):1848-1859, DOI:
    [摘要] (11889) [HTML] (0) [PDF 770.40 K] (19571)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2004,15(11):1583-1594, DOI:
    [摘要] (8283) [HTML] (0) [PDF 1.57 M] (19336)
    摘要:
    在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式.研究了随机性和模糊性之间的关联性,统一用熵作为客观事物和主观认知中不确定状态的度量,用超熵来度量不确定状态的变化,并利用熵和超熵进一步研究了混沌、分形和复杂网络中的不确定性,以及由此带来的种种进化和变异,为实现不确定性人工智能找到了一种简单、有效的形式化方法,也为包括形象思维在内的不确定性思维的自动化打下了基础.不确定性人工智能是人工智能进入21世纪的新发展.这个由多学科交叉渗透构成的新学科,必将使得机器能够具备人脑一样的不确定性信息和知识的表示能力、处理能力和思维能力.
    2005,16(1):1-7, DOI:
    [摘要] (21606) [HTML] (0) [PDF 614.61 K] (19095)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2012,23(8):2058-2072, DOI:10.3724/SP.J.1001.2012.04237
    [摘要] (9741) [HTML] (0) [PDF 800.05 K] (18923)
    摘要:
    分布式拒绝服务(distributed denial of service,简称DDoS)攻击是当今互联网的重要威胁之一.基于攻击包所处网络层次,将DDoS 攻击分为网络层DDoS 攻击和应用层DDoS 攻击,介绍了两类攻击的各种检测和控制方法,比较了处于不同部署位置控制方法的优劣.最后分析了现有检测和控制方法应对DDoS 攻击的不足,并提出了DDoS 过滤系统的未来发展趋势和相关技术难点.
    2014,25(1):37-50, DOI:10.13328/j.cnki.jos.004497
    [摘要] (9277) [HTML] (1178) [PDF 929.87 K] (18650)
    摘要:
    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.
    2010,21(7):1620-1634, DOI:
    [摘要] (12245) [HTML] (0) [PDF 765.23 K] (18633)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2003,14(9):1621-1628, DOI:
    [摘要] (12831) [HTML] (0) [PDF 680.35 K] (18187)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2005,16(10):1743-1756, DOI:
    [摘要] (9650) [HTML] (0) [PDF 545.62 K] (18066)
    摘要:
    论述了可证明安全性理论在安全方案与安全协议的设计与分析中的应用,内容主要包括:什么是可证明安全性,可证明安全性理论涉及到的一些基本概念,RO(random oracle)模型方法论的基本思想及其在公钥加密和数字签名等方案中的应用研究进展,标准模型下可证明安全性理论在公钥加密和数字签名等方案中的应用研究进展,以及可证明安全性理论在会话密钥分配协议的设计与分析中的应用研究进展.
    2018,29(10):2966-2994, DOI:10.13328/j.cnki.jos.005551
    [摘要] (8280) [HTML] (2396) [PDF 610.06 K] (17874)
    摘要:
    近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
    2013,24(5):1078-1097, DOI:10.3724/SP.J.1001.2013.04390
    [摘要] (11456) [HTML] (0) [PDF 1.74 M] (17828)
    摘要:
    软件定义网络(software-defined networking,简称SDN)技术分离了网络的控制平面和数据平面,为研发网络新应用和未来互联网技术提供了一种新的解决方案.综述了基于OpenFlow 的SDN 技术发展现状,首先总结了逻辑控制和数据转发分离架构的研究背景,并介绍了其关键组件和研究进展,包括OpenFlow交换机、控制器和SDN技术,然后从4 个方面分析了基于OpenFlow 的SDN 技术目前所面临的问题和解决思路.结合近年来的发展现状,归纳了在校园网、数据中心以及面向网络管理和网络安全方面的应用,最后探讨了未来的研究趋势.
    2013,24(2):295-316, DOI:10.3724/SP.J.1001.2013.04336
    [摘要] (9650) [HTML] (0) [PDF 0.00 Byte] (17676)
    摘要:
    在新的应用模式下,传统层次结构数据中心网络在规模、带宽、扩展性和成本方面存在诸多不足.为了适应新型应用的需求,数据中心网络需要在低成本的前提下,满足高扩展性、低配置开销、健壮性和节能的要求.首先,概述了传统数据中心网络体系结构及其不足,并指出了新的需求;其次,将现有方案划分为两类,即以网络为中心和以服务器为中心的方案;然后,对两类方案中的代表性结构进行了详细的综述和对比分析;最后指出了数据中心网络未来的发展方向.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (15037) [HTML] (1359) [PDF 1.32 M] (17671)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2020,31(7):2245-2282, DOI:10.13328/j.cnki.jos.006037
    [摘要] (2518) [HTML] (1592) [PDF 967.02 K] (17112)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2010,21(7):1605-1619, DOI:
    [摘要] (9673) [HTML] (0) [PDF 856.25 K] (17066)
    摘要:
    随着Internet规模的迅速扩大,复杂性和不确定性也随之增加,基于融合的网络态势感知必将成为网络管理的发展方向.在分析现有网络管理不足以及发展需求的基础上,介绍了网络态势感知的起源、概念、目标和特点.首先,提出了一个网络态势感知研究框架,介绍了研究历程,指出了研究重点以及存在的问题,并将现有评估方法分为3类:基于数学模型的方法、基于知识推理的方法、基于模式识别的方法.然后详细讨论了模型、知识表示和评估方法这3方面的研究内容,总结存在的共性问题,着重评价了每种评估方法的基本思路、评估过程和优缺点,并进行了对比分析.随后介绍了网络态势感知在安全、传输、生存性、系统评价等领域的应用研究.最后指出了网络态势感知的发展方向,并从问题体系、技术体系和应用体系3方面作了总结.
    2009,20(6):1393-1405, DOI:
    [摘要] (11681) [HTML] (0) [PDF 831.86 K] (17039)
    摘要:
    组合测试能够在保证错误检出率的前提下采用较少的测试用例测试系统.但是,组合测试用例集的构造问题的复杂度是NP完全的.组合测试方法的有效性和复杂性吸引了组合数学领域和软件工程领域的学者们对其进行深入的研究.总结了近年来在组合测试方面的研究进展,主要内容包括:组合测试准则的研究、组合测试生成问题与其他NP完全问题的联系、组合测试用例的数学构造方法、采用计算机搜索的组合测试生成方法以及基于组合测试的错误定位技术.
    2008,19(11):2803-2813, DOI:
    [摘要] (8928) [HTML] (0) [PDF 319.20 K] (16818)
    摘要:
    提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.
    2009,20(8):2241-2254, DOI:
    [摘要] (6492) [HTML] (0) [PDF 1.99 M] (16780)
    摘要:
    从数据场思想出发,提出了一种基于拓扑势的社区发现算法.该方法引入拓扑势描述网络节点间的相互作用,将每个社区视为拓扑势场的局部高势区,通过寻找被低势区域所分割的连通高势区域实现网络的社区划分.理论分析与实验结果表明,该方法无须用户指定社区个数等算法参数,能够揭示网络内在的社区结构及社区间具有不确定性的重叠节点现象.算法的时间复杂度为O(m+n3/γ)~O(n2),n为网络节点数,m为边数,2<γ<3为一个常数.
    2009,20(3):567-582, DOI:
    [摘要] (8060) [HTML] (0) [PDF 780.38 K] (16310)
    摘要:
    关于软件质量模型和软件质量评估模型的研究,一直是软件质量保障和评估领域的研究热点,国内外在这两方面进行了大量的研究,并取得了一定的研究成果.近年来,以操作系统为核心的基础软件呈平台化、体系化的发展趋势,基础软件平台的质量评估成为亟待解决的问题.在总结、分析软件质量模型、软件质量评估模型研究发展现状的基础上,重点归纳和描绘了基础软件平台的质量评估发展历程,并简要探讨了基础软件平台质量评估研究的发展方向,力求为展开基础软件平台的质量评估建立良好的基础.
    2009,20(8):2199-2213, DOI:
    [摘要] (10112) [HTML] (0) [PDF 2.05 M] (16294)
    摘要:
    对现有的应用于移动互联网的P2P技术方面的研究进行了分析.首先介绍了P2P技术和移动互联网的概念,并提出将P2P技术应用在移动互联网所面临的挑战和应用模式.其次,分别针对集中式架构、超级节点体系架构和ad hoc架构对应用于互联网的P2P网络体系架构进行了阐述.再其次,针对移动终端的两种接入模式,分别在资源定位算法和跨层优化两个方面进行了介绍.对各关键技术的特点进行了详细的分析,指出其存在的不足.最后,对未来的工作进行了展望.
    2010,21(5):916-929, DOI:
    [摘要] (11987) [HTML] (0) [PDF 944.50 K] (16163)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2017,28(1):160-183, DOI:10.13328/j.cnki.jos.005136
    [摘要] (8371) [HTML] (2130) [PDF 3.12 M] (16051)
    摘要:
    图像分割是指将图像分成若干具有相似性质的区域的过程,是许多图像处理任务的预处理步骤.近年来,国内外学者主要研究基于图像内容的分割算法.在广泛调研大量文献和最新成果的基础上,将图像分割算法分为基于图论的方法、基于像素聚类的方法和语义分割方法这3种类型并分别加以介绍.对每类方法所包含的典型算法,尤其是最近几年利用深度网络技术的语义图像分割方法的基本思想、优缺点进行了分析、对比和总结.介绍了图像分割常用的基准数据集和算法评价标准,并用实验对各种图像分割算法进行对比.最后进行总结,并对未来可能的发展趋势加以展望.
    2013,24(4):825-842, DOI:10.3724/SP.J.1001.2013.04369
    [摘要] (7966) [HTML] (0) [PDF 1.09 M] (16013)
    摘要:
    蜜罐是防御方为了改变网络攻防博弈不对称局面而引入的一种主动防御技术,通过部署没有业务用途的安全资源,诱骗攻击者对其进行非法使用,从而对攻击行为进行捕获和分析,了解攻击工具与方法,推测攻击意图和动机.蜜罐技术赢得了安全社区的持续关注,得到了长足发展与广泛应用,并已成为互联网安全威胁监测与分析的一种主要技术手段.介绍了蜜罐技术的起源与发展演化过程,全面分析了蜜罐技术关键机制的研究现状,回顾了蜜罐部署结构的发展过程,并归纳总结了蜜罐技术在互联网安全威胁监测、分析与防范等方向上的最新应用成果.最后,对蜜罐技术存在的问题、发展趋势与进一步研究方向进行了讨论.
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (13959) [HTML] (0) [PDF 946.37 K] (16011)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2016,27(3):691-713, DOI:10.13328/j.cnki.jos.004948
    [摘要] (8953) [HTML] (1029) [PDF 2.43 M] (15951)
    摘要:
    排序学习技术尝试用机器学习的方法解决排序问题,已被深入研究并广泛应用于不同的领域,如信息检索、文本挖掘、个性化推荐、生物医学等.将排序学习融入推荐算法中,研究如何整合大量用户和物品的特征,构建更加贴合用户偏好需求的用户模型,以提高推荐算法的性能和用户满意度,成为基于排序学习推荐算法的主要任务.对近些年基于排序学习的推荐算法研究进展进行综述,并对其问题定义、关键技术、效用评价、应用进展等进行概括、比较和分析.最后,对基于排序学习的推荐算法的未来发展趋势进行探讨和展望.