查 询 高级检索+
共找到相关记录77条
    全 选
    显示方式:|
    • RISC-V架构下的懒惰影子页表模型

      2025, 36(9):0-0.DOI: 10.13328/j.cnki.jos.007359

      关键词:RISC-V虚拟化扩展内存虚拟化影子页表嵌套页表
      摘要 (72)HTML (0)PDF 1.28 M (112)收藏

      摘要:内存虚拟化作为虚拟化技术的核心组成部分,直接影响虚拟机的整体性能.目前,主流的内存虚拟化方法在两维地址翻译开销与页表同步开销之间面临权衡.传统的影子页表模型通过一套由软件维护的页表,实现了与原生(Native)环境相当的地址翻译性能.然而,由于影子页表的同步依赖于基于写保护的机制,频繁的虚拟机退出(VM-exit)会严重影响系统性能.相对而言,嵌套页表模型依靠硬件辅助虚拟化,允许虚拟机的客户页表直接加载到内存管理单元中,从而避免了页表同步的开销.然而,这种方法的两维页表遍历却显著降低了地址翻译效率.基于RISC-V架构下的特权级模型和虚拟化硬件特性,本文提出了一种懒惰影子页表模型LSP(Lazy Shadow Paging),在保留影子页表的地址翻译高效性的同时降低了页表同步开销.懒惰影子页表模型深入分析了客户机对页表页的访问模式,将页表同步与转址旁路缓存(Translation Lookaside Buffer, TLB)刷新操作绑定以降低虚拟机退出的数量.然后,利用RISC-V架构中对TLB的细粒度刷新且可拦截的特性,无效化需同步的影子页表项,将页表同步的软件开销推迟到了首次访问该页面的时刻.此外,懒惰影子页表模型利用RISC-V架构中全新的特权级模型,设计了TLB拦截的快速路径,进一步减少了虚拟机退出带来的软件开销.实验表明,在基础RISC-V架构下,懒惰影子页表相对于传统影子页表在微基准测试中降低了最多50%的虚拟机退出数量.在支持RISC-V的虚拟化扩展架构下,懒惰影子页表对SPEC06基准测试中的典型应用相较于传统影子页表降低了最多25%的虚拟机退出数量,并且相较于嵌套页表每次TLB缺失降低了12次访存.

    • 面向RISC-V向量扩展的高性能算法库优化方法

      2025, 36(9):0-0.DOI: 10.13328/j.cnki.jos.007360

      关键词:RISC-V向量扩展数据级并行算法库优化开源计算机视觉算法库
      摘要 (192)HTML (0)PDF 1.27 M (171)收藏

      摘要:高性能算法库可以通过向量化的方式高效地利用单指令多数据(SIMD)硬件的能力,从而提升其在CPU上的执行性能.其中,向量化的实现需要使用目标 SIMD 硬件的特定编程方法,而不同SIMD扩展的编程模型和编程方法均存在较大差异.为了避免优化算法在不同平台上的重复实现,提高算法库的可维护性,在高性能算法库的开发过程中通常需要引入硬件抽象层.由于目前主流SIMD扩展指令集均被设计为具有固定长度的向量寄存器,多数硬件抽象层也是基于定长向量的硬件特性而设计,无法包含RISC-V向量扩展所引入的可变向量寄存器长度的硬件特性.而若将RISC-V向量扩展视作定长向量扩展引入现有硬件抽象层设计中,会产生不必要的开销,造成性能损失.为此,本文提出了一种面向可变长向量扩展平台和固定长度SIMD扩展平台的硬件抽象层设计方法.基于此方法,本文重新设计和优化了OpenCV算法库中的通用内建函数,使其在兼容现有SIMD平台的基础上,更好地支持RISC-V向量扩展设备.将采用本文优化方法的OpenCV算法库与原版算法库进行性能比较,实验结果表明,运用本方法设计的通用内建函数能够将RISC-V向量扩展高效地融入算法库的硬件抽象层优化框架中,并在核心模块中获得3.93倍的性能提升,显著优化了高性能算法库在RISC-V设备上的执行性能,从而验证了该方法的有效性.此外,本文工作已经开源并被OpenCV社区集成到其源代码之中,证明了本文方法的实用性和应用价值.

    • 区块链分片技术研究进展

      2025, 36(3):1040-1064.DOI: 10.13328/j.cnki.jos.007276

      关键词:区块链分片技术共识机制可扩展性
      摘要 (1116)HTML (93)PDF 9.06 M (2170)收藏

      摘要:云原生数据库基于云基础设施提供高可用、可弹性伸缩的数据管理, 近年来得到了快速发展. 区块链作为一种透明、防篡改、可追溯的数据库系统, 其中区块链分片是对区块链系统进行扩容的最直接且最有潜力的方案, 利用云基础设施的弹性伸缩特点可以实现更灵活的扩缩容. 首先总结当前区块链分片解决的3个关键技术问题: 节点划分的安全性、高效链上数据分片以及跨片交易处理, 分别梳理这3个问题的研究现状, 对每个问题下相应的方案进行介绍和对比, 也讨论了将这些方案运用在云原生环境下面临的新挑战. 随后, 围绕这3个维度, 从对区块链系统整体影响的角度, 对所有方案进行全面的分析和对比. 最后, 分析区块链分片技术发展趋势, 指出几个值得进一步探索的研究方向.

    • UEFI的启发式逆向分析与模糊测试方法

      2024, 35(8):3577-3590.DOI: 10.13328/j.cnki.jos.007116

      关键词:统一可扩展固件接口逆向工程模糊测试静态程序分析固件安全
      摘要 (728)HTML (850)PDF 1.92 M (2806)收藏

      摘要:统一可扩展固件接口(unified extensible firmware interface, UEFI)作为新一代固件接口标准, 广泛应用于现代计算机系统, 但其漏洞可能引发严重安全威胁. 为了减少UEFI漏洞引发的安全问题, 需要进行漏洞检测. 而第三方安全测试场景下的模糊测试是检测的主要手段. 但符号信息的缺失影响了测试效率. 提出了一种启发式的UEFI逆向分析方法, 恢复固件中的符号信息, 改进模糊测试并实现了原型系统ReUEFuzzer. 通过对来自4个厂商的525个EFI文件进行测试, 证明了逆向分析方法的有效性. ReUEFuzzer可以提升函数测试覆盖率, 并在测试过程中发现了一个零日漏洞, 已报告给国家信息安全漏洞共享平台以及公共漏洞和暴露系统. 实验证明, 该方法在UEFI漏洞检测方面具有有效性, 可以为UEFI安全提供一定的保障.

    • 基于工人长短期时空偏好的众包任务分配

      2024, 35(10):4710-4728.DOI: 10.13328/j.cnki.jos.006994

      关键词:时空众包任务分配张量分解偏好预测
      摘要 (410)HTML (555)PDF 5.98 M (1732)收藏

      摘要:近年来, 随着移动设备的计算能力和感知能力的提高, 基于位置信息的时空众包应运而生, 任务分配效果的提升面临许多挑战, 其中之一便是如何给工人分配他们真正感兴趣的任务. 现有的研究方法只关注工人的时间偏好而忽略了空间因素对偏好的影响, 仅关注长期偏好却忽略了短期偏好, 同时面临历史数据稀疏导致的预测不准的问题. 研究基于长短期时空偏好的任务分配问题, 从长期和短期两个角度以及时间和空间两个维度全面考虑工人的偏好, 进行时空众包任务分配, 提高任务的成功分配率和完成效率. 为提升时空偏好预测的准确性, 提出分片填充的张量分解算法(SICTD)减小偏好张量的空缺值占比, 提出时空约束下的ST-HITS算法, 综合考虑工人短期活跃范围, 计算短期时空偏好. 为了在众包任务分配中最大化任务总收益和工人偏好, 设计基于时空偏好的贪心与Kuhn-Munkres (KM)算法, 优化任务分配的结果. 在真实数据集上的大量实验结果表明, 提出的分片填补张量分解算法对时间和空间偏好的RMSE预测误差较基线算法分别下降22.55%和24.17%; 在任务分配方面, 提出的基于偏好的KM算法表现出色, 对比基线算法, 在工人总收益和工人完成任务平均偏好值上分别提升40.86%和22.40%.

    • 面向降频污染攻击的智能交通拥堵态势量化分析

      2023, 34(2):833-848.DOI: 10.13328/j.cnki.jos.006416

      关键词:污染攻击拥堵态势量化分析智能交通张量空间
      摘要 (718)HTML (1523)PDF 7.68 M (2257)收藏

      摘要:随着网联车辆的快速发展和开放化,智能信号灯规划系统承受着巨大的网络攻击风险.已有相关研究发现,定频数据污染对规划脆弱性的攻击造成了交通拥堵爆增,但缺乏对降频污染攻击的全时序拥堵态势量化与分析,在检测预警与持续对抗方面有一定的局限性.将开源智能信号灯规划系统I-SIG及其规划算法COP作为研究对象,提出一种面向多个降频污染攻击的统一拥堵态势量化与分析框架,构造态势发展的时空序列三阶张量空间,并设计极值分析、平稳性分析和关联性分析,实现基于函数依赖关系的一体化分析方法.在交通模拟环境VISSIM平台上,验证了该量化分析的有效性并报告新发现.

    • 不经意传输协议研究综述

      2023, 34(4):1879-1906.DOI: 10.13328/j.cnki.jos.006692

      关键词:不经意传输不经意传输扩展协议效率优化安全多方计算隐私集合交集计算
      摘要 (4303)HTML (4254)PDF 4.18 M (7359)收藏

      摘要:在互联网快速发展、大数据的挖掘与应用已渗透到各行各业的今天, 如何安全且高效地共享、使用海量数据成为新的热点研究问题. 安全多方计算是解决该问题的关键技术之一, 它允许一组参与方在不泄露隐私输入的前提下进行交互, 共同计算一个函数并得到输出结果. 不经意传输协议, 也叫茫然传输协议, 是一种保护隐私的两方通信协议, 消息发送者持有两条待发送的消息, 接收者选择一条进行接收, 事后发送者对接收者获取哪一条消息毫不知情, 接收者对于未选择的消息也无法获取任何信息. 不经意传输协议是安全多方计算技术的关键模块之一, 其效率优化可有效推动安全多方计算技术的应用落地, 对于特殊的两方安全计算协议如隐私集合交集计算尤为重要. 总结了不经意传输协议的分类及几种常见的变体, 分别阐述了基于公钥密码的不经意传输协议的构造和研究进展, 以及不经意传输扩展协议的构造和研究进展, 由此引出不经意传输扩展协议的效率优化研究的重要性. 同时, 在半诚实敌手和恶意敌手这两种敌手模型下, 分别对不经意传输协议和不经意传输扩展协议的效率优化研究进展进行了全面梳理. 另一方面, 从应用角度对不经意传输协议和不经意传输扩展协议在工程实现中常用的优化技术进行了系统化分析. 最后, 总结了不经意传输协议和不经意传输扩展协议研究目前所面临的主要问题及未来发展趋势.

    • 数据密集作业在GPU集群上的调度算法研究

      2022, 33(12):4429-4451.DOI: 10.13328/j.cnki.jos.006362

      关键词:GPU数据密集型最小代价公平性数据本地化
      摘要 (1845)HTML (2783)PDF 2.44 M (4252)收藏

      摘要:数据密集型作业包含大量的任务,使用GPU设备来提高任务的性能是目前的主要手段.但是,在解决数据密集型作业之间的GPU资源公平共享以及降低任务所需数据在网络间的传输代价方面,现有的研究方法没有综合考虑资源公平与数据传输代价的矛盾.分析了GPU集群资源调度的特点,提出了一种基于最小代价最大任务数的GPU集群资源调度算法,解决了GPU资源的公平分配与数据传输代价较高的矛盾.将调度过程分为两个阶段:第1阶段为各个作业按照数据传输代价给出自己的最优方案;第2阶段为资源分配器合并各个作业的方案,按照公平性给出全局的最优方案.首先,给出了GPU集群资源调度框架的总体结构,各个作业给出自己的最优方案,资源分配进行全局优化;第二,给出了网络带宽估计策略以及计算任务的数据传输代价的方法;第三,给出了基于GPU数量的资源公平分配的基本算法;第四,提出了最小代价最大任务数的资源调度算法,描述了资源非抢夺、抢夺以及不考虑资源公平策略的实现策略;最后,设计了6种数据密集型计算作业,对所提出的算法进行了实验.通过实验验证,最小代价最大任务数的资源调度算法对于资源公平性能够达到90%左右,同时亦能保证作业并行运行时间最小.

    • 基于局部搜索的并行扩展规则推理方法

      2021, 32(9):2744-2754.DOI: 10.13328/j.cnki.jos.005974

      关键词:自动推理局部搜索扩展规则格局检测并行框架
      摘要 (2725)HTML (1718)PDF 1.08 M (4147)收藏

      摘要:扩展规则推理方法在经典的可满足性问题求解中已得到广泛应用,若干个基于扩展规则的推理方法已被提出,皆得到国内外的认可,例如完备的NER,IMOMH_IER,PPSER算法以及基于局部搜索的不完备算法ERACC等,都具有良好的求解效果.其中,ERACC算法是当前扩展规则求解器中求解效率最高、能力最强的算法.但是,串行的ERACC算法在启发式和预处理上仍然具有可提升的空间.基于此,设计了相应的并行框架,提出了PERACC算法.该算法基于格局检测的局部搜索方法,从变量赋初始值、化简解空间和启发式这3个阶段出发,将原极大项空间分解成为若干极大项子空间,并对原子句集进行化简后,并行处理各个子空间.通过实验显示:该算法与原算法相比,不仅在求解效率方面有较大提高,而且可以求解规模更大的测试用例,使扩展规则方法再次突破公式规模的限制.

    • 自动化张量分解加速卷积神经网络

      2021, 32(11):3468-3481.DOI: 10.13328/j.cnki.jos.006057

      关键词:张量分解卷积神经网络自动化机器学习神经网络压缩神经网络加速
      摘要 (752)HTML (1595)PDF 1.42 M (3452)收藏

      摘要:近年来,卷积神经网络(CNN)展现了强大的性能,被广泛应用到了众多领域.由于CNN参数数量庞大,且存储和计算能力需求高,其难以部署在资源受限设备上.因此,对CNN的压缩和加速成为一个迫切需要解决的问题.随着自动化机器学习(AutoML)的研究与发展,AutoML对神经网络发展产生了深远的影响.受此启发,提出了基于参数估计和基于遗传算法的两种自动化加速卷积神经网络算法.该算法能够在给定精度损失范围内自动计算出最优的CNN加速模型,有效地解决了张量分解中,人工选择秩带来的误差问题,能够有效地提升CNN的压缩和加速效果.通过在MNIST和CIFAR-10数据集上的严格测试,与原网络相比,在MNIST数据集上准确率稍微下降了0.35%,模型的运行时间获得了4.1倍的大幅提升;在CIFAR-10数据集上,准确率稍微下降了5.13%,模型的运行时间获得了0.8倍的大幅提升.

    上一页123456
    共8页77条记录 跳转到GO

您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号