查 询 高级检索+
共找到相关记录72条
    全 选
    显示方式:|
    • 大语言模型的幻觉问题研究综述

      2025, 36(3):1152-1185.DOI: 10.13328/j.cnki.jos.007242

      关键词:可信人工智能大语言模型幻觉幻觉评估与缓解
      摘要 (881)HTML (84)PDF 8.91 M (1071)收藏

      摘要:随着以Transformer为代表的预训练模型等深度学习技术的发展, 大语言模型(LLM)日益展现出强大的理解力和创造力, 对抽象摘要、对话生成、机器翻译和数据到文本生成等下游任务产生了重要影响, 同时也在图像说明、视觉叙事等多模态领域展现出了广阔的应用前景. 虽然大语言模型具备显著的性能优势, 但深度学习架构使其难以避免内容幻觉问题, 这不仅会削减系统性能, 还严重影响其可信性和应用广泛性, 由此衍生的法律风险和伦理风险成为掣肘其进一步发展与落地的主要障碍. 聚焦大语言模型的幻觉问题, 首先, 对大语言模型的幻觉问题展开系统概述, 分析其来源及成因; 其次, 系统概述大语言模型幻觉问题的评估方法和缓解方法, 对不同任务的评估和缓解方法类型化并加以深入比较; 最后, 从评估和缓解角度展望应对幻觉问题的未来趋势和应对方案.

    • MSA-Lab:模型驱动的微服务集成设计平台

      2024, 35(3):1280-1306.DOI: 10.13328/j.cnki.jos.006813

      关键词:微服务架构服务识别设计模型生成交互式建模工具软件设计评估
      摘要 (800)HTML (1063)PDF 14.27 M (2239)收藏

      摘要:从单体系统迁移到微服务系统是当前业界对遗留系统实施再工程化的主流选项之一,基于单体遗留系统的微服务体系架构重构则是实现该迁移的关键步骤.目前学界多集中在微服务识别方法的研究上;业界虽有许多面向微服务架构的遗留系统重构的实践,但缺乏系统性的方法及高效鲁棒的工具.鉴于此,在微服务识别与模型驱动开发方法前期研究的基础上,研发一种模型驱动的、可用于单体遗留系统微服务化重构的集成设计平台MSA-Lab.它通过分析单体遗留系统运行日志中的方法调用序列,对其中的类和数据表进行类型识别和聚类以构造抽象微服务,同时生成包括微服务图和微服务序列图在内的系统架构设计模型.它包括用于微服务自动识别与设计模型自动生成的核心部件MSA-Generator,以及用于微服务静态结构模型与动态行为模型可视化展现、交互式建模、模型语法约束检验的核心部件MSA-Modeller.在MSA-Lab平台上,通过对4个开源项目实施有效性、鲁棒性、功能转换完备性等实验以及对3个同类型工具实施性能对比实验,结果表明:所提平台拥有很好的有效性、鲁棒性及实现面向日志的功能转换完备性,且性能更加优越.

    • 基于动态批量评估的绿色无梯度优化方法

      2024, 35(4):1732-1750.DOI: 10.13328/j.cnki.jos.007017

      关键词:无梯度优化演化学习绿色低碳动态批量评估
      摘要 (655)HTML (1210)PDF 5.05 M (2993)收藏

      摘要:在基于语言模型即服务的提示词黑盒微调、机器学习模型超参数调节等优化任务中, 由于解空间到性能指标之间的映射关系复杂多变, 难以显式地构建目标函数, 故常采用无梯度优化方法来实现寻优. 解的准确、稳定评估是有效实施无梯度优化方法的关键, 完成一次解的质量评估常要求在整个数据集上完整运行一次模型, 且优化过程有时需要大量评估解的质量. 随着机器学习模型复杂度以及训练样本量的不断增加, 准确、稳定的解的质量评估时间成本与计算代价越来越高昂, 这与绿色低碳机器学习与优化理念背道而驰. 有鉴于此, 提出了一种基于动态批量评估的绿色无梯度优化方法框架(green derivative-free optimization with dynamic batch evaluation, GRACE), 基于训练子集的相似性, 在优化过程中自适应动态调节评估解时使用的样本量, 使得GRACE在保证优化性能的同时, 降低优化成本与代价, 达到绿色低碳高效的目标. 在语言模型即服务提示词黑盒微调、模型超参数优化等实际任务上进行了实验验证, 通过与一系列对比方法以及GRACE消融退化版算法进行比较分析, 表明了GRACE的有效性、高效性、绿色低碳性. 超参数分析结果表明了其具备超参数稳健性.

    • 代码审查自动化研究综述

      2024, 35(7):3265-3290.DOI: 10.13328/j.cnki.jos.007112

      关键词:代码审查自动化审查者推荐代码变更质量评估审查意见生成代码自动修复
      摘要 (1381)HTML (1244)PDF 2.88 M (4450)收藏

      摘要:随着现代软件规模的不断扩大, 协作开发成为软件开发的主流趋势, 代码审查成为现代化软件开发的重要工作流程. 但由于人工代码评审往往耗费审查者较大精力, 且存在审查者不匹配或审查者水平有限等问题, 人工代码评审的质量和效率难以保证, 且审查后的代码修复也十分费时费力. 因此, 亟需研究人员为代码审查流程进行改进, 提供自动化思路. 对代码审查自动化相关研究进行系统梳理和总结, 并重点介绍4种主要方向: 审查者推荐、代码变更质量评估、审查意见生成和代码自动修复. 整理了相关方向的148篇研究, 对每个方向的研究进行技术分类与分析. 随后, 整理了各方向研究任务的评估方法, 并整理出常用的数据集与开源工具. 最后, 对代码审查自动化领域面临的问题进行梳理, 并对未来研究进行展望.

    • 面向PyPI生态系统的漏洞影响范围细粒度评估方法

      2024, 35(10):4493-4509.DOI: 10.13328/j.cnki.jos.006959

      关键词:PyPI生态系统漏洞影响范围函数粒度评估静态分析
      摘要 (1010)HTML (801)PDF 7.10 M (2641)收藏

      摘要:Python语言的开放性和易用性使其成为最常用的编程语言之一. 其形成的PyPI生态系统在为开发者提供便利的同时, 也成为攻击者进行漏洞攻击的重要目标. 在发现Python漏洞之后, 如何准确、全面地评估漏洞影响范围是应对Python漏洞的关键. 然而当前的Python漏洞影响范围评估方法主要依靠包粒度的依赖关系分析, 会产生大量误报; 现有的函数粒度的Python程序分析方法由于上下文不敏感等导致存在准确性问题, 应用于实际的漏洞影响范围评估也会产生误报. 提出一种基于静态分析的面向PyPI生态系统的漏洞影响范围评估方法PyVul++. 首先构建PyPI生态系统的索引, 然后通过漏洞函数识别发现受漏洞影响的候选包, 进一步通过漏洞触发条件验证漏洞包, 实现函数粒度的漏洞影响范围评估. PyVul++改进了Python代码函数粒度的调用分析能力, 在基于PyCG的测试集上的分析结果优于其他工具(精确率86.71%, 召回率83.20%). 通过PyVul++对10个Python CVE漏洞进行PyPI生态系统(385855个包)影响范围评估, 相比于pip-audit等工具发现了更多漏洞包且降低了误报. 此外, 在10个Python CVE漏洞影响范围评估实验中, PyVul++新发现了目前PyPI生态系统中仍有11个包存在引用未修复的漏洞函数的安全问题.

    • 基于道路风险评估的城市路网实时路径选择

      2023, 34(2):899-914.DOI: 10.13328/j.cnki.jos.006424

      关键词:城市交通路径选择风险评估边缘计算
      摘要 (699)HTML (1681)PDF 5.91 M (2579)收藏

      摘要:为了缓解城市交通拥堵、避免交通事故的发生,城市路网的路径选择一直以来是一个热门的研究课题.随着边缘计算和车辆智能终端技术的发展,城市路网中的行驶车辆从自组织网络朝着车联网(Internet of vehicles,IoV)范式过渡,这使得车辆路径选择问题从基于静态历史交通数据的计算向实时交通信息计算转变.在城市路网路径选择问题上,众多学者的研究主要聚焦如何提高出行效率,减少出行时间等.然而这些研究并没有考虑所选路径是否存在风险等问题.基于以上问题,首次构造了一个基于边缘计算技术的道路风险实时评估模型(real-time road risk assessment model based on edge computing,R3A-EC),并提出基于该模型的城市路网实时路径选择方法(real-time route selection method based on risk assessment,R2S-RA).R3A-EC模型利用边缘计算技术的低延迟,高可靠性等特点对城市道路进行实时风险评估,并利用最小风险贝叶斯决策验证道路是否存在风险问题,最后在此基础上对城市路网路径选择进行优化,实现实时动态低风险的路径选择方法.实验通过与传统的最短路径Dijkstra算法、基于VANET的最短时间算法、基于MEC的动态路径规划算法以及双向A*最短路径优化算法对比,得出R2S-RA方法可以更好地选择兼顾道路风险和行驶时间的优化路径,从而大大减少交通拥堵和交通事故等事件的发生.

    • 联邦学习贡献评估综述

      2023, 34(3):1168-1192.DOI: 10.13328/j.cnki.jos.006786

      关键词:贡献评估数据估值联邦学习激励机制合作博弈
      摘要 (3737)HTML (6343)PDF 2.68 M (6826)收藏

      摘要:数据不动的联邦学习框架是多个数据持有方合作训练机器学习模型的新范式.多个数据持有方参与联邦学习时的贡献评估是联邦学习的核心问题之一.参与方贡献评估需要兼顾有效性、公平性和合理性等要素,在理论方法与实际应用中均面临多项挑战.贡献评估首先需要明确如何度量数据价值,然而数据估值存在主观性与依赖于实际任务场景的特点,如何设计有效、可靠并对恶意数据鲁棒的数据估值指标是第一大挑战.其次,联邦学习合作中的参与方贡献评估是经典的合作博弈问题,如何制定公平合理的参与方贡献评估方案,实现参与方一致认可的博弈平衡是第二大挑战.最后,参与方贡献评估往往计算复杂度高,同时,联邦学习中围绕模型的数据估值时间开销大,因此,在实践中如何设计高效且准确的近似算法是第三大挑战.近年来,为了有效地解决上述挑战,学术界对联邦学习中的贡献评估问题展开了广泛的研究.首先,简要介绍联邦学习与参与方贡献评估的背景知识;然后,综述数据估值指标、参与方贡献评估方案和相关优化技术;最后,讨论了联邦学习贡献评估仍面临的挑战并展望未来研究的发展方向.

    • 面向安卓自动化测试工具综合评估

      2023, 34(4):1630-1649.DOI: 10.13328/j.cnki.jos.006701

      关键词:自动化测试碎片化变异测试UI控件覆盖率多维评估
      摘要 (884)HTML (1681)PDF 2.30 M (2358)收藏

      摘要:自动化测试工具是安卓应用质量保障的主要手段. 随着安卓版本多样性、底层硬件差异性(碎片化)以及逻辑复杂性增加, 自动化测试迎来新的挑战. 为解决这些问题, 近年来, 业界开发出大量自动化测试工具. 但是现有工具数量多, 并且测试重点多样, 测试人员选择工具时存在一定的困扰. 为帮助测试人员选择最佳测试工具, 实现对自动化测试工具的统一评估, 提出了面向安卓自动化测试工具多特征综合评估方法(comprehensive evaluation of Android automated testing, CEAT), 并将其实现为便于测试人员使用的平台. CEAT在引入测试领域广泛接受的3个评估指标, 即代码覆盖率、异常检出率、融合多版本兼容度得分的基础上, 进一步基于变异测试的思想引入变异杀死率, 并从用户体验出发引入UI控件覆盖率. 以上5个指标构成CEAT整个体系, 从而实现安卓自动化测试工具的综合多维评估. 为验证CEAT的效果, 生成了1 089个变异应用的待测应用集, 在包含6个移动设备的真机集群中部署实验, 对5个自动化测试工具适配并执行5 040次测试任务. 最终结果表明: i) 5个指标从不同角度对自动化测试工具进行评估, 更加多维地反映不同工具的测试效果, 验证了CEAT的有效性; ii) CEAT支持测试人员为5个指标分配不同的权重, 根据实际测试需求得到综合评估结果, 具有一定的灵活性; iii) CEAT可自动改造APP获得变异应用, 同时为工具设置特定平台用于测试, 操作具备简单性. CEAT可以有效地根据不同测试需求为测试人员选择最佳的安卓自动化测试工具提供参考依据.

    • 人工智能系统可信性度量评估研究综述

      2023, 34(8):3774-3792.DOI: 10.13328/j.cnki.jos.006592

      关键词:人工智能系统可信性度量评估
      摘要 (3824)HTML (6230)PDF 5.37 M (9238)收藏

      摘要:近年来, 人工智能技术突飞猛进, 人工智能系统已经渗透到人们生活中, 成为人们生活中不可或缺的一部分. 然而, 人工智能系统需要数据训练模型, 数据扰动会对其结果造成影响. 并且随着人工智能系统业务多样化, 规模复杂化, 人工智能系统的可信性愈发受到人们的关注. 首先, 在梳理不同组织和学者提出的人工智能系统可信属性基础上, 提出人工智能系统的9个可信属性; 接着, 从数据可信性、模型可信性和结果可信性分别介绍现有的人工智能系统数据、模型、结果可信性度量方法, 设计人工智能系统可信证据收集方法. 其次, 总结当前人工智能系统的可信度量评估理论与方法. 然后, 结合基于属性的软件可信评估方法与区块链技术, 建立一个人工智能系统可信度量评估框架, 包括可信属性分解及可信证据获取方法、联邦式可信度量模型与以及基于区块链的人工智能系统可信度量评估架构. 最后, 讨论人工智能系统可信度量技术面临的机遇和挑战.

    • APU: 一种精确评估超线程处理器算力消耗程度的方法

      2023, 34(12):5887-5904.DOI: 10.13328/j.cnki.jos.006779

      关键词:超线程数据中心算力评估CPU利用率系统性能分析
      摘要 (597)HTML (1267)PDF 7.80 M (2609)收藏

      摘要:伴随着云计算的发展, 以及软件即服务(SaaS)、方法即服务(FaaS)等服务框架的提出, 数据中心作为服务的提供商, 面临着持续性的资源管理挑战: 一方面需要保证服务质量(quality of service, QoS), 另一方面又需要控制资源成本. 为了在提升资源使用率的同时确保负载压力在可承受范围内波动, 一种精确衡量当前算力消耗程度的方法成为关键性的研究问题. 传统的评估指标CPU利用率, 由于虚拟化技术的成熟以及并行技术的发展, 无法应对资源竞争所产生的干扰, 失去了评估精度. 而当前数据中心的主流处理器基本都开启了超线程技术, 这导致评估超线程处理器算力消耗程度的需求亟待解决. 为了应对这一评估挑战, 基于超线程机制的理解以及线程行为的建模, 提出一种评估超线程处理器算力消耗的方法APU. 同时考虑到不同权限的用户能访问的系统层级不同, 还提出了两种实现方案: 一种基于硬件层支持的实现, 以及一种基于操作系统层支持的实现. APU方法利用传统CPU利用率指标作为输入, 没有其他维度的需求, 免去了新监测工具的开发部署代价, 也无需特殊硬件体系结构的支持, 确保该方法的通用性和易用性. 最后通过SPEC基准测试程序进一步证明该方法提升了算力评估的精度, 分别将3种基准程序运行情况的算力评估误差从原先的20%, 50%, 以及20%下降至5%以内. 为了进一步证明APU的实际应用能力, 将其运用在了字节跳动的集群中, 在案例研究中展示了它的应用效果.

    上一页123456
    共8页72条记录 跳转到GO

您是第19748688位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号