查 询 高级检索+
共找到相关记录27条
    全 选
    显示方式:|
    • 预训练模型在软件工程领域应用研究进展

      2025, 36(1):1-26.DOI: 10.13328/j.cnki.jos.007143

      关键词:软件仓库挖掘预训练模型程序语言模型
      摘要 (1290)HTML (414)PDF 10.70 M (2654)收藏

      摘要:近年来深度学习在软件工程领域任务中取得了优异的性能. 众所周知, 实际任务中优异性能依赖于大规模训练集, 而收集和标记大规模训练集需要耗费大量资源和成本, 这限制了深度学习技术在实际任务中的广泛应用. 随着深度学习领域预训练模型(pre-trained model, PTM)的发布, 将预训练模型引入到软件工程(software engineering, SE)任务中得到了国内外软件工程领域研究人员的广泛关注, 并得到了质的飞跃, 使得智能化软件工程进入了一个新时代. 然而, 目前没有研究提炼预训练模型在软件工程领域的成功和机遇. 为阐明这一交叉领域的工作 (pre-trained models for software engineering, PTM4SE), 系统梳理当前基于预训练模型的智能软件工程相关工作, 首先给出基于预训练模型的智能软件工程方法框架, 其次分析讨论软件工程领域常用的预训练模型技术, 详细介绍使用预训练模型的软件工程领域下游任务, 并比较和分析预训练模型技术这些任务上的性能. 然后详细介绍常用的训练和微调PTM的软件工程领域数据集. 最后, 讨论软件工程领域使用PTM面临的挑战和机遇. 同时将整理的软件工程领域PTM和常用数据集发布在https://github.com/OpenSELab/PTM4SE.

    • 基于预训练模型的用户评分预测

      2025, 36(2):608-624.DOI: 10.13328/j.cnki.jos.007151

      关键词:推荐系统评分预测预训练模型注意力机制
      摘要 (186)HTML (116)PDF 7.48 M (1628)收藏

      摘要:随着商家评论网站的快速发展, 推荐系统所带来的效率提升使得评分预测成为近年来新兴研究任务之一. 现有的评分预测方法通常局限于协同过滤算法以及各类神经网络模型, 并没有充分利用目前预训练模型提前学习的丰富的语义知识. 针对此问题, 提出一种基于预训练语言模型的个性化评分预测方法, 其通过分析用户和商家的历史评论, 为用户在消费前提供评分预测作为参考. 该方法首先设计一项预训练任务, 让模型学习捕捉文本中的关键信息. 其次, 通过细粒度情感分析方法对评论文本进行处理, 从而获取评论文本中的属性词. 接下来, 设计一个属性词嵌入层将上述外部领域知识融入模型中. 最后, 采用基于注意力机制的信息融合策略, 将输入文本的全局和局部语义信息进行融合. 实验结果表明, 该方法相较于基准模型, 在两个自动评价指标上均取得显著的提升.

    • 面向电子商务社交知识图谱高效增量预训练的双向模仿蒸馏

      2025, 36(3):1218-1239.DOI: 10.13328/j.cnki.jos.007170

      关键词:知识图谱知识图谱预训练增量学习知识蒸馏
      摘要 (189)HTML (51)PDF 10.60 M (1759)收藏

      摘要:知识图谱(knowledge graph, KG)预训练模型有助于电子商务应用中各种下游任务, 然而, 对于具有高动态性的大规模电商社交知识图谱来说, 预训练模型需要及时更新以感知由用户交互引起的节点特征变化. 提出一种针对电商社交知识图谱预训练模型的高效增量学习方法, 该方法通过基于双向模仿蒸馏的训练策略充分挖掘不同样本对模型更新的作用, 并通过基于样本常规性和反常性的采样策略来减少训练数据规模, 提升模型更新效率. 此外, 还提出一种逆重放机制, 为社交知识图谱预训练模型的增量训练生成高质量的负样本. 在真实的电子商务数据集和相关下游任务上的实验结果表明, 相较于最先进的方法, 所提方法可以更有效且高效地增量更新社交知识图谱预训练模型.

    • 基于多模态对比学习的代码表征增强预训练方法

      2024, 35(4):1601-1617.DOI: 10.13328/j.cnki.jos.007016

      关键词:代码表征预训练模型多模态对比学习
      摘要 (1613)HTML (1665)PDF 2.51 M (3847)收藏

      摘要:代码表征旨在融合源代码的特征, 以获取其语义向量, 在基于深度学习的代码智能中扮演着重要角色. 传统基于手工的代码表征依赖领域专家的标注, 繁重耗时, 且无法灵活地复用于特定下游任务, 这与绿色低碳的发展理念极不相符. 因此, 近年来, 许多自监督学习的编程语言大规模预训练模型(如CodeBERT)应运而生, 为获取通用代码表征提供了有效途径. 这些模型通过预训练获得通用的代码表征, 然后在具体任务上进行微调, 取得了显著成果. 但是, 要准确表示代码的语义信息, 需要融合所有抽象层次的特征(文本级、语义级、功能级和结构级). 然而, 现有模型将编程语言仅视为类似于自然语言的普通文本序列, 忽略了它的功能级和结构级特征. 因此,旨在进一步提高代码表征的准确性, 提出了基于多模态对比学习的代码表征增强的预训练模型(representation enhanced contrastive multimodal pretraining, REcomp). REcomp设计了新的语义级-结构级特征融合算法, 将它用于序列化抽象语法树, 并通过多模态对比学习的方法将该复合特征与编程语言的文本级和功能级特征相融合, 以实现更精准的语义建模. 最后, 在3个真实的公开数据集上进行了实验, 验证了REcomp在提高代码表征准确性方面的有效性.

    • 基于数据流传播路径学习的智能合约时间戳漏洞检测

      2024, 35(5):2325-2339.DOI: 10.13328/j.cnki.jos.006989

      关键词:智能合约时间戳漏洞漏洞检测数据流传播路径预训练
      摘要 (516)HTML (907)PDF 2.95 M (1861)收藏

      摘要:智能合约是一种被大量部署在区块链上的去中心化的应用. 由于其具有经济属性, 智能合约漏洞会造成潜在的巨大经济和财产损失, 并破坏以太坊的稳定生态. 因此, 智能合约的漏洞检测具有十分重要的意义. 当前主流的智能合约漏洞检测方法(诸如Oyente和Securify)采用基于人工设计的启发式算法, 在不同应用场景下的复用性较弱且耗时高, 准确率也不高. 为了提升漏洞检测效果, 针对智能合约的时间戳漏洞, 提出基于数据流传播路径学习的智能合约漏洞检测方法Scruple. 所提方法首先获取时间戳漏洞的潜在的数据传播路径, 然后对其进行裁剪并利用融入图结构的预训练模型对传播路径进行学习, 最后对智能合约是否具有时间戳漏洞进行检测. 相比而言, Scruple具有更强的漏洞捕捉能力和泛化能力, 传播路径学习的针对性强, 避免了对程序整体依赖图学习时造成的层次太深而无法聚焦漏洞的问题. 为了验证Scruple的有效性, 在真实智能合约的数据集上, 开展Scruple方法与13种主流智能合约漏洞检测方法的对比实验. 实验结果表明, Scruple在检测时间戳漏洞上的准确率, 召回率和F1值分别可以达到0.96, 0.90和0.93, 与13种当前主流方法相比, 平均相对提升59%, 46%和57%, 从而大幅提升时间戳漏洞的检测能力.

    • Pobe: 一种基于生成式模型的分布外文本检测方法

      2024, 35(9):4365-4376.DOI: 10.13328/j.cnki.jos.006956

      关键词:机器学习分布外检测生成式模型文本检索预训练语言模型
      摘要 (615)HTML (489)PDF 7.08 M (1772)收藏

      摘要:对于安全可靠的机器学习系统, 具备检测训练集分布外 (out-of-distribution, OOD) 样本的能力十分必要. 基于似然的生成式模型由于训练时不需要样本标签, 是一类非常受欢迎的OOD检测方法. 然而, 近期研究表明通过似然来检测OOD样本往往会失效, 并且失效原因与解决方案的探究仍较少, 尤其是对于文本数据. 从模型层面和数据层面分析文本上失效的原因: 生成式模型的泛化性不足和文本先验概率的偏差. 在此基础上, 提出一种新的OOD文本检测方法Pobe. 针对生成式模型泛化性不足的问题, 引入KNN检索的方式, 来提升模型的泛化性. 针对文本先验概率偏差的问题, 设计一种偏差校准策略, 借助预训练语言模型改善概率偏差对OOD检测的影响, 并通过贝叶斯定理证明策略的合理性. 通过在广泛的数据集上进行实验, 证明所提方法的有效性, 其中, 在8个数据集上的平均AUROC值超过99%, FPR95值低于1%.

    • 基于路径语义表示的静态警报自动确认方法

      2024, 35(10):4662-4680.DOI: 10.13328/j.cnki.jos.006982

      关键词:警报自动确认路径分析深度学习预训练语言模型
      摘要 (452)HTML (474)PDF 6.65 M (1804)收藏

      摘要:尽管静态分析工具能够在软件开发生命周期的早期阶段帮助开发人员检测软件中的潜在缺陷, 但该类工具往往存在警报假阳性率高的问题. 为了提高该类工具的可用性, 研究人员提出许多警报确认技术来对假阳性警报进行自动分类. 然而, 已有方法集中于利用手工设计的特征或语句级的抽象语法树标记序列来表示缺陷代码, 难以从报告的警报中捕获语义. 为了克服传统方法的局限性, 利用深度神经网络强大的特征抽取和表示能力从控制流图路径中学习代码语义表征用于警报确认. 控制流图是程序的执行过程抽象表示, 因此控制流图路径序列能够引导模型更精确地学习与潜在缺陷相关的语义信息. 通过微调预训练语言模型对路径序列进行编码并从中捕捉语义特征用于模型构建. 最后在8个开源项目上与最先进的基线方法进行大量对比实验验证所提方法的有效性.

    • 预训练语言模型实体匹配的可解释性

      2023, 34(3):1087-1108.DOI: 10.13328/j.cnki.jos.006794

      关键词:实体匹配预训练语言模型可解释性
      摘要 (1472)HTML (3431)PDF 3.33 M (4287)收藏

      摘要:实体匹配可以判断两个数据集中的记录是否指向同一现实世界实体,对于大数据集成、社交网络分析、网络语义数据管理等任务不可或缺.作为在自然语言处理、计算机视觉中取得大量成功的深度学习技术,预训练语言模型在实体识别任务上也取得了优于传统方法的效果,引起了大量研究人员的关注.然而,基于预训练语言模型的实体匹配技术效果不稳定、匹配结果不可解释,给这一技术在大数据集成中的应用带来了很大的不确定性.同时,现有的实体匹配模型解释方法主要面向机器学习方法进行模型无关的解释,在预训练语言模型上的适用性存在缺陷.因此,以Ditto、JointBERT等BERT类实体匹配模型为例,提出3种面向预训练语言模型实体匹配技术的模型解释方法来解决这个问题:(1)针对序列化操作中关系数据属性序的敏感性,对于错分样本,利用数据集元特征和属性相似度实现属性序反事实生成;(2)作为传统属性重要性衡量的补充,通过预训练语言模型注意力机制权重来衡量并可视化模型处理数据时的关联性;(3)基于序列化后的句子向量,使用k近邻搜索技术召回与错分样本相似的可解释性优良的样本,增强低置信度的预训练语言模型预测结果.在真实公开数据集上的实验结果表明,通过增强方法提升了模型效果,同时,在属性序搜索空间中能够达到保真度上限的68.8%,为针对预训练语言实体匹配模型的决策解释提供了属性序反事实、属性关联理解等新角度.

    • 视觉语言预训练综述

      2023, 34(5):2000-2023.DOI: 10.13328/j.cnki.jos.006774

      关键词:多模态学习预训练模型Transformer视觉语言学习
      摘要 (3009)HTML (4866)PDF 10.38 M (6796)收藏

      摘要:近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能.

    • 面向视觉语言理解与生成的多模态预训练方法

      2023, 34(5):2024-2034.DOI: 10.13328/j.cnki.jos.006770

      关键词:计算机视觉多模态学习预训练
      摘要 (1857)HTML (2701)PDF 6.91 M (5344)收藏

      摘要:大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation,UniVL).UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据.UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法.

    上一页123
    共3页27条记录 跳转到GO

您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号