代码自然性及其应用研究进展
作者:
作者单位:

作者简介:

陈浙哲(1997-),女,学士,主要研究领域为智能软件工程,软件仓库挖掘;
刘忠鑫(1994-),男,CCF专业会员,主要研究领域为智能化软件工程,软件文档自动生成;
鄢萌(1989-),男,博士,研究员,博士生导师,CCF专业会员,主要研究领域为智能软件工程,软件仓库挖掘,软件维护与演化;
徐洲(1990-),男,博士,助理研究员,CCF专业会员,主要研究领域为软件仓库挖掘,软件缺陷预测;
夏鑫(1986-),男,博士,讲师,博士生导师,CCF专业会员,主要研究领域为软件仓库挖掘,经验软件工程;
雷晏(1985-),男,博士,副教授,CCF专业会员,主要研究领域为软件错误定位,软件自动修复.

通讯作者:

鄢萌,E-mail:mengy@cqu.edu.cn

中图分类号:

基金项目:

国家自然科学基金(62002034);中央高校基本科研业务费(2020CDCGRJ072,2020CDJQYA021,2021CDJKYJH032);国防基础科研计划(WDZC20205500308);中国博士后基金(2020M673137);重庆市自然科学基金(cstc2020jcyj-bshX0114)


Research Progress of Code Naturalness and Its Application
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    代码自然性(code naturalness)研究是自然语言处理领域和软件工程领域共同的研究热点之一,旨在通过构建基于自然语言处理技术的代码自然性模型,以解决各种软件工程任务.近年来,随着开源软件社区中源代码和数据规模的不断扩大,越来越多的研究人员注重钻研源代码中蕴藏的信息,并且取得了一系列研究成果.但与此同时,代码自然性研究在代码语料库构建、模型构建和任务应用等环节面临许多挑战.鉴于此,从代码自然性技术的代码语料库构建、模型构建和任务应用等方面对近年来代码自然性研究及应用进展进行梳理和总结.主要内容包括:(1)介绍了代码自然性的基本概念及其研究概况;(2)归纳目前代码自然性研究的语料库,并对代码自然性模型建模方法进行分类与总结;(3)总结代码自然性模型的实验验证方法和模型评价指标;(4)总结并归类了目前代码自然性的应用现状;(5)归纳代码自然性技术的关键问题;(6)展望代码自然性技术的未来发展.

    Abstract:

    The study of code naturalness is one of the common research hotspots in the field of natural language processing and software engineering, aiming to solve various software engineering tasks by building a code naturalness model based on natural language processing techniques. In recent years, as the size of source code and data in the open source software community continues to grow, more and more researchers are focusing on the information contained in the source code, and a series of research results have been achieved. While at the same time, code naturalness research faces many challenges in code corpus construction, model building, and task application. In view of this, this paper reviews and summarizes the progress of code naturalness research and application in recent years in terms of code corpus construction, model construction, and task application. The main contents include:(1) Introducing the basic concept of code naturalness and its research overview; (2) The current corpus of code naturalness research is summarized, and the modeling methods for code naturalness are classified and summarized; (3) Summarizing the experimental validation methods and model evaluation metrics of code naturalness models; (4) Summarizing and categorizing the current application status of code naturalness; (5) Summarizing the key issues of code naturalness techniques; (6) Prospecting the future development of code naturalness techniques.

    参考文献
    相似文献
    引证文献
引用本文

陈浙哲,鄢萌,夏鑫,刘忠鑫,徐洲,雷晏.代码自然性及其应用研究进展.软件学报,2022,33(8):3015-3034

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-01-29
  • 最后修改日期:2021-04-14
  • 录用日期:
  • 在线发布日期: 2021-05-21
  • 出版日期: 2022-08-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号