代码注释自动生成方法综述
作者:
作者单位:

作者简介:

陈翔(1980-),男,博士,副教授,CCF高级会员,主要研究领域为软件缺陷预测,软件缺陷定位,回归测试,组合测试.
孟国柱(1987-),男,博士,副研究员,CCF专业会员,主要研究领域为人工智能安全与隐私,移动安全,漏洞分析与挖掘.
杨光(1997-),男,硕士生,主要研究领域为代码注释自动生成.
王赞(1979-),男,博士,副教授,博士生导师,CCF专业会员,主要研究领域为软件测试优化,软件缺陷定位,软件缺陷修复.
崔展齐(1984-),男,博士,副教授,CCF专业会员,主要研究领域为软件测试及分析技术.

通讯作者:

陈翔,E-mail:xchencs@ntu.edu.cn;崔展齐,E-mail:czq@bistu.edu.cn

基金项目:

国家重点研发计划(2019AAA0104301);国家自然科学基金(61702041,61872263,61902395,61202006);信息安全国家重点实验室开放课题(2020-MS-07);南京航空航天大学高安全系统的软件开发与验证技术工业和信息化部重点实验室开放课题(NJ2020022);江苏省前沿引领技术基础研究专项(BK20202001);天津市智能制造专项资金(20193155)


Survey of State-of-the-art Automatic Code Comment Generation
Author:
Affiliation:

Fund Project:

National Key R&D Program of China (2019AAA0104301); National Natural Science Foundation of China (61702041, 61872263, 61902395, 61202006); Open Program of the State Key Laboratory of Information Security (Institute of Information Engineering, Chinese Academy of Sciences) (2020-MS-07); Open Program of the Key Laboratory of Safety-critical Software (Nanjing University of Aeronautics and Astronautics) (NJ2020022); Leading-edge Technology Program of Jiangsu Natural Science Foundation (BK20202001); Intelligent Manufacturing Special Fund of Tianjin (20193155)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    在软件的开发和维护过程中,与代码对应的注释经常存在缺失、不足或者与代码实际内容不匹配等问题,但手工编写代码注释对开发人员来说费时费力,且注释质量难以保证,因此亟需研究人员提出有效的代码注释自动生成方法.代码注释自动生成问题是当前程序理解研究领域的一个研究热点,对该问题进行了系统综述.主要将已有的自动生成方法细分为3类:基于模板的方法、基于信息检索的方法和基于深度学习的方法.依次对每一类方法的已有研究成果进行了系统的梳理、总结和点评.随后分析了已有的实证研究中经常使用的语料库和主要的注释质量评估方法,以利于针对该问题的后续研究可以进行合理的实验设计.最后进行总结,并对未来值得关注的研究方向进行了展望.

    Abstract:

    During software development and maintenance, code comments often have some problems, such as missing, insufficient, or mismatching with code content. Writing high-quality code comments takes time and effort for developers, and the quality can not be guaranteed, therefore, it is urgent for researchers to design effective automatic code comment generation methods. The automatic code comment generation issue is an active research topic in the program comprehension domain. This study conducts a systematic review of this research topic. The existing methods are divided into three categories:Template-based generation methods, information retrieval-based methods, and deep learning-based methods. Related studies are analyzed and summarizedfor each category. Then, the corpora and comment quality evaluation methods that are often used in previous studiesare analyzed, which can facilitate the experimental study for future studies. Finally, the potential research directions in the future aresummarized and discussed.

    参考文献
    相似文献
    引证文献
引用本文

陈翔,杨光,崔展齐,孟国柱,王赞.代码注释自动生成方法综述.软件学报,2021,32(7):2118-2141

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:2020-09-02
  • 最后修改日期:2020-10-26
  • 录用日期:
  • 在线发布日期: 2021-01-22
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号