版本失配和数据泄露对基于缺陷报告的缺陷定位模型的影响
作者:
作者单位:

作者简介:

周慧聪(1996-),女,硕士,主要研究领域为缺陷定位;郭肇强(1994-),男,博士生,主要研究领域为软件度量,缺陷定位;梅元清(1980-),男,博士生,副教授,主要研究领域为软件度量,缺陷预测;李言辉(1981-),男,博士,助理研究员,CCF专业会员,主要研究领域为软件演化与维护,软件测试;陈林(1971-),男,博士,副教授,博士生导师,CCF高级会员,主要研究领域为软件分析测试;周毓明(1974-),男,博士,教授,博士生导师,CCF专业会员,主要研究领域为软件维护,测试与分析

通讯作者:

李言辉,yanhuili@nju.edu.cn;周毓明,zhouyuming@nju.edu.cn

中图分类号:

TP311

基金项目:

国家自然科学基金(61772259,61872177)


Watch out for Version Mismtaching and Data Leakage! A Case Study of Their Influence in Bug Report Based Bug Localization Models
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    为了降低缺陷定位过程中的人力成本,研究者们在缺陷报告的基础上提出了许多基于信息检索的缺陷定位模型,包括使用传统特征和使用深度学习特征进行建模的定位模型.在评价不同缺陷定位模型时设计的实验中,现有研究大多忽视了缺陷报告所属的版本与目标源代码的版本之间存在的“版本失配”问题或/和在训练和测试模型时缺陷报告的时间顺序所引发的“数据泄露”问题.致力于报告现有模型在更加真实的应用场景下的性能表现,并分析版本失配和数据泄露问题对评估各模型真实性能产生的影响.选取6个使用传统特征的定位模型(BugLocator、BRTracer、BLUiR、AmaLgam、BLIA、Locus)和1个使用深度学习特征的定位模型(CodeBERT)作为研究对象.在5个不同实验设置下基于8个开源项目进行系统性的实证分析.首先,CodeBERT模型直接应用于缺陷定位效果并不理想,其定位的准确率依赖于目标项目的版本数目和源代码规模.其次,版本匹配设置下使用传统特征的定位模型在平均准确率均值(MAP)、平均序位倒数均值(MRR)两个指标上比版本失配实验设置下最高可以提高47.2%和46.0%,CodeBERT模型的效果也受到数据泄露和版本匹配的双重影响.使用传统特征的缺陷定位模型的性能被低估,而使用深度学习特征的CodeBERT模型在应用于缺陷定位任务时还需要更多的探索和验证.

    Abstract:

    In order to reduce the labor cost in the process of bug localization, researchers have proposed various automated information retrieval based bug localization models (IRBL), including those models leveraging traditional features and deep learning based features. When evaluating the effectiveness of IRBL models, most of the existing studies neglect the following problems: the software version mismatching between bug reports and the corresponding source code files in the testing data or/and the data leakage caused by the chronological order of bug reports when training and testing their models. This study aims to investigate the performance of existing models in real experiment settings and analyzes the impact of version mismatching and data leakage on the real performance of each model. F irst, six traditional information retrieval-based models (Buglocator, BTRracer, BLUiR, AmaLgam, BLIA, and Locus) and one novel deep learning model (CodeBERT) are selected as the research objects. Then, an empirical analysis is conducted based on eight open-source projects under five different experimental settings. The experimental results demonstrate that the effectiveness of directly applying CodeBERT in bug localization is not as good as expected, since its accuracy depends on the version and source code size of a test project. Second, the results also show that, compared with the traditional version mismatching experimental setting, the traditional information retrieval-based models under the version matching setting can lead to an improviment that is up to 47.2% and 46.0% in terms of MAP and MRR. Meanwhile, the effectiveness of CodeBERT model is also affected by both data leakage and version mismatching. It means that the effectiveness of traditional information retrieval-based bug localization is underestimated while the application of deep learning based CodeBERT to bug localization still needs more exploration.

    参考文献
    相似文献
    引证文献
引用本文

周慧聪,郭肇强,梅元清,李言辉,陈林,周毓明.版本失配和数据泄露对基于缺陷报告的缺陷定位模型的影响.软件学报,2023,34(5):2196-2217

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-03-02
  • 最后修改日期:2021-04-26
  • 录用日期:
  • 在线发布日期: 2022-06-15
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号