软件开发活动数据集的层次化、多版本化方法
作者:
作者单位:

作者简介:

朱家鑫(1988-),男,河北行唐人,博士,助理研究员,CCF专业会员,主要研究领域为软件工程,软件及软件开发活动度量和分析,开源软件;周明辉(1974-),女,博士,副教授,CCF专业会员,主要研究领域为软件工程,软件及软件开发活动度量和分析,开源软件.

通讯作者:

周明辉,E-mail:zhmh@pku.edu.cn

中图分类号:

TP311

基金项目:

国家重点研发计划(2018YFB1004201);国家自然科学基金(61432001,61825201)


Multi-level and Multi-version Approach for Software Development Dataset
Author:
Affiliation:

Fund Project:

National Key R&D Program of China (2018YFB1004201); National Natural Science Foundation of China (61432001, 61825201)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着开源软件的兴起及软件开发支撑工具的普及,Internet上积累了大量开放的软件开发活动数据,越来越多的实践者与研究者尝试从中获取提高软件开发效率和产品质量的洞察.为了提高数据分析的效率、方便分析结果的重现与对比,许多工作提出了构建与使用共享数据集.然而,现有软件开发活动数据集的构建过程可追溯性差、适用范围窄,对数据随时间、环境发生的变化欠考虑.这些不足直接威胁数据的质量及分析结果的有效性.针对该问题,提出一种层次化、多版本化的方法来构建与使用软件开发活动数据集.层次化是指在数据集中包括收集和后续处理所得的原始、中间和最终数据,建立数据集的可追溯性并扩展其适用范围.多版本化是指通过多种方式进行多次数据收集,使数据使用者能够观察到数据的变化,为数据质量及分析结果有效性的验证和提高创造条件.通过基于该方法构建的Mozilla问题追踪数据集进行示范,并验证了该方法能够帮助数据使用者高效地使用数据.

    Abstract:

    With the fast development of open source software and wide application of development supporting tools, there have been a great many of open software development data on the Internet. To improve the software development efficiency and product quality, more and more practitioners and researchers attempt to obtain insights of software development from the data. To facilitate the data analyses and their reproduction and comparison, building and using shared datasets are proposed and practiced. However, the existing datasets are lack of traceability of dataset construction process, application scope, and consideration of data variation over time and with environment changes, which threat the data quality and analysis validity. To address these problems, an advanced approach is proposed for sharing and using the software development datasets. It constructs datasets with multiple levels and multiple versions. Through multiple levels, the datasets remain the raw data, intermediate data, and final data to possess data traceability. Meanwhile, by multiple versions, users can compare and observe the data variety to verify and improve data quality and analysis validity. Based on the previously constructed Mozilla issue tracking dataset, it is demonstrated that how to build and use multi-level and multi-version software development dataset and verified that the proposed approach can help users efficiently use the dataset.

    参考文献
    相似文献
    引证文献
引用本文

朱家鑫,周明辉.软件开发活动数据集的层次化、多版本化方法.软件学报,2019,30(7):2109-2123

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2017-01-13
  • 最后修改日期:2017-06-27
  • 录用日期:
  • 在线发布日期: 2019-07-04
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号