基于机器学习的开源软件项目维护状态识别
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP311

基金项目:

国家自然科学基金(62072115, 62472101); 上海市“科技创新行动计划”政府间国际科技合作项目(22510713600); 上海市“科技创新行动计划”启明星项目(扬帆专项) (22YF1415000); 上海市“科技创新行动计划”社会发展科技攻关项目(22dz1204900)


Identification of Maintenance Status in Open-source Software Projects Based on Machine Learning
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着开源软件的广泛普及和迅速发展, 对开源软件项目的维护工作成为软件开发周期中的一个关键环节. 作为全球范围内代表性的开发者社区, GitHub往往在同一领域有着大量功能相似的软件项目仓库, 导致用户在选择合适的项目仓库进行使用或进一步开发时面临挑战, 因此协助用户准确识别项目仓库的维护状态具有重要的现实意义. 然而, GitHub平台并未提供可以直接衡量项目仓库维护状态的信息. 提出一个基于机器学习的项目仓库维护状态自动识别方法, 设计实现一套基于机器学习的分类模型GitMT, 通过有效整合动态时间序列特征和描述性特征, 可以实现项目仓库“活跃”与“未维护”状态的准确识别. 经过一系列基于大规模真实数据的实验验证, GitMT在项目仓库维护状态的识别任务中AUC值达到了0.964. 此外, 还构建一个以软件项目仓库维护状态为中心的开源数据集——GitMT Dataset: https://doi.org/10.7910/DVN/OJ2NI3.

    Abstract:

    With the widespread adoption and rapid advancement of open-source software, the maintenance of open-source software projects has become a critical phase within the software development cycle. As a globally representative developer community, GitHub hosts numerous software project repositories with similar functionalities within the same domain, creating challenges for users when selecting the appropriate project repository for use or further development. Therefore, accurate identification of project repository maintenance status holds substantial practical value. However, the GitHub platform does not provide direct metrics for assessing the maintenance status of repositories. This study proposes an automatic identification method for project repository maintenance status based on machine learning. A classification model, GitMT, has been developed and implemented to achieve this objective. By effectively integrating dynamic time series features and descriptive features, the proposed model enables accurate identification of “active” and “unmaintained” repository status. Through a series of experiments conducted on large-scale real-world data, an AUC value of 0.964 is achieved in maintenance status identification tasks. In addition, this study constructs an open-source dataset centered on the maintenance status of software project repositories—GitMT Dataset: https://doi.org/10.7910/DVN/OJ2NI3.

    参考文献
    相似文献
    引证文献
引用本文

罗诗雨,李馨蕾,罗俊韬,王新,张国锋,陈阳.基于机器学习的开源软件项目维护状态识别.软件学报,,():1-20

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2024-02-17
  • 最后修改日期:2024-05-28
  • 录用日期:
  • 在线发布日期: 2025-06-04
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号