基于代码结构知识的软件文档语义搜索方法
作者:
作者单位:

作者简介:

林泽琦(1992-),男,福建莆田人,博士生,主要研究领域为软件工程,软件复用,知识工程,数据挖掘;邹艳珍(1976-),女,博士,副教授,CCF专业会员,主要研究领域为软件工程,软件复用,信息检索;赵俊峰(1974-),女,博士,副教授,CCF高级会员,主要研究领域为软件工程,软件复用,Web服务,云计算;曹英魁(1993-),男,博士生,主要研究领域为软件工程,软件复用,信息挖掘;谢冰(1970-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为软件工程,形式化方法,软件复用.

通讯作者:

邹艳珍,E-mail:zouyz@sei.pku.edu.cn

中图分类号:

TP311

基金项目:

国家重点研发计划(2016YFB1000801);国家杰出青年科学基金(61525201)


Software Text Semantic Search Approach Based on Code Structure Knowledge
Author:
Affiliation:

Fund Project:

National Key Research and Development Program (2016YFB1000801); National Science Fund for Distinguished Young Scholars (61525201)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    自然语言文本形式的文档是软件项目的重要组成部分.如何帮助开发者在大量文档中进行高效、准确的信息定位,是软件复用领域中的一个重要研究问题.提出了一种基于代码结构知识的软件文档语义搜索方法.该方法从软件项目的源代码中解析出代码结构图,并以此作为领域特定的知识来帮助机器理解自然语言文本的语义.这一语义信息与信息检索技术相结合,从而实现了对软件文档的语义检索.在StackOverflow问答文档数据集上的实验表明,与多种文本检索方法相比,该方法在平均准确率(mean average precision,简称MAP)上可以取得至少13.77%的提升.

    Abstract:

    Natural language text is a common form of knowledge representation in various software artifacts. During the practice of software reuse, software developers usually need to search the large amount of textual resource. This paper presents a software text semantic search approach based on code structure knowledge. This approach extracts a code structure graph from software source code and leverages it as a domain-specific knowledge base to analyze the semantic meanings of natural language texts. The semantic information is combined with information retrieval technology to re-rank text search results semantically. Experimental results on StackOverflow dataset show that this approach achieves at least 13.77% improvement in mean average precision (MAP) comparing to several text retrieval approaches.

    参考文献
    相似文献
    引证文献
引用本文

林泽琦,邹艳珍,赵俊峰,曹英魁,谢冰.基于代码结构知识的软件文档语义搜索方法.软件学报,2019,30(12):3714-3729

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2017-10-09
  • 最后修改日期:2018-05-07
  • 录用日期:
  • 在线发布日期: 2019-12-05
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号