特征驱动的关键词提取算法综述
CSTR:
作者:
作者单位:

作者简介:

常耀成(1992-),男,江苏淮安人,硕士,主要研究领域为自然语言处理;万怀宇(1981-),男,博士,副教授,CCF专业会员,主要研究领域为社交网络挖掘,用户画像;张宇翔(1975-),男,博士,副教授,CCF专业会员,主要研究领域为自然语言处理,网络数据分析;肖春景(1978-),女,讲师,CCF专业会员,主要研究领域为推荐系统,数据挖掘,人工智能;王红(1963-),女,教授,CCF专业会员,主要研究领域为智能信息处理,大数据挖掘.

通讯作者:

张宇翔,E-mail:yxzhang@cauc.edu.cn

中图分类号:

基金项目:

国家自然科学基金(U1533104,U1633110,61603028);中央高校基本科研业务费(ZXH2012P009)


Features Oriented Survey of State-of-the-Art Keyphrase Extraction Algorithms
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (U1533104, U1633110, 61603028); Fundamental Research Funds for the Central Universities (ZXH2012P009)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    面向文本的关键词自动提取一直以来是自然语言处理领域的一个关键基础问题和研究热点.特别是,随着当前对文本数据应用需求的不断增加,使得关键词提取技术进一步得到研究者的广泛关注.尽管近年来关键词提取技术得到长足的发展,但提取结果目前还远未取得令人满意的效果.为了促进关键词提取问题的解决,对近年来国内、外学者在该研究领域取得的成果进行了系统总结,具体包括候选关键词生成、特征工程和关键词提取3个主要步骤,并对未来可能的研究方向进行了探讨和展望.不同于围绕提取方法进行总结的综述文献,主要围绕着各种方法使用的特征信息归纳总结现有成果,这种从特征驱动的视角考察现有研究成果的方式有助于综合利用现有特征或提出新特征,进而提出更有效的关键词提取方法.

    Abstract:

    Keyphrases that efficiently represent the main topics discussed in a document are widely used in various document processing tasks, and automatic keyphrase extraction has been one of fundamental problems and hot research issues in the field of natural language processing (NLP). Although automatic keyphrase extraction has received a lot of attention and the extraction technologies have developed quickly, the state-of-the-art performance on this task is far from satisfactory. In order to help to solve the keyphrase extraction problem, this paper presents a survey of the latest development in keyphrase extraction, mainly including candidate keyphrase generation, feature engineering and keyphrase extraction models. In addition, some published datasets are listed, the evaluation approaches are analyzed, and the challenges and trends of automatic keyword extraction techniques are also discussed. Different from the existing surveys that mainly focus on the models of keyphrase extraction, this paper provides a features oriented survey of automatic keyphrase extraction. This perspective may help to utilize the existing features and propose the new effective extraction approaches.

    参考文献
    相似文献
    引证文献
引用本文

常耀成,张宇翔,王红,万怀宇,肖春景.特征驱动的关键词提取算法综述.软件学报,2018,29(7):2046-2070

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2017-07-19
  • 最后修改日期:2017-11-02
  • 录用日期:
  • 在线发布日期: 2018-02-08
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号