宏观篇章结构表示体系和语料建设
作者:
作者单位:

作者简介:

褚晓敏(1981-),女,江苏苏州人,博士,讲师,CCF专业会员,主要研究领域为自然语言处理,篇章分析;徐昇(1994-),男,博士生,CCF学生会员,主要研究领域为自然语言处理,篇章分析;奚雪峰(1978-),男,博士,副教授,CCF专业会员,主要研究领域为自然语言理解,人机智能交互,机器学习;朱巧明(1963-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为自然语言理解,信息抽取,信息检索,知识图谱;蒋峰(1994-),男,博士生,CCF学生会员,主要研究领域为自然语言处理,篇章分析;周国栋(1967-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为自然语言理解,机器翻译,信息抽取,信息检索,机器学习.

通讯作者:

朱巧明,E-mail:qmzhu@suda.edu.cn

中图分类号:

TP18

基金项目:

国家自然科学基金(61773276,61673290,61836007)


Macro Discourse Structure Representation Schema and Corpus Construction
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61773276, 61673290, 61836007)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    篇章结构分析是自然语言处理领域的一个重要研究方向.篇章结构分析有助于理解篇章的结构和语义,并为自然语言处理的应用(如自动文摘、信息抽取、问答系统等)提供有力的支撑.目前,篇章结构分析主要集中在微观的层面,分析的重点是句子内部或句子与句子之间的关系和结构,而宏观层面的研究相对较少.因此,以篇章结构作为研究对象,并将研究重点放在宏观篇章结构的表示体系和语料资源建设上.探讨了篇章结构分析的重要性,从理论体系、语料资源、计算模型这3个方面阐述了篇章结构分析的研究现状,提出了以篇章主次关系为媒介的宏观和微观统一的篇章结构表示框架,并分别构建了宏观篇章的逻辑语义结构和功能语用结构.在此基础上,标注了规模为720篇新闻报道的宏观篇章结构语料,并对标注的结果进行了一致性分析和标注统计分析.

    Abstract:

    Discourse structure analysis is an important research topic in natural language processing. Discourse structure analysis not only helps to understand the discourse structure and semantics, but also provides strong support for deep applications of natural language processing, such as automatic summarization, information extraction, question answering, etc. At present, the analysis of discourse structure is mainly concentrated on the micro level. The analysis focuses on the relations and structures between sentences or sentences groups, while the analysis on macro level is less. Therefore, this study takes discourse structure as the research object, and focuses on the construction of representation schema and corpus resources on the macro level. This study discusses the importance of discourse structure analysis, expounds the research status of discourse structure analysis from three aspects, namely, theory system, corpora resource, and computing model, and puts forward the macro-micro unified discourse structure representation framework with the primary-secondary relation as the carrier. Furthermore, this study constructs the logical semantic structure and functional pragmatic structure of macro discourse level respectively. On this basis, this study annotates a macro Chinese discourse structure corpus, consisting of 720 newswire articles, and analyzes the results of the annotations in consistency and statistical data.

    参考文献
    相似文献
    引证文献
引用本文

褚晓敏,奚雪峰,蒋峰,徐昇,朱巧明,周国栋.宏观篇章结构表示体系和语料建设.软件学报,2020,31(2):321-343

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-01-09
  • 最后修改日期:2019-04-19
  • 录用日期:
  • 在线发布日期: 2019-08-12
  • 出版日期: 2020-02-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号