主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2020-2021年专刊出版计划 微信服务介绍 最新一期:2021年第1期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
徐东钦,李军辉,朱慕华,周国栋.基于多任务预训练的AMR文本生成研究.软件学报,0,(0):0
基于多任务预训练的AMR文本生成研究
Improving AMR-to-Text Generation with Multi-Task Pre-Training
投稿时间:2020-07-30  修订日期:2020-10-19
DOI:10.13328/j.cnki.jos.006207
中文关键词:  AMR|AMR文本生成|多任务预训练|序列到序列模型
英文关键词:abstract meaning representation|AMR-to-Text generation|multi-task pre-training|sequence-to-sequence
基金项目:国家重点研发计划项目(2017YFB1002101);国家自然科学基金(61876120)
作者单位E-mail
徐东钦 苏州大学 计算机科学与技术学院, 江苏 苏州 215006  
李军辉 苏州大学 计算机科学与技术学院, 江苏 苏州 215006 jhli@suda.edu.cn 
朱慕华 腾讯科技(北京)有限公司 腾讯新闻, 北京, 100001  
周国栋 苏州大学 计算机科学与技术学院, 江苏 苏州 215006  
摘要点击次数: 413
全文下载次数: 235
中文摘要:
      抽象语义表示(Abstract Meaning Representation,简称AMR)文本生成的任务是给定AMR图,生成与其语义一致的文本.相关工作表明,人工标注语料的规模大小直接影响了AMR文本生成的性能.为了降低对人工标注语料的依赖,本文提出了基于多任务预训练的AMR文本生成方法.特别地,基于大规模自动标注AMR语料,本文提出与AMR文本生成任务相关的三个预训练任务,分别是AMR降噪自编码、句子降噪自编码以及AMR文本生成任务本身.此外,基于预训练模型,本文在朴素微调方法的基础上进一步提出了基于多任务训练的微调方法,使得最终模型不仅适用于AMR文本生成,同时还适用预训练任务.基于两个AMR标准数据集的实验结果表明,使用0.39M自动标注数据,本文提出的预训练方法能够大幅度提高AMR文本生成的性能,在AMR2.0和AMR3.0上分别提高了12.27和7.57个BLEU值,性能分别达到40.30和38.97.其中,在AMR2.0上的性能为目前报告的最优值,在AMR3.0上的性能达到了以往未曾达到的性能.
英文摘要:
      Given an AMR (Abstract Meaning Representation) graph, AMR-to-Text generation aims to generate text with the same meaning. Related studies show that the performance of AMR-to-Text severely suffers from the size of the manually annotated dataset. To alleviate the dependence on manually annotated dataset, in this paper we propose a novel multi-task pre-training for AMR-to-Text generation. In particular, based on large-scale automatic AMR dataset, we define three relevant pre-training tasks, i.e., AMR denoising auto-encoder, sentence denoising auto-encoder, and AMR-to-Text generation itself. In addition, to fine-tune the pre-training models, we further extend the vanilla fine-tuning method to multi-task learning fine-tuning, which enables the final model maintain performance on both AMR-to-Text and pre-training tasks. With automatic dataset of 0.39M sentences, detailed experimentation on two AMR benchmarks shows that the proposed pre-training approach significantly improves the performance of AMR-to-Text generation, with improvement of 12.27 BLEU on AMR2.0 and 7.57 on AMR3.0, respectively. This greately advances the state-of-the-art performance with 40.30 BLEU on AMR2.0 and 38.97 on AMR 3.0, respectively. To our best knowledge, this is the best result achieved so far on AMR 2.0 while we first report AMR-to-Text generation performance on AMR 3.0.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利