主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2022年专刊出版计划 微信服务介绍 最新一期:2021年第2期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
吴炳潮,邓成龙,关贝,陈晓霖,昝道广,常志军,肖尊严,曲大成,王永吉.动态迁移实体块信息的跨领域中文实体识别模型.软件学报,0,(0):32-0
动态迁移实体块信息的跨领域中文实体识别模型
Dynamically Transfer Entity Span Information for Cross-domain Chinese Named Entity Recognition
投稿时间:2020-10-16  修订日期:2020-12-15
DOI:10.13328/j.cnki.jos.006305
中文关键词:  命名实体识别  迁移学习  跨领域  动态融合  双向长短期记忆神经网络
英文关键词:named entity recognition  transfer learning  cross-domain  dynamic fusion  bidirectional long short-term memory neural network
基金项目:科技部国家重点研发计划重点专项(2017YFB1002303)
作者单位E-mail
吴炳潮 中国科学院 软件研究所 协同创新中心, 北京 100190
中国科学院大学, 北京 100049 
 
邓成龙 中国科学院 软件研究所 协同创新中心, 北京 100190
中国科学院大学, 北京 100049 
 
关贝 中国科学院 软件研究所 协同创新中心, 北京 100190  
陈晓霖 中国科学院 软件研究所 协同创新中心, 北京 100190
中国科学院大学, 北京 100049 
 
昝道广 中国科学院 软件研究所 协同创新中心, 北京 100190
中国科学院大学, 北京 100049 
 
常志军 中国科学院文献情报中心, 北京 100190  
肖尊严 北京理工大学 计算机学院, 北京 100081  
曲大成 北京理工大学 计算机学院, 北京 100081  
王永吉 中国科学院 软件研究所 协同创新中心, 北京 100190
计算机科学国家重点实验室(中国科学院 软件研究所), 北京 100190
中国科学院大学, 北京 100049 
ywang@itechs.iscas.ac.cn 
摘要点击次数: 112
全文下载次数: 44
中文摘要:
      由于中文文本之间没有分隔符,难以识别中文命名实体的边界.此外,在垂直领域中难以获取充足的标记完整的语料,例如医疗领域和金融领域等垂直领域.为解决上述不足,本文提出一种动态迁移实体块信息的跨领域中文实体识别模型(TES-NER),将跨领域共享的实体块信息(Entity Span)通过基于门机制(Gate Mechanism)的动态融合层从语料充足的通用领域(源领域)动态迁移到垂直领域(目标领域)上的中文命名实体模型,其中实体块信息是用于表示中文命名实体的范围.TES-NER模型首先通过双向长短期记忆神经网络(BILSTM)和全连接网络(FCN)构建跨领域共享实体块识别模块,用于识别跨领域共享的实体块信息来确定中文命名实体的边界.然后,通过独立的基于字的双向长短期记忆神经网络和条件随机场(BILSTM-CRF)构建中文命名实体识别模块,用于识别领域指定的中文命名实体.最后构建动态融合层将实体块识别模块抽取得到的跨领域共享实体块信息通过门机制动态决定迁移到领域指定的命名实体识别模型上的量.本文设置通用领域(源领域)数据集为标记语料充足的新闻领域数据集(MSRA),垂直领域(目标领域)数据集为混合领域(OntoNotes5.0)、金融领域(Resume)和医学领域(CCKS2017)三个数据集,其中混合领域数据集(OntoNotes5.0)是融合六个不同垂直领域的数据集.实验结果表明,本文提出的模型在OntoNotes5.0、Resume和CCKS2017三个垂直领域数据集上的F1值相比于双向长短期记忆和条件随机场模型(BiLSTM-CRF)分别高出2.18%、1.68%和0.99%.
英文摘要:
      Boundaries identification of Chinese named entities is a difficult problem because of no separator between Chinese texts. Futhermore, the lack of well-marked NER data make Chinese NER tasks more challenging in vertical domains, such as clinical domain and financial domain. To address aforementioned issues, this paper proposes a novel cross-domain Chinese NER model by dynamically Transferring Entity Span information (TES-NER). The cross-domain shared entity span information is transferred from the general domain (source domain) with sufficient corpus to the Chinese named entity recognition model on the vertical domain (target domain) through a dynamic fusion layer based on the gate mechanism, where the entity span information is used to represent the scope of the Chinese named entities. Specifically, TES-NER first introduces a cross-domain shared entity span recognition module based on a BILSTM layer and a fully connected neural network (FCN) which are used to identify the cross-domain shared entity span information to determine the boundaries of the Chinese named entities. Then, a Chinese named entity recognition module is constructed to identify the domain-specific Chinese named entities by applying independent bidirectional long short-term memory with conditional random field models (BILSTM-CRF). Finally, a dynamic fusion layer is designed to dynamically determine the amount of the cross-domain shared entity span information extracted from the entity span recognition module, which is used to transfer the knowledge to the domain-specific named entity recognition model through the gate mechanism. This paper sets the general domain (source domain) dataset as the news domain dataset (MSRA) with sufficient labeled corpus, while the vertical domain (target domain) datasets are composed of three datasets:mixed domain (ontonotes5.0), financial domain (resume) and medical domain (ccks2017). Among them, the mixed domain dataset (ontonotes5.0) is a corpus integrating six different vertical domains. The F1 values of the model proposed in this paper are 2.18%, 1.68%, and 0.99% higher than the bidirectional long short-term memory with conditional random field model (BILSTM-CRF), respectively.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利