姜小波(1972-), 男, 博士, 副教授, 主要研究领域为智能人机交互, 自然语言处理, 知识图谱
何昆(1995-), 男, 硕士, 主要研究领域为自然语言处理, 信息抽取, 知识图谱
阎广瑜(1999-), 男, 硕士, 主要研究领域为自然语言处理, 信息抽取, 数据挖掘
实体识别是信息抽取的关键任务. 随着信息抽取技术的发展, 研究人员从简单实体的识别转向复杂实体的识别. 然而, 复杂实体缺乏明显的特征且在句法结构与词性组成上更加复杂多样, 给实体识别带来了巨大挑战. 此外, 现有模型广泛采用基于跨度的方法来识别嵌套实体, 在实体边界检测方面呈现出模糊化, 影响识别的性能. 针对这些问题和挑战, 提出了一种基于语义先验知识与类型嵌入的实体识别模型GIA-2DPE. 该模型使用实体类别的关键词序列作为语义先验知识来提升对实体的认知, 并通过类型嵌入捕获不同实体类型的潜在特征, 然后通过门控交互注意力机制将先验知识与类型特征相融合以辅助复杂实体识别. 另外, 模型通过2D概率编码来预测实体边界, 并利用边界特征和上下文特征来增强对边界的精准检测, 从而提升嵌套实体的识别效果. 在7个英文数据集和2个中文数据集上进行了广泛实验. 结果表明, GIA-2DPE超越了目前最先进的模型; 并且在ScienceIE数据集的实体识别任务中, 相对基线
Entity recognition is a key task of information extraction. With the development of information extraction technology, researchers turn the research direction from the recognition of simple entities to the recognition of complex ones. Complex entities usually have no explicit features, and they are more complicated in syntactic constructions and parts of speech, which makes the recognition of complex entities a great challenge. In addition, existing models widely use span-based methods to identify nested entities. As a result, they always have an ambiguity in the detection of entity boundaries, which affects recognition performance. In response to the above challenge and problem, this study proposes an entity recognition model GIA-2DPE based on prior semantic knowledge and type embedding. The model uses keyword sequences of entity categories as prior semantic knowledge to improve the cognition of entities, utilizes type embedding to capture potential features of different entity types, and then combines prior knowledge with entity-type features through the gated interactive attention mechanism to assist in the recognition of complex entities. Moreover, the model uses 2D probability encoding to predict entity boundaries and combines boundary features and contextual features to enhance accurate boundary detection, thereby improving the performance of nested entity recognition. This study conducts extensive experiments on seven English datasets and two Chinese datasets. The results show that GIA-2DPE outperforms state-of-the-art models and achieves a 10.4%
实体识别是信息抽取的关键任务, 其目的是从文本中识别出特定类型的实体并将它们正确分类. 目前, 研究人员已经在简单实体的识别任务中取得了较大成功. 例如, Eberts等人[
简单实体与复杂实体样例[
随着自动信息抽取的不断发展, 研究人员不仅需要识别简单实体, 还需要识别信息量更大的复杂实体. 例如任务、方法等类型的实体, 如
与简单实体相比, 复杂实体的识别主要存在两方面挑战. 一方面, 简单实体普遍具备一些明显的特征, 有助于简单实体的准确识别. 例如, 人物类实体由首字母大写的单词组成且一般充当句子主语; 药物类实体则经常包含一些特殊字符. 然而, 复杂实体通常缺乏明显的特征, 采用表层显著特征的方法对识别复杂实体效果较差. 本文通过一种深层语义理解的方法来识别复杂实体. 具体地, 利用实体类别(如任务、方法等)的语义先验知识, 结合上下文信息, 来提高对实体的语义认知, 从而提升复杂实体识别性能. 另一方面, 简单实体通常仅由几个名词构成, 其句法结构简单且词性组成单一, 如
此外, 复杂实体和简单实体一样可能在内部包含了嵌套实体, 如
嵌套实体样例[
针对上述挑战和问题, 本文提出了一种端到端的实体识别模型, 称为GIA-2DPE (gated interactive attention and 2D probability encoder). 首先, 为了增强模型对实体的语义认知, 我们为每个实体类别设计了一段关键词序列作为语义先验知识, 然后将语义先验知识与原文本进行拼接作为模型的输入. 例如, AI领域的“任务”实体类别对应的关键词序列为{task, processing, image, speech, video, information, translation, classification, recognition}. 其次, 我们在模型中添加了一个可训练的专用嵌入矩阵ETE (entity type embedding), 以支持模型自适应地学习不同实体类别对应的潜在特征向量.
为了综合利用上述先验知识与类别特征来辅助复杂实体的识别, GIA-2DPE模型使用了提出的门控交互注意力(GIA)机制. 该方法通过注意力机制将先验知识表示和类别特征向量分别与上下文表示进行交互, 并将交互结果通过一个“融合门”函数进行结合, 来获取上下文中各词语与识别内容的相关度, 从而缓解了复杂实体因缺乏明显的特征而难以被识别的问题.
此外, 为了增强对实体边界的精准检测, GIA-2DPE模型使用提出的一种2D概率编码(2DPE)机制来识别嵌套实体. 该方法将跨度分类任务转化为实体边界的检测任务, 使模型能够预测出作为实体边界的词语, 从而实现对实体边界的监督. 同时, 该方法通过捕获实体的边界特征以及全局上下文特征来进一步辅助模型对实体边界的精准检测, 从而提升对嵌套实体的识别性能.
我们在7个英文数据集和2个中文数据集上进行了广泛的实体识别实验. 结果显示, GIA-2DPE模型在性能上超越了目前最先进的模型; 并且与基线
本文的主要贡献如下.
(1) 针对复杂实体识别困难的问题, 提出利用语义先验知识与类别嵌入来辅助识别, 结合提出的GIA机制, 提升了复杂实体的识别性能.
(2) 针对嵌套实体识别中的实体边界模糊化问题, 提出了2DPE机制来增强对实体边界的精准检测, 提升了嵌套实体的识别性能.
(3) 在上述工作的基础上构建了实体识别模型GIA-2DPE, 在9个相关数据集上取得了最先进的性能.
随着信息抽取技术的不断发展, 研究人员提出了各种基于神经网络的实体识别模型, 并且成功地应用于生物医学、材料科学以及新闻等领域[
这些研究识别的实体大部分是一些简单实体, 它们通常仅由几个名词组成. 例如, Friedrich等人[
简单实体包含的信息太少, 无法完全满足信息抽取的需求. 尤其在科学技术领域, 研究人员还需要信息量更大的复杂实体, 例如任务、方法等类型的实体, 它们反映了领域的发展和研究现状.
然而, 这些复杂实体通常具有短语结构, 不仅更长且在语义、句法结构和词性组成上更加复杂. 例如,
与上述模型相比, 本文模型使用提出的一种门控交互注意力机制来提升复杂实体的识别性能. 该机制利用额外的实体类别的语义先验知识来辅助识别, 以增强模型对实体的语义认知, 从而明确上下文中哪些部分与识别内容相关, 一定程度上弥补了复杂实体特征不明显的缺陷. 同时, 该机制还利用了不同实体类别的潜在特征, 有利于模型识别出具有复杂结构的实体.
无论在简单实体还是复杂实体中都有可能存在嵌套实体(即实体内部包含的实体), 例如
目前, 研究人员针对嵌套实体的识别提出了许多解决方案. 一部分工作致力于使用复杂的转化机制将嵌套结构转化为扁平结构. 例如Shibuya等人[
与上述模型相比, 本文模型提出了一种2D概率编码方法来识别嵌套实体. 该方法将跨度分类任务转化为实体边界的检测任务, 使模型预测那些作为实体边界的词语, 并且通过捕获实体的边界特征和全局上下文特征来进一步辅助边界的精准检测, 从而提升了嵌套实体识别的效果.
定义
由定义1可知, 实体识别有两种实现方式. 方式1先将所有实体抽取出来, 形成实体集
本文采用方式2进行实体识别. 为了增强模型对目标类型实体的认知, 我们为每个实体类别
在自然语言处理中, 通常先对输入文本进行分词, 得到输入序列
在提出的GIA-2DPE模型中, 输入包括输入序列
GIA-2DPE模型的整体框架如
GIA-2DPE模型整体框架
(1) 嵌入模块(embedding): 对
(2) 门控交互注意力模块(GIA): 利用
(3) 2D概率编码模块(2DPE): 利用
(4) 过滤模块(filter): 对
嵌入模块包括两部分: 使用预训练模型将单词编码成向量(即词嵌入); 以及自适应地学习不同实体类别
预训练模型的输入序列
其中,
在词嵌入之前, 我们使用BPE编码[
然后, 我们使用预训练模型DeBERTa[
其中,
本文选择DeBERTa而不使用其他常用的预训练模型(例如BERT和SciBERT等), 有如下两个主要原因: 第一, DeBERTa采用内容和位置信息相互分离的自注意机制, 其对于两个词语的注意力权重不仅取决于它们的内容, 而且取决于它们的相对位置, 例如单词“deep”和“learning”相邻出现时, 它们之间的依赖性要比相距较远时强得多. 这种改进有利于普遍较长的复杂实体的识别. 第二, DeBERTa的输出层采用了一种增强型的掩码解码机制(EMD), 一定程度上缓解了预训练和微调之间的不匹配.
除了文本语义的词嵌入, 我们还考虑了实体在不同类别上的不同特征, 构建了一个
对于中文文本, 我们直接以字为单位进行分词, 并使用中文BERT进行词嵌入, 其余步骤同上.
门控交互注意力模块(GIA)旨在利用实体类别的语义先验知识以及实体的类别特征来进行门控交互注意力计算, 使模型增强对实体的认知, 以明确上下文中哪些部分与识别内容相关, 有利于缓解复杂实体难以识别的问题. 该模块的输入为
门控交互注意力模块
首先, 我们对
接着, 通过2个不同的线性映射以及高斯误差线性单元(
再将
然后, 通过线性变换将
利用
最后, 通过提出的概率化函数
其中,
我们构造了两个独立的GIA模块来分别执行上述步骤, 得到了实体的起始边界与结束边界对应的两个初始概率分布向量
2D概率编码模块(2DPE)旨在使用一维卷积运算和自注意力机制来捕获实体的边界特征(包括起始和结束边界)以及全局上下文特征, 并将这些特征映射成一个2D概率分布矩阵来对实体的边界进行精准检测. 该模块的输入为
2D概率编码模块
首先, 我们使用大小为1×
接着, 通过不同的线性映射以及
然后, 使用
最后, 通过
矩阵
过滤模块旨在对初始概率分布
过滤模块
首先, 由于特殊符号“[CLS]”“[SEP]”以及关键词序列
接着, 我们对矩阵
最后, 对于英文文本, 考虑到我们采用了BPE分词, 一些生僻词会被切分成多个片段, 例如“hypergraph”会被切分成“hyper”和“graph”两个词片段. 对于每一个被切分的词
算法
输入: 切分区间集
输出: 过滤后的概率分布
1.
2. 第
3. 词片段对应概率中的最大值
4.
5.
6.
7. 删除矩阵
8. 删除向量
9.
10.
11. 删除矩阵
12. 删除向量
13.
14.
15.
16.
本文通过最小化训练集上的损失函数来训练提出的GIA-2DPE模型. 损失函数如公式(28)所示, 它由3部分相加而成, 并由一个超参数
其中,
本文采用反向传播(BP)算法来对GIA-2DPE模型的参数进行更新. 此外, 为了避免训练过程中出现梯度爆炸的问题, 我们将梯度的L2范数限制在1.0以内.
在推理阶段, 对于给定的文本
Step 1. 对
Step 2. 以
Step 3. 最终的实体识别结果为
算法
输入: 序列
输出: 目标类型的实体集合
1. 初始化一个空集合
2.
3.
4.
5. 目标类型实体
6.
7.
8.
9.
10.
本文在9个具有代表性的实体识别任务的数据集上进行了实验. 这些数据集包括: 2个包含复杂实体和嵌套实体的英文数据集SciERC和ScienceIE; 3个包含嵌套实体的英文数据集GENIA、ACE04和ACE05; 2个以扁平的简单实体为主的英文数据集ADE和SOFC-Exp; 以及2个以简单扁平实体为主的中文数据集MSRA和OntoNotes 4.0中文版.
(1) SciERC: 文本来源于AI领域文献的摘要. 实体类别分为6种: Task, Method, Material, Metric, Generic和Other-Scientific-Term (OST). 其中, Task和Method类别的实体大部分是具有短语结构的复杂实体, 其他类别的实体则以简单实体为主. 另外, 这些实体中还存在少量的嵌套实体.
(2) ScienceIE: 文本来源于材料科学、计算机科学以及物理学领域的文献. 实体类别分为3种: Task, Material和Processing. 其中, Task与Processing类别的实体大部分为复杂实体; 而Material类别的实体则以简单实体为主; 并且这些实体中还包含了大量的嵌套实体.
(3) GENIA: 文本来源于生物医学领域文献的摘要. 该数据集共有36种细粒度的实体类别, 相关工作通常将这些子类别归纳为5种粗粒度的实体类别: Protein, DNA, RNA, Cell Type以及Cell Line. 该数据集的实体均为简单实体, 但包含了大量的嵌套实体.
(4) ACE04和ACE05: 文本来源于新闻报刊. 实体类型分为7种: Person (PER), Location (LOC), Organization (ORG), Facility (FAC), Weapon (WEA), Vehicle (VEH)以及Geographical-Entities (GPE). 所有实体均为简单实体, 但包含了大量的嵌套实体, 并且嵌套层数较深.
(5) ADE: 文本来源于电子医疗报告. 该数据集的实体类别只分为两种: Drug和Adverse-Effect. 所有实体均为扁平的简单实体.
(6) SOFC-Exp: 文本来源于材料科学领域的论文. 实体类型分为4种: Material, Device, Experiment和Value. 所有实体均为简单实体, 且不存在嵌套实体.
(7) MSRA: 文本来源于新闻报刊. 实体类型共3种: 人物, 地点和机构. 所有实体均为简单扁平实体.
(8) OntoNotes 4.0中文版: 文本来源于新闻报刊. 实体类型有4种: 人物, 地点, 组织和地理政治实体. 所有实体均为简单扁平实体.
我们对上述9个数据集进行了信息探索, 包括实体平均长度、嵌套实体占比和最大嵌套层数等信息, 结果如
实体识别任务数据集
数据集 | 是否包含
|
是否包含
|
实体
|
嵌套实体
|
最大
|
SciERC | √ | √ | 4.6 | 3.4 | 2 |
ScienceIE | √ | √ | 5.2 | 18.2 | 2 |
GENIA | × | √ | 4.1 | 10.1 | 3 |
ACE04 | × | √ | 3.2 | 24.4 | 5 |
ACE05 | × | √ | 2.9 | 22.3 | 5 |
ADE | × | × | 2.7 | - | - |
SOFC-Exp | × | × | 3.9 | - | - |
MSRA | × | × | 2.5 | - | - |
OntoNotes 4.0 | × | × | 3.4 | - | - |
实体识别任务的评估指标通常包括精确率(precision,
其中,
另外, 上述评估指标的计算方式通常有两种: 一种是先计算各个类别的结果, 再取平均(称为Macro方式); 另一种将所有类别的结果进行汇总再计算(称为Micro方式). 为了与相关工作保持一致, 我们在ADE和SOFC-Exp数据集上采用Macro方式进行评估; 在其他数据集上采用Micro方式进行评估.
为了增强模型对目标类型实体的语义认知, 我们为每个实体类别设计了一段关键词序列作为解释说明, 如
实体类别的关键词序列
数据集 | 实体类别 | 关键词序列 |
SciERC | Task | task, processing, image, speech, video, information, translation, classification, recognition |
Method | method, techniques, approach, algorithm, model, framework, network | |
Material | structured, annotated, Chinese, English, data, corpus, corpora, text, image, speech, video | |
Metric | metrics, accuracy, precision, recall, |
|
Generic | general, common, scientific, term | |
OST | other scientific term | |
ScienceIE | Task | task, analysis, problems, design |
Material | material, data, particles, surface | |
Processing | process, model, method, algorithm, approach | |
GENIA | Protein | protein, organic, compounds, body, tissues, muscle, hair, collagen, enzymes, antibodies |
DNA | DNA, deoxyribonucleic acid | |
RNA | RNA, ribonucleic acid | |
Cell Type | cell type category | |
Cell Line | cell line group | |
ACE04
|
PER | person, human, single, individual, group |
LOC | geographical location, areas, landmasses, mountains, water, geological formations | |
ORG | organization, companies, corporations, agencies, institutions, groups of people | |
FAC | facility, buildings, man-made structures, airports, highways, bridges | |
WEA | weapon, physical devices, instruments, physically harming guns, arms, gunpowder | |
VEH | vehicle, devices, move, carry, transported, helicopters, trains, ship, motorcycles | |
GPE | geographical, political, countries, nations, regions, cities, states, government, social group | |
ADE | Drug | drug, interferon, methotrexate, alpha, beta, lithium acid, amiodarone carbamazepine |
Adverse-Effect | severe acute syndrome, symptoms, reaction effects, toxicity, hypersensitivity, disease | |
SOFC-Exp | Material | material, anode, cathode, electrolyte, fuel, interlayer, support |
Device | device SOFC | |
Experiment | experiment evoking word | |
Value | value, voltage, current, power, resistance, thickness, temperature | |
MSRA | 人物 | 人物, 名人, 人, 人类, 个体, 人群, 大众 |
地点 | 地点, 地理位置, 地域, 区域, 景点, 景区, 山区, 河流流域 | |
组织机构 | 组织机构, 公司, 企业, 事务所, 学校, 警局, 医院, 馆, 厂 | |
OntoNotes 4.0 | 人物 | 人物, 名人, 人, 人类, 个体, 人群, 大众 |
地点 | 地点, 地理位置, 地域, 区域, 景点, 景区, 山区, 河流流域 | |
组织机构 | 组织机构, 公司, 企业, 事务所, 学校, 警局, 医院, 馆, 厂 | |
地理政治实体 | 地理政治实体, 国家, 国籍, 人种, 宗教, 政府, 省, 市, 区, 镇 |
实验在GTX1080Ti GPU上完成. 我们使用Spacy工具来进行初步的英文分词, 并将用于训练的输入序列的长度控制在64个词语以内(受GPU显存限制). 使用的英文预训练模型DeBERTa的词典大小为50 265, 词向量的维度为1 024; 中文BERT的词典大小为21 128, 词向量维度为768. 在训练过程中, 我们采用一种优化的梯度下降算法AdamW, 并设置权重衰减率为0.01. 训练集和测试集的批大小(batch size)分别为4和16. 损失函数中的系数
实验参数配置
数据集 | 训练轮数 | 学习率 | dropout | ||
SciERC | 10 | 5×10−6 | 0.3 | 0.5 | 20 |
ScienceIE | 15 | 5×10−6 | 0.2 | 0.5 | 25 |
GENIA | 5 | 8×10−6 | 0.3 | 0.5 | 15 |
ACE04 & ACE05 | 10 | 8×10−6 | 0.3 | 0.5 | 15 |
ADE | 10 | 1×10−5 | 0.4 | 0.6 | 10 |
SOFC-Exp | 15 | 8×10−6 | 0.4 | 0.7 | 15 |
MSRA | 10 | 1×10−5 | 0.5 | 0.5 | 10 |
OntoNotes 4.0 | 12 | 1×10−5 | 0.3 | 0.6 | 10 |
本文在上述9个数据集上对提出的GIA-2DPE模型分别进行了训练. 训练过程中, 各训练集上的平均损失变化曲线如
训练集上的平均损失变化曲线
(1) BERT+BiLSTM: 基于序列标注的一种主流实体识别模型, 在相关工作中被广泛用作基准模型.
(2) SpERT: 一种具有代表性的基于跨度分类的实体识别模型, 由Eberts等人[
(3) Multi-Turn QA: Li等人[
我们在包含复杂实体的SciERC和ScienceIE数据集上进行了实验, 结果如
复杂实体识别的实验结果(%)
数据集 | 模型 | |||
SciERC | *BERT+BiLSTM[ |
65.6 | 62.1 | 63.8 |
SCIIE[ |
67.2 | 61.5 | 64.2 | |
BERT-MRC[ |
69.5 | 62.2 | 65.6 | |
SPE[ |
67.7 | 66.1 | 66.9 | |
*SpERT[ |
68.5 | 66.7 | 67.6 | |
ENPAR[ |
- | - | 67.9 | |
PURE[ |
- | - | 68.9 | |
RHGN[ |
- | - | 69.8 | |
GIA-2DPE (ours) | ||||
ScienceIE | SciBERT+BiLSTM[ |
55.0 | 49.5 | 52.1 |
*BERT+BiLSTM[ |
55.6 | 49.2 | 52.2 | |
SciBERT+JLSD[ |
- | - | 54.6 | |
BERT+JLSD[ |
- | - | 55.4 | |
BERT-MRC[ |
57.5 | 54.2 | 55.8 | |
SEAL[ |
- | - | 56.4 | |
RoBERTa+CRF[ |
62.3 | 55.3 | 58.6 | |
XLNet+CRF[ |
64.7 | 56.1 | 60.1 | |
GIA-2DPE (ours) |
对于
我们在包含嵌套实体的GENIA、ACE04和ACE05这3个数据集上也进行了实验, 结果如
嵌套实体识别的实验结果(%)
数据集 | 模型 | |||
GENIA | HGN+BR+LR[ |
72.9 | 79.4 | 75.9 |
*BERT+BiLSTM[ |
76.7 | 76.7 | 76.8 | |
Dispatched Attention[ |
73.8 | 76.8 | ||
Multi-Agent[ |
77.2 | 76.6 | 76.9 | |
Path-BERT[ |
77.8 | 76.9 | 77.4 | |
BERT+Seq2Seq[ |
- | - | 78.2 | |
BioBERT+TreeCRFs[ |
78.2 | 78.2 | 78.2 | |
BERT+BENSC[ |
79.2 | 77.4 | 78.3 | |
GIA-2DPE (ours) | 80.1 | |||
ACE04 | *Multi-Turn QA[ |
84.4 | 82.9 | 83.6 |
BERT+Seq2Seq[ |
- | - | 84.3 | |
Path-BERT[ |
85.9 | 85.7 | 85.8 | |
BERT-MRC[ |
85.1 | 86.3 | 86.0 | |
BERT+TreeCRFs[ |
86.7 | 86.5 | 86.6 | |
BERT+Seq2Set[ |
86.1 | 87.3 | ||
BERT+SoftNMS[ |
87.4 | 87.4 | 87.4 | |
GIA-2DPE (ours) | 88.4 | |||
ACE05 | BERT+Seq2Seq[ |
- | - | 83.4 |
Path-BERT[ |
83.8 | 84.9 | 84.3 | |
*Multi-Turn QA[ |
84.7 | 84.9 | 84.8 | |
BERT+TreeCRFs[ |
84.5 | 86.4 | 85.4 | |
MRC4ERE++[ |
- | - | 85.5 | |
BERT-MRC[ |
87.2 | 86.6 | 86.9 | |
BERT+SoftNMS[ |
86.1 | 87.3 | 86.7 | |
BERT+Seq2Set[ |
87.5 | 86.6 | 87.1 | |
GIA-2DPE (ours) |
在
另外, 考虑到上述SciERC和ScienceIE数据集中同样存在嵌套实体, 我们将这5个数据集上的
为了验证本文的模型具有泛化性, 我们还在以简单扁平实体为主的英文数据集ADE、SOFC-Exp以及中文数据集MSRA、OntoNotes 4.0上进行了实验, 结果如
简单扁平实体识别的实验结果 (%)
数据集 | 模型 | |||
ADE | DAPNA[ |
90.8 | 86.2 | 88.4 |
*SpERT[ |
89.0 | 89.6 | 89.3 | |
CMAN[ |
- | - | 89.4 | |
BERT+FFNN[ |
89.5 | 89.9 | 89.6 | |
BERT+TSE[ |
- | - | 89.7 | |
BERT+TriMF[ |
89.5 | 91.3 | 90.4 | |
SPANMulti-Head[ |
89.9 | 91.3 | 90.6 | |
KECI[ |
- | - | 90.7 | |
GIA-2DPE (ours) | ||||
SOFC-Exp | *BERT+BiLSTM[ |
81.5 | 78.1 | 79.7 |
SciBERT+BiLSTM[ |
82.7 | 80.4 | 81.5 | |
GIA-2DPE (ours) | ||||
MSRA | Lattice-LSTM[ |
93.6 | 92.8 | 93.2 |
*BERT+BiLSTM[ |
95.0 | 94.6 | 94.8 | |
Glyce-BERT[ |
95.6 | 95.5 | 95.5 | |
BERT-MRC[ |
95.1 | 95.8 | ||
GIA-2DPE (ours) | 96.1 | |||
OntoNotes 4.0 | Lattice-LSTM[ |
76.4 | 71.6 | 73.9 |
*BERT+BiLSTM[ |
78.0 | 80.4 | 79.2 | |
Glyce-BERT[ |
81.9 | 81.4 | 81.6 | |
BERT-MRC[ |
83.0 | 81.3 | 82.1 | |
GIA-2DPE (ours) |
注意到GIA-2DPE模型在SOFC-Exp数据集上的提升很大, 我们分析了该数据集中不同类别实体的
不同类别实体(来自SOFC-Exp数据集)的
模型 | Material | Device | Experiment | Value |
*BERT+BiLSTM[ |
88.1 | 81.5 | 76.0 | 72.9 |
GIA-2DPE (ours) | ||||
6.8 | 3.1 | 8.8 | 2.7 |
GIA-2DPE模型由4部分组成: 嵌入模块(内含类别嵌入矩阵ETE)、门控交互注意力模块(GIA)、2D概率编码模块(2DPE)以及过滤模块(filter). 为了分析不同模块对实体识别性能的影响, 我们在提出的GIA-2DPE模型上进行了消融实验, 结果如
GIA-2DPE模型的消融实验结果(
模块 | SciERC | ScienceIE | GENIA | ACE04 | ACE05 | ADE | SOFC-Exp | MSRA | OntoNotes 4.0 |
GIA-2DPE | |||||||||
w/o ETE | 69.4 | 61.1 | 79.2 | 87.3 | 87.6 | 91.2 | 83.8 | 95.8 | 82.7 |
w/o DeBERTa | 69.3 | 60.5 | 79.4 | 86.6 | 87.1 | 90.9 | 84.2 | - | - |
w/o GIA | 69.0 | 60.2 | 78.8 | 87.7 | 87.9 | 91.1 | 84.1 | 95.8 | 82.4 |
w/o 2DPE | 69.9 | 60.7 | 78.6 | 85.3 | 86.2 | 90.8 | 84.0 | 95.9 | 82.4 |
w/o Filter | 69.1 | 60.9 | 79.0 | 86.8 | 87.3 | 90.7 | 83.5 | 96.0 | 82.6 |
嵌入模块包括预训练模型和专用嵌入矩阵ETE, 二者分别用于获取词向量和不同实体类别的潜在特征向量. 从
此外, 为了证明本文模型的有效性不完全归功于DeBERTa, 我们还将该模块中的DeBERTa替换为广泛使用的BERT (中文数据集上的实验不用替换, 因为原本使用的就是BERT). 结合
此外, 我们还从另一角度分析了GIA模块的有效性. 考虑到Zheng等人[
不同的实体平均长度下的
从
另外, 我们还将各数据集上的
不同的嵌套实体占比下的
为了更加直观地解释提出的GIA-2DPE模型的工作流程和效果, 本文对预处理好的GENIA数据集中的一个典型样例进行了案例分析. 该样例如
典型样例(来源于GENIA数据集)
首先, 我们将
交互注意力分数的可视化
其次, 我们对filter模块中的3个计算结果: 起始边界概率分布
概率分布的可视化
本文提出了一种能够有效提升复杂实体识别性能的神经网络模型GIA-2DPE. 该模型利用实体类别的语义先验知识增强了对实体的认知, 并通过专用嵌入矩阵自适应地捕获了不同实体类别的潜在特征, 同时利用提出的GIA机制将先验知识与类别特征相结合来辅助识别, 在复杂实体识别任务的基线
Gurulingappa H, Rajput AM, Roberts A, Fluck J, Hofmann-Apitius M, Toldo L. Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports. Journal of Biomedical Informatics, 2012, 45(5): 885–892.
Li J, Sun AX, Han JL, Li CL. A survey on deep learning for named entity recognition. IEEE Trans. on Knowledge and Data Engineering, 2022, 34(1): 50–70.
Shibuya T, Hovy E. Nested named entity recognition via second-best sequence learning and decoding. Trans. of the Association for Computational Linguistics, 2020, 8: 605–620.
Huang HY, Lei M, Feng C. Hypergraph network model for nested entity mention recognition. Neurocomputing, 2021, 423: 200–206.
Li F, Wang Z, Hui SC, Liao LJ, Zhu XH, Huang HY. A segment enhanced span-based model for nested named entity recognition. Neurocomputing, 2021, 465: 26–37.
Wan Q, Wei LN, Chen XH, Liu J. A region-based hypergraph network for joint entity-relation extraction. Knowledge-based Systems, 2021, 228: 107298.
Jiang D, Ren HP, Cai Y, Xu JY, Liu YX, Leung HF. Candidate region aware nested named entity recognition. Neural Networks, 2021, 142: 340–350.
Fei H, Ren YF, Ji DH. Dispatched attention with multi-task learning for nested mention recognition. Information Sciences, 2020, 513: 241–251.
Li CG, Wang GH, Cao J, Cai Y. A multi-agent communication based model for nested named entity recognition. IEEE/ACM Trans. on Audio, Speech, and Language Processing, 2021, 29: 2123–2136.
Kong LY, Lai QH, Liu S. End-to-end drug entity recognition and adverse effect relation extraction via principal neighbourhood aggregation network. Journal of Physics: Conference Series, 2021, 1848: 012110.