rjxb

软件学报

Journal of Software

1000-9825

软件学报编辑部

中国北京

6750

8f51464712bb4e83e46e857a3d00f8fe12c4fd1a8d70dc9c82accecc57d86492

10.13328/j.cnki.jos.006750

模式识别与人工智能

PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE

基于语义先验知识与类型嵌入的复杂实体识别

Complex Entity Recognition Based on Prior Semantic Knowledge and Type Embedding

姜

小波

JIANG

Xiao-Bo

姜小波(1972－), 男, 博士, 副教授, 主要研究领域为智能人机交互, 自然语言处理, 知识图谱

jiangxb@scut.edu.cn

何

昆

Kun

何昆(1995－), 男, 硕士, 主要研究领域为自然语言处理, 信息抽取, 知识图谱

hk15616172426@163.com *

阎

广瑜

YAN

Guang-Yu

阎广瑜(1999－), 男, 硕士, 主要研究领域为自然语言处理, 信息抽取, 数据挖掘

3153954734@qq.com

华南理工大学电子与信息学院, 广东广州 510641

School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510641, China

何昆, E-mail: hk15616172426@163.com

7 10 2023

15 2 2023

34 12 5649 5669 2 12 2021 23 7 2022 25 2 2022

2023

姜小波, 何昆, 阎广瑜. 基于语义先验知识与类型嵌入的复杂实体识别. 软件学报, 2023, 34(12): 5649–5669

Jiang XB, He K, Yan GY. Complex Entity Recognition Based on Prior Semantic Knowledge and Type Embedding. Ruan Jian Xue Bao/Journal of Software, 2023, 34(12): 5649–5669 (in Chinese)

实体识别是信息抽取的关键任务. 随着信息抽取技术的发展, 研究人员从简单实体的识别转向复杂实体的识别. 然而, 复杂实体缺乏明显的特征且在句法结构与词性组成上更加复杂多样, 给实体识别带来了巨大挑战. 此外, 现有模型广泛采用基于跨度的方法来识别嵌套实体, 在实体边界检测方面呈现出模糊化, 影响识别的性能. 针对这些问题和挑战, 提出了一种基于语义先验知识与类型嵌入的实体识别模型GIA-2DPE. 该模型使用实体类别的关键词序列作为语义先验知识来提升对实体的认知, 并通过类型嵌入捕获不同实体类型的潜在特征, 然后通过门控交互注意力机制将先验知识与类型特征相融合以辅助复杂实体识别. 另外, 模型通过2D概率编码来预测实体边界, 并利用边界特征和上下文特征来增强对边界的精准检测, 从而提升嵌套实体的识别效果. 在7个英文数据集和2个中文数据集上进行了广泛实验. 结果表明, GIA-2DPE超越了目前最先进的模型; 并且在ScienceIE数据集的实体识别任务中, 相对基线F1分数取得了最高10.4%的提升.

Entity recognition is a key task of information extraction. With the development of information extraction technology, researchers turn the research direction from the recognition of simple entities to the recognition of complex ones. Complex entities usually have no explicit features, and they are more complicated in syntactic constructions and parts of speech, which makes the recognition of complex entities a great challenge. In addition, existing models widely use span-based methods to identify nested entities. As a result, they always have an ambiguity in the detection of entity boundaries, which affects recognition performance. In response to the above challenge and problem, this study proposes an entity recognition model GIA-2DPE based on prior semantic knowledge and type embedding. The model uses keyword sequences of entity categories as prior semantic knowledge to improve the cognition of entities, utilizes type embedding to capture potential features of different entity types, and then combines prior knowledge with entity-type features through the gated interactive attention mechanism to assist in the recognition of complex entities. Moreover, the model uses 2D probability encoding to predict entity boundaries and combines boundary features and contextual features to enhance accurate boundary detection, thereby improving the performance of nested entity recognition. This study conducts extensive experiments on seven English datasets and two Chinese datasets. The results show that GIA-2DPE outperforms state-of-the-art models and achieves a 10.4% F1 boost compared with the baseline in entity recognition tasks on the ScienceIE dataset.

信息抽取复杂实体识别门控交互注意力机制 2D概率编码

information extraction complex entity recognition gated interactive attention 2D probability encoding

国家自然科学基金(U1801262); 广东省科技计划(2019B010154003)

实体识别是信息抽取的关键任务, 其目的是从文本中识别出特定类型的实体并将它们正确分类. 目前, 研究人员已经在简单实体的识别任务中取得了较大成功. 例如, Eberts等人^[1]对医疗报告中的药物与副作用类型的实体进行了识别, 取得了89.3%的F1分数; Friedrich等人^[2]识别了材料科学文献中的材料、器件等类型的实体, F1分数达到了81.5%; Li等人^[3]则以84.8%的F1分数识别了新闻文本中的人物、机构等类型的实体. 然而, 这些简单实体通常仅由几个名词组成, 包含的信息太少, 如图1(a)所示.

简单实体与复杂实体样例^{[2, 5–8]}

随着自动信息抽取的不断发展, 研究人员不仅需要识别简单实体, 还需要识别信息量更大的复杂实体. 例如任务、方法等类型的实体, 如图1(b)所示. 复杂实体通常由短语组成, 在语义、句法结构和词性组成上都更加复杂, 给相关模型带来了巨大挑战. 例如, Sahrawat等人^[4]使用先进的预训练模型对材料学和计算机科学等领域文献中的任务、处理方式等类型的实体进行了识别, 得到的F1分数为52.2%. Luan等人^[5]则使用精心设计的模型SCIIE对AI领域文献中的任务、方法等类型的实体进行了识别, 结果为64.2%.

与简单实体相比, 复杂实体的识别主要存在两方面挑战. 一方面, 简单实体普遍具备一些明显的特征, 有助于简单实体的准确识别. 例如, 人物类实体由首字母大写的单词组成且一般充当句子主语; 药物类实体则经常包含一些特殊字符. 然而, 复杂实体通常缺乏明显的特征, 采用表层显著特征的方法对识别复杂实体效果较差. 本文通过一种深层语义理解的方法来识别复杂实体. 具体地, 利用实体类别(如任务、方法等)的语义先验知识, 结合上下文信息, 来提高对实体的语义认知, 从而提升复杂实体识别性能. 另一方面, 简单实体通常仅由几个名词构成, 其句法结构简单且词性组成单一, 如图1(a)所示. 而复杂实体在句法结构和词性组成上具有多样性, 进一步加剧了识别难度. 例如图1(b)中的任务类型实体样例包含了多种词性的词语, 且句法结构为定语从句. 本文发现, 捕获并利用不同实体类型蕴含的潜在特征来辅助识别, 可以提升复杂实体识别的性能.

此外, 复杂实体和简单实体一样可能在内部包含了嵌套实体, 如图2所示. 为了避免信息丢失, 现有模型广泛采用基于跨度的方法来识别嵌套实体: 首先枚举出所有的跨度, 使嵌套实体从外围实体中分离出来, 例如“NF-chi B site”的跨度为“NF-”“chi”“B”“site”“NF-chi”“chi B”“B site”“NF-chi B”和“chi B site”; 然后对所有跨度进行分类来判断哪些是实体, 并在相关数据集^{[7, 9, 10]}上展现了先进性能. 不过, 这些模型专注于学习跨度自身的表征, 通常难以分辨一些具有细微差别的跨度^[11]. 例如, 两个跨度“chi B”和“chi B site”只有微小的边界差异, 两者的表征具有相似性, 但前者是嵌套实体而后者不是, 相关模型凭借表征来分辨这两个跨度容易造成混淆(即边界模糊化); 但如果根据结束边界是“B”还是“site”来进行分辨则不容易混淆. 本文采用实体边界的精准检测方法替代基于跨度的方法, 以避免这种模糊化, 从而提高识别性能.

嵌套实体样例^{[5, 10]}

针对上述挑战和问题, 本文提出了一种端到端的实体识别模型, 称为GIA-2DPE (gated interactive attention and 2D probability encoder). 首先, 为了增强模型对实体的语义认知, 我们为每个实体类别设计了一段关键词序列作为语义先验知识, 然后将语义先验知识与原文本进行拼接作为模型的输入. 例如, AI领域的“任务”实体类别对应的关键词序列为{task, processing, image, speech, video, information, translation, classification, recognition}. 其次, 我们在模型中添加了一个可训练的专用嵌入矩阵ETE (entity type embedding), 以支持模型自适应地学习不同实体类别对应的潜在特征向量.

为了综合利用上述先验知识与类别特征来辅助复杂实体的识别, GIA-2DPE模型使用了提出的门控交互注意力(GIA)机制. 该方法通过注意力机制将先验知识表示和类别特征向量分别与上下文表示进行交互, 并将交互结果通过一个“融合门”函数进行结合, 来获取上下文中各词语与识别内容的相关度, 从而缓解了复杂实体因缺乏明显的特征而难以被识别的问题.

此外, 为了增强对实体边界的精准检测, GIA-2DPE模型使用提出的一种2D概率编码(2DPE)机制来识别嵌套实体. 该方法将跨度分类任务转化为实体边界的检测任务, 使模型能够预测出作为实体边界的词语, 从而实现对实体边界的监督. 同时, 该方法通过捕获实体的边界特征以及全局上下文特征来进一步辅助模型对实体边界的精准检测, 从而提升对嵌套实体的识别性能.

我们在7个英文数据集和2个中文数据集上进行了广泛的实体识别实验. 结果显示, GIA-2DPE模型在性能上超越了目前最先进的模型; 并且与基线F1分数相比, 取得了最高10.4%的大幅度提升.

本文的主要贡献如下.

(1) 针对复杂实体识别困难的问题, 提出利用语义先验知识与类别嵌入来辅助识别, 结合提出的GIA机制, 提升了复杂实体的识别性能.

(2) 针对嵌套实体识别中的实体边界模糊化问题, 提出了2DPE机制来增强对实体边界的精准检测, 提升了嵌套实体的识别性能.

(3) 在上述工作的基础上构建了实体识别模型GIA-2DPE, 在9个相关数据集上取得了最先进的性能.

1 相关工作 1.1 简单实体的识别

随着信息抽取技术的不断发展, 研究人员提出了各种基于神经网络的实体识别模型, 并且成功地应用于生物医学、材料科学以及新闻等领域^[12].

这些研究识别的实体大部分是一些简单实体, 它们通常仅由几个名词组成. 例如, Friedrich等人^[2]使用预训练模型SciBERT^[13]与双向长短期记忆网络(BiLSTM), 通过序列标注方式对材料学文献中的材料、器件等类型的实体(如PBFM、SOFC)进行了识别, 取得了81.5%的F1分数. Eberts等人^[1]利用预训练模型BERT^[14]与最大池化来对输入序列中的所有跨度进行分类, 实现了医疗报告中的药物与症状类实体(如rIFN-γ、SLE)的识别, 结果达到89.3%. Li等人^[3]则使用BERT模型与前馈神经网络(FFNN), 通过回答不同的问题来识别不同类型的实体, 以84.8%的F1分数从新闻文本中识别了人物、机构等类型的实体(如Bush、White House).

1.2 复杂实体的识别

简单实体包含的信息太少, 无法完全满足信息抽取的需求. 尤其在科学技术领域, 研究人员还需要信息量更大的复杂实体, 例如任务、方法等类型的实体, 它们反映了领域的发展和研究现状.

然而, 这些复杂实体通常具有短语结构, 不仅更长且在语义、句法结构和词性组成上更加复杂. 例如, 图1(b)所示的任务类实体不仅包含动词、名词和形容词等多种词性的词语, 而且具有定语从句结构, 给现有实体识别模型带来了极大的挑战. 例如, Sahrawat等人^[4]使用高性能的BERT模型与BiLSTM, 通过序列标注方式对材料学、物理学以及计算机科学等领域文本中的任务、处理方式等类型的实体进行了识别, F1分数为52.2%. Lai等人^[15]使用SciBERT代替BERT, 进行了与Sahrawat等人相同的工作, 结果为54.6%. Jain等人^[16]在BERT与BiLSTM的基础上, 进一步结合了条件随机场(CRF), 并通过序列标注方式对AI领域文献中的任务、方法等类型的实体进行了识别, F1分数为63.8%. Luan等人^[5]则使用精心设计的SCIIE模型, 通过对输入序列中的所有跨度进行分类, 实现了对AI领域文献中的任务、方法等类型实体的识别, 结果为64.2%.

与上述模型相比, 本文模型使用提出的一种门控交互注意力机制来提升复杂实体的识别性能. 该机制利用额外的实体类别的语义先验知识来辅助识别, 以增强模型对实体的语义认知, 从而明确上下文中哪些部分与识别内容相关, 一定程度上弥补了复杂实体特征不明显的缺陷. 同时, 该机制还利用了不同实体类别的潜在特征, 有利于模型识别出具有复杂结构的实体.

1.3 嵌套实体的识别

无论在简单实体还是复杂实体中都有可能存在嵌套实体(即实体内部包含的实体), 例如图2中的“IL-2”“NF-chi B”“chi B”和“FACILE, a EU project for multilingual text classification and IE”. 为了避免信息丢失, 这些嵌套实体也需要被准确、无遗漏地识别出来.

目前, 研究人员针对嵌套实体的识别提出了许多解决方案. 一部分工作致力于使用复杂的转化机制将嵌套结构转化为扁平结构. 例如Shibuya等人^[17]提出的次佳路径解码机制和Huang等人^[18]设计的超图机制等. 但Li等人^[19]指出复杂的转化步骤会带来额外的错误或偏差. 另一部分工作采用一种更直接有效的方法, 其通过对文本中的所有跨度(即子序列)进行分类来判别嵌套实体. 例如, Eberts等人^[1]提出了SpERT, 它由BERT模型和一个对跨度进行分类的前馈层组成. Wang等人^[20]提出了一种结合BERT与卷积神经网络(CNN)的模型SPE, 通过融合局部信息来获得更好的跨度表征. Shen等人^[21]则使用BERT与BiLSTM来获取包含丰富信息的跨度表征, 并通过SoftNMS算法来增强了对跨度的判别. 不过, 基于跨度的模型侧重于学习跨度自身的表征, 通常难以分辨一些具有细微边界差别的跨度^[11].

与上述模型相比, 本文模型提出了一种2D概率编码方法来识别嵌套实体. 该方法将跨度分类任务转化为实体边界的检测任务, 使模型预测那些作为实体边界的词语, 并且通过捕获实体的边界特征和全局上下文特征来进一步辅助边界的精准检测, 从而提升了嵌套实体识别的效果.

2 GIA-2DPE模型 2.1 模型整体框架

定义1. 给定输入文本T和实体类型集合C = {c_i | i = 1, 2, …, n}(n为实体类别数量). 实体识别旨在从T中识别出全部的实体并将其正确划分到C中的某个类别, 得到一个实体集合E = {(e_i, c_j) | e_i∈T, c_j∈C}.

由定义1可知, 实体识别有两种实现方式. 方式1先将所有实体抽取出来, 形成实体集E = {e_i | e_i∈T}, 再对E中每个实体进行分类, 得到最终结果E. 而方式2依次以c₁, c₂, …, c_n为目标类型, 得到n个满足条件的实体集E₁, E₂, …, E_n. E_i的所有实体都被划分为c_i类型. 因此, 方式2同样可以得到最终结果E. 显然, 方式2更具针对性, 且分类误差小于方式1, 但需要额外信息以使模型明确每一次识别的目标类型是什么.

本文采用方式2进行实体识别. 为了增强模型对目标类型实体的认知, 我们为每个实体类别c_i设计了一段关键词序列K_i = {k_j | j = 1, 2, …, m}(m为关键词个数)作为语义先验知识, 得到先验知识集合I = {K_i | i = 1, 2, …, n}. 例如, AI领域的“任务”实体类型的关键词序列K = {task, processing, image, speech, video, information, translation, classification, recognition}. 先验知识将被用于后续与上下文进行交互.

在自然语言处理中, 通常先对输入文本进行分词, 得到输入序列X = {w_i | i = 1, 2, …, L}(L为序列长度). 为了对实体边界进行检测, 我们使用实体在X中的起始与结束边界构成的坐标来表示该实体, 即e_i ⇔ (p_s,i, p_e,i). 例如, 在序列X = {It, kills, B, cells, in, the, blood}中, 细胞类型实体“B cells”表示为坐标(3, 4).

在提出的GIA-2DPE模型中, 输入包括输入序列X、关键词序列K以及实体类别标签c. 输出包括p_s、p_e与m_2D. 其中, p_s和p_e为长度等于L的向量, p_s的第i个元素代表的是实体起始边界等于i的概率, p_e的第j个元素代表的是实体结束边界等于j的概率; 而m_2D是一个L×L的矩阵, 其第i行第j列元素代表的是坐标(i, j)为目标实体的概率.

GIA-2DPE模型的整体框架如图3所示. 模型包含4个主要模块: 嵌入模块、门控交互注意力模块、2D概率编码模块以及过滤模块.

GIA-2DPE模型整体框架

(1) 嵌入模块(embedding): 对K与X进行拼接和词嵌入, 得到上下文表示h_o; 并对实体类别c进行类别嵌入, 得到c类别实体对应的结构特征向量h_t.

(2) 门控交互注意力模块(GIA): 利用h_o与h_t进行门控交互注意力计算, 并将计算结果通过概率化函数映射成向量, 得到实体起始与结束边界的初始概率分布向量p_s0和p_e0.

(3) 2D概率编码模块(2DPE): 利用h_o以及实体的边界特征(包括起始和结束边界)进行2D概率编码, 并将结果通过概率化函数映射成矩阵, 得到实体边界的初始2D概率分布矩阵m_2D0.

(4) 过滤模块(filter): 对p_s0、p_e0和m_2D0进行过滤和掩膜, 得到最终的输出p_s、p_e与m_2D.

2.2 嵌入模块

嵌入模块包括两部分: 使用预训练模型将单词编码成向量(即词嵌入); 以及自适应地学习不同实体类别c对应的潜在特征向量(即实体类别嵌入).

预训练模型的输入序列X_in为关键词序列K与序列X的拼接:

1 \begin{document}$ {X_{{\rm{in}}}} = \{ [{\rm{CLS}}], {k_1}, {k_2}, \ldots , {k_M}, [{\textit{{\rm{SEP}}}}], {w_1}, {w_2}, \ldots , {w_L}, [{\textit{{\rm{SEP}}}}]\} $ \end{document}

其中, M与L分别表示关键词序列K与序列X的长度, 特殊符号“[CLS]”用来表示整个序列X_in的语义信息, 而特殊符号“[SEP]”用来分隔不同的序列.

在词嵌入之前, 我们使用BPE编码^[22]算法来对输入序列X_in进行更加细粒度的分词. BPE编码实质上是一种基于连续字节对频率统计的SubWord算法, 其将生僻词分解为常见的子词, 例如“hypergraph”分解为“hyper”和“graph”, 有效缓解了词嵌入的OOV (out of vocabulary)问题.

然后, 我们使用预训练模型DeBERTa^[23]对分词后的序列进行词嵌入, 得到上下文表示h_o:

2 \begin{document}$ {h_o} = {\rm{DeBERTa}}({\rm{BPE}}({X_{{\rm{in}}}})) \in {\mathbb{R}^{l \times d}} $ \end{document}

其中, l为输入序列经过BPE分词后的长度, d为词嵌入的维度. 假设关键词序列K和序列X经过BPE分词后的长度分别为l_k和l_x, 则l = l_k+l_x+3.

本文选择DeBERTa而不使用其他常用的预训练模型(例如BERT和SciBERT等), 有如下两个主要原因: 第一, DeBERTa采用内容和位置信息相互分离的自注意机制, 其对于两个词语的注意力权重不仅取决于它们的内容, 而且取决于它们的相对位置, 例如单词“deep”和“learning”相邻出现时, 它们之间的依赖性要比相距较远时强得多. 这种改进有利于普遍较长的复杂实体的识别. 第二, DeBERTa的输出层采用了一种增强型的掩码解码机制(EMD), 一定程度上缓解了预训练和微调之间的不匹配.

除了文本语义的词嵌入, 我们还考虑了实体在不同类别上的不同特征, 构建了一个n×d的专用嵌入矩阵ETE. 该嵌入矩阵是通过反向传播算法进行学习, 其将输入的目标实体类别c映射成一个d维向量h_t, 用于表示c类型的实体普遍具有的类别上的潜在特征, 即实体类别嵌入:

3 \begin{document}$ {h_t} = {\rm{ETE}}(c) \in {\mathbb{R}^d} $ \end{document}

对于中文文本, 我们直接以字为单位进行分词, 并使用中文BERT进行词嵌入, 其余步骤同上.

2.3 门控交互注意力模块

门控交互注意力模块(GIA)旨在利用实体类别的语义先验知识以及实体的类别特征来进行门控交互注意力计算, 使模型增强对实体的认知, 以明确上下文中哪些部分与识别内容相关, 有利于缓解复杂实体难以识别的问题. 该模块的输入为h_o和h_t, 输出为实体边界的初始概率分布向量p₀, 如图4所示.

门控交互注意力模块

首先, 我们对h_o中属于关键词序列K的所有词向量进行平均池化, 得到语义先验知识表示h_c:

4 \begin{document}$ {h_c} = AvgPooling(\{ {h_o}[i]|i = 2, 3, \ldots , {l_k} + 1\} ) \in {\mathbb{R}^d} $ \end{document}

接着, 通过2个不同的线性映射以及高斯误差线性单元(GELU)^[24]计算, 将h_o映射成h_oc和h_ot:

5 \begin{document}$ GELU(x) = 0.5x\left(1 + \frac{2}{{\sqrt \pi }}\int_0^{\tfrac{x}{{\sqrt 2 }}} {{{\rm{e}}^{ - {t^2}}}{\rm{d}}t} \right) $ \end{document}

6 \begin{document}$ {h_{oc}} = GELU({h_o} \cdot {W_c} + {b_c}) \in {\mathbb{R}^{l \times d}} $ \end{document}

7 \begin{document}$ {h_{ot}} = GELU({h_o} \cdot {W_t} + {b_t}) \in {\mathbb{R}^{l \times d}} $ \end{document}

再将h_oc与h_c进行矩阵-向量乘法计算, 得到交互注意力分数s_c, 如公式(8)所示. 向量s_c中的各元素代表了序列中各词语在语义特征空间中与目标实体的相关度分数. 同样地, 可以得到h_ot与h_t的交互注意力分数s_t, 如公式(9)所示. 向量s_t反映了序列中各词语在结构特征空间中与目标实体类型的相关度分数.

8 \begin{document}$ {s_c} = {h_{oc}} \cdot {({h_c})^{\rm{T}}} \in {\mathbb{R}^l} $ \end{document}

9 \begin{document}$ {s_t} = {h_{ot}} \cdot {({h_t})^{\rm{T}}} \in {\mathbb{R}^l} $ \end{document}

然后, 通过线性变换将h_o映射成长为l的向量h_og, 并通过Sigmoid函数将h_og中的各元素映射到(0, 1)范围内来表示融合时的权重, 得到用于门控融合的权重向量g_w:

10 \begin{document}$ {h_{og}} = {h_o} \cdot v_g^{\rm{T}} + {b_g} \in {\mathbb{R}^l} $ \end{document}

11 \begin{document}$ {g_w} = \frac{1}{{1 + {{\rm{e}}^{ - {h_{og}}}}}} \in {\mathbb{R}^l} $ \end{document}

利用g_w对s_c与s_t进行门控融合, 得到融合后的交互注意力分数s_f, 如公式(12)所示. 其中, 运算符号“ \begin{document}$ \odot $\end{document} ”表示向量的元素相乘. 向量s_f从语义和结构两个角度综合反映了序列中各词语与目标实体的相关度, 给模型提供了可能成为实体边界的词语, 有利于特征不明显的复杂实体的识别.

12 \begin{document}$ {s_f} = {g_w} \odot {s_c} + (1 - {g_w}) \odot {s_t} \in {\mathbb{R}^l} $ \end{document}

最后, 通过提出的概率化函数talu将s_f中各元素映射到(0, 1)范围内, 目的是将相关度分数转化为概率分布, 使得相关度越高的词语越有可能成为实体的边界词. 转化后的结果即为实体边界的初始概率分布向量p₀:

13 \begin{document}$ {p_0} = \frac{{{{\rm{e}}^{{s_f}}}}}{{{{\rm{e}}^{{s_f}}} + {{\rm{e}}^{ - {s_f}}}}} \in {\mathbb{R}^l} $ \end{document}

其中, talu函数在x = 0处的导数是广泛使用的Sigmoid函数的2倍, 有利于模型区分相关度分数相近的词语.

我们构造了两个独立的GIA模块来分别执行上述步骤, 得到了实体的起始边界与结束边界对应的两个初始概率分布向量p_s0和p_e0. 其中, 向量p_s0的第i个元素代表的是实体起始边界等于i的概率, 而向量p_e0的第j个元素代表的是实体结束边界等于j的概率.

2.4 2D概率编码模块

2D概率编码模块(2DPE)旨在使用一维卷积运算和自注意力机制来捕获实体的边界特征(包括起始和结束边界)以及全局上下文特征, 并将这些特征映射成一个2D概率分布矩阵来对实体的边界进行精准检测. 该模块的输入为h_o, 输出为实体边界坐标的初始2D概率分布矩阵, 如图5所示.

2D概率编码模块

首先, 我们使用大小为1×d的两个不同的卷积核来对h_o进行一维卷积操作(步长为1), 目的是分别捕获实体起始边界的特征向量v_s, 以及实体结束边界的特征向量v_e:

14 \begin{document}$ {v_s} = 1D{\text{-}}Con{v_s}({h_o}) \in {\mathbb{R}^l} $ \end{document}

15 \begin{document}$ {v_e} = 1D{\text{-}}Con{v_e}({h_o}) \in {\mathbb{R}^l} $ \end{document}

v_s与v_e分别经过逐行扩展和逐列扩展, 得到两个l×l的矩阵. 将它们相加后得到矩阵m_p:

16 \begin{document}$ {m_p} = expan{d_{{\rm{row}}{\text{-}}{\rm{wise}}}}({v_s}) + expan{d_{{\rm{column}}{\text{-}}{\rm{wise}}}}({v_e}) \in {\mathbb{R}^{l \times l}} $ \end{document}

接着, 通过不同的线性映射以及GELU计算, 将h_o映射成h_m和h_g:

17 \begin{document}$ {h_m} = GELU({h_o} \cdot {W_m} + {b_m}) \in {\mathbb{R}^{l \times d}} $ \end{document}

18 \begin{document}$ {h_g} = {h_o} \cdot {W_g} + {b_g} \in {\mathbb{R}^{l \times d}} $ \end{document}

h_m和h_g分别与h_o进行矩阵乘法计算, 得到自注意力分数矩阵s_m以及矩阵s_g:

19 \begin{document}$ {s_m} = {h_m} \cdot {({h_o})^{\rm{T}}} \in {\mathbb{R}^{l \times l}} $ \end{document}

20 \begin{document}$ {s_g} = {h_g} \cdot {({h_g})^{\rm{T}}} \in {\mathbb{R}^{l \times l}} $ \end{document}

然后, 使用Sigmoid函数将s_g中的元素映射到(0, 1)范围内来表示融合时的权重, 得到权重矩阵g_m; 并利用矩阵g_m对s_m与m_p进行门控融合, 得到融合后的矩阵m_f:

21 \begin{document}$ {g_m} = \frac{1}{{1 + {{\rm{e}}^{ - {s_g}}}}} \in {\mathbb{R}^{l \times l}} $ \end{document}

22 \begin{document}$ {m_f} = {g_m} \odot {s_m} + (1 - {g_m}) \odot {m_p} \in {\mathbb{R}^{l \times l}} $ \end{document}

最后, 通过talu函数将矩阵m_f概率化, 得到实体边界坐标的初始2D概率分布矩阵m_2D0:

23 \begin{document}$ {m_{{\rm{2D0}}}} = \frac{{{{\rm{e}}^{{m_f}}}}}{{{{\rm{e}}^{{m_f}}} + {{\rm{e}}^{ - {m_f}}}}} \in {\mathbb{R}^{l \times l}} $ \end{document}

矩阵m_2D0的第i行第j列元素代表的是坐标(i, j)为目标实体的概率, 并且该概率值的计算结合了边界特征和全局上下文特征. 由于横坐标i和纵坐标j分别代表实体的起始与结束边界. 因此, 通过该矩阵, 我们可以区分任何具有微小边界差异的候选实体, 从而增强对实体边界的精准检测, 有利于嵌套实体的识别.

2.5 过滤模块

过滤模块旨在对初始概率分布p_s0、p_e0与m_2D0中的元素进行过滤和掩膜(mask), 使模型不用考虑一些不可能的实体起始或结束边界情况, 如图6所示.

过滤模块

首先, 由于特殊符号“[CLS]”“[SEP]”以及关键词序列K中不包含实体, 我们将p_s0、p_e0与m_2D0中的相关部分删除, 得到第1次过滤后的结果p_s1、p_e1与m_2D1:

24 \begin{document}$ {p_{s1}} = \{ {p_{s0}}[i]|l - {l_x} \leqslant i \leqslant l - 1\} \in {\mathbb{R}^{{l_x}}} $ \end{document}

25 \begin{document}$ {p_{e1}} = \{ {p_{e0}}[i]|l - {l_x} \leqslant i \leqslant l - 1\} \in {\mathbb{R}^{{l_x}}} $ \end{document}

26 \begin{document}$ {m_{{\rm{2D1}}}} = \{ {m_{{\rm{2D0}}}}[i][j]|l - {l_x} \leqslant i, j \leqslant l - 1\} \in {\mathbb{R}^{{l_x} \times {l_x}}} $ \end{document}

接着, 我们对矩阵m_2D1进行掩膜. 设定一个概率阈值P_t, 假设m_ij为矩阵m_2D1中的任一元素, 该元素位于m_2D1的第i行第j列, 若概率值p_s1[i]和p_e1[j]均大于阈值P_t, 则元素m_ij保持不变, 否则m_ij被置零. 另外, 考虑到实体的起始边界不可能大于结束边界, 并且实体的长度总在一定的范围之内, 我们设置了一个实体长度的最大值l_m, 并将不满足条件“0 ≤ j – i ≤ l_m”的元素m_ij置零:

27 \begin{document}$ {m_{ij}} = \left\{ {\begin{array}{*{20}{l}} {{m_{{\rm{2D1}}}}[i][j], }&{\begin{array}{*{20}{c}} {}&{} \end{array}}&{{p_{s1}}[i], {p_{e1}}[j] \gt {P_t}{, _{}}0 \leqslant j - i \leqslant {l_m}} \\ {0, }&{\begin{array}{*{20}{c}} {}&{} \end{array}}&{{\rm{otherwise}}} \end{array}} \right. $ \end{document}

最后, 对于英文文本, 考虑到我们采用了BPE分词, 一些生僻词会被切分成多个片段, 例如“hypergraph”会被切分成“hyper”和“graph”两个词片段. 对于每一个被切分的词w_i, 我们记录其词片段在序列中的索引区间r_i = [a_i, b_i], 得到切分区间集R = {r_i | i = 1, 2, …, z}(z为被切分的词的个数), 并通过算法1对p_s1、p_e1与m_2D1进一步过滤, 得到最终输出结果p_s、p_e与m_2D. 其中, p_s、p_e为L维概率分布向量, m_2D为L×L概率分布矩阵.

算法1. 增强过滤.

输入: 切分区间集R, 概率分布p_s1、p_e1与m_2D1;

输出: 过滤后的概率分布p_s1、p_e1与m_2D1.

1. 　 for i = 1 to z do

2. 　　第i个被切分词的索引区间r_i = R[i] = [a_i, b_i];

3. 　　词片段对应概率中的最大值p_m = max(m_2D1[a_i:b_i, a_i:b_i]);

4.　　 p_m的横、纵坐标x, y = m_2D1.index(p_m);

5.　　 for j = a_i to b_i do

6.　　　 if j ≠ x then

7. 　　　　删除矩阵m_2D1的第j行;

8. 　　　　删除向量p_s1的第j个元素;

9.　　　 end if

10.　　　 if j ≠ y then

11. 　　　　删除矩阵m_2D1的第j列;

12. 　　　　删除向量p_e1的第j个元素;

13.　　　 end if

14.　　 end for

15.　 end for

16.　 return p_s1, p_e1, m_2D1;

2.6 模型训练

本文通过最小化训练集上的损失函数来训练提出的GIA-2DPE模型. 损失函数如公式(28)所示, 它由3部分相加而成, 并由一个超参数 \begin{document}$ \lambda $\end{document} (0 < \begin{document}$ \lambda $\end{document} < 1)来调节各部分的比重:

28 \begin{document}$ {f_{{\rm{loss}}}} = \lambda {f_{{\rm{bce}}}}({m_{{\rm{2D}}}}, {y_{{\rm{2D}}}}) + \frac{{1 - \lambda }}{2}[{f_{{\rm{bce}}}}({p_s}, {y_s}) + {f_{{\rm{bce}}}}({p_e}, {y_e})] $ \end{document}

其中, y_s表示实体起始边界的真实分布, 它是一个长度等于L的二值向量当且仅当i为实体的起始边界时y_s的第i个元素等于1, 否则等于0. 二值向量y_e为实体结束边界的真实分布. 而y_2D为实体边界坐标的真实分布, 它是一个大小为L×L的二值矩阵, 其第i行第j列元素等于1当且仅当坐标(i, j)是目标实体, 否则等于0. 函数f_bce表示二值交叉熵(BCE)函数, 其表达式如下:

29 \begin{document}$ {f_{{\rm{bce}}}}(x, y) = - \frac{1}{L}\sum\limits_{i = 1}^L {[{y_i}{\rm{ln}}{x_i} + (1 - {y_i})(1 - {\rm{ln}}{x_i})]} $ \end{document}

本文采用反向传播(BP)算法来对GIA-2DPE模型的参数进行更新. 此外, 为了避免训练过程中出现梯度爆炸的问题, 我们将梯度的L2范数限制在1.0以内.

2.7 模型推断

在推理阶段, 对于给定的文本T、类别标签集合C = {c_i | i = 1, 2, …, n}(n为实体类别数量)以及人工构造的先验知识集合I = {K_i | i = 1, 2, …, n}(K_i为c_i对应的)关键词序列), 执行以下步骤以获取实体识别结果.

Step 1. 对T进行分词, 得到文本序列X = {w_i | i = 1, 2, …, L}(L为文本序列长度).

Step 2. 以c₁为目标实体类型, 将X、K₁和c₁送入训练好的GIA-2DPE中, 得到m_2D, 并通过算法2得到类型为c₁的实体集合E₁ = {(e_k, c₁) | k = 1, 2, …}. 再以c₂为目标实体类型进行相同操作, 得到E₂. 以此类推.

Step 3. 最终的实体识别结果为E = {E_i | i = 1, 2, …, n}.

算法2. 获取目标实体集合.

输入: 序列X, 矩阵m_2D(规格为L×L), 概率阈值P_t以及实体长度上限l_m;

输出: 目标类型的实体集合E.

1. 　初始化一个空集合E = {}

2.　 for i = 1 to L do

3.　　 for j = i to i + l_m – 1 do

4.　　　 if m_2D[i][j] ≥ P_t then

5. 　　　　目标类型实体e = X[i: j + 1];

6.　　　　 E.add(e);

7.　　　 end if

8.　　 end for

9. 　 end for

10. return E;

3 实验与分析 3.1 数据集与评估指标

本文在9个具有代表性的实体识别任务的数据集上进行了实验. 这些数据集包括: 2个包含复杂实体和嵌套实体的英文数据集SciERC和ScienceIE; 3个包含嵌套实体的英文数据集GENIA、ACE04和ACE05; 2个以扁平的简单实体为主的英文数据集ADE和SOFC-Exp; 以及2个以简单扁平实体为主的中文数据集MSRA和OntoNotes 4.0中文版.

(1) SciERC: 文本来源于AI领域文献的摘要. 实体类别分为6种: Task, Method, Material, Metric, Generic和Other-Scientific-Term (OST). 其中, Task和Method类别的实体大部分是具有短语结构的复杂实体, 其他类别的实体则以简单实体为主. 另外, 这些实体中还存在少量的嵌套实体.

(2) ScienceIE: 文本来源于材料科学、计算机科学以及物理学领域的文献. 实体类别分为3种: Task, Material和Processing. 其中, Task与Processing类别的实体大部分为复杂实体; 而Material类别的实体则以简单实体为主; 并且这些实体中还包含了大量的嵌套实体.

(3) GENIA: 文本来源于生物医学领域文献的摘要. 该数据集共有36种细粒度的实体类别, 相关工作通常将这些子类别归纳为5种粗粒度的实体类别: Protein, DNA, RNA, Cell Type以及Cell Line. 该数据集的实体均为简单实体, 但包含了大量的嵌套实体.

(4) ACE04和ACE05: 文本来源于新闻报刊. 实体类型分为7种: Person (PER), Location (LOC), Organization (ORG), Facility (FAC), Weapon (WEA), Vehicle (VEH)以及Geographical-Entities (GPE). 所有实体均为简单实体, 但包含了大量的嵌套实体, 并且嵌套层数较深.

(5) ADE: 文本来源于电子医疗报告. 该数据集的实体类别只分为两种: Drug和Adverse-Effect. 所有实体均为扁平的简单实体.

(6) SOFC-Exp: 文本来源于材料科学领域的论文. 实体类型分为4种: Material, Device, Experiment和Value. 所有实体均为简单实体, 且不存在嵌套实体.

(7) MSRA: 文本来源于新闻报刊. 实体类型共3种: 人物, 地点和机构. 所有实体均为简单扁平实体.

(8) OntoNotes 4.0中文版: 文本来源于新闻报刊. 实体类型有4种: 人物, 地点, 组织和地理政治实体. 所有实体均为简单扁平实体.

我们对上述9个数据集进行了信息探索, 包括实体平均长度、嵌套实体占比和最大嵌套层数等信息, 结果如表1所示. 这些信息将被用于后续的实验结果的分析与讨论.

实体识别任务数据集

数据集	是否包含复杂实体	是否包含嵌套实体	实体平均长度	嵌套实体占比 (%)	最大嵌套层数
SciERC	√	√	4.6	3.4	2
ScienceIE	√	√	5.2	18.2	2
GENIA	×	√	4.1	10.1	3
ACE04	×	√	3.2	24.4	5
ACE05	×	√	2.9	22.3	5
ADE	×	×	2.7	－	－
SOFC-Exp	×	×	3.9	－	－
MSRA	×	×	2.5	－	－
OntoNotes 4.0	×	×	3.4	－	－

实体识别任务的评估指标通常包括精确率(precision, P)、召回率(recall, R)以及F1分数:

30 \begin{document}$ P = {{{N_{{\rm{True}} {\textit{-}} {\rm{Prediction}}}}} / {{N_{{\rm{Prediction}}}}}} $ \end{document}

31 \begin{document}$ R = {{{N_{{\rm{True}} {\textit{-}} {\rm{Prediction}}}}} / {{N_{{\rm{Reality}}}}}} $ \end{document}

32 \begin{document}$ F1 = {{2PR} / {(P + R)}} $ \end{document}

其中, N_Prediction表示模型识别出的实体总数; N_Reality代表实际的实体总数; N_{True-Prediction}代表模型识别正确的实体个数. 注意, 只有当实体内容及类别均正确才算识别正确.

另外, 上述评估指标的计算方式通常有两种: 一种是先计算各个类别的结果, 再取平均(称为Macro方式); 另一种将所有类别的结果进行汇总再计算(称为Micro方式). 为了与相关工作保持一致, 我们在ADE和SOFC-Exp数据集上采用Macro方式进行评估; 在其他数据集上采用Micro方式进行评估.

3.2 数据预处理与参数设置

为了增强模型对目标类型实体的语义认知, 我们为每个实体类别设计了一段关键词序列作为解释说明, 如表2所示. 这些简短的关键词序列将与数据集中的原始语句进行拼接, 作为模型的输入. 模型可以利用这些关键词明确输入中哪些部分与目标实体相关, 有利于提升识别性能.

实体类别的关键词序列

数据集	实体类别	关键词序列
SciERC	Task	task, processing, image, speech, video, information, translation, classification, recognition
	Method	method, techniques, approach, algorithm, model, framework, network
	Material	structured, annotated, Chinese, English, data, corpus, corpora, text, image, speech, video
	Metric	metrics, accuracy, precision, recall, F1, BLEU, evaluation, variation, variance, robustness
	Generic	general, common, scientific, term
	OST	other scientific term
ScienceIE	Task	task, analysis, problems, design
	Material	material, data, particles, surface
	Processing	process, model, method, algorithm, approach
GENIA	Protein	protein, organic, compounds, body, tissues, muscle, hair, collagen, enzymes, antibodies
	DNA	DNA, deoxyribonucleic acid
	RNA	RNA, ribonucleic acid
	Cell Type	cell type category
	Cell Line	cell line group
ACE04 & ACE05	PER	person, human, single, individual, group
	LOC	geographical location, areas, landmasses, mountains, water, geological formations
	ORG	organization, companies, corporations, agencies, institutions, groups of people
	FAC	facility, buildings, man-made structures, airports, highways, bridges
	WEA	weapon, physical devices, instruments, physically harming guns, arms, gunpowder
	VEH	vehicle, devices, move, carry, transported, helicopters, trains, ship, motorcycles
	GPE	geographical, political, countries, nations, regions, cities, states, government, social group
ADE	Drug	drug, interferon, methotrexate, alpha, beta, lithium acid, amiodarone carbamazepine
ADE	Adverse-Effect	severe acute syndrome, symptoms, reaction effects, toxicity, hypersensitivity, disease
SOFC-Exp	Material	material, anode, cathode, electrolyte, fuel, interlayer, support
	Device	device SOFC
	Experiment	experiment evoking word
	Value	value, voltage, current, power, resistance, thickness, temperature
MSRA	人物	人物, 名人, 人, 人类, 个体, 人群, 大众
	地点	地点, 地理位置, 地域, 区域, 景点, 景区, 山区, 河流流域
	组织机构	组织机构, 公司, 企业, 事务所, 学校, 警局, 医院, 馆, 厂
OntoNotes 4.0	人物	人物, 名人, 人, 人类, 个体, 人群, 大众
	地点	地点, 地理位置, 地域, 区域, 景点, 景区, 山区, 河流流域
	组织机构	组织机构, 公司, 企业, 事务所, 学校, 警局, 医院, 馆, 厂
	地理政治实体	地理政治实体, 国家, 国籍, 人种, 宗教, 政府, 省, 市, 区, 镇

实验在GTX1080Ti GPU上完成. 我们使用Spacy工具来进行初步的英文分词, 并将用于训练的输入序列的长度控制在64个词语以内(受GPU显存限制). 使用的英文预训练模型DeBERTa的词典大小为50 265, 词向量的维度为1 024; 中文BERT的词典大小为21 128, 词向量维度为768. 在训练过程中, 我们采用一种优化的梯度下降算法AdamW, 并设置权重衰减率为0.01. 训练集和测试集的批大小(batch size)分别为4和16. 损失函数中的系数 \begin{document}$ \lambda $\end{document} 为0.1. 其他的实验参数配置在不同数据集上有所差别, 如表3所示.

实验参数配置

数据集	训练轮数	学习率	dropout	P_t	l_m
SciERC	10	5×10⁻⁶	0.3	0.5	20
ScienceIE	15	5×10⁻⁶	0.2	0.5	25
GENIA	5	8×10⁻⁶	0.3	0.5	15
ACE04 & ACE05	10	8×10⁻⁶	0.3	0.5	15
ADE	10	1×10⁻⁵	0.4	0.6	10
SOFC-Exp	15	8×10⁻⁶	0.4	0.7	15
MSRA	10	1×10⁻⁵	0.5	0.5	10
OntoNotes 4.0	12	1×10⁻⁵	0.3	0.6	10

3.3 对比实验结果与分析

本文在上述9个数据集上对提出的GIA-2DPE模型分别进行了训练. 训练过程中, 各训练集上的平均损失变化曲线如图7所示. 为了验证训练好的GIA-2DPE模型的有效性, 我们选择了相关工作中最具代表性的3种模型作为比较的基准模型(在后续的实验结果表格中用“*”标记). 它们分别是:

训练集上的平均损失变化曲线

(1) BERT+BiLSTM: 基于序列标注的一种主流实体识别模型, 在相关工作中被广泛用作基准模型.

(2) SpERT: 一种具有代表性的基于跨度分类的实体识别模型, 由Eberts等人^[1]提出.

(3) Multi-Turn QA: Li等人^[3]提出的首个基于多轮问答的实体识别模型, 在嵌套实体识别的相关工作中经常作为比较的基准模型.

3.3.1 复杂实体识别结果与分析

我们在包含复杂实体的SciERC和ScienceIE数据集上进行了实验, 结果如表4所示. 可以看出, 本文提出的GIA-2DPE模型在性能上超越了其他的代表性和最新的相关模型, 在这两个数据集上均取得了最先进的性能, F1分数分别达到了70.8%和62.6%. 与基线模型相比, GIA-2DPE模型在整体性能上分别实现了7.0%和10.4%的大幅度提升, 证明了其对复杂实体识别的有效性. 另外, 我们发现ScienceIE数据集上的性能提升比SciERC上的提升更大, 这与前者包含更多复杂实体的事实相一致.

复杂实体识别的实验结果(%)

数据集	模型	P	R	F1
SciERC	*BERT+BiLSTM^[16]	65.6	62.1	63.8
	SCIIE^[5]	67.2	61.5	64.2
	BERT-MRC^[25]	69.5	62.2	65.6
	SPE^[20]	67.7	66.1	66.9
	*SpERT^[1]	68.5	66.7	67.6
	ENPAR^[26]	－	－	67.9
	PURE^[27]	－	－	68.9
	RHGN^[28]	－	－	69.8
	GIA-2DPE (ours)	71.1	70.5	70.8
ScienceIE	SciBERT+BiLSTM^[4]	55.0	49.5	52.1
	*BERT+BiLSTM^[4]	55.6	49.2	52.2
	SciBERT+JLSD^[15]	－	－	54.6
	BERT+JLSD^[15]	－	－	55.4
	BERT-MRC^[25]	57.5	54.2	55.8
	SEAL^[29]	－	－	56.4
	RoBERTa+CRF^[30]	62.3	55.3	58.6
	XLNet+CRF^[30]	64.7	56.1	60.1
	GIA-2DPE (ours)	66.1	59.3	62.6

对于表4中列举的大部分模型, 一方面, 它们仅使用数据集中的原始语句作为输入, 并没有考虑实体类别的语义先验知识, 因此缺乏对目标类型实体的认知. 在识别不具备明显特征的复杂实体时, 这些模型通常难以明确输入中哪些部分与目标实体相关, 进而影响识别性能. 相比之下, GIA-2DPE模型使用人工设计的关键词序列与原始语句的拼接作为输入, 在训练之前获取了语义先验知识, 从而增强了对目标类型实体的认知. 这种认知可以帮助模型有目标地去识别实体, 减少对特征的依赖, 有利于复杂实体的识别. 我们注意到, BERT-MRC模型^[25]通过机器阅读理解的方式进行识别, 一定程度上也利用了实体类别的语义先验信息, 但它和其他模型一样忽略了不同实体类别的潜在特征; 而GIA-2DPE模型捕获并利用了这些类别上的潜在特征来辅助对复杂实体的识别, 提升了识别性能.

3.3.2 嵌套实体识别结果与分析

我们在包含嵌套实体的GENIA、ACE04和ACE05这3个数据集上也进行了实验, 结果如表5所示. 实验结果表明, GIA-2DPE模型在嵌套实体的识别上, 性能同样超越了绝大多数代表性和最新的相关模型, 分别达到了80.2%、88.2%以及88.5%的F1分数. 与基线模型相比, GIA-2DPE模型在整体性能上分别实现了3.4%、4.6%和3.7%的提升, 证明了其对于嵌套实体识别的有效性.

嵌套实体识别的实验结果(%)

数据集	模型	P	R	F1
GENIA	HGN+BR+LR^[18]	72.9	79.4	75.9
	*BERT+BiLSTM^[31]	76.7	76.7	76.8
	Dispatched Attention^[32]	80.9	73.8	76.8
	Multi-Agent^[33]	77.2	76.6	76.9
	Path-BERT^[17]	77.8	76.9	77.4
	BERT+Seq2Seq^[34]	－	－	78.2
	BioBERT+TreeCRFs^[35]	78.2	78.2	78.2
	BERT+BENSC^[11]	79.2	77.4	78.3
	GIA-2DPE (ours)	80.1	80.2	80.2
ACE04	*Multi-Turn QA^[3]	84.4	82.9	83.6
	BERT+Seq2Seq^[34]	－	－	84.3
	Path-BERT^[17]	85.9	85.7	85.8
	BERT-MRC^[25]	85.1	86.3	86.0
	BERT+TreeCRFs^[35]	86.7	86.5	86.6
	BERT+Seq2Set^[36]	88.5	86.1	87.3
	BERT+SoftNMS^[21]	87.4	87.4	87.4
	GIA-2DPE (ours)	88.4	88.0	88.2
ACE05	BERT+Seq2Seq^[34]	－	－	83.4
	Path-BERT^[17]	83.8	84.9	84.3
	*Multi-Turn QA^[3]	84.7	84.9	84.8
	BERT+TreeCRFs^[35]	84.5	86.4	85.4
	MRC4ERE++^[37]	－	－	85.5
	BERT-MRC^[25]	87.2	86.6	86.9
	BERT+SoftNMS^[21]	86.1	87.3	86.7
	BERT+Seq2Set^[36]	87.5	86.6	87.1
	GIA-2DPE (ours)	88.5	88.5	88.5

在表5中, Path-BERT^[17]、BERT+Seq2Seq^[34]和BERT+TreeCRFs^[35]等模型使用复杂的解码机制, 将嵌套结构转化为扁平结构进行识别, 容易造成额外的错误或偏差^[19]. Multi-Turn QA^[3]和MRC4ERE++^[37]等基于问答或阅读理解的模型则未考虑所有可能的嵌套情形, 遗漏了部分嵌套实体. BERT+SoftNMS模型^[21]采用了更加直接有效的基于跨度的方法, 但注重于学习跨度表征, 缺乏对实体边界的精准检测^[11], 容易被具有相近边界的候选实体所混淆. 本文的GIA-2DPE模型采用一种简单有效的2D概率编码机制, 利用实体的边界特征和全局上下文特征来对实体边界进行精准检测, 从而提升了嵌套实体识别的性能.

另外, 考虑到上述SciERC和ScienceIE数据集中同样存在嵌套实体, 我们将这5个数据集上的F1分数提升值与嵌套实体占比相联系, 发现如下规律: 无论简单的还是复杂的嵌套实体, 随着其占比的增加, F1分数提升值也在增加. 这进一步证明了GIA-2DPE模型在嵌套实体识别上的有效性.

3.3.3 简单扁平实体识别结果与分析

为了验证本文的模型具有泛化性, 我们还在以简单扁平实体为主的英文数据集ADE、SOFC-Exp以及中文数据集MSRA、OntoNotes 4.0上进行了实验, 结果如表6所示. 实验结果表明, GIA-2DPE模型在广受关注的简单扁平实体识别上, 同样优于其他代表性和最新的相关模型, 并在这4个数据集上都取得了最高的F1分数, 分别为91.4%、85.0%、96.2%和83.2%. 与基线模型相比, 我们的模型在整体性能上分别实现了2.1%、5.3%、1.4%和4.0%的提升, 证明了其具有泛化性.

简单扁平实体识别的实验结果 (%)

数据集	模型	P	R	F1
ADE	DAPNA^[38]	90.8	86.2	88.4
	*SpERT^[1]	89.0	89.6	89.3
	CMAN^[39]	－	－	89.4
	BERT+FFNN^[40]	89.5	89.9	89.6
	BERT+TSE^[41]	－	－	89.7
	BERT+TriMF^[42]	89.5	91.3	90.4
	SPAN_Multi-Head^[43]	89.9	91.3	90.6
	KECI^[44]	－	－	90.7
	GIA-2DPE (ours)	91.3	91.5	91.4
SOFC-Exp	*BERT+BiLSTM^[2]	81.5	78.1	79.7
	SciBERT+BiLSTM^[2]	82.7	80.4	81.5
	GIA-2DPE (ours)	85.2	84.9	85.0
MSRA	Lattice-LSTM^[45]	93.6	92.8	93.2
	*BERT+BiLSTM^[14]	95.0	94.6	94.8
	Glyce-BERT^[46]	95.6	95.5	95.5
	BERT-MRC^[25]	96.2	95.1	95.8
	GIA-2DPE (ours)	96.1	95.9	96.2
OntoNotes 4.0	Lattice-LSTM^[45]	76.4	71.6	73.9
	*BERT+BiLSTM^[14]	78.0	80.4	79.2
	Glyce-BERT^[46]	81.9	81.4	81.6
	BERT-MRC^[25]	83.0	81.3	82.1
	GIA-2DPE (ours)	83.6	82.8	83.2

注意到GIA-2DPE模型在SOFC-Exp数据集上的提升很大, 我们分析了该数据集中不同类别实体的F1分数提升值, 如表7所示. 我们发现, Experiment类型的实体的提升最多, 而该类型的实体由动词构成, 与其他类别的名词实体不同. 这证明了本文模型能够有效捕获不同实体类型的潜在特征.

不同类别实体(来自SOFC-Exp数据集)的F1分数提升(%)

模型	Material	Device	Experiment	Value
*BERT+BiLSTM^[2]	88.1	81.5	76.0	72.9
GIA-2DPE (ours)	94.9	84.6	84.8	75.6
F1分数提升	6.8	3.1	8.8	2.7

3.4 消融实验结果与分析

GIA-2DPE模型由4部分组成: 嵌入模块(内含类别嵌入矩阵ETE)、门控交互注意力模块(GIA)、2D概率编码模块(2DPE)以及过滤模块(filter). 为了分析不同模块对实体识别性能的影响, 我们在提出的GIA-2DPE模型上进行了消融实验, 结果如表8所示.

GIA-2DPE模型的消融实验结果(F1) (%)

模块	SciERC	ScienceIE	GENIA	ACE04	ACE05	ADE	SOFC-Exp	MSRA	OntoNotes 4.0
GIA-2DPE	70.8	62.6	80.2	88.2	88.5	91.4	85.0	96.2	83.2
w/o ETE	69.4	61.1	79.2	87.3	87.6	91.2	83.8	95.8	82.7
w/o DeBERTa	69.3	60.5	79.4	86.6	87.1	90.9	84.2	－	－
w/o GIA	69.0	60.2	78.8	87.7	87.9	91.1	84.1	95.8	82.4
w/o 2DPE	69.9	60.7	78.6	85.3	86.2	90.8	84.0	95.9	82.4
w/o Filter	69.1	60.9	79.0	86.8	87.3	90.7	83.5	96.0	82.6

3.4.1 嵌入模块的影响

嵌入模块包括预训练模型和专用嵌入矩阵ETE, 二者分别用于获取词向量和不同实体类别的潜在特征向量. 从表8可以看出, 删除专用嵌入矩阵ETE后, 各数据集上的F1分数有不同程度的降低, 证明了ETE的有效性, 并且证明了不同实体类别的潜在特征对识别的辅助作用. 具体来看, 简单实体识别的F1分数下降了0.2%–1.2%, 而复杂实体识别的F1分数下降相对较多, 为1.4%–1.6%, 这说明实体越复杂, ETE的有效性越明显. 另外, 在简单实体的识别中, SOFC-Exp数据集上的F1分数下降最多, 这与第3.3.3节最后提到的结论一致, 进一步证明了ETE能够帮助模型捕获不同实体类型的潜在特征.

此外, 为了证明本文模型的有效性不完全归功于DeBERTa, 我们还将该模块中的DeBERTa替换为广泛使用的BERT (中文数据集上的实验不用替换, 因为原本使用的就是BERT). 结合表4–表6和表8可以发现, 虽然模型在性能上下降了0.5%–2.1%, 但仍然超越了同样使用BERT的相关模型. 这证明了本文模型在除了词嵌入之外的其他方面的改进也是有效的.

3.4.2 门控交互注意力模块的影响

表8显示, 当删除GIA模块后, GIA-2DPE模型在各数据集上的性能均有不同程度的下降, 这证明了GIA模块的有效性. 具体来看, 简单实体识别的F1分数下降了0.3%–1.4%, 而复杂实体识别的F1下降较多, 为1.8%–2.4%, 这说明GIA模块对挑战性更大的复杂实体识别反而更加有效. 我们对此进行了如下分析: 复杂实体之所以难以被识别, 是因为它们通常缺乏明显的特征, 导致模型在识别过程中难以定位相关的识别内容. 而GIA模块充分利用了实体类别的语义先验知识和实体的结构特征来辅助识别, 弥补了特征的缺乏.

此外, 我们还从另一角度分析了GIA模块的有效性. 考虑到Zheng等人^[47]指出现有模型在长实体的识别上不理想, 我们将各数据集上的F1分数下降值与实体平均长度进行了关联, 如图8所示. 可以看出, 实体的平均长度越长, F1分数下降得越多. 这证明了GIA模块具有改善长实体的识别性能的潜在优势, 而复杂实体比简单实体更长, 因此更能体现出GIA模块的这一优势.

不同的实体平均长度下的F1分数下降

3.4.3 2D概率编码模块的影响

从表8可以看出, 在删除了2DPE模块之后, GIA-2DPE模型在各数据集上的性能均有不同程度的下降. 其中, 扁平实体识别的F1分数下降了0.3%–1.0%, 而嵌套实体识别的F1分数下降更多, 为0.9%–2.3%. 这证明了2DPE模块对于嵌套实体识别的有效性.

另外, 我们还将各数据集上的F1分数下降值与嵌套实体占比进行了关联, 得到了图9所示的结果. 注意到ADE、SOFC-Exp、MSRA和OntoNotes 4.0的嵌套实体占比均为0, 因此我们选择了ADE数据集作为代表. 从图9可以看出, 嵌套实体的占比越大, F1分数下降得越多, 进一步证明了2DPE模块具有提升嵌套实体识别性能的优势. 我们对此进行了分析: 嵌套实体识别任务的主流方法是基于跨度的分类方法, 其专注于学习跨度本身的表征; 而2DPE使用实体的边界特征与全局上下文特征来对嵌套实体的边界进行精准检测, 有利于增强模型对具有细微差别的候选实体的辨识能力, 从而提升嵌套实体的识别性能.

不同的嵌套实体占比下的F1分数下降

3.4.4 过滤模块的影响

表8显示, 在删除了filter模块之后, GIA-2DPE模型在各数据集上的F1分数下降了0.2%–1.7%, 证明了该模块的有效性. 我们分析了filter模块在实体识别中的作用: 由于我们使用实体在序列中的起始与结束边界来表示一个实体, 实体识别任务被转化为二分类任务, 即判断输入序列中的每个词语是否为实体的边界词, 若是, 则该词语的标签为1, 否则为0. 当文本中的实体较少时, 标签为0的词的数量远多于标签为1的词的数量, 造成不平衡问题, 直接影响了模型的训练效果. 而filter模块可以过滤或掩盖(mask)掉输出概率分布中的大部分标签为0的词语对应的结果, 从而提升了训练效果.

3.5 案例分析与可视化结果

为了更加直观地解释提出的GIA-2DPE模型的工作流程和效果, 本文对预处理好的GENIA数据集中的一个典型样例进行了案例分析. 该样例如图10所示, X为该样例在数据集中的原始语句, c为目标实体类型, K为对应的关键词序列, 红色括号下方是官方标注的实体.

典型样例(来源于GENIA数据集)

首先, 我们将X与K进行拼接后送入GIA-2DPE模型中, 得到词嵌入矩阵h_o. 为了验证词向量的在语义上的准确性, 我们从h_o中取出了X的词向量和K的词向量, 然后计算了两者的交互注意力分数, 并对其进行了可视化, 如图11所示. 可以看出, “PEBP2”与“protein”的注意力分数最高, “alpha A1”和“alpha B1”与“antibodies”的注意力分数也很高, 这与实际相符. 事实上, “PEBP2”就是一种蛋白质, 而“alpha A1”和“alpha B1”就是两种抗体. 除此之外, “expression”与“body”和“muscle”的注意力分数同样很高, 这也符合生物医学知识. 由此可见, GIA-2DPE模型获取的词向量在语义上具有较高的准确性.

交互注意力分数的可视化

其次, 我们对filter模块中的3个计算结果: 起始边界概率分布p_s1、结束边界概率分布p_e1以及2D概率分布m_2D1进行了可视化, 分别如图12(a)–图12(c)所示. 其中, 向量p_s1显示了识别出的蛋白质实体的4个起始边界: 1、4、8和16; 而向量p_e1显示了4个结束边界: 3、6、10和19. 如果不考虑2D概率分布矩阵, 则我们最多只能得到4个蛋白质类型的实体: (1, 3)、(4, 6)、(8, 10)和(16, 19), 分别对应“PEBP2”“alpha A1”“alpha B1”和“GM-CSF”. 当考虑2D概率分布时, 矩阵m_2D1显示了5个识别出的蛋白质类型的实体, 除上述4个之外还有一个(1, 6), 对应“PEBP2 alpha A1”. 实际上, “PEBP2 alpha A1”确实也是官方标注的蛋白质实体. 由此可见, 本文提出的GIA-2DPE模型在实体边界的精准检测方面具备有效性.

概率分布的可视化

4 总　结

本文提出了一种能够有效提升复杂实体识别性能的神经网络模型GIA-2DPE. 该模型利用实体类别的语义先验知识增强了对实体的认知, 并通过专用嵌入矩阵自适应地捕获了不同实体类别的潜在特征, 同时利用提出的GIA机制将先验知识与类别特征相结合来辅助识别, 在复杂实体识别任务的基线F1分数上取得了最高10.4%的大幅度性能提升, 超越了目前最先进的模型. 其次, 本文模型还通过提出的2D概率编码机制来预测作为实体边界的词语, 利用边界特征与全局上下文特征增强了对实体边界的精准检测, 在嵌套实体识别任务的基线F1分数上也取得了最高4.6%的性能提升. 最后, 为了验证本文模型的泛化性, 我们在简单扁平实体识别任务上也进行了实验, 同样实现了最先进的性能.

References 1

Gurulingappa H, Rajput AM, Roberts A, Fluck J, Hofmann-Apitius M, Toldo L

Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports

Journal of Biomedical Informatics 2012 45 5 885 892

10.1016/j.jbi.2012.04.008

Gurulingappa H, Rajput AM, Roberts A, Fluck J, Hofmann-Apitius M, Toldo L. Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports. Journal of Biomedical Informatics, 2012, 45(5): 885–892.

Li J, Sun AX, Han JL, Li CL

A survey on deep learning for named entity recognition

IEEE Trans. on Knowledge and Data Engineering 2022 34 1 50 70

10.1109/TKDE.2020.2981314

Li J, Sun AX, Han JL, Li CL. A survey on deep learning for named entity recognition. IEEE Trans. on Knowledge and Data Engineering, 2022, 34(1): 50–70.

Shibuya T, Hovy E

Nested named entity recognition via second-best sequence learning and decoding

Trans. of the Association for Computational Linguistics 2020 8 605 620

10.1162/tacl_a_00334

Shibuya T, Hovy E. Nested named entity recognition via second-best sequence learning and decoding. Trans. of the Association for Computational Linguistics, 2020, 8: 605–620.

Huang HY, Lei M, Feng C

Hypergraph network model for nested entity mention recognition

Neurocomputing 2021 423 200 206

10.1016/j.neucom.2020.09.077

Huang HY, Lei M, Feng C. Hypergraph network model for nested entity mention recognition. Neurocomputing, 2021, 423: 200–206.

Li F, Wang Z, Hui SC, Liao LJ, Zhu XH, Huang HY

A segment enhanced span-based model for nested named entity recognition

Neurocomputing 2021 465 26 37

10.1016/j.neucom.2021.08.094

Li F, Wang Z, Hui SC, Liao LJ, Zhu XH, Huang HY. A segment enhanced span-based model for nested named entity recognition. Neurocomputing, 2021, 465: 26–37.

Wan Q, Wei LN, Chen XH, Liu J

A region-based hypergraph network for joint entity-relation extraction

Knowledge-based Systems 2021 228 107298

10.1016/j.knosys.2021.107298

Wan Q, Wei LN, Chen XH, Liu J. A region-based hypergraph network for joint entity-relation extraction. Knowledge-based Systems, 2021, 228: 107298.

Jiang D, Ren HP, Cai Y, Xu JY, Liu YX, Leung HF

Candidate region aware nested named entity recognition

Neural Networks 2021 142 340 350

10.1016/j.neunet.2021.02.019

Jiang D, Ren HP, Cai Y, Xu JY, Liu YX, Leung HF. Candidate region aware nested named entity recognition. Neural Networks, 2021, 142: 340–350.

Fei H, Ren YF, Ji DH

Dispatched attention with multi-task learning for nested mention recognition

Information Sciences 2020 513 241 251

10.1016/j.ins.2019.10.065

Fei H, Ren YF, Ji DH. Dispatched attention with multi-task learning for nested mention recognition. Information Sciences, 2020, 513: 241–251.

Li CG, Wang GH, Cao J, Cai Y

A multi-agent communication based model for nested named entity recognition

IEEE/ACM Trans. on Audio, Speech, and Language Processing 2021 29 2123 2136

10.1109/TASLP.2021.3086978

Li CG, Wang GH, Cao J, Cai Y. A multi-agent communication based model for nested named entity recognition. IEEE/ACM Trans. on Audio, Speech, and Language Processing, 2021, 29: 2123–2136.

Kong LY, Lai QH, Liu S

End-to-end drug entity recognition and adverse effect relation extraction via principal neighbourhood aggregation network

Journal of Physics: Conference Series 2021 1848 012110

10.1088/1742-6596/1848/1/012110

Kong LY, Lai QH, Liu S. End-to-end drug entity recognition and adverse effect relation extraction via principal neighbourhood aggregation network. Journal of Physics: Conference Series, 2021, 1848: 012110.