张雪(1989-), 女, 博士, 主要研究领域为自然语言处理, 数据挖掘
孙宏宇(1994-), 男, 硕士, 主要研究领域为数据挖掘, 自然语言处理
辛东兴(1994-), 男, 硕士, 主要研究领域为数据挖掘, 自然语言处理
李翠平(1971-), 女, 博士, 教授, 博士生导师, CCF杰出会员, 主要研究领域为社会网络分析, 社会推荐, 大数据分析和挖掘
陈红(1965-), 女, 博士, 教授, 博士生导师, CCF杰出会员, 主要研究领域为大数据管理与隐私保护, 基于新硬件的数据管理与数据分析, 数据仓库与数据挖掘
自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望.
Automatic term extraction is to extract domain-related words or phrases from document collections. It is a core basic problem and research hotspot in the fields of ontology construction, text summarization, and knowledge graph. In particular, under the rise of unstructured text studies in big data, automatic term extraction technology has been further concerned by researchers and has obtained rich research results recently. With the terminology sorting algorithm as the main clue, this study surveys the basic theories, technologies, current research works, advantages and disadvantages of automatic term extraction methods. First, the formalized definition and solution framework of automatic term extraction problem are outlined. Then, based on the features of the basic language information and the relational structure information in the "shallow parsing", the latest study results are classified, research progress and major challenges of existing automatic term extraction methods are summarized systematically. Finally, some available data resources are listed, evaluation approaches are analyzed, and the possible research trends in the future are predicted.
随着大数据、移动互联网和社交媒体等技术的迅猛发展, 使得网络空间中所蕴含的文本数据量呈指数级增长.因此, 如何对这些文本数据进行分析并挖掘出最有价值的内容(例如术语、实体、关系、语义图等)成为当前备受关注的重要研究领域.其中, 从大型文本集合中抽取出描述某一特定领域(例如科技文献、社交推文等领域)的术语(term, 包括单词或短语)是文本挖掘和信息抽取的首要步骤, 也是本体构建[
自20世纪30年代初期奥地利术语学博士Eugen Wuister教授正式创立“术语学”起至今80余年, 大量学者对术语相关领域展开了广泛的研究.最初, 借助于术语学者和领域专家的背景知识人工进行术语识别及抽取, 形成特定领域的术语库, 供学术界和工业界使用.但这一时期的术语抽取严重依赖于专家知识, 抽取工作繁重、耗时长且效率低, 属于人工术语抽取阶段.
之后, 伴随着计算机技术的迅猛发展, 自动术语抽取(automatic term extraction, 简称ATE)越来越受到关注, 大量的自动术语抽取方法、框架和工具不断涌现, 这些方法取得了一定的成绩和较好的效果.这一阶段(属于经典方法阶段)的自动术语抽取方法主要分为基于语言学、基于统计学和两者混合的抽取方法3类.基于语言学的术语抽取方法主要是制定可涵盖领域语言特征的规则集合, 然后通过形式化定义的规则集合来抽取术语.如Bourigault等人[
经典方法在自动术语抽取过程中只考虑了术语本身特征及其在目标语料库中的词频特征, 使得术语抽取效果深受目标语料库规模和质量的影响.因此, 学者逐渐将外部知识(例如维基百科、WordNet等)、语义信息、图结构、主题模型及深度学习等技术应用到自动术语抽取任务中.这一阶段(属于拓展方法阶段)的术语抽取方法不再局限于“浅层语言分析”中的基础语言信息:即术语本身的构词特征和词频特征.而是考虑较深一层的关系结构信息:包括术语与常用词之间的频率分布差异、术语与术语之间的语义关联以及更多类型特征的融合等, 因此拓展阶段的自动术语抽取方法分为基于外部知识的术语抽取、基于语义相关的术语抽取、基于机器学习的术语抽取、基于深度学习的术语抽取、基于图的术语抽取和基于主题模型的术语抽取.如Vivaldi等人[
本文不同于已有综述文献[
本文第1节概述术语抽取问题的形式化定义以及通用解决框架.第2节详细总结现有文献所使用的术语抽取方法, 并对其进行分类; 系统分析各类自动术语抽取方法的研究现状及面临的挑战.第3节归纳分析自动术语抽取常用的数据集、工具、评价方法及评价指标, 便于学者开展实验评估.第4节对自动术语抽取未来可能的研究趋势进行探讨与展望, 并总结全文.
自动术语抽取任务的目标是从文档集合中抽取并排序与领域相关度高的词或短语, 其形式化定义如下.
自动术语抽取基本流程
The basic process of automatic term extraction
(1) 使用语言学或统计学工具, 生成术语候选词(包括词或短语)集合
(2) 使用组合特征或组合方法评估术语候选词的质量, 将术语候选词
用户想要获取机器学习领域术语时, 需要先对所有文档进行预处理, 然后使用语言解析器或
解决自动术语抽取问题的框架和具体步骤如
自动术语抽取的具体步骤及解决框架
The framework of automatic term extraction
(1) 确定语料库文档.即确定目标语料库中要抽取的文档类型.
根据语料库中可用标注数据的量级, 分为通用文档和特定文档, 例如新闻类文档与科技文献类文档.在通用文档语料库中, 有大量公共标注数据集可供使用; 而在特定文档语料库中, 只有少量标注数据可用.因此可以考虑是否借助外部知识库, 例如维基百科、百度百科、HowNet通用知识库等来扩充语料库中的标注数据.
根据语料库文档是否遵循常规语法, 分为规范文档和非规范文档, 例如新闻类文档与微博类文档.规范文档通常使用严格定义的语法及符号, 便于抽取候选术语, 而微博、推特等非规范文档则使用较为宽泛的语法来组织词汇、图像和符号, 如大写、缩写等, 增加了术语抽取的难度.因此可以考虑使用文档预处理来过滤所有无关的内容.
(2) 生成术语候选词集合.
术语候选词集合的生成是自动术语抽取方法的基础性重要步骤, 因为候选术语质量的好坏直接影响术语抽取的最终结果.
通常, 文档集合使用语言处理器或基于统计的启发式规则来抽取候选术语, 生成术语候选词集合.首先, 对目标语料库中的文档集合进行预处理, 包括分词、词干化、词性标注等; 同时进行文档切分, 以标点符号作为分隔符分割文档, 得到文本串片段(segment).然后, 使用启发式规则(如
(3) 对术语候选词排序并筛选.
术语候选词排序算法是自动术语抽取方法中最重要、最复杂的步骤[
值得注意的是, 本文中绝大部分ATE方法采用
自动术语抽取方法的研究工作分为两个阶段:经典阶段和拓展阶段.在研究初期, 一些经典的自动术语抽取方法, 如基于语言学的方法、基于统计学的方法及两者混合的抽取方法被广泛使用, 这一阶段(属于经典方法阶段)以不断总结语言特征规则和尝试各种经典统计学方法为主, 取得了一定的成绩和较好的抽取效果.但经典方法在自动术语抽取过程中只考虑术语本身特征及目标语料库中候选术语的词频特征, 使得术语抽取效果受目标语料库规模和质量的影响很大.
为了解决这一问题, 学者逐渐将外部知识(例如维基百科、WordNet、参考语料库等)、语义信息、图结构及主题模型等方法应用到自动术语抽取任务中.这一阶段(属于拓展方法阶段)的术语抽取方法不再局限于“浅层语言分析”中的基础语言信息:即术语本身的构词特征和词频特征.而是考虑较深一层的关系结构信息:包括术语与常用词之间的频率分布差异、术语与术语之间的语义关联以及不同类型特征之间的融合等.因此, 在研究的拓展阶段, 以加入新兴的特征和方法为主, 可以将自动术语抽取方法分为基于外部知识的方法、基于机器学习的方法、基于深度学习的方法、基于语义相关的方法、基于图的方法以及基于主题模型的方法.
本文所提出的自动术语抽取分类方法, 不同于已有综述文献中按照术语特征分类[
简单来说, 可将目标文档集合看作一个或多个语义图, 术语表示语义图中的顶点, 术语之间的关联关系表示语义图中的边:例如语义相似关系、同义关系、上下位关系、整体-部分关系等.因此, 浅层语言分析中的基础语言信息等同于顶点的属性(即顶点特征), 关系结构信息等同于边的权重(即边的特征).而深层语义分析则是通过链接关系构建术语与外部知识库实体之间的映射, 进而使用整个知识库进行术语含义的消歧、扩展以及深层语义理解.经过广泛调研, 基于深层语义分析的ATE方法较少[
自动术语抽取方法分类
Method category of automatic term extraction
术语抽取分类 | 详细类别 | 使用特征 |
基础语言信息类 | 基于语言学的方法 | 词形特征, 语义特征, 词法特征 |
基于统计学的方法 | 词频特征 | |
混合方法 | 语义特征, 词法特征, 词频特征, 等 | |
基于外部知识的方法 | 候选词在特定领域与其在通用领域的对比特征 | |
基于机器学习的方法 | 语义特征, 词法特征, 词频特征, 外部资源特征, 分布式特征, 等 | |
基于深度学习的方法 | 分布式特征 | |
关系结构信息类 | 基于语义相关的方法 | 候选词之间的相似性 |
基于图的方法 | 候选词之间的关系特征:共现关系、语义相似, 等 | |
基于主题模型的方法 | 候选词在主题上的分布特征 |
这样分类的好处是可以从更基础、更全面的角度对现有ATE解决方案进行了解, 有助于对比不同方法之间的关联关系, 综合已有的高效方法、较新的方法以及引入有用的外部资源, 进而提出更加高效的自动术语抽取特征及解决方法.在下文中, 将依次对各类ATE方法进行详细介绍.
基于语言学的自动术语抽取方法主要利用词法模式、词形特征、语义信息等基础语言知识从目标语料库中抽取术语.其基本思想:术语常以特定的语言结构和模式出现, 通过发现符合术语模式的字串, 构建一套较完整的词法规则集合, 自动抽取出领域术语.
在研究初期(20世纪90年代), 自动术语抽取主要是基于语言学知识, 使用词或词组的词性标注和分块技术等来确定术语候选词的前后边界, 利用语言学专家手工构造的规则模板确定候选词是否为领域术语.这一时期, 自动术语抽取通常应用于翻译和搜索领域来协助提高这些任务的效率.例如, FASTR系统[
上述基于语言学开发的术语抽取系统或方法大多受到手动规则和噪声数据等方面的限制, 很难适应其他领域.针对这一问题, 学者们提出自动学习领域语言规则的模型, 借助模型对大规模语料中术语的词性规则进行抽取, 并为这些词性规则定制优先级.如1994年, Punyakanok等人[
基于语言学的自动术语抽取方法主要利用语言专家对特定领域的术语进行识别, 归纳总结出该领域的语言规则集合.理论上, 只要在特定领域提取足够多的语言规则并为其定制良好的优先级, 则该类方法在术语抽取的准确率上有极大的优势, 还能有效识别出低频术语.但是基于语言学的ATE方法也存在着以下3个缺点:
(1) 过于依赖专家知识及POS标注器, 使得抽取规则集合的模型不具有泛化性并导致标记错误向下游应用累积传播; (2)人工编写的规则不能覆盖领域中所有语言学特征; (3)针对某一领域的规则集合很难迁移到其他领域, 导致该类方法的可移植性不强.因此, 目前很少使用纯语言学方法进行自动术语抽取的研究, 主要将其作为术语抽取的预处理步骤用以生成术语候选词集合, 如文献[
基于统计学的自动术语抽取方法利用目标语料库中词或词组的分布频率来抽取术语.相比较基于语言学的方法, 这类方法简单高效, 不需要领域专家、人工标注数据和外部词典.其基本思想是:文档集合经过预处理后, 可使用简单的统计方法进行过滤, 比如词频、TF-IDF等, 生成术语候选词集合; 然后按照阈值设定将大于术语评分阈值的候选词确定为真正术语或者按照数量要求(前
基于统计学的抽取方法通常将术语特性归结为两个便于度量的原则[
单元性度量(unithood):衡量术语候选词(长度 > =2)内部的搭配强度和粘合程度, 只针对多字术语(multi-word terms, 简称MWT), 又称为单词关联度量.单元性度量最显著的特征是词频, 词频越高, 候选术语内部结构越稳定.
单元性度量的假设基础是:如果一个单词序列频繁地出现在一起, 它可能表达了一个独立完整的语言含义, 需要有效的方法验证该单词序列是否具有稳定的内部结构.常用方法:
(1)
其中,
(2)
(3)
其中,
(4) 对数似然比(log likelihood ratio, 简称LLR).对数似然比[
其中,
概率计算公式
Probability calculation formula
根据
当对数似然比值较大时, 说明比较符合假设2的预期, 即候选术语
(5) 点互信息(pointwise mutual information, 简称PMI).点互信息[
其中,
虽然单元性度量在自动术语抽取中起着不可或缺的作用, 如大量文献[
领域性度量(termhood):衡量术语候选词与特定领域的相关程度.领域性度量主要根据目标语料库中词或词组的分布统计数据(例如词频、TF-IDF值等)来计算术语与领域的关联程度, 可同时度量单字术语(single-word term, 简称SWT)和多字术语(multi-word term, 简称MWT).常用方法分为两类:基于词频的方法和基于文档频率的方法.
(1) 基于词频的方法
词频(term frequency, 简称TF)是指候选术语
平均词频(average term frequency, 简称ATF)[
领域性度量方法
The methods of termhood
类别 | 方法名称 | 计算公式 |
基于 |
词频 | |
归一化词频 | ||
平均词频 | ||
领域共识 | ||
基于文档频率 | 逆文档频率 | |
词频-逆文档频率 | ||
RIDF |
领域共识(domain consensus, 简称DC)[
(2) 基于文档频率的方法
逆文档频率(inverse document frequency, 简称IDF)[
词频-逆文档频率(term frequency-inverse document frequency, 简称TF-IDF)[
残差IDF(residual-IDF, 简称RIDF)[
领域性度量在自动术语抽取中是非常重要的, 可以将真正的术语与常用短语进行区分.但现有的领域性度量方法还比较基础, 主要基于频率进行度量, 忽略领域低频术语的抽取, 不能满足多种类型术语的抽取需求.
基于统计学的自动术语抽取方法主要利用词频、文档频率等概率统计信息来抽取符合阈值的词或词组作为领域术语.该类方法简单、易实现, 通用性较强, 不需要领域专家、语言学规则、语义信息, 不需要标注数据和外部知识库, 也不受领域限制.但是, 基于统计学的ATE方法依然存在以下两个缺点:(1)严重依赖目标语料库的规模和质量, 若目标语料库规模较小, 术语抽取效果直线下降.Li等人[
混合术语抽取方法在研究初期多是结合语言学方法和统计学方法进行自动术语抽取, 其中较早且有代表性的是C-value方法和NC-value方法.在拓展研究阶段, 则以结合多种方法取其优势为主.
早在2000年, Frantzi等人[
其中,
不少研究在C-value方法的基础上进行改进, 最新的几种方法, 如RAKE[
其中,
2015年, Astrakhantsev[
其中,
Frantzi等人[
之后, 研究者逐渐尝试结合多种术语抽取方法取其优点的混合策略.2011年, You等人[
2016年, Stanković等人[
混合自动术语抽取方法主要利用语言学、统计学、主题信息等方法的不同特征组合抽取术语, 兼具多种方法的优点, 具有较好的领域独立性和语言无关性, 进一步提高了术语抽取的准确率和召回率, 如Pazienza等人[
基于外部知识的术语抽取方法主要利用外部资源, 如参考语料库、维基百科等来提高术语抽取的准确率.其基本思想是:某一特定领域的术语候选词在该领域中的分布一般与通用领域(general domain)的分布有明显的不同, 候选术语在特定领域的出现次数比在通用领域的出现次数更加频繁.因此可以使用外部资源作为参考, 通过对比词或词组在目标语料库和在外部资源中出现频率的差异, 将术语候选词与常用词、无意义的词串区分开, 从而达到术语抽取的目的.
其中, 参考语料库(reference corpus)是指包含通用领域或其他领域的文档集合、电子书、新闻集以及语言学家创建的语料库, 例如开放的美国国家语料库(Open American National Corpus, 简称OANC)和英国国家语料库(British National Corpus, 简称BNC)等.
Ahmad等人[
其中,
不少学者在Weirdness方法的基础上进行研究改进.Relevance方法[
Domain Specificity方法[
其中, |
之后开发的GlossEx系统[
最新研究成果中, Lopes等人[
另一个较为重要的外部知识是维基百科(Wikipedia), 不仅支持多语言, 涵盖众多领域, 而且知识内容和条目持续更新扩充, 同时能够满足各种规模目标语料库的需求.尤其对于较小规模语料库非常实用, 因为较小规模语料库自身的统计信息不足以区分术语和非术语, 需要使用维基百科来提供特定领域的统计信息.
Vivaldi等人[
2014年, Astrakhantsev等人[
2017年, Haque等人[
基于外部知识的自动术语抽取方法主要通过对比词或词组在目标语料库和外部资源中出现频率的显著差异进行术语抽取.该类方法有助于弥补因目标语料库质量不佳或统计信息不足造成术语抽取效果差的缺陷, 通常借助外部知识来获取目标语料库之外的有效特征, 解决低频术语抽取问题, 提高术语抽取准确率.但美中不足的是, 并非所有领域都可以使用外部知识资源, 一些特定专业领域并无可用的外部资源.
基于机器学习的自动术语抽取方法可分为3类:有监督方法、弱监督方法和远程监督方法.这3类抽取方法都需要先标注数据后进行有监督学习, 区别在于每类方法所需人工标注数据的规模不同.其基本思想是:在给定训练数据的情况下, 基于机器学习的抽取方法通常会将训练实例转换成一个特征空间, 特征空间融合多种自然语言特征来提高术语抽取的准确率.这些特征可以是基于语言学的特征(例如POS模式、特殊字符的出现等), 也可以是基于统计学的特征或者是两者的组合特征, 还可以是来自外部知识库的特征.其中, 基于统计学的特征通常使用统计学自动术语抽取方法(例如TF, TF-IDF)作为指标来计算训练实例的分数.
有监督方法将术语抽取看作是二分类问题, 判断语料库中的词串(词或短语)是或者不是术语.这种方法必须先提供已标注好的术语作为训练集; 然后利用训练集来训练一个术语抽取模型; 最后将训练好的模型应用到所有术语候选词中, 得到每个候选术语的类别分数, 再将其分为术语或非术语.
2009年, Zheng等人[
除了上述多种特征融合方法外, Liu等人[
SegPhrase方法的创新点1在于:定义了什么是高质量短语, 从4个维度给出度量方法, 使得术语质量衡量完善.
(1) 普遍性:高质量短语应当多次在文档中出现.普遍性本质上是指短语的词频, 因此文中使用
(2) 一致性:高质量短语的出现次数要高于普通词的平均出现次数.一致性主要是指短语内部的固定搭配程度, 文中使用点互信息、KL距离这两个unithood特征来进行度量;
(3) 信息性:高质量短语在特定领域中表示有意义的词组(例如, this paper则不具备信息性).信息性主要是指短语特定于领域的程度, 文中使用去除停用词、IDF、候选词大小写这3个特征来进行度量;
(4) 完整性:高质量短语在句子中应表示一个完整的语义单元, 不是机械地切分.文中采用短语分割技术来进行句子的最优分割, 从而获取语义完整的短语.
SegPhrase方法的创新点2在于:形成了一个整体可迭代、可裁剪的框架, 可伸缩性很强(如
Segphrase方法的基本框架[
The basic framework of SegPhrase method[
(1) 频繁模式挖掘.生成频繁术语候选词集合;
(2) 短语特征的提取.将提取好的特征(一致性及信息性共5个特征)输入分类器中, 得到一个预估的术语候选词质量, 即短语质量评分(大于0.5为高质量短语, 小于0.5为劣质短语);
(3) 短语分割阶段.使用第(2)步生成的短语质量分数来进行短语分割, 得到短语纠正后的频率;
(4) 短语纠正特征的提取.短语分割后可提取出两个关于纠正频率的特征放入分类器的特征集合(feature set)中, 提升分类器下次预估的准确性;
(5) 过滤低纠正频率的短语.按照纠正后的分数排序输出短语列表.
其中, 步骤(1)~步骤(3)对应于
有监督自动术语抽取方法需要大量的标注数据, 但是获取带标注的数据集耗时长, 成本昂贵, 不易实现.因此, 近年来, 研究者更多将注意力转移到半监督和弱监督的术语抽取方法上, 以期解决训练数据的标注问题.弱监督方法不像有监督方法需要大量标注好的训练数据, 只需要少量的标注数据作为训练集, 利用这些数据训练抽取模型, 然后使用抽取模型再进行未标注候选词集合的术语抽取, 人工或自动地对抽取结果进行甄别, 最后将结果正确的标注数据加入训练集中, 再继续训练模型.
Yang等人[
Astrakhantsev等人[
2014年, Judea等人[
2016年, Wang等人[
远程监督方法不需要人工标注的训练数据, 主要利用远程对齐外部知识库(例如维基百科, WordNet等)来对术语候选词集合中的候选词进行自动标注, 得到大量的正负样例, 形成训练集.远程监督方法在自动术语抽取领域的应用还比较少, 最新的研究是Shang等人[
与SegPhrase方法不同的是, AutoPhrase方法引入两种新技术:(1)远程训练技术.使用通用知识库(例如维基百科, Freebase等)来标记候选词集合中的正样例, 形成正样例池(positive pool); 剩下的候选词自动构成带噪声的负样例池(negative pool), 之后通过分类器集合来降低噪声数据的影响.这一过程可使架构摆脱额外的手工标记工作, 实现真正的术语抽取自动化; (2) POS指导的短语分割技术.在SegPhrase方法短语分割的基础上, 利用POS标签中浅层句法信息来指导短语分割模型, 更准确地定位短语的边界(如
AutoPhrase方法的基本框架[
The basic framework of AutoPhrase method[
基于机器学习的自动术语抽取方法是目前术语抽取领域的研究热点, 主要利用多种混合特征及分类器来抽取术语.该类方法中有监督抽取方法依赖于人工标注得到训练集, 准确率较高, 无需人工制定规则, 具有较高的实验价值.但人工标注的数据集耗时长, 成本昂贵, 标注数据量有限, 可扩展性低, 削弱了模型的领域独立性, 使其跨领域泛化能力较差.而远程监督抽取方法则是采用远程对齐外部知识库自动标注数据集, 极大地节约了人力成本, 增强了领域通用性, 但是远程标注也带来了很多错误标注数据, 导致错误标签的误差逐层传播, 影响了术语最终抽取效果.相较于有监督方法和远程监督方法, 弱监督抽取方法是目前使用较多的术语抽取方法, 具有明显的优势, 只需少量的标注数据便可得到增量扩展的训练集; 并在人力成本可控条件下不断优化训练模型, 得到最先进的术语抽取效果; 同时, 少量标注使得模型的通用性更强, 跨领域迁移能力更大.总体而言, 基于机器学习的ATE方法虽取得了不错的成果, 但是还不够成熟, 仍依赖人工筛选术语特征及标注数据, 需要更进一步地研究探索.
基于深度学习的自动术语抽取方法主要结合最新的深度学习技术来进行自动术语的抽取, 是一种数据表示的特殊机器学习方法, 可解决抽取术语中人工挑选最佳特征工程的问题.其基本思想是:通常将候选术语或整个句子的词嵌入表示(word embedding representation)作为输入, 喂给特定的深度学习模型(例如深层神经网络DNNs、深层信念网络DBNs、递归神经网络RNNs、深层递归神经网络DRNNs), 然后由多个处理层组成的深度计算模型学习出具有多个抽象级别的候选术语表示, 最后对该表示进行术语类别划分.
近年来, 深度学习技术为各种NLP任务提供了多种解决方案以及接近专家水平的准确率.因此, 深度学习模型在自动术语抽取任务中得到了应用.最早将深度学习引入自动术语抽取领域的研究者[
同年, Gao等人[
另一些研究者将自动术语抽取转化为序列标注问题, 如
序列标注问题的基本框架
The basic framework of sequence labeling issue
基于深度学习的自动术语抽取方法主要利用深度学习模型来抽取术语.该方法无需人工筛选术语特征, 减少了昂贵的人工成本, 并有助于将候选术语和上下文信息结合起来, 以词嵌入向量表示融合更多类型的特征, 从而达到较好的术语抽取效果, 尤其适合超大文档集合.但该方法的缺点也很明显, 依赖于复杂的深度学习模型, 需要非常大量的标注数据或标注句子(对应序列标注方法)以及较长的训练时间, 且模型的跨领域泛化能力较弱.当前, 一些论文结合
基于语义相关的自动术语抽取方法主要利用词组间的语义关系, 来改进语义相关术语的排名, 达到提高术语抽取准确率的目的.
词与词之间的语义关系包括语义相似性(semantic similarity)和语义相关性(semantic relatedness), 语义相似性关系, 例如汽油和柴油之间的关系; 语义相关性关系, 例如鼠标和键盘之间的关系.所以, 量化术语之间的关联程度, 不仅要考虑语义相似性, 还要考虑术语和术语之间可能存在的语义相关性关系.详细来说, 可以从两个角度来度量术语之间的关联程度[
●浅层语义度量:根据Bikel等人的论述[
(1) 领域关键信息度量:提取领域关键信息(例如一组概念, 或一组种子术语等)作为特定领域的表征, 通过计算候选术语与领域关键信息的相关性进行度量;
(2) 上下文相似性度量:通过术语与周围其他词在一定距离窗口内的同现频率(co-occurence)或分布式表示来进行度量.
●深层语义度量:以知识库为基础度量, 使用知识资源(例如同义词典, 语义网络或分类法)度量术语间的相似及相关关系[
(1) 浅层语义度量
在领域关键信息度量方面, Astrakhantsev等人[
与KCR思路相似, Bordea等人[
2018年, Yu等人[
在上下文相似性度量方面, Li等人[
上下文共性(context commonness):衡量一个候选术语
其中,
上下文纯度(context purity):衡量候选术语
上下文纯度是指术语
上下文泛化(context generalizability):衡量候选术语
上下文泛化是指与术语
此外, Lossio-Ventura等人[
(2) 深层语义度量
2016年, Conde等人[
LiTeWi方法最大的特点是利用Wikipedia作为语义知识库对多语义的术语进行消歧, 合并同一语义的术语.实验结果表明, 候选术语集合中约25%的术语存在多种语义, 使用知识库语义消歧后, 改进了语义相关术语的排名, 提高了领域术语抽取的准确率.基于此, Khan等人[
2018年, Li等人[
上下文链接能力(context link-ability):衡量候选术语
其中,
基于语义相关的自动术语抽取方法主要利用术语之间的关联关系(边的特征)来抽取术语.该类方法考虑了术语与术语之间的语义关系, 可以融合更多的其他特征, 因此取得了较好的抽取效果.但是, 术语间的语义关系依赖于领域关键概念的获取或分布式表示的学习以及外部知识库的构建, 若特定领域的关键概念选取失败或不存在特定领域的知识库, 则会影响术语的抽取质量.因此, 常采用分布式相似度量作为基于语义相关的自动术语抽取方法的质量评估算法.
基于图的自动术语抽取方法是最近几年开始在术语领域流行的一类无监督抽取方法.该类方法的灵感来源于PageRank中网页重要度的排序方法.2004年, Mihalcea等人[
基于图的术语抽取基本步骤如下.
(1) 文档图形化表示.可以将语料库中的所有文档表示为一个图, 也可以将每个文档单独表示为一个图.其中, 顶点表示文档预处理后生成的单词或短语, 边表示单词或短语在滑动窗口中的共现关系, 或者表示单词或短语间的语义相似关系.
(2) 评分函数定义.使用不同的排序方法对图中的顶点进行评分.
在基于图的抽取方法中, 最常使用PageRank分数作为排序指标.PageRank算法[
对于图结构中的任一顶点
其中,
受PageRank算法的启发, Mihalcea等人[
公式在PageRank的基础上增加了边的权重, 语义图中每个单词的重要性分数通过相连单词的数量与其重要性来评估.单词按照重要程度排序后选取前三分之一, 合并相邻的单词, 抽取出关键术语.TextRank模型是通过词间共现频率构建的无向加权图, 忽略了词与词之间的语义相关性, 也未考虑上下文信息和其他辅助信息.
Khan等人[
2018年, Zhang等人[
基于图的自动术语抽取方法考虑了语料库中术语和术语之间的共现关系(或语义相似性关系, 即存在语义关联), 依赖于重要性分数且能够融合更多的顶点特征信息, 取得了较好的抽取效果.同时, 该类方法不需要花费昂贵的人力成本来标注数据, 能够弥补以词频为主的统计学方法所带来的缺点, 即容易遗漏低频但重要的术语.但是该方法对图规模及边的疏密较为敏感, 如何快速、有效地进行图的传播收敛仍是研究者需要解决的问题.
主题模型是以无监督学习方式对文本集合的隐含语义进行聚类的概率模型, 旨在根据主题描述文本, 确定每个文本与哪些主题相关以及每个主题由哪些单词(或短语)构成.事实上, 每个主题可以表示为一组经常出现的单词(或短语)集合, 该组单词按照对主题的相关程度降序排列.
基于主题模型自动抽取方法的理论基础:大多数术语可以表示成与特定领域子主题相关的概念, 最新研究结果表明[
基于主题模型的术语抽取的基本步骤如下.
(1) 使用主题建模技术(例如聚类, LDA)将目标语料库映射到由多个主题组成的语义空间;
(2) 使用词的主题概率分布来对术语候选词进行评分.
Bolshakova等人[
术语的主题特征
The topical features of term
方法名称 | 计算公式 |
Term frequency (TF) | |
TF-IDF | |
Domain consensus | |
Maximum TF | |
Term score (TS) | |
TS-IDF | |
Maximum TS |
同年, Li等人[
El-Kishky等人[
同年, Sun等人[
2016年, Li等人[
2017年, Arora等人[
基于主题建模的自动术语抽取方法不同于基于频率的统计学抽取方法, 主要使用词的主题概率分布来对术语候选词进行评分, 可以兼顾术语的语义信息, 提高低频术语的评分.但该类方法依赖于主题划分的准确性, 在术语抽取领域的应用还不太成熟.
上述章节详细介绍了各类自动术语抽取方法的基础理论、关键技术以及研究现状.总体而言, 基于语言学的ATE方法相对简单、易行, 但大多数方法基于规则, 需要人工归纳总结, 不利于跨领域迁移使用; 基于统计学的ATE方法不受领域限制, 通用性较强, 但严重依赖于目标语料库的规模和质量; 基于混合的ATE方法兼具多种方法的优点, 具有良好的领域独立性和语言无关性, 但特征组合算法过于单薄, 其抽取效果差于基于机器学习的ATE方法; 基于外部知识的ATE方法可以获取到目标语料库外的有效特征, 弥补因语料库质量和统计信息不足造成术语抽取效果差的缺陷, 美中不足的是, 一些特定领域并无可用的外部资源; 基于机器学习的ATE方法术语抽取准确率较高, 但需要人工筛选特征集, 且模型对人工标注的训练集有较强的依赖性; 基于深度学习的ATE方法无需耗时设计特征工程, 便能达到与机器学习相当的抽取准确率, 但需要大量的标注数据, 模型训练耗时长; 基于语义相关的ATE方法虽无需人工标注, 但依赖领域关键概念的获取, 应用较少; 基于图的ATE方法属于无监督方法, 可减少大量的人工干预, 通过术语间的关联关系提高低频重要术语的评分, 但图模型对图规模及边的疏密较为敏感, 如何快速、有效地进行图的传播收敛仍是研究者需解决的问题; 基于主题建模的ATE方法通过划分主题对术语进行分类, 兼顾术语的语义信息, 使得术语抽取效率得到进一步提升, 难点在于如何将候选术语划分到正确的主题类别下.
综上,
各类自动术语抽取方法的对比分析
Comparison of 8 types of automatic term extraction methods
方法 | 技术特点 | 优点 | 缺点 | 代表性成果 | 发展趋势 |
基于语言学 | 利用词法模式、词形特征、语义信息 | 准确率高 | 通用性差, 需人工标注 | LEXTER | 长期研究方向 |
基于统计学 | 利用词频、文档频率等概率统计 | 通用性强, 无需标注数据 | 准确率依赖于目标语料库的规模和质量 | TF-IDF | 主流方法 |
混合 |
利用语言学、统计学、主题信息等抽取方法的特征, 兼具多种方法优势 | 通用性强, 无需标注数据, 准确率较高 | 特征组合算法简单, 缺乏组合深度 | C-value | 应用较多, 长期研究方向 |
基于外部知识 | 获取目标语料库外的有效特征, 作为对比使用, 如参考语料库、维基百科等 | 通用性较强, 无需标注数据, 可抽取低频术语 | 引入噪声数据, 一些特定领域并无可用外部资源 | Weirdness | 主流方法, 多领域应用 |
基于机器学习 | 利用分类器融合多种特征, 包括术语的语言特征、统计特征、外部知识库特征等 | 准确率高, 无需人工制定规则 | 需大量的标注数据, 跨领域能力弱, 目前还不成熟 | SegPhrase, AutoPhrase | 研究热点 |
基于深度学习 | 利用深度学习模型, 结合分布式特征(词嵌入表示) | 准确率高, 无需复杂的特征工程 | 需大量标注数据(远大于机器学习所需), 通用性弱 | - | 研究热点 |
基于语义相关 | 利用术语之间的关联关系(边的特征), 包括语义相似性和语义相关性 | 无需标注数据 | 对领域关键概念的抽取依赖性强 | KeyConcepts Relatedness | 小范围应用 |
基于图 | 将文本图形化表示, 点表示术语(点的特征), 边表示术语之间的关联特性(边的特征) | 通用性较强, 无需标注数据, 解决低频词问题 | 图中边比较稀疏, 收敛慢, 应用不成熟 | TextRank | 多领域应用 |
基于主题模型 | 将文档、主题、术语(词或短语)这3方面的信息综合考虑 | 术语聚簇化, 无需标注数据, 提高抽取准确率 | 依赖于主题划分的准确性, 应用不成熟 | ToPMine | 主流方法 |
除了第2.10.1节中9类ATE方法对比之外, 每种类别下的ATE方法也各有特点.
自动术语抽取方法分析列表
The list of analysis of automatic term extraction methods
抽取方法 | 类别 | 模型 | 使用算法 | 语言 |
统计 |
对比 |
分布式 |
语义关 |
主题 |
外部 |
ComboBasic, 2015[ |
混合法 | Basic | 语言规则过滤+ |
√ | √ | - | - | - | - | - |
Li, 2015[ |
混合法 | DV-termhood | 信息熵和词频分布 |
√ | √ | - | - | - | - | - |
SegPhrase, 2015[ |
有监督 | 随机森林 | 短语分割模型+随机森林 |
- | √ | - | - | - | - | - |
RIDF, 2016[ |
统计法 | IDF | RIDF算法[ |
- | √ | - | - | - | - | - |
Stanković, 2016[ |
混合法 | - | 基于语法的语言规则+ |
√ | √ | - | - | - | - | √ |
tf-dcf, 2016[ |
外部知识 | TF-IDF | tf-dcf算法 | - | √ | √ | - | - | - | - |
Wang, 2016[ |
弱监督 | CRF模型 | CRF模型+构建核心词汇库 | √ | - | - | - | - | - | √ |
Wang, 2016[ |
深度学习 | 联合模型 | 联合模型+深度学习模型LSTM和CNN作为分类器 | - | - | - | √ | - | - | - |
LiTeWi, 2016[ |
语义相关 | - | wikipedia作为语义知识库+ |
√ | √ | √ | - | - | - | √ |
Term Ranker, 2016[ |
图方法 | TextRank | 相似关系语义图+TextRank+ |
√ | √ | - | √ | √ | - | √ |
CITPM, 2016[ |
主题方法 | Phrase LDA | 词频过滤+ |
- | √ | - | - | - | √ | - |
Dong, 2017[ |
混合法 | - | 语言规则过滤+ |
√ | √ | - | - | - | - | - |
Li, 2017[ |
混合法 | unithood | 术语unithood度量+ |
- | √ | - | - | - | - | - |
Haque, 2017[ |
外部知识 | WikiPedia | - | √ | - | - | - | - | √ | |
Yuan, 2017[ |
有监督 | 机器学习 | 6种机器学习算法+ |
- | √ | - | - | - | - | - |
Liu, 2017[ |
有监督 | SVM模型 | SVM模型抽取规则+ |
√ | √ | - | - | - | - | - |
Pan, 2017[ |
图方法 | PageRank | 相似关系语义图+ |
√ | - | - | √ | √ | - | - |
Arora, 2017[ |
主题方法 | 聚类 | 语言规则过滤+ |
√ | - | - | - | √ | √ | - |
DRTE, 2018[ |
语言法 | 词性规则 | 构词规则+边界检测算法 | √ | - | - | - | √ | - | - |
AutoPhrase, 2018[ |
远程监督 | 随机森林 | 外部知识库+ |
√ | √ | - | - | - | - | √ |
Zhao, 2018[ |
深度学习 | Bi-LSTM-CRF | 增量自训练算法+ |
√ | - | - | √ | - | - | - |
Kucza, 2018[ |
深度学习 | RNN模型 | LSTM模型/GRU模型 | - | - | - | √ | - | - | - |
Li, 2018[ |
语义关系 | 分布式相似 | 术语嵌入向量+ |
√ | √ | - | √ | √ | - | √ |
Yu, 2018[ |
语义关系 | STC-value | 通用词作分割符+ |
√ | √ | - | - | - | - | - |
Lahbib, 2018[ |
语义关系 | 共现频率 | TF-IDF抽取种子术语集+ |
- | √ | - | - | √ | - | - |
SemRe-Rank, 2018[ |
图方法 | PageRank | 相似关系语义图+ |
- | √ | - | √ | √ | - | - |
Khosla, 2019[ |
深度学习 | 联合模型 | 联合模型+CNN和 |
- | - | - | √ | - | - | - |
Gao, 2019[ |
深度学习 | RNN模型 | 术语向量表示+CNN+ |
√ | - | - | √ | - | - | - |
自动术语抽取已得到广泛的研究, 取得了一定的成绩和较好的效果.但是, 现有的自动术语抽取方法仍处于较为初期的阶段, 与问题的真正解决还有很长的距离, 亟待进一步提升术语抽取的效率和质量, 并克服面临的诸多挑战.
(1) 目标语料库缺乏标注数据
现阶段, 目标语料库中需处理的文档大多是特定领域的文档, 主要特点是文本稀疏, 缺乏标注数据.使用手动标注或创建领域知识资源, 代价高, 耗时长, 可行性较低.
(2) 抽取效果不理想, 无法过滤噪声数据
噪声数据通常是在生成术语候选词时引入, 如POS标注器的错误标注、词性过滤规则过松等.若这些噪声数据在术语排序算法中没有得到有效处理, 对抽取结果的准确率和召回率影响很大.此外, 并非文档中所有的词串都可以作为术语候选词, 如何有效降低噪声数据的数量, 提高候选术语抽取的质量, 是学者必须面对的问题.
(3) 遗漏低频重要术语
现有大部分自动术语抽取方法无法抽取低频重要的领域术语, 因为没有足够的统计信息来保证低频术语的抽取.例如一些与领域相关性很大但在整个语料库中出现次数很少的术语, 很容易被忽略.
(4) 评价体系不够完善
大多数自动术语抽取研究自成体系, 评价方法及使用数据集(部分使用封闭人工标注数据集)各不相同.很难将所有抽取方法放在一起进行评价, 因而阻碍了自动术语抽取研究的更好发展.
为了方便学者更好地研究自动术语抽取任务及获取数据集, 本文整理了现有研究工作经常用到的公开数据集及其URL链接, 详见
公开数据集详情列表
Open dataset details list
数据集 | 文档数 | 单词数(K) | 标准术语 |
术语来源 | URL链接 |
GENIA[ |
1 999 | 435 | 33 396 | 人工标注 | http://www.geniaproject.org/]]> |
FAO[ |
780 | 26 672 | 1 554 | 人工标注 | http://www.fao.org/global-perspectives-studies/resources/dataset/en/]]> |
Krapivin[ |
2 304 | 21 189 | 8 766 | 文章的关键词 | http://dit.unitn.it/~krapivin/]]> |
ACL[ |
10 922 | 41 202 | 21 543 | 人工标注 | https://github.com/languagerecipes/the-acl-rd-tec]]> |
ACL 2.0[ |
300 | 33 | 3 059 | 领域专家标注 | https://github.com/languagerecipes/acl-rd-tec-2.0]]> |
TTCw[ |
103 | 801 | 287 | 网站爬取过滤 | http://www.lina.univ-nantes.fr/?Reference-Term-Lists-of-TTC.html]]> |
TTCm[ |
37 | 305 | 254 | 网站爬取过滤 | |
Europarl[ |
9 672 | 63 279 | 15 094 | Eurovoc词库 | http://eurovoc.europa.eu/drupal]]> |
DBLP | - | - | - | 无 | https://dblp.uni-trier.de/]]> |
Academia | - | - | - | 无 | http://aminer.org/billboard/AMinerNetwork]]> |
Yelp | - | - | - | 无 | https://www.yelp.com/academic_dataset]]> |
● GENIA数据集[
● FAO数据集[
● Krapivin数据集[
● ACL RD-TEC数据集[
●ACL RD-TEC 2.0数据集[
● TTC类数据集[
● EuroParl数据集[
除了上述可以提供“标准术语表”的公开数据集外, 还有一些目前常用的数据集(例如DBLP, Adamedic, Yelp等)不提供可参考的术语列表, 需要借助领域专家进行术语标注后, 方可进行术语评价.
研究者已开发了很多ATE软件工具.但由于以下3个原因, 使得真正能被用户使用的ATE工具很少.(1) ATE工具中一部分是针对特定领域开发的(例如BioTex, FlexiTerm)或仅限于学术用途(例如TerMine); (2)大部分ATE工具建立在整体式架构中, 这种架构只有非常有限的定制性, 可扩展性低; (3)大多数ATE工具只能提供一种ATE算法, 局限性较大.因此, ATR4S和JATE 2.0作为高度可扩展和模块化的ATE工具, 被较多应用.
比较7种ATE工具
Comparision of seven ATE tools
术语抽取 |
编写 |
发布 |
实现的方法 | 是否 |
使用方式 | URL链接 |
ATR4S[ |
Scala | 2018 | 13种ATE算法: ATF, |
免费 |
调用API接口 | https://github.com/ispras/atr4s]]> |
JATE 2.0[ |
Java | 2016 | 10种ATE算法: TF, ATF, TF-IDF, |
免费 |
(1)嵌入模式; (2)插件 |
https://github.com/ziqizhang/jate]]> |
TermSuite[ |
Java | 2016 | 1种ATE算法: Weirdness | 免费 |
(1) Java API; (2)命令行 |
https://github.com/termsuite/termsuite.github.io]]> |
TBXTools[ |
Python | 2015 | 1种ATE算法:结合语言和 |
免费 |
Python库 | https://sourceforge.net/projects/tbxtools/]]> |
BioTex[ |
Java | 2014 | 8种ATE算法 | 非开源 | (1) Web在线使用; |
http://tubo.lirmm.fr/biotex/]]> |
FlexiTerm[ |
Java | 2013 | 1种ATE算法:基于POS标注 |
免费 |
独立软件 | http://www.cs.cf.ac.uk/flexiterm]]> |
TOPIA | Python | 2009 | 1种ATE算法:基于POS标注 |
免费 |
Python库 | https://pypi.python.org/pypi/topia.termextract]]> |
● ATR4S[
● JATE 2.0[
● TermSuite[
● TBXTools[
● BioTex[
● FlexiTerm[
● TOPIA, 是一个广泛使用的Python库, 提供一种基于POS标注和简单统计度量(例如频率)混合的术语抽取方法.但该ATE工具自2009年以来没有再更新.
目前, 自动术语抽取的评价方法主要分为两种方案.
(1) 人工评价方式:在领域专家的帮助下对抽取术语列表进行人工评价.
(2) 术语参考表评价方式:提前预设一个术语参考表, 即形成一个“标准术语表(golden standard)”.按照此标准对抽取术语列表进行评价.
两种评价方法的优缺点显而易见:第1种方法借助领域专家的知识提供最准确的评估, 可操作性强但主观性也很大, 会产生认识分歧、复杂术语的组合分歧; 第2种方法提供了可重现的实验结果、可调整的参数以及可以使不同方法在一个数据集上的比较.
自动术语抽取效果的评价指标通常借鉴信息检索模型中的3个基本评价指标, 包括准确率
其中,
此外, 部分文献[
其中,
因自动术语抽取评价体系不够完善, 各种文献中术语抽取方法的实验评估完全不同, 在语料库选择(例如领域, 规模)、评价方法(例如人工评价方式, 术语参考表评价方式)和候选术语选择范围(例如整个抽取结果, 前
目前, 有少量文献对自动术语抽取方法及其使用的特征进行实验对比.其中, Zhang等人[
13种ATE方法在7个数据集上的比较(使用AvP)[
Comparison of 13 ATE methods over 7 datasets (by average precision)[
类别 | 方法名称 | GENIA | FAO | Krapivin | Patents | ACL | ACL2.0 | Europarl |
统计学方法 | ATF | 0.710 5 | 0.041 5 | 0.110 7 | 0.539 7 | 0.068 2 | 0.680 2 | 0.168 9 |
ResidualIDF | 0.704 7 | 0.013 3 | 0.106 3 | 0.526 8 | 0.064 5 | 0.677 4 | 0.130 2 | |
混合方法 | C-value | 0.728 3 | 0.384 5 | 0.400 9 | 0.645 2 | 0.430 4 | 0.787 9 | 0.321 3 |
Basic | 0.644 4 | 0.379 5 | 0.391 2 | 0.554 8 | 0.696 6 | |||
ComboBasic | 0.644 0 | 0.379 7 | 0.391 3 | 0.552 6 | 0.701 3 | |||
基于外部知识 | Relevance | 0.741 0 | 0.150 4 | 0.298 8 | 0.504 4 | 0.478 2 | 0.753 0 | 0.213 9 |
Weirdness | 0.767 2 | 0.147 8 | 0.331 5 | 0.542 2 | 0.479 7 | 0.757 9 | 0.227 0 | |
LinkProbability | 0.707 1 | 0.006 8 | 0.102 4 | 0.457 1 | 0.098 0 | 0.718 5 | 0.085 1 | |
基于主题模型 | NovelRopicModel | 0.713 8 | 0.059 8 | 0.108 1 | 0.600 3 | 0.248 4 | 0.795 8 | 0.207 6 |
基于语义相关 | KeyConceptRelatedness | 0.675 8 | 0.338 4 | 0.619 0 | 0.322 7 | 0.712 4 | 0.340 8 | |
PostRankDC | 0.665 5 | 0.413 8 | 0.406 8 | 0.503 3 | 0.457 7 | 0.647 1 | 0.378 4 | |
基于机器学习 | Voting | 0.758 2 | 0.132 6 | 0.268 3 | 0.624 3 | 0.335 3 | 0.787 1 | 0.261 7 |
PU-ATR | 0.442 9 | 0.493 8 | 0.368 8 |
现实应用中的自动术语抽取会受到多方面因素的影响, 包括目标语料库规模、人工标注数据、抽取特征、术语排序算法的选择、参考语料库、噪声数据等.但现有术语方法的实验结果对比大多是假设大部分条件存在并确定, 然后对比1~2个方面因素对于抽取效果的影响.例如, 在语料库和标注数据确定的情况下, 来评测分析不同类型术语抽取特征及方法的优劣.因此, 如何对实际应用中的ATE方法进行评测也是研究者需解决的问题.
通过对现有的术语抽取研究工作进行总结, 未来可以从以下几个方面展开相关研究.
(1) 借助外部知识库, 协助抽取术语
针对目标语料库缺乏标注数据的问题, 可以借助于外部知识库进行解决.随着互联网的快速发展, 诸如维基百科、百度百科、WordNet知识库、搜索引擎或同义词典等外部知识库的资源越来越多, 可以借助外部资源对目标语料库进行自动标注, 有助于提高自动术语抽取的效率, 如Shang等人[
(2) 多维异质特征融合, 提升术语抽取效果
针对现有抽取方法效果差、过滤噪声术语不理想的问题, 考虑将多维异质特征融合到同一种方法中.由第2节自动术语抽取方法的分类可以看出, 术语包含语言结构特征、分布特征、领域特征、上下文特征、语义相似特征、术语间的关系特征(基于图的方法)、主题特征等多个维度的信息.只使用一两个维度进行术语抽取, 得到的效果较为一般, 噪声数据也较多.因此, 自动术语抽取应由只考虑单维特征转向将现有的多维异质特征融合到统一的模型中.例如, Khan等人[
(3) 尝试将自动术语抽取与语义知识相结合
针对已有的抽取方法遗漏重要低频术语问题, 考虑融合术语的语义关系信息进行抽取.基于词频的术语抽取方法无法对低频术语正确评分, 导致其排序靠后被遗漏.因此需要转换角度考虑低频术语:低频术语并非“孤岛”, 领域内的术语之间存在多种语义关联关系, 如同义词关系、上下位关系、整体-部分关系等.解决低频术语问题, 需要重视术语之间的语义关系信息, 将术语在语义上关联性较强的其他术语或关系识别出来, 形成术语语义网.对术语语义网的研究, 给自动术语抽取提供了新的研究方向和思路.
(4) 术语评价体系的完善
目前, 自动术语抽取属于刚起步阶段, 评价体系还没有切实有效的验证标准.对于术语评价体系的完善, 不仅需要落地可行的效果评价方法和评估指标, 还需要坚实可靠的理论体系进行支撑.所以, 完善自动术语抽取的基础评价体系是一个长期的研究方向和目标.
随着大数据、移动互联网和社交媒体等技术的迅猛发展, 导致本文数据量激增, 使得作为文本挖掘中的基础性工作——自动术语抽取变得尤为重要和迫切.本文在简要介绍了自动术语抽取问题定义和解决框架的基础上, 围绕“浅层语言分析”中基础语言信息和关系结构信息两个层面的特征对自动术语抽取方法进行了分类, 对主流的技术和方法进行了对比与分析.此外, 还对术语抽取未来可能面临的挑战和研究方向进行了探讨与展望.
Rani M, Dhar AK, Vyas OP. Semi-automatic terminology ontology learning based on topic modeling. Engineering Applications of Artificial Intelligence, 2017, 63:108-125.[doi:10.1016/j.engappai.2017.05.006]
Wong W, Liu W, Bennamoun M. Tree-traversing ant algorithm for term clustering based on featureless similarities. Data Mining and Knowledge Discovery, 2007, 15(3):349-381.[doi:10.1007/s10618-007-0073-y]
Uysal AK. An improved global feature selection scheme for text classification. Expert Systems with Applications, 2016, 43:82-92.[doi:10.1016/j.eswa.2015.08.050]
Mihalcea R, Tarau P. Textrank:Bringing order into text. In:Proc. of the EMNLP. Stroudsburg:ACL, 2004. 404-411.
Baralis E, Cagliero L, Mahoto N, Fiori A. GRAPHSUM:Discovering correlations among multiple terms for graph-based summarization. Information Sciences, 2013, 249:96-109.[doi:10.1016/j.ins.2013.06.046]
Bouamor D, Semmar N, Zweigenbaum P. Identifying bilingual multi-word expressions for statistical machine translation. In:Calzolari N, Choukri K, eds. Proc. of the LREC. Istanbul:European Language Resources Association, 2012. 674-679.
Yuan Y, Gao Y, Zhang Y, Sharoff S. Cross-lingual terminology extraction for translation quality estimation. In:Calzolari N, Choukri K, eds. Proc. of the LREC. Miyazaki:European Language Resources Association, 2018. 3774-3780.
Paulheim H. Knowledge graph refinement:A survey of approaches and evaluation methods. Semantic Web, 2017, 8(3):489-508.[doi:10.3233/sw-160218]
Li S, Li J, Song T, Li W, Chang B. A novel topic model for automatic term extraction. In:Proc. of the SIGIR. New York:ACM, 2013. 885-888.[doi:10.1145/2484028.2484106]
Judea A, Schütze H, Brügmann S. Unsupervised training set generation for automatic acquisition of technical terminology in patents. In:Proc. of the COLING. Stroudsburg:ACL, 2014. 290-300.
El-Kishky A, Song Y, Wang C, Voss CR, Han JW. Scalable topical phrase mining from text corpora. Proc. of the VLDB Endowment, 2014, 8(3):305-316.[doi:10.14778/2735508.2735519]
Liu J, Shang J, Wang C, Ren X, Han JW. Mining quality phrases from massive text corpora. In:Proc. of the SIGMOD. Victoria:ACM, 2015. 1729-1744.[doi:10.1145/2723372.2751523]
Li B, Yang X, Wang B, Cut W. Efficiently mining high quality phrases from texts. In:Singh SP, Markovitch S, eds. Proc. of the AAAI. Palo Alto:AAAI Press, 2017. 3474-3481.
Shang JB, Liu J, Jiang M, Ren X, Voss CR, Han JW. Automated phrase mining from massive text corpora. IEEE Trans. on Knowledge and Data Engineering, 2018, 30(10):1825-1837.[doi:10.1109/TKDE.2018.2812203]
Li B, Yang X, Zhou R, Wang B, Liu C, Zhang Y. An efficient method for high quality and cohesive topical phrase mining. IEEE Trans. on Knowledge and Data Engineering, 2019, 31(1):120-137.[doi:10.1109/TKDE.2018.2823758]
Chen K, Chen HH. Extracting noun phrases from large-scale texts:A hybrid approach and its automatic evaluation. In:Proc. of the ACL. Stroudsburg:ACL, 1994. 234-241.[doi:10.3115/981732.981764]
Justeson JS, Katz SM. Technical terminology:Some linguistic properties and an algorithm for identification in text. Natural Language Engineering, 1995, 1(1):9-27.[doi:10.1017/S1351324900000048]
Frantzi K, Ananiadou S, Mima H. Automatic recognition of multi-word terms:The c-value/nc-value method. Int'l Journal on Digital Libraries, 2000, 3(2):115-130.[doi:10.1007/s007999900023]
Vivaldi J, Cabrera-Diego LA, Sierra G, Pozzi M. Using Wikipedia to validate the terminology found in a corpus of basic textbooks. In:Calzolari N, Choukri K, eds. Proc. of the LREC. Istanbul:European Language Resources Association, 2012. 3820-3827.
Astrakhantsev N. Automatic term acquisition from domain-specific text collection by using Wikipedia. Proc. of the Institute for System Programming, 2014, 26(4):7-20.[doi:10.15514/ISPRAS-2014-26(4)-1]
Wang R, Liu, W, McDonald C. Featureless domain-specific term extraction with minimal labelled data. In:Proc. of the Australasian Language Technology Association Workshop. 2016. 103-112.
Lossio-Ventura JA, Jonquet C, Roche M, Teisseire M. Yet another ranking function for automatic multiword term extraction. In:Proc. of the 9th Int'l Conf. on NLP. Switzerland:Springer-Verlag, 2014. 52-64.[doi:10.1007/978-3-319-10888-9]
Bolshakova E, Loukachevitch N, Nokel M. Topic models can improve domain term extraction. In:Proc. of the European Conf. on Information Retrieval. Moscow:Springer-Verlag 2013. 684-687.[doi:10.1007/978-3-642-36973-5]
Astrakhantsev NA, Fedorenko DG, Turdakov DY. Methods for automatic term recognition in domain-specific text collections:A survey. Programming and Computer Software, 2015, 41(6):336-349.[doi:10.1134/S036176881506002X]
Yuan JS, Zhang XM, Li ZJ, Survey of automatic terminology extraction methodologies. Computer Science, 2015, 42(8): 7-12(in Chinese with English abstract).
Fedorenko D, Astrakhantsev N, Turdakov D. Automatic recognition of domain-specific terms:an experimental evaluation. Proc. of the Institute for System Programming, 2014, 26(4):55-72.[doi:10.15514/ISPRAS-2014-26(4)-5]
Barrón-Cedeno A, Sierra G, Drouin P, Ananiadou S. An improved automatic term recognition method for Spanish. In:Proc. of the CICLing. Mexico:Springer-Verlag, 2009. 125-136.[doi:10.1007/978-3-642-00382-0]
Bordea G. Domain adaptive extraction of topical hierarchies for expertise mining[Ph.D. Thesis]. Galway: National University of Ireland, 2013.
Astrakhantsev N. ATR4S:Toolkit with state-of-the-art automatic terms recognition methods in scala. Language Resources and Evaluation, 2018, 52(3):853-872.[doi:doi:10.1007/s10579-017-9409-4]
Korkontzelos I, Klapaftis IP, Manandhar S. Reviewing and evaluating automatic term recognition techniques. In:Ranta A, Nordstrom B, eds. Proc. of the GoTAL. Berlin:Springer-Verlag, 2008. 248-259.[doi:10.1007/978-3-540-85287-2_24]
袁劲松, 张小明, 李舟军.术语自动抽取方法研究综述.计算机科学, 2015, 42(8):7-12.
Jacquemin C. Recycling terms into a partial parser. In:Proc. of the 4th Conf. on Applied Natural Language Processing. Stuttgart:ACL, 1994. 113-118.[doi:10.3115/974358.974384]
Jacquemin C. Syntagmatic and paradigmatic representations of term variation. In:Dale R, Church KW, eds. Proc. of the 37th Annual Meeting of the Association for Computational Linguistics. Stroudsburg:ACL, 1999. 341-348.[doi:10.3115/1034678. 1034733]
Dagan I, Church K. Termight:Identifying and translating technical terminology. In:Proc. of the 4th Conf. on Applied Natural Language Processing. Stuttgart:ACL, 1994. 34-40.[doi:10.3115/974358.974367]
Lauriston A. Automatic recognition of complex terms:Problems and the TERMINO solution. Terminology, 1994, 1(1):147-170.[doi:10.1075/term.1.1.11lau]
Arppe A. Term extraction from unrestricted text. In: Proc. of the 10th Nordic Conf. of Computational Linguistics. 1995.
Bourigault D, Gonzalez-Mullier I, Gros C. LEXTER, a natural language processing tool for terminology extraction. In:Proc. of the 7th EURALEX Int'l Congress. Sweden:Novum Grafiska AB, 1996. 771-779.
Naulleau E. Profile-guided terminology extraction. In: Proc. of the TKE. 1999.
Koo T, Carreras X, Collins M. Simple semi-supervised dependency parsing. In:Proc. of the 46th Annual Meeting of the Association for Computational Linguistics. Stroudsburg:ACL, 2008. 595-603.
Foo J, Merkel M. Using machine learning to perform automatic term recognition. In:Proc. of the LREC. European Language Resources Association, 2010. 49-54.
Li SL, Xu B, Yang YJ, DRTE: A term extraction method for K12 education. Journal of Chinese Information Processing, 2018, 32(3): 101-109(in Chinese with English abstract).
李思良, 许斌, 杨玉基.DRTE: 面向基础教育的术语抽取方法.中文信息学报, 2018, 32(3): 101-109.
Kageura K, Umino B. Methods of automatic term recognition:A review. Terminology, 1996, 3(2):259-289.
Montgomery DC, Runger GC. Applied Statistics and Probability for Engineers. 7th ed., NJ:Wiley, 2018. 208-211.
Church K, Gale W, Hanks P, Hindle D. Using statistics in lexical analysis. In:Uri Z, ed. Lexical Acquisition:Exploiting On-line Resources to Build up a Lexicon. Hillsdale:Lawrence Erlbaum Associates, 1991. 115-164.
Pearson KX. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 1900, 50(302):157-175.[doi:10.1080/14786440009463897]
Dunning T. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 1993, 19(1):61-74.
Church KW, Hanks P. Word association norms, mutual information, and lexicography. Computational Linguistics, 1990, 16(1):22-29.
Pecina P. An extensive empirical study of collocation extraction methods. In:Proc. of the 43rd Annual Meeting of the Association for Computational Linguistics. Stroudsburg:ACL, 2005. 13-18.
Song SK, Choi YS, Chun HW, Jeong CH, Choi SP, Sung WK. Multi-words terminology recognition using Web search. In:Proc. of the Int'l Conf. on U-and E-Service, Science and Technology. Berlin:Springer-Verlag, 2011. 233-238.[doi:10.1007/978-3-642-27210-3_29]
Chaudhari DL, Damani OP, Laxman S. Lexical co-occurrence, statistical significance, and word association. In:Proc. of the EMNLP. Stroudsburg:ACL, 2011. 1058-1068.
Loukachevitch N, Nokel M. An experimental study of term extraction for real information-retrieval thesauri. In:Proc. of the TIA. 2013. 69-76.
Wong W. Determination of unithood and termhood for term recognition. In:Handbook of Research on Text and Web Mining Technologies. IGI Global, 2009. 500-529.
Zhang Z, Gao J, Ciravegna F. Jate 2.0:Java automatic term extraction with apache Solr. In:Calzolari N, Choukri K, eds. Proc. of the LREC. Portoro:European Language Resources Association, 2016. 2262-2269.
Navigli R, Velardi P. Semantic interpretation of terminological strings. In:Proc. of the 6th Int'l Conf. on Terminology and Knowledge Engineering. 2002. 95-100.
Liu L, Xiao YY. A statistical domain terminology extraction method based on word length and grammatical feature. Journal of Harbin Engineering University, 2017, 38(9):1437-1443(in Chinese with English abstract).
刘里, 肖迎元.基于术语长度和语法特征的统计领域术语抽取.哈尔滨工程大学学报, 2017, 38(9):1437-1443.
Salton G, Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing & Management, 1988, 24(5):513-523.[doi:10.1016/0306-4573(88)90021-0]
Zhou L, Shi SM, Feng C, Huang HY, A Chinese term extraction system based on multi-strategies integration. Journal of the China Society for Scientific and Technical Information, 2010, 29(3): 460-467(in Chinese with English abstract).
周浪, 史树敏, 冯冲, 黄河燕.基于多策略融合的中文术语抽取方法.情报学报, 2010, 29(3): 460-467.
Yan XL, Liu YQ, Fang Q, Zhang M, Ma SP, Ru LY. Domain-specific terms extraction based on Web resource and user behavior. Ruan Jian Xue Bao/Journal of Software, 2013, 24(9):2089-2100(in Chinese with English abstract). http://www.jos.org.cn/1000-9825/4358.htm[doi:10.3724/SP.J.1001.2013.04358]
闫兴龙, 刘奕群, 方奇, 张敏, 马少平, 茹立云.基于网络资源与用户行为信息的领域术语提取.软件学报, 2013, 24(9):2089-2100. http://www.jos.org.cn/1000-9825/4358.htm[doi:10.3724/SP.J.1001.2013.04358]
Lossio-Ventura JA, Jonquet C, Roche M, Teisseire M. Biomedical terminology extraction:A new combination of statistical and web mining approaches. In:Proc. of the JADT 2014. 2014. 421-432.
Church K, Gale W. Inverse document frequency (IDF):A measure of deviations from poisson. In:Natural Language Processing Using Very Large Corpora. Dordrecht:Springer-Verlag, 1999. 283-295.[doi:10.1007/978-94-017-2390-9_18]
Li LS, Dang YZ, Zhang J, Li D. Domain term extraction based on conditional random fields combined with active learning strategy. Journal of Information & Computational Science, 2012, 9(7):1931-1940.
Rose S, Engel D, Cramer N, Cowley W. Automatic keyword extraction from individual documents. In:Text Mining:Applications and Theory, 2010. 1-20.
Bordea G, Buitelaar P, Polajnar T. Domain-independent term extraction through domain modelling. In: Proc. of the 10th Int'l Conf. on Terminology and Artificial Intelligence. 2013.
Astrakhantsev N. Methods and software for terminology extraction from domain-specific text collection[Ph.D. Thesis]. Institute for System Programming of Russian Academy of Sciences, 2015.
You HL, Zhang W, Shen JY, Liu T. A weighted voting based automatic term recognition method. Journal of Chinese Information Processing, 2011, 25(3):9-17(in Chinese with English abstract).
游宏梁, 张巍, 沈钧毅, 刘挺.一种基于加权投票的术语自动识别方法.中文信息学报, 2011, 25(3):9-17.
He L. Domain ontology terminology extraction based on integrated strategy method. Journal of the China Society for Scientific and Technical Information, 2012, 31(8):798-804(in Chinese with English abstract).
何琳.基于多策略的领域本体术语抽取研究.情报学报, 2012, 31(8):798-804.
Li LS, Wang YW, Huang DG. Term extraction based on infomation entropy and word frequency distribution variety. Journal of Chinese Information Processing, 2015, 29(1):82-87(in Chinese with English abstract).
李丽双, 王意文, 黄德根.基于信息熵和词频分布变化的术语抽取研究.中文信息学报, 2015, 29(1):82-87.
Stanković R, Krstev C, Obradovic I, Lazic B. Rule-based automatic multi-word term extraction and lemmatization. In:Calzolari N, Choukri K, eds. Proc. of the LREC. Portoro:European Language Resources Association, 2016. 507-514.
Dong YY, Li WH, Hu H. Domain term extraction method based on hierarchical combination strategy for Chinese Web documents. Journal of Northwestern Polytechnical University, 2017, 35(4):729-735(in Chinese with English abstract).
董洋溢, 李伟华, 于会.文本特征和复合统计量的领域术语抽取方法.西北工业大学学报, 2017, 35(4):729-735.
Pazienza MT, Pennacchiotti M, Zanzotto FM. Terminology extraction:An analysis of linguistic and statistical approaches. In:Knowledge Mining. Berlin:Springer-Verlag, 2005. 255-279.[doi:10.1007/3-540-32394-5_20]
Ahmad K, Gillam L, Tostevin L. University of surrey participation in trec8:Weirdness indexing for logical document extrapolation and retrieval (wilder). In:Proc. of the TREC. 1999. 1-8.
Peñas A, Verdejo F, Gonzalo J. Corpus-based terminology extraction applied to information access. In:Proc. of the Corpus Linguistics. 2001. 458-465.
Park Y, Byrd RJ, Boguraev BK. Automatic glossary extraction:Beyond terminology identification. In:Proc. of the COLING. Stroudsburg:ACL, 2002. 1-7.[doi:10.3115/1072228.1072370]
Sclano F, Velardi P. Termextractor:A Web application to learn the shared terminology of emergent web communities. In:Proc. of the 3th Int'l Conf. on Interoperability for Enterprise Software and Applications. London:Springer-Verlag, 2007. 287-290.
Lopes L, Fernandes P, Vieira R. Estimating term domain relevance through term frequency, disjoint corpora frequency-tf-dcf. Knowledge-based Systems, 2016, 97:237-249.
Mykowiecka A, Marciniak M, Rychlik P. Recognition of irrelevant phrases in automatically extracted lists of domain terms. Int'l Journal of Theoretical and Applied Issues in Specialized Communication, 2018, 24(1):66-90.
Vivaldi J, Rodríguez H. Using Wikipedia for term extraction in the biomedical domain:First experiences. Procesamiento del Lenguaje Natural, 2010, 45:251-254.
Haque R, Penkale S, Way A. TermFinder:Log-likelihood comparison and phrase-based statistical machine translation models for bilingual terminology extraction. Language Resources and Evaluation, 2018, 52(2):365-400.[doi:10.1007/s10579-018-9412-4]
Zheng D, Zhao T, Yang J. Research on domain term extraction based on conditional random fields. In:Proc. of the ICCPOL. Berlin:Springer-Verlag, 2009. 290-296.
Zhang X, Song Y, Fang AC. Term recognition using conditional random fields. In:Proc. of the 6th Int'l Conf. on Natural Language Processing and Knowledge Engineering. IEEE, 2010. 1-6.
Zhang ZC. Using integration strategy and multi-level termhood to extract terminology. Journal of the China Society for Scientific and Technical Information, 2011, 28(3):275-285(in Chinese with English abstract).
章成志.基于多层术语度的一体化术语抽取研究.情报学报, 2011, 28(3):275-285.
Loukachevitch NV. Automatic term recognition needs multiple evidence. In:Calzolari N, Choukri K, eds. Proc. of the LREC. Portoro:European Language Resources Association, 2012. 2401-2407.
Conrado MD, Pardo TA, Rezende SO. A machine learning approach to automatic term extraction using a rich feature set. In:Proc. of the 2013 NAACL HLT Student Research Workshop. Stroudsburg:ACL, 2013. 16-23.
Yuan Y, Gao J, Zhang Y. Supervised learning for robust term extraction. In:Proc. of the Int'l Conf. on Asian Language Processing. IEEE, 2017. 302-305.
Yang Y, Yu H, Meng Y, Lu Y, Xia Y. Fault-tolerant learning for term extraction. In:Proc. of the 24th Pacific Asia Conf. on Language, Information and Computation. Institute for Digital Enhancement of Cognitive Development, 2010. 321-330.
Maldonado A, Lewis D. Self-tuning ongoing terminology extraction retrained on terminology validation decisions. In:Proc. of the Conf. on Terminology and Knowledge Engineering. 2016. 91-101.
Aker A, Paramita M, Gaizauskas R. Extracting bilingual terminologies from comparable corpora. In:Proc. of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg:ACL, 2013. 402-411.
Wang H, Wang MP, Su XN. A study on Chinese patent terms extraction for ontology learning. Journal of the China Society for Scientific and Technical Information, 2016, 35(6):573-585(in Chinese with English abstract).
王昊, 王密平, 苏新宁.面向本体学习的中文专利术语抽取研究.情报学报, 2016, 35(6):573-585.
Khosla K, Jones R, Bowman N. Featureless deep learning methods for automated key-term extraction. Stanford:Stanford University, 2019. 1-10.
Gao Y, Yuan Y. Feature-less end-to-end nested term extraction. In:Proc. of the CCF Int'l Conf. on Natural Language Processing and Chinese Computing. Cham:Springer-Verlag, 2019. 607-616.
Zhao H, Wang F. A deep learning model and self-training algorithm for theoretical terms extraction. Journal of the China Society for Scientific and Technical Information, 2018, 37(9):923-938(in Chinese with English abstract).
赵洪, 王芳.理论术语抽取的深度学习模型及自训练算法研究.情报学报, 2018, 37(9):923-938.
Kucza M, Niehues J, Zenkel T, Waibel A, Stüker S. Term extraction via neural sequence labeling a comparative evaluation of strategies using recurrent neural networks. In:Proc. of the Interspeech. Hyderabad:ISCA, 2018. 2072-2076.
Lossio-Ventura JA, Jonquet C, Roche M, Teisseire M. Biomedical term extraction:Overview and a new methodology. Information Retrieval Journal, 2016, 19(1-2):59-99.[doi:10.1007/s10791-015-9262-2]
Bikel D, Zitouni I. Multilingual Natural Language Processing Applications: From Theory to Practice. IBM Press, 2012.
Yang K, Ding X, Zhang Y, Chen L, Zheng B, Gao Y. Distributed similarity queries in metric spaces. Data Science and Engineering, 2019, 4(2):93-108.
El-Beltagy SR, Rafea A. KP-miner:Participation in semeval-2. In:Proc. of the 5th Int'l Workshop on Semantic Evaluation. Stroudsburg:ACL, 2010. 190-193.
Yu Y, Zhao NX. Patent term extraction based on generic words and term components. Journal of the China Society for Scientific and Technical Information, 2018, 37(7):742-752(in Chinese with English abstract).
俞琰, 赵乃瑄.基于通用词与术语部件的专利术语抽取.情报学报, 2018, 37(7):742-752.
Lahbib W, Bounhas I, Slimani Y. A possibilistic approach for Arabic domain terminology extraction and translation. In:Proc. of the Int'l Symp. on Computer and Information Sciences. Cham:Springer-Verlag, 2018. 231-238.
Li K, Zha H, Su Y, Yan X. Concept mining via embedding. In:Proc. of the 2018 IEEE Int'l Conf. on Data Mining. Singapore:IEEE Computer Society, 2018. 267-276.
Khan MT, Ma Y, Kim J. Term ranker:A graph-based re-ranking approach. In:Proc. of the 29th Int'l Florida Artificial Intelligence Research Society Conf. Florida:AAAI Press, 2016. 310-315.
Conde A, Larrañaga M, Arruarte A, Elorriaga JA, Roth D. LiTeWi:A combined term extraction and entity linking method for eliciting educational ontologies from textbooks. Journal of the Association for Information Science and Technology, 2016, 67(2):380-399.
http://courses.washington.edu/ir2010/readings/page.pdf]]>
Pan LM, Wang XC, Li JZ, Tang J. Course concept extraction in MOOCs via embedding-based graph propagation. In:Proc. of the 8th Int'l Joint Conf. on Natural Language Processing. Asian Federation of Natural Language Processing, 2017. 875-884.
Zhang Z, Gao J, Ciravegna F. Semre-rank:Improving automatic term extraction by incorporating semantic relatedness with personalised pagerank. ACM Trans. on Knowledge Discovery from Data, 2018, 12(5):1-41.[doi:10.1145/3201408]
Zhang Z, Petrak J, Maynard D. Adapted textrank for term extraction:A generic method of improving automatic term extraction algorithms. In:Proc. of the 14th Int'l Conf. on Semantic Systems. Elsevier, 2018. 102-108.
Su MS, Li L, Liu ZY. Unsupervisied bilingual terminology extraction algorithm for Chinese-English parallel patents. Journal of Tsinghua University (Science and Technology), 2014, 54(10):1339-1343(in Chinese with English abstract).
孙茂松, 李莉, 刘知远.面向中英平行专利的双语术语自动抽取.清华大学学报:自然科学版, 2014, 54(10):1339-1343.
Li B, Wang B, Zhou R, Yang X, Liu C. CITPM:A cluster-based iterative topical phrase mining framework. In:Proc. of the Int'l Conf. on Database Systems for Advanced Applications. Switzerland:Springer-Verlag, 2016. 197-213.
Arora C, Sabetzadeh M, Briand L, Zimmer F. Automated extraction and clustering of requirements glossary terms. IEEE Trans. on Software Engineering, 2017, 43(10):918-945.
Kim JD, Ohta T, Tateisi Y, Tsujii J. GENIA corpus-A semantically annotated corpus for bio-textmining. In:Proc. of the 11th Int'l Conf. on Intelligent Systems for Molecular Biology. 2003. 180-182.
Medelyan O, Witten IH. Domain-independent automatic keyphrase indexing with small training sets. Journal of the American Society for Information Science and Technology, 2008, 59(7):1026-1040.[doi:10.1002/asi.20790]
Krapivin M, Autaeu A, Marchese M. Large dataset for keyphrases extraction. DISI-09-055, DISI, University of Trento, 2009.
Handschuh S, QasemiZadeh B. The ACL RD-TEC:A dataset for benchmarking terminology extraction and classification in computational linguistics. In:Proc. of the 4th Int'L Workshop on Computational Terminology. Stroudsburg:ACL, 2014. 52-63.
QasemiZadeh B, Schumann AK. The ACL RD-TEC 2.0:A language resource for evaluating term extraction and entity recognition methods. In:Calzolari N, Choukri K, eds. Proc. of the LREC. Portoro:European Language Resources Association, 2016. 1862-1868.
Blancafort H, Daille B, Gornostay T, Heid U, Sharoff S, Méchoulam C. TTC:Terminology extraction, translation tools and comparable corpora. In:Proc. of the 14th EuraLex Int'l Congress. 2010. 263-268.
Koehn P. Europarl:A parallel corpus for statistical machine translation. MT Summit, 2005, 5:79-86. http://www.statmt.org/europarl/
Zhang Z, Iria J, Brewster C, Ciravegna F. A comparative evaluation of term recognition algorithms. In:Calzolari N, Choukri K, eds. Proc. of the LREC. Portoro:European Language Resources Association, 2008. 28-30.
Cram D, Daille B. TermSuit:Terminology extraction with term variant detection. In:Proc. of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg:ACL, 2016. 13-18.[doi:10.18653/v1/P16-4003]
Oliver A, Vàzquez M. TBXTools:A free, fast and flexible tool for automatic terminology extraction. In:Proc. of the Int'l Conf. Recent Advances in Natural Language Processing. 2015. 473-479.
Lossio-Ventura JA, Jonquet C, Roche M, Teisseire M. BIOTEX:A system for biomedical terminology extraction, ranking, and validation. In:Proc. of the 13th Int'l Semantic Web Conference. CEUR-WS.org, 2014. 157-160.
Spasić I, Greenwood M, Preece A, Francis N, Elwyn G. FlexiTerm:A flexible term recognition method. Journal of Biomedical Semantics, 2013, 4(1):27-43.[doi:10.1186/2041-1480-4-27]
Verberne S, Sappelli M, Hiemstra D, Kraaij W. Evaluation and analysis of term scoring methods for term extraction. Information Retrieval Journal, 2016, 19(5):510-545.[doi:10.1007/s10791-016-9286-2]