(1969-), 男, 副教授, 主要研究领域为自然语言处理, 中文信息处理
(1996-), 女, 硕士, 主要研究领域为智能信息处理
(1992-), 男, 硕士, 主要研究领域为智能信息处理
(1963-), 男, 博士, 教授, 博士生导师, CCF杰出会员, 主要研究领域为自然语言处理, 智能信息处理
自然语言处理是人工智能的核心技术, 文本表示是自然语言处理的基础性和必要性工作, 影响甚至决定着自然语言处理系统的质量和性能. 探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延. 宏观上分析了文本表示的技术分类, 对主流技术和方法, 包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示, 进行了分析、归纳和总结, 对基于事件、基于语义和基于知识的文本表示也进行了介绍. 对文本表示技术的发展趋势和方向进行了预测和进一步讨论. 以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用, 预训练加调优的策略将逐渐成为主流, 文本表示需要具体问题具体分析, 技术和应用融合是推动力.
Natural language processing is the core technology of artificial intelligence. Text representation is the basic and necessary work of natural language processing, which affects or even determines the quality and performance of natural language processing systems. This study discusses the basic principle of text representation, the formalization of natural language, the language model, and the connotation and extension of text representation. The technical classification of text representation on a macro level is analyzed. The mainstreams of text representation technologies and methods are analyzed, induced and summarized, including vector space model, topic model, graph-based model, neural network-based model, and representation learning. Event-based, semantic-based, and knowledge-based text representation technologies are also introduced. The development trends and directions of text representation technology are predicted and further discussed. Neural network-based deep learning and representation learning on text will play an important role in natural language processing. The strategy of pre-training and fine-tune optimization will gradually become the mainstream technology. Text representation needs specific analysis according to specific problems. The integration of technology and application is the driving force.
信息和大数据时代, 海量的数据可以被获取、存储和应用. 文本作为人类交流、沟通和记录信息的工具, 是数据呈现的主要形式. 据统计, 互联网上甚至大多数组织机构中, 约80%的信息是以文本的形式存在的. 大量的文本数据可以借助计算机进行分析和处理, 从中发现或挖掘有用的模式和知识, 自然语言处理就是完成这种任务的学科领域[
自然语言的复杂性、多样性和歧义性使得自然语言处理任务非常困难, 这就要求在应用领域中, 根据处理的要求, 把自然语言以一定的数学形式严密而合理地表示出来, 然后通过机器学习, 实现自然语言的机器处理. 在计算学科, 一般认为数据决定了机器学习的上限, 而算法只是尽可能逼近这个上限, 借助计算机进行自然语言处理所用到的数据就是文本表示的结果. 随着计算机技术的发展和自然语言处理研究的深入, 文本表示越来越受到重视, 大量的文本表示模型被提出并得到应用, 这些方法、框架和工具进一步提升了自然语言处理系统的性能. 但是总体来看, 自然语言处理中的文本表示性能依然低下, 亟待进一步探索和研究更具实用化、通用化的表示方法和模型[
本文以文本表示为研究对象, 对文本表示的基本原理、相关概念和主流方法进行探索和分析, 对文本表示技术面临的挑战和未来发展趋势进行了预测. 全文安排如下: 首先分析文本表示的基础; 接下来在对文本表示进行宏观分类的基础上, 归纳和总结主流文本表示的技术和方法, 包括向量空间模型、主题模型、基于图的模型以及基于神经网络的模型等, 对文本表示相关的深度学习和表示学习进行了较全面的探讨. 最后对文本表示未来发展趋势、文本表示与深度学习的关系进行了预测. 以期对文本表示有一个全面的了解, 在实现自然语言处理相关任务时能合理选择文本的表示.
不论什么语种的自然语言文本形式上都是特定符号组成的线性序列, 以中文为例, 基本的符号包括汉字、标点符号以及其他符号(比如数字、拼音字母、数学运算符号)等. 从语言学角度看, 这些符号组合成的序列表达了一定语义, 由人根据需要按一定的语法规则组合而成并进行交流、沟通和记载, 是对现实世界的描述, 人脑可以理解和分析, 文本最核心的是其语义信息. 语言基本的机制如
Three Reference in Language
语言三指
尽管认知科学、脑神经科学和心理学的研究对人脑语言机制中的语言信息的存储和处理研究有许多突破, 但其核心原理还不是特别清楚. 用计算机模拟人脑的语言处理机制进行自然语言处理尚缺乏强有力的理论支撑, 再加上自然语言的歧义性、复杂性和多样性, 以及计算机本身算力的有限性和相关算法、模型的局限性, 使得自然语言处理尽管应用前景广泛, 但难度很大, 具有挑战性[
自然语言处理领域的研究伴随着计算机, 特别是人工智能的产生而产生, 并随着相关技术的发展而发展, 主要经历了5个阶段[
近年来, 自然语言处理进入融合发展期, 基于统计、基于神经网络和深度学习以及基于规则方法的自然语言处理互相融合、互相促进. 不论哪个阶段, 自然语言处理应用的基础性工作就是语言的形式化或数字化, 也就是将符号的文本转化成数字化的文本表示, 比如向量、矩阵、张量等, 然后借助计算机的高速度和大容量存储实现后续的处理和应用.
自然语言处理是语言学、数学和计算机科学的交叉学科. 从语言学的角度看, 语言是一个符号系统, 包括内容和形式. 语言的内容是对现实的抽象、是人与人之间信息的表达和交流, 语言需要通过形式来反映内容, 相同的内容可以通过不同的语言形式来表达, 这既是一种语言中有限符号的无限表达的基础, 也是不同语言之间相互翻译的基础. 基于语言学的文本表示在分析文本基本组成要素的基础上, 重点分析文本成分之间的组成和结构, 实质上是对语法的分析和表示, 形成词法和语法规则. 在自然语言处理的初期, 这种基于规则的文本表示是主流方法. 从数学的角度看, 数学几乎是所有自然科学, 甚至是许多人文学科的基础. 借助数学模型对自然语言进行建模分析, 既是自然语言形式化、数字化的必然趋势, 也是一项基础性工作. 通常利用集合、向量、矩阵等进行文本表示, 引入概率与统计、函数、图论、网络技术、信息论等进行文本分析. 从计算学科的角度看, 利用计算机对自然语言文本进行处理是人工智能的重要分支, 也被称作计算语言学(computational linguistics, CL)或人类语言技术(human language technology, HLT). 自然语言处理的核心目标是让计算机处理人的语言, 而计算机处理符号化的自然语言首先要解决语言符号的输入和存储, 然后通过统计计算、机器学习等技术实现文本分析、处理和生成等后续操作.
人-机、机-机之间的语言信息交流建立在不同层面的人工智能基础上, 如语音识别、文本挖掘、信息抽取、文本理解和生成等. 这些技术首先需要抽象语言中和意义最为相关的要素, 这就需要对语言进行准确的形式化表示. 自然语言的形式化是指先建立一个符号系统, 确立符号连接成合法序列的规则, 约定合法符号串如何表示自然语言中的语义, 定义这些符号可以进行的运算[
在自然语言处理的不同时期, 各种语言形式化理论和方法在词汇、句法、篇章和语义层面获得了一定应用, 有些具有较好的语言学解释. 伴随着互联网的普及和大数据时代的到来, 电子化的自然语言文本或文本的电子化非常广泛, 源文本的获取比较简单, 借助计算机进行文本处理成为必然. 典型的自然语言处理一般流程如
Flow of Natural Language Processing
自然语言处理流程
文本预处理包含文本的清洗、纠错、格式处理, 以及为文本深入分析而进行的分句、分词、词性标注和停用词过滤等. 根据任务的不同, 选择进行相关的预处理, 比如中文分词, 一般的文本处理需要做文本分词, 但有些基于字的文本处理就不需要分词了. 文本预处理中的大多数工作是自动化处理, 有些是人工处理或两者的结合. 算法或模型以及结果的输出是根据具体的自然语言处理任务确定的. 文本表示, 早期的自然语言处理也称为特征工程(feature engineering), 在整个的流程中处于中间位置, 起着承上启下的作用, 在文本预处理的基础上, 将字符序列的文本转化成计算机可以分析的数字化形式. 文本表示实质上就是一种建模, 涉及到模型相关的数据结构、存储和算法, 主要包括两个步骤: (1)选择或构建文本表示模型, 也就是要确定用什么样的要素表示非结构化的文本; (2)文本要素的数值化, 进而实现文本的数值化.
与文本表示密切相关的一个概念是语言模型(language model, LM), 语言模型是用来判断文本数据合理性的一种机制, 也就是衡量或量化句子的合法性. 语言模型可以根据上下文预测下一个语言单位是什么, 可以从大规模的文本中学习到语义. 自然语言处理在20世纪80年代以前采用基于规则的语言模型, 也称文法模型[
20世纪80年代末至2010s年, 从统计角度建模的统计语言模型(statistical language model, SLM)成为主流方法[
2003年, Bengio等人[
认知语言模型以认知科学为基础, 认知科学是建立在体验基础上的以“现实-认知-语言”为核心原则的交叉学科, 涉及感觉、知觉、意向图式以及范畴、概念、意义等过程. 直观上分析人对语言的理解: 当接受一句话时, 大脑中就会对所描述的客观世界产生心理映射, 形成“内部语言”, 也就是人处理语言的过程是外部语言转化为内部语言的过程; 人脑对内部语言加工处理后, 内部语言再转化成外部语言[
文本表示是自然语言处理的基础性和决定性工作. 文本不同于声音、图像和视频, 文本是对人类思维的较高级抽象, 一般需要背景知识, 文本中的符号除了形式化地推演形成“言内之意”外, 还需要“言外之意”, 包括上下文、语境信息, 甚至是背景或常识知识. 文本表示至少需满足两个条件: (1)表达效果. 文本表示需将源文本信息恰当、完全地表达出来, 也就是表示过程中应保证语义信息的完整性和一致性. 文本表示空间尽可能地包含原文本空间内的信息, 因为一旦在空间映射时丢弃或歪曲了信息, 则在后续的计算中就无法再获取到这些信息了. (2)表达效率. 源文本转化成文本表示的代价不能太高, 应尽量减小复杂度, 同时文本表示的结果应便于后续文本处理的实现. 文本表示产出的数据质量直接影响到后续模型的表现, 比如在一个知识图谱构建任务中, 可以将文本表示成分词之后词的TF-IDF (term frequency-inverse document frequency)向量, 也可以表示成LDA、TextRank或他们之间的结合向量形式, 然后利用模型抽取实体和关系. 无论后续模型怎样, 前面的文本向量表示都会直接影响准确率. 从具体的自然语言处理任务来讲, 作为前期基础性工作的文本表示, 首先是在表达效果上, 不能丢失文本必须的语义信息, 同时表达效率尽可能高, 另外还需要兼顾实用性、针对性和可行性.
文本的组成要素是符号, 可以划分成不同的粒度, 比如中文文本中的字、词、短语、句子、段落、标点符号及其他符号等. 文本形式上是不同粒度符号的序列, 这种线性结构可以进一步抽象成树状结构或图状结构. 不论是简单的符号串序列, 还是抽象成的树或图数据形式, 计算机是无法直接对这些文本字符串进行处理的, 必须进行数值化或向量化. 文本表示既涉及单个不同文本粒度内容对象的独立表示, 也包括这些要素组合而成的文本表示. 文本表示的基本流程如
Basic Flow of Text Representation
文本表示基本流程
前面提到, 从认知科学角度理解文本表示, 是大脑对语言信息的存储、加工和处理. 从计算角度理解文本表示, 是存储程序工作原理和编译思想的应用. 从信息与通信角度理解文本表示可以认为是编码(encoder)和解码(decoder)的实现机制[
自然语言处理需要进行文本表示, 这是由当前计算机的硬件特点所决定的. 计算机识别和处理的是二进制数据, 任何计算都需要数据的数字化, 自然语言的字符串序列是不能直接通过计算机进行语义相关处理的, 需要借助向量或矩阵等数据结构实现文本的数字化. 同时, 不像语音与图像信息易于实现向量化或矩阵化, 自然语言处理中的文本内容对象难以直接被向量化, 需要研究适合的文本表示模型和方法. 当前, 随着深度学习的飞速发展和广泛应用, 其在图像、视频上的应用效果十分显著, 但对于自然语言处理, 尽管也有一些改进和提升, 但还需要进一步研究和探索. 原因在于语言是人类特有的文明智慧的结晶, 更侧重语义处理而不只是简单的识别, 这对计算机来说是极大的挑战.
简洁、高效的文本表示是自然语言各种处理方法的基础和要求, 也是助力算法效率提升的重要手段和机制. 早期基于规则的自然语言处理系统通过建立知识库和推理机实现文本表示, 以人工分析和处理为主. 传统的机器学习算法采用特征工程的方法, 发现、统计并形成文本中的代表性特征, 包括词频、词性标注、命名实体识别、词干化等文本词法特征, 句法分析、依存关系、位置信息等语法特征, 指代消解、语义角色标注等语义特征, 以及借助WordNet、HowNet等知识库形成的知识特征等, 然后实现文本特征数值化, 获得文本表示. 传统特征工程通过人为设计一些准则, 根据这些准则获取原始数据的有效特征, 特征工程一般和最终的预测模型分开进行. 深度学习算法的文本表示直接包含在了神经网络的学习过程中, 利用多层神经网络中各层之间特征的不同抽象和变换实现特征学习, 进而实现文本表示. 经验证明, 良好的文本表示形式可以极大提升后续自然语言处理算法的效果[
很显然, 自然语言处理需要抽取出文本的特征并实现数字化表示, 特征工程通过人工处理的方式, 一定程度上解决了这个问题. 如果计算机能通过算法自动化地将文本的特征抽取出来, 既解决了人工投入巨大、存在歧义的问题, 又克服了跨领域、多任务的问题, 将极大地提升后续自然语言处理任务的效率. 表示学习作为目前研究和应用的热点领域, 可以自动、有效地获取文本的特征[
归纳起来, 自然语言处理进行文本表示研究的根本原因是计算机不方便直接对文本字符串进行处理, 需要进行数值化或向量化; 另外, 机器学习算法需要数字化的处理, 不仅传统的机器学习算法需要这个过程, 深度学习也需要这个过程; 最后, 不同的文本表示, 对算法效率的影响是不同的, 良好的文本表示形式可以极大的提高算法的效果. 因此, 针对技术发展, 充分利用自然语言处理的硬件支撑能力、借鉴人脑和语言学的研究成果、总结现有方法的优缺点、探索更加有效的文本表示方法是非常有必要的.
自然语言文本的内容对象可以划分成不同粒度的符号或符号序列, 文本表示可以从两个维度进行考虑: 一个维度针对文本内容对象的不同粒度, 小粒度的如字、词、短语表示, 大粒度的如句子、段落、篇章表示等; 另一个维度按不同的表示形式划分, 分为离散表示(discrete representation)和连续表示(continuous representation). 文本表示也有浅层和深层之分, 这里的浅层文本表示是指提取文本低级别信息作为特征, 比如单个的字或字符, 甚至是中文中的偏旁部首, 忽略文本对象的上下文关系. 深层文本表示提取文本复杂的特征, 一般包含文本内容对象及其所在的上下文之间的关系, 甚至还包含辅助的知识. 尽管文本特征的“浅层”和“深层”不同于机器学习的“浅层”和“深层”, 但文本表示中浅层的特征往往作为深度学习模型的输入, 依靠深度学习模型得到文本的深层表示. 进一步拓展文本表示的分析角度, 有不同的分类方法, 归纳起来, 文本表示的宏观分类如
自然语言处理中文本的离散表示是一种局部化方法, 将文本抽象成文本内容对象的序列, 根据目标任务确定文本对象, 将这些对象作为离散的特征进行数值化. 特征采取人工、半自动化或自动化方式从文本中获取, 特征的粒度可以是字、词、词组, 甚至是句子、段落等, 特征以文本中的内容和形式为主, 可以引入外部知识或背景知识做辅助, 这种表示几乎可以应用于各种领域、各种结构和各种规模的文本[
Macro Classification of Text Representation
文本表示宏观分类
编号 | 分类依据 | 类别名称 | 主要特点 | 代表性成果与应用 |
1 | 表示形式 | 离散/符号化
|
简单、直观; 高维、稀疏
|
基于规则、统计, 浅层机器学习模型
|
2 | 计算基础 | 集合法
|
不考虑序列/结构
|
信息处理用语言学知识库, 比如词典
|
3 | 文本粒度/规模 | 字(中文偏旁部首)
|
语言最小单位, 中文研究较多
|
字本位[ |
4 | 经典/主流方法 | 词袋法(BOW/VSM)
|
关注文本内容, 不考虑词序
|
Salton[ |
5 | 结构和应用 | 基于规则
|
专家建立、移植性差
|
Chomskey[ |
6 | 获取方式 | 人工定义
|
依赖领域专家
|
早期主流方法, 目前特定领域/任务
|
7 | 信息层次 | 浅层
|
简单、效果差
|
基于规则、统计的词法、语法分析
|
8 | 量化表示 | 特征工程
|
人工特征选择或特征组合
|
术语提取、本体构建等
|
自然语言处理中文本的连续表示也称分布表示(distributional representation), 基本思想建立在1954年Harris[
分布式表示对文本对象的数值化建模建立在其上下文基础上, 主要由两部分组成[
基于神经网络的分布式表示(distributed representation)不同于建立在代数基础上基于矩阵分解的分布表示, 而是借助于神经网络的非线性变换将文本转化成为稠密、低维、连续的向量, 可以实现不同文本粒度, 比如词、句子、篇章等的表示. 前文1.1中提到的神经网络语言模型NNLM是最早、最经典的分布式表示模型[
文本表示基于规则的方法, 是最早应用于自然语言处理并且与语言学最密切的方法, 具有领域和任务依赖性, 在特定情境下效果优异, 但泛化能力有限, 可以作为主流文本表示的补充或辅助. 文本表示基于统计的方法, 比如VSM, 建立在文本特征的统计基础上, 简单有效, 但存在语义鸿沟, 有完备的理论基础和较多的支持平台和工具, 目前应用仍较为广泛. 文本表示基于语义的方法, 包括基于主题、基于本体、基于语境框架、基于知识图谱等, 一直以来都是研究的重点. 随着深度学习在自然语言处理中的广泛应用, 文本的分布表示成为主流方法, 特别是表示学习, 可以从文本中自动获取文本的特征, 逐渐成为未来研究和应用的主要形式. 下面对常见的文本表示方法进行分析、归纳和总结.
向量空间模型是一种简单有效的文本表示模型, 最早由哈佛大学的Salton[
向量空间模型中的数值化权重统计, 如果只关注文档中单个特征项是否包含, 文档的表示变成向量模型的一种特例, 称为布尔模型或one-hot模型, 特征的权值只能取二值量0或1, 文档的向量维数是词典的长度. 如果按特征项在文档中出现的频率, 比如词频(term frequency, TF), 进行统计, 称为基于词频的文档向量空间表示, 向量的权值是特征项在文档中的频率值, 可以是绝对频率, 也可以是归一化后的频率计数, 文档的向量维数是词典的长度. 类似的还有基于词频及逆文档频率TF-IDF、基于n-gram的向量空间表示, 实质上是对文档特征项划分和权重计算方法上的不同, 文档的向量维数是特征项集合的元素个数[
前面提到过词的one-hot表示, 是将词数字化为一个向量, 这种表示方法也称为词向量. 根据任务的不同, 文本中不同的特征项都可以进行类似表示, 对某个特征项, 其向量空间模型表示成一个向量, 维数是特征项的集合长度, 除了对应该特征项的权值为1之外, 其余各维的权值为0. 词或特征项的one-hot表示比较简单且容易实现, 但维数过高且难以扩展、词间关系无法体现. 词的表示中除了考虑词本身是否出现和出现次数之外, 还可以考虑词间关系. 根据词间关系, 词的向量表示可以基于共现矩阵的方式构建, 一种方法是基于文档集或文档语料库的词向量,
文本采用向量空间模型表示, 将特征项或其他不同粒度的文本借助向量进行表示, 向量可以组成矩阵, 矩阵通过诸如特征值计算、奇异值分解(singular value decomposition, SVD)等矩阵运算可获取优化的文本向量表示[
向量空间模型将文档或特征项表示成了一个向量, 模型易于理解、运算实现简单, 有利于后续自然语言处理中相似度、文本分类和文本信息检索等应用. 在早期的自然语言处理, 特别是文本分类相关工作中, 发挥了重要的作用. 但由于特征项的数量庞大, 容易造成数据稀疏和维数灾难. 模型基于特征项之间的独立性假设, 忽略文本中的结构信息, 比如词序、上下文信息等, 再加上特征项的划分和获取没有具体的标准, 以及不关注文本和特征项的意义表示等, 会对模型的泛化和后续应用产生影响. 对VSM改进的研究主要集中在两个方面: 一是改进和优化特征项的选择和确定, 获取特征项的语义信息和结构信息, 比如借助图方法[
分析作者写文章的过程, 首先确定文章的核心内容, 然后组织材料进行表达, 往往通过划分几个主题来实现, 最后对每个主题选择相应的词汇, 按语法规范将词汇组织起来. 文章分析是这个过程的逆过程, 通过词汇的集合, 确定相应的主题, 最后理解文章的核心思想. 计算机按这种思路进行文本处理符合人的认知过程, 主题模型就是实现这种思想的文本建模形式. 对语料库中的文本, 从词汇出发, 统计学习文本-主题-词之间的关系以实现文本表示, 进而应用于后续的文本处理工作, 比如文本分类、文本摘要等[
潜在语义分析LSA基于分布假设理论和词袋模型, 构建文本的词-文档矩阵(term-document matrix)
主题模型通过引入一个“主题(topic)”作为隐变量, 实现了对BOW模型的扩展, 将词和文档之间关联关系抽象为: 文档->主题->词. 主题模型将具有相同主题的词或词组映射到同一维度上, 两个不同的词属于同一主题的判断依据是: 如果两个词有更高的概率同时出现在同一篇文档中, 或给定一个主题, 两个不同的词的产生概率比其他词汇产生的概率高. 主题模型是一种特殊的概率图模型(probabilistic graphical model, PGM), 数学基础十分完备, 并且基于吉布斯采样的推断简单有效. 假设有
2003年, Blei等人[
Diagram of LDA Topic Model
LDA主题模型示意图
LDA涉及到的基本要素是语料库、文档
七孔桥问题是18世纪著名的古典数学问题之一, 欧拉于1736年研究并解决了这个问题, 并由此建立了一个新的学科方向: 图论(graph theory). 图论将现实问题抽象成一个图, 图直观上是互连节点的集合, 表示为:
借助于图进行问题建模需解决3个基本问题: (1)表示问题. 获取任务中的节点, 确定如何通过图结构来描述节点之间的关系以及节点和边的属性量化. (2)学习问题. 图模型中的节点、结构表示学习, 获取相关的参数. (3)推断问题. 在已知部分信息时, 计算其他信息的分布. 基于图的自然语言表示建模尽管时间不长, 但图结构强大的表示能力得到了充分利用, 降低了数据集构建成本, 融合技术的概率图、神经网络图文本表示为自然语言处理的多个核心任务提供了解决思路, 提高了系统性能, 提供了良好的研究和应用方向[
借助于图进行文本表示最早是由Schenker等人[
文本特征从原始文本中抽取出来, 可以是字、词、短语、句子或其他形式, 形成节点, 相同的特征项只构造一个节点, 节点的总数就是文本中互不相同的特征项数目, 构成节点集合
基于图的文本表示最具代表性的应用模型是TextRank算法[
其中,
TextRank算法实现文本表示建模的思想是根据文本要素之间的共现关系构造无向加权图, 主要有两种应用: 一种是用于关键词提取的文本表示建模和算法[
建立在网页链接基础上的典型信息搜索模型除了PageRank算法之外, 同时期的Hits (hyperlink-induced topic search)算法[
其中,
20世纪末复杂网络研究的兴起, 为文本的图结构建模带来了新的契机. 复杂网络是建立在图论基础上对复杂系统进行建模和分析的理论和方法, 基本定义为: 具有自相似、小世界、自组织、无标度和吸引子中部分或全部性质的网络[
文本复杂网络就是利用复杂网络来描述和建模文本, 研究语言要素及其结构. 通常将文本中的字、词或句子等语言要素表示为节点, 字、词或句子间的关系表示为边, 将文本抽象成图. 从语言学角度看, 人们在表达思想、传递信息时, 往往选择领域或主题相关的语言要素, 但由于时间、场景和语言种类等的不同, 得到的语言表达可能又有较大的差异. 综合来看, 自然语言是一种复杂的、动态的、要素之间相互作用的系统, 语言要素符合幂律特征并具有明显的小世界性. Cancho和Sole最早利用复杂网络来表示文本[
采用图或网络的形式表示文本, 如果进一步考虑自然语言处理中的知识表示和推理, 或者说在图或网络表示上嵌入知识相关的内容, 就要涉及知识图谱了. 计算机对自然语言的表示经常涉及“语义网络”“认知和语言学知识”“客观世界”等提法, 在实际应用中, 自动问答、机器翻译、推荐系统等既是自然语言处理的主要应用, 也是知识图谱的研究内容. 知识图谱起源于语义网络, 目标是描述现实世界中的各种实体和概念, 以及它们之间的关联关系[
知识图谱的构建需要自然语言处理技术中的信息抽取, 包括实体抽取和关系抽取, 实体构成G中的节点集合
传统的基于经典图论、基于信息检索算法、基于复杂网络和基于知识图谱等的图文本表示需要构建相关的图数据结构, 这些图结构充分利用图通用且强大的表示形式, 建模了不同文本对象以及它们之间的联系. 这些模型都可以归为概率图模型PGM, 一般借助不同形式的矩阵, 比如图的邻接矩阵
神经网络原本是一个生物学概念, 人工智能借鉴其实现机制, 通过构造人工神经网络(artificial neural network, ANN), 由大量信息处理单元, 也称神经元, 互连形成复杂网络结构, 实现对人脑组织结构和信息处理机制的抽象、简化和模拟. 认知和神经科学研究发现, 人的大脑会对感觉器官获取的外界信息进行逐层抽象和提取语义信息. 基于神经网络的深度学习以此为启发, 通过多层网络互联、权值计算捕捉外界输入的组合特征进而提取高层特征, 实现从大量的输入数据中逐级学习数据的有效特征表示. 传统机器学习方法对复杂任务的处理, 往往需要将任务输入和输出人为切割成很多模块或阶段, 逐个分开学习, 比如自然语言理解, 一般需要分句、分词、词性标注、句法分析、语义分析和推理等步骤. 这种方式存在的问题, 一方面每个模块需要单独优化, 优化目标和任务总目标可能不一致, 另一方面模块之间的错误传播会产生逐级放大现象. 基于神经网络的深度学习采用端到端训练(end to end training)或端到端学习(end to end learning), 学习过程中不进行模块或阶段划分, 中间过程不需要人为干预, 统一优化任务总体目标[
神经网络是一种模型, 不是深度学习, 而深度学习是基于神经网络模型的机器学习方法, 两者在某种角度上看是一致的, 经常作为同义语来用, 不做严格的区分. 多层次的神经网络, 也称深度神经网络(deep neural network, DNN)是深度学习的基础, 本质上是一种特征学习方法, 在语音、图像和视频数据处理中效果明显. 针对自然语言处理, 获取海量无标注文本, 输入多隐层神经网络模型, 经过隐层的非线性变换自动学习文本中的词法、句法和语义特征. 相比传统的浅层机器学习模型, 神经网络模型解决了依赖于人工的复杂的“特征工程”问题, 模型训练得到的词向量可以量化词与词之间的语义关系, 同时模型不需要复杂的平滑算法, 一定程度上解决了数据稀疏带来的计算耗费问题[
前面提到VSM模型的简化形式one-hot模型将词表示成一个向量, 基于图的表示也可以利用词及其上下文构建图得到词的向量表示. 这些方法得到的词向量, 每个维度是词的词典序列或词上下文中的共现、语法或语义的量化, 有具体的含义, 是高维、稀疏的, 可以增添或者删除一些维度, 这种增删是在特定模型上的实现, 只是对计算量有影响. 目前在自然语言处理领域, 词向量是特指嵌入(embedding)模型中词的向量表示, 也称词嵌入(word embedding), 是基于神经网络语言模型NNLM或其衍生模型训练得到的低维实数向量. 词的表示是由向量中的所有维度共同决定, 语义分散存储在向量的各个维度中, 训练好后一般不能改动, 单独分析词向量中的一维, 没有具体的含义, 而将每一维组合在一起所形成的向量, 则表示了词的语义信息[
Neural Network Language Model
神经网络语言模型
模型由输入层、隐藏层和输出层组成, 输入第
词嵌入研究主要涉及两个方面的工作: 一是选取什么特征实现词汇语义的表示; 二是怎样把这些特征有效表示出来. 词嵌入最有代表性的Word2Vec模型建立在NNLM基础上并对其进行简化处理, 神经网络仅设3层, 输入层输入词的one-hot向量, 隐藏层不用激活函数, 只是简单的线性处理, 输出层维度跟输入层的维度一样, 采用Softmax回归. 模型训练的过程就是通过训练数据获取参数, 主要是隐层的权重矩阵. 根据数据的输入和输出方式, Word2Vec分为两种: 连续词袋模型CBOW (continuous bag of words)是根据目标词上下文中的词对应的词向量, 计算并输出目标词的向量表示; Skip-Gram模型与CBOW模型相反, 是利用目标词的向量表示计算上下文中的词向量. 实践验证CBOW适用于小型数据集, 而Skip-Gram在大型语料中表现更好. 两者的实现机制如
在训练文本集合中, 以单词
词向量也是基于语言的分布假说理论, 相较于one-hot或简单矩阵分解得到的词的向量表示, 以Word2Vec为代表的基于神经网络模型训练出来的词向量低维、稠密, 利用了词的上下文信息, 语义信息更加丰富. 根据训练词向量的思想, 句子、文本等不同粒度的文本都可以类似实现嵌入化表示, 比如Sentence2Vec、Doc2Vec等, 甚至是Everything2Vec. 词向量目前常见的应用包括: (1)直接使用词向量进行任务处理或使用训练出的词向量作为主要特征扩充现有模型, 如词语相似度计算、语义角色标注等; (2)词向量作为神经网络中的输入特征, 提升现有系统的性能, 如情感分析、信息抽取、机器翻译等.
Flow of Word2Vec Embedding Model: CBOW & Skip-gram
Word2Vec词向量实现
Word2Vec词向量属于典型的基于神经网络概率语言模型NPLM (neural probabilistic language model), CBOW/Skip-Gram使用局部上下文窗口(local context window), 缺乏整体的词和词关系, 负样本采用使得词间关系有缺失. 建立在矩阵分解基础上的GloVe (global vectors for word representation)词向量模型[
针对自然语言句子, 可以直接利用预训练的词向量, 也可以采用类似词向量的获取机制, 实现句子嵌入(sentence embedding), 句子中的词序可以考虑也可不做考虑. 代表性的句子的向量化表示方法有5种: (1)基于神经网络词袋模型. 句子做分词处理, 将包含在句子中的词对应的词向量进行某种加权计算, 最简单的是取所有词向量的平均值, 作为句子的向量表示, 方法简单但丢失了词序信息, 长文本比较有效, 短文本难以捕获语义组合信息; (2)基于递归神经网络RecNN (recursive neural network). 将句子按照某种拓扑结构, 比如句法树, 进行分解, 将结构中词对应的词向量递归处理得到句子表示, 方法易于理解, 但给定拓扑结构限制了使用范围; (3)基于循环神经网络RNN. 将句子看作时间序列, 表示成一个有顺序的向量序列, 通过对这个向量序列进行变换(transformation)和整合(aggregation), 计算出对应的句子向量表示; (4)基于卷积神经网络CNN. 将句子看作符号序列, 通过多个卷积层和子采样层对文本序列进行处理, 得到一个固定长度的向量; (5)综合或改进方法. 目前的做法是综合这些方法的优点, 结合具体任务, 进行模型选择或组合, 改进模型例如长短时记忆模型LSTM、双向循环神经网络Bi_RNN (bi-directional recurrent neural network)等. 另外, 一些新的方法, 比如自回归建模、自编码建模、基于注意力机制建模、乱序语言模型建模等逐渐提出并获得了较好的效果[
对于段落或篇章表示, 可以借鉴句子向量的实现方法, 也可以采用层次化方法, 先获取句子表示, 然后以句子表示为输入得到段落或篇章表示(paragraph/text embedding), 代表性方法有3种: (1)基于卷积神经网络CNN. 利用卷积神经网络对句子建模, 以句子为单位再卷积和池化, 得到篇章表示; (2)基于循环神经网络RNN. 采用循环神经网络对句子建模, 然后再用循环神经网络建模以句子为单位的序列, 得到篇章表示; (3)混合模型. 先用循环神经网络对句子建模, 然后以句子为单位再卷积和池化, 得到篇章表示. 循环神经网络及其各种变形相对适合处理文本序列, 应用较多.
近年来, 基于神经网络的深度学习研究和应用越来越广泛. 利用深度学习进行自然语言处理, 实现文本表示, 本质上是一种特征学习方法, 借助海量文本, 解决了复杂的“特征工程”问题, 反映了语义信息. 目前有多种神经网络模型用于建模文本, 比如利用卷积神经网络抽取部分单词作为输入特征, 类似于n-grams的思想, 利用循环神经网络模型具有时序特征的记忆性, 可按顺序将词向量特征输入[
(1) ELMo (embeddings from language models)
ELMo[
(2) Transformer/self-attention
Transformer[
(3) Open AI GPT (generative pre-training)
GPT[
(4) BERT (bidirectional encoder representation from transformers)
BERT[
预训练语言表示分为基于特征的方法(ELMo为代表)和基于微调(Open AI GPT为代表)的方法. BERT最重要的意义不在于模型选择和训练方法, 而是提出了一种全新的思路, 效果好且具备广泛的通用性, 绝大部分自然语言处理任务都可以采用类似的两阶段模式直接去提升效果.
(5) XLNet (extra long net)
GPT和BERT的出现, 使自然语言处理任务的主流做法变为预训练 & 微调(pre-train+finetune)的形式, 先在大规模语料库上进行有监督或无监督预训练, 然后针对特定任务对模型微调. GPT是一种自回归(autoregressive, AR)预训练模型, 而BERT是一种自编码器(autoencoding, AE)预训练模型, 两者的性能相当并均取得了良好的效果, 但都存在一定的问题. GPT从前往后预测, 只能利用文本的单向信息, 无法做到挖掘上下文之间关系. BERT解决了上下文依赖的问题, 存在的问题主要有两个: (1)预训练任务和微调任务之间可能存在不一致; (2)预测的时候, 多个[mask]之间的文本内容是相互独立的, 在预训练的时候对于依赖关系的挖掘不够充分.
XLNet[
归纳起来, 基于深度学习的文本表示的相关技术演进, 代表性的模型包括: NNLM (2003)、Word2Vec (2013); GloVe、Seq2Seq (2014); attention mechanism、memory-based neural networks (2015); fastText (2016); Transformer (2017); GPT-1、ELMO、BERT (2018); Transformer-XL、GPT-2、改进的BERT模型(RoBERTa、ALBert、TinyBert、DistilBert、SpanBert、mBert、BART等)、T5、XLNet、ERNIE (2019); GPT-3、ELECTRA (2020)等, 这些模型为文本表示和自然语言处理提供了新的机遇. 基于神经网络的文本表示模型的主要优点包括[
人类在学习一个复杂概念时, 常规的思路是化繁为简, 这种思路反映在机器学习上, 如果原始数据经过提炼有更好的表达, 往往会使后续任务易于处理, 这实际上就是表示学习(representation learning), 即找到对于原始数据更好的表达, 以便于后续任务的解决. Bengio等人[
对自然语言处理来说, 源文本数据的底层特征和高层认知语义信息之间的差异性和不一致性造成了语义鸿沟问题. 自然语言处理长期以来的一个重要挑战就是从无结构的文本中提取特征, 不论是基于规则的系统还是基于统计的技术, 都需要获取文本的特征, 将输入信息转换为有效的特征[
前面提到, 文本表示学习一定程度上解决了不同粒度的文本、不同任务的自然语言处理以及跨领域文本的特征获取问题, 将文本潜在语法或语义特征分布式地存储在稠密、连续、低维的向量中. 文本表示学习的实现基于神经网络, 与深度学习、元学习、多任务学习、迁移学习、图论、注意力机制等关系密切. 不同粒度的语言表示有不同的用途, 如字、词和短语表示主要用于预训练, 服务于下游任务, 句子、段落、篇章表示可直接用于文本分类、阅读理解等具体任务.
前面提到的深度学习, 其基本单元是向量, 将文本建模对象对应到一组向量
Diagram of the Relation of RL and DL
表示学习和深度学习关系示意图
表示学习在自然语言处理中的应用, 主要包括对文本的无监督/有监督预训练、分布式表示以及迁移学习等. 其中, 无监督学习的代表是贪心逐层无监督预训练模型(greedy layer-wise unsupervised pretraining), 包括受限玻尔兹曼机(restricted Boltzmann machine, RBM)、单层自编码器、稀疏自编码器、堆叠自编码器(stacked auto-encoder, SAE)等[
21世纪初提出的图嵌入(graph embedding)方法, 也称网络嵌入(network embedding), 通过保留图中节点信息和节点之间边的拓扑结构, 将图中节点表示为低维向量空间, 以便后续的机器学习算法进行处理, 这种方法进一步发展, 统称为图表示学习(graph representation learning, GRL). 图神经网络(graph neural network, GNN)[
从定义可以看出, GNN是将图中每个节点都映射到一个低维向量空间, 将复杂、高维的图数据转化成低维稠密的向量, 并且在空间内保持原图结构中的节点信息和结构信息[
图模型和神经网络作为文本表示的主流建模方法, 都可以看作是一种网络结构, 两者有许多相似之处, 结合也越来越密切. 一方面可以利用神经网络的抽象表示能力建模并实现图模型中的推断问题, 比如变分自编码器、生成对抗网络或势能函数等; 另一方面可以利用图模型算法来解决神经网络中的学习和推断问题, 比如图神经网络GNN[
Comparison between graph model and neural network model
图模型和神经网络模型的比较
项目 | 图模型 | 神经网络模型 |
节点 | 随机变量, 明确的解释 | 神经元/计算节点, 无明确解释 |
边(联系) | 变量之间依赖关系, 稀疏, 人工定义 | 无显示的依赖关系, 可以堆叠 |
模型作用(好处) | 统计推断 | 非线性变换 |
模型类别 | 判别/生成模型 | 判别模型 |
目标函数(模型
|
似然函数或条件似然函数、
|
损失函数, 比如交叉熵或平方误差等 |
近年来提出的生成对抗网络(generative adversarial networks, GAN)在文本表示学习中也引起了极大的关注[
采用生成模型的基于图的文本表示学习, 是对每个节点、每条边, 在文本中找到一个潜在的、真实的连续性分布, 也就是通过学习获得节点和边的embedding. 采用判别模型的基于图的文本表示学习, 一般将两个节点作为联合的特征, 预测两者之间边的概率. 也可以将生成模型和判别模型结合起来进行学习[
受人类视觉机制的启发, 注意力机制首先在图像领域取得了成功, 最近几年注意力模型在深度学习的各个领域被广泛使用. 目前, 自然语言处理任务的表示学习几乎都要用到了注意力模型, 大多数注意力机制都是在深度学习的常见编码-解码(encoder-decoder)框架上发挥作用的, encoder-decoder框架适合处理由一个文本序列到另外一个文本序列的处理模型, 也叫做序列-序列学习(sequence to sequence learning)[
Framework of Encoder-Decoder
编码-解码框架
编码-解码框架中的编码神经网络一般是多层的CNN、RNN、LSTM等, 将输入序列编码成一个固定长度的向量
注意力机制最核心的工作就是在序列的不同时刻产生不同的语言编码向量, 量化要重点关注输入序列中的哪些部分, 然后根据关注区域产生后续的输出. 形象化的模型表示如
Framework of Attention-based Encoder-Decoder
基于注意力机制的编码-解码框架
引入注意力机制的encoder-decoder模型, 编码器将输入信息编码成一个向量的序列, 序列中不同片段的重要性反映在不同的向量中. 解码的时候, 每一步选择向量序列中的一个子集进行下一步处理, 这样的每个输出, 都能够充分利用输入序列携带的信息[
注意力机制具有直观性、通用性和可解释性, 可以进行不同应用领域的特征表示和语言建模, 近年来成为一个活跃的研究领域. 另外, 一些有趣的方向, 包括更平滑地整合外部知识库、训练前嵌入和多任务学习、无监督学习、稀疏性学习和原型学习等, 本文不再展开讨论.
事件是现实世界中经常提及的一个词汇, 涉及的动作、对象、时间、环境等信息伴随事件的发生而存在, 伴随事件的结束而撤销. 事件是客观的、是不依赖特定语言的对现实的抽象. 从自然语言处理角度, 文本中描述事件及其信息的符号合理有效地表示事件、事件与事件之间的关系, 以文本中的事件为单位进行文本表示尽管并未列在文本表示的宏观分类列表上, 但仍具有一定的可行性和实用性, 特别是针对特定文体的自然语言处理, 比如叙事文本、新闻文本等. 从认知科学角度, 事件是人类认识和理解现实世界、描述或传播信息的基本单元, 以事件为知识表示单元对文本中的事件以及事件关系进行有效表示是一项基础性工作, 可以为事件本体以及基于事件的知识推理提供服务[
自然语言处理的核心思想是对语义的表示和分析, 对文本语义的表示简单来说就是将无结构文本表示成结构化的形式. 首先形成语义对象, 然后分析语义对象之间的联系或整个表达的语义结构, 这和常规意义上的文本表示是相似的, 上文提到的词向量、句向量、主题模型等都可认为是语义表示的形式[
知识表示、知识应用一直以来都是人工智能研究的重要问题, 一方面, 借助自然语言处理技术可以从自然语言文本中抽取出知识, 另一方面, 知识, 特别是领域知识对自然语言处理具有辅助性作用. 尽管现在主流自然语言处理系统中的文本表示较少关注知识, 甚至都不关注语言学知识, 但针对特定应用的领域知识和语言学知识对自然语言处理有极大的帮助作用, 语言的领域应用不仅需要静态知识, 更需要动态知识. 领域专家的思维、决策知识等加以整合和表示, 赋予机器, 从而一定程度上降低对专家的依赖[
文本表示作为自然语言处理的基础, 伴随着语言学、认知科学和人工智能的发展而进步, 其方法从早期的规则法, 到基于统计的方法, 再到近年来的深度学习方法和表示学习, 从早期的离散表示, 到基于矩阵分解的分布式表示, 再到基于神经网络的分布式表示, 从特定任务中字、词、句子、篇章的表示, 再到端到端大规模自动文本表示学习, 给自然语言处理任务带来了越来越大的便利. 考虑文本表示面临的挑战和需要进一步解决的问题, 包括: 语言中出现的所有符号是否都需要表示, 特别是无意义符号; 新词以及低频词的表示学习方法; 篇章中复杂语义的有效表示; 目前的基于向量的数据结构之外是否有更好的表示结构等. 随着深度学习、神经科学和脑科学、数据挖掘等技术的发展, 为了更好地完成自然语言处理任务, 文本表示将会进一步研究并得到更大程度的解决, 其发展趋势归纳为以下7方面.
(1)文本表示与知识的融合. 知识应用于文本表示既是可理解的, 又能缓解计算资源限制, 特别是对于垂直领域, 专业知识非常有效, 如医疗、金融等文本表示. 构建语言表示和知识的联系, 如何利用已有的知识库来改进词嵌入模型, 结合知识图谱和未标注语料学习知识和词向量表示, 更有效地实现文本嵌入.
(2)跨语种的语言统一表示研究. 借助脑科学、神经科学和认知科学的发展成果, 进一步认识世界以及人类思想的表达能力, 探索不同语种的语言符号及语法规则的特点, 分析其语言和文本表示的相似性, 考虑将相同语义的不同语言的文本进行相同或相近的表示, 试图为不同语种构建统一的语言表示模型, 提高各语种语言的表示能力.
(3)多粒度文本的联合表示. 以语言研究为基础, 分析语言本身的层次结构, 分析不同粒度文本之间的关系, 构建多粒度文本的联合语义表示模型.
(4)少资源文本表示学习. 目前, 文本表示不论是统计方式还是基于神经网络, 一般需要大量语料的学习, 受限于数据和算法, 大多数文本表示方法经常过滤掉少资源或低频的词, 即使处理这些词, 也难以很好地建模, 这样往往会丢失有价值的信息, 降低表示能力. 人类对少资源或低频词的学习常常通过字典或少量语言样本进行, 因此, 研究如何通过少量观察样本来学习新词和低频词的表示, 是文本表示研究的方向之一.
(5)文本表示的自动学习. 近年来, 由于深度学习对非结构数据的强大表示和学习能力, 表示学习在图像、视频、语音等领域取得了不错的效果. 实用化的自然语言处理需要对复杂语境进行建模, 基于海量文本数据自动学习文本的表示, 必然是自然语言表示研究的一个重要方向.
(6)多模态深度语义的融合表示. 为实现对信息的多维度和深层次理解, 声音、图像、视频、文本等不同模态的信息综合感知和认知表示建模, 拟合人类学习过程[
(7)传统表示模型的深入研究和广泛应用. 伴随着自然语言处理发展过程而提出的经典文本表示模型, 包括基于文法的模型、基于统计的模型和基于图的模型等, 这些方法理论基础成熟、模型简单有效, 已经广泛应用于许多自然语言处理任务中. 对这些方法进行深入研究、优化和融合, 一方面能快速实现具体的自然语言处理任务, 另一方面也能降低模型对时间、资源等的过度依赖[
从自然语言处理技术层面上, 再一次探讨文本表示与机器学习, 特别是深度学习的关系. 统计自然语言处理系统通常由训练数据和统计模型两部分组成, 传统机器学习方法的数据获取存在标注代价高、规范性差和数据稀疏等问题, 模型需要的特征存在获取困难的问题[
Ray J, Johnny O, Trovati M, Sotiriadis S, Bessis N. The rise of big data science: A survey of techniques, methods and approaches in the field of natural language processing and network theory. Big Data and Cognitive Computing, 2018, 2(3): 22. [doi: 10.3390/bdcc2030022]
10.1109/CDMA47397.2020.00027]]]>
Friederici AD, Chomsky N, Berwick RC, Moro A, Bolhuis JJ. Language, mind and brain. Nature Human Behaviour, 2017, 1(10): 713–722. [doi: 10.1038/s41562-017-0184-4]
于剑. 语言与图灵测试. 自动化学报, 2016, 42(5): 668–669. [doi: 10.16383/j.aas.2016.y000004]
Yu J. Language and Turing test. Acta Automatica Sinica, 2016, 42(5): 668–669 (in Chinese with English abstract). [doi: 10.16383/j.aas.2016.y000004]
梁君英, 刘海涛. 语言学的交叉学科研究: 语言普遍性、人类认知、大数据. 浙江大学学报(人文社会科学版), 2016, 46(1): 108–118. [doi: 10.3785/j.issn.1008-942X.CN33-6000/C.2015.10.231]
Liang JY, Liu HT. Interdisciplinary studies of linguistics: Language universals, human cognition and big-data analysis. Journal of Zhejiang University (Humanities and Sciences), 2016, 46(1): 108–118 (in Chinese with English abstract). [doi: 10.3785/j.issn.1008-942X.CN33-6000/C.2015.10.231]
10.18653/v1/W16-1405]]]>
孙茂松, 刘挺, 姬东鸿, 穗志方, 赵军, 张钹, 吾守尔·斯拉木, 俞士汶, 朱军, 李建民, 刘洋, 王厚峰, 吐尔根·依布拉音, 刘群, 刘知远. 语言计算的重要国际前沿. 中文信息学报, 2014, 28(1): 1–8. [doi: 10.3969/j.issn.1003-0077.2014.01.001]
Sun MS, Liu T, Ji DH, Sui ZF, Zhao J, Zhang B, Wushouer S, Yu SW, Zhu J, Li JM, Liu Y, Wang HF, Turgun I, Liu Q, Liu ZY. Frontiers of language computing. Journal of Chinese Information Processing, 2014, 28(1): 1–8 (in Chinese with English abstract). [doi: 10.3969/j.issn.1003-0077.2014.01.001]
Taskin Z, Al U. Natural language processing applications in library and information science. Online Information Review, 2019, 43(4): 676–690. [doi: 10.1108/OIR-07-2018-0217]
褚晓敏, 朱巧明, 周国栋. 自然语言处理中的篇章主次关系研究. 计算机学报, 2017, 40(4): 842–860. [doi: 10.11897/SP.J.1016.2017.00842]
Chu XM, Zhu QM, Zhou GD. Discourse primary-secondary relationships in natural language processing. Chinese Journal of Computers, 2017, 40(4): 842–860 (in Chinese with English abstract). [doi: 10.11897/SP.J.1016.2017.00842]
李仕春. 论世界语言学学术思想变迁之大势. 东岳论丛, 2017, 38(8): 163–168. [doi: 10.15981/j.cnki.dongyueluncong.2017.08.022]
Li SC. General trend of the change in world linguistic academic thinking. Dongyue Tribune, 2017, 38(8): 163–168 (in Chinese). [doi: 10.15981/j.cnki.dongyueluncong.2017.08.022]
赵永刚. 语言的进化与生物语言学进路诠疏——兼评《为什么只有我们: 语言与进化》. 学术探索, 2018, (6): 107–116. [doi: 10.3969/j.issn.1006-723X.2018.06.016]
Zhao YG. Explanations on the evolution of language and the forward road of bio-linguistic: Concurrent comments on why only us: Language and evolution. Academic Exploration, 2018, (6): 107–116 (in Chinese with English abstract). [doi: 10.3969/j.issn.1006-723X.2018.06.016]
张磊, 卫乃兴. 局部语法的演进、现状与前景. 当代语言学, 2018, 20(1): 103–116.
Zhang L, Wei NX. Local grammar: Evolution, status quo, and prospects. Contemporary Linguistics, 2018, 20(1): 103–116 (in Chinese with English abstract).
10.1145/2348283.2348408]]]>
10.1007/978-3-030-14771-6]]]>
Liu J, Lin L, Ren HL, Gu MH, Wang J, Youn G, Kim JU. Building neural network language model with POS-based negative sampling and stochastic conjugate gradient descent. Soft Computing, 2018, 22(20): 6705–6717. [doi: 10.1007/s00500-018-3181-2]
Bengio Y, Ducharme R, Vincent P, Janvin C. A neural probabilistic language model. The Journal of Machine Learning Research, 2003, 3: 1137–1155.
10.3115/v1/P15-2058]]]>
Samuel S, Roehr-Brackin K, Pak H, Kim H. Cultural effects rather than a bilingual advantage in cognition: A review and an empirical study. Cognitive Science, 2018, 42(7): 2313–2341. [doi: 10.1111/cogs.12672]
Siew CSQ, Wulff DU, Beckage NM, Kenett YN. Cognitive network science: A review of research on cognition through the Lens of network representations, processes, and dynamics. Complexity, 2019, 2019: 2108423. [doi: 10.1155/2019/2108423]
Xu YJ. Wittgenstein, phenomenology and cognitive linguistics. Fudan Journal of the Humanities and Social Sciences, 2018, 11(2): 219–236. [doi: 10.1007/s40647-017-0182-y]
Brenda M. A cognitive perspective on the semantics of near. Review of Cognitive Linguistics, 2017, 15(1): 121–153. [doi: 10.1075/rcl.15.1.06bre]
Feiman R, Snedeker J. The logic in language: How
10.1109/ICOSC.2019.8665592]]]>
Liu L, Chen J, Fieguth P, Zhao GY, Chellappa R, Pietikäinen M. From BOW to CNN: Two decades of texture representation for texture classification. International Journal of Computer Vision, 2019, 127(1): 74–109. [doi: 10.1007/s11263-018-1125-z]
10.1007/978-981-15-5573-2]]]>
Salton G, Wong A, Yang CS. A vector space model for automatic indexing. Communications of the ACM, 1975, 18(11): 613–620. [doi: 10.1145/361219.361220]
徐通锵. “字本位”和语言研究. 语言教学与研究, 2005, (6), 1–11.
Xu TQ. Zi as the basic structural unit and linguistic studies. Language Teaching and Linguistic Studies, 2005, (6): 1–11 (in Chinese with English abstract).
张若男. 字本位理论视角下的对外汉语教学研究述评. 现代语文, 2018, (4): 134–139.
Zhang RN. Review of the research on teaching Chinese as a foreign language under the character-based theory. Modern Chinese, 2018, (4): 134–139 (in Chinese with English abstract).
Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798–1828. [doi: 10.1109/TPAMI.2013.50]
Granados A. Analysis and study on text representation to improve the accuracy of the normalized compression distance. AI Communications, 2012, 25(4): 381–384. [doi: 10.3233/AIC-2012-0529]
Dourado ÍC, Galante R, Gonçalves MA, da Silva Torres R. Bag of textual graphs (BoTG): A general graph‐based text representation model. Journal of the Association for Information Science and Technology, 2019, 70(8): 817–829. [doi: 10.1002/asi.24167]
Harris ZS. Distributional structure. WORD, 1954, 10(2–3): 146–162. [doi: 10.1080/00437956.1954.11659520]
Wang SP, Cai JY, Lin QH, Guo WZ. An overview of unsupervised deep feature representation for text categorization. IEEE Transactions on Computational Social Systems, 2019, 6(3): 504–517. [doi: 10.1109/TCSS.2019.2910599]
Chew PA, Bader BW, Helmreich S, Abdelali A, Verzi SJ. An information-theoretic, vector-space-model approach to cross-language information retrieval. Natural Language Engineering, 2011, 17(1): 37–70. [doi: 10.1017/S1351324910000185]
董蕊芳, 柳长安, 杨国田. 一种基于改进TF-IDF的SLAM回环检测算法. 东南大学学报(自然科学版), 2019, 49(2): 251–258. [doi: 10.3969/j.issn.1001-0505.2019.02.008]
Dong RF, Liu CA, Yang GT. TF-IDF based loop closure detection algorithm for SLAM. Journal of Southeast University (Natural Science Edition), 2019, 49(2): 251–258 (in Chinese with English abstract). [doi: 10.3969/j.issn.1001-0505.2019.02.008]
Niu FG. Basic Co-occurrence latent semantic vector space mode. Journal of Classification, 2019, 36(2): 277–294. [doi: 10.1007/s00357-018-9283-9]
Hajjem M, Latiri C. Combining IR and LDA topic modeling for filtering microblogs. Procedia Computer Science, 2017, 112: 761–770. [doi: 10.1016/j.procs.2017.08.166]
Blei DM, Ng AY, Jordan MI. Latent dirichlet allocation. The Journal of Machine Learning Research, 2003, 3: 993–1022.
10.1145/2806416.2806584]]]>
Siu MH, Gish H, Chan A, Belfield W, Lowe S. Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery. Computer Speech & Language, 2014, 28(1): 210–223. [doi: 10.1016/j.csl.2013.05.002]
10.1007/978-3-540-44871-6_108]]]>
Sonawane SS, Kulkarni PA. Graph based representation and analysis of text document: A survey of techniques. International Journal of Computer Applications, 2014, 96(19): 1–8. [doi: 10.5120/16899-6972]
10.1007/978-3-030-24274-9_33]]]>
赵京胜, 张丽, 朱巧明, 周国栋. 中文文学作品中的社会网络抽取与分析. 中文信息学报, 2017, 31(2): 99–106, 116.
Zhao JS, Li Z, Zhu QM, Zhou GD. Extracting and analyzing social networks from Chinese literary. Journal of Chinese Information Processing, 2017, 31(2): 99–106, 116 (in Chinese with English abstract).
http://www.jos.org.cn/1000-9825/5301.htm]]>
http://www.jos.org.cn/1000-9825/5301.htm]]>
Kleinberg JM. Authoritative sources in a hyperlinked environment. Journal of the ACM, 1999, 46(5): 604–632. [doi: 10.1145/324133.324140]
Watts DJ, Strogatz SH. Collective dynamics of ‘small-world’ networks. Nature, 1998, 393(6684): 440–442. [doi: 10.1038/30918]
Barabási AL, Albert R. Emergence of scaling in random networks. Science, 1999, 286(5439): 509–512. [doi: 10.1126/science.286.5439.509]
Cancho RFI, Solé RV. The small world of human language. Proceedings of the Royal Society B: Biological Sciences, 2001, 268(1482): 2261–2265. [doi: 10.1098/rspb.2001.1800]
10.1007/978-3-319-39445-9_9]]]>
10.1145/2034691.2034731]]]>
10.1109/ICCCAS.2006.285222]]]>
Lozano S, Calzada-Infante L, Adenso-Díaz B, García S. Complex network analysis of keywords co-occurrence in the recent efficiency analysis literature. Scientometrics, 2019, 120(2): 609–629. [doi: 10.1007/s11192-019-03132-w]
Yan JH, Wang CY, Cheng WL, Gao M, Zhou AY. A retrospective of knowledge graphs. Frontiers of Computer Science, 2018, 12(1): 55–74. [doi: 10.1007/s11704-016-5228-9]
Wang Q, Mao ZD, Wang B, Guo L. Knowledge graph embedding: A survey of approaches and applications. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2724–2743. [doi: 10.1109/TKDE.2017.2754499]
10.1609/aaai.v34i05.6356]]]>
10.3115/v1/D14-1162]]]>
10.18653/v1/P18-1041]]]>
https://www.cs.ubcca/~amuham01/LING530/papers/radford2018improving.pdf.]]>
https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf]]>
10.18653/v1/N19-1423]]]>
http://www.jos.org.cn/1000-9825/5946.htm]]>
http://www.jos.org.cn/1000-9825/5946.htm]]>
Wei W, Wu JS, Zhu CS. Special issue on deep learning for natural language processing. Computing, 2020, 102(3): 601–603. [doi: 10.1007/s00607-019-00788-3]
李枫林, 柯佳. 基于深度学习的文本表示方法. 情报科学, 2019, 37(1): 156–164. [doi: 10.13833/j.issn.1007-7634.2019.01.024]
Li FL, Ke J. Text representation method based on deep learning. Information Science, 2019, 37(1): 156–164 (in Chinese with English abstract). [doi: 10.13833/j.issn.1007-7634.2019.01.024]
Yilmaz S, Toklu S. A deep learning analysis on question classification task using Word2Vec representations. Neural Computing and Applications, 2020, 32(7): 2909–2928. [doi: 10.1007/s00521-020-04725-w]
Ltaifa IB, Hlaoua L, Romdhane LB. Hybrid deep neural network-based text representation model to improve microblog retrieval. Cybernetics and Systems, 2020, 51(2): 115–139. [doi: 10.1080/01969722.2019.1705548]
Schmidhuber J. Deep learning in neural networks: An overview. Neural Networks, 2015, 61: 85–117. [doi: 10.1016/j.neunet.2014.09.003]
LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436–444. [doi: 10.1038/nature14539]
Scarselli F, Gori M, Tsoi AC, Hagenbuchner M, Monfardini G. The graph neural network model. IEEE Transactions on Neural Networks, 2009, 20(1): 61–80. [doi: 10.1109/TNN.2008.2005605]
Goyal P, Ferrara E. Graph embedding techniques, applications, and performance: A survey. Knowledge-Based Systems, 2018, 151: 78–94. [doi: 10.1016/j.knosys.2018.03.022]
Gui J, Sun ZN, Wen YG, Tao DC, Ye JP. A review on generative adversarial networks: Algorithms, theory, and applications. Journal of Latex Classifiers, 2015, 14(8): 1–28.
10.1109/BigMM.2018.8499105]]]>
Wang HW, Wang JL, Wang JL, Zhao M, Zhang WN, Zhang FZ, Xie X, Guo MY. GraphGAN: Graph representation learning with generative adversarial nets. IEEE Transactions on Knowledge and Data Engineering, 2017: 99–117.
10.1109/IJCNN48605.2020.9207154]]]>
10.1109/MLSP49062.2020.9231732]]]>
10.1007/978-3-030-16142-2_10].]]>
Vlachostergiou A, Caridakis G, Mylonas P, Stafylopatis A. Learning representations of natural language texts with generative adversarial networks at document, sentence, and aspect level. Algorithms, 2018, 11(10): 164. [doi: 10.3390/a11100164]
Zhu X, Hu JT, Song LC, Suo GL, Zhan Y. Attention-based encoder-decoder model for photovoltaic power generation prediction. Journal of Physics: Conference Series, 2020, 1575: 012025. [doi: 10.1088/1742-6596/1575/1/012025]
Nie YP, Han Y, Huang JM, Jiao B, Li AP. Attention-based encoder-decoder model for answer selection in question answering. Frontiers of Information Technology & Electronic Engineering, 2017, 18(4): 535–544. [doi: 10.1631/FITEE.1601232]
Tian T, Fang Z. Attention-based autoencoder topic model for short texts. Procedia Computer Science, 2019, 151: 1134–1139. [doi: 10.1016/j.procs.2019.04.161]
Liang ZQ, Pan D, Xu RJ. Knowledge representation framework of accounting event in corpus-based financial report text. Cluster Computing, 2019, 22(4): 9335–9346. [doi: 10.1007/s10586-018-2153-8]
王先传, 刘宗田. 新闻文本中事件语义表示. 上海大学学报(自然科学版), 2019, 25(5): 733–741. [doi: 10.12066/j.issn.1007-2861.1989]
Wang XC, Liu ZT. Event semantic representation for news texts. Journal of Shanghai University (Natural Science), 2019, 25(5): 733–741 (in Chinese with English abstract). [doi: 10.12066/j.issn.1007-2861.1989]
Giallonardo E, Poggi F, Rossi D, Zimeo E. Semantics-driven programming of self-adaptive reactive systems. International Journal of Software Engineering and Knowledge Engineering, 2020, 30(6): 805–834. [doi: 10.1142/S0218194020400082]
Wang XL, Feng A, Golshan B, Halevy A, Mihaila G, Oiwa H, Tan WC. Scalable semantic querying of text. Proceedings of the VLDB Endowment, 2018, 11(9): 961–974. [doi: 10.14778/3213880.3213887]
Liu J, Yang YH, He HH. Multi-level semantic representation enhancement network for relationship extraction. Neurocomputing, 2020, 403: 282–293. [doi: 10.1016/j.neucom.2020.04.056]
Franco-Salvador M. A cross-domain and cross-language knowledge-based representation of text and its meaning. Procesamiento del Lenguaje Natural, 2019, (62): 111–114.
Tang X, Chen L, Cui J, Wei BG. Knowledge representation learning with entity descriptions, hierarchical types, and textual relations. Information Processing & Management, 2019, 56(3): 809–822. [doi: 10.1016/j.ipm.2019.01.005]
10.1109/ICTAI.2019.00051]]]>
Li HR, Zhu JN, Ma C, Zhang JJ, Zong CQ. Read, watch, listen, and summarize: Multi-modal summarization for asynchronous text, image, audio and video. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(5): 996–1009. [doi: 10.1109/TKDE.2018.2848260]
Li S, Tao ZQ, Li K, Fu Y. Visual to text: Survey of image and video captioning. IEEE Transactions on Emerging Topics in Computational Intelligence, 2019, 3(4): 297–312. [doi: 10.1109/TETCI.2019.2892755].
Ibrahim ZAA, Saab M, Sbeity I. VideoToVecs: A new video representation based on deep learning techniques for video classification and clustering. SN Applied Sciences, 2019, 1(6): 560. [doi: 10.1007/s42452-019-0573-6]
10.1007/978-3-030-05710-7_6]]]>
10.1609/aaai.v33i01.3301126]]]>
Suwela N. Ranking index berita new normal dengan metode information retrieval menggunakan vector space model. STRING (Satuan Tulisan Riset dan Inovasi Teknologi), 2020, 5(1): 61–69. [doi: 10.30998/string.v5i1.6479]
Zhang T, Shen S, Cheng CX, Su K, Zhang XX. A topic model based framework for identifying the distribution of demand for relief supplies using social media data. International Journal of Geographical Information Science, 2021, (10): 1–22. [doi: 10.1080/13658816.2020.1869746]
Shah SMA, Ge HW, Haider SA, Irshad M, Noman SM, Arshad J, Ahmad A, Younas T. A quantum spatial graph convolutional network for text classification. Computer Systems Science and Engineering, 2021, 36(2): 369–382. [doi: 10.32604/csse.2021.014234]
Jiang Z, Gao S, Chen L. Study on text representation method based on deep learning and topic information. Journal of Computing, 2020, 102(3): 623–642. [doi: 10.1007/s00607-019-00755-y]
潘俊, 吴宗大. 词汇表示学习研究进展. 情报学报, 2019, 38(11): 1222–1240. [doi: 10.3772/j.issn.1000-0135.2019.11.010]
Pan J, Wu ZD. A review of word representation learning. Journal of the China Society for Scientific and Technical Information, 2019, 38(11): 1222–1240 (in Chinese with English abstract). [doi: 10.3772/j.issn.1000-0135.2019.11.010]
Rezaeinia SM, Rahmani R, Ghodsi A, Veisi H. Sentiment analysis based on improved pre-trained word embeddings. Expert Systems with Applications, 2019, 117: 139–147. [doi: 10.1016/j.eswa.2018.08.044]
Wang Y, Sun YN, Ma ZC, Gao LS, Xu Y. Named entity recognition in Chinese medical literature using pretraining models. Scientific Programming, 2020, 2020: 8812754. [doi: 10.1155/2020/8812754]