顾迎捷(1992-), 男, 学士, 主要研究领域为机器阅读理解, 自然语言处理
桂小林(1966-), 男, 博士, 教授, 博士生导师, CCF高级会员, 主要研究领域为物联网, 云计算, 大数据分析与隐私保护, 信息安全
李德福(1996-), 男, 学士, 主要研究领域为机器阅读理解, 自然语言处理
沈毅(1994-), 男, 学士, 主要研究领域为机器阅读理解, 自然语言处理
廖东(1995-), 男, 学士, 主要研究领域为大数据分析, 边缘计算
机器阅读理解的目标是使机器理解自然语言文本,并能够正确回答与文本相关的问题.由于数据集规模的制约,早期的机器阅读理解方法大多基于人工特征以及传统机器学习方法进行建模.近年来,随着知识库、众包群智的发展,研究者们陆续提出了高质量的大规模数据集,为神经网络模型以及机器阅读理解的发展带来了新的契机.对基于神经网络的机器阅读理解相关的最新研究成果进行了详尽的归纳:首先,概述了机器阅读理解的发展历程、问题描述以及评价指标;然后,针对当前最流行的神经阅读理解模型架构,包括嵌入层、编码层、交互层和输出层中所使用的相关技术进行了全面的综述,同时阐述了最新的BERT预训练模型及其优势;之后,归纳了近年来机器阅读理解数据集和神经阅读理解模型的研究进展,同时,详细比较分析了最具代表性的数据集以及神经网络模型;最后展望了机器阅读理解研究所面临的挑战和未来的研究方向.
The task of machine reading comprehension is to make the machine understand natural language text and correctly answer text-related questions. Due to the limitation of the dataset scale, most of the early machine reading comprehension methods were modeled based on manual features and traditional machine learning methods. In recent years, with the development of knowledge bases and crowdsourcing, high quality large-scale datasets have been proposed by researchers, which has brought a new opportunity for the advance of neural network models and machine reading comprehension. In this survey, an exhaustive review on the state-of-the-art research efforts on machine reading comprehension based on neural network is made. First, an overview of machine reading comprehension, including development process, problem formulation, and evaluation metric, is given. Then, a comprehensive review is conducted of related technologies in the most fashionable neural reading comprehension framework including the embedding layer, encoder layer, interaction layer, and output layer as well as the latest BERT pre-training model and its advantages are discussed. After that, this paper concludes the recent research progress of machine reading comprehension datasets and neural reading comprehension model, and gives a comparison and analysis of the most representative datasets and neural network models in detail. Finally, the research challenges and future direction of machine reading comprehension are presented.
教会机器理解自然语言文本并能够正确回答相关问题, 是自然语言处理(natural language processing, 简称NLP)领域最具挑战性的任务之一, 同时也是该领域追求的最终目标[
与信息检索(information retrieval, 简称IR)[
本文归纳并分析近年来MRC领域中神经网络模型以及大规模数据集的研究进展, 并进行较为全面的综述.第1节描述MRC的发展历程与任务定义.第2节阐述基于神经网络的机器阅读理解模型架构, 重点围绕词嵌入层、编码层、交互层以及输出层中所使用的技术进行综述, 同时介绍近期最流行的BERT预训练模型.第3节介绍具有代表性的数据集以及神经网络模型, 并分别对两者进行详细的分析和比较.最后, 在第4节讨论MRC的发展趋势以及未来的研究挑战, 以期对其在国内的研究起到一定的推动作用.
机器阅读理解在近半个世纪以来经历了3个阶段的发展:从20世纪70年代开始, 利用基于规则的方法[
构建自动阅读理解系统的历史可以追溯到20世纪70年代, 在当时, 研究者们已经意识到了机器阅读理解是测试机器语言理解能力的一种非常重要的方法.早期最著名的工作之一是由Lehnert[
[
[
机器阅读理解任务可以形式化成一个有监督的学习问题:给出三元组形式的训练数据(
一般地, 我们将段落表示为$C = \{ w_1^C, w_2^C, ..., w_m^C\} $, 将问题表示为$Q = \{ w_1^Q, w_2^Q, ..., w_n^Q\} $, 其中,
一些来源于代表性数据集的例子
A few examples from representative datasets
序号 | 描述 |
(1) | CBT(完形填空) |
(2) | SciQ(多项选择) |
(3) | SQuAD(抽取式) |
(4) | CoQA(多轮对话) |
(5) | NarrativeQA(生成式) |
(6) | HotpotQA(多跳推理) |
(1) 完形填空:在这类数据集中, 机器的目标是根据问题和当前段落, 从预定义的选项集合𝒜中选出正确答案
(2) 多项选择:在这类数据集中, 机器的目标是根据问题和当前段落信息, 从包含正确答案的
(3) 抽取式:也可称为跨距预测类型数据集(span prediction), 在这类数据集中, 机器的目标是根据问题在当前段落中找到正确的答案跨距, 因此在这类数据集中, 我们可以将答案表示为(
(4) 会话:在这类数据集中, 目标与机器进行交互式问答, 因此, 答案可以是文本自由形式(free-text form), 即可以是跨距形式, 可以是“不可回答”形式, 也可以是“是/否”形式等等;
(5) 生成式:在这类数据集中, 问题的答案都是人工编辑生成的(human manual generated), 不一定会以片段的形式出现在段落原文中, 机器的目标是阅读给出段落的摘要甚至全文, 之后根据自身的理解来生成问题的答案;
(6) 多跳推理:在这类数据集中, 问题的答案无法从单一段落或文档中直接获取, 而是需要结合多个段落进行链式推理才能得到答案.因此, 机器的目标是在充分理解问题的基础上从若干文档或段落中进行多步推理, 最终返回正确答案.
机器阅读理解中对于模型的评价指标主要由数据集的类型决定.
(1) 对于完形填空和多项选择类型的任务, 由于答案都是来源于已经给定的选项集合𝒜, 因此使用Accuracy这一指标最能直接反映模型的性能, 即, 在问题数据中模型给出的正确答案数
(2) 对于抽取式和多跳推理类型的任务, 需要对模型预测的答案字符串和真实答案进行比对, 因此一般使用Rajpurkar等人提出的Exact Match(EM)和
(3) 对于会话类型的任务, 由于其答案是文本自由形式, 因此并没有一种通用的评价指标, 该类任务的评价指标主要由数据集本身决定.例如:CoQA数据集使用了
(4) 对于生成式类型的任务, 由于答案是人工编辑生成的, 而机器的目标是使生成的答案最大限度地拟合人工生成的答案, 因此该类任务一般使用机器翻译任务中常用的BLEU-4[
Rouge(recall-oriented understudy for gisting evaluation)同时也是自动文本摘要任务的重要评测指标, 与BLEU类似, 它也是通过将自动生成的语句或摘要与人工编辑进行比较计算后得出相应的分值, 以此来衡量生成本文的质量.而Rouge-L是采用了最长公共子序列(longest common subsequence, 简称LCS)的Rouge的一种改进版本, 其中,
除此之外, 有些生成式数据集, 例如, NarrativeQA还采用BLEU-1、Meteor[
与本文工作相似, Gardner[
基于端到端神经网络的机器阅读理解模型大都采用
常用的神经阅读理解4层架构
Common four-layer framework of neural reading comprehension
(1) 嵌入层:通过字符、词、上下文和特征级别的嵌入方法将段落
(2) 编码层:使用循环或卷积神经网络对段落和问题序列进行编码, 用以提取内部特征; 之后采用注意力机制生成问题感知的段落表示或段落感知的问题表示[
(3) 交互层:通过自注意力机制捕捉融合了问题(段落)信息的段落(问题)单词之间的信息; 最后通过循环或卷积神经网络解码形成最终表示;
(4) 输出层:根据最终任务(数据集)类型的不同, 输出层将会有不同的表示方式.
研究者们根据不同类型MRC数据集的特点, 不断尝试并改进每一层架构中使用的方法, 以期在各种数据集中获得最好的性能.本节剩余部分将会具体阐述每一层使用的相关技术及其优缺点, 最后介绍最新的BERT模型及其优势.
基于神经网络的机器阅读理解模型的第1个关键步骤就是将单词表示成高维、稠密的实值向量.在深度学习时代之前, 研究者们通常将单词表示成词典的索引, 称为One-Hot词向量表示:每一个单词都会被表示成一个词典中该单词对应位置为1而其他位置为0的稀疏的向量, 例如,
字符嵌入用来获取一个单词在字符级别的向量表示, 采用char-level的词向量能够在一定程度上缓解文本中出现未登录词(out-of-vocabulary, 简称OOV)的问题.Seo等人[
词向量能够基于单词的分布式假设[
(1) Word2Vec词向量
Word2Vec词向量[
(2) GloVe词向量
由于Word2Vec中常用的Skip-gram模型是在独立的局部上下文窗口中训练的, 因此没有很好地利用大规模语料库的统计学信息.为了填补Word2Vec的局限性, Pennington等人[
(3) Fasttext词向量
Fasttext词向量[
针对究竟上述哪一种词嵌入方法的效果最好这一问题, 目前学术界主要将测评方法分为内部测评(intrinsic evaluation)和外部测评(extrinsic evaluation)两种, 研究者们通过实验得到的结论也各不相同, 较为著名的工作有文献[
除了词嵌入以外, 研究者们还发现:将词的表征扩展到上下文级别, 将每个单词表示为整个输入句子的函数映射, 即根据当前的句子来体现一个词在特定上下文的语境里面该词的语义表示, 使其动态地蕴含句子中上下文单词的特征, 从而提高模型的性能.目前较为流行的用于上下文级别嵌入的模型有CoVe、ELMo以及BERT等预训练模型.
(1) CoVe上下文向量
虽然使用上述词嵌入方法将单词表示为
(2) ELMo上下文向量
Peters等人[
ELMo和BERT的预训练模型架构
Pre-training model architectures of ELMo and BERT
(3) BERT上下文向量
在ELMo模型提出不久后, Devlin等人[
特征嵌入本质上就是将单词在句子中的一些固有特征表示成低维度的向量, 包括单词的位置特征(position)[
特征嵌入很好地保留了单词在原始句子中的一些特性, 例如位置特征可以弥补词袋模型无顺序的缺点等等, 这对于下游任务中模型性能的提升有着一定的辅助作用.
编码层的目的是将已经表示为词向量的Tokens(词的唯一标记单位)通过一些复合函数进一步学习其内在的特征与关联信息, 机器阅读理解中常用循环神经网络(recurrent neural networks, 简称RNNs)及其变体对问题和段落进行建模编码, 也有一些模型使用卷积神经网络(convolutional neural network, 简称CNN)进行特征提取, 例如QANet[
循环神经网络[
为了优化传统RNN模型的性能(例如解决RNN出现的梯度消失问题), 研究者们提出了许多RNN的变体, 其中比较著名且常用的变体有长短期记忆网络(long short-term memory, 简称LSTM)[
LSTM模型通过更新每一时刻的细胞状态来实现序列编码, 细胞单元的输入为当前时刻的输入
在MRC任务中, 研究者们常用双LSTM(BiLSTM)模型对问题
这种BiLSTM分为前向传播(从左到右)和反向传播(从右到左), 我们将双向模型得到的隐状态结果进行拼接, 得到${h_t} = [{\vec h_t}; {\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over h} _t}] \in {\mathbb{R}^{2d}}$.这种表示方法可以有效地将上下文的左右信息进行编码, 从而成为神经阅读理解模型中编码层常用的方法.
虽然RNN模型是机器阅读理解任务中编码层主要采用的方法, 但Yu等人[
除了上述两种常见的编码模型外, 最近的研究还发现, 使用基于自注意力机制的Transformer架构对序列进行编码可以获得更快的速度以及更好的效果.我们将在第2.3节详细介绍注意力机制有关的模型架构.
交互层是整个神经阅读理解模型的核心部分, 它的主要作用是负责段落与问题之间的逐字交互, 从而获取段落(问题)中的单词针对于问题(段落)中的单词的加权状态, 进一步融合已经被编码的段落与问题序列.
交互层主要采用注意力机制, 在自然语言处理领域, 该机制最早由Sutskever等人[
如
MRC任务中的注意力机制(C2Q)
Attention mechanism in MRC tasks (C2Q)
(1) 将段落
(2) 使用Softmax函数对权重进行归一化处理, 得到
(3) 将归一化后的权重和相应的问题
当段落和问题序列通过注意力机制后, 神经阅读理解模型就能学习到两者之间单词级别的权重状态, 这大大提高了最后答案预测或生成的准确率.
当注意力机制在NLP领域取得巨大成功后, Vaswani等人[
首次将自注意力机制运用于机器阅读理解任务的是Wang等人[
最后, 将单词与相应的注意力值按顺序进行拼接, 作为BiLSTM的输入.除此之外, 将自注意力机制应用于问题和段落拼接后的向量, 不仅可以使模型学习到了问题和段落内部的融合信息, 还同时学习到了问题和段落之间的交互信息[
输出层主要用来实现答案的预测与生成, 根据具体任务来定义需要预测的参数.
(1) 针对抽取式任务, 神经阅读理解模型需要从某一段落中找到一个子片段(span or sub-phrase)来回答对应问题, 这一片段将会以在段落中的首尾索引的形式表示, 因此, 模型需要通过获取起始和结束位置的概率分布来找到对应的索引[
(2) 针对完形填空任务, 神经阅读理解模型需要从若干个答案选项中选择一项填入问句的空缺部分, 因此, 模型首先需要计算出段落针对问题的注意力值, 然后通过获取选项集合中候选答案的概率预测出正确答案, 如公式(27)~公式(29)所示, 其中,
(3) 针对多项选择任务, 神经阅读理解模型需要从
(4) 针对生成式任务, 由于答案的形式是自由的(free-form), 可能在段落中能找到, 也可能无法直接找到而需要模型生成, 因此, 模型的输出不是固定形式的, 有可能依赖预测起止位置的概率(与抽取式相同), 也有可能需要模型产生自由形式的答案(类似于Seq2Seq).
(5) 针对会话类和多跳推理任务, 由于只是推理过程与抽取式不同, 其输出形式基本上与抽取式任务相同, 有些数据集还会预测“是/否”、不可回答[
(6) 针对开放域的阅读理解, 由于模型首先需要根据给定问题, 从例如Wikipedia上检索多个相关文档(包含多个段落), 再从中阅读并给出答案[
在谷歌公司提出BERT模型之前, 就已有学者考虑使用高质量的预训练模型来提升后续任务的性能, 例如ELMo和GPT模型[
Transformer架构[
多头注意力机制和缩放点积注意力
Multi-headed attention and scaled dot-product attention
Transformer架构最早是为了解决序列转换或神经机器翻译问题[
Transformer架构另一个里程碑式的创新之处在于:为基于海量未标记语料训练的预训练模型的构建提供了支持, 进而使研究者们只需在对应的下游任务中微调预训练模型就能达到较好的效果.其中最具代表性的应用就是通过基于Transformer架构的预训练模型来提升词表达能力:通过自注意力机制, 可以在一定程度上反映出一句话中不同单词之间的关联性以及重要程度, 再通过训练来调整每个词的重要性(即权重系数), 由此来获得每个单词的表达.由于这个表达不仅仅蕴含了该单词本身, 还动态地蕴含了句子中其他单词的关系, 因此相比于普通的词向量, 通过上述预训练模型得到的上下文词表达更为全面.
Devlin等人认为:虽然完全双向模型的性能必定比单向模型(GPT)或不完全双向模型(ELMo)更好, 而一旦采用了完全双向模型, 随着网络层数的增加, 势必会出现“自己看见自己”的问题, 这就使模型失去了意义(我们的目标是通过训练学习到词与词之间蕴含的未知关系).针对上述问题, Devlin等人受完形填空任务[
BERT中的遮蔽语言模型
Masked LM in BERT
通过上述变化, 使得Transformer架构不知道哪个单词需要被预测, 哪个单词已经被替换.因此, BERT不仅解决了完全双向模型“自己看见自己”的问题, 还“被迫”地保证了每一个输入Token都能保持分布式的上下文表征状态.
连续句子预测任务主要是为了让模型能够学习连续的文本片段之间的关系, 以加入句子级别的表征能力.具体地说, 对于每次从训练集中选取的两个连续句子
(1) 输入=[CLS]男子去[MASK]商店[SEP]他买了一升[MASK]牛奶[SEP], 标签=IsNext;
(2) 输入=[CLS]男子去[MASK]商店[SEP]我爱自然[MASK]处理[SEP], 标签=NotNext.
使用连续句子预测来训练BERT模型, 可以很大程度上提高模型在类似机器阅读理解(MRC)以及自然语言推理(NLI)这些需要句间理解能力的任务上的表现性能.
综上所述, 本文认为:BERT模型的提出, 对于机器阅读理解任务来说, 除了为建立更高性能的模型提供新的思路以外, 更是证明了一个好的预训练模型在MRC任务中的重要性.因此, 未来MRC模型的建立可以从以下两方面展开.
(1) 加入上下文嵌入作为表征.将BERT预训练模型得到的词的上下文表征结合静态词嵌入方法, 共同作为嵌入层的结果, 以此来提高模型性能, 这也是目前BERT模型最广泛的使用方法;
(2) 优化BERT模型.由于单一的BERT模型对于需要复杂推理的任务处理起来相对薄弱, 因此我们可以在BERT模型的基础上进行结构优化, 提高模型对问题与段落内在关系的推理能力, 由此来处理更为复杂、推理难度更大的MRC数据集.
机器阅读理解的研究之所以能够在近期发展如此快速且成功, 主要有以下两个原因:大规模的阅读理解数据集的发布以及端到端神经阅读理解模型的构建.两者共同推进着MRC系统的发展, 一方面, 大规模MRC数据集的发布能够很好地适应神经阅读理解模型的训练, 因此激励研究者对模型进行不断的创新; 另一方面, 模型性能的不断提升也促进更具有挑战性、更符合人类自然语言习惯的数据集的建立.
近年来神经阅读理解数据集和模型的发展
Recent development of datasets and models in neural reading comprehension
从2015年至今, 国内外已经公布了许多专门用于机器阅读理解的数据集, 本文选取最具有代表性的24个中英文数据集进行对比分析, 各个数据集的属性见
机器阅读理解数据集的属性对比
Comparison of some properties of main MRC datasets
名称 | 类别 | 语言 | #问题 | #段落 | 问题来源 | 段落来源 | 不可回答 | 是/否类 |
CNN/DailyMail[ |
完形填空 | 英文 | 1.38M | 312K | 生成 | 新闻 | - | - |
CBT[ |
完形填空 | 英文 | 688K | 108 | 生成 | 少儿图书 | - | - |
CLOTH[ |
完形填空 | 英文 | 99K | 7.1K | 英语考试 | 英语考试 | - | - |
PeopleDaily/CFT[ |
完形填空 | 中文 | 100K | 28K | 生成 | 新闻/童话 | - | - |
TQA[ |
多项选择 | 英文 | 26.3K | 1 076 | 理科课程 | 理科课程 | - | √ |
SciQ[ |
多项选择 | 英文 | 13.7K | N/A | 众包 | 科学考试 | - | - |
MCScript[ |
多项选择 | 英文 | 14K | 2 100 | 众包 | 日常语料 | - | √ |
RACE[ |
多项选择 | 英文 | 100K | 28K | 英语考试 | 英语考试 | - | - |
ARC[ |
多项选择 | 英文 | 7 787 | N/A | 科学考试 | 科学考试 | √ | - |
WikiQA[ |
抽取式 | 英文 | 3 047 | N/A | 必应日志 | 维基百科 | - | - |
SQuAD1.1[ |
抽取式 | 英文 | 108K | 536 | 众包 | 维基百科 | - | - |
NewsQA[ |
抽取式 | 英文 | 120K | 12.7K | 众包 | 新闻 | √ | - |
SearchQA[ |
抽取式 | 英文 | 140K | 6.9M | 网页 | 网页 | - | - |
TriviaQA[ |
抽取式 | 英文 | 95.9K | 663K | 网页 | 维基/网页 | - | - |
SQuAD2.0[ |
抽取式 | 英文 | 151K | 505 | 众包 | 维基百科 | √ | - |
SQA[ |
多轮对话 | 英文 | 17.6K | 6 066 | 众包 | 维基百科 | - | √ |
CSQA[ |
多轮对话 | 英文 | 1.6M | 200K | 众包/生成 | 知识图谱 | √ | √ |
CQA[ |
多轮对话 | 英文 | 34.7K | N/A | 众包/生成 | Web知识库 | - | - |
CoQA[ |
多轮对话 | 英文 | 127K | 8K | 众包 | 多领域 | √ | √ |
QuAC[ |
多轮对话 | 英文 | 98.4K | 13.6K | 众包 | 维基百科 | √ | √ |
DuReader[ |
生成式 | 中文 | 200K | 1M | 百度日志 | 网页 | √ | √ |
MS MARCO[ |
生成式 | 英文 | 100K | 200K | 必应日志 | 网页 | √ | √ |
NarrativeQA[ |
生成式 | 英文 | 46K | 1.5K | 众包 | 书籍/电影 | - | - |
HotpotQA[ |
多跳推理 | 英文 | 112K | N/A | 众包 | 维基百科 | - | √ |
接下来, 本文将分别从类别、问题来源、段落来源以及数据集难度这4个维度出发, 对MRC数据集的发展进行归纳分析.
目前, 国内外学者构建的机器阅读理解数据集大致可以被分为六大类, 即完形填空、多项选择、抽取式、多轮对话、生成式以及多跳推理, 每一类数据集的任务定义已在第1.2节中给出描述, 本小节不再重复.除了上述六大类数据集以外, 本节还阐述了面向开放域Open-Domain的机器阅读理解.接下来, 本小节将按类别归纳每个数据集的特点与不足.
(1) 完型填空
Hermann等人[
(2) 多项选择
Kembhavi等人[
ARC挑战集中问题类型的分布
Distribution of question types in ARC challenge set
(3) 抽取式
抽取式MRC数据集由于其段落的多领域性、问题的多变性以及答案的自由性, 使其成为近3年来学者们研究频率最高的数据集.早在2015年, Yang等人[
本文总结了SQuAD1.1数据集的两个重要意义:一是相比于完形填空与多项选择类数据集, SQuAD1.1更加贴近人类自然语言, 这使得接下来两年抽取式数据集成为了MRC领域的主流数据集; 二是该数据集的成功, 表明了采用众包服务模式来生成问答集是一种快速且有效的方法, 可以有效降低构建高质量数据集的难度, 因此越来越多的高质量数据集被提出, 直接推动了神经网络模型的发展.
在SQuAD1.1之后, 研究者们采用各种方法、技巧用以丰富抽取式数据集的形式, 增加数据集的难度, 例如, Trischler等人[
(4) 多轮对话
多轮对话的流程如
多轮对话流程示意图
Schematic diagram of multiple-roundconversation
本文认为:在现有的多轮对话数据集中, 每一个对话框中的对话流之间规律性太强, 例如在CoQA中, 一个问题一般与前几个问答对关联性较大, 而和其相距较远的问答对关联性较弱, 很少有后面的问题需要利用最初问答对的情况(即“对话反转”问题), 这会为神经阅读理解模型在训练时提供一个潜在的特征.在未来, 研究者们可以加入更丰富的“对话反转”问题, 以此来构建更具挑战性的多轮对话数据集.
(5) 生成式
生成式数据集的特点在于问题的答案是自由形式的, 即答案完全由人工编辑生成.这就要求机器拥有更强的推理能力, 能够理解问题与段落中相关句子的逻辑关系并给出正确答案, 而不是简单的文本匹配.Nguyen等人[
(6) 多跳推理
从
(7) 开放域阅读理解
面向开放域的阅读理解(open-domain QA)可以理解为利用例如Wikipedia、Freebase KB[
我们可以从
通过对比
抽取式与多轮会话类数据集中的段落则大多数来源于百科类知识库, 例如维基百科或Web知识库.这是因为, 抽取式与多轮会话类数据集中的问题和答案的形式更为自由, 更符合人类在阅读理解领域的问答习惯.此时, 仅有垂直领域的段落已经无法满足上述类型数据集的需求.因此, 面向开放域的百科类数据或者Web数据更适合抽取式和多轮会话类数据集的建立.此外, 如果没有众包平台的发展, 仅仅把段落来源从垂直领域延伸到开放域, 也很难在短时间内构建高质量的抽取式与多轮会话类数据集.如上一小节所示:由于众包工作者是现实中的自然人, 在激励的驱动下, 能够针对任何形式的段落按照任务发布者的要求用自然语言生成高质量的问题和答案, 从而使研究者们能够在短时间内从开放域中获得高质量的问答对.
通过观察
在2017年以前提出的数据集中, 所有问题的答案都可以在段落中被找到, 因此我们所建立的模型只需要考虑如何提高捕获问题和段落之间的关联特征的能力, 而在答案推理能力层面则不需要注入太多精力.事实上, 研究者们也发现:如果数据集中所有答案都可以在段落中找到, 那么针对该数据集的模型的性能很快就可以逼近甚至超越人类水平, 例如, SQuAD1.1数据集从40.4%EM值的Baseline模型到82.744%EM值的QANet模型仅仅使用了2年(人类82.304%).但现实中, 这些“高性能”的模型泛化能力却很弱, 因此提出更高难度、更符合人类语言习惯的数据集迫在眉睫.
在2017年到2018年之间, 研究者们主要从变化答案类型的角度来增加数据集的挑战性, 例如:NewsQA通过设置9.5%的“
然而研究者们很快就发现, 仅仅改变答案的构成并不能很有效地增加数据集的难度.这是因为, 只要在构建模型时加入简单的判断函数, 经过权重的训练就能提升对“不可回答问题”与“是/否类问题”的回答准确率.因此, 研究者们尝试从改变数据集类型的角度出发, 提出了会话、多跳推理类别的阅读理解数据集.
(1) 相比于之前的单轮对话类型数据集(例如完形填空、多项选择、抽取式和生成式等), 多轮会话类型数据集有以下两个优势.
1) 多轮对话形式比单轮问答更符合人类日常语言习惯, 问题和答案类型更为丰富, 不仅可以包含上述的“不可回答问题”和“是否类问题”, 其答案还可以是对段落的抽象与总结;
2) 由于在同一个对话框里, 后面的问题答案与前面的问题答案具有很强的关联性, 例如CoQA中(见
以上两点极大地提高了数据集对模型推理能力的要求, 从而使此类数据集更具有挑战性, 例如, 目前QuAC数据集榜单上性能最好的模型仅达到68.0%
(2) 多跳推理类型数据集的出现, 使MRC任务的难度又提升了一个级别, 模型无法从单一的段落得到问题的答案, 而是需要从多个段落中进行链式推理才能得到正确的答案.该类数据集起到了真正考验模型的推理能力的作用, 截至本文撰写日期, HotpotQA数据集榜单第一的模型(未发表)也只达到了67.92%的Joint
机器阅读理解数据集难度的不断提升, 也推动着神经阅读理解模型的发展.本文选取了27个具有代表性的神经阅读理解模型, 并按时间线顺序进行了归纳对比, 见
神经阅读理解模型对比
Comparison of neural reading comprehension models
名称 | 词向量表示 | 神经网络模型 | 应用场景 | |||||||||||
单词 | 上下文 | 特征 | LSTM | GRU | CNN | Att | Self-Att | 完型 | 多项 | 抽取 | 对话 | 生成 | 多跳 | |
BiDAF[ |
√ | - | √ | √ | - | - | √ | - | √ | √ | √ | - | - | - |
DCN[ |
√ | - | - | √ | - | - | √ | - | - | - | √ | - | - | - |
DrQA[ |
√ | - | √ | √ | - | - | √ | - | - | - | √ | √ | - | - |
FastQA[ |
√ | - | √ | √ | - | - | - | - | - | √ | - | - | - | |
MEMEN[ |
√ | - | √ | √ | √ | - | √ | - | √ | - | √ | - | - | - |
R-Net[ |
√ | - | - | - | √ | - | √ | √ | - | - | √ | - | - | - |
EpiReader[ |
√ | - | - | - | √ | √ | √ | - | √ | - | - | - | - | - |
PhaseCond[ |
√ | - | - | √ | √ | - | √ | √ | - | - | √ | - | - | - |
FusionNet[ |
√ | √ | √ | √ | √ | - | - | - | - | - | √ | - | - | - |
ElimiNet[ |
√ | - | - | - | √ | - | √ | - | - | √ | - | - | - | - |
MRU[ |
√ | - | - | √ | - | - | √ | - | - | √ | √ | - | √ | - |
QANet[ |
√ | - | √ | - | - | √ | √ | √ | - | - | √ | - | - | - |
SAN[ |
√ | - | √ | √ | √ | - | √ | √ | - | - | √ | - | - | - |
GPT[ |
√ | - | √ | - | - | - | √ | √ | √ | √ | √ | - | - | - |
SLQA[ |
√ | √ | √ | √ | - | - | √ | √ | - | - | √ | - | - | - |
Read+Verify[ |
√ | √ | √ | √ | - | - | √ | √ | - | - | √ | - | - | - |
KAR[ |
√ | - | √ | √ | - | - | √ | √ | - | - | √ | - | - | - |
RMR+[ |
√ | √ | √ | √ | - | - | √ | √ | - | - | √ | - | √ | - |
BiDAF++[ |
√ | √ | √ | - | - | √ | √ | - | - | √ | √ | - | - | |
U-Net[ |
√ | √ | √ | √ | - | - | √ | √ | - | - | √ | - | - | - |
BERT[ |
√ | √ | √ | - | - | - | - | √ | √ | √ | √ | √ | √ | √ |
FlowQA[ |
√ | √ | √ | √ | √ | - | √ | √ | - | - | - | √ | - | - |
CSA[ |
√ | √ | √ | √ | - | √ | √ | √ | - | √ | - | - | - | - |
GraphFlow[ |
√ | √ | √ | √ | - | - | √ | √ | - | - | - | √ | - | - |
SDNet[ |
√ | √ | √ | √ | √ | - | √ | √ | - | - | - | √ | - | - |
DFGN[ |
√ | √ | √ | √ | - | - | √ | - | - | - | - | - | - | √ |
QFE[ |
√ | - | - | - | √ | - | √ | √ | - | - | - | - | - | √ |
(1) 所有模型都是原论文中的基本模型;
(2) 应用场景包含了原论文中提到的数据集以及特定数据集发布时使用该模型作为Baseline的场景;
(3) 上下文在这里指的是预训练词向量的上下文嵌入, 不包括网络结构中对问题和文章的上下文编码;
(4) CNN在这里特指架构中使用的神经网络模型, 不包含Char-Level嵌入中使用的CNN.
从
随着CoVe、ELMo等上下文嵌入方法的提出, 研究者们尝试将预训练的上下文嵌入作为输入词表征的一部分, 用以提高词向量的表达能力.通过消融实验(ablation study), 研究者们发现, 使用上下文表征在一定程度上可以提升模型的性能.例如:Huang等人[
在早期, 研究者们主要利用1D CNN模型[
模型的不同词向量表示对性能的改变见
词向量对模型性能的影响(部分)
Effect of word representations on model performance (portion)
模型 | |
GloVe→Fasttext[ |
+1%(SQuAD1.1) |
FusionNet+CoVe[ |
+1.2%(SQuAD1.1) |
SLQA+ELMo[ |
+2.4%(SQuAD1.1) |
Read+Verify+ELMo[ |
+4.5%(SQuAD2.0) |
SDNet-BERT[ |
-7.15%(CoQA) |
BiDAF-Char-Embedding[ |
-2.7%(SQuAD1.1) |
DrQA-em[ |
-1.5%(SQuAD1.1) |
DrQA-feature[ |
-0.8%(SQuAD1.1) |
目前, 几乎所有的神经阅读理解模型的核心部分都是在RNNs、CNN以及注意力机制的基础上构建而成(包括Transformer架构).通过
Seo等人[
BiDAF的双向注意力机制
Bi-attention mechanism in BiDAF model
Xiong等人[
在神经阅读理解模型发展过程中, 另一个重要模型是Wang等人[
R-Net的自注意力机制
Self-attention mechanism in R-Net model
之后, Yu等人[
Parikh等人[
Huang等人[
与会话类数据集相似, 已发表的针对于多跳推理HotpotQA数据集的神经网络模型目前只有少数, 因此本文选取了Leaderboard(distractor setting)上已发表的前两个模型进行分析.Xiao等人[
本文认为:虽然包括ARC、SquAD、CoQA以及HotpotQA等在内的各类数据集榜单纪录不断地被加入BERT架构的神经阅读理解模型所刷新, 但BERT预训练模型仍存在一些缺陷, 例如模型本身的预训练需要喂入海量数据(33亿词量), 同时, 研究者或机构需要具备相当先进的硬件设备条件(谷歌公司使用64个TPU训练了约4天, 之后用1 024块TPU将时间缩短至76分钟[
为了更加清晰地显示每一种模型的创新点以及在数据集上的性能, 本文将其归纳为
模型创新点与性能
The innovation and performance of models
模型 | 创新点 | 性能 | 模型 | 创新点 | 性能 | |
BiDAF[ |
双向注意力机制 | 77.3 |
U-Net[ |
通用节点记录信息 | 72.6 |
|
DCN[ |
HMN模块 | 82.8 |
BERT[ |
预训练模型 | 91.8 |
|
DrQA[ |
Wikipedia知识源 | 79.0 |
ElimiNet[ |
引入排除法 | 44.5 Acc (RACE) | |
DrQA | Wikipedia知识源 | 25.4 EM (TREC) | CSA[ |
空间卷积-池化 | 50.9 Acc (RACE) | |
DrQA | Wikipedia知识源 | 36.5 EM (WikiMov.) | MRU[ |
MRU单元 | 50.4 Acc (RACE) | |
FastQA[ |
轻量级模型 | 77.1 |
MRU | MRU单元 | 19.8 Bleu-4 (Narra.) | |
R-Net[ |
自注意力机制 | 88.2 |
RMR+[ |
重注意力、知识净化 | 27.5 Bleu-4 (Narra.) | |
QANet[ |
CNN+自注意力 | 87.8 |
FlowQA[ |
引入对话流 | 75.0 |
|
SLQA[ |
分层注意力融合 | 82.8 |
GraphFlow[ |
引入图神经网络 | 77.3 |
|
Read+Ver[ |
独立辅助损失函数 | 74.3 |
DFGN[ |
动态融合实体图 | 59.82 |
|
KAR[ |
引入知识库辅助 | 83.5 |
QFE[ |
聚焦提取支持证据 | 59.61 |
从
机器阅读理解是当今计算机自然语言处理领域的核心难点问题, 其解决具有重要的理论意义和良好的应用前景.尽管基于神经网络的机器阅读理解在近几年来发展迅速, 人们在构建各种各样的大规模MRC数据集的同时, 性能更高的神经阅读理解模型也被不断提出, 两者相辅相成, 共同推进着MRC领域的发展, 然而使机器达到真正的人类阅读理解水平, 研究者们还有很长的路要走.本文在第1节详细总结了机器阅读理解的发展历程和任务定义.在第2节归纳介绍了神经阅读理解模型框架以及最新的BERT预训练模型.在第3节归纳了近年来该领域的主流数据集以及神经阅读理解模型, 并详细分析了各自的优点与不足.总的来说, 目前机器阅读理解任务仍处于研究探索阶段, 各方面还存在许多问题与挑战, 诸如:
(1) 模型缺乏深层次的推理能力
早期的数据集中存在的问题仍然没有得到真正的解决, 即使更具挑战性的数据集正在被不断地提出.针对SQuAD1.1数据集, 虽然现有的模型已经获得了超过人类水平的性能, 但仔细研究后发现, 这些模型仍然会犯很多低级的错误, 比如:模型无法理解“BdefeatedA”就是“B won”的意思, 且涉及“比较类”问题就常会出错等等[
(2) 模型的鲁棒性与泛化能力太差
Jia等人[
(3) 对于模型来说, 是表征重要还是架构重要
通过对神经阅读理解模型的归纳分析后我们发现:为了更好地捕捉段落和问题的相似度, 研究者们提出了越来越复杂的注意力机制.这样做确实可以在一定程度上提高模型的性能, 但Devlin等人[
(4) 模型的可解释性太差
现有模型对最后答案的预测并没有提供充分的理论依据, 即目前端到端神经网络的黑盒模型弊端在神经阅读理解模型中仍然存在, 这会降低模型使用者对其的信任程度, 从而难以在例如医学、法律这些敏感领域进行实际应用部署.
因此, 将来的研究工作可以从以下几个方面展开.
(1) 构建更贴近人类自然语言习惯的数据集
提问者进行问题生成时可以脱离已有的段落内容, 避免问题潜在地模仿段落句子结构或重用段落的单词内容, 这样做不仅能增加数据集的难度, 还能使数据集更符合人类问答习惯; 此外, 尽管现有数据集中已有生成式类型(例如NarrativeQA[
(2) 构建兼具速度与性能的模型
现有模型的主要研究点在于如何提高模型在特定数据集上的性能, 而忽视了模型的训练速度, 这会导致一个现象:人们倾向于付出巨额的GPU或TPU资源来训练非常复杂的模型, 以期在性能上有质的突破, 但实际上并未达到预期效果.虽然已有部分模型从加快训练速度的角度考虑来构建模型, 例如FastQA[
(3) 在训练中融入对抗实例, 以提高模型的鲁棒性与泛化能力
未来研究中, 我们需要考虑如何在训练过程中加入对抗实例以提高模型的鲁棒性, 从而使模型在具有噪声的数据集上也能保持一定的性能; 此外, 如何将迁移学习(transfer learning)和多任务学习(multi-task learning)应用到神经网络模型中, 构建跨数据集的高性能模型, 也是未来的研究方向.
(4) 提高模型的可解释性
未来研究中, 我们可以在构建数据集时加入支持证据, 让模型在每一次预测时提供相关证明; 此外, 尝试在构建模型时加入原理生成模块(rationales generating), 让模型在预测答案之前优先给出对应的理由, 也是未来的研究方向.
斯坦福大学陈丹琦博士的博士论文《Neural Reading Comprehension and Beyond》给我们以启发, 在此表示衷心的感谢.
Hermann KM, Kociský T, Grefenstette E, et al. Teaching machines to read and comprehend. In:Proc. of the Neural Information Processing Systems. 2015. 1693-1701.
Lehnert WG. The process of question and answering[Ph.D. Thesis]. Yale University, 1977.
Hinton GE, Osindero S, Teh YW, et al. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7):1527-1554.
Salton G, Mcgill MJ. Introduction to modern information retrieval. In: Proc. of the Introduction to Modern Information Retrieval. 1983.
Kronenfeld DB, Schank RC, Abelson RP, et al. Scripts, plans, goals, and understanding:An inquiry into human knowledge structures. Language, 1978, 54(3).
Berant J, Chou AK, Frostig R, et al. Semantic parsing on freebase from question-answer pairs. In:Proc. of the 2013 Conf. on EMNLP. 2013. 1533-1544.
Hirschman L, Light M, Breck E, et al. Deep read:A reading comprehension system. In:Proc. of the 37th Conf. on ACL. 1999. 325-332.
Caruana R, Niculescu-Mizil A. An empirical comparison of supervised learning algorithms. In: Proc. of the Int'l Conf. on Machine Learning. 2006.
Richardson M, Burges CJC, Renshaw E. MCTest:A challenge dataset for the open-domain machine comprehension of text. In:Proc. of the 2013 Conf. on EMNLP. 2013. 193-203.
Narasimhan K, Barzilay R. Machine comprehension with discourse relations. In:Proc. of the IJCNLP. 2015. 1253-1262.
Sachan M, Dubey KA, Xing EP, et al. Learning answer-entailing structures for machine comprehension. In:Proc. of the IJCNLP. 2015. 239-249.
Wang H, Bansal M, Gimpel K, et al. Machine comprehension with syntax, frames, and semantics. In:Proc. of the IJCNLP. 2015. 700-706.
Rajpurkar P, Zhang J, Lopyrev K, et al. SQuAD:100000+ questions for machine comprehension of text. In:Proc. of the 2016 Conf. on EMNLP. 2016. 2383-2392.
https://arxiv.org/abs/1810.04805]]>
Joshi M, Choi E, Weld DS, et al. TriviaQA:A large scale distantly supervised challenge dataset for reading comprehension. In:Proc. of the 55th Conf. on ACL. 2017. 1601-1611.
Yang Y, Yih W, Meek C, et al. WikiQA:A challenge dataset for open-domain question answering. In:Proc. of the 2015 Conf. on EMNLP. 2015. 2013-2018.
Trischler A, Wang T, Yuan X, et al. NewsQA:A machine comprehension dataset. In:Proc. of the 2nd Workshop on Representation Learning for NLP. 2017. 191-200.
Rajpurkar P, Jia R, Liang P. Know what you don't know:Unanswerable questions for SquAD. In:Proc. of the 56th Conf. on ACL. 2018. 784-789.
https://arxiv.org/pdf/1704.05179.pdf]]>
Welbl J, Liu NF, Gardner M, et al. Crowdsourcing multiple choice science questions. In:Proc. of the Workshop on Noisy User-generated Text (W-NUT). 2017. 94-106.
Clark P, Cowhey I, Etzioni O, et al. Think you have solved question answering? Try ARC, the AI2 reasoning challenge. arXiv: Artificial Intelligence, Springer-Verlag, 2018.
Lai GK, Xie QZ, Liu HX, et al. RACE:Large-scale reading comprehension dataset from examinations. In:Proc. of the 2017 Conf. on EMNLP. 2017. 785-794.
Kembhavi A, Seo M, Schwenk D, et al. Are you smarter than a sixth grader? Textbook question answering for multimodal machine comprehension. In:Proc. of the IEEE Conf. on CVPR. IEEE Computer Society, 2017. 5376-5384.
Ostermann S, Modi A, Roth M, et al. MCScript:A novel dataset for assessing machine comprehension using script knowledge. In:Proc. of the Language Resources and Evaluation. 2018. 3567-3574.
Hill F, Bordes A, Chopra S, et al. The goldilocks principle: Reading children's books with explicit memory representations. In: Proc. of the ICLR. 2016.
Xie Q, Lai G, Dai Z, et al. Large-scale cloze test dataset created by teachers. In:Proc. of the 2018 Conf. on EMNLP. 2018. 2344-2356.
https://arxiv.org/abs/1808.07042]]>
Choi E, He H, Iyyer M, et al. QuAC:Question answering in context. In:Proc. of the 2018 Conf. on EMNLP. 2018. 2174-2184.
Saha A, Pahuja V, Khapra MM, et al. Complex sequential question answering:Towards learning to converse over linked question answer pairs with a knowledge graph. In:Proc. of the AAAI. 2018. 705-713.
Iyyer M, Yih W, Chang M, et al. Search-based neural structured learning for sequential question answering. In:Proc. of the 55th Conf. on ACL. 2017. 1821-1831.
Talmor A, Berant J. The Web as a knowledge-base for answering complex questions. In:Proc. of the NAACL. 2018. 641-651.
Kociský T, Schwarz J, Blunsom P, et al. The NarrativeQA reading comprehension challenge. Trans. of the Association for Computational Linguistics, 2018, 317-328.
Nguyen T, Rosenberg M, Song X, et al. MS MARCO: A human-generated machine reading comprehension dataset. In: Proc. of the 31st Conf. on NIPS. 2017.
Yang Z, Qi P, Zhang S, et al. HotpotQA:A dataset for diverse, explainable multi-hop question answering. In:Proc. of the 2018 Conf. on EMNLP. 2018. 2369-2380.
Cui Y, Liu T, Chen Z, et al. Consensus attention-based neural networks for Chinese reading comprehension. In:Proc. of the 26th COLING. 2016. 1777-1786.
He W, Liu K, Liu J, et al. DuReader:A Chinese machine reading comprehension dataset from real-world applications. In:Proc. of the Workshop on Machine Reading for Question Answering. 2017. 37-46.
Sukhbaatar S, Szlam A, Weston J, et al. End-to-end memory networks. In:Proc. of the 29th Conf. on NIPS. 2015. 2440-2448.
Wang S, Jiang J. Machine comprehension using match-LSTM and answer pointer. In: Proc. of the ICLR. 2017.
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In:Proc. of the 31st Conf. on NIPS. 2017. 5998-6008.
Papineni K, Roukos S, Ward T, et al. Bleu:A method for automatic evaluation of machine translation. In:Proc. of the 40th Conf. on ACL. 2002. 311-318.
Lin C. ROUGE:A package for automatic evaluation of summaries. In:Proc. of the 42th Conf. on ACL. 2004. 74-81.
Denkowski MJ, Lavie A. Meteor 1.3:Automatic metric for reliable optimization and evaluation of machine translation systems. In:Proc. of the Workshop on Statistical Machine Translation. 2011. 85-91.
http://matt-gardner.github.io/paper-thoughts/2016/12/08/reading-comprehension-survey.html]]>
Arivuchelvan KM, Lakahmi K. Reading comprehension system-A review. Indian Journal of Science, 2017, 14(1):83-90.
Lai TM, Bui T, Li S, et al. A review on deep learning techniques applied to answer selection. In:Proc. of the 27th COLING. 2018. 2132-2144.
https://arxiv.org/pdf/1810.06683.pdf]]>
Seo MJ, Kembhavi A, Farhadi A, et al. Bidirectional attention flow for machine comprehension. In: Proc. of the ICLR. 2017.
Kim Y. Convolutional neural networks for sentence classification. In:Proc. of the 2014 Conf. on EMNLP. 2014. 1746-1751.
Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. Journal of Machine Learning Research, 2003, 3(6):1137-1155.
https://arxiv.org/abs/1301.3781]]>
Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality. In:Proc. of the 27th Conf. on NIPS. 2013. 3111-3119.
Pennington J, Socher R, Manning CD. GloVe:GlobalVectors for word representation. In:Proc. of the 2014 Conf. on EMNLP. 2014. 1532-1543.
Bojanowski P, Grave E, Joulin A, et al. Enriching word vectors with subword information. Trans. of the Association for Computational Linguistics, 2017, 5:135-146.
Lai S, Liu K, He S, et al. How to generate a good word embedding. IEEE Intelligent Systems, 2016, 31(6):5-14.
https://arxiv.org/abs/1801.09536]]>
Artetxe M, Labaka G, Lopezgazpio I, et al. Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation. In:Proc. of the Conf. on CoNLL. 2018. 282-291.
Zhao JQ, Gui XL. Deep convolution neural networks for twitter sentiment analysis. IEEE Access, 2018, 6:23253-23260.
Naili M, Chaibi AH, Ben Ghezala HH. Comparative study of word embedding methods in topic segmentation. Procedia Computer Science, 2017, 112:340-349.
Mccann B, Bradbury J, Xiong C, et al. Learned in translation:Contextualized word vectors. In:Proc. of the 31st Conf. on NIPS. 2017. 6294-6305.
Peters ME, Neumann M, Iyyer M, et al. Deep contextualized word representations. In:Proc. of the NAACL-HLT. 2018. 2227-2237.
Wu HC, Luk RW, Wong K, et al. Interpreting TF-IDF term weights as making relevance decisions. ACM Trans. on Information Systems, 2008, 26(3).
http://export.arxiv.org/abs/1804.09541v1]]>
Williams RJ, Zipser D. A learning algorithm for continually running fully recurrent neural networks. Neural Computation, 1989, 1(2):270-280.
Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8):1735-1780.
Cho K, Van Merrienboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In:Proc. of the 2014 Conf. on EMNLP. 2014. 1724-1734.
Lecun Y, Bengio Y. Convolutional networks for images, speech, and time series. In: The Handbook of Brain Theory and Neural Networks. MIT Press, 1998.
Cui Y, Chen Z, Wei S, et al. Attention-over-attention neural networks for reading comprehension. In:Proc. of the 55th Conf. on ACL. 2017. 593-602.
Zhang X, Zhao JJ, Lecun Y, et al. Character-level convolutional networks for text classification. In:Proc. of the 29th Conf. on NIPS. 2015. 649-657.
Sutskever I, Vinyals O, Le QV, et al. Sequence to sequence learning with neural networks. In:Proc. of the 28th Conf. on NIPS. 2014. 3104-3112.
Luong T, Pham H, Manning CD, et al. Effective approaches to attention-based neural machine translation. In:Proc. of the 2015 Conf. on EMNLP. 2015. 1412-1421.
Bahdanau D, Cho K, Bengio Y, et al. Neural machine translation by jointly learning to align and translate. In: Proc. of the ICLR. 2015.
Rocktaschel T, Grefenstette E, Hermann KM, et al. Reasoning about entailment with neural attention. In: Proc. of the ICLR. 2016.
Rush AM, Chopra S, Weston J, et al. A neural attention model for abstractive sentence summarization. In:Proc. of the 2015 Conf. on EMNLP. 2015. 379-389.
Yin W, Schutze H, Xiang B, et al. ABCNN:Attention-based convolutional neural network for modeling sentence pairs. Trans. of the Association for Computational Linguistics, 2016, 4(1):259-272.
Wang WH, Yang N, Wei FR, et al. Gated selfmatching networks for reading comprehension and question answering. In:Proc. of the 55th Conf. on ACL. 2017. 189-198.
https://arxiv.org/abs/1810.06638]]>
Vinyals O, Fortunato M, Jaitly N, et al. Pointer networks. In:Proc. of the 29th Conf. on NIPS. 2015. 2692-2700.
Chen D, Fisch A, Weston J, et al. Reading Wikipedia to answer open-domain questions. In:Proc. of the 55th Conf. on ACL. 2017. 1870-1879.
https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf]]>
Zhu Y, Kiros R, Zemel RS, et al. Aligning books and movies:Towards story-like visual explanations by watching movies and reading books. In:Proc. of the IEEE ICCV. 2015. 19-27.
https://arxiv.org/abs/1610.10099]]>
Taylor WL. "Cloze procedure":A new tool for measuring readability. Journalism Bulletin, 1953, 30(4):415-433.
Bollacker K, Evans C, Paritosh P, et al. Freebase:A collaboratively created graph database for structuring human knowledge. In:Proc. of the Int'l Conf. on Management of Data. 2008. 1247-1250.
https://arxiv.org/abs/1506.02075]]>
Fader A, Zettlemoyer LS, Etzioni O, et al. Open question answering over curated and extracted knowledge bases. In:Proc. of the Knowledge Discovery and Data Mining. 2014. 1156-1165.
Brill ED, Dumais ST, Banko M, et al. An analysis of the AskMSR question-answering system. In:Proc. of the 2002 Conf. on EMNLP. 2002. 257-264.
Ferrucci DA, Brown EW, Chucarroll J, et al. Building Watson:An overview of the DeepQA project. AI Magazine, 2010, 31(3):59-79.
Baudis P, Sedivý J. Modeling of the question answering task in the YodaQA system. In:Proc. of the Cross Language Evaluation Forum. 2015. 222-228.
Berant J, Chou AK, Frostig R, et al. Semantic parsing on freebase from question-answer pairs. In:Proc. of the 2013 Conf. on EMNLP. 2013. 1533-1544.
Miller AH, Fisch A, Dodge J, et al. Key-value memory networks for directly reading documents. In:Proc. of the 2016 Conf. on EMNLP. 2016. 1400-1409.
Riloff E, Thelen M. A rule-based question answering system for reading comprehension tests. In:Proc. of the Workshop on Reading Comprehension (NAACL/ANLP 2000). 2000. 13-19.
Mason WA, Suri S. Conducting behavioral research on Amazon's mechanical Turk. Behavior Research Methods, 2012, 44(1):1-23.
Gaikwad S, Morina D, Nistala R, et al. Daemo:A self-governed crowdsourcing marketplace. In:Proc. of the 28th ACM UIST. 2015. 101-102.
Miller AH, Feng W, Batra D, et al. ParlAI:A dialog research software platform. In:Proc. of the 2017 Conf. on EMNLP. 2017. 79-84.
Svore KM, Vanderwende L, Burges CJ, et al. Enhancing single-document summarization by combining RankNet and third-party sources. In:Proc. of the 2007 Conf. on EMNLP. 2007. 448-457.
Woodsend K, Lapata M. Automatic generation of story highlights. In:Proc. of the 48th Conf. on ACL. 2010. 565-574.
Clark P, Etzioni O, Khot T, et al. Combining retrieval, statistics, and inference to answer elementary science questions. In:Proc. of the AAAI. 2016. 2580-2586.
Schoenick C, Clark P, Tafjord O, et al. Moving beyond the turing test with the Allen AI science challenge. Communications of the ACM, 2017, 60(9):60-64.
Zhang JP, Chapman WW, Crowley RS. Coreference resolution:A review of general methodologies and applications in the clinical domain. Journal of Biomedical Informatics, 2011, 44(6):1113-1122.
Xiong C, Zhong V, Socher R, et al. Dynamic coattention networks for question answering. In: Proc. of the ICLR. 2017.
Weissenborn D, Wiese G, Seiffe L, et al. Making neural QA as simple as possible but not simpler. In:Proc. of the Conf. on CoNLL. 2017. 271-280.
https://arxiv.org/pdf/1707.09098.pdf]]>
Trischler A, Ye Z, Yuan X, et al. Natural language comprehension with the EpiReader. In:Proc. of the 2016 Conf. on EMNLP. 2016. 128-137.
https://arxiv.org/pdf/1710.10504.pdf]]>
Huang H, Zhu C, Shen Y, et al. FusionNet: Fusing via fully-aware attention with application to machine comprehension. In: Proc. of the ICLR. 2018.
Parikh S, Sai AB, Nema P, et al. ElimiNet:A model for eliminating options for reading comprehension with multiple choice questions. In:Proc. of the Int'l Joint Conf. on Artificial Intelligence (IJCAI). 2018. 4272-4278.
https://arxiv.org/abs/1803.09074v1]]>
Liu X, Shen Y, Duh K, et al. Stochastic answer networks for machine reading comprehension. In:Proc. of the 56th Conf. on ACL. 2018. 1694-1704.
https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf]]>
Wang W, Yan M, Wu C, et al. Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering. In:Proc. of the 56th Conf. on ACL. 2018. 1705-1714.
https://arxiv.org/pdf/1808.05759.pdf]]>
https://arxiv.org/pdf/1809.03449.pdf]]>
Hu M, Peng Y, Huang Z, et al. Attention-guided answer distillation for machine reading comprehension. In:Proc. of the 2018 Conf. on EMNLP. 2018. 2077-2086.
https://arxiv.org/pdf/1809.10735.pdf]]>
Chen Z, Cui Y, Ma W, et al. Convolutional spatial attention model for reading comprehension with multiple-choice questions. In: Proc. of the National Conf. on Artificial Intelligence. 2019.
https://graphreason.github.io/papers/13.pdf]]>
https://arxiv.org/pdf/1812.03593.pdf]]>
https://arxiv.org/abs/1905.06933]]>
https://arxiv.org/abs/1905.08511]]>
Chen D, Bolton J, Manning CD, et al. A thorough examination of the CNN/daily mail reading comprehension task. In:Proc. of the 54th Conf. on ACL. 2016. 2358-2367.
Weston J, Chopra S, Bordes A, et al. Memory networks. In: Proc. of the ICLR. 2015.
Bahdanau D, Cho K, Bengio Y, et al. Neural machine translation by jointly learning to align and translate. In: Proc. of the ICLR. 2015.
Kadlec R, Schmid M, Bajgar O, et al. Text understanding with the attention sum reader network. In: Proc. of the 54th Conf. on ACL. 908-918.
Xiong C, Merity S, Socher R, et al. Dynamic memory networks for visual and textual question answering. In:Proc. of the Int'l Conf. on Machine Learning. 2016. 2397-2406.
Goodfellow IJ, Wardefarley D, Mirza M, et al. Maxout networks. ICML, 2013, 28(3):1319-1327.
Srivastava RK, Greff K, Schmidhuber J, et al. Training very deep networks. In:Proc. of the 29th Conf. on NIPS. 2015. 2377-2385.
Hu M, Peng Y, Huang Z, et al. Reinforced mnemonic reader for machine reading comprehension. In:Proc. of the Int'l Joint Conf. on Artificial Intelligence (IJCAI). 2018. 4099-4106.
https://arxiv.org/abs/1904.00962]]>
https://cs.stanford.edu/~danqi/papers/thesis.pdf]]>
Jia R, Liang P. Adversarial examples for evaluating reading comprehension systems. In:Proc. of the 2017 Conf. on EMNLP. 2017. 2021-2031.