本文由“大数据治理的理论与技术”专题特约编辑杜小勇教授、杨晓春教授和童咏昕教授推荐.
政务数据治理正在经历从“物理数据汇聚”到“逻辑语义汇通”的新阶段. 逻辑语义汇通是指针对各孤岛政务系统因长期“自治”而形成的元数据缺失、元数据同名不同义以及同义不同名等问题, 在不重建或修改原系统代码以及不物理汇聚各政务数据的前提下, 通过技术手段, 统一各孤岛信息系统元数据的语义表达, 实现元数据的语义互联互通. 该工作是将各孤岛信息系统的元数据语义对齐到已有的标准元数据上, 具体地, 将标准元数据名称看作语义标签, 对孤岛关系数据的列投影进行语义识别, 从而建立列名和标准元数据的语义对齐, 实现孤岛元数据标准化治理. 已有基于列投影的语义识别技术无法捕捉到关系数据的列顺序无关性特征以及属性语义标签之间的相关性特征, 针对这一问题, 提出了基于预测阶段和纠错阶段的两阶段模型: 在预测阶段, 提出了共现属性交互的CAI模型(co-occurrence-attribute-interaction model), 利用并行化的自注意力机制保证列顺序无关的共现属性交互; 在纠错阶段, 结合语义标签之间的共现性, 通过引入纠错机制(correction mechanism), 优化CAI模型预测结果. 在政务基准数据和Magellan等多组公开英文数据集上进行了实验, 结果表明, 引入纠错机制的两阶段模型, 在宏平均和加权平均两个指标上, 比已有最优模型最多可分别提高20.03%, 13.36%.
Government data governance is undergoing a new phase of transition from "physical data aggregation" to "logical semantic unification". Thus far, long-term "autonomy" of government information silos, lead to a wide spectrum of metadata curation issues, such as attributes with the same names but having different meanings, or attributes with different names but having the same meanings. Instead of either rebuilding/modifying legacy information systems or physically aggregating data from isolated information systems, logical semantic unification solves this problem by unifying the semantic expression of the metadata in government information silos and achieves the standardized metadata governance. This work semantically aligns the metadata of each government information silo to the existing standard metadata. Specifically, the standard metadata names are viewed as semantic labels, and the semantic meanings of columns of relations in each government information silo are semantically identified, so as to establish the semantic alignment of column names and standard metadata and achieve standardized governance of silo metadata.
从20世纪90年代起, 以“政府部门的业务信息化建设”为中心, 我国启动了各类“金字工程”建设, 包括金税工程、金贸工程、金材工程、金卡工程等. 由于我国国土面积辽阔, 不同区域、不同行业、不同层级、不同业务之间存在较大差异, 难以实现信息化统筹建设. 政务数据被分割存储在不同部门的信息系统中, 无法实现互联互通、互相分享、整合利用, 难以为老百姓提供高效与便捷的公共服务, 造成“信息孤岛”[
打破“信息孤岛”, 目前有两个典型的做法.
1) 物理数据汇聚. 围绕部门信息系统, 由大数据局等机构重构“原业务系统表单”, 用户办理业务填写的表单事项数据, 先汇聚到大数据局, 再流转到原职能部门进行后续的业务处理. 通过重构业务表单事项, 统一规范化事项名称, 从而完成信息孤岛数据治理. “物理汇聚”各孤岛信息系统数据, 在一些省份取得了较好的效果. 但也存在着一些弊端, 例如, 重构业务表单需要重新梳理原业务系统, 涉及大量人工成本和开发成本; 巨量数据物理汇聚到同一个地方, 造成额外管理和运维成本、以及可能存在的数据安全等问题.
2) 逻辑语义汇通. 与物理数据汇聚相反, 逻辑语义汇通不是把孤岛信息系统中的数据物理汇聚到同一地方, 而是通过构建标准标签体系, 梳理各信息系统中的元数据并关联到标准标签体系, 实现孤岛信息系统的元数据标准化治理. 由于无需物理汇聚数据, 也不需要重建或修改原业务系统代码, 逻辑语义汇通是当前政务信息系统元数据标准化治理比较理想的做法. 但该方法对技术要求比较高, 需要构建自动化的元数据到标签映射机制, 可支持政务系统元数据缺失、元数据同名不同义以及同义不同名等问题的解决.
本文聚焦逻辑语义汇通技术, 基于政务服务信息资源的国家标准、地方标准、行业标准构建的元数据标签体系[
对关系数据列投影进行语义识别, 也叫列语义识别, 主要是对关系列进行语义表示, 映射到已知的语义类别. 其中, 关系数据的属性值和上下文信息对关系列的语义识别有着重要作用, 比如, 对于某一列属性值, 包括“腾讯、浙江省某票务公司、字节跳动”等, 那么这一列的语义很大概率和企业相关, 比如“企业名称”“参保单位”“纳税单位”等, 但仅仅依赖单独列的属性值无法准确区分其语义, 事实上, 关系表的上下文信息可以帮助进一步确定列的语义信息. 例如, 对待识别列, SATO模型[
然而, 当前基于关系表上下文的研究中存在的问题有:
● 首先, 忽略了关系数据具有列顺序无关的特性. 如
列顺序交换的两张表
● 其次, 现有研究关于上下文的考虑仅限于利用关系表层面或者关系属性值层面的上下文对单独列进行类别预测, 却忽略了属性语义标签之间的上下文关系.
如
纳税信息表中的“参保日期”预测错误
针对以上问题, 本文提出了基于预测阶段和纠错阶段的两阶段模型构建与优化方法: 首先, 针对关系数据的上下文信息和列顺序无关性特征, 提出了共现属性交互的CAI模型, 利用顺序无关的自注意力(self-attention)机制实现关系数据中待识别属性与共现属性的交互, 以更高效的方式对待识别属性融入关系表级别的上下文信息; 其次, 针对属性语义标签之间的相关性特征, 引入纠错机制, 利用Transformer模型学习到同一关系主题下属性语义标签之间的相关性, 对CAI模型关于单列预测的初步结果进一步优化, 提高对关系表中各个列的最终语义识别效果.
本文的主要贡献有:
(1) 提出了面向列语义识别的两阶段模型(CAI-correction model)构建与优化方法: 在预测阶段, 提出共现属性交互的CAI模型(co-occurrence-attribute-interaction model, CAI), 利用自注意力机制, 让待预测列学习到关系表级别的上下文信息, 在保证关系数据列顺序无关的前提下, 解决对关系列语义预测过程中存在的歧义问题.
(2) 在纠错阶段, 引入基于语义标签共现的纠错机制(correction mechanism), 利用并行化且顺序无关的Transformer模型[
(3) 在政务基准数据集和两个公开英文数据集上进行对比实验, 实验结果表明, CAI-correction模型在宏平均和加权平均上, 比已有最优模型最多可分别提高20.03%, 13.36%.
本文第1节是对研究的问题进行定义. 第2节介绍列语义识别的相关工作以及本文用到的注意力机制. 第3节介绍CAI-Correction模型的整体框架和具体细节. 第4节为实验部分, 将本文提出的模型与基准模型进行实验对比与分析, 验证所提模型的有效性. 最后对全文进行总结.
对于一个表
政务关系表到语义类别的映射
列语义识别是对每一列
本节主要介绍列语义识别的现有工作, 包括基于知识库、基于统计特征和基于深度学习语义表示. 除此之外, 我们还介绍了本文模型构建用到的注意力机制.
Venetis等人[
早期的方法中, 也有利用统计特征表示数据相似度来匹配列的语义类型的做法. Ramnandan等人[
除此之外, 现有许多方法将语义类型检测定义为关于列语义识别的多分类问题, 将语义类型作为标签. 有用的特征对于理解表的语义很重要, Chen等人[
Hulsebos等人[
但Sherlock模型[
随着深度学习技术的发展, 越来越多的工作开始用深度学习模型对关系列进行语义表示, 然后映射到对应的语义类别. 元数据信息, 例如表名、列名和表结构对列内容的理解至关重要, 我们可以基于表的元数据信息和对应真实类别进行相似度匹配. 这个工作类似于知识图谱对齐或实体对齐, 可以同时考虑到实体的名称和结构相似度进行匹配[
Chen等人[
尽管关系表上下文信息的加入可以丰富列的语义表示, 但是关系表不同于一般的文本数据, 是结构化数据, 具有列顺序无关性的特征. 而现有的模型忽略了这个特性, 导致出现列顺序依赖, 交换列的顺序会对模型的预测结果造成较大的干扰.
注意力(attention)机制[
Harris的分布式[
两阶段的列语义识别过程
其中, 预测阶段的CAI模型又分为3个模块.
(1) 线性化属性列编码: 针对结构化的关系数据, 将关系列线性化, 利用预训练模型BERT[
(2) 共现属性列交互模块: 利用关系表内部属性列之间的共现依赖进行交互, 让每一个列向量都可以学习到其共现属性列的信息, 丰富各个列向量的语义信息.
(3) 分类模块: 对融入共现属性列信息的列向量, 再经过多层感知机网络, 利用Softmax函数归一化, 得到输出向量对应每一个语义类别的概率, 从而进行分类.
纠错阶段的Correction模型主要是基于预测阶段中CAI模型对每一个关系列预测得到的类别标签, 进一步考虑类别标签之间的共现性, 在原预测结果上进行优化, 提升模型最终识别效果.
模型整体框架如
模型整体框架
在自然语言理解问题中, 上下文信息可以看作是有助于理解目标词/句子的其他信息. 对于文本数据, 目标词的上下文信息可以看作是同一段落中共同出现的其他词, 而关系数据不同于一般的文本数据, 具有结构性的, 由多个行和列构成, 而每个行或列又是由许多单元格构成, 单元格内部是一些具体的数据. 它们的数据类型有多种, 包括文本、数值、日期等. 事实上, 对于关系表包含的上下文信息, 可以看作是两类.
(1) 列级别的上下文: 属性列的实例值可以看作是属性名称的上下文信息. 表的字段名称可以看作是对属性值的抽象描述, 而表的属性值可以看作是对字段名称的具体描述, 有助于对字段名称的理解; 同时, 这些属性值总是和字段名称共同出现, 于是, 在同一列中, 属性值所表达的语义和字段名称所表达的语义是相近的. 比如, 某字段名称是“GSMC”, 只看属性名, 可能很难理解到其含义; 但实例信息为“腾讯、浙江省某票务公司、字节跳动...”时, 可以猜到这一属性列表达的含义可能是“公司名称”, 也就是“GSMC”表达的含义是公司名称. 由于不同信息系统的关系数据可能存在列名缺失、命名不标准或不一致等问题, 基于这种考虑, 可以利用关系属性值的语义信息得到整列的语义信息, 将其映射到正确的语义类别.
(2) 关系表级别的上下文: 同一关系主题下的共现属性可以看作是待识别列的上下文. 这是由于每一张关系表不是任意列随意组合的, 一张关系表总是具有一定主题信息, 这种主题信息往往通过表名体现出来. 比如
两个关系表下特征相似但语义不同的“纳税单位”和“参保单位”
基于上述关系表不同级别的上下文信息考虑, 我们选择利用关系属性值和共现属性的上下文信息对待识别列进行语义表示, 从而构建模型.
关系数据不同于一般的文本数据, 其是具有结构性的, 由多个行和列构成, 而各个列之间是具有顺序无关性的, 也就是任意交换关系数据的列的位置都不影响整个关系主题的意思表达. 我们希望在不违背关系数据列顺序无关性的前提下, 让待识别属性融入其共现属性的信息.
受到Transformer模型[
接下来, 将具体讨论预测阶段CAI模型的组成. CAI模型主要分为3个部分.
(1) 第1部分, 属性列线性化编码.
在这一部分, 参照CCA模型[
特别地, 由于不同表中的行数不同, 在训练时需对所有表打乱行的顺序, 并设置固定最大行数将每一张关系表拆分成多个同样关系主题的小表, 再对各列按行拼接进行线性化. 对线性化后的文本列, 也设置BERT的最大序列长度, 当线性化的输入列长度超过该值, 模型会对输入序列自动进行截取; 反之, 则会用0填补至最大序列长度, 以保证输入序列的固定长度.
(2) 第2部分, 共现属性交互模块.
本文又称其为Column-Encoder, 用到的自注意力机制来自Transformer模型中Encoder部分的多头自注意力模块, 我们称其为列注意力Column-Self-Attention. 其中, 列注意力层一共3层, 可以更好地实现同一关系主题下的共现属性交互. 在这一部分, 输入是一张
(3) 第3部分, 分类模块.
在这一部分, 我们将最终融入共现属性信息的列向量
我们对第1阶段共现属性交互模型的各个模块进行联合训练, 以实现对模型各参数的联合调整.
属性线性化编码模块和共现属性列交互模块可以分开训练, 也可以联合训练. 为了方便, 在我们的模型中采用联合训练, 两个过程可以对模型参数进行联合微调. 于是, 我们的训练目标如公式(3)所示.
其中,
因此在训练阶段, 根据CAI模型第3部分概率计算模块得到的概率值, 我们采用的损失函数是常见的逻辑交叉熵损失函数, 如公式(4)所示.
现有的研究中, 关于关系数据的上下文大都是从关系表层面进行考虑, 利用关系属性值的语义信息对各个列进行语义预测. 尽管我们前面从关系属性值角度融入了关系表的上下文信息, 但这种做法仍然是基于关系表上下文信息对列进行单独预测, 忽略了同一关系主题下的语义标签之间的共现依赖性. 例如,
前面提到, 各孤岛信息系统对列的命名总是存在不标准、列名缺失或同名不同义的情况, 但是我们在预测阶段通过CAI模型已经初步实现了对各个关系列的语义类别检测, 将关系表的大部分列都可以准确地映射到标准的字段名称. 基于第1阶段的预测结果, 本文进一步结合语义标签之间的共现性, 输出更符合在同一关系表出现的语义标签, 实现对第1阶段模型预测结果的优化, 达到更好的识别效果.
本文将额外搭建一个共现标签交互的纠错模型, 将第1阶段CAI模型预测的不完全正确的标签序列
Transformer模型的Self-Attention机制在表征上下文的共现性上一直表现优秀, 因此在纠错阶段, 我们依然选择可以并行化的且具有顺序无关性的Transformer模型的Encoder模块, 不仅可以学习到语义标签之间的共现性, 还可以提高模型训练效率.
在这一阶段, 纠错模型的输入是第1阶段里CAI模型对每一张关系表的预测标签序列
其中, {
这样, 基于标签共现的纠错模型框架如
纠错阶段模型框架
本节将介绍纠错阶段的训练数据构建方法.
我们将预测阶段训练得到的CAI模型分别在训练集、验证集、测试集上进行测试, 得到关于每一列的预测标签. 由于在预测阶段训练样本数是所有的列总数, 进入模型的是表中的各个列值, 输出的也是每一列对应的概率中top1对应的类别标签, 而在纠错阶段, 模型的输入是对每一个关系表预测的标签看作一条无序的序列输入, 所以纠错阶段的训练样本数等于预测阶段训练集中的关系表数量. 也就是, 如果在预测阶段的训练样本有
对每一条样本, 我们将每一个标签映射到对应的id, 向量化之后, 利用Transformer模型Encoder部分的Self-Attention机制实现标签之间的共现, 每一个输入标签都可以得到对应的输出向量, 进一步分类映射到真实的类别标签.
特别地, 我们的两阶段模型是分开进行训练的; 同时, 我们的工程支持用户对模型最终预测结果进行进一步反馈以更新模型. 于是, 在基于用户的反馈对模型进行更新时, 可以针对更轻量级的第2阶段进行单独的微调. 在未来的工作中, 我们还将进一步研究基于用户反馈的结果对模型进行更新的具体方式.
本文在3个数据集上进行了对比实验.
● 第1个数据集是政务基准数据集, 我们参考了国家发布的自然人、法人的数据元标准规范, 抽取出对应的元数据名称, 通过观察元数据之间的依赖关系, 利用数据生成工具, 自定义地构建了以自然人、法人为中心的政务基准数据集. 对应地, 这些数据集的语义类别就是标准数据元. 在政务基准数据集中不同的关系主题数有31个, 属性类别一共209个.
● 为了验证模型的有效性, 我们额外收集了SIGMOD 2018年发表的用于实体匹配(entity matching, EM)实验研究的数据集[
我们对每个数据集划分为训练集、验证集、测试集, 划分后的各个数据集统计情况见
实验数据集
数据集 | 关系数 | 平均每表列数 | 语义标签数 | 训练集样本数 | 验证集样本数 | 测试集样本数 |
政务基准数据 | 4 733 | 11 | 209 | 22 096 | 17 169 | 12 842 |
EM1 | 7 513 | 7 | 66 | 24 211 | 12 669 | 12 669 |
EM2 | 4 770 | 10 | 74 | 27 212 | 9 141 | 9 141 |
3个数据集的类别样本统计
我们将列的语义识别看作是对每一列的多分类问题, 因此, 选择在多分类问题的宏平均(macro-averaging)、加权平均(weighted-averaging)以及准确率(accuracy)作为评价指标. 宏平均是对所有语义类别分别求出各自的预测准确率, 然后进行平均, 不考虑类别之间的样本分布差异. 因此, 宏平均更能体现模型在小样本上的预测效果. 加权平均则是对宏平均的进一步改进, 考虑了每一个类别的样本数量在总样本数量中的占比.
(1) 宏平均
(2) 加权平均
其中,
(3) 准确率, 在数值上也等于微平均
在实验环境设置上, 我们使用的操作系统为Ubuntu 20.04.3 LTS, CPU型号为Intel(R) Xeon(R) Gold 6138 CPU@2.00 GHz, 以及1个TITAN RTX(24 GB)型号的GPU和11.4版本的CUDA. 同时, 利用PyTorch框架进行了模型搭建, 其中, PyTorch版本为PyTorch 1.9.0+cu102.
在预测阶段的共现属性交互模型训练过程中, 小表的固定最大行数设置为100,
此外, 对于纠错阶段的模型训练, 我们设置Transformer的Encoder模块层数为6, 多头注意力的“头”数为8, 隐藏层维度为512, 设置固定学习率1e−4,
为了验证模型的结果, 我们与几个基准方法进行实验对比.
(1) CCA model[
(2) Sherlock model[
(3) SCA model[
各模型准确率随迭代次数变化示意图
可以发现, 在3个数据集上, 除了Sherlock模型在EM2上一直未收敛以外, 其他各模型都在10个
在3个数据集上, 关于各个模型, 我们在宏平均和加权平均上进行了更详细的比较. 除了几个基准模型和CAI模型以外, 这里也比较了在共现属性交互的基础上引入纠错机制的结果, 验证纠错阶段对列语义识别工作的有效性, 其中, Correction-top1表示第3.3.2节中训练样本只来自预测阶段的top1结果, Correction-top5表示训练样本来自第1阶段的预测结果固定一列从top5中随机选择的结果(见
实验结果(%)
政务基准数据 | EM1 | EM2 | ||||
macro | weighted | macro | weighted | macro | weighted | |
CCA[ |
57.71 | 71.56 | 98.67 | 98.33 | 89.22 | 91.16 |
Sherlock[ |
45.09 | 59.47 | 99.63 | 99.48 | 94.87 | 95.81 |
SCA[ |
78.25 | 86.60 | 99.64 | 99.44 | 95.80 | 97.63 |
CAI | 82.02 | 88.57 | 99.71 | 99.65 | 96.43 | 97.95 |
CAI+Correction-top1 | 96.95 | 99.67 | 99.99 | 99.99 | 99.59 | 98.09 |
CAI+Correction-top5 |
从实验结果可以看出, 考虑共现属性的SCA和CAI模型都表现很好. 比较而言, 在同样考虑关系数据上下文的基础上, CAI模型的列向量之间通过自注意力机制交互的方式比SCA模型效果更好, 在政务基准数据上尤其显著.
对于政务基准数据集, CAI的宏平均和加权平均分别达到了82.02%, 88.57%, 比SCA提高了3.77%, 1.97%, 比CCA模型分别提高了24.31, 17.01%. 在政务基础数据集中, 各模型的宏平均普遍偏低, 具体分析发现: 该数据集存在部分类别的样本数格外不均衡的现象, 比如“公告类型”“变更项目”等属性的样本就非常稀疏, 模型对这些属性的特征学习不够, 导致在政务基准数据集上各个模型的宏平均较差. 另外, 在政务基准数据集中存在大量实例特征相似但是语义不同的属性, 比如“配偶身份证号”“公民身份证号”“育龄妇女身份证号”等, 还有大量日期类型的属性列, 比如“参保日期”“停止参保日期”“出生日期”等等, 对于这些属性, 仅仅依靠单列的属性值信息无法进行区分, 此时, 关系表的上下文信息就显得格外重要. 所以在政务基准数据集中, CCA模型结果不如在两个英文数据集上表现良好. 除此之外, 在政务基准数据集上, 可能由于选择的预训练中文词向量质量不够好, Sherlock模型在政务基准数据集上表现糟糕, 虽然已经收敛, 但宏平均和加权平均仅仅分别达到45.09%, 59.47%.
对比政务基准数据, 各个模型在两个英文数据集中表现都不错, 但CAI模型仍然表现最优. 其中, 对于英文数据集EM1, CAI的宏平均和加权平均分别达到了99.71%, 99.65%, 比SCA模型提高了0.07%, 0.21%, 相差不大; CCA模型在数据集2上也表现不错, 仅仅比考虑关系上下文的SCA模型和CAI模型低了1个百分点左右. 这是因为在数据集2中, 各个列的上下文依赖关系不大, 且关系列之间特征差异大, 仅仅依靠单独列的信息就可以很好地区分. 在英文数据集EM2上, CAI模型表现仍然最好, 宏平均和加权平均分别达到96.43%, 97.95%, 比SCA模型高0.63%, 0.32%, 比Sherlock模型提高1.56%, 2.14%.
尽管CAI模型在对比其他几个基准实验时表现最好, 但是通过结果也可以发现, 不管是训练样本选择top1的结果还是top5的结果, 在CAI模型基础上加入标签共现的纠错阶段, 都可以更加有效地提高对关系列的语义识别效果. 在政务基准数据集上, CAI+Correction-top1可以在宏平均和加权平均分别达到96.95%, 99.67%, 而CAI+Correction-top5在宏平均和加权平均可以分别达到98.28%, 99.96%, 在CAI模型基础上, 进一步分别提升16.26%, 11.39%, 比SCA模型可以分别提高20.03%, 13.36%. 对于两个英文数据集, 在CAI模型基础上, 也还可以进一步提升效果, 尤其在英文数据集EM1上, 宏平均和加权平均甚至可以达到100%; 对于英文数据集EM2, CAI+Correction-top5在宏平均和加权平均达到了99.97%, 99.96%, 比CAI模型分别提高3.54%, 2.01%, 比SCA模型分别提高4.17%, 2.33%.
总结以上对比, 本文提出的两阶段CAI-Correction模型对于关系列语义识别工作具有显著有效性.
逻辑语义汇通是当前政务数据治理的重要环节, 本文通过对孤岛系统关系列的语义识别工作, 实现孤岛元数据标准化治理. 针对现有列语义识别工作的不足, 我们同时结合关系数据层面和类别标签层面的上下文关系, 提出了两阶段的CAI-Correction模型. 该模型基于预训练模型BERT对线性化的关系列进行编码, 并利用顺序无关的自注意力机制实现关系表中共现列之间的交互, 在保证关系表列顺序无关性的基础上, 增强列的语义表示进行预测; 进一步地, 结合标签共现的纠错机制, 实现对模型初步预测结果的优化. 本文算法的优点在于:
(1) 引入了具有关系数据列顺序无关性的共现属性交互, 模型可以学习到关系表的上下文信息, 并且具有更好的鲁棒性.
(2) 引入了基于标签共现的纠错机制, 对CAI模型预测结果进一步优化, 保证列语义识别工作的闭环性, 更加显著地提升模型识别效果.
(3) 充分利用并行化的自注意力机制, 可以提高模型训练效率.
本文在政务基准数据集和两个公开的英文关系数据集上进行了对比与分析, 充分验证了两阶段模型的有效性.
Du XY, Chen YG, Fan J,
杜小勇, 陈跃国, 范举, 等. 数据整理——大数据治理的关键技术. 大数据, 2019, 5(3): 13−22.
Wu XD, Dong BB, Du XZ, Yang W. Data governance technology. Ruan Jian Xue Bao/Journal of Software, 2019, 30(9): 2830−2856 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5854.htm [doi: 10.13328/j.cnki.jos.005854]
吴信东, 董丙冰, 堵新政, 杨威. 数据治理技术. 软件学报, 2019, 30(9): 2830−2856. http://www.jos.org.cn/1000-9825/5854.htm [doi: 10.13328/j.cnki.jos.005854].
Zhang D, Suhara Y, Li JF, Hulsebos M, Demiralp Ç, Tan WC. Sato: Contextual semantic type detection in tables. CoRR abs/1911.06311, 2019.
Ding Y, Guo YH, Lu W, Li HX, Zhang MH, Li H, Pan AQ, Du XY. Context-aware semantic type identification for relational attributes. Journal of Computer Science and Technology, 2021. https://jcst.ict.ac.cn/EN/10.1007/s00000-021-1048-2
Devlin J, Chang MW, Lee K,
Vaswani A, Shazeer N, Parmar N,
Venetis P, Halevy A, Madhavan J, Pasca M, Shen W, Wu F, Miao GX, Wu C. Recovering semantics of tables on the Web. Proc. of the VLDB Endowment, 2011, 4(9): 528−538.
Auer S, Bizer C, Kobilarov G, Lehmann J, Cyganiak R, Ives Z. DBpedia: A nucleus for a Web of open data. In: Proc. of the ISWC. 2007. 722−735.
Bollacker K, Evans C, Paritosh P, Sturge T, Taylor J. Freebase: A collaboratively created graph database for structuring human knowledge. In: Proc. of the SIGMOD. 2008. 1247−1250.
Jiménez-Ruiz E, Hassanzadeh O, Efthymiou V,
Ritze D, Lehmberg O, Bizer C. Matching html tables to DBpedia. In: Proc. of the 5th Int'l Conf. on Web Intelligence, Mining and Semantics. 2015. 1−6.
Efthymiou V, Hassanzadeh O, Rodriguez-Muro M,
Zhang Z. Towards efficient and effective semantic table interpretation. In: Proc. of the Int'l Semantic Web Conf. Springer, 2014. 487−502.
Azzi R, Diallo G, Jiménez-Ruiz E,
Nguyen P, Kertkeidkachorn N, Ichise R,
Ramnandan SK, Mittal A, Knoblock CA, Szekely P. Assigning semantic labels to data sources. In: Proc. of the ESWC. Springer, 2015. 403–417.
Pham M, Alse S, Knoblock CA, Szekely P. Semantic labeling: A domain-independent approach. In: Proc. of the ISWC. Springer, 2016. 446–462.
Chen Z, Jia H, Heflin J,
Hulsebos M, Hu KZ, Bakker MA, Zgraggen E, Satyanarayan A, Kraska T, Demiralp A, Hidalgo C. Sherlock: A deep learning approach to semantic data type detection. In: Proc. of the KDD. 2019. 1500−1508.
Lafferty JD, McCallum A, Pereira FCN. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In: Proc. of the ICML. 2001. 282−289.
Ge C, Gao Y, Miao X,
Ge C, Liu X, Chen L,
Tang X, Zhang J, Chen B,
Chen J, Jiménez-Ruiz E, Horrocks I,
Deng X, Sun H, Lees A,
Hu D. An introductory survey on attention mechanisms in NLP problems. In: Proc. of the SAI Intelligent Systems Conf. Cham: Springer, 2019. 432−448.
Harris ZS. Distributional structure. Word, 1954, 10(2−3): 146−162.
Du L, Gao F, Chen X,
Mudgal S, Li H, Rekatsinas T,
Konda PV. Magellan: Toward Building Entity Matching Management Systems. Proc. of the VLDB Endowment, 2016, 9(12): 1197–1208.
Gokhale C, Das S, Doan AH,
Das S, Paul SGC, Doan AH,
Li S, Zhao Z, Hu RF, Li WS, Liu T, Du XY. Analogical reasoning on Chinese morphological and semantic relations. In: Proc. of the ACL 2018. 2018. 138−143.