2021, 32(3):601-603. DOI: 10.13328/j.cnki.jos.006187 CSTR:
摘要:近年来,支撑人工智能的数据管理与分析技术正成为大数据和人工智能领域研究的热点问题之一.利用和发展数据管理与分析理论技术,为提升人工智能系统全生命周期的效率和有效性提供基础性支撑,必将进一步促进基于大数据的人工智能技术发展与其在更大范围的推广应用.本专刊聚焦在数据管理与人工智能融合发展的过程中,数据库技术对人工智能的优化支撑作用,包括两方面:(1) 传统数据管理分析的理论技术对人工智能的数据和计算过程的优化;(2) 传统数据管理系统设计理念对开发通用且易用型人工智能平台的促进作用.因此,需要利用和发展现有数据库理论,构建形成新的技术和系统经验.专刊重点立足于数据库核心技术,探讨数据管理与分析技术对人工智能研究发展推动作用,特别是数据管理分析的理论技术对人工智能在数据和计算密集环节的优化,以及数据管理系统设计理念与开发经验对构建通用型人工智能平台的促进作用,重点关注数据管理与分析技术对人工智能在数据存储、算法优化、模型管理、模型服务、系统构建等方面的支撑作用. 本专刊公开征文,共收到投稿36篇.论文均通过了形式审查,内容涉及支撑人工智能的数据管理、分析、系统与应用.特约编辑先后邀请了 60多位专家参与审稿工作,每篇投稿至少邀请2位专家进行评审.稿件经初审、复审、NDBC 2020会议宣读和终审共4个阶段,历时6个月,最终有17篇论文入选本专刊.根据主题,这些论文可以分为5组.
2021, 32(3):604-621. DOI: 10.13328/j.cnki.jos.006182 CSTR:
摘要:应用驱动创新,数据库技术就是在支持主流应用的提质降本增效中发展起来的.从OLTP、OLAP到今天的在线机器学习建模无不如此.机器学习是当前人工智能技术落地的主要途径,通过对数据进行建模而提取知识、实现预测分析.从数据管理的视角对机器学习训练过程进行解构和建模,从数据选择、数据存储、数据存取、自动优化和系统实现等方面,综述了数据管理技术的应用及优缺点,在此基础上,提出支持在线机器学习的数据管理技术的若干关键技术挑战.
2021, 32(3):622-635. DOI: 10.13328/j.cnki.jos.006179 CSTR:
摘要:在大量变化着的数据中,数据分析师常常只关心预测结果为特定值的少量数据.然而,利用机器学习模型进行推理的工作流程中,由于机器学习算法库默认数据以单表方式组织,用户必须先通过SQL语句查询出全部数据,即使随后在模型推理过程中会将大量数据丢弃.指出了在这个过程中,如果可以预先从模型中提取信息,就有望能在数据获取阶段快速排除不需要的数据,从而降低数据获取过程中的多表连接代价、进程间通信代价以及模型预测代价,进而加速整个工作流程.以决策树模型为例,首先提出一种预筛选+验证的执行方法对查询过程进行优化,之后给出了从决策树中提取用于预筛选谓词的离线算法,最后在真实数据集上进行测试.实验结果表明,所提出的方法能够对借助决策树模型推理结果对数据进行筛选的应用场景起到较好的加速效果.
2021, 32(3):636-649. DOI: 10.13328/j.cnki.jos.006186 CSTR:
摘要:随着人工智能时代的到来,图嵌入技术被越来越多地用来挖掘图中的信息.然而,现实生活中的图通常很大,因此,分布式图嵌入技术得到了广泛的关注.分布式图嵌入算法面临着两大难点:(1)图嵌入算法多种多样,没有一个通用的框架能够描述大部分的算法;(2)现在的分布式图嵌入算法扩展性不足,当处理大图时性能较低.针对以上两个挑战,首先提出一个通用的分布式图嵌入框架,具体地,将图嵌入算法中的采样流程和训练流程进行解耦,使得框架能够较好地表达多种不同的算法;其次,提出一种基于参数服务器的模型切分嵌入策略,具体地,将模型分别切分到计算节点和参数服务器上,同时使用数据洗牌的操作保证计算节点之间没有模型交互,从而减少了分布式计算中的通信开销.基于参数服务器实现了一种原型系统,并且用充分的实验证明了在不损失精度的前提下,基于模型切分的策略能够比基线系统取得更好的性能.
2021, 32(3):650-668. DOI: 10.13328/j.cnki.jos.006173 CSTR:
摘要:相较于传统的图数据分析方法,图嵌入算法是一种面向图节点的新型图数据分析策略.其旨在通过将图节点向量化表达,进而在节点向量基础上,利用神经网络相关技术,更有效地进行图数据分析或挖掘工作,如在节点分类、链接预测及交通流预测等经典问题上效果显著.虽然研究者们在图嵌入方面已取得了诸多成果,但是面向时序图的节点嵌入问题却未被充分重视.在先前研究工作的基础上,结合信息在时序图中的传播特性,提出一种对时序图节点进行自适应嵌入表达的方法ATGEB (adaptive temporal graph embedding).首先,为了解决不同类型时序图节点活跃程度不同的问题,通过设计一种自适应方式对其活跃时刻进行聚类;而后,在此基础上设计一种游走模型,用以保存节点对之间的时间关系,并将节点游走序列保存在双向多叉树上,进而可以更快速地得到节点时间相关的游走序列;最后,在基于节点游走特性和图拓扑结构的基础上对节点向量进行重要节点采样,以便在尽可能短的时间内训练出满足需求的网络模型.通过充分的实验证明:面向时序图的嵌入策略相较于现流行的嵌入方法,在时序图时序中节点间时序可达性检测以及节点分类等问题上得出了更好的实验效果.
2021, 32(3):669-688. DOI: 10.13328/j.cnki.jos.006174 CSTR:
摘要:排序学习(learning-to-rank,简称LTR)模型在信息检索领域取得了显著成果,而该模型的传统训练方法需要收集大规模文本数据.然而,随着数据隐私保护日渐受到人们重视,从多个数据拥有者(如企业)手中收集数据训练排序学习模型的方式变得不可行.各企业之间数据被迫独立存储,形成了数据孤岛.由于排序模型训练需要使用查询记录、文档等诸多隐私信息,数据孤岛难以融合打通,这制约了排序学习模型的训练.联邦学习能够让多数据拥有方在隐私保护的前提下联合训练模型,是一种打通数据孤岛的新方法.在其启发下,提出了一种新的框架,即面向企业数据孤岛的联邦排序学习,它同时解决了联邦学习场景下排序学习所面临的两大挑战,即交叉特征生成与缺失标签处理.为了应对多方交叉特征的生成问题,使用了一种基于略图(sketch)数据结构与差分隐私的方法,其相比于传统加密方法具有更高的效率,同时还具有隐私性与结果精度的理论保证.为了应对缺失标签问题,提出了一种新的联邦半监督学习方法.最终,通过在公开数据集上的大量实验,验证了所提方法的有效性.
2021, 32(3):689-711. DOI: 10.13328/j.cnki.jos.006176 CSTR:
摘要:为进一步优化推广大数据及人工智能技术,作为数据管理与分析的基础,数据质量问题日益成为相关领域的研究热点.通常情况下,数据采集及记录仪的物理故障或技术缺陷等会导致收集到的数据存在一定的错误,而异常错误会对后续的数据分析以及人工智能过程产生不可小视的影响,因此在数据应用之前,需要对数据进行相应的数据清洗修复.现存的平滑修复方法会导致大量原本正确的数据点过度修复为异常值,而基于约束的顺序依赖方法以及SCREEN方法等也因为约束条件较为单薄而无法对复杂的数据情况进行精确修复.基于最小修复原则,进一步提出了多区间速度约束下的时间序列数据修复方法,并采用动态规划方法来求解最优修复路径.具体来说,提出了多个速度区间来对时序数据进行约束,并根据多速度约束对各数据点形成一系列修复候选点,进而基于动态规划方法从中选取最优修复解.为验证上述方法的可行性和有效性,采用一个人工数据集、两个真实数据集以及一个带有真实错误的数据集在不同的异常率及数据量下对上述方法进行实验.由实验结果可知:相较于其他现存的修复方法,该方法在修复结果及时间开销方面均有着较好的表现.进一步,对多个数据集通过聚类及分类精确率的验证来表明数据质量问题对后续数据分析及人工智能的影响至关重要,本方法可以提升数据分析及人工智能结果的质量.
2021, 32(3):712-725. DOI: 10.13328/j.cnki.jos.006172 CSTR:
摘要:高阶链接预测是当前网络分析研究的热点和难点,一个优秀的高阶链接预测算法不仅可以挖掘出复杂网络中节点间存在的潜在联系,还有助于认识网络结构随时间演化的规律,对于探索未知的网络关系有着重要的作用.大多数传统的链接预测算法仅考虑节点间的结构相似性特征,而忽略高阶结构的特性以及网络变化的信息.提出一种基于Motif聚集系数与时序划分的高阶链接预测模型(MTLP模型),该模型通过提取网络中高阶结构的Motif聚集系数特征和网络结构演变等特征,将其构建成可表示性特征向量,并使用多层感知器网络模型进行训练完成链接预测任务.该模型能够同时结合网络中高阶结构的聚集特征与网络结构演变信息,从而改善预测效果.通过在不同的数据集上进行实验,其结果表明,所提出的MTLP模型具有更好的高阶链接预测性能.
2021, 32(3):726-741. DOI: 10.13328/j.cnki.jos.006170 CSTR:
摘要:时空图建模是分析图形结构系统中各要素空间关系与时间趋势的一个基础工作.传统的时空图建模方法主要基于图中节点与节点关系固定的显式结构进行空间关系挖掘,这严重限制了模型的灵活性.此外,未考虑节点间的时空依赖关系的传统建模方法不能捕获节点间的长时时空趋势.为了克服这些缺陷,研究并提出了一种新的用于时空图建模的图神经网络模型,即面向时空图建模的图小波卷积神经网络模型(graph wavelet convolutional neural network for spatiotemporal graph modeling,简称GWNN-STGM).在GWNN-STGM中设计了一个图小波卷积神经网络层,并在该网络层中设计并引入了自适应邻接矩阵进行节点嵌入学习,使得模型能够在不需要结构先验知识的情况下,从数据集中自动发现隐藏的结构信息.此外,GWNN-STGM还包含了一个堆叠的扩张因果卷积网络层,使模型的感受野能够随着卷积网络层数的增加呈指数增长,从而能够处理长时序列.GWNN-STGM成功将图小波卷积神经网络层和扩张因果卷积网络层两个模块进行有效集成.通过在公共交通网络数据集上实验发现,提出的GWNN-STGM的性能优于其他的基准模型,这表明设计的图小波卷积神经网络模型在从输入数据集中探索时空结构方面具有很大的潜力.
2021, 32(3):742-752. DOI: 10.13328/j.cnki.jos.006178 CSTR:
摘要:由于具有低存储成本、高效检索、低标注成本等方面的优势,无监督的哈希技术已经引起了学术界越来越多的关注,并且已经广泛地应用到大规模数据库检索问题中.先前的无监督方法大部分依靠数据集本身的语义结构作为指导信息,要求在哈希空间中,数据的语义信息能够得到保持,从而完成哈希编码的学习.因此,如何精确地表示语义结构以及哈希编码成为了无监督哈希方法成功的关键.提出一种新的基于自监督学习的策略进行无监督哈希编码学习.具体来讲,首先利用对比学习在目标数据集上对网络进行学习,从而能够构建准确的语义相似性结构;接着,提出一个新的目标损失函数,期望在哈希空间中,数据的局部语义相似性结构能够得到保持,同时,哈希编码的辨识力能够得到提升,提出的网络框架是端到端可训练的;最后,提出的算法在两个大规模图像检索数据集上进行了测试,大量的实验验证了所提出算法的有效性.
2021, 32(3):753-762. DOI: 10.13328/j.cnki.jos.006184 CSTR:
摘要:在自然语言理解和语义表征的研究中,往往需要验证一句文本陈述是否基于给定的事实证据,这就是事实检测任务.现有的研究主要局限于处理文本事实验证,而结构化证据下的验证还有待探索,比如基于表格等形式的事实验证.TabFact作为最新的基于表格的事实验证数据集,基线方法并没有很好地利用表格的结构性特征.结合表格的结构特征,设计了以行、单元格为单位的基于图神经网络的事实验证模型Row-GVM和Cell-GVM,比基线模型的准确率分别提高了2.62%和2.77%.实验结果表明,这两种利用了表格特征的方法确实是有效的.
2021, 32(3):763-780. DOI: 10.13328/j.cnki.jos.006180 CSTR:
摘要:随着大数据应用的不断深入,对大规模结构化/非结构化数据进行融合管理和分析的需求日益凸显.然而,结构化/非结构化数据在存储管理方式、信息获取方式、检索方式方面的差异给融合管理和分析带来了技术挑战.提出了适用于异构数据融合管理和语义计算的属性图扩展模型,并定义了相关属性操作符和查询语法.接着,基于智能属性图模型提出异构数据智能融合管理系统PandaDB,并详细介绍了PandaDB的总体架构、存储机制、查询机制、属性协存和AI算法集成机制.性能测试和应用案例证明,PandaDB的协存机制、分布式架构和语义索引机制对大规模异构数据的即席查询和分析具有较好的性能表现,该系统可实际应用于学术图谱实体消歧与可视化等融合数据管理场景.
2021, 32(3):781-804. DOI: 10.13328/j.cnki.jos.006181 CSTR:
摘要:知识图谱是人工智能的重要基石,其目前主要有RDF图和属性图两种数据模型,在这两种数据模型之上有数种查询语言.RDF图上的查询语言为SPARQL,属性图上的查询语言主要为Cypher.10年来,各个社区开发了分别针对RDF图和属性图的不同数据管理方法,不统一的数据模型和查询语言限制了知识图谱的更广泛应用.KGDB(knowledge graph database)是统一模型和语言的知识图谱数据库管理系统:(1)以关系模型为基础,提出了统一的存储方案,支持RDF图和属性图的高效存储,满足知识图谱数据存储和查询负载的需求;(2)使用基于特征集的聚类方法解决无类型实体的存储问题;(3)实现了SPARQL和Cypher两种不同知识图谱查询语言的互操作性,使其能够操作同一个知识图谱.在真实数据集与合成数据集上进行的大量实验表明:KGDB与已有的知识图谱数据库管理系统相比,不仅能够提供更加高效的存储管理,而且具有更高的查询效率.KGDB平均比gStore和Neo4j节省了30%的存储空间,基本图模式查询上的实验表明:在真实数据集上的查询速度普遍高于gStore和Neo4j,最快可提高2个数量级.
2021, 32(3):805-817. DOI: 10.13328/j.cnki.jos.006171 CSTR:
摘要:近年来,随着以数据为中心的应用大量增加,图数据模型逐渐被人们所关注,图数据库的发展也非常迅速,对于用户而言,往往更关心其在使用数据库过程中的效率问题.主要研究如何利用已有的信息进行图数据库的查询预测,从而进行数据的预加载与缓存,提高系统的响应效率.为了使得方法具有跨数据移植性,并深入挖掘数据间的联系,将SparQL查询提取为序列的形式,使用Seq2Seq模型对其进行数据分析和预测,并使用真实的数据集对方法进行测试,实验结果表明,本方案具有良好的效果.
2021, 32(3):818-830. DOI: 10.13328/j.cnki.jos.006185 CSTR:
摘要:知识追踪任务旨在根据学生历史学习行为实时追踪学生知识水平变化,并且预测学生在未来学习表现.在学生学习过程中,学习行为与遗忘行为相互交织,学生的遗忘行为对知识追踪影响很大.为了准确建模知识追踪中学习与遗忘行为,提出一种兼顾学习与遗忘行为的深度知识追踪模型LFKT (learning and forgetting behavior modeling for knowledge tracing).LFKT模型综合考虑了4个影响知识遗忘因素,包括学生重复学习知识点的间隔时间、重复学习知识点的次数、顺序学习间隔时间以及学生对于知识点的掌握程度.结合遗忘因素,LFKT采用深度神经网络,利用学生答题结果作为知识追踪过程中知识掌握程度的间接反馈,建模融合学习与遗忘行为的知识追踪模型.通过在真实在线教育数据集上的实验,与当前知识追踪模型相比,LFKT可以更好地追踪学生知识掌握状态,并具有较好的预测性能.
2021, 32(3):831-844. DOI: 10.13328/j.cnki.jos.006183 CSTR:
摘要:校园公共区域人流量预测对于维护校园安全、提升校园管理水平有重大意义.尤其在疫情防控下,高校复学对公共区域的人流量预测和控制提出了更高的要求.以高校食堂为例,通过预测就餐人数,有助于食堂防疫人员合理调度和安排,既降低了人群聚集的潜在风险,也可以针对食堂人流量分布情况提供分时分批服务.然而,由于校园管理需求,如节假日和教学安排等因素,使得校园公共区域人流量预测问题颇具挑战性.为此,提出一种基于深度学习的多尺度时序卷积网络MSCNN (multi-scale temporal patterns convolution neural networks),实现人流量时序数据中短时依赖、长时周期模式的获取和多尺度时序模式特征的重标定,以对任意时段人流量进行预测.通过在真实校园环境数据集以及公开数据集上的实验,验证了MSCNN模型的有效性和执行效率.
2021, 32(3):845-858. DOI: 10.13328/j.cnki.jos.006177 CSTR:
摘要:数据库是一种非常重要和基础的计算机系统软件,随着数据库在各行各业的广泛应用,越来越多的人开始关注数据库运行的稳定性.由于各种各样内部或是外部作用的影响,数据库在实际运行的过程中会出现性能异常,而这可能会带来巨大的经济损失.人们大多通过观察监控指标信息来进行数据库异常诊断,但是关于数据库监控指标有数百个,普通的数据库使用者根本无法提取出有价值的信息.一些传统的公司会聘用专业的人员管理数据库,而这种成本会是很多公司难以接受的.因此,如何用较低的成本完成对数据库的自动监控和诊断是具有挑战性的问题.现有的OLTP数据库自动异常诊断方法往往存在着监控信息收集成本过高、适用范围小抑或是稳定性较差等问题.提出了一种智能的数据库异常诊断框架AutoMonitor,提供了数据库异常监测、异常指标提取和根因分析这3个模块,这3个模块分别使用了基于LSTM的时间序列异常诊断模型、Kolmogorov-Smirnov检验、和优化的K近邻算法.整个框架分成离线训练和在线诊断这两个阶段.将提出的系统部署在PostgreSQL数据库,通过实验表明该框架对于异常诊断具有较高的精确程度,并且不会对系统性能造成太大的影响.
2021, 32(3):859-885. DOI: 10.13328/j.cnki.jos.006175 CSTR:
摘要:GPU以其超高速计算能力和超大数据处理带宽受到数据库厂商及研究人员的青睐,以GPU计算为核心的数据库分支(GDBMS)蓬勃发展,以其吞吐量大、响应时间短、成本低廉、易于扩展的特点,与人工智能、时空数据分析、数据可视化、商务智能交互融合能力,彻底改变了数据分析领域的格局.将对GDBMS的四大核心组件——查询编译器、查询处理器、查询优化器和存储管理器进行综述,希望促进未来的GDBMS研究和商业应用.