• 2020年第31卷第3期文章目次
    全 选
    显示方式: |
    • >专刊文章
    • 人工智能赋能的数据管理、分析与系统专刊前言

      2020, 31(3):597-599. DOI: 10.13328/j.cnki.jos.005915 CSTR:

      摘要 (3068) HTML (1817) PDF 391.24 K (5308) 评论 (0) 收藏

      摘要:大数据时代,数据规模庞大,数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.专刊强调数据管理与人工智能的深度融合,研究人工智能赋能的数据库新技术和新型系统,包括两方面:(1) 传统数据管理、数据分析技术及系统与人工智能相结合,将会焕发新的生机;(2) 大数据管理与分析是新一代人工智能技术发展的基石.因此,围绕传统数据管理的不同技术层面,需要新的理论和系统经验.专刊重点围绕数据库核心技术,探讨数据管理与人工智能的深度融合,探讨在人工智能大潮下,传统数据管理技术、数据分析技术与数据库系统受到的影响、契机与应对策略,通过数据管理与人工智能融合,重点关注人工智能赋能新技术对传统数据采集、数据存储、索引、查询、统计分析以及数据管理系统的促进和提升. 本专刊公开征文,共收到投稿37篇.论文均通过了形式审查,内容涉及人工智能赋能的数据管理、分析与系统.特约编辑先后邀请了 60多位专家参与审稿工作,每篇投稿至少邀请2位专家进行评审.稿件经初审、复审、NDBC 2019会议宣读和终审4个阶段,历时6个月,最终有18篇论文入选本专刊.根据主题,这些论文可以分为5组.

    • >综述文章
    • 人工智能赋能的数据管理技术研究

      2020, 31(3):600-619. DOI: 10.13328/j.cnki.jos.005909 CSTR:

      摘要 (6538) HTML (4877) PDF 1.96 M (10789) 评论 (0) 收藏

      摘要:大数据时代,数据规模庞大、数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.人工智能赋能的数据库系统通过对数据分布、查询负载、性能表现等特征进行建模和学习,自动地进行查询负载预测、数据库配置参数调优、数据分区、索引维护、查询优化、查询调度等,以不断提高数据库针对特定硬件、数据和负载的性能.同时,一些机器学习模型可以替代数据库系统中的部分组件,有效减少开销,如学习型索引结构等.分析了人工智能赋能的数据管理新技术的研究进展,总结了现有方法的问题和解决思路,并对未来研究方向进行了展望.

    • >专刊文章
    • 基于中间层的可扩展学习索引技术

      2020, 31(3):620-633. DOI: 10.13328/j.cnki.jos.005910 CSTR:

      摘要 (3938) HTML (3106) PDF 1.57 M (6120) 评论 (0) 收藏

      摘要:在大数据与云计算时代,数据访问速度是衡量大规模存储系统性能的一个重要指标.因此,如何设计一种轻量、高效的数据索引结构,从而满足系统高吞吐率、低内存占用的需求,是当前数据库领域的研究热点之一.Kraska等人提出使用机器学习模型代替传统的B树索引,并在真实数据集上取得了不错的效果,但其提出的模型假设工作负载是静态的、只读的,对于索引更新问题没有提出很好的解决办法.提出了基于中间层的可扩展的学习索引模型Dabble,用来解决索引更新引发的模型重训练问题.首先,Dabble模型利用K-Means聚类算法将数据集划分为K个区域,并训练K个神经网络分别学习不同区域的数据分布.在模型训练阶段,创新性地把数据的访问热点信息融入到神经网络中,从而提高模型对热点数据的预测精度.在数据插入时,借鉴了LSM树延迟更新的思想,提高了数据写入速度.在索引更新阶段,提出一种基于中间层的机制将模型解耦,从而缓解由于数据插入带来的模型更新问题.分别在Lognormal数据集以及Weblogs数据集上进行实验验证,结果表明,与当前先进的方法相比,Dabble模型在查询以及索引更新方面都取得了非常好的效果.

    • 面向关系数据库的智能索引调优方法

      2020, 31(3):634-647. DOI: 10.13328/j.cnki.jos.005906 CSTR:

      摘要 (3315) HTML (3040) PDF 2.15 M (6982) 评论 (0) 收藏

      摘要:数据库索引是关系数据库系统实现快速查询的有效方式之一.智能索引调优技术可以有效地对数据库实例进行索引调节,从而保持数据库高效的查询性能.现有的方法大多利用了数据库实例的查询日志,它们先从查询日志中得到候选索引,再利用人工设计的模型选择索引,从而调节索引.然而,从查询日志中产生出的候选索引可能并未实际存在于数据库实例中,因此导致这些方法不能有效地估计这类索引对于查询的优化效果.首先,设计并实现了一种面向关系数据库的智能索引调优系统;其次,提出了一种利用机器学习方法来构造索引的量化模型,根据该模型,可以准确地对索引的查询优化效果进行估计;接着设计了一种高效的最优索引选择算法,实现快速地从候选索引空间中选择满足给定大小约束的最优的索引组合;最后,通过实验测试不同场景下智能索引调优系统的调优性能.实验结果表明,所提出的技术可以在不同的场景下有效地对索引进行优化,从而实现数据库系统查询性能的提升.

    • 基于时空相关属性模型的公交到站时间预测算法

      2020, 31(3):648-662. DOI: 10.13328/j.cnki.jos.005901 CSTR:

      摘要 (3120) HTML (3141) PDF 1.72 M (6168) 评论 (0) 收藏

      摘要:公交车辆到站时间的预测是公交调度辅助决策系统的重要依据,可帮助调度员及时发现晚点车辆,并做出合理的调度决策.然而,公交到站时间受交通拥堵、天气、站点停留和站间行驶时长不固定等因素的影响,是一个时空依赖环境下的预测问题,颇具挑战性.提出一种基于深度神经网络的公交到站时间预测算法STPM,算法采用时空组件、属性组件和融合组件预测公交车辆从起点站到终点站的总时长.其中,利用时空组件学习事物的时间依赖性与空间相关性.利用属性组件学习事物外部因素的影响.利用融合组件融合时空组件与属性组件的输出,预测最终结果.实验结果表明,STPM能够很好地结合卷积神经网络与循环神经网络模型的优势,学习关键的时间特征与空间特征,在公交到站时间预测的误差百分比和准确率上的表现均优于已有的预测方法.

    • 面向数据特征的内存跳表优化技术

      2020, 31(3):663-679. DOI: 10.13328/j.cnki.jos.005902 CSTR:

      摘要 (2628) HTML (3036) PDF 2.01 M (5078) 评论 (0) 收藏

      摘要:跳表作为数据库中被广泛采用的索引技术,优点在于可以达到类似折半查找的复杂度O(log(n)).但是标准跳表算法中,结点的层数是通过随机算法生成的,这就导致跳表的性能是不稳定的.在极端情况下,查找复杂度会退化到On).这是因为经典跳表结构没有结合数据的特征.一个稳定的跳表结构应该充分考虑数据的分布特征去决定结点层数.基于核密度估计的方式估计数据累积分布函数,预测数据在跳表中的位置,进而设计用于判定结点层数的跳表算法.另外,跳表的查找过程中,结点层数越大的结点被访问的概率越高.针对历史数据的访问频次,设计一种保证频繁访问的"热"数据尽可能地在跳表的上层,而访问较少的"冷"数据在跳表的下层的跳表算法.最后,基于合成数据和真实数据对标准跳表和5种改进的跳表算法进行了全面的实验评估并开源代码.实验结果表明,优化的跳表最高可以获取60%的性能提升.这为未来的科研工作者和系统开发人员指出了一个很好的方向.

    • 面向区块链的高效物化视图维护和可信查询

      2020, 31(3):680-694. DOI: 10.13328/j.cnki.jos.005914 CSTR:

      摘要 (3343) HTML (3070) PDF 1.72 M (6009) 评论 (0) 收藏

      摘要:区块链具有去中心化、不可篡改和可追溯等特性,可应用于金融、物流等诸多行业.由于所有交易数据按照交易时间顺序存储在各个区块,相同类型的交易数据通常会散布在诸多区块之中,降低了面向历史区块的追溯查询的处理效率.索引构建和物化视图是提升查询性能的两种典型方法,但当待处理数据分布于多个区块时,使用索引无法改善I/O访问效率,而物化视图可有效应对这个问题.然而,由于区块链系统的特点明显区别于关系数据库,传统的面向关系数据库的物化视图技术无法被直接应用到区块链之中.鉴于此,首次提出一种面向区块链的高效物化视图机制,具有如下特征:(1)将视图维护操作与共识过程同时执行,降低该操作对系统性能的影响;(2)使用字典树加快以区块为单位的多物化视图维护进程;(3)以默克尔验证的方式确保物化结果不被恶意篡改,进而确保查询结果可信.所提出的物化视图维护机制已经被集成到一个区块链系统中,并通过实验来验证该机制的高效性.

    • 时间约束的实体解析中记录对排序研究

      2020, 31(3):695-709. DOI: 10.13328/j.cnki.jos.005900 CSTR:

      摘要 (3039) HTML (2562) PDF 1.46 M (5173) 评论 (0) 收藏

      摘要:实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤.传统的批处理式实体解析的整体运行时间较长,无法满足当前(近似)实时的数据应用需求.因此,研究时间约束的实体解析,其核心问题是基于匹配可能性的记录对排序.通过对多路分块得到的块内信息与块间信息分别进行分析,提出两个基本的记录匹配可能性计算方法.在此基础上,提出一种基于二分图上相似性传播的记录匹配可能性计算方法.将记录对、块及其关联关系构建二分图;相似性沿着二分图不断地在记录对结点与块结点之间传播,直到收敛.收敛结果可以通过不动点计算得到.提出近似的收敛计算方法来降低计算代价,从而保证实体解析的实时召回率.最后,在两个数据集上进行实验评价,验证了所提出方法的有效性,并测试方法的各个方面.

    • 面向多维稀疏数据仓库的欺诈销售行为挖掘

      2020, 31(3):710-725. DOI: 10.13328/j.cnki.jos.005905 CSTR:

      摘要 (2642) HTML (2675) PDF 1.95 M (4992) 评论 (0) 收藏

      摘要:分销渠道系统中,产品制造商会分配给销售额较大的分销商更多返点利润鼓励销售,而分销商之间可能会联合起来将多个分销商的销售业绩累计在其中一个分销商上,获取高额利润,这种商业欺诈行为被称为挂单或窜货.由于数据中大量正常极值点的存在,使得传统异常探测算法很难区分正常极值和由挂单导致的异常极值;另外,多维销售数据本身就存在的稀疏性导致多维数据异常探测算法无法有效运行.为了克服上述问题,将人工智能和数据库技术结合起来,提出了基于分割率的特征提取方法和基于张量重构的挂单行为挖掘算法.同时,由于分销商之间存在多种挂单行为,设计了基于挂单模式偏序格的特征提取方法来对销售数据集中存在的挂单行为进行分类.在合成数据的实验中,所提出的挂单点挖掘算法能达到65%的平均AUC值,而传统特征提取方法仅达到36%和30%的平均AUC值.在真实数据上的实验结果表明,挂单行为探测方法能区分正常销售极值和挂单行为产生的异常极值.

    • 基于相关性分析的工业时序数据异常检测

      2020, 31(3):726-747. DOI: 10.13328/j.cnki.jos.005907 CSTR:

      摘要 (4847) HTML (4703) PDF 2.25 M (12193) 评论 (0) 收藏

      摘要:多维时间序列上的异常检测,是时态数据分析的重要研究问题之一.近年来,工业互联网中传感器设备采集并积累了大量工业时间序列数据,这些数据具有模式多样、工况多变的特性,给异常检测方法的效率、效果和可靠性均提出更高要求.序列间相互影响、关联,其隐藏的相关性信息可以用于识别、解释异常问题.基于此,提出一种基于序列相关性分析的多维时间序列异常检测方法.首先对多维时间序列进行分段、标准化计算,得到相关性矩阵,提取量化的相关关系;然后建立了时序相关图模型,通过在时序相关图上的相关性强度划分时间序列团,进行时间序列团内、团间以及单维的异常检测.在真实的工业设备传感器数据集上进行了大量实验,实验结果验证了该方法在高维时序数据的异常检测任务上的有效性.通过对比实验,验证了该方法从性能上优于基于统计和基于机器学习模型的基准算法.该研究通过对高维时序数据相关性知识的挖掘,既节约了计算成本,又实现了对复杂模式的异常数据的精准识别.

    • 基于图神经网络的动态网络异常检测算法

      2020, 31(3):748-762. DOI: 10.13328/j.cnki.jos.005903 CSTR:

      摘要 (5654) HTML (3857) PDF 2.66 M (11936) 评论 (0) 收藏

      摘要:动态变化的图数据在现实应用中广泛存在,有效地对动态网络异常数据进行挖掘,具有重要的科学价值和实践意义.大多数传统的动态网络异常检测算法主要关注于网络结构的异常,而忽视了节点和边的属性以及网络变化的作用.提出一种基于图神经网络的异常检测算法,将图结构、属性以及动态变化的信息引入模型中,来学习进行异常检测的表示向量.具体地,改进图上无监督的图神经网络框架DGI,提出一种面向动态网络无监督表示学习算法Dynamic-DGI.该方法能够同时提取网络本身的异常特性以及网络变化的异常特性,用于表示向量的学习.实验结果表明,使用该算法学得的网络表示向量进行异常检测,得到的结果优于最新的子图异常检测算法SpotLight,并且显著优于传统的网络表示学习算法.除了能够提升异常检测的准确度,该算法也能够挖掘网络中存在的有实际意义的异常.

    • 融合选择提取与子类聚类的快速Shapelet发现算法

      2020, 31(3):763-777. DOI: 10.13328/j.cnki.jos.005912 CSTR:

      摘要 (2711) HTML (3229) PDF 1.86 M (5840) 评论 (0) 收藏

      摘要:基于Shapelet的时间序列分类算法具有可解释性,且分类准确率高、分类速度快.在这些算法中,Shapelet学习算法不依赖于单一分类器,能够学习出不在原始时间序列中的Shapelet,可以取得较高的分类准确率,同时还可以保证Shapelet发现和分类器构建同时完成;但如果产生的Shapelet过多,会增加依赖参数,导致训练时间太长,分类速度低,动态更新困难,且相似重复的Shapelet会降低分类的可解释性.提出一种选择性提取方法,用于更精准地选择Shapelet候选集,并改变学习方法以加速Shapelet学习过程;方法中提出了两个优化策略,通过对原始训练集采用时间序列聚类,可以得到原始时间序列中没有的Shapelet,同时在选择性提取算法中加入投票机制,以解决产生Shapelet过多的问题.实验表明,该算法在保持较高准确率的同时,可以显著地提高训练速度.

    • 基于注意力机制的规范化矩阵分解推荐算法

      2020, 31(3):778-793. DOI: 10.13328/j.cnki.jos.005913 CSTR:

      摘要 (3440) HTML (2587) PDF 1.76 M (7178) 评论 (0) 收藏

      摘要:近年来,矩阵分解(MF)技术因其有效性和简便性在推荐系统中得到广泛应用.但是,数据稀疏和冷启动问题导致MF学习到的用户特征向量不能准确地代表用户的偏好以及反映用户间的相似关系,影响了模型的性能.为了解决该问题,规范化矩阵分解(RMF)技术引起了研究者的关注.挖掘用户间可靠的相似关系,是RMF需要解决的问题.此外,MF将目标用户特征向量和目标项目特征向量的内积作为目标用户对目标项目的评分,这种简单的线性关系忽略了用户对项目各个属性特征不同的关注度.如何分析用户对项目属性特征的关注度,获取用户更准确的偏好,仍然是一个挑战.针对上述问题,提出了基于注意力机制的规范化矩阵分解模型(ARMF).具体地,为了获取用户间可靠的相似关系解决数据稀疏和冷启动问题,该模型同时依据用户信任网络和评分记录构建用户-项目异构网络,并基于该异构网络挖掘用户间的相似关系;为了进一步提升模型性能,通过在MF中引入注意力机制,分析用户对项目各个属性特征不同的关注度来获取用户更准确的偏好.最后,在两个真实数据集上对比ARMF与现有工作,实验结果证明,ARMF有更好的准确性和健壮性.

    • 融合显式反馈与隐式反馈的协同过滤推荐算法

      2020, 31(3):794-805. DOI: 10.13328/j.cnki.jos.005897 CSTR:

      摘要 (3309) HTML (3614) PDF 2.87 M (7727) 评论 (0) 收藏

      摘要:显式反馈与隐式反馈相结合,可以有效提升推荐性能.但是现有的融合显式反馈与隐式反馈的推荐系统存在未能发挥隐式反馈数据缺失值反映用户隐藏偏好的能力,或者未能保留显式反馈数据反映用户偏好程度的能力的局限性.为了解决这个问题,提出了一种融合显式反馈与隐式反馈的协同过滤推荐算法.该算法分为两个阶段:第1阶段利用加权低秩近似处理隐式反馈数据,训练出隐式用户/物品向量;第2阶段引入了基线评估,同时将隐式用户/物品向量作为补充,通过显隐式用户/物品向量结合,训练得出用户对物品的预测偏好程度.该算法与多个典型算法在标准数据集上进行了实验比较,其可行性和有效性得到验证.

    • >综述文章
    • 学习式数据库系统:挑战与机遇

      2020, 31(3):806-830. DOI: 10.13328/j.cnki.jos.005908 CSTR:

      摘要 (3591) HTML (3452) PDF 2.99 M (7766) 评论 (0) 收藏

      摘要:通用的数据库系统为不同的应用需求与数据类型提供统一的处理方式,在取得了巨大成功的同时,也暴露了一定的局限性:由于没有结合具体应用的数据分布与工作负载,系统往往难以保证性能的最优.为了解决这一问题,"学习式数据库系统"成为了目前数据库领域的研究热点,它利用机器学习技术有效捕获负载与数据的特性,从而对数据库系统进行优化.围绕这一方向,近些年工业界与学术界涌现出了大量的研究工作.首先提出了细粒度的分类体系,从数据库架构出发,将现有工作进行了梳理;其次,系统地介绍了学习式数据库各组件的研究动机、基本思路与关键技术;最后,对学习式数据库系统未来的研究方向进行了展望.

    • >专刊文章
    • 轩辕:AI原生数据库系统

      2020, 31(3):831-844. DOI: 10.13328/j.cnki.jos.005899 CSTR:

      摘要 (3878) HTML (3515) PDF 1.50 M (8778) 评论 (0) 收藏

      摘要:大数据时代下,数据库系统主要面临3个方面的挑战:首先,基于专家经验的传统优化技术(如代价估计、连接顺序选择、参数调优)已经不能满足异构数据、海量应用和大规模用户对性能的需求,可以设计基于学习的数据库优化技术,使数据库更智能;其次,AI时代,很多数据库应用需要使用人工智能算法,如数据库中的图像搜索,可以将人工智能算法嵌入到数据库,利用数据库技术加速人工智能算法,并在数据库中提供基于人工智能的服务;再者,传统数据库侧重于使用通用硬件(如CPU),不能充分发挥新硬件(如ARM、AI芯片)的优势.此外,除了关系模型,数据库需要支持张量模型来加速人工智能操作.为了解决这些挑战,提出了原生支持人工智能(AI)的数据库系统,将各种人工智能技术集成到数据库中,以提供自监控、自配置、自优化、自诊断、自愈、自安全和自组装功能;另一方面,通过使用声明性语言,让数据库提供人工智能功能,以降低人工智能的使用门槛.介绍了实现人工智能原生数据库的5个阶段,并给出了设计人工智能原生数据库的挑战.以自主数据库调优、基于深度强化学习的查询优化、基于机器学习的基数估计和自主索引/视图推荐为例,展示了人工智能原生数据库的优势.

    • 基于PSP_HDP主题模型的非结构化经济指标挖掘

      2020, 31(3):845-865. DOI: 10.13328/j.cnki.jos.005898 CSTR:

      摘要 (2525) HTML (2705) PDF 2.49 M (5460) 评论 (0) 收藏

      摘要:随着经济活动数据的不断丰富,互联网平台上产生了大量的财经文本,其中蕴含了经济领域发展状况的影响因素.如何从这些财经文本中有效地挖掘与经济有关的经济要素,是实现非结构化数据在经济研究中应用的关键.根据人工构建非结构化经济指标的局限性,以及主题模型在非结构化经济指标挖掘中存在的问题,结合已有经济领域分类标准、词语之间的语义关系和词语对主题的代表性,定义了文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度,用于分别描述CRF(Chinese restaurant franchise)中餐厅的菜肴风格、顾客之间对菜肴要求的一致程度和顾客对菜肴的专一程度;结合文档领域属性、词语语义和词语在主题中的出现情况,提出了PSP_HDP(combining documents' domain properties,word semantics and words' presences in topics with HDP)主题模型.由于PSP_HDP主题模型改进了文档-主题与主题-词语的分配过程,从而提高了经济主题的区分度和辨识度,可以更有效地挖掘与经济有关的经济主题和经济要素词.实验结果表明:提出的PSP_HDP主题模型不仅在主题多样性、内容困惑度和模型复杂度等评价指标方面的整体性能优于HDP主题模型,而且在非结构化经济指标挖掘和经济要素词抽取方面能够得到区分度更好、辨识度更高的结果.

    • >综述文章
    • 机器学习中的隐私攻击与防御

      2020, 31(3):866-892. DOI: 10.13328/j.cnki.jos.005904 CSTR:

      摘要 (6413) HTML (5120) PDF 2.73 M (14386) 评论 (0) 收藏

      摘要:大数据时代丰富的信息来源促进了机器学习技术的蓬勃发展,然而机器学习模型的训练集在数据采集、模型训练等各个环节中存在的隐私泄露风险,为人工智能环境下的数据管理提出了重大挑战.传统数据管理中的隐私保护方法无法满足机器学习中多个环节、多种场景下的隐私保护要求.分析并展望了机器学习技术中隐私攻击与防御的研究进展和趋势.首先介绍了机器学习中隐私泄露的场景和隐私攻击的敌手模型,并根据攻击者策略分类梳理了机器学习中隐私攻击的最新研究;介绍了当前机器学习隐私保护的主流基础技术,进一步分析了各技术在保护机器学习训练集隐私时面临的关键问题,重点分类总结了5种防御策略以及具体防御机制;最后展望了机器学习技术中隐私防御机制的未来方向和挑战.

    • 数据集成方法发展与展望

      2020, 31(3):893-908. DOI: 10.13328/j.cnki.jos.005911 CSTR:

      摘要 (4009) HTML (3338) PDF 1.71 M (10105) 评论 (0) 收藏

      摘要:数据集成在数据管理与分析领域起着重要的作用.尽管从学术界首次提出并开始研究数据集成问题已经过去30多年,但在各个领域仍然存在着大量与数据集成问题密切相关的问题亟待解决.对数据集成领域从2001年开始到现在相关工作的发展脉络进行了梳理与总结.通过追踪数据集成方法的发展轨迹,不仅可以了解前人在解决该问题时所作出的努力以及发掘出的研究方向,还可以进一步了解各个数据发展领域所研究问题的成因以及发展脉络.最终,通过分析近几年数据集成方面的工作,可以进一步展望未来在数据集成领域的潜在研究方向,为从事相关领域研究的学者提供参考.

当期目录


文章目录

过刊浏览

年份

刊期

联系方式
  • 《软件学报 》
  • 主办单位:中国科学院软件研究所
                     中国计算机学会
  • 邮编:100190
  • 电话:010-62562563
  • 电子邮箱:jos@iscas.ac.cn
  • 网址:https://www.jos.org.cn
  • 刊号:ISSN 1000-9825
  •           CN 11-2560/TP
  • 国内定价:70元
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号