数据库系统新型技术专刊前言
李国良1, 于 戈2, 杨 俊3, 范 举4
1(清华大学 计算机科学与技术系,北京 100084)
2(东北大学 计算机科学与工程学院,沈阳 辽宁 110167)
3(Duke University, Department of Computer Science, Durham, North Carolina 27708-0129)
4(中国人民大学 数据工程与知识工程教育部重点实验室,北京 100872)
通讯作者: 李国良, E-mail: liguoliang@tsinghua.edu.cn
中文引用格式: 李国良,于戈,杨俊,范举. 数据库系统新型技术专刊前言.软件学报,2022,33(3). http://www.jos.org.cn/1000-9825/6459.htm
近年来,数据库系统为了应对新应用和新数据类型给数据管理与分析提出的全新挑战,产生了一系列新的发展趋势,包括:(1) 在数据管理方面,计算机硬件的创新与人工智能技术的深入为数据库系统带来了全新的发展机会, 而伸缩性、容错性、可扩展性等应用需求又给数据管理带来了全新的挑战; (2) 在数据分析方面,数据量的剧增、数据类型的异构与应用需求的多样对数据库系统的分析能力与性能提出了更高的要求; (3) 在数据安全方面,多方安全计算、联邦学习等应用和需求的变化给数据库安全与隐私保护技术带来了全新的课题.因此,需要利用和发展现有的数据库理论,构建形成新的技术和系统经验.本专刊立足于数据库系统核心技术, 探讨在大数据环境下数据库与数据管理技术的新发展与新趋势,特别是聚焦如何利用数据管理技术的深厚理论积淀和丰富技术成果,促进数据库新型技术的发展,解决遇到的各类与管理、分析、安全相关的痛点、难点问题.本专刊重点关注具有创新性和突破性的高水平研究成果,探讨相关基础理论、关键技术,以及在系统研发过程中关于系统设计原理、范式、架构、经验等方面的实质性进展,探讨其在相关产业和领域的应用前景.
本专刊公开征文,共收到投稿26篇.论文均通过了形式审查,内容涉及新型的数据管理、数据分析与数据安全技术.特约编辑先后邀请了30多位专家参与审稿工作,每篇投稿至少邀请2位专家进行评审.稿件经初审、复审、在线论文宣读与专家评审(因受新冠疫情影响,NDBC 2021会议延期.为不影响发表进度,原定于在NDBC上的会议宣读改为在线论文宣读)和终审共4个阶段,历时6个月,最终有18篇论文入选本专刊.根据主题,这些论文可以分为3组.
(1) 新型数据管理技术
《Geno:基于代价的异构融合查询优化器》提出了一种面向CPU/GPU/FPGA异构计算融合的基于代价的查询优化器,设计了异构计算环境下查询处理的代价模型,并基于代价评估解决了算子分配和调度等问题,进而验证了所提优化方法可以充分发挥各异构资源的优势,提升查询处理的性能.
《新型基于树型门控循环单元的基数和代价估计器》提出了一种基于树型门控循环单元的数据库基数和代价估计技术,设计了有效的特征提取和编码技术与面向字符串类型的谓词嵌入方法,进而验证了所提模型在估计精度、预测时间等方面均优于现有基数估计算法.
《AlphaQO:鲁棒的学习型查询优化器》提出了一种基于强化学习学习型查询优化器训练框架,目标是生成学习型优化器难以优化的查询对其加以训练,以提升学习型优化器的鲁棒性.提出了基于图结构的查询生成模型、少样本生成方法等策略,并验证其可以提升学习型优化器的鲁棒性.
《面向非易失内存的新型异构索引》研究了树形索引在非易失内存(NVM)上的访问、持久化、范围查询等操作的性能优化问题,提出了一种上下两层结构的新型异构索引结构.该索引同时利用了Radix结点搜索快以及B+树范围查询性能好的优点,取得了较好的综合性能.
《基于非易失性内存和硬件事务内存的低时延事务处理》提出一种利用非易失性内存(NVM)降低硬件事务性内存(HTM)的内存事务处理时延的方法,设计了parity version机制,使事务可以同时利用HTM和NVM的特性进行加速,在实现上针对硬件的特性进行了一系列优化.所提方法能大幅降低现有基于HTM的多核内存数据库的事务提交时延,提升事务吞吐.
《内存数据库并发控制算法的实验研究》从实验研究的角度系统地比较了现有的内存数据库并发控制算法,提出了"先定序后检验"的思路对并发控制算法进行分类总结,并基于在开源内存型分布式事务测试床3TS上的对比实验探究了各类算法的优缺点和适用场景,为面向内存数据库的并发控制算法的研究提供了参考.
《NUMA感知的PM存储引擎优化设计研究》提出了一种NUMA感知的非易失存储引擎优化设计方法,设计了混合内存架构下跨NUMA节点的数据空间分布和分布式存取策略,提出了I/O代理例程访问、Cache Line Area缓存页、事务处理等机制,进而验证了所提方法能够有效提升NUMA架构下非易失存储引擎性能.
《数据库管理系统中数据异常体系化定义与分类》从数据管理的视角对数据异常进行了体系化的定义与分类,基于分类提出了针对不同粒度的隔离级别体系,所提体系有助于揭示基于数据异常定义隔离级别的规律,并发现了二十二种未被其它文献报告过的新的数据异常.
(2) 新型数据分析技术
《基于大数据的分布式社会治理智能系统》构建了一个面向多方海量数据的安全查询、协同管理、智能分析的社会治理智能系统,该系统基于安全多方计算、区块链技术与精准智能理论解决了分布式社会治理面临着的安全计算效率低、多方可信协同差、复杂任务决策难等挑战,具备支撑社会治理各类应用的能力.
《基于键值存储的分布式时序相似性搜索方法》提出一种新的面向键值存储的分布式时序相似性搜索方法,设计了时序数据分块以解决时序数据维度高且不断增长问题,提出了极值剪枝和分块剪枝策略加快了相似性查询的效率,并验证了所提方法在效率和扩展性方面均显著优于现有方法.
《时间序列对称模式挖掘》研究了时间序列数据的对称模式挖掘问题以支持轨迹跟踪、异常检测等应用,提出了静态时间序列对称模式挖掘方法与数据流上的对称模式挖掘方法,在真实工业时间序列数据集上进行了实验评测,验证了所提方法在挖掘效果和时间开销方面取得最佳性能.
《面向Flink迭代作业的动态资源分配策略》面向具有运行时限的Apache Flink迭代作业,提出了一种基于运行时间预测的动态资源分配策略,设计了面向迭代超步的轻量级运行时间预测模型与基于运行时间预测的动态资源分配策略,并验证了预测模型和动态资源分配策略的有效性和性能提升效果.
《新型分布式计算系统中的异构任务调度框架》分析了面向机器学习的分布式大数据计算引擎在任务调度上的局限性,提出了一种新的异构任务调度框架,设计了概率随机的调度策略、确定的平滑加权轮询算法、基于容器的纵向扩容机制等策略,并验证了所提框架可以实现10%~20%的性能提升.
《RGraph:基于RDMA的高效分布式大图数据处理系统》研发了一个基于RDMA的高效分布式大图数据处理系统,提出了基于块的顶点划分方式,设计了保证负载均衡的任务迁移机制和线程间细粒度任务抢夺方式,实现了高效的RDMA通信模型,并验证了所提系统在典型图计算问题上具有明显的性能优势.
《面向大规模二部图的分布式tip分解算法》提出了一种面向大规模二部图的分布式Tip分解技术,设计了基于中继的通信模式以解决消息的有效传递、一系列分布式算法和剪枝策略,能够有效地减少冗余通信和计算开销,进一步提高算法效率,多个真实数据机上的实验结果验证了所提方法的有效性和高效性.
(3) 新型数据安全技术
《联邦学习中的隐私保护技术》分析了联邦学习过程中面临的隐私风险,总结出重建、推断两种攻击策略,依据联邦学习隐私保护机制的视角综述了隐私保护技术, 从本地、中心与本地结合三个层面总结现有的隐私保护策略与算法,最后探讨了联邦学习隐私保护面临的挑战并展望未来的发展方向.
《混洗差分隐私模型下的多维类别数据的收集与分析》提出了一种基于混洗差分隐私模型的多维度类别数据的频率估计方法,设计了基于多洗牌者的单维扰动发布算法、基于单洗牌者的多维扰动发布算法与基于取值域填补的单洗牌者发布算法,分析了算法的理论特性,并通过实验验证了所提方法具有较好的可用性.
《面向多方安全的数据联邦系统》研发了一种多方安全的关系型数据联邦系统,该系统为用户屏蔽底层多数据拥有方的数据异构性,支持多方安全基础操作的多方安全算子,优化了算子的结果重建过程,提高了其执行效率,并被验证在执行效率方面超过现有数据联邦系统3.75倍.
本专刊主要面向数据库、数据挖掘、大数据、机器学习等多领域的研究人员和工程人员,反映了我国学者在新型的数据管理、数据分析、数据安全领域最新的研究进展.感谢《软件学报》编委会和CCF数据库专委会对专刊工作的指导和帮助,感谢专刊全体评审专家及时、耐心、细致的评审工作,感谢踊跃投稿的所有作者.希望本专刊能够对数据库系统新型技术相关领域的研究工作有所促进.
李国良(1981-),男,博士,清华大学长聘教授,博士生导师,副主任,国家自然科学基金杰出青年基金获得者,数据库专委会副主任.主要研究领域为大数据、数据库、数据科学等.《VLDB Journal》编委,《IEEE Transaction on Data and Knowledge Engineering》编委,SIGMOD 2021大会主席,VLDB 2021 Demo主席,ICDE 2022 Industry主席VLDB青年杰出贡献奖、IEEE TCDE杰出新人奖.
于戈(1962-),男,日本九州大学博士,东北大学计算机学院教授,博士生导师,CCF会士.目前主要研究领域为数据库系统、数据科学、大数据技术、区块链技术.现任中国计算机学会信息系统专业委员会主任、数据库专委会委员,以及系统软件专委会委员.曾获得“霍英东青年教师基金”、“教育部跨世纪人才基金”和“中国高校青年教师奖”.
杨俊(1975-),男,博士,杜克大学讲席教授、博士生导师、计算机系主任,ACM杰出会员.主要研究领域为数据库和数据密集型系统,近年亦致力于事实核查与虚假信息识别.曾获得美国国家科学基金会CAREER Award, IBM Faculty Award, HP Labs Innovation Research Award, Google Faculty Research Award, CIDR 2011最佳创意论文奖,VLDB 2014杰出演示系统奖等.先后担任SIGMOD 2017大会主席,IEEE Transaction on Data and Knowledge Engineering副主编,ACM Transactions on Database Systems副主编,PVLDB 2022-23主编等.
范举(1984-), 男,博士,中国人民大学数据工程与知识工程教育部重点实验室副教授,博士生导师,CCF会员.主要研究领域为大数据管理与分析,数据库系统,数据融合与质量治理,群体智能等.主持国家自然科学基金优秀青年科学基金项目、国家自然科学基金重点项目课题等10余项,发表论文60余篇. 《软件学报》特约编辑,《Journal Of Computer Science and Technology》特约编辑.曾获得ACM 中国2017年度新星奖、CCF-腾讯犀牛鸟基金优秀奖等.