云原生数据库技术与系统专刊前言
杜小勇1, 杨晓春2, 祝园园3
1(中国人民大学 信息学院, 北京 100191)
2(东北大学 示范性软件学院,辽宁 沈阳 100872)
3(武汉大学 计算机学院,湖北 武汉 430072)
通讯作者: 杨晓春, E-mail: yangxc@mail.neu.edu.cn
中文引用格式: 杜小勇,杨晓春,祝园园.云原生数据库技术与系统专刊前言.软件学报. http://www.jos.org.cn/1000-9825/7284.htm
随着信息技术的飞速发展以及智能终端的不断普及,全球数据量呈现爆发式增长,数据成为了第五生产要素,这极大地扩展了数据库的应用领域和应用范围。数据库作为支撑数据处理的核心技术也在不断创新变革。云基础设施的蓬勃发展为数据库系统领域带来了全新的发展机遇, 越来越多本地部署的数据库系统已经向云端迁移。云原生数据库是为云架构而原生设计的数据库,充分利用云基础设施虚拟化、高可用、可弹性伸缩等特点,提供更灵活强大的数据管理能力。专刊聚焦云原生数据库系统核心技术,探讨云原生数据库如何面对用户不断变化的计算需求,构建新的体系结构支持弹性扩缩容;如何面向HTAP混合负载,选择合适的数据策略灵活支持TP和AP任务;如何面对复杂查询场景和任务、实现超异构硬件的调度优化以及智能查询优化;如何结合AI技术,使云原生数据库能与AI框架有机融合变得更加智能高效;如何考虑全流程数据安全,采用多种技术或机制保障数据的安全隐私;如何结合全密态技术,实现软硬结合的全密态数据处理,实现数据处理安全等。专刊重点关注云原生数据库系统研究中具有创新性和突破性的高水平研究成果,探讨相关基础理论、关键技术、系统架构等方面的实质性进展,探讨其在相关产业和领域的应用前景。
本专刊公开征文,共收到投稿24篇,均通过了形式审查,但根据专刊的定位,特约编辑遴选了其中的15篇进入评审环节,先后邀请了40多位专家参与审稿工作,每篇投稿至少邀请2位专家进行评审。稿件经初审、复审、NDBC 2024会议宣读和终审4个阶段,历时5个月,最终有8篇论文入选本专刊。根据主题,这些论文可以分为3组。
(1) 云原生数据库中的数据存储技术
刘星宇等的《ApacheTsFile中的短时间序列分组压缩及合并方法》提出面向端边云协同、海量序列等场景的短时间序列分组压缩及合并方法在,阐述Apache TsFile中应对大量短时间序列场景所使用的分组压缩及合并方法,该分组压缩方法充分考虑了短时间序列场景中的数据特征,通过对设备分组的方法提高元数据利用率,降低文件索引大小,减少短时间序列并显著提高压缩效果。
(2) 云原生数据库事务管理与性能优化技术
燕钰等的《FBO:基于联邦学习的云数据库旋钮调优技术》提出了一种基于联邦学习的云数据库旋钮调优技术;提出了基于元特征匹配的经验筛选方法来提前将数据分布差异较大的历史经验剔除,以提高联邦学习的效率,为了实现保护用户隐私;提出了以节点端为训练中心的联邦贝叶斯调优算法,通过随机傅里叶特征来完成保证调优经验不失真的前提下保护用户隐私。
徐海洋等的《基于组合负载预测模型的多租户数据库弹性伸缩方法》提出了基于内存负载预测的多租户数据库弹性伸缩方法,包括一种组合负载预测模型和一种弹性伸缩策略。组合负载预测模型融合了多种深度学习模型优势,可以比较精确地预测数据库集群内存负载需求;弹性伸缩策略基于需求预测结果,调整虚拟机数目,保证资源供应处于合理范围。
洪殷昊等的《基于确定性并发控制的云原生多写技术》提出了新型云原生架构D3C,通过设计基于确定性并发控制的云原生数据库事务处理机制来突破一写多读的限制,支持多个读写节点并发执行读写事务。D3C将事务分拆为子事务,根据预先确定的全局顺序在各节点独立执行这些子事务,同时设计基于多版本机制的异步批量数据持久化等机制保证事务处理的性能。
向清风等的《一种面向复合异常的分布式数据库异常诊断方法》提出了一种面向分布式数据库的复合异常诊断的方法DistDiagnosis。该方法采用复合异常图对分布式数据库的异常状态进行建模,在表示各节点异常的同时有效捕获节点间的相关性,最后根据节点对数据库整体的影响力有效定位根因异常。
唐海波等的《区块链分片技术研究进展》综述了区块链分片技术的研究进展,分别从节点划分的安全性、高效数据分片与恢复、跨片交易处理三个方面梳理了当前的研究方案,也讨论了将这些方案运用在云原生环境下面临的新挑战。
(3) 云原生数据库新型架构技术
印钰杰等的《PG-RAC:基于PostgreSQL的共享缓存多写事务处理数据库》提出了支持多写事务处理的共享缓存数据库 PG-RAC,主要包括两个方面的创新性改进:新型的分布式链式路由策略,将路由信息分散在各计算节点,降低事务平均延迟;改进的副本页失效机制,将失效操作从事务路径分离,减小了事务处理关键路径的延迟。
马旭阳等的《基于无服务器计算的多方数据库安全计算系统》提出了基于无服务器计算环境的系统架构和间接通信方案,实现了一套高可扩展、高可用的多方数据库安全计算系统,可以容忍数据库节点掉线,并且在用户请求流量发生变化时自动伸缩系统资源。
本专刊主要面向数据库、数据挖掘、大数据、机器学习等多领域的研究人员和工程人员,反映了我国学者在云原生数据库技术与系统领域最新的研究进展。感谢《软件学报》编委会和数据库专委会对专刊工作的指导和帮助,感谢专刊全体评审专家及时、耐心、细致的评审工作,感谢踊跃投稿的所有作者。希望本专刊能够对云原生数据库技术与系统相关领域的研究工作有所促进。
杜小勇(1963-),工学博士,博士生导师,中国人民大学信息学院吴玉章讲席教授,中国计算机学会会士。现任教育部数据工程与知识工程重点实验室主任,中国人民大学理工学部学术委员会主任、学位评定分委员会主任,信息学院学术委员会主任等职。主要从事数据库系统、大数据管理与分析、智能信息检索、知识工程等领域的研究。在数据库内核技术上的成果获国家科技进步奖二等奖,教育部科学技术成果一等奖等,近年来在跨域数据管理,分布式事务管理等领域发表顶级论文多篇。
杨晓春(1973-),工学博士,博士生导师,东北大学计算机科学与工程学院二级教授。国家级高水平人才,并入选“科技部中青年科技创新领军人才”计划,获国家优秀青年基金资助,入选“教育部新世纪优秀人才支持计划”。辽宁省优秀科技工作者、辽宁省特聘教授、沈阳市人大常委会咨询专家,国家重点研发专项项目首席科学家。CCF杰出会员,ACM高级会员,IEEE高级会员。长期从事数据管理与分析领域的教学科研工作,主要研究方向包括大数据管理与知识工程、云边端数据管理、智能推荐系统等。在数据库和人工智能领域发表CCF A类论文多篇。
祝园园(1984-),工学博士,博士生导师,武汉大学计算机学院教授。中国计算机学会数据库专委、信息系统专委执委。长期从事数据库数据与挖掘方面的研究,以第一/通讯作者在VLDBJ、TKDE、VLDB、ICDE等国际著名学术期刊和会议发表论文30余篇。主持国家自然科学基金项目3项、湖北省自然科学基金项目3项、以及CCF-华为胡杨林基金数据库专项等多项科研项目。连续担任VLDB、ICDE、KDD、AAAI、IJCAI、SIGIR等多个CCF A类国际学术会议程序委员。