2024年第3期专题优先出版:面向多模态数据的新型数据库技术(彭智勇,高云君,李国良,许建秋)
  • 分享:

 

面向多模态数据的新型数据库技术专题前言


彭智勇1,  高云君2,  李国良3,许建秋4
1(武汉大学 计算机学院, 湖北,武汉,430072)
2(浙江大学 计算机学院, 浙江 杭州,310058)
3(清华大学 计算机学院, 北京,北京,100084)
4(南京航空航天大学 计算机学院, 江苏 南京,211106)
通讯作者: 高云君, E-mail: gaoyj@zju.edu.cn; 许建秋, E-mail: jianqiu@nuaa.edu.cn


中文引用格式: 彭智勇,高云君,李国良,许建秋.面向多模态数据的新型数据库技术专刊前言.软件学报. http://www.jos.org.cn/1000-9825/7079.htm


以数字技术为标志的新一轮科技革命方兴未艾,将人类带入数字经济时代。全球各行各业数据量呈现爆炸式增长,数据类型和数据格式也呈现多种形式,例如结构化关系表、半结构化JSON/XML、非结构化文本/图像/视频,以及图数据、流数据和时序数据等。越来越多的应用场景要求数据库系统能够同时高效管理多种不同类型的数据。这对数据库系统提出了更高的要求,多模态数据管理与分析成为亟需解决的问题。目前的方法主要通过拓展现有的数据库或通过集成各种不同模态数据管理引擎来支持多模态数据管理与分析,缺少新颖的理论、方法与技术支撑,尚有很多问题亟需解决。 本专题围绕多模态数据管理与分析的整个生命周期,通过结合大数据技术和人工智能方法探讨新型数据库系统理论、方法和技术,主要包括多模态数据统一建模、存储与索引、查询与挖掘、并发控制、多模态数据库系统构建及其典型应用等主题,形成多模态数据管理与分析的新理论、新方法、新技术和新系统,赋予数据库系统新的管理能力,形成多模态数据管理与分析在各行各业的最新应用成果,推动数据库系统的进一步发展。


本专题公开征文,共收到投稿18篇.论文均通过了形式审查,内容涉及多模态数据的查询处理与优化、多模态数据视图和融合技术、多模态数据管理系统应用技术等.特约编辑先进行初审,后邀请了近20位专家参与审稿工作,每篇投稿邀请2位同行专家进行评审.稿件经初审、复审、NDBC 2023会议宣读和终审4个阶段,历时4个月,最终有10篇论文入选本专题.根据主题,这些论文可以分为3组.


(1) 多模态数据查询处理与优化方法
基于邻域k-核的社区模型与查询算法》针对多模态图数据开展研究,主要解决了多模态图网络中稠密度阈值的多社区搜索问题,提出了新的社区模型,定义了两种基于邻域连通 k-核社区的搜索问题,引入了边稠密度的概念,提出了基于边稠密度的基线算法,设计了索引树和改进索引树结构,提升了搜索效率并证明了结果的完整性。
基于细粒度特征融合的部分多模态哈希》针对多模态哈希开展研究,提出了实现部分多模态哈希模型,并基于深度网络架构利用 Transformer 编码器以自注意力方式捕获深层语义信息并实现细粒度的多模态特征融合,从而解决样本模态不完整、学习能力有局限性和缺乏语义信息的问题。实验结果表明所提模型有效地实现部分多模态哈希并可应用于大规模多模态数据检索。
GPPR:跨域环境下的个性化PageRank算法》针对跨域分布环境下的大图算法个性化PageRank开展研究,通过大图数据预处理和启发式算法映射图数据降低网络带宽异构对算法迭代速度的影响。采用了随机游走方式和相关算法,减少工作节点之间传输数据的带宽负载,在8个开源大图数据进行性能测试,相比较于现有方法效率有显著提升。


(2) 多模态数据视图和融合技术
融合多模态数据的小样本命名实体识别方法》提出了一种融合多模态数据的小样本命名实体识别模型,通过将图像信息转化为文本信息作为辅助模态信息的方法,有效解决了语义信息粒度不一致导致的模态对齐效果不佳的问题。通过真实的多模态数据集进行了测试,验证了所提方法的有效技术提升。
面向多模态模型训练的高效样本检索技术研究》提出了一种面向多模态模型训练的高效样本检索技术,通过感知模型训练类间边界点,精确评估样本对模型的价值,设计了半有序的高效样本索引。采用多组多模态数据集进行实验,验证了所提方法的有效性。
面向视频的细粒度多模态实体链接》提出面向视频的细粒度实体链接,构建了细粒度视频实体链接数据集,提出利用大模型抽取视频中的实体及其属性,实验结果表明所提方法能够有效处理视频上细粒度实体链接任务。


(3) 多模态数据管理系统应用技术
面向云边端协同的多模态数据建模技术及其应用研究》从云边端三层数据的数据类型出发,提出了面向云边端协同的多模态数据建模技术,给出了基于元组的多模态数据模型定义,解决多模态数据统一表征困难的问题。给出了多模态数据模型的完整性约束以及面向云边端协同多模态数据模型的示范应用。
Apache IoTDB中的多模态数据编码压缩》基于Apache IoTDB 系统中时间戳数据、数值数据、布尔值数据、 频域数据、文本数据等多个不同的模态,提出了利用不同模态数据特点的数据编码压缩方法,将数据质量因素纳入到编码算法的设计中,在多个数据集上进行实验评估验证多模态数据编码压缩的效果。
Navi:基于自然语言交互的数据分析系统》提出了基于自然语言交互的数据分析系统Navi,该系统采用模块化的设计原则,抽象出主流数据分析流程的三个核心功能模块:数据查询、可视化生成和可视化探索模块,从而降低系统设计的耦合度。
支持深度学习的视觉数据库管理系统研究进展》从文本、图像和视频等多模态数据的相互融合处理出发,总结了视觉数据库管理系统在不同层面上面临的挑战,包括数据存储、查询优化、执行调度以及编程接口,探讨了上述四个层面上的相关技术并对视觉数据库管理系统未来的研究方向进行了展望。


本专题主要面向数据库、大数据、人工智能等多领域的研究人员和工程人员,反映了我国学者在多模态数据的新型数据库技术最新的研究进展.感谢《软件学报》编委会和数据库专委会对专题工作的指导和帮助,感谢专题全体评审专家及时、耐心、细致的评审工作,感谢踊跃投稿的所有作者。希望本专题能够对多模态数据的新型数据库技术相关领域的研究工作有所促进。

 


彭智勇(1963-),男,博士, 武汉大学计算机学院教授、大数据研究院副院长,获国务院政府特殊津贴,国务院软件工程学科评议组成员,中国计算机学会会士、常务理事。主持了国家自然科学基金重点项目和国家863数据库重大专项课题等,提出了一个新的数据库模型:对象代理模型。曾获得中创软件人才奖,国防科工委科技进步一等奖、教育部科技进步二等奖等,目前主要从事对象代理数据库、大数据管理系统、制造业大数据、科技大数据、教育大数据、可信云数据和地理数据水印等方面的研究。


高云君(1977-),男,博士, 浙江大学求是特聘教授,博士生导师,国家杰出青年科学基金获得者,现为ACM中国SIGSPATIAL分会副主席,浙江省大数据智能计算重点实验室副主任,浙江大学软件学院副院长,浙江大学计算机软件研究所副所长。研究方向为数据库、大数据管理与分析、DB与AI融合。主持国家杰出青年科学基金、国家重点研发计划、973计划等,获2019年度中国电子学会科技进步特等奖、2016年度教育部科技进步一等奖、2011年度浙江省科学技术一等奖。


李国良(1981-),男,博士,清华大学长聘教授,博士生导师,计算机系副主任,国家自然科学基金杰出青年基金获得者,数据库专委会副主任.主要研究领域为大数据、数据库、数据科学等. 在计算机学会A类期刊和会议上发表论文200余篇。2014-2022年入选爱思唯尔高被引学者榜单。获得了VLDB 2017 Early Research Contribution Award,SIGMOD 2021大会主席,VLDB 2021 Demo主席,ICDE 2022 Industry主席VLDB青年杰出贡献奖、IEEE TCDE杰出新人奖. 获国家科技进步二等奖,江苏省科技进步一等奖,电子学会科技进步一等奖,计算机学会科技进步特等奖。


许建秋(1982-),男,博士, 南京航空航天大学教授,博士生导师,计算机系主任,主要研究方向为时空数据管理,主持国家自然科学基金项目,国防173领域基金,CCF华为胡杨林数据库专项基金等,发表学术论文40余篇,包括CCF推荐A类论文如IEEE TKDE、ICDE、PVLDB等,授权国家发明专利3项,获得APWeb/WAIM 2017最佳系统演示论文奖, SSTD 2019 最佳展望论文奖,SSTD 2021最佳研究论文提名奖,NDBC最佳系统演示论文奖(2023)。

发布日期:2023-11-09浏览次数:

当期目录


文章目录

过刊浏览

年份

刊期

联系方式
  • 《软件学报 》
  • 主办单位:中国科学院软件研究所
                     中国计算机学会
  • 邮编:100190
  • 电话:010-62562563
  • 电子邮箱:jos@iscas.ac.cn
  • 网址:https://www.jos.org.cn
  • 刊号:ISSN 1000-9825
  •           CN 11-2560/TP
  • 国内定价:70元
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号