主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第11期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
张安珍,李建中,高宏.基于符号语义的不完整数据聚集查询处理算法.软件学报,0,(0):0
基于符号语义的不完整数据聚集查询处理算法
Aggregate Query Processing on Incomplete Data Based on Denotational Semantics
投稿时间:2018-12-11  修订日期:2019-04-25
DOI:10.13328/j.cnki.jos.005876
中文关键词:  不完整数据  近似查询处理  数据修复  结果估计  数据可用性
英文关键词:incomplete data  approximate query processing  data reparation  result estimation  data usability
基金项目:国家自然科学基金青年科学基金(61702344);
作者单位E-mail
张安珍 哈尔滨工业大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001
沈阳航空航天大学 计算机学院, 辽宁 沈阳 110000 
azzhang@hit.edu.cn 
李建中 哈尔滨工业大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001  
高宏 哈尔滨工业大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001  
摘要点击次数: 335
全文下载次数: 145
中文摘要:
      本文研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,本文给出不完整数据聚集查询结果的区间估计.本文在符号语义中扩展传统关系数据库模型,提出一种通用不完整数据库模型,该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果很大概率在该估计区间范围内.本文给出线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了本文所提方法的有效性.
英文摘要:
      This paper studies the problem of aggregate query processing over incomplete data based on denotational semantics. Incomplete data is also known as missing values and can be classified into two categories:applicable nulls and inapplicable nulls. Existing imputation algorithms cannot guarantee the accuracy of the query result after imputation. We give the interval estimation of the aggregate query result. This paper extends the relational model under the denotational semantic, which can cover all types of incomplete data. We define a new semantic of aggregate query answers over incomplete data, reliable answers. Reliable answers are interval estimations of the ground-truth query results, which can cover the ground-truth results with high probability. For SUM, COUNT and AVG queries, we propose linear approximate evaluation algorithms to compute reliable answers. The extended experiments on the real datasets and synthetic datasets verify the effectiveness of the method proposed in this paper.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利