面向众包数据清洗的主动学习技术
作者:
作者单位:

作者简介:

叶晨(1992-),女,浙江乐清人,硕士,CCF学生会员,主要研究领域为数据质量,劣质数据清洗,真值发现与模式发现;高宏(1966-),女,博士,教授,博士生导师,CCF杰出会员,主要研究领域为复杂结构数据管理,无线传感器网络;王宏志(1978-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为数据质量管理,海量数据管理,知识图谱,XML数据管理,工业大数据;李建中(1950-),男,博士,教授,博士生导师,CCF会士,主要研究领域为数据库系统实现技术,数据仓库,半结构化数据,传感器网络,压缩数据库技术,Web数据集成,数据挖掘,计算生物学.

通讯作者:

中图分类号:

TP311

基金项目:

国家自然科学基金(U1509216,U1866602,61472099,61602129);国家重点研发计划(2016YFB1000703);黑龙江省留学归国人员科学基金(LC2016026)


Active Learning Approach for Crowdsourcing-enhanced Data Cleaning
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (U1509216, U1866602, 61472099, 61602129); National Key Research and Development Program (2016YFB1000703); Scientific Research Foundation for the Returned Overseas Chinese Scholars of Heilongjiang Provence (LC2016026)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    传统方法多数采用机器学习算法对数据进行清洗.这些方法虽然能够解决部分问题,但存在计算难度大、缺乏充足的知识等局限性.近年来,随着众包平台的兴起,越来越多的研究将众包引入数据清洗过程,通过众包来提供机器学习所需要的知识.由于众包的有偿性,研究如何将机器学习算法与众包有效且低成本结合在一起是必要的.提出了两种支持基于众包的数据清洗的主动学习模型,通过主动学习技术来减少众包开销,实现了对给定的数据集基于真实众包平台的数据清洗,最大程度减少成本的同时提高了数据的质量.在真实数据集上的实验结果验证了所提模型的有效性.

    Abstract:

    Traditional methods usually adopt machine learning algorithms for data cleaning. Although these methods can solve some problems, there still are computational difficulties, lack of sufficient knowledge, and other limitations. In recent years, with the rise of the crowdsourcing, more and more research has introduced crowdsourcing into the process of data cleaning, providing the extra knowledge needed for machine learning. Since workers on the crowdsourcing platforms require to be paid, it is essential to study how to effectively combine machine learning algorithms with crowdsourcing on a limited budget. This study proposes two active learning models to support crowdsourcing-enhanced data cleaning. By using active learning technology to reduce crowdsourcing cost, data cleaning based on real crowdsourcing platform is realized for given data sets, which can reduce cost and improve data quality at the same time. Experimental results on the real-world datasets show the effectiveness of the proposed methods.

    参考文献
    相似文献
    引证文献
引用本文

叶晨,王宏志,高宏,李建中.面向众包数据清洗的主动学习技术.软件学报,2020,31(4):1162-1172

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-07-20
  • 最后修改日期:2018-10-08
  • 录用日期:
  • 在线发布日期: 2020-04-16
  • 出版日期: 2020-04-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号