数据标注研究综述
作者:
作者单位:

作者简介:

蔡莉(1975-),女,云南昆明人,博士,副教授,主要研究领域为数据质量,数据挖掘,智能交通;刘俊晖(1980-),男,博士,讲师,主要研究领域为模型驱动开发,计算机视觉;王淑婷(1994-),女,硕士生,主要研究领域为数据质量,数据挖掘;朱扬勇(1963-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为数据科学.

通讯作者:

蔡莉,E-mail:caili@ynu.edu.cn

中图分类号:

基金项目:

国家自然科学基金(61663047,U1636207);云南大学服务云南行动计划(2016ZD05)


Survey of Data Annotation
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61663047, U1636207); Project of Yunnan University Serves Yunnan Initiatives (2016ZD05)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性这4个方面对数据标注的研究方向和发展趋势进行了展望.

    Abstract:

    Data annotation is a key part of the effective operation of most artificial intelligence algorithms. The better the annotation accuracy and quantity, the better the performance of the algorithm. The development of the data annotation industry boosts employment in many cities and towns in China, prompting China to gradually become the center of world data annotation. This study summarizes its development, including origin, application scenarios, classifications, and tasks; lists the commonly used annotation data sets, open source data annotation tools and commercial annotation platforms; proposes the data annotation specification including roles, standards, and processes; gives an example of data annotation in a sentiment analysis. Then, this paper describes the models and characteristics of state-of-the-art algorithms for evaluating annotation results, and compares their advantages and disadvantages. Finally, this paper prospects research focuses and development trends of data annotation from four aspects:tasks, tools, annotation quality, and security.

    参考文献
    相似文献
    引证文献
引用本文

蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述.软件学报,2020,31(2):302-320

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-06-22
  • 最后修改日期:2019-09-17
  • 录用日期:
  • 在线发布日期: 2019-12-06
  • 出版日期: 2020-02-06
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号