主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
于墨,赵铁军,胡鹏龙,郑德权.结构化学习的噪声可学习性分析及其应用.软件学报,2013,24(10):2340-2353
结构化学习的噪声可学习性分析及其应用
Theoretical Analysis on Structured Learning with Noisy Data and its Applications
投稿时间:2012-06-11  修订日期:2013-02-04
DOI:10.3724/SP.J.1001.2013.04393
中文关键词:  结构化学习  噪声PAC 可学习性  词性标注  自然语言处理  协同训练  跨语言映射  半监督学习
英文关键词:structured learning  PAC learning with noise  pos-tagging  natural language processing  co-training  cross-lingual projection  semi-supervised learning
基金项目:国家自然科学基金(61173073); 国家高技术研究发展计划(863)(2011AA01A207)
作者单位E-mail
于墨 哈尔滨工业大学 计算机科学与技术学院 语言语音教育部-微软重点实验室, 黑龙江 哈尔滨 150001 yumo@mtlab.hit.edu.cn 
赵铁军 哈尔滨工业大学 计算机科学与技术学院 语言语音教育部-微软重点实验室, 黑龙江 哈尔滨 150001  
胡鹏龙 哈尔滨工业大学 计算机科学与技术学院 语言语音教育部-微软重点实验室, 黑龙江 哈尔滨 150001  
郑德权 哈尔滨工业大学 计算机科学与技术学院 语言语音教育部-微软重点实验室, 黑龙江 哈尔滨 150001  
摘要点击次数: 1848
全文下载次数: 2008
中文摘要:
      噪声可学习性理论指出,有监督学习方法的性能会受到训练样本标记噪声的严重影响.然而,已有相关理论研究仅针对二类分类问题.致力于探究结构化学习问题受噪声影响的规律性.首先,注意到在结构化学习问题中,标注数据的噪声会在训练过程中被放大,使得训练过程中标记样本的噪声率高于标记样本的错误率.传统的噪声可学习性理论并未考虑结构化学习中的这一现象,从而低估了问题的复杂性.从结构化学习问题的噪声放大现象出发,提出了新的结构化学习问题的噪声可学习性理论.在此基础上,提出了有效训练数据规模的概念,这一指标可用于在实践中描述噪声学习问题的数据质量,并进一步分析了实际应用中的结构化学习模型在高噪声环境下向低阶模型回退的情况.实验结果证明了该理论的正确性及其在跨语言映射和协同训练方法中的应用价值和指导意义.
英文摘要:
      Performance of supervised machine learning can be badly affected by noises of labeled data, as indicated by existing well studied theories on learning with noisy data. However these theories only focus on two-class classification problems. This paper studies the relation between noise examples and their effects on structured learning. Firstly, the paper founds that noise of labeled data increases in structured learning problems, leading to a higher noise rate in training procedure than on labeled data. Existing theories do not consider noise increament in structured learning, thus underestimate the complexities of learning problems. This paper provides a new theory on learning from noise data with structured predictions. Based on the theory, the concept of "effective size of training data" is proposed to describe the qualities of noisy training data sets in practice. The paper also analyzes the situations when structured learning models will go back to lower order ones in applications. Experimental results are given to confirm the correctness of these theories as well as their practical values on cross-lingual projection and co-training.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利