主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
付 慧,刘峡壁,贾云得.基于最大-最小相似度学习方法的文本提取.软件学报,2008,19(3):621-629
基于最大-最小相似度学习方法的文本提取
Text Extraction Based on Maximum-Minimum Similarity Training Method
投稿时间:2006-04-18  修订日期:2006-10-10
DOI:
中文关键词:  文本提取  高斯混合模型  判别学习  最大-最小相似度学习  最小分类错误学习
英文关键词:text extraction  Gaussian mixture modeling  discriminative training  maximum-minimum similarity training  minimum classification error training
基金项目:Supported by the National Natural Science Foundation of China under Grant No.60473049(国家自然科学基金);the National Basic Research Program of China under Grant No.2006CB303105(国家重点基础研究发展计划(973));the Excellent Young Scholars Research Fund of Beijing Institute of Technology of China under Grant No.2006Y1202(北京理工大学优秀青年教师资助计划)
作者单位
付 慧 北京理工大学 计算机科学与技术学院 智能信息技术北京市重点实验室,北京 100081
北京林业大学 信息学院,北京 100083 
刘峡壁 北京理工大学 计算机科学与技术学院 智能信息技术北京市重点实验室,北京 100081
中国科学院 自动化研究所 模式识别国家重点实验室,北京 100080 
贾云得 北京理工大学 计算机科学与技术学院 智能信息技术北京市重点实验室,北京 100081 
摘要点击次数: 3939
全文下载次数: 3370
中文摘要:
      应用最大-最小相似度(maximum-minimum similarity,简称MMS)学习方法,对基于高斯混合模型的文本区域提取方法中的有关参数进行优化.该学习方法通过最大化正样本相似度和最小化反样本相似度获得最佳分类能力.根据这种判别学习思想,建立了相应的目标函数,并利用最速梯度下降法寻找目标函数最小值,以得到文本区域提取方法的最优参数集合.文本区域提取实验结果表明:在用期望最大化(expectation maximization,简称EM)算法获得参数的极大似然估计值后,使用最大-最小相似度学习方法,使文本提取综合性能明显提高,开放实验的召回率和准确率分别达到98.55%和93.56%.在实验中,最大-最小相似度学习方法的表现还优于常用的判别学习方法——最小分类错误(minimum classification error,简称MCE)学习方法.
英文摘要:
      This paper proposes a maximum-minimum similarity training algorithm to optimize the parameters in the effective method of text extraction based on Gaussian mixture modeling of neighbor characters. The maximum-minimum similarity training (MMS) methods optimize recognizer performance through maximizing the similarities of positive samples and minimizing the similarities of negative samples. Based on this approach to discriminative training, it defines the objective function for text extraction, and uses the gradient descent method to search the minimum of the objective function and the optimum parameters for the text extraction method. The experimental results of text extraction show the effectiveness of MMS training in text extraction. Compared with the maximum likelihood estimation of parameters from expectation maximization (EM) algorithm, the training results after MMS has the performance of text extraction improved greatly. The recall rate of 98.55% and the precision rate of 93.56% are achieved. The experimental results also show that the maximum-minimum similarity (MMS) training behaves better than the commonly used discriminative training of the minimum classification error (MCE).
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利