主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
张 扬,何丕廉,向 伟,李 沐.一种基于判别式重排序的拼写校正方法.软件学报,2008,19(3):557-564
一种基于判别式重排序的拼写校正方法
A Discriminative Reranking Approach to Spelling Correction
投稿时间:2006-05-03  修订日期:2007-02-05
DOI:
中文关键词:  拼写校正  判别模型  重排序  日志挖掘  查询链
英文关键词:spelling correction  discriminative model  reranking  log mining  query chain
基金项目:Supported by the National Natural Science Foundation of China under Grant No.60603027(国家自然科学基金);the Science Technology Development Projeet of Tianjin of China under Grant No.04310941R(天津市科技发展计划):the Applied Basic Research project of Tianjin of China under Grant No.05YFJMJC11700(天津市应用基础研究计划)
作者单位
张 扬 天津大学 计算机科学与技术学院,天津 300072 
何丕廉 天津大学 计算机科学与技术学院,天津 300072 
向 伟 香港科技大学 计算机系,香港 
李 沐 微软亚洲研究院,北京 100080 
摘要点击次数: 3603
全文下载次数: 4126
中文摘要:
      提出一种基于判别模型的拼写校正方法.它针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式整合到该模型中来,显著地提高了基准系统Aspell的初始排序质量,同时性能也超过了一些商用系统(如Microsoft Word 2003)的拼写校正模块.此外,还提出了一种在搜索引擎查询日志链中自动抽取拼写校正训练对的方法.基于这种方法训练的模型获得了基于人工标注数据所得结果相近的性能,它们分别将基准系统的错误率降低了32.2%和32.6%.
英文摘要:
      This paper proposes an approach to spelling correction. It reranks the output of an existing spelling corrector, Aspell. A discriminative model (Ranking SVM) is employed to improve upon the initial ranking, using additional features as evidence. These features are derived from state-of-the-art techniques in spelling correction, including edit distance, letter-based n-gram, phonetic similarity and noisy channel model. This paper also presents a method to automatically extract training samples from the query log chain. The system outperforms the baseline Aspell greatly, as well as the previous models and several off-the-shelf systems (e.g. spelling corrector in Microsoft Word 2003). The experimental results based on query chain pairs are comparable to that based on manually-annotated pairs, with 32.2%/32.6% reduction in error rate, respectively.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利