主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
陈飞,刘奕群,魏超,张云亮,张敏,马少平.基于条件随机场方法的开放领域新词发现.软件学报,2013,24(5):1051-1060
基于条件随机场方法的开放领域新词发现
Open Domain New Word Detection Using Condition Random Field Method
投稿时间:2011-09-20  修订日期:2012-04-23
DOI:10.3724/SP.J.1001.2013.04254
中文关键词:  新词发现  condition random field(CRF)  中文分词
英文关键词:new word detection  conditional random field  Chinese word segmentation
基金项目:国家自然科学基金(60903107, 61073071); 国家高技术研究发展计划(863)(2011AA01A205)
作者单位E-mail
陈飞 智能技术与系统国家重点实验室(清华大学), 北京 100084
清华大学 清华信息科学与技术国家实验室(清华大学)(筹), 北京 100084
清华大学 计算机科学与技术系, 北京 100084 
chenfei27@gmail.com 
刘奕群 智能技术与系统国家重点实验室(清华大学), 北京 100084
清华大学 清华信息科学与技术国家实验室(清华大学)(筹), 北京 100084
清华大学 计算机科学与技术系, 北京 100084 
 
魏超 智能技术与系统国家重点实验室(清华大学), 北京 100084
清华大学 清华信息科学与技术国家实验室(清华大学)(筹), 北京 100084
清华大学 计算机科学与技术系, 北京 100084 
 
张云亮 清华大学 计算机科学与技术系, 北京 100084  
张敏 智能技术与系统国家重点实验室(清华大学), 北京 100084
清华大学 清华信息科学与技术国家实验室(清华大学)(筹), 北京 100084
清华大学 计算机科学与技术系, 北京 100084 
 
马少平 智能技术与系统国家重点实验室(清华大学), 北京 100084
清华大学 清华信息科学与技术国家实验室(清华大学)(筹), 北京 100084
清华大学 计算机科学与技术系, 北京 100084 
 
摘要点击次数: 2646
全文下载次数: 8039
中文摘要:
      开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means 聚类、等频率、基于信息增益这3 种离散化方法对新词发现结果的影响.通过在SogouT 大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果.
英文摘要:
      Open domain new word detection is vital for Chinese natural language processing research. This paper proposes a novel detection algorithm based condition random field (CRF), which treats the new word detection problem as a classification problem. In this algorithm, the study tries to separate boundaries of new words from existing words with both the CRF method and a serial of statistical features extracted from large scale corpus. The effectiveness of three different discretization strategies are also compared including K-means, equal-frequency, and information gain. Experimental results on a large-scale Web corpus named SogouT show the effectiveness of the proposed algorithms.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利