主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第7期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
周俊生,戴新宇,陈家骏,曲维光.基于大间隔方法的汉语组块分析.软件学报,2009,20(4):870-877
基于大间隔方法的汉语组块分析
Chinese Chunking with Large Margin Method
投稿时间:2007-03-13  修订日期:2007-11-05
DOI:
中文关键词:  汉语组块分析  大间隔  判别式学习  损失函数
英文关键词:Chinese chunking  large margin  discriminative learning  loss function
基金项目:Supported by the National Natural Science Foundation of China under Grant Nos.60673043, 60773173 (国家自然科学基金); theNational High-Tech Research and Development Plan of China under Grant No.2006AA01Z143 (国家高技术研究发展计划(863)); the Natural Science Foundation of Jiangsu Province of China under Grant No.BK2006117 (江苏省自然科学基金); the Natural Science Foundation of Jiangsu Higher Education Institutions of China under Grant No.07KJB520057 (江苏省高校自然科学基金)
作者单位
周俊生 南京大学 计算机软件新技术国家重点实验室,江苏 南京 210093
南京师范大学 计算机科学系,江苏 南京 210097 
戴新宇 南京大学 计算机软件新技术国家重点实验室,江苏 南京 210093 
陈家骏 南京大学 计算机软件新技术国家重点实验室,江苏 南京 210093 
曲维光 南京师范大学 计算机科学系,江苏 南京 210097 
摘要点击次数: 3259
全文下载次数: 4356
中文摘要:
      汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化SVMs(support vectormachines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的F1 损失函数,使得F1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库CTB4 数据集上的实验数据显示,基于改进的F1 损失函数所产生的识别结果优于Hamming 损失函数,各种类型组块识别的总的F1 值为91.61%,优于CRFs(conditional random fields)和SVMs 方法.
英文摘要:
      Chinese chunking plays an important role in natural language processing. This paper presents a large margin method for Chinese chunking based on structural SVMs (support vector machines). First, a sequence labeling model and the formulation of the learning problem are introduced for Chinese chunking problem, and then the cutting plane algorithm is applied to efficiently approximate the optimal solution of the optimization problem.Finally, an improved F1 loss function is proposed to tackle Chinese chunking. The loss function can scale the F1loss value to the length of the sentence to adjust the margin accordingly, leading to more effective constraintinequalities. Experiments are conducted on UPENN Chinese Treebank-4 (CTB4), and the hamming loss function is compared with the improved F1 loss function. The experimental results show that the training algorithm with the improved F1 loss function can achieve higher performance than the Hamming loss function. The overall F1 score of Chinese chunking obtained with this approach is 91.61%, which is higher than the performance produced by the state-of-the-art machine learning models, such as CRFs (conditional random fields) and SVMs models.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利