主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2022年专刊出版计划 微信服务介绍 最新一期:2021年第2期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
李世奇,赵铁军,李晗静,刘鹏远,刘水.基于特征组合的中文语义角色标注.软件学报,2011,22(2):222-232
基于特征组合的中文语义角色标注
Chinese Semantic Role Labeling Based on Feature Combination
投稿时间:2009-10-29  修订日期:2010-01-20
DOI:10.3724/SP.J.1001.2011.03844
中文关键词:  语义角色标注  自然语言处理  支持向量机  特征组合
英文关键词:semantic role labeling  natural language processing  support vector machine  feature combination
基金项目:国家自然科学基金(60736014, 60803094, 60773069, 60903063)
作者单位E-mail
李世奇 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001 sqli@mtlab.hit.edu.cn 
赵铁军 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001  
李晗静 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001  
刘鹏远 北京大学 计算语言学研究所,北京 100871  
刘水 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001  
摘要点击次数: 5758
全文下载次数: 5530
中文摘要:
      提出一种基于特征组合和支持向量机(support vector machine,简称SVM)的语义角色标注(semantic rolelabeling,简称SRL)方法.该方法以句法成分作为基本标注单元,首先从当前基于句法分析的语义角色标注系统中选出高效特征,构成基本特征集合.然后提出一种基于统计的特征组合方法.该方法能够根据正反例中组合特征的分布状况,以类间距离和类内距离之比作为统计量来衡量组合特征对分类所产生的效果,保留分类效果较好的组合特征.最后,在Chinese PropBank(CPB)语料上利用支持向量机进行分类实验,结果表明,引入该特征组合方法后,语义角色标注整体F 值达91.81%,提高了近2%.
英文摘要:
      This paper proposes a semantic role labeling (SRL) approach for the Chinese, based on feature combination and support vector machine (SVM). The approach takes the constituent as the labeling unit. First, this paper defines the basic feature set by selecting the high-performance features of existing parsing-based SRL systems. Then, a statistics-based method is proposed to construct a combined feature set derived from the basic feature set. According to the distribution of combining features in both positive and negative instances, the ratio of between-class to within-class distance is utilized as the measurement of classifying the performance the feature, and then choosing the combining features with high ratios into the combining feature set. Finally, the experimental results show that the feature combination method-based SRL achieved 91.81% F-score on Chinese PropBank (CPB) corpus, nearly 2% higher than the traditional method.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利