主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
鹿文鹏,黄河燕.基于依存适配度的知识自动获取词义消歧方法.软件学报,2013,24(10):2300-2311
基于依存适配度的知识自动获取词义消歧方法
Word Sense Disambiguation Based on Dependency Fitness with Automatic Knowledge Acquisition
投稿时间:2012-06-06  修订日期:2013-01-07
DOI:10.3724/SP.J.1001.2013.04373
中文关键词:  词义消歧  依存句法分析  知识获取  依存适配度
英文关键词:word sense disambiguation  dependency parsing  knowledge acquisition  dependency fitness
基金项目:国家自然科学基金(61132009); 国家重点基础研究发展计划(973)(2013CB329303)
作者单位E-mail
鹿文鹏 北京理工大学 计算机学院 北京市海量语言信息处理与云计算应用工程技术研究中心, 北京 100081
山东轻工业学院 理学院, 山东 济南 250353 
luwpeng@bit.edu.cn 
黄河燕 北京理工大学 计算机学院 北京市海量语言信息处理与云计算应用工程技术研究中心, 北京 100081  
摘要点击次数: 1711
全文下载次数: 2112
中文摘要:
      针对困扰词义消歧技术发展的知识匮乏问题,提出一种基于依存适配度的知识自动获取词义消歧方法.该方法充分利用依存句法分析技术的优势,首先对大规模语料进行依存句法分析,统计其中的依存元组信息构建依存知识库;然后对歧义词所在的句子进行依存句法分析,获得歧义词的依存约束集合;并根据WordNet 获得歧义词各个词义的各类词义代表词;最后,根据依存知识库,综合考虑词义代表词在依存约束集合中的依存适配度,选择正确的词义.该方法在SemEval 2007 的Task#7 粗粒度词义消歧任务上取得了74.53%的消歧正确率;在不使用任何人工标注语料的无监督和基于知识库的同类方法中,取得了最佳的消歧效果.
英文摘要:
      A word sense disambiguation (WSD) method based on dependency fitness is proposed to solve the problem of knowledge acquisition bottleneck in the development of WSD techniques. The method achieves automatic knowledge acquisition in WSD by taking full advantage of dependency parsing. First, a large-scale corpus is parsed to obtain dependency cells whose statistics information is utilized to build a dependency knowledge base (DKB); then, the ambiguous sentence is parsed to obtain the dependency constraint set (DCS) of ambiguous words. For each sense of ambiguous word, sense representative words (SRW) are obtained through WordNet. Finally, based on DKB, dependency fitness of all kinds of SRW on DCS is computed to judge the right sense. Evaluation is performed on coarse-grained English all-words task dataset of SemEval 2007. Compared with unsupervised and knowledge-based methods which don't utilize any sense-annotated corpus, the proposed method yields state-of-the-art performance with F1-measure of 74.53%.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利