主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
麦热哈巴·艾力,姜文斌,王志洋,吐尔根·依布拉音,刘群.维吾尔语词法分析的有向图模型.软件学报,2012,23(12):3115-3129
维吾尔语词法分析的有向图模型
Directed Graph Model of Uyghur Morphological Analysis
投稿时间:2011-04-08  修订日期:2012-02-22
DOI:10.3724/SP.J.1001.2012.04205
中文关键词:  维吾尔语  词法分析  词语切分  词性标注  有向图
英文关键词:Uyghur language  morphological analysis  word segmentation  POS tagging  directed graph
基金项目:国家自然科学基金(61063026); 国家社会科学基金(10AYY006); 国家工信部电子发展基金(工信部财(2009)553);新疆高校青年教师科研培养基金(XJEDU2010S07); 新疆大学优秀博士创新项目基金
作者单位E-mail
麦热哈巴·艾力 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046
中国科学院 计算技术研究所,北京 100190 
marhaba@xju.edu.cn 
姜文斌 中国科学院 计算技术研究所,北京 100190
中国科学院 研究生院,北京 100049 
 
王志洋 中国科学院 计算技术研究所,北京 100190
中国科学院 研究生院,北京 100049 
 
吐尔根·依布拉音 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046  
刘群 中国科学院 计算技术研究所,北京 100190  
摘要点击次数: 2241
全文下载次数: 2847
中文摘要:
      维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F 值达到92.6% 的好成绩.
英文摘要:
      Uyghur is a typical agglutinative language. It has a strong derivational ability with very a rich morphological structure and follows a harmonious rule. In the formation process, some phenomena may occur such as weakened, increased tone and fallen tone. The specific character of Uyghur language determines the difficulty of the Uyghur morphological analysis, including stemming and restoring the changed letter and POS tagging. This paper employs the hierarchical structure of Uyghur word, and proposes a directed graph model for Uyghur morphological analysis. In this model, words and tags are described as a directed graph. In this graph, nodes represent stems, affixes and their corresponding tags, while edges represent the transition, or general probabilities between nodes. Aimed at providing some light on the phenomenon of morphological sandhi in Uyghur language, this paper also proposes a restore model by changing the word to its original form. With the assumption that one letter can be changed to any letter, this model converts restoring problem into a sequence labeling problem, which could be solved by statistical methods. Experiment results on "Mega-words Corpus of Morphological Analysis of Uyghur", which is manually annotated by Xinjiang multilingual key laboratory shows that the accuracy of stemming reaches 94.7%, and the F score of stem and affix in line with tag reaches 92.6%.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利