采用无标注语料的动词和形容词主观性评级
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(91024009); 国家高技术研究发展计划(863)(2012AA011101); 国家社会科学基金(12&ZD227)


Subjectivity Ranking of Verbs and Adjectives with an Unlabeled Corpus
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    为了自动区分中文主观词和客观词,采用主观性线索和汉字的主观性两种手段对动词和形容词进行主观性度量.主观性的线索进一步被分成级差(gradability)线索和主体(subject)线索;根据这些线索,使用基于图的算法进行评级(ranking).在汉语主观性词表构建中,提出使用主体线索和汉字主观性.5 个标注人员对随机选择的500 个单词进行主观性标注,据此构建主客观标准集,并将其用于各种设置下的实验结果评估.实验结果显示,当被标注的单词出现频率较高时,所提出的方法能够超过或者匹配人工标注.此外,尽管文中只使用了无标注的数据,但还有更多的先验知识(如语义词典等)可以被引入到该方法中.

    Abstract:

    In this paper, aiming to automatically distinguish subjective words from objective ones in Chinese, the study performs a subjectivity ranking test on Chinese adjectives and verbs. The paper exploits subjectivity clues and the subjectivity of Chinese characters. The subjectivity clues are further divided into gradability clues and subject clues. The study then uses graph-based algorithms to calculate the subjectivity originated from subjectivity clues. The subject clues and subjectivity of Chinese characters are novel ideas in such tasks. Five annotators are asked to label subjectivity of 500 words, from which the gold standard is built upon and evaluates rankings in various settings. It is shown that when words to be ranked occur frequently, this approach can outperform or match some human annotators. Furthermore, although the study only an unlabeled corpus, more prior knowledge can be incorporated into the graph-based approach.

    参考文献
    相似文献
    引证文献
引用本文

徐戈,蒙新泛,王厚峰.采用无标注语料的动词和形容词主观性评级.软件学报,2013,24(5):1036-1050

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2011-10-12
  • 最后修改日期:2012-07-03
  • 录用日期:
  • 在线发布日期: 2013-05-07
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号