利用串匹配技术实现网上新闻的主题提取
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

Supprted by the National Natural Science Foundation of Chian under Gran No.60082003(国家自然科学基金)


Extracting Subject from Internet News by String Match
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据" 词典加匹配"的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取. 提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言.

    Abstract:

    Subject extraction from a text is very important for natural languag e processing. Traditional methods mainly depend on the mode of "thesaurus plus m atch". It is not fit to process Internet news because of its limited volume and slow update speed. After analyzing the news structure carefully, this paper pres ents a new practical method to extract news subjects without thesaurus, and give the main implementing procedure. Instead of large thesaurus, it uses the specia l structure of Internet news to find the repeated strings. These repeated string s could express the news subjects very well. Experimental results show that this method can extract the most important subject strings from most of Internet new s rapidly and efficiently. Moreover, this method is equally efficient to other A sian languages such as Japanese and Korean, as well as other western languages.

    参考文献
    相似文献
    引证文献
引用本文

尹中航,王永成,蔡巍,韩客松.利用串匹配技术实现网上新闻的主题提取.软件学报,2002,13(2):159-167

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2000-12-21
  • 最后修改日期:2001-07-12
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号