主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
陈恩红,张振亚,合源一幸,王煦法.基于扩展角分类神经网络的文档分类方法(英文).软件学报,2002,13(5):871-878
基于扩展角分类神经网络的文档分类方法(英文)
An Extended Corner Classification Neural Network Based Document Classification Approach
投稿时间:2001-05-28  修订日期:2001-11-14
DOI:
中文关键词:  文档分类  CC4神经网络  数据索引  距离信息
英文关键词:document classification  CC4 neural network  data indexing  distance information
基金项目:Supported by the National Natural Science Foundation of China under Grant No.60005004 (国家自然科学基金); the National Grand Fundamental Research 973 Program of China under Grant No.G1998030509 (国家重点基础研究发展规划973项目)
作者单位
陈恩红 中国科学技术大学,计算机系,安徽,合肥,230027 
张振亚 中国科学技术大学,计算机系,安徽,合肥,230027 
合源一幸 东京大学,数学工程与信息物理系,东京,113-86-56,日本 
王煦法 中国科学技术大学,计算机系,安徽,合肥,230027 
摘要点击次数: 2648
全文下载次数: 3327
中文摘要:
      CC4神经网络是一种三层前馈网络的新型角分类(corner classification)训练算法,原用于元搜索引擎Anvish的文档分类.当各文档之间的规模接近时,CC4神经网络有较好的分类效果.然而当文档之间规模差别较大时,其分类性能较差.针对这一问题,本文意图扩展原始CC4神经网络,达到对文档有效分类的效果.为此,提出了一种基于MDS-NN的数据索引方法,将每一文档映射至k维空间数据点,并尽可能多地保持原始文档之间的距离信息.其次,通过将索引信息变换为CC4神经网络接受的0,1序列,实现对CC4神经网络的扩展,使其能够接受索引信息作为输入.实验结果表明对相互之间规模差别较大的文档,扩展CC4神经网络的性能优于原始CC4神经网络的性能.同时,扩展CC4神经网络的分类精度与文档索引方法有密切关系.
英文摘要:
      CC4 (the 4th version of corner classification) neural network is a new type of corner classification training algorithm for three-layered feedforward neural networks. It has been provided as a document classification approach for metasearch engine Anvish. On the condition that documents are almost of the same size, CC4 neural network is an effective document classification algorithm. However, when there is great difference in document sizes, CC4 neural network does not perform well. This paper aims to extend the original CC4 neural network for effectively classifying documents having much difference in sizes. To achieve this goal, the authors propose a MDS-NN based data indexing method thus making all documents be mapped to k-dimensional points while their distance information is kept well. The authors also extend CC4 neural network so that it can accept k-dimensional indexes of documents as its input, then transform these indexes to binary sequences required by CC4 neural network. The experimental results show that the performance of ExtendedCC4 is much better than that of InitialCC4 when there is a great difference in document sizes. At the same time, the high classification precision of ExtendedCC4 has much relationship with the effectiveness of indexing methods.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利