基于信息熵的特征子集选择启发式算法的研究
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

本文研究得到国家自然科学基金、国际合作项目彩色匹配基金和哈尔滨工业大学科技基金资助.


Research on a Heuristic Algorithm of Feature Subset Selection Based on Entropy
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    特征子集选择问题是机器学习和模式识别中的一个重要问题.最优特征子集选择问题已被证明是NP难题.然而,目前的特征子集选择的启发式算法是基于正反例一致的,没有考虑到实际应用中的噪音数据影响,使得选择一个较好的特征子集非常困难.首先从统计学的角度分析了噪音对特征子集选择的影响,给出含有错误率的一致特征子集概念,然后利用信息熵和拉普拉斯错误估计函数构造了特征子集选择启发式算法EFS(entropy based feature subset selection).将该算法应用于两个实际领域的学习问题,并与GFS(g

    Abstract:

    FSS(feature subset selection) is an important problem in the fields of machine learning and pattern recognition. Minimum FSS problem has been proved NP hard. However, existing heuristic algorithms are based on the consistency of positive and negative examples set, and a more optimal feature subset is hard to be produced under the noisy data in application to real-world domains. In this paper, from the degree of statistics, the effects of noisy data on FSS is analyzed firstly, and a concept of consistent feature subset which contains error rate is given. Then a heuristic algorithm——EFS (entropy based feature subset selection) based on information-theoretic entropy measure and Laplace error rate is presented. It is also applied to two real-world domains and is compared with GFS (greedy feature subset selection). The experimental results show that EFS can produce more representative feature subset, and can solve the noisy problem in the practical application effectively.

    参考文献
    相似文献
    引证文献
引用本文

钱国良,舒文豪,陈 彬,权光日.基于信息熵的特征子集选择启发式算法的研究.软件学报,1998,9(12):911-916

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:1997-09-10
  • 最后修改日期:1997-12-18
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号