融合信息增益比和遗传算法的混合式特征选择算法
作者:
作者单位:

作者简介:

许召召(1991-),男,博士生,CCF学生会员,主要研究领域为数据挖掘,机器学习;
聂铁铮(1980-),男,博士,副教授,CCF高级会员,主要研究领域为数据质量,数据集成;
申德荣(1964-),女,博士,教授,博士生导师,CCF高级会员,主要研究领域为分布式数据管理,数据集成;
寇月(1980-),女,博士,副教授,CCF专业会员,主要研究领域为实体搜索,数据挖掘.

通讯作者:

许召召,E-mail:zhaozhaotoms@foxmail.com

中图分类号:

基金项目:

国家自然科学基金(62172082,62072084,62072086);国家重点研发计划(2018YFB1003404)


Hybrid Feature Selection Algorithm Combining Information Gain Ratio and Genetic Algorithm
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着信息技术以及电子病历和病案在医疗机构的应用,医院数据库产生了大量的医学数据.决策树因其分类精度高、计算速度快,且分类规则简单、易于理解,而被广泛应用于医学数据分析中.然而,医学数据固有的高维特征空间和高度特征冗余等特点,使得传统的决策树在医学数据上的分类精度并不理想.基于此,提出了一种融合信息增益比排序分组和分组进化遗传算法的混合式特征选择算法(GRRGA).该算法首先使用基于信息增益比的过滤式算法对原始特征集合进行排序,然后按照密度等分的原理对排序后的特征进行分组,最后再使用分组进化遗传算法对排序后的特征组进行遗传搜索.其中,分组进化遗传算法共分为种群内和种群外两种进化方法,并使用两种不同的适应度函数来控制进化过程.此外,针对决策树的不稳定性,提出使用Bagging方法对C4.5算法进行集成学习.实验结果显示,GRRGA算法在6组UCI数据集上的Precision指标均值为87.13%,显著优于传统的特征选择算法.此外,与另外两种分类算法对比可知,GRRGA算法的特征筛选性能依然是最优的.更重要的是,Bagging方法在Arrhythmia和Cancer医学数据集上的Precision指标分别为84.7%和78.7%,充分证明了该算法的实际应用意义.

    Abstract:

    In recent years, the application of information technology and electronic medical records and medical records in medical institutions has become more and more widespread, which has resulted in a large amount of medical data in hospital databases. Decision tree is widely used in medical data analysis because of its high classification precision, fast calculation speed, and simple and easily understood classification rules. However, due to the inherent high dimensional feature space and high feature redundancy of medical data, the classification precision of traditional decision trees is low. Based on this, this paper proposes a hybrid feature selection algorithm (GRRGA) that combines information gain ratio ranking grouping and group evolution genetic algorithm. Firstly, the information gain ratio based filtering algorithm is used to sort the original feature set; then, the ranked features are grouped according to the density principle of equal division; finally, a group evolution genetic algorithm is used to perform a search on the ranked feature groups. There are two kinds of evolution methods: in-population and out-population, which use two different fitness functions to control the evolution process in group evolution genetic algorithm. The experimental results show that the average precision index of the GRRGA algorithm on the six UCI datasets is 87.13%, which is significantly better than the traditional feature selection algorithm. In addition, compared with the other two classification algorithms, the feature selection performance of the GRRGA algorithm proposed in this study is optimal. More importantly, the precision index of the bagging method on the arrhythmia and cancer medical datasets is 84.7% and 78.7% respectively, which fully proves the practical application significance of the proposed algorithm.

    参考文献
    相似文献
    引证文献
引用本文

许召召,申德荣,聂铁铮,寇月.融合信息增益比和遗传算法的混合式特征选择算法.软件学报,2022,33(3):1128-1140

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2020-01-23
  • 最后修改日期:2020-03-09
  • 录用日期:
  • 在线发布日期: 2022-03-11
  • 出版日期: 2022-03-06
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号