基于标签关联性的分层分类共有与固有特征选择
作者:
作者单位:

作者简介:

林耀进(1980-),男,博士,教授,主要研究领域为机器学习,数据挖掘;
李绍滋(1963-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为计算机视觉,机器学习;
白盛兴(1995-),男,硕士生,主要研究领域为机器学习,数据挖掘;
胡清华(1976-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为机器学习,数据挖掘;
赵红(1979-),女,博士,教授,CCF专业会员,主要研究领域为粒计算,机器学习.

通讯作者:

林耀进,E-mail:zzlinyaojin@163.com

中图分类号:

TP18

基金项目:

国家自然科学基金(62076116,61672272,61925602,61732011)


Label-correlation-based Common and Specific Feature Selection for Hierarchical Classification
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在大数据时代,数据的样本数量、特征维度和类别数量都在急剧增加,且样本类别间通常存在着层次结构.如何对层次结构数据进行特征选择具有重要意义.近年来,已有相关特征选择算法提出,然而现有算法未充分利用类别的层次结构信息,且忽略了不同类节点具有共有与固有属性的特点.据此,提出了基于标签关联性的分层分类共有与固有特征选择算法.该算法利用递归正则化对层次结构的每个内部节点选择对应的固有特征,并充分利用层次结构分析标签关联性,进而利用正则化惩罚项学习各子树的共有特征.该模型不仅能够处理树结构层次化数据,也能直接处理更为复杂常见的有向无环图结构的层次化数据.在6个树结构数据集和4个有向无环图结构数据集上的实验结果,验证了该算法的有效性.

    Abstract:

    In the era of big data, the sizes of data sets in terms of the number of samples, features, and classes have dramatically increased, and the classes usually exists a hierarchical structure. It is of great significance to select features for hierarchical data. In recent years, relevant feature selection algorithms have been proposed. However, the existing algorithms do not take full advantage of the information of the hierarchical structure of classes, and ignore the common and specific features of different class nodes. This study proposes a label- correlation-based feature selection algorithm for hierarchical classification with common and specific features. The algorithm uses recursive regularization to select the corresponding specific features for each internal node of the hierarchical structure, and makes full use of the hierarchical structure to analyze the label correlation, and then utilizes regularized penalty to select the common features of each subtree. Finally, the proposed model not only can address hierarchical tree data, but also can address more complex hierarchical DAG data directly. Experimental results on six hierarchical tree data sets and four hierarchical DAG data sets demonstrate the effectiveness of the proposed algorithm.

    参考文献
    相似文献
    引证文献
引用本文

林耀进,白盛兴,赵红,李绍滋,胡清华.基于标签关联性的分层分类共有与固有特征选择.软件学报,2022,33(7):2667-2682

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2020-11-27
  • 最后修改日期:2021-01-27
  • 录用日期:
  • 在线发布日期: 2022-07-16
  • 出版日期: 2022-07-06
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号