主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2019-2020年专刊出版计划 微信服务介绍 最新一期:2019年第2期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
王淞,黄浩,余果,梁楠,王黎维,孙月明.一种基于k近邻图的稀有类检测算法.软件学报,2016,27(9):2320-2331
一种基于k近邻图的稀有类检测算法
Rare Category Detection Algorithm Based on k-Nearest Neighbor Graphs
投稿时间:2014-12-01  修订日期:2015-03-10
DOI:10.13328/j.cnki.jos.004872
中文关键词:  稀有类检测  k邻近图  数据分布  变化系数  入度
英文关键词:rare category detection  k-nearest neighbor graph  data distribution  variation coefficient  in-degree
基金项目:国家自然科学基金(61502347,61272275,61202033,61070013,U1135005);中央高校基本科研业务费专项资金(2042015kf0038);武汉大学人才计划/引进人才科研启动经费
作者单位E-mail
王淞 武汉大学 计算机学院, 湖北 武汉 430072  
黄浩 武汉大学 计算机学院, 湖北 武汉 430072 haohuang@whu.edu.cn 
余果 武汉大学 中南医院, 湖北 武汉 430072  
梁楠 武汉大学 计算机学院, 湖北 武汉 430072  
王黎维 武汉大学 国际软件学院, 湖北 武汉 430072  
孙月明 武汉大学 计算机学院, 湖北 武汉 430072  
摘要点击次数: 1002
全文下载次数: 1402
中文摘要:
      稀有类检测的目标是为类别标签的数据集中的每个类,特别是仅含少量数据样本的稀有类,寻找到至少一个数据样本以证明数据集中存在这些类.该技术在金融欺诈检测及网络入侵检测等现实问题中具有广泛的应用场景.但是,现有的稀有类检测算法往往存在以下问题:(1)时间复杂度比较高;或(2)对原始数据集需要一定的先验知识,如数据集中各类数据样本所占比例等.提出了一种基于k邻近图的先验快速稀有类检测算法KRED,通过利用稀有类数据样本在小范围内紧密分布所造成的与周边数据分布的不一致性来定位稀有类.为此,KRED将给定数据集转化为k邻近图,并计算图中各顶点入度和边长的变化.最后,将以上变化最大的顶点对应的数据样本作为稀有类的候选样本.实验结果表明:KRED有效提高了发现数据集中各个类的效率,明显缩短了算法运行所需时间.
英文摘要:
      Rare category detection aims at finding at least one data example for each class in an unlabeled data set to prove the existence of these classes, especially the rare classes (a.k.a. rare categories) that have only a few data examples. It has various applications in the fields like financial fraud detection and network intrusion detection. Nevertheless, the existing approaches to this problem suffer either in terms of time complexity or the requirements for prior information about data sets (e.g., the proportion of data examples in each class). In this paper, a prior-free and efficient algorithm, called KRED is proposed for rare category detection. The algorithm explores the changes on local data distribution caused by the presence of the compact clusters of rare classes. To this end, it transforms a data set into a k-nearest neighbor graph, and investigates the variations in both edge lengths and in-degrees between the nodes. Finally, nodes with the maximal variations are selected as the candidate data examples of rare classes. Experimental results show that KRED effectively improves the efficiency of discovering new classes in data sets, and notably reduces the execution time.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利