分类不平衡协议流的机器学习算法评估与比较
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(60903166); 国家重点基础研究发展计划(973)(2007CB311101, 2011CB302605); 国家高技术研究发展计划(863)(2010AA012504, 2011AA010705)


Machine Learning Algorithms for Classifying the Imbalanced Protocol Flows: Evaluation and Comparison
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    网络协议流不平衡环境下,流样本分布的变化对基于机器学习的流量分类器准确性及稳定性有较大的影响.选择合适的机器学习算法以适应网络协议流不平衡环境下的在线流量分类,显得格外重要.为此,首先通过单因子实验设计,验证了C4.5 决策树、贝叶斯核估计(NBK)和支持向量机(SVM)这3 种分类算法统计TCP 连接开始的前4 个数据包足以分类流量.接着,比较了上述3 种分类算法的性能,发现C4.5 决策树的测试时间最短,SVM 分类算法最稳定.然后,将Bagging 算法应用到流量分类中.实验结果表明,Bagging 分类算法的稳定性与SVM 相似,且测试时间与建模时间接近于C4.5 决策树,因此更适于在线分类流量.

    Abstract:

    In the case of the imbalanced protocol flows, the changes of flow distribution have a huge impact on the accuracy and stability of traffic classifiers that use machine learning algorithms. It is very important to select a suitable machine learning algorithm to classify the imbalanced protocol flows on line. By means of single-factor experiment design, this paper verifies that it is possible for C4.5 decision tree, Na?ve Bayes with kernel density estimation (NBK) and support vector machine (SVM) to classify traffic with the first four packets of the TCP connection. After comparing the performances of the three classifiers abovementioned, the study finds that the testing time of C4.5 decision tree is the shortest and SVM is the most stable. Finally, Bagging algorithm is applied to classify traffic. The experimental results show that, the stability of Bagging is similar to SVM and the testing time and modeling time of Bagging is close to C4.5 decision tree. Therefore, Bagging classifier is the most suitable to classify traffic on line.

    参考文献
    相似文献
    引证文献
引用本文

张宏莉,鲁刚.分类不平衡协议流的机器学习算法评估与比较.软件学报,2012,23(6):1500-1516

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2010-06-24
  • 最后修改日期:2011-06-20
  • 录用日期:
  • 在线发布日期: 2012-06-05
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号