一种自适应在线核密度估计方法
作者:
作者单位:

作者简介:

邓齐林(1990-),男,安徽芜湖人,硕士,主要研究领域为神经网络,机器学习;申富饶(1973-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为神经计算,机器人智能;邱天宇(1991-),男,硕士,主要研究领域为机器学习,数据挖掘;赵金熙(1950-),男,博士,教授,博士生导师,主要研究领域为计算数学,大规模科学计算,计算智能.

通讯作者:

申富饶,E-mail:frshen@nju.edu.cn

中图分类号:

TP181

基金项目:

国家自然科学基金(61876076);江苏省自然科学基金(BK20171344)


Adaptive Online Kernel Density Estimation Method
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61876076); Natural Science Foundation of Jiangsu Province of China (BK20171344)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    给定一组观察数据,估计其潜在的概率密度函数是统计学中的一项基本任务,被称为密度估计问题.随着数据收集技术的发展,出现了大量的实时流式数据,其特点是数据量大,数据产生速度快,并且数据的潜在分布也可能随着时间而发生变化,对这类数据分布的估计也成为亟待解决的问题.然而,在传统的密度估计算法中,参数式算法因为有较强的模型假设导致其表达能力有限,非参数式算法虽然具有更好的表达能力,但其计算复杂度通常很高.因此,它们都无法很好地应用于这种流式数据的场景.通过分析基于竞争学习的学习过程,提出了一种在线密度估计算法来完成流式数据上的密度估计任务,并且分析了其与高斯混合模型之间的密切联系.最后,将所提算法与现有的密度估计算法进行对比实验.实验结果表明,与现有的在线密度估计算法相比,所提算法能够取得更好的估计结果,并且能够基本上达到当前最好的离线密度估计算法的估计性能.

    Abstract:

    Based on observed data, density estimation is the construction of an estimate of an unobservable underlying probability density function. With the development of data collection technology, real-time streaming data becomes the main subject of many related tasks. It has the properties of that high throughput, high generation speed, and the underlying distribution of data may change over time. However, for the traditional density estimation algorithms, parametric methods make unrealistic assumptions on the estimated density function while non-parametric ones suffer from the unacceptable time and space complexity. Therefore, neither parametric nor non-parametric ones could scale well to meet the requirements of streaming data environment. In this study, based on the analysis of the learning strategy in competitive learning, it is proposed a novel online density estimation algorithm to accomplish the task of density estimation for such streaming data. And it is also pointed out that it has pretty close relationship with the Gaussian mixture model. Finally, the proposed algorithm is compared with the existing density estimation algorithms. The experimental results show that the proposed algorithm could obtain better estimates compared with the existing online algorithm, and also get comparable estimation performance compared with state-of-the-art offline density estimation algorithms.

    参考文献
    相似文献
    引证文献
引用本文

邓齐林,邱天宇,申富饶,赵金熙.一种自适应在线核密度估计方法.软件学报,2020,31(4):1173-1188

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2017-03-03
  • 最后修改日期:2018-04-02
  • 录用日期:
  • 在线发布日期: 2019-05-24
  • 出版日期: 2020-04-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号