数值型标签噪声的渐进式区间校正方法
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(62476157, 62276161, U21A20513, 61906113); 山西省基础研究计划(202303021221055)


Progressive Interval Correction Method for Numerical Label Noise
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在回归任务中, 数值型标签噪声会扭曲数据的真实分布, 削弱模型的泛化能力. 数据过滤是目前常用的一类方法, 在一定程度上能减少噪声影响, 但易引发过度过滤问题, 导致有效样本流失和数据分布偏移. 提出一种回归噪声标签的渐进式区间校正(progressive interval correction, PIC)算法, 旨在解决数据过滤导致的样本流失问题, 并有效降低标签噪声水平. 首先基于真实标签的后验分布给出标签校正的有效性条件, 以确保降低标签噪声水平; 然后对满足有效性条件的标签进行最大后验校正; 最后通过逐步缩小可信区间范围的方式渐进地校正和优化标签. 在基准数据集与真实数据集上的实验结果表明, PIC算法能够显著降低数据的噪声水平, 有效提升模型性能.

    Abstract:

    In regression tasks, numerical label noise can distort the true distribution of data and weaken the generalization ability of models. Data filtering is a commonly used approachthatcan reduce the impact of noise to some extent. However, it is prone to the issue of over-filtering, leading to the loss of effective samples and the shift of data distribution. This study presents a progressive interval correction (PIC) algorithm for regression label noise. The aim is to tackle the problem of sample loss caused by data filtering and effectively reduce the label noise level. First, based on the posterior distribution of the true labels, the validity conditions for label correction are established to ensure a reduction in the label noise level. Then, the labels that meet the validity conditions are corrected using the maximum a posteriori method. Finally, the labels are progressively corrected and optimized by gradually narrowing the range of the credible interval. Experimental results on both benchmark and real-world datasets demonstrate that the PIC algorithm can significantly reduce the noise level of data and effectively enhance the performance of models.

    参考文献
    相似文献
    引证文献
引用本文

姜高霞,雷凡,张佳,王文剑.数值型标签噪声的渐进式区间校正方法.软件学报,2026,37(4):1548-1559

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-05-12
  • 最后修改日期:2025-06-30
  • 录用日期:
  • 在线发布日期: 2025-09-02
  • 出版日期: 2026-04-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号