摘要:在回归任务中, 数值型标签噪声会扭曲数据的真实分布, 削弱模型的泛化能力. 数据过滤是目前常用的一类方法, 在一定程度上能减少噪声影响, 但易引发过度过滤问题, 导致有效样本流失和数据分布偏移. 提出一种回归噪声标签的渐进式区间校正(progressive interval correction, PIC)算法, 旨在解决数据过滤导致的样本流失问题, 并有效降低标签噪声水平. 首先基于真实标签的后验分布给出标签校正的有效性条件, 以确保降低标签噪声水平; 然后对满足有效性条件的标签进行最大后验校正; 最后通过逐步缩小可信区间范围的方式渐进地校正和优化标签. 在基准数据集与真实数据集上的实验结果表明, PIC算法能够显著降低数据的噪声水平, 有效提升模型性能.