摘要:近年来, 深度学习发展迅速, 在计算机视觉研究中取得了巨大的成功. 在发展过程中, 模型的测试和改进方向是研究者们关注的核心. 然而, 视觉模型比较范式是封闭数据集上训练(验证)和测试, 然后通过测试结果和真实标签的偏差来获得难样本, 用于反馈模型的问题和改进方向. 这种方式存在的问题包括: 1) 数据集中少量的数据无法真实反映模型的问题; 2)模型预训练等一些操作可能导致数据泄露, 因此展现的性能可能有偏差. 提出基于最大差异化竞争的通用视觉难样本挖掘算法, 自动挖掘真实的难样本, 用于指出模型的问题. 所提算法遵循“通过模型博弈来比较模型”的思想, 联合视觉任务内和多视觉任务间预测结果的“不相似性”优化挖掘潜在的难样本, 旨在以可控的、高效的方式为计算机视觉领域提供新的测试基准. 实验证明, 所构建的测试基准GHS-CV相比于单视觉任务的难样本挖掘(语义分割难样本集SS-C, 显著目标检测难样本集SOD-C)更能暴露出模型的缺陷. 其中, 相对DeepLabv3+模型在SS-C数据集上的性能, DeepLabv3+在GHS-CV数据集上的mIoU 下降了约 20%; 相对VST模型在SOD-C 数据集上的性能, VST在GHS-CV数据集上的Fβ下降了约 36%.