摘要:近年来, 深度神经网络在多个领域取得了显著进展, 但其作为典型的黑盒模型, 内部机制仍难以为人所理解, 给医疗诊断、金融风控、自动驾驶等高风险应用场景带来了严峻挑战. 提升模型的可解释性, 已成为实现高可信机器学习的核心问题之一. 现有可解释性方法大致可分为两类: 基于信息流的解释和基于概念的解释. 基于信息流的解释主要侧重于神经元或特征重要性分析, 如定位图片中对分类结果起关键作用的像素区域. 虽然能揭示模型“关注了什么”, 但难以提供具备人类语义的认知解释; 相比之下, 基于概念的解释通过构建语义空间, 将模型内部表示映射为可理解的概念结构, 能够以“模型理解了什么”的方式提供更具语义深度和认知契合的解释, 在增强语义透明性和用户信任方面展现出独特优势. 深度学习的不可解释性源于其语义表达的缺失, 因此, 如何构建对人类认知友好的概念空间与表示机制, 已成为可解释模型研究的关键突破口. 围绕可解释深度学习中的概念建模方法展开综述, 依据建模介入阶段将相关研究划分为事后解释与事中解释两大路径: 前者通过神经元解剖、语义聚类等手段挖掘已有模型的概念表示, 后者则在训练过程中引入结构化先验或语义约束, 以实现模型的内生可解释性. 基于该分类框架, 系统梳理了典型方法的建模思路与代表性成果, 比较其在语义透明性与实际应用中的性能差异, 并总结当前研究面临的挑战与未来发展方向, 旨在为理解和构建语义可解释的深度模型提供系统性参考与方法指引.