基于最小不满足核的随机森林局部解释性分析
CSTR:
作者:
作者单位:

作者简介:

马舒岑(1997-),女,硕士,主要研究领域为形式化方法,机器学习可解释性;
秦胜潮(1974-),男,博士,教授,主要研究领域为软件理论与形式化方法,软件工程,程序语言;
史建琦(1984-),男,博士,副研究员,博士生导师,主要研究领域为工业软件,可信人工智能,嵌入式控制系统;
侯哲(1988-),男,博士,讲师,博士生导师,主要研究领域为自动推理,形式化验证,机器学习,区块链;
黄滟鸿(1986-),女,博士,副研究员,主要研究领域为可信计算,形式化建模与验证,高可信嵌入式控制软件.

通讯作者:

史建琦,E-mail:jqshi@sei.ecnu.edu.cn;黄滟鸿,E-mail:yhhuang@sei.ecnu.edu.cn

中图分类号:

TP311

基金项目:

国家重点研发计划(2019YFB2102602)


Minimal-unsatisfiable-core-driven Local Explainability Analysis for Random Forest
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着机器学习在安全关键领域的应用愈加广泛,对于机器学习可解释性的要求也愈加提高.可解释性旨在帮助人们理解模型内部的运作原理以及决策依据,增加模型的可信度.然而,对于随机森林等机器学习模型的可解释性相关研究尚处于起步阶段.鉴于形式化方法严谨规范的特性以及近年来在机器学习领域的广泛应用,提出一种基于形式化和逻辑推理方法的机器学习可解释性方法,用于解释随机森林的预测结果.即将随机森林模型的决策过程编码为一阶逻辑公式,并以最小不满足核为核心,提供了关于特征重要性的局部解释以及反事实样本生成方法.多个公开数据集的实验结果显示,所提出的特征重要性度量方法具有较高的质量,所提出的反事实样本生成算法优于现有的先进算法;此外,从用户友好的角度出发,可根据基于反事实样本分析结果生成用户报告,在实际应用中,能够为用户改善自身情况提供建议.

    Abstract:

    With the broader adoption of machine learning (ML) in security-critical fields, the requirements for the explainability of ML are also increasing. The explainability aims at helping people understand models’ internal working principles and decision basis, which adds their realibility. However, the research on understanding ML models, such as random forest (RF), is still in the infant stage. Considering the strict and standardized characteristics of formal methods and their wide application in the field of ML in recent years, this work leverages formal methods and logical reasoning to develop a machine learning interpretability method for explaining the prediction of RF. Specifically, the decision-making process of RF is encoded into first-order logic formula, and the proposed approach is centered around minimal unsatisfiable cores (MUC) and local interpretation of feature importance and counterfactual sample generation method are provided. Experimental results on several public datasets illustrate the high quality of the proposed feature importance measurement, and the counterfactual sample generation method outperforms the state-of-the-art method. Moreover, from the perspective of user friendliness, the user report can be generated according to the analysis results of counterfactual samples, which can provide suggestions for users to improve their own situation in real-life applications.

    参考文献
    相似文献
    引证文献
引用本文

马舒岑,史建琦,黄滟鸿,秦胜潮,侯哲.基于最小不满足核的随机森林局部解释性分析.软件学报,2022,33(7):2447-2463

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-09-05
  • 最后修改日期:2021-10-14
  • 录用日期:
  • 在线发布日期: 2022-01-28
  • 出版日期: 2022-07-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号