2. 上海市高可信重点实验室(华东师范大学), 上海 200062
2. Shanghai Key Laboratory of Trustworthy Computing (East China Normal University), Shanghai 200062, China
近几年深度神经网络发展迅速, 强大的特征提取能力以及高维度数据处理能力让深度神经网络在许多应用中表现出优越的性能. 但随着深度学习应用逐渐渗透到生活中, 比如自动驾驶[1, 2]、医疗诊断[3]、欺诈检测[4]等, 研究者们开始追求可信的深度学习模型, 而不是将精度作为模型的唯一度量标准. 公平性作为可信模型中的重要指标, 即确保没有任何群体或者个人因其固有或后天获得的特征而受到偏见或青睐[5]. 由于深度学习模型依赖于数据, 在学习过程中模型可能会有意或无意的偏向某个群体或个人, 从而导致模型中存在偏见. 例如: 使用统计数据预测亚马逊招聘应用[6]中, 出现了AI招聘系统对男性求职者更青睐的现象, 这是对性别的歧视; 使用个人行为数据预测累犯概率[7]时, 会显示出错误的、有种族歧视的预测结果, 这是对种族的歧视. 这些带有偏见的现实应用会加剧社会不平等, 造成更严重的社会危害.
为了评估模型公平性, 深度学习领域首先对其定义展开了一系列的研究[8]. Grgić-Hlača等人[9]首先提出了忽略受保护属性公平, 即在决策过程中不显式地使用受保护属性. 然而这并不是避免歧视的充分条件, 因为数据样本中仍可能存在与受保护属性有着强相关性的其他属性, 如个人住址通常与种族相关. 目前公平性定义大致分为两类, 第1类为个体公平[10], 即模型对相似的个体应给出相似的预测, 基于这一类公平性定义的应用, 其挑战在于如何计算个体之间及预测之间的相似度. Zemel等人[11]和Lahoti等人[12]提出了利用聚类的技术寻找相邻样本, 这一方法需事先确定原型样本集合, 原型样本集合的选择会直接影响聚类的结果. Zhang等人[13]从预处理的角度出发, 通过扰动找到潜在的歧视样本来增强数据集, 再使用较为公平的数据重训练模型. 另一类公平为群体公平[14-17], 该类公平首先需根据特定的受保护属性对样本进行分组, 其次计算不同受保护组在模型预测中的统计数据, 并比较组间差异. 例如, Zafar等人[15]提出了统计均等, 它要求深度神经网络的预测应独立于受保护属性, 也就是统计均等要求不同群体应具有相似的输出结果. 基于上述公平性定义, 深度学习研究人员分别从3个角度来缓解模型中存在的偏见和不公平, 包括预处理机制、处理中机制和后处理机制. 预处理机制是通过修改原始样本来消除数据中有关于受保护属性的信息, 比如因果公平[18-20]. 这种预处理机制需要大量的背景信息, 而这些信息并不总可以访问. 处理中机制仅修改机器学习算法, 如在模型中增加额外的公平性约束来得到公平的样本表示, 以消除算法中存在的偏见, 对抗学习[21-23]是常见的处理中机制. 后处理机制认为歧视性决策通常在决策边界附近, 因此该方法认为可以直接修改模型的输出来提高公平性, 如阈值化[24], 但这类方法较难权衡准确性和公平性.
本文发现大多数公平性研究都基于群体公平展开, 且Speicher等人[25]注意到这些缓解群体偏见的方法只处理群体之间的问题, 并没有考虑到群体内部的变化. 例如他们证明了仅使用最小化群体差距的缓解方法会增加群体内部的不公平概率, 从而导致整体不公平性的增加. 因此本文基于“相似的个体应该有相似的结果”这一直觉, 针对公平任务中的分类模型, 通过计算非歧视样本占测试样本的比例得到个体公平率(individual fairness rate, IFR)包括标签级别的个体公平率
在实验过程中, 本文使用上述指标衡量了不同分类模型的个体公平性, 实验结果与Grgić-Hlača等人[9]的研究结论相同, 缓解群体偏见的方法会导致
综上, 本文的主要工作包括以下内容.
(1) 定义了两种个体公平率, 分别为要求相似测试样本对输出标签一致的个体公平率
(2) 提出了一个提高模型个体公平性的算法IIFR, 该算法基于正则化技术惩罚模型输出差异过大的相似训练样本对, 以达到提高模型个体公平性的目的.
(3) 3个真实数据集上的实验结果表明IIFR算法能够在维持较好的群体公平性下, 有效地提高模型的个体公平性, 从而在个体公平和群体公平间达到较好的权衡.
本文第1节介绍缓解个体偏见的相关方法, 及实验中所测试的缓解群体偏见的方法. 第2节介绍本文所需的基础知识, 包括深度神经网络和相似度计算方法. 第3节介绍本文提出的个体公平率IFR并给出示例. 第4节介绍本文提出的优化模型个体公平性的算法IIFR. 第5节通过实验说明IIFR算法的有效性. 最后总结全文.
1 相关工作● 缓解个体偏见措施. 关于个体公平性的研究较少, 最初Dwork等人[10]认为实现群体间的简单统计均等可能会在个体层面上产生直觉上的不公平. 他们提出如果强行保证两个群体在分类模型中预测为积极的概率相等, 那么可能会导致某些原本标签为负类的个体预测为积极的结果, 这是不公平的. 因此一些研究[10, 12, 26]提出了个体层面上的公平性标准, 这些标准都基于“相似的个体应该得到相似的预测或决定”这一直觉, 但个体公平至今没有统一的标准, 并且Kearns 等人[27]认为距离函数应该根据具体任务由专家判断得出. 因此文本针对深度学习中的分类模型, 对模型中的输入距离和输出距离定义了具体判定方法. 另一些研究探索了优化模型个体公平性性能的方法, 如2016年Joseph等人[26]使用强化学习bandit方法对公平的选择给予奖励, 对不公平选择给予惩罚, 例如在招聘中, 录用不太合格的申请人而不录用合格的申请人是不公平的. 2019年Lahoti等人[12]使用公平表示对模型去偏, 他们将输入的样本映射到另一表示空间, 目的是去除原始样本中的受保护属性信息. 2021年Zhang等人[13]提出了基于梯度搜索的高效白盒公平性测试方法, 该方法属于缓解模型个体偏见的预处理机制, 通过梯度搜索生成个体差异的测试样例, 并利用生成的单个歧视性实例进行数据增强, 最后重训练原始模型以达到缓解偏见的目的.
● 缓解群体偏见措施. 对抗学习作为处理中机制的重要方法, 是由生成对抗网络框架[28]引起的热潮. 2016年Edwards等人[14]提出了ALFR模型来缓解深度学习中的偏见, 该模型基于一个对手网络判断训练过程是否公平, 若不公平则使用对手的反馈改进模型. ALFR模型对对抗网络的输入较为敏感, 只有平衡的输入才能显著提升模型的公平性[21]. 2018年Madras等人[22]提出了LAFTR模型, 该模型将不同的群体公平性度量融合到对抗损失目标函数中, 从而让模型更有针对性. 2020年Zhao等人[29]提出了一种公平表示算法CFAIR, 该算法扩展了对抗网络模型并使用BER计算目标损失, 以同时实现近似的准确率均等和几率均等. 上述对抗模型通过设置分类网络预测标签, 并阻止对手网络预测受保护属性, 这在实践中较难优化[30].
2 基础知识 2.1 深度学习系统深度学习(deep learning, DL)系统一般定义为包括至少一个深度神经网络(deep neural network, DNN)的任何软件系统. DL系统与传统软件系统在开发过程中的区别如图1所示, 两者之间的主要不同点在于开发人员是否直接指定系统逻辑, 在传统软件系统开发过程中, 系统的决策依赖开发人员编写的逻辑, 而DL系统的开发人员只需编写数据的处理过程, 确定DNN的结构及不断优化DNN参数, 通过大批数据训练得到一个具体的DNN模型.
|
图 1 传统软件系统与DL系统对比 |
DNN通常包含一个输入层, 多个隐藏层和一个输出层. 如图2所示, 从网络层面来看, 每一层的神经元都会与下一层的神经元连接, 其中每个神经元又是一个单独的计算单元, 它们通过不同的权值和激活函数将结果传递给与其连接的下一层的神经元. 从数据层面来看, 输入层接收到数据后, 通过隐藏层提取重要特征, 最后在输出层预测各个类别的概率. 这里对图2中的全连接二分类深度神经网络作出形式化定义, 本文将输入空间定义为
|
图 2 一个二分类深度神经网络 |
在经典的全连接DNN中, 每一个神经元都与下一层的所有神经元相连接, 每一条边都有一个权值和一个偏置项, 表明神经元之间的连接强度, 即每个特征的重要程度. 每一层的前向传播可表示为:
| $ {\textit{z}}_i^{(l)} = \varphi \left(\sum\limits_{j = 1}^n {W_{ij}^{(l - 1)}{\textit{z}}_j^{(l - 1)} + b_i^{(l - 1)}} \right) $ | (1) |
其中,
余弦相似度也称余弦距离, 它通过计算向量空间中两个向量的余弦值来衡量它们之间的差异程度. 余弦相似度经常用于计算两段文本和两个个体用户的相似度, 计算公式如下:
| $ \cos X \cdot Y = \frac{{X \cdot Y}}{{\left\| X \right\| \cdot \left\| Y \right\|}} = \frac{{\displaystyle\sum\nolimits_{i = 1}^n {({x_i} \times {y_i})} }}{{\sqrt {\displaystyle\sum\nolimits_{i = 1}^n {{{({x_i})}^2}} } \times \sqrt {\displaystyle\sum\nolimits_{i = 1}^n {{{({y_i})}^2}} } }} $ | (2) |
若余弦值接近1, 则两个向量的夹角接近0度, 表明两个向量越相似; 若余弦值接近0, 则两个向量的夹角接近90°, 表明两个向量不相似.
Kullback-Leibler (KL)散度又称相对熵, 它表示同一随机变量的两个概率分布P和Q之间的差异. 在大多数机器学习任务中, P往往表示样本的真实分布, Q表示模型预测的分布. KL散度的原理是基于Q的编码来编码P样本平均所需的比特个数, 计算公式如下:
| $ {D_{\rm KL}}(P||Q) = \sum\limits_{i = 1}^n {P({x_i})\log \left(\frac{{P({x_i})}}{{Q({x_i})}}\right)} $ | (3) |
当Q的分布接近P的分布时, 那么KL散度指标值小, 即模型的预测较准确. 但考虑到KL散度选取不同的编码基准会导致不同的结果, 如
| $ {D_{\rm JS}}(P||Q) = \frac{1}{2}{D_{\rm KL}}\left(P||\frac{{P + Q}}{2}\right) + \frac{1}{2}{D_{\rm KL}}\left(Q||\frac{{P + Q}}{2}\right) $ | (4) |
JS散度的取值范围为[0, 1], 当相似训练样本对
本节将介绍本文提出的个体公平率(IFR)的两种计算方法, 并举例说明该指标的有效性. IFR是针对深度学习中的分类任务设定的, 本文根据Dwork等人[10]提出的“相似的个体应该有相似的结果”这一个体公平直觉进行具体化说明和计算方法设计.
3.1 公平性模型的概念表示在深度学习的公平性相关任务中, 输入空间X包含非敏感属性集合U及受保护属性集合A即
| $ \hat y = \arg \max p = \arg \max f(x, \theta ) $ | (5) |
个体公平率IFR作为一项测试指标, 通常使用测试集
相似测试样本对: 对于测试集
这里, 给出一对相似测试样本对的具体示例. 对于一个拥有10个特征(包括9个非敏感属性和1个受保护属性)和2个类别标签的样本数据集D, 一对相似的测试样本对示例如下:
| $\left\{ \begin{split} & \mathit{t}:\left[{56, 1}, {9, 15, 6}, {2, 2}, 0, {5, 3}\right]\\ &{\mathit{t}}{{'}}:\left[{56, 1}, {9, 15, 6}, {2, 2}, 1, {5, 3}\right] \end{split} \right.,$ |
其中, 第8个属性为受保护属性, 相似测试样本对
本节将定义相似测试样本对的“相似结果”. 本文针对分类任务的预测输出定义了两种相似结果的判定方法. 第1种是根据预测的标签进行判断, 当一对相似测试样本对
第2种相似结果的判定方法进一步严格约束了
为了进一步衡量输出概率间的距离, 本文基于JS散度计算两个预测概率分布之间的差异. JS散度能够考虑到所有类别预测结果之间的差距, 这在多分类任务中效果显著, 因为对于两个相似的测试样本, 其相似的预测结果不但追求样本对在预测概率最大的类别中相似, 且在其他类别预测中也追求相似的预测概率. 因此JS散度适合于这类判断. 此外, 在使用JS散度得到相似测试样本对预测概率之间的相似程度后, 还需针对不同的分类任务设置不同的阈值
算法1. 个体公平率计算
输入: 测试集
输出: 个体公平率
1.
2.
3. for
4.
5.
6. if
7.
8. if
9. // 同时满足预测标签一致, 并且所有类别预测概率相近
10. end if
11. end if
12. end for
13. return
为了缓解模型中存在的个体偏见, 本文提出了一种提高深度学习模型个体公平性的算法(improved individual fairness rate, IIFR). IIFR是基于真实的训练样本数据, 在训练过程中使用余弦相似度找到与每个训练样本最相似的另一个训练样本. 再根据不同数据集拥有的特征确定一个相似界限
|
图 3 提高个体公平率算法流程 |
4.1 相似训练个体
不同于测试部分的相似个体, 本文在训练过程中允许个体样本在所有特征上进行扰动, 但为了防止扰动造成无效样本或不合理样本的情况, 本文将训练过程中的相似样本对定义为满足一定条件的最相似训练样本对, 即在训练数据中找到训练样本
相似训练样本对: 对于一批训练数据中任意一个样本
这里使用3个数据样本对的余弦相似度进行举例说明(为了简化样本表示, 这里的样本没有转化为读热码形式和进行归一化操作), 且假设相似界限
| $ \left\{ \begin{split}{\mathit{x}}_{1}:\left[{56, 1}, {9, 15, 6}, {2, 2}, 0, {5, 3}\right] \\ {\mathit{x}}_{2}:\left[\mathrm{56, 1}, \mathrm{9, 15, 6}, \mathrm{2, 2}, 1, \mathrm{5, 3}\right] \\ {\mathit{x}}_{3}:\left[26, 0, 5, 40, 9, \mathrm{2, 2}, 1, \mathrm{5, 3}\right] \end{split}\right.\;\;,$ |
在上述3个数据中,
IIFR算法分别从两个方面训练模型, 第1个方面是从正确性的角度出发, 通过不断缩小预测标签和真实标签之间的差距来完成分类任务. 具体流程为图3中蓝色线部分, 将预处理和分批后的数据向量输入到深度神经网络中, 进行前向传播, 在网络的输出层得到样本预测, 最后通过交叉熵CE[33]计算样本预测与真实标签之间的差距, 得到标签预测损失
| $ Los{s_{\rm pred}} = CE(f({{{X}}^{(i)}}, \theta ), {{{Y}}^{(i)}}) $ | (6) |
另一方面是从个体公平性的角度出发, 通过不断缩小相似训练样本对的预测结果来达到“相似的个体应该有相似的结果”这一目的, 即达到个体公平的要求. 具体流程为图3中橙色线部分, 通过第4.1节的相似训练个体计算方法得到相似训练样本对, 将相似训练样本对输入到深度神经网络中, 分别得到训练样本
| ${\mathit{Loss}_{\rm indi}} = {D_{\rm JS}}(f({{X}}_S^{(i)},\theta )||f({{X}}{_S^{(i{'})}},\theta )) $ | (7) |
本文基于正则化技术利用个体损失权重参数
| $ \theta = \theta - lr \cdot \frac{{\partial {\mathit{Loss}_{\rm pred}} + \lambda \cdot {\mathit{Loss}_{\rm indi}}}}{{\partial \theta }} $ | (8) |
IIFR算法如算法2所示.
算法2. 提高个体公平性算法IIFR.
输入: 训练集
1. for
2.
3. 将训练集分为
4. for
5.
6. for
7.
8. if
9.
10. end for
11.
12. //根据以下目标函数更新模型参数
13. end for
14. end for
5 实验分析在本节中, 本文将在3个流行数据集Adult、COMPAS和German上评估本研究提出的2种个体公平衡量指标
● RQ1: 不同基准模型及公平性提升方法在个体公平衡量指标
● RQ2: IIFR算法是否能提高模型的个体公平性? 与EIDIG方法相比IIFR算法优化的模型性能是否更好?
● RQ3: IIFR算法能否缓解对抗模型造成的群体内部的不公平?
● RQ4: 针对个体公平的EIDIG方法和IIFR算法在群体公平指标上表现如何? 应用IIFR算法缓解对抗模型群体内部的不公平后, 新模型的群体公平性有何变化?
5.1 实验设置 5.1.1 实验数据集本文在公开的公平性数据集上进行实验, 包括以性别作为敏感属性的Adult数据集、以种族作为敏感属性的COMPAS数据集和以年龄作为敏感属性的German数据集. 它们是公平性测试研究中最常用的结构化数据集. 表1和表2分别给出了3个数据集的详细信息.
| 表 1 二类的敏感属性Adult和COMPAS数据集的统计信息 |
| 表 2 多类的敏感属性German数据集的统计信息 |
Adult数据集是1994年美国人口普查数据库中的人口统计数据( https://archive.ics.uci.edu/dataset/2/adult), 每条数据包括职业、性别、受教育程度等14个属性, 其中受保护属性是性别, 包括男性(A=0), 女性(A=1). 其标签表示每个人每年的收入是否超过50k. 该数据集存在严重的数据偏斜, 比如: 67.5%的数据为男性, 且男性数据中31.2%的男性每年收入超过50k, 而女性数据中收入超过50k的只有11.4%. 此外Adult数据集的标签分布也不均衡, 仅24.8%的人具有较高的工资.
COMPAS数据集是美国佛罗里达州布劳沃德县的被告记录( https://github.com/propublica/compas-analysis), 记录着每个被告的先前犯罪次数、种族、年龄等12个属性, 其中受保护属性是种族, 包括白种人(A=0), 黑种人(A=1). 其任务是预测被告在两年内是否会再次犯罪. 从表1可知, COMPAS数据集在受保护属性和标签的分布上都较为均衡.
German数据集是由德国Hofmann博士收集制作的德国信用卡数据( https://archive.ics.uci.edu/dataset/144/statlog+german+credit+data), 每条数据包括拥有者的年龄、当前就业状态、历史信用记录、房产状态等20个属性, 其中受保护属性是年龄, 包括19–75岁, 本文根据年龄的分布情况, 将其分类为19–25岁(A=0), 25–35岁 (A=1), 35–45岁(A=2), 45–55岁(A=3), 55–75岁(A=4). 该数据集的任务是预测信用卡的拥有者是否会称为潜在的坏用户即违约用户. 从表2可知German数据集在标签分布上较不均衡, 但在受保护属性上分布较为均衡.
5.1.2 评估指标本文主要从正确性和公平性两个方面评估模型的性能. 与之前的工作相同[12, 22], 本文采用
| $ ACC = \frac{{TP + TN}}{{TP + FP + FN + TN}} $ | (9) |
其中, TP指模型预测结果中, 被正确识别的正实例数量, TN表示模型正确识别负实例的数量, FP和FN则分别表示模型将负实例和正实例识别错误的数量.
在公平性方面, 本文使用个体公平性与群体公平性两类公平性指标来考察模型性能. 个体公平性采用的是本文提出的基于输出标签的个体公平率
群体公平性指标同样与之前的工作[22, 29]相同, 采用统计均等DP和几率均等EO来衡量模型的群体公平性. 统计均等(statistical parity/demographic parity, DP) [15]要求输出的预测
| $ P(\hat Y = 1|A = 0) = P(\hat Y = 1|A = 1) = \ldots = P(\hat Y = 1|A = s) $ | (10) |
但该指标在偏斜的真实数据上不可能达到绝对相等, 这是由历史数据本身的分布不均衡造成的. 因此在之前的工作中通常使用这两个概率的差值作为评估模型公平性的标准, 记作
几率均等(equalized odds/positive rate parity, EOdd)[16]要求输出的预测
| $ P(\hat Y = 1|A = 0, Y = y) = P(\hat Y = 1|A = 1, Y = y) = \ldots = P(\hat Y = 1|A = s, Y = y), \forall y \in \left\{ {0, 1} \right\} $ | (11) |
本文使用正类样本和负类样本在不同群体间的预测差值作为群体公平性评估指标, 分别记作
本节将介绍本文使用的4个实验模型, 包括1个未使用任何公平性算法的基准模型MLP和3个缓解群体偏见的对抗模型ALFR, LAFTR, CFAIR. 其中MLP模型作为基准模型, 给出无偏见措施的性能基准, 用于衡量IIRF算法的有效性, 并与领域最新的个体公平性提升方法EIDIG进行比较, 即在同一个MLP基准模型上分别使用IIFR算法以及EIDIG算法进行重训练后, 两个最终的优化模型的性能比较. 其他模型作为群体公平模型, 用于研究IIFR算法能否缓解群体及群体内部的偏见.
4个模型的网络信息如下所示.
● MLP: 多层的感知机模型, 即带有ReLU激活函数的多层全连接网络. 该模型使用交叉熵损失进行训练.
● ALFR[14]: 多任务对抗模型, 即带有一个共享隐藏层和两个分类层的网络, 其中两个分类层分别为最小化分类任务预测损失的全连接层和最小化受保护属性预测损失的全连接层. 该模型的两个任务均使用交叉熵损失进行训练.
● LAFTR[22]: 多任务对抗模型, 与ALFR结构相似, 区别在于该模型将不同的群体公平度量融合到对抗损失目标函数中(即融合到预测受保护属性的损失中), 且在预测类别的任务中使用交叉熵损失, 在预测受保护属性的任务中使用L1损失.
● CFAIR[29]: 多任务对抗模型, 带有一个共享隐藏层和
3个数据集Adult、COMPAS和German的其他参数设置如表3所示.
| 表 3 超参数设置 |
5.2 实验结果与分析 5.2.1 IFR指标和IIFR算法的有效性评估
RQ1: 不同基准模型及公平性提升方法在个体公平衡量指标
为了回答这个问题, 本文比较了基准感知机模型MLP、针对个体公平的EIDIG方法和针对群体公平的3个对抗模型的个体公平性性能. 一个模型的个体公平性能由个体公平率指标体现, 即
| 表 4 不同模型在使用IIFR算法前后的正确性和个体公平性对比 (%) |
RQ2: IIFR算法是否能提高模型的个体公平性? 与EIDIG方法相比IIFR算法优化的模型性能是否更好?
为了回答这个问题, 本文对比了4个基准模型采用IIFR算法前后的性能, 并比较了在同一基准模型MLP上使用IIFR算法与EIDIG方法得到的优化模型的性能. 从基准模型的角度看, 表4展现出模型使用IIFR算法后, 它们的个体公平性均有明显提升. 例如在COMPAS数据集中, MLP模型的个体公平率
由于EIDIG通过修正个体歧视实例的标签, 让模型在训练过程中学习更加公平的样本, 从而不需要更改预测结果来缓解模型偏见. 因此该方法能够在有限的精度损失下提升其个体公平性. 而文本的方法并未对数据集进行修正, IIFR算法通过近似原数据集中的相似样本的输出分布来获得公平的输出分类, 从而达到缓解模型偏见的目的, 但该公平操作可能会导致预测与样本标签不一致. 本文从数据集的角度进行分析, 通过cos相似度找到Adult数据集中相似训练样本, 表5展示了一对相似但标签不同的训练样本.
| 表 5 Adult数据集中带有歧视的一对相似训练样本 |
一位21岁的一周工作时长为45小时的女大学生, 其收入低于工作时长更短的22岁男大学生. 由于MLP模型是以实际收入和预测收入的差异作为损失函数, 因此MLP模型将该21岁女性分类为50K, 将22岁男性分类为>50K. 而在本文提出的IIFR算法下, 这两个样本的余弦相似度为0.808, 在训练过程中会将他们识别为相似训练样本, IIFR为了消除这两个样本的偏见, 通过近似他们的输出分布以提高模型个体公平性, 最终使得两者均分为50K这一类别. 因此这导致了一个错误的样本分类, 造成模型正确性的下降.
RQ3: IIFR算法能否缓解对抗模型造成的群体内部的不公平?
表6给出了不同模型基于Adult数据集的群体间的个体公平性表现, 其中CFAIR等对抗模型的个体公平率低于无公平措施的MLP模型, 这说明对抗模型会增加群体内部的歧视, 尤其增加了女性群体内部的歧视. EIDIG方法和IIFR算法均可以很大程度上缓解了群体内部的不公平. 结合表4的整体性能展示, 这两种个体公平方法均能有效提升模型的整体的个体公平性和群体内的个体公平性. 并且本文的IIFR算法在
| 表 6 不同模型在使用IIFR算法前后的群体内部的个体公平性对比 (%) |
5.2.2 IIFR算法对模型群体公平性的影响
RQ4: 针对个体公平的EIDIG方法和IIFR算法在群体公平指标上表现如何? 应用IIFR算法缓解对抗模型群体内部的不公平后, 新模型的群体公平性有何变化?
为了回答这个问题, 本文比较了在同一基准模型MLP上分别采用EIDIG方法与IIFR算法得到的优化模型的群体公平性表现, 并且比较了原对抗模型和使用IIFR算法优化个体公平性后的对抗模型的群体公平性表现. 一个模型的群体公平性能主要表现在不同群体间预测结果的相似度以及同一类别下不同群体间预测结果的相似度, 即
最近的几项[17, 37]研究表明, 不同的公平性概念间存在不相容性. 例如, 当组间的基本比例不相等时, 则各群体间不可能同时满足相同的假阳性率和相同的假阴性率. 由于本研究群体间的样本基数不同, 群体公平指标DP和EO同样具有不可能调和性[17], 但在一个极端的情况下, 群体公平可以达到完全均等, 如模型将所有的样本均分为正类, 则
相较于EIDIG, IIFR算法较好的平衡不同群体公平指标间的性能. 例如在COMPAS数据集中, EIDIG方法仅显著提升了
| 表 7 不同模型在使用IIFR算法前后的群体公平性对比 |
5.2.3 个体损失权重参数
为了充分讨论IIFR算法受模型参数的影响, 本文使用不同的个体损失权重参数
|
图 4 Adult数据集中个体损失权重对不同模型性能的影响 |
|
图 5 COMPAS数据集中个体损失权重对不同模型性能的影响 |
|
图 6 German数据集中个体损失权重对不同模型性能的影响 |
图4展示了Adult数据集的实验结果, IIFR算法能够在一定的正确性损失下有效提升模型的个体公平性和群体公平性. 当
在基准对抗模型ALFR (绿线)、LAFTR (蓝线)、CFAIR (黄线)上使用IIFR的实验结果表明, IIFR算法能够有效地提升模型的个体公平性. 并且当
不同数据集中的实验结果表明, 当数据集不均衡且数据本身存在歧视时, 正确性对
对于相似测试结果阈值
对于相似训练样本界限
表8为Adult数据集中不同相似训练样本界限
|
表 8 相似训练样本界限
|
较大的
本文提出了两种个体公平率指标, 分别是基于输出标签计算的
未来的工作将继续探究IIFR算法在深度学习模型上的优化. 目前的IIFR算法已较好地权衡了个体公平和群体公平, 但模型的正确性仍有一定损失, 后期我们将从数据集预处理机制(如: 因果推理、重新标记、扰动、重新加权等)和后处理机制(如: 后验正则化、广义期望最大算法等)两个方面进行优化, 让基于IIFR算法的模型保持现有或更好的公平性下进一步提升模型的效率. 其次, 目前的IIFR算法仅通过实验证实了在结构化数据上的有效性, 下一阶段我们将迁移IIFR算法应用于自然语言处理领域的文本分类和计算机视觉领域的目标检测中.
| [1] |
Bojarski M, Del Testa D, Dworakowski D, Firner B, Flepp B, Goyal P, Jackel LD, Monfort M, Muller U, Zhang JK, Zhang X, Zhao J, Zieba K. End to end learning for self-driving cars. arXiv:1604.07316, 2016.
|
| [2] |
Goodall NJ. Can you program ethics into a self-driving car?. IEEE Spectrum, 2016, 53(6): 28-58.
[doi:10.1109/MSPEC.2016.7473149] |
| [3] |
Litjens G, Kooi T, Bejnordi BE, Setio AAA, Ciompi F, Ghafoorian M, van der Laak JAWM, van Ginneken B, Sánchez CI. A survey on deep learning in medical image analysis. Medical Image Analysis, 2017, 42: 60-88.
[doi:10.1016/j.media.2017.07.005] |
| [4] |
Fu K, Cheng DW, Tu Y, Zhang LQ. Credit card fraud detection using convolutional neural networks. In: Proc. of the 23rd Int’l Conf. on Neural Information Processing. Kyoto: Springer, 2016. 483–490.
|
| [5] |
Saxena NA, Huang KR, DeFilippis E, Radanovic G, Parkes DC, Liu Y. How do fairness definitions fare? Examining public attitudes towards algorithmic definitions of fairness. In: Proc. of the 2019 AAAI/ACM Conf. on AI, Ethics, and Society. Honolulu: ACM, 2019. 99–106.
|
| [6] |
Dastin J. Amazon scraps secret AI recruiting tool that showed bias against women. Ethics of Data and Analytics. New York: Auerbach Publications, 2022. 296–299.
|
| [7] |
Angwin J, Larson J, Mattu S, Kirchner L. Machine bias. Ethics of Data and Analytics. New York: Auerbach Publications. 2016. 254–264.
|
| [8] |
Liu WY, Shen CY, Wang XF, Jin B, Lu XJ, Wang XL, Zha HY, He JF. Survey on fairness in trustworthy machine learning. Ruan Jian Xue Bao/Journal of Software, 2021, 32(5): 1404−1426 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/6214.htm
|
| [9] |
Grgić-Hlača N, Zafar MB, Gummadi KP, Weller A. The case for process fairness in learning: Feature selection for fair decision making. In: Proc. of the 2016 Symp. on Machine Learning and the Law at the 29th Conf. on Neural Information Processing Systems. Barcelona, 2016. 1–11.
|
| [10] |
Dwork C, Hardt M, Pitassi T, Reingold O, Zemel R. Fairness through awareness. In: Proc. of the 3rd Innovations in Theoretical Computer Science Conf. Cambridge: ACM, 2012. 214–226.
|
| [11] |
Zemel R, Wu Y, Swersky K, Pitassi T, Dwork C. Learning fair representations. In: Proc. of the 30th Int’l Conf. on Machine Learning. Atlanta: JMLR.org, 2013. III-325–III-333.
|
| [12] |
Lahoti P, Gummadi KP, Weikum G. iFair: Learning individually fair data representations for algorithmic decision making. In: Proc. of the 35th IEEE Int’l Conf. on Data Engineering. Macao: IEEE, 2019. 1334–1345.
|
| [13] |
Zhang LF, Zhang YL, Zhang M. Efficient white-box fairness testing through gradient search. In: Proc. of the 30th ACM SIGSOFT Int’l Symp. on Software Testing and Analysis. Denmark: ACM, 2021. 103–114.
|
| [14] |
Edwards H, Storkey A. Censoring representations with an adversary. arXiv:1511.05897, 2016.
|
| [15] |
Zafar MB, Valera I, Rogriguez MG, Gummadi KP. Fairness constraints: Mechanisms for fair classification. In: Proc. of the 20th Int’l Conf. on Artificial Intelligence and Statistics. Florida: JMLR, 2017. 962–970.
|
| [16] |
Hardt M, Price E, Srebro N. Equality of opportunity in supervised learning. In: Proc. of the 30th Int’l Conf. on Neural Information Processing Systems. Barcelona: Curran Associates Inc., 2016. 3323–3331.
|
| [17] |
Berk R, Heidari H, Jabbari S, Kearns M, Roth A. Fairness in criminal justice risk assessments: The state of the art. Sociological Methods & Research, 2021, 50(1): 3-44.
[doi:10.1177/0049124118782533] |
| [18] |
Galhotra S, Brun Y, Meliou A. Fairness testing: Testing software for discrimination. In: Proc. of the 11th Joint Meeting on Foundations of Software Engineering. Paderborn: ACM, 2017. 498–510.
|
| [19] |
Kilbertus N, Rodriguez MG, Schölkopf B, Muandet K, Valera I. Fair decisions despite imperfect predictions. In: Proc. of the 23rd Int’l Conf. on Artificial Intelligence and Statistics. Palermo: PMLR, 2020. 277–287.
|
| [20] |
Kusner MJ, Loftus J, Russell C, Silva R. Counterfactual fairness. In: Proc. of the 31st Int’l Conf. on Neural Information Processing Systems, Long Beach: Curran Associates Inc., 2017. 4069–4079.
|
| [21] |
Beutel A, Chen JL, Zhao Z, Chi EH. Data decisions and theoretical implications when adversarially learning fair representations. arXiv:1707.00075, 2017.
|
| [22] |
Madras D, Creager E, Pitassi T, Zemel R. Learning adversarially fair and transferable representations. In: Proc. of the 35th Int’l Conf. on Machine Learning. Stockholm: PMLR, 2018. 3384–3393.
|
| [23] |
Feng R, Yang Y, Lyu Y, Tan CH, Sun YZ, Wang CP. Learning fair representations via an adversarial framework. arXiv:1904.13341, 2019.
|
| [24] |
Menon AK, Williamson RC. The cost of fairness in classification. arXiv:1705.09055, 2017.
|
| [25] |
Speicher T, Heidari H, Grgic-Hlaca N, Gummadi KP, Singla A, Weller A, Zafar MB. A unified approach to quantifying algorithmic unfairness: Measuring individual & group unfairness via inequality indices. In: Proc. of the 24th ACM SIGKDD Int’l Conf. on Knowledge Discovery & Data Mining. London: ACM, 2018. 2239–2248.
|
| [26] |
Joseph M, Kearns M, Morgenstern J, Roth A. Fairness in learning: Classic and contextual bandits. In: Proc. of the 30th Int’l Conf. on neural Information Processing Systems. Barcelona: Curran Associates Inc., 2016. 325–333.
|
| [27] |
Kearns M, Neel S, Roth A, Wu ZS. Preventing fairness gerrymandering: Auditing and learning for subgroup fairness. In: Proc. of the 35th Int’l Conf. on Machine Learning. Stockholm: PMLR, 2018. 2564–2572.
|
| [28] |
Goodfellow IJ, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y. Generative adversarial nets. In: Proc. of the 27th Int’l Conf. on Neural Information Processing Systems. Montreal: MIT Press, 2014. 2672–2680.
|
| [29] |
Zhao H, Coston A, Adel T, Gordon GJ. Conditional learning of fair representations. arXiv:1910.07162, 2020.
|
| [30] |
Blei DM, Kucukelbir A, McAuliffe JD. Variational inference: A review for statisticians. Journal of the American statistical Association, 2017, 112(518): 859-877.
[doi:10.1080/01621459.2017.1285773] |
| [31] |
Gabrilovich E, Markovitch S. Computing semantic relatedness using Wikipedia-based explicit semantic analysis. In: Proc. of the 20th Int’l Joint Conf. on Artifical Intelligence. Hyderabad: Morgan Kaufmann Publishers Inc., 2007. 1606–1611.
|
| [32] |
Potthast M, Stein B, Anderka M. A Wikipedia-based multilingual retrieval model. In: Proc. of the 30th European Conf. on IR Research. Glasgow: Springer, 2008. 522–530.
|
| [33] |
De Boer PT, Kroese DP, Mannor S, Rubinstein RY. A tutorial on the cross-entropy method. Annals of Operations Research, 2005, 134(1): 19-67.
[doi:10.1007/s10479-005-5724-z] |
| [34] |
Zeiler MD. ADADELTA: An adaptive learning rate method. arXiv:1212.5701, 2012.
|
| [35] |
Burnaev E, Erofeev P, Papanov A. Influence of resampling on accuracy of imbalanced classification. In: Proc. of the 8th Int’l Conf. on Machine Vision. Barcelona: SPIE, 2015. 423–427.
|
| [36] |
Cui Y, Jia ML, Lin TY, Song Y, Belongie S. Class-balanced loss based on effective number of samples. In: Proc. of the 2019 IEEE/CVF Conf. on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 9260–9269.
|
| [37] |
Chouldechova A. Fair prediction with disparate impact: A study of bias in recidivism prediction instruments. Big Data, 2017, 5(2): 153-163.
[doi:10.1089/big.2016.0047] |
| [8] |
刘文炎, 沈楚云, 王祥丰, 金博, 卢兴见, 王晓玲, 查宏远, 何积丰. 可信机器学习的公平性综述. 软件学报, 2021, 32(5): 1404−1426. http://www.jos.org.cn/1000-9825/6214.htm
|
2023, Vol. 34


