李冠彬(1986-), 男, 博士, 副教授, 博士生导师, CCF高级会员, 主要研究领域为计算机视觉, 机器学习
张锐斐(1998-), 男, 硕士生, 主要研究领域为计算机视觉
朱鑫(1995-), 男, 硕士生, 主要研究领域为计算机视觉
林倞(1981-), 男, 博士, 教授, 博士生导师, CCF专业会员, 主要研究领域为计算机视觉, 机器学习
面部动作单元分析旨在识别人脸图像每个面部动作单元的状态, 可以应用于测谎, 自动驾驶和智能医疗等场景. 近年来, 随着深度学习在计算机视觉领域的普及, 面部动作单元分析逐渐成为人们关注的热点. 面部动作单元分析可以分为面部动作单元检测和面部动作单元强度预测两个不同的任务, 然而现有的主流算法通常只针对其中一个问题. 更重要的是, 这些方法通常只专注于设计更复杂的特征提取模型, 却忽略了面部动作单元之间的语义相关性. 面部动作单元之间往往存在着很强的相互关系, 有效利用这些语义知识进行学习和推理是面部动作单元分析任务的关键. 因此, 通过分析不同人脸面部行为中面部动作单元之间的共生性和互斥性构建了基于面部动作单元关系的知识图谱, 并基于此提出基于语义关系的表征学习算法(semantic relationship embedded representation learning, SRERL). 在现有公开的面部动作单元检测数据集(BP4D、DISFA)和面部动作单元强度预测数据集(FERA2015、DISFA)上, SRERL算法均超越现有最优的算法. 更进一步地, 在BP4D+数据集上进行泛化性能测试和在BP4D数据集上进行遮挡测试, 同样取得当前最优的性能.
The main purpose of facial action unit analysis is to identify the state of each facial action unit, which can be applied to many scenarios such as lie detection, autonomous driving, intelligent medical, and others. In recent years, with the popularization of deep learning in the field of computer vision, facial action unit analysis has attracted extensive attention. Face action unit analysis can be divided into two different tasks: face action unit recognition and face action unit intensity estimation. However, the existing studies usually only address one of the problems. More importantly, these methods usually only focus on designing or learning complex feature representations, but ignore the semantic correlation between facial action units. Actually, facial action units often have strong interrelationships. How to effectively use semantic knowledge for learning and reasoning is the key to facial action unit analysis tasks. This study explores to model the semantic relationship of facial action units by analyzing the symbiosis and mutual exclusion of AUs in various facial behaviors and organize the facial AUs in the form of structured knowledge-graph, and then propose an AU semantic relationship embedded representation learning (SRERL) framework. The experiments are conducted on three benchmarks: BP4D, DISFA, and FERA2015 for both facial action unit analysis tasks. The experimental results show that the proposed method outperforms the previous work and achieves state-of-the-art performance. Furthermore, the experiments are also conducted on the BP4D+ dataset and occlusion evaluation is performed on the BP4D dataset to demonstrate the outstanding generalization and robustness of proposed method.
人脸面部表情及其行为是个人传递情感的重要渠道之一. 智能化的面部表情分析在人机交互, 智能教育, 智慧医疗等计算机视觉任务中存在巨大应用价值, 近年来吸引了越来越多的研究兴趣. 目前, 用于测量和描述面部行为的最通用的方法是由Ekman等人[
面部动作单元分析问题具体可以分为AU检测和AU强度预测两个不同的任务. AU检测的主要目的是检测输入人脸图像的每个AU的状态, 包含激活和未激活两种, 属于单帧图像的多标签二分类问题; AU强度预测是指预测输入图像每个AU的强度, 是多标签回归问题. 相比于AU检测只判断状态是否激活, AU强度预测具有更丰富和精细的类别标签, 可以进一步反映出激活的强度等级. 早期的AU分析传统方法大多专注于设计更具区分性的手工特征(例如形状或外观特征)或更有效的区分性学习方法[
不同表情下面部动作单元状态示意图
考虑到上述关系, 一些研究工作采用对AU关系进行建模来提高AU分析精度. 例如动态贝叶斯网络(DBN)[
1)现有基于AU关系的模型大多是基于低级手工特征设计的, 并通常作为一种后期处理方式嵌入到复杂的分类模型中, 独立于特征学习阶段, 因此限制了特征提取的性能.
2) 现有方法通常只针对AU检测或者AU强度预测其中一个问题, 该方法基于观察有限的面部表情来捕获成对AU之间的局部依赖性, 并且这些成对数据没有组合起来形成用于更全面的AU关系推理的图形结构, 因此不具有推广性和迁移性.
3) 由于现有的AU关系建模依赖于预先的特征提取, 因此整个算法框架无法端到端地运行, 这极大地限制了模型的效率和性能.
鉴于上述缺点, 并受到图神经网络的可微性及其在关系学习中优越性能的启发, 本文提出了一种AU语义关系引导表征学习的框架(semantic relationship embedded representation learning, SRERL), 通过充分利用AU之间的关系来引导模型学习更具有区分性的特征. 具体地说, 本文采用结构化的知识图谱对AU关系进行建模, 相比于之前的模型, 形成了更为全面的AU关系推理的图形结构, 并将门控图神经网络(GGNN)[
总而言之, 本文的主要贡献如下.
1) 本文研究了如何对面部动作单元语义关系进行建模, 通过分析不同人脸面部行为中面部动作单元被激活的规律总结面部动作单元之间的关系, 并在AU检测和AU强度预测两种不同任务条件下构建基于AU语义关系的知识图谱. 本文提出的AU知识图谱具有良好的迁移性和推广性, 可以应用于不同面部动作单元数据集.
2) 本文提出的算法有效结合了卷积神经网络和图神经网络的优点, 通过AU之间的语义关系传播增强对应人脸区域的特征表示, 并且能同时被应用到AU检测和AU强度预测两个不同的任务中. 这种方法利用AU语义关系引导模型学习到更具有区分性的特征, 使得特征同时融合了表观信息和AU关系推理, 在更为复杂的场景下, 例如光照变换和人脸遮挡等, 可有效地利用可见区域的AU情况和AU之间的语义关系来引导不可见区域AU的预测, 进而提升了算法的鲁棒性.
3) 本文在现有公开的两个面部动作单元检测数据集(BP4D、DISFA)和两个面部动作单元强度预测数据集(FERA2015、DISFA)上进行实验验证. 实验结果表明, SRERL算法在上述两个面部动作单元分析任务中均超越现有最优的算法. 更进一步, 本文在BP4D+数据集上进行泛化性能测试和在BP4D数据集上进行遮挡测试, 同样取得当前最优的性能. 同时本文通过可视化分析模型的可解释性和通过消融实验验证各个模块的合理有效性.
面部动作单元由人脸面部肌肉所控制, 受限于人脸的结构性, 面部动作单元之间往往存在着一定的关系. Corneanu 等人[
在面部动作单元检测任务中, 每个AU只有激活和未被激活两种状态, 属于多标签二分类问题.
共生关系是指某个AU的激活往往伴随着另一个AU的激活, 例如由于脸部肌肉和嘴部肌肉的相互影响, AU6提高脸颊和AU12拉升嘴角往往会同时被激活, 因此这两者之间的条件概率
互斥关系是指某两个AU很少会同时出现, 比如在自然的面部情绪下, AU4压低眉毛和AU12拉伸嘴角几乎不会被同时激活, 因此
其中,
基于人脸关键点定义AU中心位置和构建的AU关系图
AU强度预测是AU检测的扩展任务, 相比于AU检测中简单地将AU分为激活和未激活两种状态, AU强度预测具有更丰富的标签信息. 在AU强度预测任务中, 将AU强度分为0–5这6种等级, 其中0表示未被激活状态, 1–5则表示随着数值的增加AU激活强度逐渐加大. 由于人脸肌肉的结构性, AU之间的关系不仅可以体现激活和未激活这两种状态的共生互斥性上, 不同AU的强度之间也会相互影响. 比如AU1内侧眉毛上扬和AU2外侧眉毛上扬都是由人脸额肌所控制, 人们很难只激活AU1而不激活AU2, 同样当AU1强度的提升势必会带来AU2强度的提升; 而AU2外侧眉毛上扬和AU4眉毛下压分别由不同肌肉所控制, 从其含义就可以看出这两个AU很难被同时激活, 当其中某个AU强度增大时, 必然会导致另一个AU处于未激活状态.
AU强度变化示意图
本文尝试采用皮尔逊相关系数度量两两AU强度之间的相互关系, 具体公式如公式(2)所示, 其中
公式(2)得到的结果位于[−1, 1]之间, 其中越接近1代表共生关系越强, 反之越接近−1则代表互斥关系越强, 0表示这两个AU之间不存在线性关系.
针对面部动作单元分析问题, 本文提出了基于语义关系的表征学习框架(SRERL), 本节将从框架设计到具体实现细节对模型进行详细介绍, 包括模型网络结构设计, 损失函数设计以及模型的训练方式等.
SRERL是一个基于图神经网络和卷积神经网络的面部动作单元分析模型, 通过AU之间的语义关系传播增强对应人脸区域的特征表示, 并且能同时被应用到AU检测和AU强度预测两个不同的任务中.
如
SRERL 整体框架示意图
算法
Input: 输入图像
Output: 面部动作单元的状态
1. for
2.
3. end for
4.
5. for
6.
7. for
8.
9.
受到VGG模型在人脸识别[
其中,
其中,
由于人脸结构具有复杂性, 其特征不仅包括面部行为, 也包括长相, 年龄等一些与AU分析任务无关的信息, 因此去除冗余特征对AU分析来说尤为重要. 本文采用基于注意力机制的局部特征提取方法并结合区域学习通道, 得到更具有自适应的AU局部特征.
与Lin 等人[
受到图神经网络[
其中,
其中,
本文提出的SRERL框架可以同时被应用到AU检测和AU强度预测两种不同的任务中, 本节将具体介绍这两种不同任务条件下损失函数的具体设计.
检测的任务是识别输入图像上每个面部动作单元是否被激活, 属于多标签二分类问题. 数据不平衡是AU 检测中的一个常见问题, 尤其是在多标签训练时候, 无法通过简单有效的过采样或者欠采样方法来实现标签平衡, 而不平衡的标签训练会严重降低模型的精度.
Li 等人[
其中,
AU 强度预测主要目的是预测输入图像上每个面部动作单元被激活的强度. 相比于AU检测任务, AU强度预测任务更具有挑战性. AU强度预测范围属于
针对AU 强度回归问题, 本文采用均方误差损失函数(MSE)作为基础目标函数. 与AU检测任务类似, 在AU强度回归任务中存在着更严重的数据不平衡问题, 为此本文提出了基于均方误差的加权损失函数, 形式如公式(10)所示:
其中,
考虑到模型参数复杂而现有AU数据集多样性不足, 为了防止模型过拟合, 本文采用多阶段学习策略进行训练, 主要分为以下3个步骤.
阶段1. 微调ImageNet[
阶段2. 对多尺度主干神经网络模块得到的特征图提取局部特征作为区域学习模块的输入, 训练每个区域对应通道的参数.
阶段3. 固定主干神经网络模块和区域学习模块的参数, 训练图神经网络模块. 以上3个阶段的训练均采用加权损失函数作为监督信息, 指导整个模块的参数学习.
在每个阶段训练时, 取在验证集上具有最优性能的模型作为下一阶段的输入特征提取器.
为了验证SRERL算法的有效性, 本文在现有的面部动作单元检测数据集(DISFA和BP4D)和面部动作单元强度预测数据集(FERA2015和DISFA)上进行实验, 比较与其他先进算法的优劣. 为了验证算法的泛化性能和推广性, 本文将采用跨数据集测试方式, 并取得了卓越的效果. 同时为了验证本文提出的算法能应对面部遮挡场景, 本文在常用面部动作单元检测数据集上进行遮挡性能测试, 并与现有方法进行公平比较. 除此之外, 本文还通过消融实验验证了本文算法各个模块的有效合理性, 并进一步探索了网络的可解释性.
本文在以下4个公开数据集上对算法进行验证: BP4D[
本文在面部动作单元检测和面部动作单元强度预测两个不同任务下进行实验: 针对面部动作单元检测任务, 本文采用
为了验证本文提出SRERL模型的有效性, 本文在操作系统为Ubuntu 16.04和GPU为12 GB显存的NVIDIA GeForce GTX TITAN X服务器上进行实验. 本文采用OpenCV[
在网络优化策略上, 本文采取Adam[
针对面部动作单元检测任务, 本文与近5年来先进的AU检测算法进行比较: JPML[
BP4D数据集上
AU | JPML | DRML | EAC | DSIN | JAA | ARL | LP-Net | SRERL |
1 | 32.6 | 36.4 | 39.0 | 47.2 | 45.8 | 43.4 | [49.4] | |
2 | 25.6 | 41.8 | 35.2 | 40.4 | 39.8 | 38.0 | [42.1] | |
4 | 37.4 | 43.0 | 48.6 | 54.9 | 55.1 | 54.2 | [55.5] | |
6 | 42.3 | 55.0 | 76.1 | 76.1 | [77.5] | 75.7 | 77.1 | |
7 | 50.5 | 67.0 | 72.9 | 73.5 | 74.6 | [77.2] | 76.7 | |
10 | 72.2 | 66.3 | 81.9 | 79.9 | [84.0] | 82.3 | 83.8 | |
12 | 74.1 | 65.8 | 86.2 | 85.4 | 86.9 | 86.6 | [87.2] | |
14 | [65.7] | 54.1 | 58.8 | 62.7 | 61.9 | 58.8 | 63.3 | |
15 | 38.1 | 33.2 | 37.5 | 37.3 | 43.6 | [47.6] | 45.3 | |
17 | 40.0 | 48.0 | 59.1 | 62.9 | 60.3 | [62.1] | 60.5 | |
23 | 30.4 | 31.7 | 35.9 | 38.8 | 42.7 | 47.4 | [48.1] | |
24 | 42.3 | 30.0 | 35.8 | 41.6 | 41.9 | [55.4] | 54.2 | |
Avg. | 45.9 | 48.3 | 55.9 | 58.9 | 60.0 | [61.1] | 61.0 |
DISFA数据集上
AU | DRML | EAC | DSIN | JAA | ARL | LP-Net | SRERL | |
1 | 17.3 | 41.5 | 42.4 | 43.7 | 29.9 | [43.8] | ||
2 | 17.7 | 26.4 | 39.0 | 42.1 | 24.7 | |||
4 | 37.4 | 66.4 | 68.4 | 56.0 | 63.6 | [67.3] | ||
6 | 29.0 | 28.6 | 41.4 | 41.8 | 46.8 | [50.1] | ||
9 | 10.7 | 46.8 | 44.7 | 40.0 | [49.6] | 42.4 | ||
12 | 37.7 | 89.3 | 70.8 | 69.6 | [72.9] | 71.2 | ||
25 | 38.5 | 88.9 | 90.4 | 88.3 | [93.8] | 93.5 | ||
26 | 20.1 | 15.6 | 42.2 | 58.4 | [65.0] | 54.3 | ||
Avg. | 26.7 | 48.5 | 53.6 | 56.0 | 56.9 | [58.6] | ||
BP4D和DISFA数据集上AUC分数比较
针对面部动作单元强度预测任务, 本文与以下当前流行的先进AU 强度预测算法进行对比: iEAC[
FERA2015数据集结果比较
AU | ICC | MAE | ||||||||
OR-CNN | CCNN-IT | 2DC | iARL | iSRERL | OR-CNN | CCNN-IT | iARL | iSRERL | ||
6 | 0.60 | 0.75 | 0.76 | 0.72 | 1.37 | 1.14 | 0.62 | |||
10 | 0.61 | 0.69 | 0.71 | 0.72 | 1.39 | 1.30 | ||||
12 | 0.59 | 0.86 | 0.85 | 0.85 | 1.37 | 0.99 | 0.51 | |||
14 | 0.25 | 0.40 | 0.45 | 0.44 | 1.80 | 1.65 | 0.94 | |||
17 | 0.31 | 0.45 | 0.53 | 0.57 | 1.19 | 1.08 | 0.66 | |||
Avg. | 0.47 | 0.63 | 0.66 | 0.66 | 1.42 | 1.23 | 0.67 |
DISFA数据集结果比较
AU | ICC | MAE | ||||||||
OR-CNN | CCNN-IT | 2DC | iARL | iSRERL | OR-CNN | CCNN-IT | iARL | iSRERL | ||
1 | 0.03 | 0.18 | 0.13 | 0.50 | 1.05 | 0.87 | 0.55 | |||
2 | 0.07 | 0.15 | 0.55 | 0.36 | 0.87 | 0.63 | 0.43 | |||
4 | 0.01 | 0.61 | 0.69 | 0.68 | 1.47 | 0.86 | 0.52 | |||
5 | 0.00 | 0.07 | 0.05 | 0.22 | 0.17 | 0.26 | 0.35 | |||
6 | 0.29 | 0.59 | 0.56 | 0.57 | 0.79 | 0.73 | 0.50 | |||
9 | 0.08 | 0.55 | 0.57 | 0.36 | 0.70 | 0.57 | 0.32 | |||
12 | 0.67 | 0.82 | 0.86 | 0.84 | 0.69 | 0.55 | 0.42 | |||
15 | 0.13 | 0.44 | 0.32 | 0.33 | 0.44 | 0.38 | 0.29 | |||
17 | 0.27 | 0.10 | 0.35 | 0.59 | 0.57 | 0.65 | ||||
20 | 0.00 | 0.08 | 0.12 | 0.09 | 0.50 | 0.45 | 0.59 | |||
25 | 0.59 | 0.77 | 0.90 | 0.95 | 1.33 | 0.81 | 0.29 | |||
26 | 0.33 | 0.54 | 0.50 | 0.60 | 0.86 | 0.64 | 0.53 | |||
Avg. | 0.20 | 0.45 | 0.50 | 0.48 | 0.79 | 0.61 | 0.45 |
另外
FERA2015数据集上MSE结果比较
BP4D和DISFA数据集皆由实验室条件下采集得到的, 受到实验室环境有限性的影响(比如在实验室中很难引导出悲伤这种面部情绪), 数据集的样本分布与现实生活中的样本分布存在很大的差异, 因此模型的泛化性能优劣对于面部动作单元分析任务来说尤为重要, 其实是在现实场景应用时. 本节在BP4D+数据集上验证SRERL在面部动作单元检测和面部动作单元强度预测两种不同任务下的泛化性能, 并与当前最先进的算法JAA和ARL进行对比. 具体地, 本节利用在BP4D所有数据上训练好的模型在BP4D+数据集上进行测试.
BP4D+数据集上
BP4D+数据集上AU强度预测实验结果
AU | ICC | MAE | |||||
iJAA | iARL | iSRERL | iJAA | iARL | iSRERL | ||
6 | 0.72 | 0.78 | 0.63 | 0.68 | |||
10 | 0.79 | 0.77 | 0.59 | 0.66 | |||
12 | 0.82 | 0.82 | 0.70 | 0.68 | |||
14 | 0.14 | 0.10 | 0.79 | 1.16 | |||
17 | 0.45 | 0.50 | 0.38 | 0.56 | |||
Avg. | 0.59 | 0.61 | 0.60 | 0.75 |
在现实场景中, 人脸经常容易被其他物体所遮挡, 比如眼睛, 手, 口罩等, 而由于面部信息丢失, 遮挡问题对于面部动作单元分析来说仍是严峻挑战. 为了验证SRERL在遮挡条件下的性能, 本节将输入图像部分遮挡, 并利用在未遮挡条件下训练好的模型进行测试. 如
面部遮挡示意图
遮挡测试下
10. end for
11.
12. end for
通过观察
为了验证SRERL每个模块的合理性和有效性, 本节通过消融实验详细分析每个组件的作用. 本节将SRERL拆分成加权损失函数、区域学习、多尺度特征融合和语义关系传播共4个组件, 并由这4个组件组合成VGG, VGG_BL, SS_RL, MS_RL 和SRERL这5种方法. 本节在面部动作单元检测和面部动作单元强度预测两个不同任务上逐个分析每个组件的用处, 其中iMethod代表该方法用于面部动作单元强度预测任务.
样本正负比例不平衡是面部动作单元分析任务中的常见问题, 本文尝试采用加权损失函数解决数据不平衡问题,
BP4D数据集上AU检测消融实验结果
AU | AUC (%) | ||||||||||
VGG | VGG_BL | SS_RL | MS_RL | SRERL | VGG | VGG_BL | SS_RL | MS_RL | SRERL | ||
1 | 40.7 | 41.7 | 47.6 | 47.4 | 49.4 | 74.8 | 70.1 | 77.4 | 79.0 | 77.4 | |
2 | 32.9 | 36.0 | 38.0 | 42.4 | 42.1 | 70.7 | 67.5 | 73.5 | 74.7 | 74.5 | |
4 | 45.8 | 49.7 | 55.1 | 54.7 | 55.5 | 77.2 | 78.0 | 83.6 | 83.6 | 84.3 | |
6 | 78.6 | 78.2 | 77.8 | 78.6 | 79.4 | 88.5 | 88.5 | 88.7 | 88.5 | 89.3 | |
7 | 76.5 | 76.1 | 76.5 | 78.3 | 78.9 | 82.5 | 82.7 | 85.4 | 85.5 | 86.2 | |
10 | 84.6 | 82.5 | 84.9 | 84.2 | 84.5 | 86.2 | 86.3 | 88.5 | 88.6 | 88.6 | |
12 | 88.0 | 85.9 | 87.8 | 86.6 | 88.2 | 94.0 | 93.6 | 94.1 | 94.4 | 94.6 | |
14 | 63.0 | 63.4 | 67.3 | 69.0 | 67.3 | 66.1 | 70.2 | 73.7 | 74.6 | 76.0 | |
15 | 40.4 | 46.7 | 45.3 | 47.7 | 50.5 | 78.3 | 79.7 | 81.2 | 81.0 | 81.1 | |
17 | 59.9 | 61.7 | 65.1 | 61.7 | 65.1 | 77.2 | 76.8 | 80.2 | 79.6 | 80.3 | |
23 | 34.8 | 42.4 | 47.2 | 48.2 | 50.0 | 73.2 | 74.8 | 79.0 | 79.6 | 79.6 | |
24 | 46.8 | 53.0 | 54.3 | 55.8 | 56.5 | 85.8 | 87.6 | 88.5 | 89.2 | 89.3 | |
Avg. | 57.7 | 59.8 | 62.4 | 62.8 | 64.0 | 79.5 | 79.7 | 82.8 | 83.2 | 83.4 |
FERA2015数据集上AU强度预测消融实验ICC结果
为了验证加权损失函数在面部动作单元强度预测任务中的有效性, 本文在FERA2015数据集上进行详细分析. 如
如
为了验证多尺度特征融合的有效性, 本文将基于多尺度的MS_RL和单一尺度的SS_RL模型进行对比.
DISFA数据集上AU检测消融实验
DISFA数据集上AU强度预测消融实验结果
AU | ICC | MAE | MSE | ||||||||
iVGG_BL | iMS_RL | iSRERL | iVGG_BL | iMS_RL | iSRERL | iVGG_BL | iMS_RL | iSRERL | |||
1 | 0.635 | 0.492 | 0.505 | 0.602 | 0.678 | 0.553 | 0.653 | 1.114 | 0.895 | ||
2 | 0.641 | 0.682 | 0.641 | 0.616 | 0.279 | 0.430 | 0.593 | 0.285 | 0.441 | ||
4 | 0.685 | 0.786 | 0.777 | 0.595 | 0.391 | 0.474 | 0.611 | 0.429 | 0.506 | ||
5 | 0.349 | 0.445 | 0.443 | 0.656 | 0.326 | 0.348 | 0.558 | 0.208 | 0.239 | ||
6 | 0.518 | 0.525 | 0.571 | 0.449 | 0.661 | 0.502 | 0.509 | 0.795 | 0.543 | ||
9 | 0.507 | 0.565 | 0.609 | 0.325 | 0.400 | 0.319 | 0.229 | 0.361 | 0.268 | ||
12 | 0.840 | 0.825 | 0.842 | 0.368 | 0.505 | 0.421 | 0.299 | 0.472 | 0.365 | ||
15 | 0.213 | 0.289 | 0.326 | 0.378 | 0.239 | 0.292 | 0.257 | 0.170 | 0.200 | ||
17 | 0.272 | 0.354 | 0.349 | 0.725 | 0.574 | 0.647 | 0.817 | 0.691 | 0.841 | ||
20 | 0.075 | 0.091 | 0.087 | 0.501 | 0.605 | 0.586 | 0.377 | 0.776 | 0.777 | ||
25 | 0.935 | 0.945 | 0.949 | 0.409 | 0.295 | 0.285 | 0.266 | 0.182 | 0.177 | ||
26 | 0.501 | 0.629 | 0.626 | 0.678 | 0.467 | 0.533 | 0.703 | 0.434 | 0.575 | ||
Avg. | 0.514 | 0.552 | 0.560 | 0.525 | 0.452 | 0.449 | 0.490 | 0.493 | 0.486 |
为了验证语义关系模块的有效性, 本文基于AU 语义关系建模的SRERL模型与无关系建模的MS_RL进行对比. 如
AU 语义关系同样能提高面部动作单元强度预测性能, 如
综合上述实验结果可以很好地表明, 本文提出的基于AU 语义关系的模块能很好地利用AU之间的全局关系极大地增强人脸区域特征表示, 使得模型学到的特征更具有区分性从而取得更高的精度.
为了进一步地分析模型合理有效性, 本节将对模型的可解释性进行详细的分析, 具体分为面部动作单元关系可视化和注意力机制可视化两个部分.
面部动作单元检测条件下AU关系示意图
为了进一步验证模型的可解释性, 本文尝试对区域学习通道的注意力机制进行可视化, 并以热力图的形式展示每个面部动作单元所对应的激活区域. 具体地, 本文单独训练了MS_RL 模型, 在区域学习模块中本文从14×14大小的全局特征图上提取了6×6大小的局部特征图, 每个局部特征图对应全图18%大小, 然后每一个区域通道都接以单独的损失函数进行训练, 最后采用Grad-CAM[
面部动作单元强度条件下AU关系示意图
注意力机制可视化示意图
本文针对面部动作单元分析问题, 通过分析不同面部行为中AU之间的共生互斥性对其进行关系建模, 提出了基于语义关系的表征学习算法SRERL, 包括多尺度的主干神经网络模块, 基于注意力机制的区域学习模块和基于语义关系的图神经网络模块. 本文在多个公开的面部动作单元数据集上进行AU检测和AU强度预测两个任务的实验并与现有先进算法进行对比, 充分论证了模型的有效性. 更进一步, 本文还通过一系列实验证明模型的泛化性, 鲁棒性和各个模块的合理有效性.
尽管本文针对面部动作单元分析问题在公开数据集上取得了相较以往算法更高的性能, 但事实上面部动作单元分析领域还远没有人脸表情识别成熟, 在准确率上也远没有达到可以落地的效果. 综合考虑现有面部动作单元分析数据集和算法的优缺点, 本文认为未来面部动作单元分析问题可以在以下几方面展开研究.
1) 现有面部动作单元数据集都是基于实验条件下录制的, 受实验室环境的局限性, 这些数据集的样本分布与现实场景中的样本分布存在很大差异. 并且大部分数据集样本和标注单一, 而不同数据集之间标注AU的种类又各不一样, 这极大地限制了模型的泛化性能和跨数据集交叉训练. 因此收集并标注一个基于现实场景下的大型面部动作单元数据集对于面部动作单元分析问题来说至关重要.
2) 现有面部动作单元分析算法大都基于单帧图像, 而视频相比图像拥有更丰富的运动信息, 同时人脸长相的差异性是面部动作单元分析任务中的巨大挑战, 如何有效利用视频中丰富的运动信息并消除人脸长相的差异性带来的影响是提高面部动作单元分析模型性能的关键.
3) 虽然面部动作单元的标注及其困难, 但是带有表情标注的人脸图像却可以轻易获得, 如何有效利用这些没有面部动作单元信息标注的数据以提高面部动作单元分析准确性是当前主流的研究方向之一; 另一方面如何将现有面部动作单元分析算法结合多模态的信息输入, 并应用于微表情分析等具体场景是现有面部动作单元分析问题落地的关键.
Tong Y, Liao WH, Ji Q. Facial action unit recognition by exploiting their dynamic and semantic relationships. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2007, 29(10): 1683–1699.
Du SC, Tao Y, Martinez AM. Compound facial expressions of emotion. Proc. of the National Academy of Sciences of the United States of America, 2014, 111(15): E1454–E1462.
Zhang X, Yin LJ, Cohn JF, Canavan S, Reale M, Horowitz A, Liu P, Girard JM. BP4D-spontaneous: A high-resolution spontaneous 3D dynamic facial expression database. Image and Vision Computing, 2014, 32(10): 692–706.
Mavadati SM, Mahoor MH, Bartlett K, Trinh P, Cohn JF. DISFA: A spontaneous facial action intensity database. IEEE Trans. on Affective Computing, 2013, 4(2): 151–160.
Shrout PE, Fleiss JL. Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 1979, 86(2): 420–428.
King DE. Dlib-ml: A machine learning toolkit. The Journal of Machine Learning Research, 2009, 10: 1755–1758.
Li W, Abtahi F, Zhu ZG, Yin LJ. EAC-Net: Deep nets with enhancing and cropping for facial action unit detection. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018, 40(11): 2583–2596.