情感识别是多学科交叉的研究方向,涉及认知科学、心理学、信号处理、模式识别、人工智能等领域的研究热点,目的是使机器理解人类情感状态,进而实现自然人机交互.首先,从心理学及认知学角度介绍了语音情感认知的研究进展,详细介绍了情感的认知理论、维度理论、脑机制以及基于情感理论的计算模型,旨在为语音情感识别提供科学的情感理论模型;然后,从人工智能的角度,系统地总结了目前维度情感识别的研究现状和发展,包括语音维度情感数据库、特征提取、识别算法等技术要点;最后,分析了维度情感识别技术目前面临的挑战以及可能的解决思路,对未来研究方向进行了展望.
Emotion recognition is an interdisciplinary research field which relates to cognitive science, psychology, signal processing, pattern recognition, artificial intelligence, and so on, aiming at helping computer understand human emotion state to realize natural human-computer interaction. In this survey, the psychological theory of emotion is firstly introduced as the theoretical basis for the emotion model used in emotion recognition, including appraisal theory, dimensional models of emotion, brain mechanisms, and computing models. Then, the advanced technologies of dimensional emotion recognition from the artificial intelligence perspective, such as the speech emotion corpora, feature extraction, classification, are presented in detail. Finally, the challenges of dimensional emotion recognition are discussed and the workable solutions and future research directions are proposed.
情感是人类智能的重要组成部分, 使计算机拥有情感、像人一样识别和表达情感, 仍是一个亟须解决的问题.Picard提出了情感计算的概念, 开辟了计算机科学的新领域.目前, 情感识别的研究主要集中在语音情感识别、基于人脸的情感识别、文本情感识别、肢体行为情感识别.语音是人类交流情感和思想的最自然、最有效的方式之一[
https://affect.media.mit.edu/), 研究方向包括多维信号建模、计算机视觉及模式识别、机器学习、人机交互和情感计算等.Picard的《Affective Computing》开创了计算机科学和人工智能学科的新分支——“情感计算”; 德国奥格斯堡大学Björn Schuller团队长期致力于人工智能、音频识别、情感计算、机器学习的相关算法和研究领域, 其开发的OpenSMILE情感特征提取工具被广泛应用; 微软Microsoft研究院研究员利用CNN、RNN、LSTM等多种深度学习方法检测语音信号中的情感信息; 南加州大学Jonathan Gratch教授的研究方向主要包括虚拟机器人以及情感计算模型, 以及研究认知与情感的关系, SAIL(signal analysis and interpretation laboratory)实验室研究以人类交流为核心的信号及信息处理技术, 包括行为信号处理、情感计算、多模态信号处理、计算多媒体智能、计算语音科学等; 卡内基梅隆大学的人机交互研究(https://hcii.cmu.edu/research/audio-emotion-recognition)将提出的两阶段分层语音情感识别方法(two-stage hierarchical classification approach)应用于中风康复治疗虚拟教练中, 建议患者是否该休息、是否进行不同的锻炼; Virginia Affective Neuroscience Laboratory研究设计情感的神经科学机制研究、行为学研究、情感健康研究, 旨在为人类情感研究提供基础的理论研究, 利用EEG脑电图分析、fMRI成像技术研究人类大脑对情感的处理机制, 为推动情感识别、情感计算等的发展提供认知理论支撑及指导.瑞士情感中心(Swiss Center for Affective Sciences)是一个跨学科研究中心, 研究重点为情感或情感科学, 涉及认知神经科学、心理学、语言学、情感计算领域.除此之外, 日本北陆先端科学技术大学院大学、新加坡南洋理工大学、新加坡国立大学、新加坡资讯通信研究院、爱尔兰都柏林圣三一学院、英国格拉斯哥大学、德国帕绍大学、加拿大滑铁卢大学、美国得克萨斯州大学等国际众多院校或机构致力于情感智能相关领域的研究.]]>
国内也有越来越多的科研单位加入该领域的研究, 如中科院自动化研究所主要研究听觉模式的分析和理解, 包括情感交互技术等; 清华大学多年从事语音信号处理方面的研究, 开发的“汉语文语转换系统Sonic”在文本分析、韵律模型、合成语音的自然度方面有重要突破; 东南大学从事语音信号处理、情感信息处理等研究, 在汉语连续语音韵律特征、F0的生成模型、声调处理、语音信号中的情感信息处理等方面取得了一些有价值的研究成果; 天津大学在语音识别、对话、言语认知脑机理、言语理解、情感计算等领域的研究成果也均处于领先地位; 哈尔滨工业大学在语音情感识别、情感大脑认知领域进行深入研究等; 浙江大学与阿里巴巴建立前沿技术联合研究中心, 在人工智能、情感计算及跨媒体分析等领域取得很好成果, 并联合发布“懂情感”人工智能系统Aliwood, 可以为视频所配音乐建立情感模型.除此之外, 北京邮电大学、电子科技大学、大连理工大学、华南理工大学、中国科学技术大学、山东大学、西北大学、南京邮电大学、太原理工大学等都在语音情感识别或多模态情感识别领域做出重要贡献.
近几年来, 随着研究者对人工智能领域的关注, 越来越多的会议与竞赛也进一步推动了情感识别研究的发展.语音识别领域顶会INTERSPEECH和ICASSP每年都有语音情感识别的议题, 2016年举办了第6届音/视频情感大赛(Audio/visual Emotion Challenge and Workshop, 简称AVEC 2016)[
2018年, 中国科协发布了12个领域60个重大科学问题和工程技术难题, 其中, 信息科技领域的“人与机器的情感交互”位列其中, “无情感不智能”已成为众多研究者的共识.如何赋予机器人“情商”, 使其具有情感处理能力, 就成为服务机器人领域当前亟待突破的方向.目前, 美国、日本、德国、中国等纷纷开展了情感机器人的研究, 而识别情感则是实现情感交互的第一步.
语音情感识别的研究涉及诸多学科, 例如神经科学、心理学、认知科学、计算机科学等.情感理论是研究语音情感识别的基础, 人类情感极其复杂, 心理学领域已产生众多情感理论来解释人类情感[
● 一种是离散情感模型, 定义几种“基本情感”, 其他情感由“基本情感”不同程度修改和组合[
● 另一种是维度情感模型把情感看作是逐渐的、平滑的转变, 不同的情感可以映射到高维空间上的一点[
本文将首先从情感的心理学研究基础展开, 介绍情感的评估理论与维度情感模型; 在语音情感的认知学研究进展方面, 将综述包括语音情感的大脑处理机制、情感计算模型以及脑启发的情感识别算法; 在语音信号分析方面, 将着重介绍语音维度情感识别技术, 包括语音音频信号预处理方法、特征提取方法以及情感预测算法、语音情感识别技术实现所需要用到的算法实现工具.最后分析了该领域存在的问题, 并提出今后研究的关键问题(如
语音维度情感识别研究综述框架
Survey framework of speech dimensional emotion recognition
基本情感理论认为, 情感具有原型模式, 即存在数种基本情感类型.该理论将情感分为基本情感(basic/ primary/fundamental emotions)和次级情感(non-basic/secondary emotions).
● 基本情感固化在人类神经自主系统之中, 每类基本情感对应一个独特的、专门的神经通路, 能以特定的方式推动对他人和情境做出反应, 如语言声调、面部表情、身体姿态等.
● 次级情感是根据情感的调色板理论[
基本情感的定义往往利用情感评估模型.情感是在比较个人需求与外部要求过程中诱发的, 反映个人与环境的关系, 可按照一套标准来描述或评估, 这套标准叫做评估变量(例如likelihood, desirability, unexpectedness, controllability, urgency, future expectancy)、检查项或评价维度.
1) Scherer成分处理模型
1984年, 日内瓦的瑞士情感科学研究中心的心理学教授Scherer提出情感成分处理模型(component process model)[
2) OCC情感模型
在评估理论中最有影响力的是1990年Ortony, Clore和Collins提出的OCC模型[
3) Roseman评价理论
1996年, 美国罗格斯大学心理学教授Roseman[
目前, 研究者们对基本情感尚未达成共识, 大部分观点认为存在6种基本情感:恐惧、高兴、愤怒、厌恶、悲伤和惊奇, Ortony和Turner将这些观点整理见
基本情感理论[
Basic emotion theories[
研究者 | 基本情感 |
Arnold | Anger(生气), aversion(厌恶), courage(勇敢), dejection(沮丧), desire(渴望), despair(绝望), fear(恐惧), hate(讨厌), hope(希望), love(爱), sadness(悲伤) |
Ekman, Friesen, & Ellsworth | anger, disgust(厌恶), fear, joy(高兴), sadness, surprise(惊讶) |
Fridja | desire, happiness(开心), interest(喜爱), surprise, wonder(惊奇), sorrow(懊悔) |
Gray | Rage(愤怒) and terror(恐怖), anxiety(焦虑), joy |
Izard | anger, contempt(轻视), disgust, distress(悲痛), fear, guilt(内疚), interest, joy, shame(羞耻), surprise |
Plutchik | acceptance(容忍), anger, anticipation(期望), disgust, joy, fear, sadness, surprise |
Oatley & Johnson-Laird | anger, disgust, anxiety, happiness, sadness |
Panksepp | expectancy(期望), fear, rage, panic(恐慌) |
Tomkins | anger, interest, contempt, disgust, distress, fear, joy, shame, surprise |
基本情感理论借助情感评估模型, 以不同的方式解释情感是如何产生以及演变的, 社会心理学研究者利用这种理论解释和预测人对事件的反应机制以及情绪模式.评估模型主要用于情感建模与合成, 如文献[
任何情感发生时, 在某一属性或特性上可以有不同的幅值.情感维度就是对情感某种属性的度量, 维度具有极性.情感维度理论认为:情感状态不是独立存在的, 多个维度构成了人类情感空间, 不同情感之间是平滑过渡的, 利用维度空间中的距离可以表示不同情感的差异度与相似度.迄今为止, 研究者提出的维度划分方法多种多样, 并没有统一的标准评测哪种维度划分方法更好.典型的维度理论包括:
1. Wundt的情感三度说
Wundt在1863年提出情感的维度理论[
Wundt理论中的情感轨迹[
Three principal axes of Wundt's emotion space[
2. Schlosberg倒圆锥三维情感空间
Schlosberg[
Schlosberg提出的三维情感模型[
Schlosberg's three dimensional emotion model[
3. PAD情感空间模型
Russell & Mehrabian[
1)
2)
3)
4. Plutchik抛物锥情感空间模型
Robert Plutchik于1984年提出8种基本的“两极”情感:高兴-悲伤、愤怒-恐惧、厌恶-信任、惊奇-期望[
Plutchik提出的情感三维结构模型[
Plutchik's three-dimensional structural model of emotions[
5. Russell的愉快度和强度环形模型[
Russell的后续研究表明, Schlosberg所提出的注意-拒绝和激活度是很难区分的.于是, 他于1980进一步研究了情感的环状模式, 提出了二维情感描述模型:愉悦度和强度(如
Russell提出的情感环形模型[
Russell's circumplex model[
6.情感的高维空间模型
由于情感空间维度的数量没有定论, 所以部分学者根据自己的研究提出了高维空间模型.1974年, Krench[
尽管情感层次理论与维度空间理论分别利用不同的方法描述情感, 但是两者之间并不是对立的, 而是可以相互转换的.维度理论利用欧氏空间描述情感, 坐标轴的不同取值组合表示一种特定的情感状态, 但基本情感可以通过一定方式映射到情感空间中.Mehrabian[
OCC基本情感与PAD维度空间的映射[
Mapping of OCC basic emotions into PAD dimensional space[
情感 | 情绪象限 | |||
羡慕(admiration) | 0.5 | 0.3 | -0.2 | + |
感谢的(gratitude) | 0.4 | 0.2 | -0.3 | |
喜欢(liking) | 0.4 | 0.16 | -0.24 | |
希望(hope) | 0.2 | 0.2 | -0.1 | |
生气(anger) | -0.51 | 0.59 | 0.25 | - |
不喜欢(disliking) | -0.4 | 0.2 | 0.1 | |
厌恶(hate) | -0.6 | 0.6 | 0.3 | |
失望(disappointment) | -0.3 | 0.1 | -0.4 | - |
恐惧(fear) | -0.64 | 0.6 | -0.43 | |
同情(remorse) | -0.3 | 0.1 | -0.6 | |
羞愧(shame) | -0.3 | 0.1 | -0.6 | |
悲痛(distress) | -0.4 | -0.2 | -0.5 | - |
遗憾(pity) | -0.4 | -0.2 | -0.5 | |
FearsConfirmed | -0.5 | -0.3 | -0.7 | |
怨恨(resentment) | -0.2 | -0.3 | -0.2 | |
满意(gratification) | 0.6 | 0.5 | 0.4 | + |
高兴(HappyFor) | 0.4 | 0.2 | 0.2 | |
快乐(joy) | 0.4 | 0.2 | 0.1 | |
热爱(love) | 0.3 | 0.1 | 0.2 | |
自豪(pride) | 0.4 | 0.3 | 0.3 | |
安慰(relief) | 0.2 | -0.3 | 0.4 | + |
满足(satisfaction) | 0.3 | -0.2 | 0.4 | |
耻辱(reproach) | -0.3 | -0.1 | 0.4 | - |
心满意足(gloating) | 0.3 | -0.3 | -0.1 | + |
李海峰、韩文静[
情感产生的脑机理研究经历了一个较长的过程, 受到神经解剖学、神经生理与认知心理学等相关科学发展的影响.思想家和科学家对情绪奥秘的探讨可以追溯到古代的臆测和神秘主义.直到文艺复兴以后, 如霍布斯(Hobbes)、洛克(Locke)、笛卡儿(Descartes)等带有唯物主义色彩的哲学家才把知觉、思维、知识、情绪等和神经与脑的活动联系了起来.1872年, 达尔文(Darwin)在《人和动物的表情》一书里论述了情绪的生物学基础, 强调了环境对情绪行为的作用, 形成了情绪生理心理学的雏形.其后的詹姆斯(James)提出了最早的情绪生理-心理学理论, 为探讨情绪的性质指出了一条必由之路.James-Lang理论(1885年)即情绪外周理论, 强调情绪的产生是植物神经系统活动的产物.1912年, Mills首次提出了情感的大脑右半球假说, 右脑更多地决定了人的空间感、抽象思维、音乐感与艺术性.1931年, Cannon提出了情绪的丘脑学说, 认为丘脑对情绪调节起着重要作用.随后, Papez提出了Papez环路理论, 认为下丘脑是情绪表达中心, 边缘系统是情绪体验部位.但当时, 这一回路并没得到科学研究证实.Maclean于1952年提出了情绪脑的概念, 划分了较为精细的情绪相关脑区网络, 得到研究者的广泛认同(如
MacLean提出的边缘系统理论[
MacLean's limbic system theory[
20世纪60年代, 随着情绪生理-心理学的发展, 形成了诸多情绪理论学派:阿诺德(Arnold)的评价-兴奋论[
情感大脑研究的重要里程碑工作
Timeline of historical milestones in researches of the emotional brain
近年来, 功能性磁共振成像fMRI(functional magnetic resonance imaging)技术与脑电图EEG(electroenc ephalo graphy)技术为人类情绪的中枢神经机制研究提供了大量的研究证据, 初步揭示了人类情绪管理过程中大脑的区域功能和神经机制(如
人类情绪管理系统示意图
Diagram of human emotion management system
(1) 情绪感知:枕叶加工视觉信息, 顶叶进行躯体感觉整合和空间视觉整合, 颞叶进行听觉性言语功能处理, 岛叶接受来自内脏和躯体状态改变的感知信号.
(2) 认知评价:眶额皮层、腹内侧前额皮层对情绪信息进行高级再加工, 完成对情绪刺激动机意义的评价.
(3) 主观调整:前部扣带回负责情绪加工中的冲突监控; 杏仁核通过与海马系统的相互作用, 可以使情绪性事件的陈述性记忆变得更加巩固.
(4) 自主活动:颞上回与社会性情绪相关, 完成对精细感觉的加工; 后扣带皮层与评断道德价值有关.
(5) 外显行为:脑干和下丘脑调节情绪活动中的躯体与自主反应, 实现人类的情感行为表达.
在情绪神经机制研究方面, Lindquist[
● 一种方法是Locationist方法.该方法假设离散的情感类别是由其对应的不同脑区产生, 例如恐惧对应于杏仁核(amygdala)的激活、厌恶对应于脑岛区(insula)的激活、生气对应于眶额叶皮层(orbitofrontal cortex, 简称OFC)的激活、悲伤对应于前扣带皮层(anterior cingulate cortex, 简称ACC)的激活.
● 另一种方法是心理学建构论方法(psychological constructionist approach).该方法假设情感状态是由大脑功能网络的相互作用形成, 杏仁核、脑岛、腹内侧眶额皮层、前扣带皮层、丘脑都参与多个主要情感的形成.
Lindquist等人通过对大量人类情感的神经影像学文献的总结, 认为更多地证据与构建论一致, 不同的大脑区域相互作用共同参与情感的体验与感知.
更具体地, 大脑如何处理语音情感, 也是听觉语言处理研究的一个热门课题.语义信息以及韵律线索对语音情感的理解起着重要作用.有研究表明:大脑右半球负责处理情感韵律信息[
情感相关的认知神经科学的研究, 促进了情感计算模型的发展, 产生了一系列能实现情感计算的系统.目前, 较多的情感计算模型是基于情感认知理论.Elliott实现了一个基于OCC模型的情感推理机(affective reasoner)系统[
ALMA多层次情感模型[
Becker-Asano提出了WASABI[
情感计算模型发展史[
A history of computational models of emotion[
听觉通路从听觉信息的感知、说话人识别、语音感知到言语生成分为不同的等级[
人类听觉通路框图[
Block diagram of the human auditory pathway[
根据大脑边缘系统的结构, Morén等人提出了大脑情感学习模型(brain emotional learning model, 简称BEL model)[
Morén等人提出的BEL模型[
BEL model proposed by Morén,
基于ANFIS和MLP改进的BEL模型用于语音情感识别[
An optimized model of BELthat merges the ANFIS and MLP for speech emotion recognition[
借鉴人类情绪机制的类脑情感计算研究已经开始, 在人脑这个“巨象”上, 研究工作者面临着如何深入解读大脑功能和揭示这个开放的复杂巨系统运行机制的挑战.
语音情感识别系统是经典的模式识别系统, 包括系统训练阶段和测试阶段.对于采集的语音信号均先进行预处理后, 根据情感空间描述模型的不同, 进行特征分析与识别任务技术设计(如
语音情感识别系统框架
Framework of a speech emotion recognition system
特征提取与处理, 是语音情感识别中重要的部分, 特征集直接影响识别器的识别能力和鲁棒性.特征提取的目的是从语音信号中提取一方面能表征不同识别单元的声学差异, 另一方面有能表征相同识别单元不同样本之间的声学相似性的信息.
语音情感信息通过语义和非语义两种形式传递:语义信息以一定的语言规则(语法、修辞等)传递说话者的情感; 非语义语音情感信息包括两种形式——情绪韵律(emotional prosody)[
人们可通过感知语音中的声学线索, 从中提取出所携载的情感倾向.声学特征是独立于语言内容而传递的情感信息, 不受文化差异的影响, 对于不同语种的情感数据库, 均可通过提取声学特征进行情感识别[
1. LLDs特征
(1) 韵律特征
韵律特征被认为是与发音单元(音节、单词、短语、句子)相关联的声学特征, 又被称为“超音段特征”, 在情感识别中应用非常广泛[
近来, 研究者提出了一些新的韵律特征.Arias[
(2) 音质特征
音质特征描述声门属性, 语音的音质特征主要指具有不同情感状态的说话人发音方式上的区别.Scherer的情感成分处理模型提到音质特征影响情感的变化.Tato等人[
Borchert[
(3) 谱特征
谱特征通常用来表示发声器官的物理特征, 是信号的短时表示, 一般认为在很短时间内(10~30ms)相对平稳, 可以通过某时刻附近一段短语音信号得到一个频谱.频谱表示频率与能量的关系, 有助于更好地观察音素.常见的频谱图主要有线性振幅谱、对数振幅谱、自功率谱.谱特征主要有线性预测系数(linear predictor coefficients, 简称LPC)、线谱对参数(line spectrum pair, 简称LSP)、单边自相关线性预测系数(one-sided autocorrelation linear predictor coefficients, 简称OSALPC)等.频谱图中的共振峰携带了声音的辨识属性, 利用倒谱可以提取包络信息, 得到共振峰用于识别.常见的倒谱特征有感知线性预测倒谱系数(perceptual linear predictive cepstral coefficients, 简称PLP)、线性预测倒谱系数(linear predictor cepstral coefficients, 简称LPCC)、单边自相关线性预测倒谱系数(one-side autocorrelation linear predictor cepstral coefficients, 简称OSALPCC).考虑到人耳听觉系统响应不同频率信号的灵敏度不同, 将线性频谱映射到基于听觉感知的Mel非线性频谱中, 再进行倒谱转换, 得到Mel倒谱系数(Mel frequency cepstrum coefficients, 简称MFCC).MFCC已广泛应用于语音识别、情感识别领域.
另外, 最近研究者们也提出了一些新的谱特征.Huang[
2.统计特征
进行语音情感识别时, 帧特征往往不直接作为网络输入进行学习, 而是利用这些特征的一些统计值进行神经网络训练.
LLDs特征以及统计特征
LLDs and functions
特征Low-level descriptors (LLDs) | 统计函数(functionals) |
基频(Fundamental frequency), 能量(energy), 强度(intensity), 谐波噪声比(harmonics-to-noise ratio, 简称HNR), 语速(speech rate), Mel倒频谱系数(Mel frequency cepstral coefficients, 简称MFCCs), 共振峰振幅(formant amplitude), 共振峰带宽(formant bandwidth), 共振峰频率(formant frequency), 线性预测倒谱系数(linear predictor cepstral coefficients, 简称LPCC), 线谱对参数(line spectrum pair, 简称LSP), 谱斜率(spectral tilt), 振幅比(normalized amplitude quotient) | 极值(Extreme values), 最大值(maximum), 最小值(minimum), 平均值(means), 标准差(standard deviation), 方差(variance), 峰度(kurtosis), 偏斜度(skewness), 百分数(percentiles), 百分比范围(percentile ranges), 四分位数(quartiles), 中心(centroids), 偏离量(offset), 斜率(slope), 均方误差(mean squared error), 时长(time/durations) |
Schuller等人[
情境上下文对情感的识别具有关键性作用, 长时统计特征在区分高激活度和低激活度情感语音的效果较好, 但是对激活度相同情感的区分能力较弱, 如很难区分具有相同激活度的生气和欢乐情感语音.具有时序信息的帧特征在区别效价度不同的情感语音[
目前, 已有少量文献尝试选取不同窗长来提高情感识别率, 但存在的文献没有统一的答案.Origlia[
语音信号中传递的语义信息对于情感识别具有一定的作用, 有些特定的词汇可以表达相应的情感倾向. Lee等人[
情感识别通过获取人类情感信息, 识别人类的情感, 提高机器与人之间自然交互能力.根据情感描述模型的不同, 语音情感识别系统采用的识别算法亦不同.维度语音情感识别问题可建模为回归预测问题, 常见的回归预测算法包括线性回归(linear regression)、
偏最小二乘法(PLS)[
SVR是支持向量在函数回归领域的应用[
LSTM网络使用特殊的神经元在长时间范围内存储并传递信息, 适合于处理和预测时间序列中长时间延迟的信号, 因此, 该网络可以记忆情感随时间的变化信息.利用长短时记忆循环网络(LSTM-RNN)进行维度情感识别, 取得了比传统方法更好的效果.Wöllmer[
国内也有越来越多的学者提出新颖的语音维度情感识别方法.陈逸灵等人[
目前, 上述基于单一数据的语音情感识别性能已经取得了很大的提升.然而, 在很多实际应用情境下, 系统必须考虑文化、语言、种族、个体、年龄等影响下数据的情感分类.从大脑工作神经机制来讲, 不同种族、文化等人群对情感的反应具有一致生理生化基础, 康奈尔大学神经学家Anderson的一项研究表明, 人的大脑会使用一种标准的代码来说出同样的情感语言[
情感数据库是语音情感识别的先决条件, 提供训练与测试用语音样本, 数据库的质量直接影响情感识别率以及研究结果的可靠性.目前, 语音情感识别领域以离散情感数据库居多, 如Belfast情感数据库、EMO-DB德语情感数据库、FAU AIBO儿童德语情感数据库、CASIA汉语情感语料库、ACCorpus汉语情感数据库等, 维度情感语料库有待进一步丰富.下文首先介绍维度语音数据库的建立与标注方法, 然后介绍一些代表性的维度情感数据库.
根据语料的情感自然度程度的不同, 情感语音数据库的建立方法主要有3种.
(1) 自然情感语料:从现实生活中采集真实的自然语料, 进一步通过人工筛选与标注的方法获得可用语料.这类情感语料具有最高的自然度, 可以认为是真实意义上的情感语料.这种语料在使用前必须进行分类标注, 由于分类的标准不统一, 并且有些情感人类自身也难以区分, 因此这类情感语料具有一定局限性.
(2) 模拟情感语料:由专业或善于表达情感的人进行情感模仿录制语料.这种有目的性录制的特定情感语料具有更好的区分性, 但这种语料的情感自然度取决于录音者的模仿能力, 有时情感成分被夸大而不能体现真实的情感.
(3) 诱导情感语料:利用情景短片或者角色扮演的方式营造相应的环境氛围, 从而诱导录音者产生特定情感后录音.利用该方法获得的语料接近真实情感, 但由于环境诱发刺激效果很难评测, 导致较难判断诱发的情感是否强烈.
语音情感数据库的标注是一个困难但又极为重要的工作, 数据标注的质量对基于语音的情感研究有着重要的意义.实现较为精确的语音情感标注通常需要3个方面:音字转写(transcription)、注解(annotation)、标注(labelling)[
标注时须有一定的规则, 包括标注的一致性、连贯性、标注符号的易记性, 但同时还需要遵循的一条原则是允许标注的不确定性和差异性存在, 即允许不同的标注者对同一条语音中的情感、重音、声调等有不同的理解, 避免向用户提供错误信息.
近些年来, 随着研究者们对维度情感识别领域的关注, 一些公开的以科学研究为目的的维度情感数据库逐渐被发布.尽管完整的语音情感数据库应包括转写、注解、情感标注, 但目前, 维度语音情感数据库的标注往往只包含对整句或段的情感标注.因此, 构建公认的有效、全面、优质的语音情感数据库, 是语音情感计算研究的重中之重.
VAM数据库(vera am mittag database)现场录制了12个小时的德语电视谈话节目[
● 语音库又分为两部分:一部分为非常明显的情感表达, 包括19个不同说话人的499个语句, 由17个听者在Valence、Activation、Dominance这3个维度利用SAM进行标注, 可用于维度语音情感识别研究; 另一部分包括28位说话人的519个语句, 由6位听者进行标注.
● 表情库包括20位说话者的1 867幅表情图片, 涵盖高兴、生气、悲伤、厌恶、恐惧、惊讶的6类情感以及中性情感, 可用于表情识别研究.
Semaine数据库是一个音视频情感数据库[
Recola数据库是一个多模态法语情感数据库[
USC IEMOCAP(interactive emotional dyadic motion capture)数据库[
http://www.fon.hum.uva.nl/praat)可实现对语音信号的采集、分析、标注、合成、统计分析等功能; OpenSMILE (http://audeering.com/research/opensmile/)软件对于音频处理的特征提取是一款很有效的工具, 是一种以命令行形式运行的而不是图形界面的操作软件, 通过配置config文件对音频进行特征提取; pyAudioAnalysis(an open-source python library for audio signal analysis, https://github.com/tyiannak/pyAudioAnalysis/wiki/2.-General)是Python下的一个音频处理工具包, 可用于音频特征提取; Librosa(https://librosa.github.io/)也是基于python的工具包, 可以提取各种语音特征, window和Linux均可; HTK Speech Recognition Toolkit(http://htk.eng.cam.ac.uk/)是基于C语言的特征提取工具包, 代码成熟稳定, 目前支持GPU, windows和Linux环境均可; Kaldi ASR (http://kaldi-asr.org/)是一个语音识别工具包, 开发效率高, Linux使用方便.]]>
https://www.tensorflow.org/)是谷歌发布的开源工具, 编程接口支持Python和C++, 还可在谷歌云和亚马孙云中运行.TensorFlow支持细粒度的网格层, 而且允许用户在无需用低级语言实现的情况下构建新的复杂的层类型, 子图执行操作允许开发者在图的任意边缘引入和检索任意数据的结果.Caffe(http://caffe.berkeleyvision.org/)是自2013年底以来第一款主流的工业级深度学习工具包, 具有优秀的卷积模型, 是计算机视觉界最流行的工具包之一.CNTK(https://github.com/Microsoft/CNTK/wiki)是微软最初面向语音识别的框架, 支持RNN和CNN类型的网络模型, 从而在处理图像、手写字体和语音识别问题上, 它是很好的选择.MXNet (http://mxnet.io/)是一个全功能、可编程和可扩展的深度学习框架, 它支持深度学习架构, 如卷积神经网络(CNN)、循环神经网络(RNN)和其包含的长短时间记忆网络(LTSM), 为图像、手写文字和语音的识别和预测以及自然语言处理提供了出色的工具.PyTorch(http://pytorch.org/)是一种Python优先的深度学习框架, 特点是快速成形、代码可读和支持最广泛的深度学习模型.Theano(http://deeplearning.net/software/theano/)开创了将符号图用于神经网络编程的趋势, 但缺乏分布式应用程序管理框架, 只支持一种编程开发语言.]]>
现有的语音情感识别是基于计算机科学进行研究的, 利用机器学习的算法进行训练与识别.但情感是人类极其复杂的心理状态, 研究人类大脑的情感处理机制将尤为重要.目前, 情感识别的算法太简单, 缺乏心理学对情感研究成果的指导.如何更全面地建立情感的描述模型?不同情感之间是否有关联?例如, Ekman等人[
除此之外, 目前的情感识别框架缺乏人类大脑的复杂机制和工作模式的指导, 与认知功能之间的交互与协同较少.随着认知科学的快速发展, 科学家越来越多地了解人类大脑复杂的信息处理机制, 将这些成果与机器学习算法结合, 将有助于突破目前情感识别研究的瓶颈, 实现真正的人工智能.
语音情感类数据在收集与标注上存在的困难, 导致当下用于研究的数据规模较小, 种类较为贫乏.在上下文语境未知的情况下, 标注变得更加困难, 公认的有效、全面、优质的语音情感数据库是语音情感计算研究的基础.目前, 高质量的情感语料库很少, 而且缺乏大规模跨语言的公认语料库, 研究者们利用不同的数据库进行情感识别, 导致识别结果难以进行比较评价.目前, 用于情感标注的都是自我评价(self-report)方法, 如SAM量表等.研究者们可制定情感数据库标注的相关国标以明确详细的标注规则和方法; 借助数据标注公司、情感心理学专家的帮助, 建立拥有完整情感标注信息的优质语音情感数据库.
与离散情感识别类似, 进行维度情感识别的首要工作是特征提取, 决定了回归预测器准确率的高低.目前, 大多数特征是基于语音的声学特征, 这些声学特征能否有效地表征情感, 并没有详细的论证.情感特征的提取需要考虑两方面问题:首先, 所提取的声学特征与情感之间是否存在鸿沟, 能否有效地区分情感, 实现类内的特征距离较小、类间的特征距离较大; 其次, 情境上下文对情感的识别具有关键性作用, 需选取合适的时间粒度来提高情感识别率.
解决上述问题, 探索特征与情感类别之间映射关系, 提出对情感具有区分度的新特征, 将是非常有价值的研究方向.同时, 探索人类大脑对情感的处理机制, 结合心理学、认知学研究成果, 研究语音的各个层面(语素、词素、句法、语篇)对情感识别的影响.在此基础上, 提取不同粒度上的特征, 提高语音情感识别率.
语音识别的快速发展得益于人工神经网络的支持, 特别是近年来深度神经网络的发展, 使语音识别性能进一步提升.研究者们往往借鉴语音识别中使用的神经网络模型进行情感识别, 但是情感是较语言更高层次的表达, 需要包含更多信息, 甚至推理、记忆、决策能力.因此, 目前用于情感识别的网络模型需要基于认知理论进一步改进, 探索人类情感处理机制, 并对认知模型进行实用化实现, 提出相应的机器学习方法, 进一步建立类脑多尺度神经网络计算模型以及类脑人工智能算法, 将是突破语音情感识别研究瓶颈的有效策略.
语音情感识别是使机器实现自然的人机交互的重要方面, 不仅对推动信号处理、计算机、人工智能、人机交互、控制、认知等学科发展具有重要的学术意义, 而且具有重要的经济价值和社会意义, 如具有社交能力的情感机器人、情绪检测与监控、呼叫中心情绪考核等.基于情感的维度空间描述模型, 较传统的离散情感模型, 可以更精确地描述情感, 减小情感标签的模糊性, 具有无限的情感描述能力.基于维度情感模型的语音情感识别系统也日益受到越来越多的关注.相关研究人员已在语音情感认知、语音维度情感数据库、情感相关的语音特征提取以及识别算法方面取得长足的进步, 本文也主要针对这4个方面详细介绍了基于维度情感描述模型的语音情感识别进展, 填补了目前语音维度情感识别综述的空缺; 同时, 提出了该技术当前仍面临的一系列挑战, 如进一步探究人脑对语音情感认知规律、提出表征情感的语音特征、利用人脑情感认知机制指导识别算法的改进等.
Crystal, D. Non-segmental phonology in language acquisition:A review of the issues. Lingua, 1973, 32(1-2):1-45.
Liebenthal E, Silbersweig DA, Stern E. The language, tone and prosody of emotions: Neural substrates and dynamics of spoken-word emotion perception. Frontiers in Neuroscience, 2016, 10: No.506.
Murray IR, Arnott JL. Toward the simulation of emotion in synthetic speech:A review of the literature on human vocal emotion. The Journal of the Acoustical Society of America, 1993, 93(2):1097-1108.
Williams CE, Stevens KN. Emotions and speech:Some acoustical correlates. The Journal of the Acoustical Society of America, 1972, 52(4B):1238-1250.
Murray IR, Arnott JL. Synthesizing emotions in speech: Is it time to get excited? In: Proc. of the 4th Int'l Conf. on Spoken Language Processing (ICSLP'96). IEEE, 1996.
Valstar M, Gratch J, Schuller B, et al. Depression, mood, and emotion recognition workshop and challenge. In: Proc. of the 6th Int'l Workshop on Audio/Visual Emotion Challenge (AVEC 2016). ACM, 2016. 3-10.
Dhall A, Kaur A, Goecke R, Gedeon T. Emotiw 2018: Audio-video, student engagement and group-level affect prediction. In: Proc. of the 2018 on Int'l Conf. on Multimodal Interaction. ACM, 2018.
Li Y, Tao J, Schuller B, Shan S, Jiang D, Jia J. Mec 2016: The multimodal emotion recognition challenge of CCPR 2016. In: Proc. of the Chinese Conf. on Pattern Recognition. Springer-Verlag, 2016.
Li Y, Tao J, Schuller B, Shan S, Jiang D, Jia J. Mec 2017: Multimodal emotion recognition challenge. In: Proc. of the 20181st Asian Conf. on Affective Computing and Intelligent Interaction (ACII Asia). IEEE, 2018.
Christianson SA. The Handbook of Emotion and Memory: Research and Theory. Psychology Press, 2014.
Lewis M, Haviland-Jones JM, Barrett LF. Handbook of Emotion. 3rd ed., The Guilford Press, 2008. 249-271.
Ortony A, Turner TJ. What's basic about basic emotions? Psychological Review, 1990, 97(3):315-331.
Gunes H, Schuller B, Pantic M, Cowie R. Emotion representation, analysis and synthesis in continuous space: A survey. In: Proc. of the 2011 IEEE Int'l Conf. on Automatic Face & Gesture Recognition and Workshops (FG 2011). IEEE, 2011.
Chen S, Jin Q. Multi-modal dimensional emotion recognition using recurrent neural networks. In: Proc. of the 5th Int'l Workshop on Audio/Visual Emotion Challenge. ACM, 2015.
Ringeval F, Eyben F, Kroupi E, Yuce A, Thiran JP, Ebrahimi T, Lalanne D, Schuller B. Prediction of asynchronous dimensional emotion ratings from audiovisual and physiological data. Pattern Recognition Letters, 2015, 66:22-30.
Fontaine J. The dimensional, basic, and componential emotion approaches to meaning in psychological emotion research. In: Proc. of the Components of Emotional Meaning: A Sourcebook. Oxford University Press, 2013. 31-45.
Cowie R, Cornelius RR. Describing the emotional states that are expressed in speech. Speech Communication, 2003, 40(1-2):5-32.
Scherer KR. On the nature and function of emotion: A component process approach. In: Approaches to Emotion. Psychology Press, 1984.
Scherer KR. Vocal communication of emotion:A review of research paradigms. Speech Communication, 2003, 40(1-2):227-256.
Ortony A, Clore GL, Collins A. The Cognitive Structure of Emotions. Cambridge University Press, 1990.
Roseman IJ. Appraisal determinants of emotions:Constructing a more accurate and comprehensive theory. Cognition & Emotion, 1996, 10(3):241-278.
Soleimani A, Kobti Z. Toward a fuzzy approach for emotion generation dynamics based on occ emotion model. IAENG Int'l Journal of Computer Science, 2014, 41(1):48-61.
Olgun ZN, Chae Y, Kim C. A system to generate robot emotional reaction for robot-human communication. In: Proc. of the 201815th Int'l Conf. on Ubiquitous Robots (UR). IEEE, 2018.
Masuyama N, Loo CK, Seera M. Personality affected robotic emotional model with associative memory for human-robot interaction. Neurocomputing, 2018, 272:213-225.
Cavallo F, Semeraro F, Fiorini L, Magyar G, Sinčák P, Dario P. Emotion modelling for social robotics applications:A review. Journal of Bionic Engineering, 2018, 15(2):185-203.
Rincon JA, Costa A, Novais P, Julian V, Carrascosa C. A new emotional robot assistant that facilitates human interaction and persuasion. In: Proc. of the Knowledge and Information Systems. 2018. 1-21.
Bartneck C, Lyons MJ, Saerbeck M. The relationship between emotion models and artificial intelligence. arXiv preprint arXiv: 1706.09554, 2017.
Wundt W. Vorlesungen über die Menschen-und Thierseele. The Monist, 1863.
Schlosberg H. Three dimensions of emotion. Psychological Review, 1954, 61(2):81-88.
Russell JA, Mehrabian A. Evidence for a three-factor theory of emotions. Journal of Research in Personality, 1977, 11(3):273-294.
Plutchik R. Emotions: A general psychoevolutionary theory. In: Approaches to Emotion. Psychology Press, 1984.
Russell JA. A circumplex model of affect. Journal of Personality and Social Psychology, 1980, 39(6):1161-1178.
Krech D, Crutchfield RS, Livson N. Elements of Psychology. Alfred A. Knopf, 1974.
Izard CE. The Psychology of Emotions. Springer Science & Business Media, 1991.
Mehrabian A. Analysis of the big-five personality factors in terms of the PAD temperament model. Australian Journal of Psychology, 1996, 48(2):86-92.
Gebhard P. Alma: A layered model of affect. In: Proc. of the 4th Int'l Joint Conf. on Autonomous Agents and Multiagent Systems. ACM, 2005.
Becker-Asano C. Wasabi: Affect Simulation for Agents with Believable Interactivity. IOS Press, 2008.
Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software, 2014, 25(1):37-50(in Chinese with English abstract). http://www.jos.org.cn/1000-9825/4497.htm [doi:10.13328/j.cnki.jos.004497]
韩文静, 李海峰, 阮华斌, 马琳.语音情感识别研究进展综述.软件学报, 2014, 25(1):37-50. http://www.jos.org.cn/1000-9825/4497.htm [doi:10.13328/j.cnki.jos.004497]
MacLean PD. Psychosomatic disease and the "visceral brain"; Recent developments bearing on the Papez theory of emotion. Psychosomatic Medicine, 1949, 11(6):338-353.
Arnold MB. Emotion and Personality. Columbia University Press, 1960.
Pribram KH. Feelings as monitors. In:Loyola Symp. on Feelings and Emotions. New York:Academic Press, 1970.
Lazarus RS, Folkman S. Stress, Appraisal, and Coping. Springer Publishing Company, 1984.
LeDoux J, Bemporad JR. The emotional brain. Journal of the American Academy of Psychoanalysis, 1997, 25(3):525-528.
Morén J. Emotion and Learning-A Computational Model of the Amygdala[Ph.D. Thesis]. Lunds Universitet, 2002.
Morén J, Balkenius C. A computational model of emotional learning in the amygdala. From Animals to Animats, 2000, 6:115-124.
Phelps EA, LeDoux JE. Contributions of the amygdala to emotion processing:From animal models to human behavior. Neuron, 2005, 48(2):175-187.
Mathersul D, Williams LM, Hopkinson PJ, Kemp AH. Investigating models of affect:Relationships among EEG alpha asymmetry, depression, and anxiety. Emotion, 2008, 8(4):560-572.
Chikazoe J, Lee DH, Kriegeskorte N, Anderson AK. Population coding of affect across stimuli, modalities and individuals. Nature Neuroscience, 2014, 17(8):1114-1122.
Kirkby LA, Luongo FJ, Lee MB, Nahum M, Van Vleet TM, Rao VR, Dawes HE, Chang EF, Sohal VS. An amygdala-hippocampus subnetwork that encodes variation in human mood. Cell, 2018, 175(6):1688-1700.
Lindquist KA, Wager TD, Kober H, Bliss-Moreau E, Barrett LF. The brain basis of emotion:A meta-analytic review. Behavioral and Brain Sciences, 2012, 35(3):121-143.
Buchanan TW, Lutz K, Mirzazade S, Specht K, Shah NJ, Zilles K, Jäncke L. Recognition of emotional prosody and verbal components of spoken language:An fmri study. Cognitive Brain Research, 2000, 9(3):227-238.
George MS, Parekh PI, Rosinsky N, Ketter TA, Kimbrell TA, Heilman KM, Herscovitch P, Post RM. Understanding emotional prosody activates right hemisphere regions. Archives of Neurology, 1996, 53(7):665-670.
Paulmann S, Kotz SA. Temporal interaction of emotional prosody and emotional semantics: Evidence from ERPs. In: Proc. of the Int'l Conf. on Speech Prosody. 2006. 89-92.
Pihan H, Altenmüller E, Ackermann H. The cortical processing of perceived emotion:A DC-potential study on affective speech prosody. Neuroreport, 1997, 8(3):623-627.
Ross ED, Thompson RD, Yenkosky J. Lateralization of affective prosody in brain and the callosal integration of hemispheric language functions. Brain and Language, 1997, 56(1):27-54.
Ross ED, Edmondson JA, Seibert GB, Homan RW. Acoustic analysis of affective prosody during right-sided Wada test:A within-subjects verification of the right hemisphere's role in language. Brain and Language, 1988, 33(1):128-145.
Davidson RJ, Abercrombie H, Nitschke JB, Putnam K. Regional brain function, emotion and disorders of emotion. Current Opinion in Neurobiology, 1999, 9(2):228-234.
Zatorre RJ, Belin P, Penhune VB. Structure and function of auditory cortex:Music and speech. Trends in Cognitive Sciences, 2002, 6(1):37-46.
Ethofer T, Van De Ville D, Scherer K, Vuilleumier P. Decoding of emotional information in voice-sensitive cortices. Current Biology, 2009, 19(12):1028-1033.
Wildgruber D, Riecker A, Hertrich I, Erb M, Grodd W, Ethofer T, Ackermann H. Identification of emotional intonation evaluated by fMRI. Neuroimage, 2005, 24(4):1233-1241.
Wildgruber D, Ackermann H, Kreifelts B, Ethofer T. Cerebral processing of linguistic and emotional prosody:Fmri studies. Progress in Brain Research, 2006, 156:249-268.
Grandjean D, Sander D, Pourtois G, Schwartz S, Seghier ML, Scherer KR, Vuilleumier P. The voices of wrath:Brain responses to angry prosody in meaningless speech. Nature Neuroscience, 2005, 8(2):145-146.
Kotz SA, Kalberlah C, Bahlmann J, Friederici AD, Haynes JD. Predicting vocal emotion expressions from the human brain. Human Brain Mapping, 2013, 34(8):1971-1981.
Fritsch N, Kuchinke L. Acquired affective associations induce emotion effects in word recognition:An ERP study. Brain and Language, 2013, 124(1):75-83.
Elliot C. The affective reasoner: A process model of emotions in a multi-agent system[Ph.D. Thesis]. Northwestern University, 1992.
Reilly WS. Believable social and emotional agents[Ph.D. Thesis]. Carnegie-Mellon University, 1996.
Gratch J, Marsella S. Evaluating the modeling and use of emotion in virtual humans. In: Proc. of the 3rd Int'l Joint Conf. on Autonomous Agents and Multiagent Systems, Vol.1. IEEE Computer Society, 2004. 320-327.
Velásquez JD, Maes P. Cathexis: A computational model of emotions. In: Proc. of the 1st Int'l Conf. on Autonomous Agents. ACM, 1997. 93-98.
Marsella S, Gratch J, Petta P. Computational models of emotion. A Blueprint for Affective Computing-A Sourcebook and Manual, 2010, 11(1):21-46.
Watts L. Reverse-engineering the human auditory pathway. In: Proc. of the Advances in Computational Intelligence. Springer-Verlag, 2012. 47-59.
Abdi J, Moshiri B, Abdulhai B, Sedigh AK. Forecasting of short-term traffic-flow based on improved neurofuzzy models via emotional temporal difference learning algorithm. Engineering Applications of Artificial Intelligence, 2012, 25(5):1022-1042.
Falahiazar A, Setayeshi S, Sharafi Y. Computational model of social intelligence based on emotional learning in the amygdala. Journal of Mathematics and Computer Science, 2015, 14:77-86.
Milad HS, Farooq U, El-Hawary ME, Asad MU. Neo-fuzzy integrated adaptive decayed brain emotional learning network for online time series prediction. IEEE Access, 2017, 5:1037-1049.
Lotfi E, Khazaei O, Khazaei F. Competitive brain emotional learning. Neural Processing Letters, 2018, 47(2):745-764.
Lucas C, Shahmirzadi D, Sheikholeslami N. Introducing BELBIC:Brain emotional learning based intelligent controller. Intelligent Automation & Soft Computing, 2004, 10(1):11-21.
Parsapoor M, Bilstrup U. Brain emotional learning based fuzzy inference system (BELFIS) for solar activity forecasting. In: Proc. of the IEEE 24th Int'l Conf. on Tools with Artificial Intelligence. IEEE, 2012. 532-539.
Motamed S, Setayeshi S, Rabiee A. Speech emotion recognition based on a modified brain emotional learning model. Biologically Inspired Cognitive Architectures, 2017, 19:32-38.
Grimm M, Kroschel K, Mower E, Narayanan S. Primitives-based evaluation and estimation of emotions in speech. Speech Communication, 2007, 49(10-11):787-800.
Hammerschmidt K, Jürgens U. Acoustical correlates of affective prosody. Journal of Voice, 2007, 21(5):531-540.
Laukka P, Elfenbein HA, Söder N, Nordström H, Althoff J, Iraki FKE, Rockstuhl T, Thingujam NS. Cross-cultural decoding of positive and negative non-linguistic emotion vocalizations. Frontiers in Psychology, 2013, 4: No.353.
Sauter DA, Eisner F, Ekman P, et al. Cross-cultural recognition of basic emotions through nonverbal emotional vocalizations. Proc. of the National Academy of Sciences, 2010, 107(6):2408-2412.
Tickle A. English and Japanese speakers' emotion vocalisation and recognition: A comparison highlighting vowel quality. In: Proc. of the ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion. 2000.
Yang LC, Campbell N. Linking form to meaning: The expression and recognition of emotions through prosody. In: Proc. of the 4th ISCA Tutorial and Research Workshop (ITRW) on Speech Synthesis. 2001.
Thompson WF, Balkwill LL. Decoding speech prosody in five languages. Semiotica, 2006, 2006(158):407-424.
Pell MD, Monetta L, Paulmann S, Kotz SA. Recognizing emotions in a foreign language. Journal of Nonverbal Behavior, 2009, 33(2):107-120.
Bryant G, Barrett HC. Vocal emotion recognition across disparate cultures. Journal of Cognition and Culture, 2008, 8(1-2):135-148.
Émond C, Ménard L, Laforest M, Bimbot F, Cerisara C, Fougeron C, Gravier G, Lamel L. Perceived prosodic correlates of smiled speech in spontaneous data. In: Proc. of the Interspeech. 2013.
Wang YT, Han J, Jiang XQ, Zou J, Zhao H. Study of speech emotion recognition based on prosodic parameters and facial expression features. In: Proc. of the Applied Mechanics and Materials. 2013.
Rao KS, Koolagudi SG, Vempada RR. Emotion recognition from speech using global and local prosodic features. Int'l Journal of Speech Technology, 2013, 16(2):143-160.
Pao TL, Chen YT, Yeh JH, Liao WY. Detecting emotions in mandarin speech. Int'l Journal of Computational Linguistics & Chinese Language Processing, 2005, 10(3):347-362.
Pereira C. Dimensions of emotional meaning in speech. In: Proc. of the ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion. 2000.
Borchert M, Dusterhoft A. Emotions in speech-experiments with prosody and quality features in speech for use in categorical and dimensional emotion recognition environments. In: Proc. of the 2005 Int'l Conf. on Natural Language Processing and Knowledge Engineering. IEEE, 2005.
Arias JP, Busso C, Yoma NB. Shape-based modeling of the fundamental frequency contour for emotion detection in speech. Computer Speech & Language, 2014, 28(1):278-294.
Cowie R, Douglas-Cowie E, Tsapatsoulis N, Votsis G, Kollias S, Fellenz W, Taylor JG. Emotion recognition in human-computer interaction. IEEE Signal Processing Magazine, 2001, 18(1):32-80.
Sant'Ana R, Coelho R, Alcaim A. Text-independent speaker recognition based on the Hurst parameter and the multidimensional fractional Brownian motion model. IEEE Trans. on Audio, Speech, and Language Processing, 2006, 14(3):931-940.
Zao L, Cavalcante D, Coelho R. Time-frequency feature and AMS-GMM mask for acoustic emotion classification. IEEE Signal Processing Letters, 2014, 21(5):620-624.
Mencattini A, Martinelli E, Costantini G, Todisco M, Basile B, Bozzali M, Di Natale C. Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure. Knowledge-based Systems, 2014, 63:68-81.
Tato R, Santos R, Kompe R, Pardo JM. Emotional space improves emotion recognition. In: Proc. of the 7th Int'l Conf. on Spoken Language Processing. 2002.
Idris I, Salam MSH. Emotion detection with hybrid voice quality and prosodic features using neural network. In: Proc. of the 20144th World Congress on Information and Communication Technologies (WICT 2014). IEEE, 2014.
Kächele M, Zharkov D, Meudt S, Schwenker F. Prosodic, spectral and voice quality feature selection using a long-term stopping criterion for audio-based emotion recognition. In: Proc. of the 201422nd Int'l Conf. on Pattern Recognition. IEEE, 2014.
Huang Y, Zhang G, Li Y, Wu A. Improved emotion recognition with novel task-oriented wavelet packet features. In: Proc. of the Int'l Conf. on Intelligent Computing. Springer-Verlag, 2014.
Ziółko M, Jaciów P, Igras M. Combination of Fourier and wavelet transformations for detection of speech emotions. In: Proc. of the 20147th Int'l Conf. on Human System Interactions (HSI). IEEE, 2014.
Idris I, Salam MS. Improved speech emotion classification from spectral coefficient optimization. In: Proc. of the Advances in Machine Learning and Signal Processing. Springer-Verlag, 2016. 247-257.
Espinosa HP, García CAR, Pineda LV. Features selection for primitives estimation on emotional speech. In: Proc. of the 2010 IEEE Int'l Conf. on Acoustics, Speech and Signal Processing. IEEE, 2010.
Wang K, An N, Li BN, Zhang Y, Li L. Speech emotion recognition using fourier parameters. IEEE Trans. on Affective Computing, 2015, 6(1):69-75.
Ghosh S, Laksana E, Morency LP, Scherer S. Representation learning for speech emotion recognition. In: Proc. of the Interspeech. 2016.
Schuller B, Rigoll G. Recognising interest in conversational speech-comparing bag of frames and supra-segmental features. In: Proc. of the Interspeech 2009. Brighton, 2009.
El Ayadi M, Kamel MS, Karray F. Survey on speech emotion recognition:Features, classification schemes, and databases. Pattern Recognition, 2011, 44(3):572-587.
Origlia A, Cutugno F, Galatà V. Continuous emotion recognition with phonetic syllables. Speech Communication, 2014, 57:155-169.
Sethu V, Ambikairajah E, Epps J. On the use of speech parameter contours for emotion recognition. EURASIP Journal on Audio, Speech, and Music Processing, 2013, 2013(1): No.19.
Han WJ, Li HF, Han JQ. Speech emotion recognition with combined short and long term features. Journal of Tsinghua University (Science and Technology), 2008, 48(1):708-714(in Chinese with English abstract).
韩文静, 李海峰, 韩纪庆.基于长短时特征融合的语音情感识别方法.清华大学学报:自然科学版, 2008, 48(1):708-714.
Chen J, Li HF, Ma L, Chen X, Chen XM. Multi-granularity feature fusion for dimensional speech emotion recognition. Journal of Signal Processing, 2017, 33(3):374-382(in Chinese with English abstract).
陈婧, 李海峰, 马琳, 陈肖, 陈晓敏.多粒度特征融合的维度语音情感识别方法.信号处理, 2017, 33(3):374-382.
Deng J, Cummins N, Han J, Xu X, Ren Z, Pandit V, Zhang Z, Schuller B. The university of Passau open emotion recognition system for the multimodal emotion challenge. In: Proc. of the Chinese Conf. on Pattern Recognition. Springer-Verlag, 2016.
Lee CM, Narayanan SS. Toward detecting emotions in spoken dialogs. IEEE Trans. on Speech and Audio Processing, 2005, 13(2):293-303.
Schuller B, Rigoll G, Lang M. Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture. In: Proc. of the 2004 IEEE Int'l Conf. on Acoustics, Speech, and Signal Processing. IEEE, 2004.
Wu CH, Liang WB. Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels. IEEE Trans. on Affective Computing, 2011, 2(1):10-21.
Wold S, Sjöström M, Eriksson L. PLS-regression:A basic tool of chemometrics. Chemometrics and Intelligent Laboratory Systems, 2001, 58(2):109-130.
Vinzi VE, Trinchera L, Amato S. PLS Path Modeling:From Foundations to Recent Developments and Open Issues for Model Assessment and Improvement. Handbook of Partial Least Squares. Springer-Verlag, 2010. 47-82.
Vapnik V. The Nature of Statistical Learning Theory. Springer Science & Business Media, 2013.
Campbell C. An introduction to kernel methods. Studies in Fuzziness and Soft Computing, 2001, 66:155-192.
Smola AJ, Schölkopf B. A tutorial on support vector regression. Statistics and Computing, 2004, 14(3):199-222.
Grimm M, Kroschel K, Narayanan S. Support vector regression for automatic recognition of spontaneous emotions in speech. In: Proc. of the 2007 IEEE Int'l Conf. on Acoustics, Speech and Signal Processing (ICASSP 2007). IEEE, 2007.
Giannakopoulos T, Pikrakis A, Theodoridis S. A dimensional approach to emotion recognition of speech from movies. In: Proc. of the 2009 IEEE Int'l Conf. on Acoustics, Speech and Signal Processing. IEEE, 2009.
Kanluan I, Grimm M, Kroschel K. Audio-visual emotion recognition using an emotion space concept. In: Proc. of the 200816th European Signal Processing Conf. IEEE, 2008.
Wöllmer M, Kaiser M, Eyben F, Schuller B, Rigoll G. LSTM-modeling of continuous emotions in an audiovisual affect recognition framework. Image and Vision Computing, 2013, 31(2):153-163.
Schuller B, Valstar M, Eyben F, McKeown G, Cowie R, Pantic M. AVEC 2011-The 1st Int'l audio/visual emotion challenge. In: Proc. of the Int'l Conf. on Affective Computing and Intelligent Interaction. Springer-Verlag, 2011.
Chao L, Tao J, Yang M, Li Y, Wen Z. Long short term memory recurrent neural network based multimodal dimensional emotion recognition. In: Proc. of the 5th Int'l Workshop on Audio/Visual Emotion Challenge. ACM, 2015.
Chen YL, Cheng YF, Chen XQ, Wang HX, Li C. Speech emotion estimation in PAD 3D emotion space. Journal of Harbin Institute of Technology, 2018, 50(11):160-166(in Chinese with English abstract).
陈逸灵, 程艳芬, 陈先桥, 王红霞, 李超.PAD三维情感空间中的语音情感识别.哈尔滨工业大学学报, 2018, 50(11):160-166.
Han WJ, Li HF, Ma L. Considering relative order of emotional degree in dimensional speech emotion recognition. Signal Processing, 2011, 27(11):1658-1663(in Chinese with English abstract).
韩文静, 李海峰, 马琳.考虑情感程度相对顺序的维度语音情感识别.信号处理, 2011, 27(11):1658-1663.
Tanaka A, Koizumi A, Imai H, Hiramatsu S, Hiramoto E, de Gelder B. I feel your voice:Cultural differences in the multisensory perception of emotion. Psychological Science, 2010, 21(9):1259-1262.
Liu P, Rigoulot S, Pell MD. Culture modulates the brain response to human expressions of emotion:Electrophysiological evidence. Neuropsychologia, 2015, 67:1-13.
Liu P, Rigoulot S, Pell MD. Cultural differences in on-line sensitivity to emotional voices: Comparing east and west. Frontiers in Human Neuroscience, 2015, 9: No.311.
Elfenbein HA, Ambady N. On the universality and cultural specificity of emotion recognition:A meta-analysis. Psychological Bulletin, 2002, 128(2):203-235.
Song P. Transfer linear subspace learning for cross-corpus speech emotion recognition. IEEE Annals of the History of Computing, 2019, (2):265-275.
Sagha H, Matejka P, Gavryukova M, Povolný F, Marchi E, Schuller BW. Enhancing multilingual recognition of emotion in speech by language identification. In: Proc. of the Interspeech. 2016.
Kaya H, Karpov AA. Efficient and effective strategies for cross-corpus acoustic emotion recognition. Neurocomputing, 2018, 275:1028-1034.
Feraru SM, Schuller D. Cross-language acoustic emotion recognition: An overview and some tendencies. In: Proc. of the 2015 Int'l Conf. on Affective Computing and Intelligent Interaction (ACII). IEEE, 2015.
Böck R, Siegert I, Haase M, Lange J, Wendemuth A. Ikannotate-A tool for labelling, transcription, and annotation of emotionally coloured speech. In: Proc. of the Int'l Conf. on Affective Computing and Intelligent Interaction. Springer, 2011.
Cowie R, Douglas-Cowie E, Savvidou S, McMahon E, Sawey M, Schröder M. 'Feeltrace': An instrument for recording perceived emotion in real time. In: Proc. of the ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion. 2000. 19-24.
Zenk R, Franz M, Bubb H. Emocard-An approach to bring more emotion in the comfort concept. SAE Int'l Journal of Passenger Cars-mechanical Systems, 2008, 1:775-782.
Bradley MM, Lang PJ. Measuring emotion:The self-assessment manikin and the semantic differential. Journal of Behavior Therapy and Experimental Psychiatry, 1994, 25(1):49-59.
Lang PJ. Int'l affective picture system (IAPS): Affective ratings of pictures and instruction manual. Technical Report, University of Florida, 2005.
Broekens J, Brinkman WP. AffectButton:A method for reliable and valid affective self-report. Int'l Journal of Human-computer Studies, 2013, 71(6):641-667.
Ringeval F, Sonderegger A, Sauer J, Lalanne D. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions. In: Proc. of the 201310th IEEE Int'l Conf. and Workshops on Automatic Face and Gesture Recognition (FG). IEEE, 2013.
Siegert I, Wendemuth A. Ikannotate2-A tool supporting annotation of emotions in audio-visual data. Studientexte Zur Sprachkommunikation:Elektronische Sprach Signal Verarbeitung, 2017. 17-24.
Grimm M, Kroschel K, Narayanan S. The Vera ammittag german audio-visual emotional speech database. In: Proc. of the 2008 IEEE Int'l Conf. on Multimedia and Expo. IEEE, 2008.
McKeown G, Valstar MF, Cowie R, Pantic M. The SEMAINE corpus of emotionally coloured character interactions. In: Proc. of the 2010 IEEE Int'l Conf. on Multimedia and Expo. IEEE, 2010.
Schuller B, Valster M, Eyben F, Cowie R, Pantic M. AVEC 2012: The continuous audio/visual emotion challenge. In: Proc. of the 14th ACM Int'l Conf. on Multimodal Interaction. ACM, 2012.
Busso C, Bulut M, Lee CC, Kazemzadeh A, Mower E, Kim S, Chang JN, Lee S, Narayanan SS. IEMOCAP:Interactive emotional dyadic motion capture database. Language Resources and Evaluation, 2008, 42(4):335-359.
Ekman P, Friesen WV. Measuring facial movement. Environmental Psychology and Nonverbal Behavior, 1976, 1(1):56-75.
Davidson RJ. Affective style, psychopathology, and resilience:Brain mechanisms and plasticity. American Psychologist, 2000, 55(11):1196-1214.
Banse R, Scherer KR. Acoustic profiles in vocal emotion expression. Journal of Personality and Social Psychology, 1996, 70(3):614-636.