摘要:随着深度摄像机的发展,不同模态的视频数据更易获得.基于多模态数据的视频动作识别也受到越来越广泛的关注.不同模态的数据能够从多个角度对视频动作进行描述,如何有效地利用多模态数据并形成优势互补是视频动作识别中的重要方向.提出了一种基于关联模态补偿的视频动作识别算法.该方法以RGB和光流场视频数据为源模态,以3D骨架数据为辅助模态,利用源模态和辅助模态高层特征空间的关联性,补偿源模态的特征提取.该算法基于卷积神经网络和长短期记忆网络,对源模态数据和辅助模态数据进行时空域特征建模.在此基础上,提出了基于残差子网络的模态适应模块,通过统一源模态特征和辅助模态特征的数据分布,实现辅助模态对源模态的特征补偿.考虑到源模态数据和辅助模态数据在动作类别或动作样本等方面存在不同程度的对齐情况,设计了多层次模态适应算法,以适应不同的训练数据.所提算法仅在训练过程中需要辅助模态的帮助,在测试过程中可以仅根据源模态数据进行动作的识别,极大地拓展了该算法的实用性.在通用公共数据集上的实验结果表明,相比于现有动作识别算法,该算法取得了更加优越的性能.
摘要:零样本学习是机器学习和图像识别领域重要的研究热点.零样本学习方法通常利用未见类与可见类之间的类别语义信息,将从可见类样本学习到的知识转移到未见类,实现对未见类样本的分类识别.提出了一种基于视觉特征组合构造的零样本学习方法,采用特征组合的方式构造产生大量未见类样例特征,将零样本学习问题转化为标准的监督学习分类问题.该方法模拟了人类的联想认知过程,其主要包括4步:特征-属性关系提取、样例构造、样例过滤、特征域适应.在可见类样本上抽取类别属性与特征维度的对应关系;利用特征-属性关系,通过视觉特征的组合构造的方式,产生未见类样例;引入非相似表示,过滤掉不合理的未见类样例;提出半监督特征域适应和无监督特征域适应,实现未见类样例的线性转换,产生更有效的未见类样例.在3个基准数据集(AwA,AwA2和SUN)上的实验结果显示,该方法效能优越,在数据集AwA上获得了当前最优的Top-1分类正确率82.6%.实验结果证明了该方法的有效性和先进性.
摘要:近年来,深度学习在图像描述领域得到越来越多的关注.现有的深度模型方法一般通过卷积神经网络进行特征提取,递归神经网络对特征拼接生成语句.然而,当图像较为复杂时,特征提取不准确且语句生成模型模式固定,部分语句不具备连贯性.基于此,提出一种结合多频道特征提取模型与生成式对抗网络框架的图像描述方法——CACNN-GAN.此方法在卷积层加入频道注意力机制在各频道提取特征,与COCO图像集进行近似特征比对,选择排序靠前的图像特征作为生成式对抗网络的输入,通过生成器与鉴别器之间的博弈过程,训练句法多样、语句通顺、词汇丰富的语句生成器模型.在实际数据集上的实验结果表明,CACNN-GAN能够有效地对图像进行语义描述,相比其他主流算法,显示出了更高的准确率.
摘要:由粗略到精细,分层策略和跨尺度的代价聚合在一定程度上有效地扩展了代价聚集并且能够生成高精度的视差图.这类方法致力于在弱纹理区域找到正确的匹配点从而提高匹配率.然而,这类方法必须以多尺度为前提,通常需要借助图像金字塔.另外,误差的传播以及薄壁结构的复原不理想限制了它们的应用.针对弱纹理匹配的问题,提出了一种通用的融合灰色尺度的代价聚合的立体匹配框架.鉴于高斯滤波后的灰度图像能够更好地表示匹配图像对中的弱纹理区域,该代价聚合融合了灰度图像的代价聚合.同时,算法不需要降采样以及建立图像金字塔,这加快了聚合速度.此外,还引入了引导图像滤波和快速加权中值滤波,用于代价聚合和视差求精.同时,在进行视差选择时,为了避免WTA(winner-take-all)带来的歧义,利用代价聚合后最小值和次小值之间的相互关系来确定最后的视差值.最终,在Middlebury测试平台上的实验结果表明:融合灰色尺度的代价聚合的立体匹配能够有效地提高视差的精度.
杨明浩 , 张珂 , 赵博程 , 朱庆杰 , 潘航 , 那燊若阳 , 湛永松 , 陶建华
摘要:基于Uarm机械臂构建了一个学习人类写字顺序的机械臂智能写字系统,该系统首先具有对陌生汉字的自动笔画拆分和书写能力,然后基于语音对话和图像分析技术,能够根据用户教授的笔画和笔顺来学习汉字的正确书写方式.首先,系统根据输入的语音信息以及摄像头观察到的文字的图像信息,获得用户想要写的关键字及对话意图;然后通过对摄像头看到的图像信息进行分析,对检测到的汉字进行自动笔画拆分和笔顺提取,对于正在教授中的字,跟踪笔迹顺序,学习汉字笔顺的正确写法.通过对话管理,机械臂会以对话的形式进行书写反馈并与用户交互,学习人类书写顺序并实现正确书写.通过实验分析及测试者主观评测,该系统取得了不错的评价.
摘要:眼动跟踪方法具有很强的视觉指向性,可以将其应用于面向大屏幕的目标选择,进而避免鼠标操作方式在空间上的远距离移动.然而,仅仅利用眼动跟踪进行选择操作,也会产生选择精度降低、容易产生误操作等问题.因此,为了实现大屏幕上快速、准确的目标选择,提出一种融合眼动跟踪与手势的多通道交互方法,即通过眼动跟踪选择目标,利用手势进行选择确认.在目标尺寸小、目标间距较小时,通过光标稳定和二次选择机制进一步对交互过程进行优化.用户测试结果表明,该方法可以在大屏幕上针对不同尺寸和间距的目标完成有效的选择操作,与仅使用眼动跟踪的目标选择方法相比,任务完成速度提升了16%,任务完成正确率提升了82.6%.此外,针对层级菜单的具体选择任务,该方法与仅使用眼动跟踪的方法相比,任务完成速度提升了13.6%,任务完成正确率提升了55.7%.此外,该方法总体性能接近传统的鼠标操作方式,进一步验证了该方法在实际应用中的有效性.
摘要:人的压力与其行为紧密相关,特别是在智能驾驶时,驾驶员压力感知对实现辅助驾驶具有巨大的应用潜力.现有压力感知方法多用于静态环境,检测过程也缺乏便捷性,难以适应高度动态的智能驾驶应用需求.为了实现智能驾驶中自然、准确和可靠的压力检测,提出一种基于可穿戴系统的行为辅助压力感知方法.该方法基于行为伴随实现压力检测,并基于多指标执行压力状态判别,能够有效提高压力检测准确度.其基本原理在于每个人在不同压力状态下的生理特征和行为模式不同,会对压力相关的PPG数据和行为相关的IMU数据产生独特影响.首先使用嵌入多传感器的可穿戴手套测量驾驶员的生理和运动信息,通过多信号融合技术获得可靠的生理行为指标,最终使用泛化性能较好的SVM模型分类驾驶员的压力状态.基于所提出的方法在模拟驾驶环境下部署了验证实验,实验结果显示,压力分类精确度可达到95%.
摘要:当今社会智能手表的使用越来越广泛,其中存储了用户大量的个人信息,需要设计合适的方法对其进行保护.PIN是密码是使用广泛的一种方式,但存在抗泄露性不足的问题.提出了一种智能手表身份认证方案,基于传统的数字密码认证设计,通过震动语义提示输入的密码位数.开展了3个实验来研究这种方法的表现.首先研究了能否被用户快速并且准备判别的震动时长组合.结果显示400ms和100ms的组合使用效果最好.随后设计了一组震动提示方案,并建立了震动和密码第几位的映射关系,经由实验证实了该方案能够被有效地记忆与实践.最后测试了在模拟真实情况下的密码输入.结果表明,设置5位密码进行4位输入可以导致保证较快的输入速度和较高的准确度,同时,能够保证较高的密码抗泄露性.为智能手表的身份认证设计提供了新的思路.
孙伟 , 黄进 , 李念龙 , 范向民 , 田丰 , 戴国忠 , 王宏安
摘要:动态目标选择是现代交互界面中最为基础的交互任务之一,目前存在多种辅助技术,但这些技术的决策和参数设定有很强的经验性,无法根据用户的当前状态进行调整.为了解决这个问题,基于两个认知负荷与难度感知的假设,提出一种脑机接口辅助的动态目标选择技术,利用近红外光谱信号对用户认知负荷感知的敏感性,实时地调整目标选择技术参数,给不同用户个体提供个性化辅助,适用于不同场景、用户状态和任务难度.通过一组实验,对提出的假设进行了验证,并且基于该假设构建的脑机接口辅助的动态目标选择技术,较不作任何辅助和固定辅助技术两种方案都更优,具体地,在选择错误率上分别降低20.55%和12.09%,在完成时间上分别降低998.35ms和208.67ms.