姜悦卉 , 张倩 , 王斌 , 沈慧中 , 黄继风 , 严涛
摘要:针对大姿态人脸对齐算法中的精确度低的问题,设计并实现了一种新的分层并行和多尺度Inception-Resnet网络来实现大姿态人脸对齐.首先,构建了一个四阶级联沙漏网络模型.该模型通过端到端的方式直接输入图像进行人脸对齐.其次,网络内部使用预先设定的参数进行采样和特征提取.最后,直接输出对应的人脸特征点提取图像以及同等人脸大小的二维坐标点绘制图,并将所提出的方法在AFLW2000-3D数据集上进行测试.实验结果表明,对于任意无约束的二维人脸图像,该方法的归一化平均误差为4.41%.与传统方法相比,该方法输出的正脸姿态图像视觉质量高、保真度更强.
摘要:事件相机因其生物视觉的启发渊源,打破了计算机视觉领域的常规数据获取方式,直击计算机视觉领域中RGB图像的痛点,带来了二维图像传感器无法比拟的优势,引起了广大研究者的密切关注.事件相机带来去除冗余信息、快速感知能力、高动态范围的感光能力和低功耗特性等优势的同时,其异步的事件数据无法直接应用于现有的计算机视觉处理模式.因此,利用基于关键事件点的分类方法对事件相机的数据流进行分类.该方法检测带有重要信息的角点事件,并只对角点事件进行特征提取.在保留事件重要特征和凝练提取事件流特征的同时,有效地减少了对其他事件的运算量.对预设手势进行识别,以此验证该方法的有效性,实现了97.86%的准确率.
摘要:稀疏编码已经广泛应用于复数图像的降噪问题,其中,近些年提出的分组稀疏编码由于能够充分利用同一分组图像块的相似性,在滤除噪声和提高降噪信噪比方面具有更大的优势.研究了一种基于K-means聚类方法的复数图像分组稀疏降噪算法,通过改进聚类算法,验证了K-means算法对分组稀疏编码算法的分组有效性.采用在线复数词典训练算法快速获取编码字典,并运用分组正交匹配追踪算法,实现了分组图像块的稀疏编码.通过限制每一分组图像块中编码的相似性,有效抑制了对图像块中噪声的编码,提高了对复数图像的降噪效果.为验证算法的有效性,对模拟和真实的干涉合成孔径雷达图像的仿真噪声进行了定量分析,证明了所提算法相对于以前的分组稀疏编码算法在峰值信噪比指标上有一定的提升.最后对真实的干涉合成孔径雷达图像进行了降噪,进一步验证了所提降噪算法对于真实噪声的降噪能力.
摘要:为了进一步利用近场语音数据来提高远场语音识别的性能,提出一种基于知识蒸馏和生成对抗网络相结合的远场语音识别算法.该方法引入多任务学习框架,在进行声学建模的同时对远场语音特征进行增强.为了提高声学建模能力,使用近场语音的声学模型(老师模型)来指导远场语音的声学模型(学生模型)进行训练.通过最小化相对熵使得学生模型的后验概率分布逼近老师模型.为了提升特征增强的效果,加入鉴别网络来进行对抗训练,从而使得最终增强后的特征分布更逼近近场特征.AMI数据集上的实验结果表明,该算法的平均词错误率(WER)与基线相比在单通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降5.6%和4.7%.在多通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降6.2%和4.1%.TIMIT数据集上的实验结果表明,该算法获得了相对7.2%的平均词错误率下降.为了更好地展示生成对抗网络对语音增强的作用,对增强后的特征进行了可视化分析,进一步验证了该方法的有效性.
摘要:研究阅读过程中的视觉注意行为特征,基于眼动数据和文本主题进行阅读行为特征和文档结构的分析,设计了眼动热区图、圆环图、节点链接图、词云等可视化形式.在此基础上开发了面向阅读辅助的可视分析原型系统,该系统记录专家用户(如老师)的眼动数据,然后通过可视化形式分享给新手用户(如学生).用户实验结果表明,实验组用户的阅读理解客观题和主观题得分平均值分别比对照组用户提高了31.8%和55.0%,阅读和答题总用时比对照组用户平均减少了9.7%,可以有效帮助读者提高阅读效率、快速抓住文章重点和更好地理解文章内容,具有一定的有效性和可行性.
仝青山 , 张宗琦 , 黄进 , 田丰 , 刘杰 , 戴国忠
摘要:笔式用户界面作为Post-WIMP界面中的一种,以触控技术为依托,摒弃了物理键盘和鼠标,在一定程度上改变了人机交互的方式.草图绘制和识别软件不断涌现,但是却一直没有成熟的笔式界面设计开发工具.基于PGIS交互范式,利用场景设计方法,开发了基于笔式交互原语的图形和草图混合输入的场景设计工具SDT.首先,基于软件工程领域的高内聚低耦合原则提出了"分离-融合"设计方法,并据此提出了系统的总体架构;其次,从界面形式化描述、笔式交互原语和单字符、混合输入这3个方面介绍了关键技术;再次,通过一个完整示例对该工具进行了更具体的展示,同时佐证了该系统的可用性和可行性;最后,通过两个评估实验,验证了该工具的先进性和有效性.