2025, 36(3):1375-1389.DOI: 10.13328/j.cnki.jos.007155
摘要:场景草图由多个前、背景物体组成, 能够直观、概括地表达复杂的语义信息, 在现实生活中有着广泛的实际应用, 逐渐成为计算机视觉和人机交互领域的研究热点之一. 作为场景草图语义理解的基础任务, 场景草图语义分割的相关研究相对较少, 现有的方法多是对自然图像语义分割的方法进行改进, 不能克服草图自身的稀疏性和抽象性等特点. 针对以上问题, 直接从草图笔画入手, 提出一种图Transformer模型结合草图笔画的时空信息来解决自由手绘场景草图语义分割任务. 首先将矢量场景草图构建成图结构, 笔画表示为图的节点, 笔画在时序和空间上的关联表示为图的边. 然后通过边增强的Transformer模块捕获笔画的时空全局上下文信息. 最后将编码后的时空特征进行多分类优化学习. 在SFSD场景草图数据集上的实验结果表明, 所提方法可以利用笔画时空信息对场景草图进行有效的语义分割, 实现优秀的性能.
2024, 35(7):3497-3530.DOI: 10.13328/j.cnki.jos.007053
摘要:手绘草图通过绘制简单的线条直观呈现用户的创作意图, 支持用户采用手绘的方式快速表达思维过程及设计灵感, 创作目标图像或视频. 随着深度学习的发展, 基于草图的视觉内容生成通过学习草图和视觉对象(即图像和视频)的特征分布进行跨领域特征映射, 实现图像自动生成草图以及草图自动生成对应的图像或视频, 与传统的人工创作方式相比有效地提高了生成的效率和多样性, 成为计算机视觉、图形学领域的重要研究方向, 并且在设计、视觉创作等领域具有重要作用. 综述基于草图的视觉内容生成深度学习方法的研究现状和发展趋势, 按照视觉对象的不同将现有工作分为基于草图的图像生成和基于草图的视频生成方法, 并结合草图和视觉内容跨域生成、风格转化、视觉内容编辑等任务对生成模型进行详细分析, 然后比较和总结常用的数据集、针对草图数据不足提出的扩充方法以及生成模型的评估方法, 进一步通过草图在视觉内容生成应用中面临的挑战及生成模型未来发展方向对研究趋势进行展望.
2023, 34(1):255-276.DOI: 10.13328/j.cnki.jos.006420
摘要:情绪是情感的外在体现, 影响人类的认知、感知、理性决策等日常活动. 情绪识别作为实现计算机全面智能的一项基础任务, 在情感计算和人机交互领域被深入研究和广泛应用. 相比面部表情、语音或其他生理信号, 利用脑电进行情绪识别具有时间分辨率高、成本低、识别效果好、可靠性高的优势. 近年来, 越来越多的深度学习框架被应用于基于脑电信号的情绪识别, 并取得了比传统机器学习方法更加优异的效果. 基于深度脑电特征的情绪识别是当前的研究热点之一, 也具有一定的挑战性. 目前, 可供参考的针对此研究热点的综述文献较少. 对近年来国内外相关文献进行调研分析, 从模型输入、深度框架、实验设置、实验结果等方面对深度学习在基于脑电的情绪识别中的应用研究做了总结概况, 并在DEAP和SEED这两个公开的脑电-情绪数据集上对具有代表性的方法进行了定性和定量的多方面对比, 分析和总结这些方法的不足, 同时也对未来可能的研究方向进行了展望.
2022, 33(7):2729-2752.DOI: 10.13328/j.cnki.jos.006299
摘要:草图一直是人类传递信息的重要工具之一.草图可以通过简单明了的形式更快地表达人类的一些复杂思想,因此,草图处理算法一直是计算机视觉领域的研究热点之一.目前,对草图的研究主要集中在识别、检索和补全等方面.随着研究者对于草图细粒度操作的重视,对草图分割方面的研究也得到越来越多的关注.近年来,随着深度学习与计算机视觉技术的发展,出现了大量基于深度学习的草图分割方法,草图分割的精确度和效率也都得到了较大提升.但是,由于草图自身的抽象性、稀疏性和多样性,草图分割仍然是一个非常具有挑战性的课题.对基于深度学习的草图分割算法进行整理、分类、分析和总结,首先阐述了3种基本的草图表示方法与常用的草图分割数据集,再按草图分割算法的预测结果分别介绍了草图语义分割、草图感知聚类与草图解析算法,然后在主要的数据集上收集与整理草图分割算法的评测结果并对结果进行分析,最后总结了草图分割相关的应用并探讨未来可能的发展方向.
2021, 32(4):1201-1227.DOI: 10.13328/j.cnki.jos.006166
摘要:目标检测一直以来都是计算机视觉领域的研究热点之一,其任务是返回给定图像中的单个或多个特定目标的类别与矩形包围框坐标.随着神经网络研究的飞速进展,R-CNN检测器的诞生标志着目标检测正式进入深度学习时代,速度和精度相较于传统算法均有了极大的提升.但是,目标检测的尺度问题对于深度学习算法而言也始终是一个难题,即检测器对于尺度极大或极小目标的检测精度会显著下降,因此,近年来有不少学者在研究如何才能更好地实现多尺度目标检测.虽然已有一系列的综述文章从算法流程、网络结构、训练方式和数据集等方面对基于深度学习的目标检测算法进行了总结与分析,但对多尺度目标检测的归纳和整理却鲜有人涉足.因此,首先对基于深度学习的目标检测的两个主要算法流派的奠基过程进行了回顾,包括以R-CNN系列为代表的两阶段算法和以YOLO、SSD为代表的一阶段算法;然后,以多尺度目标检测的实现为核心,重点诠释了图像金字塔、构建网络内的特征金字塔等典型策略;最后,对多尺度目标检测的现状进行总结,并针对未来的研究方向进行展望.
2021, 32(10):3051-3067.DOI: 10.13328/j.cnki.jos.006217
摘要:近年来,手势作为一种输入通道,已在人机交互、虚拟现实等领域得到了广泛的应用,引起了研究者的关注.特别是随着先进人机交互技术的出现以及计算机技术(特别是深度学习、GPU并行计算等)的飞速发展,手势理解和交互方法取得了突破性的成果,引发了研究的热潮.综述了动态手势理解与交互的研究进展与典型应用:首先阐述手势交互的核心概念,分析了动态手势识别与检测进展;而后阐述了动态手势交互在人机交互中的代表性应用,并总结了手势交互现状,分析了下一步的发展趋势.
2019, 30(2):481-494.DOI: 10.13328/j.cnki.jos.005312
摘要:安全攸关反应式系统的核心要求是:必须在指定时间期限内完成对外部事件的检测和目标事件的响应,否则会产生灾难性的后果.随着安全攸关反应式系统对智能化需求的日益增加,将规则推理应用于这类系统成为必然趋势.规则调度是保证规则推理硬实时约束的关键.为此,提出了一种基于图模型的实时规则调度方法(graph-based real-time rule scheduling,简称GBRRS).该方法对基于事件图的实时规则推理过程进行建模,提出了基于图的端到端推理任务模型,并给出了端到端推理任务的调度算法,保证了规则调度的安全性.采用模拟实验对GBRRS方法进行了验证,实验结果表明,与DM-EDF方法(通过直接映射把规则上的推理操作转成推理任务后,用全局EDF算法对其进行调度的方法)相比,GBRRS方法在规则调度成功率上平均高出13%~15%,且在规则集的平均负载较高时,仍保持着80%以上的调度成功率.
2019, 30(10):2927-2941.DOI: 10.13328/j.cnki.jos.005778
摘要:近年来,包含动态任务的交互式系统得到了广泛的应用.基于现有对用户与动态任务交互的研究,提出一个面向动态任务的定量化可计算的交互模型ICOMDT,用于解释用户与动态任务的交互行为,并实现用户意图预测.更具体地,将ICOMDT应用于运动目标选择任务,设计了两个实验以验证模型的有效性.实验1收集用户数据对模型进行拟合并预测用户选择的错误率,实验结果表明,能够很好地拟合且预测值也与真实值接近;实验2将模型对用户意图的理解拓展为一种辅助运动目标选择技术ICOMPointer,通过在具体的游戏场景中与Windows原本的选择技术及两种现有的增强目标选择技术对比,发现使用ICOMPointer选中目标的平均完成时间更短,完成速度更快.ICOMDT模型的提出对计算机理解用户意图,提高用户与动态任务的交互效率有着重要意义.
2018, 29(S2):62-74.
摘要:在人机交互技术由以计算机演化为以人为中心的背景下,通过感知肌肉活动的手势识别方法,因其可穿戴性、隐式交互性和可靠性的特点在近几年得到了人机交互研究领域的高度关注.但目前的相关研究缺乏统一的语义分析模型和系统模型支持研究和开发.为此,分析讨论了交互手势的分类并归纳总结出适合肌肉感知方法的输入原语,提出基于肌肉感知的手势交互语义分析模型和分层处理的系统结构模型,旨在提高该类型交互应用的研究和开发工作效率.最后分析了办公室环境下的操作手势交互应用场景,给出了该语义分析模型和分层系统结构模型的应用实例.
2018, 29(S2):108-119.
摘要:动态目标选择是现代交互界面中最为基础的交互任务之一,目前存在多种辅助技术,但这些技术的决策和参数设定有很强的经验性,无法根据用户的当前状态进行调整.为了解决这个问题,基于两个认知负荷与难度感知的假设,提出一种脑机接口辅助的动态目标选择技术,利用近红外光谱信号对用户认知负荷感知的敏感性,实时地调整目标选择技术参数,给不同用户个体提供个性化辅助,适用于不同场景、用户状态和任务难度.通过一组实验,对提出的假设进行了验证,并且基于该假设构建的脑机接口辅助的动态目标选择技术,较不作任何辅助和固定辅助技术两种方案都更优,具体地,在选择错误率上分别降低20.55%和12.09%,在完成时间上分别降低998.35ms和208.67ms.