• 2024年第35卷第5期文章目次
    全 选
    显示方式: |
    • >专刊文章
    • 面向跨模态检索的查询感知双重对比学习网络

      2024, 35(5):1-13. DOI: 10.13328/j.cnki.jos.007021

      摘要 (515) HTML (0) PDF 1.52 M (1123) 评论 (0) 收藏

      摘要:近期, 跨模态视频语料库时刻检索(VCMR)这一新任务被提出, 它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段. 现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合, 然而, 简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近, 也未考虑查询语句的语义. 为了解决上述问题, 提出一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN), 该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示. 具体地, 提出一种查询感知的跨模态语义融合策略, 根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征, 获得视频的查询感知多模态联合表示. 此外, 提出一种面向视频和查询语句的模态间及模态内双重对比学习机制, 以增强不同模态的语义对齐和融合, 从而提高不同模态数据表示的可分辨性和语义一致性. 最后, 采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索. 大量实验验证表明, 所提出的QACLN优于基准方法.

    • 视觉语言模型引导的文本知识嵌入的小样本增量学习

      2024, 35(5):1-19. DOI: 10.13328/j.cnki.jos.007022

      摘要 (616) HTML (0) PDF 5.82 M (1266) 评论 (0) 收藏

      摘要:真实场景往往面临数据稀缺和数据动态变化的问题, 小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘. 已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器, 实现模型对于新数据的迁移和旧数据的抗遗忘. 但是少量数据的视觉特征往往难以建模一个类别的完整特征分布, 导致上述算法的泛化能力较弱. 相比于视觉特征, 图像类别描述的文本特征具有较好的泛化性和抗遗忘性. 因此, 在视觉语言模型的基础上, 研究基于文本知识嵌入的小样本增量学习, 通过在视觉特征中嵌入具有抗遗忘能力的文本特征, 实现小样本增量学习中新旧类别数据的有效学习. 具体而言, 在基础学习阶段, 利用视觉语言模型抽取图像的预训练视觉特征和类别的文本描述, 并通过文本编码器实现预训练视觉特征到文本空间的映射. 进一步利用视觉编码器融合学习到的文本特征和预训练视觉特征抽象具有高辨别能力的视觉特征. 在增量学习阶段, 提出类别空间引导的抗遗忘学习, 利用旧数据的类别空间编码和新数据特征微调视觉编码器和文本编码器, 实现新数据知识学习的同时复习旧知识. 在4个数据集(CIFAR-100, CUB-200, Car-196和 miniImageNet)上验证算法的有效性, 证明基于视觉语言模型文本知识嵌入可以在视觉特征的基础上进一步提升小样本增量学习的鲁棒性.

    • 事件融合与空间注意力和时间记忆力的视频去雨网络

      2024, 35(5):1-15. DOI: 10.13328/j.cnki.jos.007023

      摘要 (416) HTML (0) PDF 6.89 M (990) 评论 (0) 收藏

      摘要:近年来数码视频拍摄设备不断升级, 其感光元件宽容度、快门速率的提升虽然极大程度地丰富了可拍摄景物的多样性, 雨痕这类由于雨滴高速穿过景深范围的退化元素也更容易被记录到, 作为前景的稠密雨痕阻挡了背景景物的有效信息, 从而影响图像的有效采集. 由此视频图像去雨成为一个亟待解决的问题, 以往的视频去雨方法集中在利用常规图像自身的信息, 但是由于常规相机的感光元件物理极限、快门机制约束等原因, 许多光学信息在采集时丢失, 影响后续的视频去雨效果. 由此, 利用事件数据与常规视频信息的互补性, 借助事件信息的高动态范围、时间分辨率高等优势, 提出基于事件数据融合与空间注意力和时间记忆力的视频去雨网络, 利用三维对齐将稀疏事件流转化为与图像大小匹配的表达形式, 叠加输入至集合了空间注意力机制的事件-图像融合处理模块, 有效提取图像的空间信息, 并在连续帧处理时使用跨帧记忆力模块将先前帧特征利用, 最后经过三维卷积与两个损失函数的约束. 在开源视频去雨数据集上验证所提方法的有效性, 同时达到了实时视频处理的标准.

    • 基于条件语义增强的文本到图像生成

      2024, 35(5):1-15. DOI: 10.13328/j.cnki.jos.007024

      摘要 (440) HTML (0) PDF 7.83 M (1043) 评论 (0) 收藏

      摘要:文本到图像生成取得了视觉上的优异效果, 但存在细节表达不足的问题. 于是提出基于条件语义增强的生成对抗模型(conditional semantic augmentation generative adversarial network, CSA-GAN). 所提模型首先将文本进行编码, 使用条件语义增强对其进行处理. 之后, 提取生成器的中间特征进行上采样, 再通过两层CNN生成图像的掩码. 最后将文本编码送入两个感知器处理后和掩码进行融合, 充分融合图像空间特征和文本语义, 以提高细节表达. 为了验证所提模型的生成图像的质量, 在不同的数据集上进行定量分析、定性分析. 使用IS (inception score)、FID (Frechet inception distance)指标对图像清晰度, 多样性和图像的自然真实程度进行定量评估. 定性分析包括可视化生成的图像, 消融实验分析具体模块等. 结果表明: 所提模型均优于近年来同类最优工作. 这充分验证所提出的方法具有更优性能, 同时能够优化图像生成过程中一些主体特征细节的表达.

    • 面向遥感视觉问答的尺度引导融合推理网络

      2024, 35(5):1-17. DOI: 10.13328/j.cnki.jos.007025

      摘要 (485) HTML (0) PDF 3.15 M (1017) 评论 (0) 收藏

      摘要:遥感视觉问答(remote sensing visual question answering, RSVQA)旨在从遥感图像中抽取科学知识. 近年来, 为了弥合遥感视觉信息与自然语言之间的语义鸿沟, 涌现出许多方法. 但目前方法仅考虑多模态信息的对齐和融合, 既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘, 又缺乏对尺度特征的建模和推理的研究, 导致答案预测不够全面和准确. 针对以上问题, 提出一种多尺度引导的融合推理网络(multi-scale guided fusion inference network, MGFIN), 旨在增强RSVQA系统的视觉空间推理能力. 首先, 设计基于Swin Transformer的多尺度视觉表征模块, 对嵌入空间位置信息的多尺度视觉特征进行编码; 其次, 在语言线索的引导下, 使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系, 并进行空间层次推理; 最后, 设计基于推理的融合模块来弥合多模态语义鸿沟, 在交叉注意力基础上, 通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征, 并辅助预测最终答案. 实验结果表明, 所提模型在两个公共RSVQA数据集上具有显著优势.

    • 基于多模态关系建模的三维形状识别方法

      2024, 35(5):1-12. DOI: 10.13328/j.cnki.jos.007026

      摘要 (368) HTML (0) PDF 5.66 M (847) 评论 (0) 收藏

      摘要:为了充分利用点云和多视图两种模态数据之间的局部空间关系以进一步提高三维形状识别精度, 提出一个基于多模态关系的三维形状识别网络, 首先设计多模态关系模块(multimodal relation module, MRM), 该模块可以提取任意一个点云的局部特征和一个多视图的局部特征之间的关系信息, 以得到对应的关系特征. 然后, 采用由最大池化和广义平均池化组成的级联池化对关系特征张量进行处理, 得到全局关系特征. 多模态关系模块分为两种类型, 分别输出点-视图关系特征和视图-点关系特征. 提出的门控模块采用自注意力机制来发现特征内部的关联信息, 从而将聚合得到的全局特征进行加权来实现对冗余信息的抑制. 详尽的实验表明多模态关系模块可以使网络获得更优的表征能力; 门控模块可以让最终的全局特征更具有判别力, 提升检索任务的性能. 所提网络在三维形状识别标准数据集 ModelNet40 和 ModelNet10上分别取得了93.8%和95.0%的分类准确率以及90.5%和93.4%的平均检索精度, 在同类工作中处于先进的水平.

    • 分层特征编解码驱动的视觉引导立体声生成方法

      2024, 35(5):1-11. DOI: 10.13328/j.cnki.jos.007027

      摘要 (314) HTML (0) PDF 3.99 M (841) 评论 (0) 收藏

      摘要:视觉引导的立体声生成是多模态学习中具有广泛应用价值的重要任务之一, 其目标是在给定视觉模态信息及单声道音频模态信息的情况下, 生成符合视听一致性的立体声音频. 针对现有视觉引导的立体声生成方法因编码阶段视听信息利用率不足、解码阶段忽视浅层特征导致的立体声生成效果不理想的问题, 提出一种基于分层特征编解码的视觉引导的立体声生成方法, 有效提升立体声生成的质量. 其中, 为了有效地缩小阻碍视听觉模态数据间关联融合的异构鸿沟, 提出一种视听觉特征分层编码融合的编码器结构, 提高视听模态数据在编码阶段的综合利用效率; 为了实现解码过程中浅层结构特征信息的有效利用, 构建一种由深到浅不同深度特征层间跳跃连接的解码器结构, 实现了对视听觉模态信息的浅层细节特征与深度特征的充分利用. 得益于对视听觉信息的高效利用以及对深层浅层结构特征的分层结合, 所提方法可有效处理复杂视觉场景中的立体声合成, 相较于现有方法, 所提方法生成效果在真实感等方面性能提升超过6%.

    • 多模态特征分析的帕金森病辅助诊断方法

      2024, 35(5):1-16. DOI: 10.13328/j.cnki.jos.007028

      摘要 (447) HTML (0) PDF 9.25 M (1093) 评论 (0) 收藏

      摘要:帕金森病是一种常见的神经退行性疾病, 会逐步破坏患者运动功能和部分认知功能, 且发病隐匿、不可治愈, 为患者及家人带来沉重负担. 然而, 帕金森病的临床诊断通常依赖主观评估量表, 会同时受到评估者主观性、被评估者回忆偏差的影响. 目前, 有大量研究从各个模态探索了帕金森病的生理特征, 并借此提供了客观量化辅助诊断方法. 但是, 神经退行性疾病种类繁多、影响类似, 从帕金森病表征出发的单模态方法特异性问题仍有待解决. 为此, 搭建一套包含帕金森病异常诱发范式的多模态辅助诊断系统. 首先, 根据正态分布检验结果进行特征的参数检验, 构建具有统计学意义的特征集(p<0.05); 其次, 在临床环境中收集38例带有MDS-UPDRS评分量表的多模态数据; 最后, 基于步态和眼动模态, 分析不同特征组合方式评估帕金森病的显著性; 验证虚拟现实场景下高沉浸诱发型任务范式和多模态帕金森病辅助诊断系统的有效性; 其中步态与眼动模态综合使用, 只需要进行2–4个任务, 平均AUC和平均准确率就分别能达到0.97和0.92.

    • 结合面部动作单元感知的三维人脸重建算法

      2024, 35(5):1-16. DOI: 10.13328/j.cnki.jos.007029

      摘要 (456) HTML (0) PDF 6.39 M (975) 评论 (0) 收藏

      摘要:三维人脸重建在计算机视觉及动画领域是一项重要任务, 它可以为人脸多模态应用提供三维模型结构和丰富的语义信息. 然而, 单目二维人脸图像缺乏深度信息, 预测的三维模型参数不够可靠, 从而导致重建效果不佳. 提出采用与模型参数高度相关的面部动作单元和人脸关键点作为桥梁, 引导模型相关参数回归, 以解决单目人脸重建的不适定问题. 基于人脸重建的现有数据集, 提供一套完整的面部动作单元半自动标注方案, 并构建300W-LP-AU数据集. 进而, 提出一种结合动作单元感知的三维人脸重建算法, 所提算法实现端到端的多任务学习, 有效降低整体训练难度. 实验结果表明, 所提算法能有效地提升三维人脸重建性能, 重建的人脸模型具有更高的保真度.

当期目录


文章目录

过刊浏览

年份

刊期

联系方式
  • 《软件学报 》
  • 主办单位:中国科学院软件研究所
                     中国计算机学会
  • 邮编:100190
  • 电话:010-62562563
  • 电子邮箱:jos@iscas.ac.cn
  • 网址:https://www.jos.org.cn
  • 刊号:ISSN 1000-9825
  •           CN 11-2560/TP
  • 国内定价:70元
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号