基于深度多任务学习的图像美感与情感联合预测研究
作者:
作者单位:

1. 山东大学 软件学院, 山东 济南 250101;
2. 山东财经大学 计算机科学与技术学院, 山东 济南 250014;
3. Department of Computer Science and Engineering, Lehigh University, Bethlehem PA 18015, USA

作者简介:

申朕(1995-), 男, 硕士, 主要研究领域为机器学习, 计算机视觉, 多任务学习;崔超然(1987-), 男, 博士, 教授, CCF专业会员, 主要研究领域为信息检索, 推荐系统, 多媒体, 机器学习;董桂鑫(1997-), 男, 硕士, 主要研究领域为机器学习, 计算机视觉, 金融数据分析;余俊(1996-), 男, 博士生, 主要研究领域为机器学习, 计算机视觉, 美学质量评价, 多任务学习;黄瑾(1994-), 女, 博士生, 主要研究领域为机器学习, 计算机视觉, 多模态融合;尹义龙(1972-), 男, 博士, 教授, 博士生导师, CCF杰出会员, 主要研究领域为机器学习, 数据挖掘, 模式识别, 生物特征识别

通讯作者:

中图分类号:

TP391

基金项目:

国家自然科学基金(61701281, 61876098); 国家重点研发计划(2018YFC0830100, 2018YFC0830102); 山东省高等学校优势学科和人才团队培育计划


Unified Image Aesthetic and Emotional Prediction Based on Deep Multi-task Learning
Author:
Affiliation:

1. School of Software, Shandong University, Jinan 250101, China;
2. school of Computer Science and Technology, Shandong University of Finance and Economics, Jinan 250014, China;
3. Department of Computer Science and Engineering, Lehigh University, Bethlehem PA 18015, USA

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    图像美学评价和情感分析任务旨在使计算机可以辨认人类由受到图像视觉刺激而产生的审美和情感反应. 现有研究通常将它们当作两个相互独立的任务. 但是, 人类的美感与情感反应并不是孤立出现的; 相反, 在心理认知层面上, 两种感受的出现应是相互关联和相互影响的. 受此启发, 采用深度多任务学习方法在统一的框架下处理图像美学评价和情感分析任务, 深入探索两个任务间的内在关联. 具体来说, 提出了一种自适应特征交互模块将两个单任务的基干网络进行关联, 以完成图像美学评价和情感分析任务的联合预测. 该模块中引入了一种特征动态交互机制, 可以根据任务间的特征依赖关系自适应地决定任务间需要进行特征交互的程度. 在多任务网络结构的参数更新过程中, 根据美学评价与情感分析任务的学习复杂度和收敛速度等差异, 提出了一种任务间梯度平衡策略, 以保证各个任务可以在联合预测的框架下平衡学习. 此外, 构建了一个大规模的图像美学情感联合数据集UAE. 据已有研究, 该数据集是首个同时包含美感和情感标签的图像集合. 本模型代码以及UAE数据集已经公布在https://github.com/zhenshen-mla/Aesthetic-Emotion-Dataset.

    Abstract:

    Image aesthetic assessment and emotional analysis aim to enable computers to identify the aesthetic and emotional responses of human beings caused by visual stimulations, respectively. Existing research usually treats them as two independent tasks. However, people’s aesthetic and emotional responses do not appear in isolation. On the contrary, from the perspective of psychological cognition, the two responses are interrelated and mutually influenced. Therefore, this study follows the idea of deep multi-task learning to deal with image aesthetic assessment and emotional analysis under a unified framework and explore their relationship. Specifically, a novel adaptive feature interaction module is proposed to correlate the backbone networks of the two tasks and achieve a unified prediction. In addition, a dynamic feature interaction mechanism is introduced to adaptively determine the degree of feature interaction between the tasks according to the feature dependencies. As the multi-task network updates structural parameters, the study, based on the inconsistency in complexity and convergence speed between the two tasks, proposes a novel gradient balancing strategy to ensure that the network parameters of each task can be smoothly learned under the unified prediction framework. Furthermore, the study constructs a large-scale unified image aesthetic and emotional dataset–UAE. According to the study, UAE is the first image collection containing both aesthetic and emotional labels. Finally, the model and codes of the proposed method as well as the UAE dataset have been released at https://github.com/zhenshen-mla/Aesthetic-Emotion-Dataset.

    参考文献
    相似文献
    引证文献
引用本文

申朕,崔超然,董桂鑫,余俊,黄瑾,尹义龙.基于深度多任务学习的图像美感与情感联合预测研究.软件学报,,():1-14

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-05-28
  • 最后修改日期:2021-07-16
  • 录用日期:
  • 在线发布日期: 2022-10-14
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号