基于消息传递和图先验分布的微博主题模型
CSTR:
作者:
作者单位:

作者简介:

王浩成(1997-), 男, 硕士, 主要研究领域为社会媒体话题检测. ;贺瑞芳(1979-), 女, 博士, 教授, 博士生导师, CCF专业会员, 主要研究领域为自然语言处理, 社会媒体挖掘, 机器学习. ;吴辰昊(1999-), 女, 硕士, 主要研究领域为社会媒体话题检测. ;刘焕宇(1996-), 男, 硕士, 主要研究领域为社会媒体摘要.

通讯作者:

贺瑞芳, E-mail: rfhe@tju.edu.cn

中图分类号:

TP391

基金项目:

国家自然科学基金(61976154); 国家重点研发计划(2019YFC1521200)


Microblog Topic Model Based on Message Passing and Graph Prior Distribution
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    检测社交媒体文本中的潜在主题是一项有意义的任务. 由于帖子具有表达简短、非正规的特点, 其将带来严重的数据稀疏问题. 不仅如此, 基于变分自编码器(variational auto-encoder, VAE)的模型在主题推断过程中还忽视了用户间的社交关系, 考虑VAE假设输入的数据点间是相互独立的. 这导致了推断的潜在主题变量间缺少了相关性信息, 进而导致主题不够连贯. 社交网络结构信息不仅聚合上下文信息的线索, 还暗示了用户间的主题相关性. 因此, 提出基于消息传递和图先验分布的微博主题模型, 其借助图卷积网络(graph convolution network, GCN)编码更加丰富的上下文信息, 并且在变分自编码器推断主题的过程中, 通过图先验分布整合用户交互关系以促进对多数据点复杂关系的理解, 从而更好地挖掘社交媒体主题信息. 在3个真实微博数据集上的实验证明了所提方法的有效性.

    Abstract:

    Detecting latent topics in social media texts is a meaningful task, and the short and informal posts will cause serious data sparsity. Additionally, models based on variational auto-encoders (VAEs) ignore the social relationships among users during topic inference and VAE assumes that each input data point is independent. This results in the lack of correlation information between the inferred latent topic variables and incoherent topics. Social network structure information can not only provide clues for aggregating contextual messages but also indicate topic correlation among users. Therefore, this study proposes to utilize the microblog topic model based on message passing and graph prior distribution. This model can encode richer context information by graph convolution network (GCN) and integrate the interactive relationship of users by graph prior distribution during VAE topic inference to better understand the complex correlation among multiple data points and mine social media topic information. The experiments on three actual datasets validate the effectiveness of the proposed model.

    参考文献
    相似文献
    引证文献
引用本文

王浩成,贺瑞芳,吴辰昊,刘焕宇.基于消息传递和图先验分布的微博主题模型.软件学报,2024,35(11):5133-5148

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-01-02
  • 最后修改日期:2023-04-06
  • 录用日期:
  • 在线发布日期: 2023-12-06
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号