摘要:社交媒体文本摘要旨在为面向特定话题的大规模社交媒体短文本(称为帖子)产生简明扼要的摘要描述. 考虑帖子表达内容短小、非正式等特点, 传统方法面临特征稀疏与信息不足的挑战. 近期研究利用帖子间的社交关系学习更好的帖子表示并去除冗余信息, 但其忽略了真实社交媒体情景中存在的不可靠噪声关系, 使得模型会误导帖子的重要性与多样性判断. 因此, 提出一种无监督模型DSNSum, 其通过去除社交网络中的噪声关系来改善摘要性能. 首先, 对真实社交关系网络中的噪声关系进行了统计验证; 其次, 根据社会学理论设计两个噪声函数, 并构建一种去噪图自编码器(denoising graph auto-encoder, DGAE), 以降低噪声关系的影响, 并学习融合可信社交关系的帖子表示; 最终, 通过稀疏重构框架选择保持覆盖性、重要性及多样性的帖子构成一定长度的摘要. 在两个真实社交媒体(Twitter与新浪微博)共计22个话题上的实验结果证明了所提模型的有效性, 也为后续相关领域的研究提供了新的思路.