短信息的会话检测及组织
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家重点基础研究发展计划(973)(2009CB320504); 国家高技术研究发展计划(863)(2011AA01A101)


Conversation Detection and Organization of Mobile Text Messages
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    如何挖掘存储在手机上的大量短信息背后所隐含的会话信息,是一个非常具有挑战性的问题,因为它们并不具备“主题”、“回复”等经常被用于邮件线索分析的元数据.基于此,提出了一种基于时间聚类算法和话题检测的短信息会话识别模型.首先,根据短信息流的时间分布特性,将会话双方的所有短信息划分到一个一个的候选会话中,进而运用基于 latent Dirichlet allocation(LDA)训练出来的语义话题模型,对候选会话进行更深层次的分析;利用该话题模型度量了各个候选会话在话题上的相关度.最后,在综合时间和话题相关度的基础上,通过对候选会话的合并识别出隐含的会话信息.通过对包含了 50 名大学生在 6 个月中产生的 122 359 条短信进行实验验证,证明了该算法的有效性.

    Abstract:

    Mining the latent conversations which are implied in the big amount of text messages stored on one’smobile phone, is a challenging problem. They can hardly be organized by threads, due to lack of necessary metadatasuch as “subject” and “reply-to”. This paper proposes an innovative conversation recognition model based ontemporal clustering algorithms and topic detection methods. The study first clusters the text messages into candidateconversations based on their temporal attributes, and then does further analysis using a semantic model based onlatent Dirichlet allocation (LDA). In the end, the text messages are organized as conversations based on theirintegrated correlation of temporal relevancy and topic relevancy. This approach is evaluated with a real dataset,which contain 122 359 text messages collected from 50 university students during 6 months.

    参考文献
    相似文献
    引证文献
引用本文

田野,王文东,饶京海,王冠,郭亮,陈灿峰,马建.短信息的会话检测及组织.软件学报,2012,23(10):2586-2599

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2011-05-17
  • 最后修改日期:2012-01-16
  • 录用日期:
  • 在线发布日期: 2012-09-30
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号