主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2019-2020年专刊出版计划 微信服务介绍 最新一期:2019年第2期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
田野,王文东,饶京海,王冠,郭亮,陈灿峰,马建.短信息的会话检测及组织.软件学报,2012,23(10):2586-2599
短信息的会话检测及组织
Conversation Detection and Organization of Mobile Text Messages
投稿时间:2011-05-17  修订日期:2012-01-16
DOI:10.3724/SP.J.1001.2012.04191
中文关键词:  短信息  时间聚类  话题  latent Dirichletallocation
英文关键词:text message  temporal clustering  topic  latent Dirichlet allocation
基金项目:国家重点基础研究发展计划(973)(2009CB320504); 国家高技术研究发展计划(863)(2011AA01A101)
作者单位E-mail
田野 网络与交换国家重点实验室(北京邮电大学), 北京 100876  
王文东 网络与交换国家重点实验室(北京邮电大学), 北京 100876 wdwang@bupt.edu.cn 
饶京海 诺基亚研究院, 北京 100176  
王冠 网络与交换国家重点实验室(北京邮电大学), 北京 100876  
郭亮 网络与交换国家重点实验室(北京邮电大学), 北京 100876  
陈灿峰 诺基亚研究院, 北京 100176  
马建 网络与交换国家重点实验室(北京邮电大学), 北京 100876
无锡物联网产业研究院, 江苏无锡 214135 
 
摘要点击次数: 2647
全文下载次数: 3541
中文摘要:
      如何挖掘存储在手机上的大量短信息背后所隐含的会话信息,是一个非常具有挑战性的问题,因为它们并不具备“主题”、“回复”等经常被用于邮件线索分析的元数据.基于此,提出了一种基于时间聚类算法和话题检测的短信息会话识别模型.首先,根据短信息流的时间分布特性,将会话双方的所有短信息划分到一个一个的候选会话中,进而运用基于 latent Dirichlet allocation(LDA)训练出来的语义话题模型,对候选会话进行更深层次的分析;利用该话题模型度量了各个候选会话在话题上的相关度.最后,在综合时间和话题相关度的基础上,通过对候选会话的合并识别出隐含的会话信息.通过对包含了 50 名大学生在 6 个月中产生的 122 359 条短信进行实验验证,证明了该算法的有效性.
英文摘要:
      Mining the latent conversations which are implied in the big amount of text messages stored on one’smobile phone, is a challenging problem. They can hardly be organized by threads, due to lack of necessary metadatasuch as “subject” and “reply-to”. This paper proposes an innovative conversation recognition model based ontemporal clustering algorithms and topic detection methods. The study first clusters the text messages into candidateconversations based on their temporal attributes, and then does further analysis using a semantic model based onlatent Dirichlet allocation (LDA). In the end, the text messages are organized as conversations based on theirintegrated correlation of temporal relevancy and topic relevancy. This approach is evaluated with a real dataset,which contain 122 359 text messages collected from 50 university students during 6 months.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利