主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
黄九鸣,吴泉源,刘春阳,张旭,贾焰,周斌.短文本信息流的无监督会话抽取技术.软件学报,2012,23(4):735-747
短文本信息流的无监督会话抽取技术
Unsupervised Conversation Extraction in Short Text Message Streams
投稿时间:2010-11-04  修订日期:2011-03-21
DOI:10.3724/SP.J.1001.2012.04031
中文关键词:  会话抽取  短文本  短文本信息流  无监督  时序特征  上下文相关度
英文关键词:conversation extraction  short text message  short text message stream  unsupervised  temporal feature  contextually correlative degree
基金项目:国家自然科学基金(60933005, 60873204); 国家高技术研究发展计划(863)(2001AA012505); 国家242 信息安全计划课题(2009A90)
作者单位E-mail
黄九鸣 国防科学技术大学 计算机学院, 湖南 长沙 410073 naicky@gmail.com 
吴泉源 国防科学技术大学 计算机学院, 湖南 长沙 410073  
刘春阳 国家计算机网络应急技术处理协调中心, 北京 100029  
张旭 国家计算机网络应急技术处理协调中心, 北京 100029  
贾焰 国防科学技术大学 计算机学院, 湖南 长沙 410073  
周斌 国防科学技术大学 计算机学院, 湖南 长沙 410073  
摘要点击次数: 4184
全文下载次数: 4363
中文摘要:
      文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战.针对这些挑战,研究无监督的会话抽取技术,提出了一种基于信息流时序特征和上下文相关度的抽取方法.首先研究了信息流的会话生命周期规律,提出基于信息产生频率的会话边界检测方法;其次提出信息间的上下文相关度概念,采用基于实例的机器学习方法计算该相关度;最后综合信息产生频率和上下文相关度,设计了基于Single-Pass 聚类模型的会话在线抽取算法SPFC(single-pass based on frequency and correlation).真实数据集上的实验结果表明,SPFC算法与已有的基于文本相似度的会话抽取算法相比,F1 评测指标提高了30%.
英文摘要:
      Short text message streams are produced by Short Message Service, Instant Messager and BBS, which are widely used. Each stream usually contains. Extracting the conversations in the streams is helpful to various applications including business intelligence, investigation of crime and public opinion analysis. Existing research mainly based on text similarity encounter challenges such as the anomaly, dynamics, and the sparse eigenvector of short text message. This paper proposes an innovative conversation extraction method to cover the challenges. Firstly, the study detects the conversation boundary of short text message streams using temporal feature; secondly, contextually correlative degree is introduced to replace similar degree, and an instance-based machine learning method is proposed to compute the correlative degree. Finally, the study designs Single-Pass based conversation extraction algorithm SPFC (single-pass based on frequency and correlation), which combines the temporal and contextually correlative characteristics. Experimental results on a large real Chinese dataset show that this method SPFC improves the performance by 30% when compared with the best existing variation algorithm in terms of F1 measure.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利