2014, 25(12):2731-2732. DOI: 10.13328/j.cnki.jos.004732 CSTR:
摘要:
2014, 25(12):2733-2752. DOI: 10.13328/j.cnki.jos.004724 CSTR:
摘要:诸如物理学、行为学、社会学和生物学中许多研究的中心问题是对因果的阐述,即变量或事件之间直接作用关系的阐述.由于人们的日常行为和语言越来越多地映射到互联网上,或者根本就是互联网引起了大量新的行为和语言,致使社会媒体上存在大量的因果问题.与相关关系分析相比,社会媒体上的因果关系分析更加必要和迫切,首先,任何相关性的背后都隐藏着因果关系;其次,相关性分析得到的结论有时是不可靠的甚至是错误的;再次,基于相关性的方法无法用于管理、控制和干预变量或事件.论述了因果关系分析的必要性、重要性和社会媒体上存在的因果问题;综述了目前的因果分析与推断的基本理论、存在的问题和研究现状;通过比较现有因果关系分析的研究思路,预测未来的研究方向和因果分析理论及方法在社会媒体上的应用.
2014, 25(12):2753-2766. DOI: 10.13328/j.cnki.jos.004722 CSTR:
摘要:随着万维网和在线社交网站的发展,规模大、结构复杂、动态性强的大规模网络应用而生.发现这些网络的潜在结构,是分析和理解网络数据的基本途径.概率模型以其灵活的建模和解释能力、坚实的理论框架成为各领域研究网络结构发现任务的有效工具,但该类方法存在计算瓶颈.近几年出现了一些基于概率模型的大规模网络结构发现方法,主要从网络表示、结构假设、参数求解这3个方面解决计算问题.按照模型参数求解策略将已有方法归为两类:随机变分推理(stochastic variational inference)方法和在线EM(online expectation maximazation)方法,详细分析各方法的设计动机、原理和优缺点.定性和定量地对比、分析典型方法的特点和性能,并提出大规模网络结构发现模型的设计原则.最后,概括该领域研究的核心问题,展望未来发展趋势.
2014, 25(12):2767-2776. DOI: 10.13328/j.cnki.jos.004730 CSTR:
摘要:互联网用户间的交互行为,使得某些用户生成的内容(如讨论帖、微博话题)变得流行.对所关注内容的流行度进行建模和预测,在多个领域中具有十分重要的研究和应用价值.针对论坛讨论帖的流行度预测问题,基于早期的发展演化信息,探讨了影响讨论帖流行度的相关动态因素,并提出一种结合局部特性、融合多个动态因素的讨论帖流行度预测算法.以豆瓣小组的数据为例,对所提出的算法进行实验.实验结果表明,所提出的融合多种动态因素的方法与基准方法相比,能够较好地预测讨论帖的流行度.
2014, 25(12):2777-2789. DOI: 10.13328/j.cnki.jos.004729 CSTR:
摘要:针对在线评论,提出了一种短文本语义距离计算模型,将文本距离看成是形式距离和单元语义距离的综合.首先,在对变异短文本进行预处理的基础上,以中文词语为单位,利用词典进行语义扩展,计算短文本间最大匹配距离,将其作为衡量短文本间形式距离的指标;其次,基于短文本中的实义单元和非实义单元的不同作用,利用改进的编辑距离算法计算短文本的单元语义距离;最后,利用加权的方法将形式距离和单元语义距离综合为文本距离,并将其应用于网络在线评论的聚类分析.特别地,为了缓解短文本长度差异所造成的计算误差,提出利用词表长度对距离进行惩罚,并根据Zipf's Law和Heap's Law的对应关系,给出了一种文本词表长度的估计方法,并阐明了文本Zipf指数a对长度惩罚的关键性作用机制.实验结果表明,改进算法优于传统方法,聚类性能显著提升.
2014, 25(12):2790-2807. DOI: 10.13328/j.cnki.jos.004728 CSTR:
摘要:以在智能移动设备上发表的用户评论作为研究对象,并将该类评论称为轻型评论.指出了轻型评论与早期互联网评论及短文本研究的异同点,并通过实验总结轻型评论的独有特性:字数少、跨度大,短小评论数量众多,评论长度与数量满足幂率分布.同时,针对轻型评论的情感分类研究展开了一系列的实验研究,发现:(1) 情感分类效果随着评论长度的增加而下降;(2) 传统的特征筛选方法以及特征加权方法对于轻型评论效果都不够理想;(3) 极性词在短评论中比例高于长评论;(4) 长、短评论在用词上存在较高的重叠度.在此基础上,提出了一种基于短评论特征共现的特征筛选方法,将短小评论中的优势信息和传统的特征筛选方法相结合,在筛选掉无用噪音的同时增补有利于分类的有效特征.实验结果表明,该方法可以有效地提高轻型评论中较长评论的分类效果.
2014, 25(12):2808-2823. DOI: 10.13328/j.cnki.jos.004720 CSTR:
摘要:在微博市场营销、个性化推荐等应用中,发现兴趣和网络结构双内聚的用户社区起着至关重要的作用.现阶段,绝大多数的用户社区发现算法往往将用户联系与用户内容相隔离,从而导致其社区发现结果不够合理,而少数综合用户联系和内容的用户社区发现算法较为复杂;LCA算法是重叠社区发现算法中算法效率较高且社区质量较好的算法,然而,其在聚类时未考虑边的真实兴趣体现.针对这些问题,构建了以关注关系为网络节点、以关注关系之间是否有共同用户为关注关系潜在的边、以关注关系所关联用户的兴趣集的交集为关注关系的兴趣特征,构建微博网络R-C模型,并探讨了其进行微博用户社区发现的方法,分析了该方法的复杂度.最后,以新浪微博数据集为实验,对照节点CNM算法和LCA算法,从兴趣内聚和网络结构内聚两方面进行分析,发现该方法能够发现更好的微博用户社区.
2014, 25(12):2824-2836. DOI: 10.13328/j.cnki.jos.004721 CSTR:
摘要:微博网络是新兴的覆盖海量用户、涉及广泛话题并具有复杂重叠社群结构的多模网络.在深入研究微博网络各类实体和属性内在联系的基础上,提出了以用户-话题关系为主要划分原则的重叠社群表达模型及相应的社群结构发现算法.该方法不仅考虑网络中的用户-话题关系,还融合了这一网络特有的用户关注关系、博文评论与转发关系等所形成的复合网络关系.同时,改进了传统的社群隶属矩阵表述模型,通过引入虚拟社群,使隶属矩阵不仅合理反映个体对社群的隶属度,同时标识了个体在社群中的核心度.通过基于新浪微博数据集的实验验证,结果表明:该模型与方法能够高效合理地刻画该数据集包含的重叠社群结构,实验结果具有良好的可解释性,所提出的模型和算法可以有效地应用于类似多模网络社群划分和演化分析研究中.
2014, 25(12):2837-2851. DOI: 10.13328/j.cnki.jos.004723 CSTR:
摘要:准确地定位社交网络上的信息扩散源点,对于网络信息扩散控制具有重要的现实意义.现有的一种可行方法是通过在网络中观察点搜集的过程信息对扩散源进行定位,定位准确率与观察点的选择紧密相关.针对网络中的信息扩散源定位问题,提出了一种网络观察点优化部署方法.考虑单信息源的信息扩散过程,首先分析了特定信息源定位准确率与观察点部署位置之间的关系,以此为基础,发现了与任意信息源定位准确率相关的关键因素.提出基于r覆盖率的观察点部署策略,以观察点集合的r覆盖率作为目标函数,实现了r覆盖率优先观察点选取算法.在模型网络与实际网络上进行了实验,验证了该方法的有效性.提出的观察点部署策略对于网络谣言、计算机病毒的控制具有重要意义.
2014, 25(12):2852-2864. DOI: 10.13328/j.cnki.jos.004725 CSTR:
摘要:社会化网络中的推荐系统可以在浩瀚的数据海洋中给用户推荐相关的信息.社会网络中用户之间的信任关系已经被用于推荐算法中,但是目前的基于信任的推荐算法都是单一的信任模型.提出了一种基于主题的张量分解的用户信任推荐算法,用来挖掘用户在不同的物品选取的时候对不同朋友的信任程度.由于社交网络更新速度快,鉴于目前的基于信任算法大都是静态算法,提出了一种增量更新的张量分解算法用于用户信任的推荐算法.实验结果表明:所提出的基于主题的用户信任推荐算法比现有算法具有更好的准确性,并且增量更新的推荐算法可以大幅度提高推荐算法在训练数据增加后的模型训练效率,适合更新速度快的社会化网络中的推荐任务.
2014, 25(12):2865-2876. DOI: 10.13328/j.cnki.jos.004726 CSTR:
摘要:近年来,Twitter搜索在社交网络领域引起越来越多学者的关注.尽管排序学习可以融合Twitter中丰富的特征,但是训练数据的匮乏,会降低排序学习的性能.直推式学习作为一种常用的半监督学习方法,在解决训练数据的稀少性中发挥着重要的作用.由于在直推式学习的迭代过程中会生成噪音,基于聚类的直推式学习方法被提出.在基于聚类的直推式学习方法中有两个重要的参数,分别为聚类的阈值以及聚类文档的数量.在原有工作的基础上,提出使用另外一种不同的聚类算法.大量在标准TREC数据集Tweets11上的实验表明,聚类的阈值以及聚类过程中文档数量的选择都会对模型的检索性能产生影响.另外,也分析了基于聚类的直推式学习模型的鲁棒性在不同查询集上的表现.最后,引入名为簇凝聚度的质量控制因子,提出了一种基于聚类的自适应的直推式方法来实现Twitter检索.实验结果表明,基于聚类的自适应学习算法具有更好的鲁棒性.
2014, 25(12):2877-2892. DOI: 10.13328/j.cnki.jos.004727 CSTR:
摘要:社交网络是人类借用计算技术和信息技术进行信息交流、建立人际交互关系等社会活动的一种新型工具,已成为社会计算中研究社会软件的核心课题之一.社交网页取证旨在对用户信息进行证据获取、固定、分析和展示,提供直接、有效、客观、公正的第三方依据.在互联网飞速发展的背景下,社交网页取证面临着用户信息多样、内容动态(实时)变化、海量、交互和图片内容是否可信的挑战,已成为社交网络和社会计算中舆情分析、情感计算、社交网络关系的内容分析以及个人、群体和社会性行为分析的一个重要难题.针对社交网页取证问题,以新浪微博为例,设计了一套取证解决方案,对用户发表的信息、人脸图片、位置信息进行固定,依靠网页取证方法来认证信息的可信性.同时,利用信息可视化展示手段和辅助分析来应对在海量社交网页数据背景下的计算机取证工作.
2014, 25(12):2893-2904. DOI: 10.13328/j.cnki.jos.004731 CSTR:
摘要:随着社会网络的盛行,信任作为用户之间交互的基础,在信息共享、经验交流和社会舆论方面发挥着重要作用.然而,信任是一个复杂而抽象的概念,受多种因素影响,很难识别信任形成的诱因以及其形成机制.由于来自社会科学的社会学理论有助于解释社会现象,而社会网络反映了现实世界中用户之间的联系,因此,从社会学角度出发,通过研究社会等级理论和同质性理论获取信任关系的发展规律,进而构建信任关系预测模型.首先,对社会等级理论和同质性理论进行阐述,并验证了社会等级理论和同质性理论在社会网络中的存在;然后,分别针对社会等级理论和同质性理论对信任关系的影响提出社会等级正则化方法和同质性正则化方法;最后,利用非负矩阵的三维分解方法并结合社会等级理论和同质性理论实现对信任关系预测的建模,并提出SocialTrust模型用于信任关系预测.实验结果表明,相比于其他方法,该方法在信任关系预测方面具有较高的精度.