2014, 25(12):2893-2904.DOI: 10.13328/j.cnki.jos.004731
摘要:随着社会网络的盛行,信任作为用户之间交互的基础,在信息共享、经验交流和社会舆论方面发挥着重要作用.然而,信任是一个复杂而抽象的概念,受多种因素影响,很难识别信任形成的诱因以及其形成机制.由于来自社会科学的社会学理论有助于解释社会现象,而社会网络反映了现实世界中用户之间的联系,因此,从社会学角度出发,通过研究社会等级理论和同质性理论获取信任关系的发展规律,进而构建信任关系预测模型.首先,对社会等级理论和同质性理论进行阐述,并验证了社会等级理论和同质性理论在社会网络中的存在;然后,分别针对社会等级理论和同质性理论对信任关系的影响提出社会等级正则化方法和同质性正则化方法;最后,利用非负矩阵的三维分解方法并结合社会等级理论和同质性理论实现对信任关系预测的建模,并提出SocialTrust模型用于信任关系预测.实验结果表明,相比于其他方法,该方法在信任关系预测方面具有较高的精度.
2013, 24(11):2571-2583.DOI: 10.3724/SP.J.1001.2013.04467
摘要:文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive andunlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM 主动学习和改进的Rocchio 构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3 个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.
2008, 19(2):246-256.
摘要:在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口.