主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2018年第12期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
怀宝兴,宝腾飞,祝恒书,刘淇.一种基于概率主题模型的命名实体链接方法.软件学报,2014,25(9):2076-2087
一种基于概率主题模型的命名实体链接方法
Topic Modeling Approach to Named Entity Linking
投稿时间:2014-04-05  修订日期:2014-05-14
DOI:10.13328/j.cnki.jos.004642
中文关键词:  命名实体链接  概率主题模型  维基百科
英文关键词:named entity linking  probabilistic topic models  Wikipedia
基金项目:国家杰出青年科学基金(61325010); 国家高技术研究发展计划(863)(2014AA015203); 安徽省科技专项资金(13Z02008-5); 安徽省国际科技合作计划(1303063008); 安徽省科技攻关计划(1301022064); 安徽省自然科学基金(1408085QF110)
作者单位E-mail
怀宝兴 中国科学技术大学 计算机科学与技术学院, 安徽 合肥 230027  
宝腾飞 中国科学技术大学 计算机科学与技术学院, 安徽 合肥 230027  
祝恒书 中国科学技术大学 计算机科学与技术学院, 安徽 合肥 230027  
刘淇 中国科学技术大学 计算机科学与技术学院, 安徽 合肥 230027 qiliuql@ustc.edu.cn 
摘要点击次数: 3382
全文下载次数: 2943
中文摘要:
      命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求.考虑到文档中的词和实体往往具有不同的语义主题(如“苹果”既能表示水果又可以是某电子品牌),而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想.基于此设计一种完整的、基于概率主题模型的命名实体链接方法.首先,利用维基百科(Wikipedia)构建知识库;然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个歧义的命名实体;最后,在真实的数据集上进行大量实验,并与标准方法进行对比.实验结果表明:所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度.
英文摘要:
      Named entity linking (NEL) is an advanced technology which links a given named entity to an unambiguous entity in the knowledge base, and thus plays an important role in a wide range of Internet services, such as online recommender systems and Web search engines. However, with the explosive increasing of online information and applications, traditional solutions of NEL are facing more and more challenges towards linking accuracy due to the large number of online entities. Moreover, the entities are usually associated with different semantic topics (e.g., the entity “Apple” could be either a fruit or a brand) whereas the latent topic distributions of words and entities in same documents should be similar. To address this issue, this paper proposes a novel topic modeling approach to named entity linking. Different from existing works, the new approach provides a comprehensive framework for NEL and can uncover the semantic relationship between documents and named entities. Specifically, it first builds a knowledge base of unambiguous entities with the help of Wikipedia. Then, it proposes a novel bipartite topic model to capture the latent topic distribution between entities and documents. Therefore, given a new named entity, the new approach can link it to the unambiguous entity in the knowledge base by calculating their semantic similarity with respect to latent topics. Finally, the paper conducts extensive experiments on a real-world data set to evaluate our approach for named entity linking. Experimental results clearly show that the proposed approach outperforms other state-of-the-art baselines with a significant margin.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利