2018, 29(10):2897-2898. DOI: 10.13328/j.cnki.jos.005554
摘要:
2018, 29(10):2899-2914. DOI: 10.13328/j.cnki.jos.005548
摘要:观点检索是自然语言处理领域中的一个热点研究课题.现有的观点检索模型在检索过程中往往无法根据上下文将词汇进行知识、概念层面的抽象,在语义层面忽略词汇之间的语义联系,观点层面缺乏观点泛化能力.因此,提出一种融合文本概念化与网络表示的观点检索方法.该方法首先利用知识图谱分别将用户查询和文本概念化到正确的概念空间,并利用网络表示将知识图谱中的词汇节点表示成低维向量,然后根据词向量推出查询和文本的向量,并用余弦公式计算用户查询与文本的相关度,接着引入基于统计机器学习的分类方法挖掘文本的观点.最后,利用概念空间、网络表示空间以及观点分析结果构建特征,并服务于观点检索模型.相关实验结果表明,所提出的检索模型可以有效提高多种检索模型的观点检索性能.其中,基于统一相关模型的观点检索方法在两个实验数据集上相比于基准方法,在MAP评价指标上分别提升了6.1%和9.3%,基于排序学习的观点检索方法在两个实验数据集上相比于基准方法,在MAP评价指标上分别提升了2.3%和14.6%.
2018, 29(10):2915-2930. DOI: 10.13328/j.cnki.jos.005549
摘要:实体集扩展是指已知某个特定类别的几个种子实体,根据一定的规则得到该类别的更多实体.作为一种经典的数据挖掘任务,实体集扩展已经有很多的应用,诸如字典建立、查询建议等.现有的实体集扩展主要是基于文本或网页信息,即实体之间的关系从其在文本或者网页中的共现来推断.随着知识图谱研究的兴起,根据知识图谱中知识的共现来研究实体集扩展也成为了一种可能.主要研究知识图谱中的实体集扩展问题,即:给定几个种子实体,利用知识图谱来得到更多的同类别的实体.首先,把知识图谱建模成一个异质信息网络,即含有多种实体类型或者关系类型的网络,提出了一种新的元路径下基于频繁模式的实体集扩展方法,称为FPMP_ESE.FPMP_ESE采用异质信息网络中的元路径来捕捉种子实体之间的潜在共同特征.为了找到种子实体之间重要的元路径,设计了一种新的基于频繁模式的元路径自动产生算法FPMPG.之后,为了更好地给每条元路径分配相应的权重,设计了启发式的方法和PU learning的方法.最后,在真实数据集Yago上的实验结果表明,所提出方法较其他方法在实体集扩展任务上具有更好的性能和更高的效率.
杨玉基 , 许斌 , 胡家威 , 仝美涵 , 张鹏 , 郑莉
2018, 29(10):2931-2947. DOI: 10.13328/j.cnki.jos.005552
摘要:作为语义网的数据支撑,知识图谱在知识问答、语义搜索等领域起着至关重要的作用,一直以来也是研究领域和工程领域的一个热点问题,但是,构建一个质量较高、规模较大的知识图谱往往需要花费巨大的人力和时间成本.如何平衡准确率和效率、快速地构建出一个高质量的领域知识图谱,是知识工程领域的一个重要挑战.对领域知识图谱构建方法进行了系统研究,提出了一种准确、高效的领域知识图谱构建方法——"四步法",将该方法应用到中国基础教育九门学科知识图谱的构建中,在较短时间内构建出了准确率较高的学科知识图谱,证明了该方法构建领域知识图谱的有效性.以地理学科知识图谱为例,使用"四步法"共得到67万个实例、1 421万条三元组,其中,标注数据的学科知识覆盖率和知识准确率均在99%以上.
2018, 29(10):2948-2965. DOI: 10.13328/j.cnki.jos.005550
摘要:以基于黑盒法的不协调本体调试与修复技术为研究对象,分析了黑盒法及其优化方法在调试过程中所存在的问题.针对这一问题,提出了一种基于冲突路径的调试与修复策略,证明了该策略能够正确构造出与基本冲突模式相对应的冲突路径.将黑盒法调试目标限定在与该冲突路径相关的冲突集上,以此降低调试目标的规模从而提高调试的效率.进而根据构造出的冲突路径,获得不可满足依赖路径并基于该路径制定出不可满足概念的修复策略.理论证明与实验结果均证实了所提出的调试与修复策略的正确性与有效性.
2018, 29(10):2966-2994. DOI: 10.13328/j.cnki.jos.005551
摘要:近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
2018, 29(10):2995-3008. DOI: 10.13328/j.cnki.jos.005553
摘要:本体调试是人工智能中非标准推理任务之一,对于本体工程具有很重要的意义.结合互补概念与基于术语集的搜索图提出极小不可满足子术语集求解的优化方法.首先,通过判断扩展的术语集是否包含互补概念,确定该子术语集是否需要进行概念可满足性检测,可以有效减少推理机的调用次数.接着,根据术语集扩展过程构造一个术语集搜索图,分别采用宽度优先搜索和深度优先搜索策略快速查找不可满足子术语集.该优化方法一方面减少了待测子术语集的规模,另一方面提高了查找不可满足子术语集对应的节点的查找效率.最后,实现了所给出的各类优化算法并与现有的黑盒优化算法进行了比较.实验结果表明,该方法从推理机调用次数和待测术语集规模方面均优于现有的MUPS求解方法,能够有效提高求解术语集MUPS的效率.
2018, 29(10):3009-3020. DOI: 10.13328/j.cnki.jos.005321
摘要:良结构下推系统是下推系统和良结构迁移系统的结合,该系统允许状态和栈字符是向量的形式,因而它们是无限的.状态迁移的同时允许栈进行入栈出栈的操作.它"非常接近不可判定的边缘".利用重置0操作,提出了一种模型可覆盖性问题复杂度下界的一般性证明方法,并且证明了状态是三维向量的子集和一般性的良结构下推系统的可覆盖性问题分别是Tower难和Hyper-Ackermann难的.
2018, 29(10):3021-3050. DOI: 10.13328/j.cnki.jos.005613
摘要:基于互联网的软件开发要求产品快速迭代,同时保持产品的质量,其关键的环节就是持续集成.持续集成通过自动化测试来保证集成到主干的代码质量.持续集成时的测试用例选择是一个非常有挑战性的问题.如果运行所有的测试用例,需要消耗大量的计算资源,并造成测试反馈周期过长.如果选择的测试用例集不合适,又不足以覆盖必要的测试代码以保证待集成代码的质量.持续集成测试用例集优化的目的是平衡测试资源和测试质量,在尽可能不影响测试质量的情况下,减少持续集成的资源需求.对近年来国内外学者在该领域的研究工作进行了系统的分析、提炼和总结.为此,首先从研究主题、影响因子、研究方法、研究对象以及性能评价等方面提出5个研究问题;然后从电子文献数据库搜索最近10年的研究工作,经过仔细审查和筛选后选择39篇文献作为研究对象;最后,从选择文献中收集数据,通过定量分析和可视化展示来回答提出的研究问题.总的来说,回顾了持续集成测试用例集优化的研究进展,为该领域的研究者提供了一些有用的发现,并总结了面临的问题和挑战.
2018, 29(10):3051-3067. DOI: 10.13328/j.cnki.jos.005290
摘要:度量数据的分布信息对于理解和使用面向对象软件度量有重要意义.人们对面向对象软件规模度量、耦合度度量乃至继承维度的度量数据的分布都有研究,但对除内聚度缺乏度LCOM之外的内聚度度量数据的分布却缺乏研究.已有的实证研究表明,LCOM并不是好的内聚度度量,因此探讨其他内聚度度量数据分布很有必要.对包括内聚度缺乏度、基于连通性的内聚度度量和基于相似性的内聚度度量总共17个度量指标在112个Java开源软件项目的分布情况进行实证研究,对每个度量指标的每个项目数据使用幂律分布和对数正态分布进行拟合,并使用荟萃分析方法对拟合结果进行了分析.实证研究结果表明,非规范化的内聚度量可使用对数正态分布和幂律分布拟合,但规范化的基于相似性的内聚度量(包括CC、LSCC、SCOM和SCC)需要排除方法数小于等于1或字段数为0的特殊类才能使用对数正态分布拟合,而基于连通性的内聚度度量(包括TCC、LCC、DCD和DCI)则只有对应的非规范化版本的数据才符合对数正态分布或幂律分布.实证研究可帮助人们更好地理解和使用内聚度度量,特别是可以帮助人们如何利用已有的方法确定内聚度度量的阈值.
2018, 29(10):3068-3090. DOI: 10.13328/j.cnki.jos.005607
摘要:设计类问题在科学研究和工业领域无处不在.作为一种十分有效的全局优化算法,近年来,贝叶斯优化方法在设计类问题上被广泛应用.通过设计恰当的概率代理模型和采集函数,贝叶斯优化框架只需经过少数次目标函数评估即可获得理想解,非常适用于求解目标函数表达式未知、非凸、多峰和评估代价高昂的复杂优化问题.从方法论和应用领域两方面深入分析、讨论和展望了贝叶斯优化的研究现状、面临的问题和应用领域,期望为相关领域的研究者提供有益的借鉴和参考.
2018, 29(10):3091-3110. DOI: 10.13328/j.cnki.jos.005385
摘要:首先应用模糊集截集的方法,给出了多值逻辑系统Łn中广义重言式的一个等价刻画,并利用模糊集间的标准Hammin距离,定义了公式间的Hamming距离、Hamming相似度与Hamming真度,给出了计量逻辑学基本概念的Hamming距离表示方法.然后给出了计量逻辑学中公式真度的一个分解定理,这个定理指出在计量逻辑学中,任意一个公式的真度等于一些互不相容的公式的真度之和,而公式φ本身则逻辑等价于这些公式的并.最后应用所提方法定义了广义MP问题的三-I真度解,并讨论了三-I真度解的存在性问题.
2018, 29(10):3111-3133. DOI: 10.13328/j.cnki.jos.005608
摘要:近年来,随着移动智能设备的普及,移动社交网络方兴未艾,用户习惯和朋友分享自己的精彩经历,因此产生了大规模具有时空属性的用户轨迹数据.从狭义的角度来看,轨迹数据是指连续采样的GPS数据.从广义的角度来看,在时空域存在连续性的序列,都可以称作轨迹.例如:在社交网络上的用户签到序列就可以认为是粗粒度的轨迹数据.广义轨迹数据具有时空异构性、连续与离散并存、时空项目的层次性不明显和分类不明确等特点,但是相比于GPS轨迹数据,广义轨迹数据来源广泛,蕴含丰富的信息,这给传统的移动推荐系统带来了巨大的机遇.与此同时,广义轨迹数据规模大、结构丰富,这也给传统的移动推荐系统带来了巨大的挑战.如何利用广义用户轨迹数据来提升移动推荐系统的性能,已成为学术界和产业界共同关注的重要课题.以轨迹数据特征作为切入点,对近年来基于广义用户轨迹数据的移动推荐系统的主要模型方法和推荐评价指标进行了系统综述,阐述了与传统移动推荐系统的联系和区别.最后,对基于广义用户轨迹数据的移动推荐系统有待深入研究的难点和发展趋势进行了分析和展望.
2018, 29(10):3134-3149. DOI: 10.13328/j.cnki.jos.005284
摘要:随着基于活动的社交网络的迅速发展,活动推荐已成为一个重要的工具,帮助人们在线上发现有趣的活动,并在线下面对面地参与活动.但是,相对于传统的推荐系统,活动推荐面临着很多挑战.(1)用户只能参与很少的活动,这就导致一个非常稀疏的用户-活动矩阵;(2)用户对活动的响应是隐性反馈;(3)活动本身有生命周期,已经过期的活动不能再向用户推荐;(4)每天会有很多新的活动产生,需要及时向用户推荐.为了应对这些挑战,提出一个联合建模异构社交和内容信息的活动推荐模型.该模型可同时探索用户的线上和线下社交活动,并结合活动内容建模用户对活动的决策行为.在Meetup数据集上做实验以评估所提出模型的性能.实验结果表明,提出的模型优于其他方法.
2018, 29(10):3150-3163. DOI: 10.13328/j.cnki.jos.005286
摘要:在确定图上进行的相似性连接已有许多研究成果.然而,在实际应用中会有许多因素使得图结构数据变得不确定.研究了不确定图数据库上的相似性连接问题.采用联合概率分布表示法来描述图中边的不确定性,结合一种新的图的相似性度量方法,给出了不确定图数据库上的相似性连接的形式化定义,并设计了一组过滤策略来减少连接过程中候选图对的数量.大量的实验数据表明,所提出的方法具有较好的可行性和准确性.
2018, 29(10):3164-3183. DOI: 10.13328/j.cnki.jos.005288
摘要:近年来,组推荐系统已经逐渐成为推荐系统领域的研究热点之一.在电影电视和旅游推荐中,用户常常是参与活动的一组人,这就需要为多个用户形成的群组进行推荐.作为解决群组推荐问题的有效手段,组推荐系统将单个用户推荐扩展为群组推荐,目前已经应用在新闻、音乐、电影、餐饮等诸多领域.现有的组推荐融合方法主要是模型融合与推荐融合,其效用好坏目前仍没有定论,并且它们各有自己的优缺点.模型融合存在着群组成员间的公平性问题,推荐融合忽视了群组成员间的交互.提出一种改进的偏好融合组推荐方法,它结合了两种融合方法的优点.同时根据实验得出了"群组偏好与个人偏好具有相似性"的结论,并将它结合在改进方法中.最后,通过在Movielens数据集上的实验分析,验证了该方法的有效性,证明了它能够有效地提高推荐准确率.
2018, 29(10):3184-3204. DOI: 10.13328/j.cnki.jos.005418
摘要:随着GPS定位技术的不断发展与智能移动设备的普及,轨迹数据的获取变得越来越容易,同时,轨迹数据相关应用的需求也逐渐增多.在轨迹数据上加入语义信息,可以得到体积较小、质量较高、能够更好地反映用户行为的语义轨迹,在其上实现旅游线路推荐、路线预测、用户生活模式挖掘、朋友推荐等应用,可以更好地满足用户需求.挖掘语义轨迹的频繁模式是实现这些应用的技术基础,而在很多情况下,用户对语义轨迹频繁模式常存在到达时间方面的需求,比如按特定时间游玩热门景点的同时需要按时到达车站候车.现有的语义轨迹模式挖掘方法大多没有考虑到达时间的约束,挖掘出的频繁模式缺少到达时间信息;少数方法考虑了精确的到达时间,但因为约束太强会导致无法挖掘到频繁的模式.因此,首次对近似到达时间约束下的语义轨迹频繁模式(approximate arrival-time constrained frequent pattern,简称AAFP)挖掘方法进行了研究,并给出了其形式化定义;通过时间轴划分提出了挖掘AAFP的基线算法,并通过建立索引AAP-tree提出了改进后的高效、灵活的AAFP挖掘算法;之后提出了信息熵增量公式,并给出了时间轴划分及AAP-tree的高效维护方法;最后在真实数据集上进行实验,验证了方法的有效性及高效性.
2018, 29(10):3223-3238. DOI: 10.13328/j.cnki.jos.005295
摘要:在移动社交网络中,用户可以通过匹配彼此的特征属性进行朋友发现,针对单属性管理中心用户属性密钥更容易被攻击者窃取和服务高峰出现的性能瓶颈问题,提出一种由多个属性管理中心、分级管理用户属性子密钥方案.在该方案中,多个属性中心细粒度地管理用户的不同特征属性,并根据用户特征属性生成属性子密钥,交友请求者只有满足交友发起者设置的交友访问策略,才能正确地将各子密钥组合成完整的解密密钥,进而解密存储在交友中心的用户加密数据文件.通过对属性子密钥进行分级分类管理,不仅避免了单属性管理中心容易被攻击而造成的密钥泄漏以及单点故障风险,而且多属性中心协同工作提高了交友匹配计算效率.通过验证方案是否可挑战明文攻击,证明可达到CPA安全,可以有效地保护用户的隐私不被泄露.同时与既有方案进行了充分的对比实验,确保该方案计算开销最小,可以提供良好的用户体验.