2023年第34卷第10期文章目次

知识赋能的信息系统专题前言

高宏，陈华钧，赵翔，李瑞轩

2023, 34(10):4437-4438. DOI: 10.13328/j.cnki.jos.006890

摘要 (558) HTML (451) PDF 583.32 K (1256) 评论 (0) 收藏

摘要:

知识赋能的新一代信息系统研究现状、发展与挑战

朱迪，张博闻，程雅琪，刘昕悦，吴文隆，王铁鑫，文浩，李博涵

2023, 34(10):4439-4462. DOI: 10.13328/j.cnki.jos.006884

摘要 (1950) HTML (1093) PDF 3.27 M (2878) 评论 (0) 收藏

摘要:信息系统的发展目前正处于感知智能迈向认知智能的关键阶段,传统信息系统难以满足发展要求,数字化转型势在必行.数字线索(digital thread)是面向全生命周期的数据处理框架,通过连接生命周期的各阶段数据,实现物理世界与数字空间的映射与分析.知识图谱(knowledge graph)是结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系,通过知识驱动形成体系化的构建与推理流程.两者对知识赋能的信息系统研究具有重要意义.综述了知识赋能的新一代信息系统的研究现状、发展与挑战.首先,从数字线索系统出发,介绍数字线索的概念和发展,分析数字线索的六维数据构成和6个数据处理阶段;然后介绍知识图谱系统,给出普遍认同的知识图谱的定义和发展,概括知识图谱的架构与方法;最后,分析和探索数字线索与知识图谱结合的方向,列举KG4DT (knowledge graph for digital thread)和DT4KG (digital thread for knowledge graph)的受益方向,对未来知识赋能的新一代信息系统提出开放问题.

自注意力超图池化网络

赵英伏，金福生，李荣华，秦宏超，崔鹏，王国仁

2023, 34(10):4463-4476. DOI: 10.13328/j.cnki.jos.006881

摘要 (1563) HTML (831) PDF 2.31 M (2093) 评论 (0) 收藏

摘要:近年来,将卷积神经网络推广到图数据上的图卷积神经网络引起了广泛关注,主要包括重新定义图的卷积和池化操作.由于图数据只能表达二元关系的局限性,使其在实际应用中表现欠佳.相比之下,超图能够捕获数据的高阶相关性,利用其灵活的超边易于处理复杂的数据表示.然而,现有的超图卷积神经网络还不够成熟,目前尚无有效的超图池化操作.因此,提出了带有自注意机制的超图池化网络,使用超图结构建模,通过引入自注意力的超图卷积操作学习带有高阶数据信息的节点隐藏层特征,再经过超图池化操作选择并保留在结构和内容上的重要节点,进而得到更准确的超图表示.在文本分类、菜肴分类和蛋白质分类任务上的实验结果表明:与目前多种主流方法相比,该方法均取得了更好的效果.

多视图对比增强的异质图结构学习方法

邴睿，袁冠，孟凡荣，王森章，乔少杰，王志晓

2023, 34(10):4477-4500. DOI: 10.13328/j.cnki.jos.006883

摘要 (1678) HTML (861) PDF 3.68 M (1878) 评论 (0) 收藏

摘要:异质图神经网络作为一种异质图表示学习的方法,可以有效地抽取异质图中的复杂结构与语义信息,在节点分类和连接预测任务上取得了优异的表现,为知识图谱的表示与分析提供了有力的支撑.现有的异质图由于存在一定的噪声交互或缺失部分交互,导致异质图神经网络在节点聚合、更新时融入错误的邻域特征信息,从而影响模型的整体性能.为解决该问题,提出了多视图对比增强的异质图结构学习模型.该模型首先利用元路径保持异质图中的语义信息,并通过计算每条元路径下节点之间特征相似度生成相似度图,将其与元路径图融合,实现对图结构的优化.通过将相似度图与元路径图作为不同视图进行多视图对比,实现无监督信息的情况下优化图结构,摆脱对监督信号的依赖.最后,为解决神经网络模型在训练初期学习能力不足、生成的图结构中往往存在错误交互的问题,设计了一个渐进式的图结构融合方法.通过将元路径图和相似度图递增地加权相加,改变图结构融合过程中相似度图所占的比例,在抑制了因模型学习能力弱引入过多的错误交互的同时,达到了用相似度图中的交互抑制原有干扰交互或补全缺失交互的目的,实现了对异质图结构的优化.选择节点分类与节点聚类作为图结构学习的验证任务,在4种真实异质网络数据集上的实验结果,也表明该异质图结构学习方法是可行且有效的.与最优对比模型相比,该模型在两种任务下的性能均有显著提升.

基于链接实体回放的多源知识图谱终身表示学习

孙泽群，崔员宁，胡伟

2023, 34(10):4501-4517. DOI: 10.13328/j.cnki.jos.006887

摘要 (1205) HTML (672) PDF 2.88 M (1726) 评论 (0) 收藏

摘要:知识图谱存储大量的结构化知识和丰富的语义信息,已被广泛应用于知识驱动的智能软件.随着智能应用的不断发展,它们对知识图谱的需求也在发生变化.而单一知识图谱往往具有数据不完备等缺点,难以满足需求.因此,支持新数据来源、融合多源知识已成为迫切需求.传统的知识图谱表示学习和应用范式只考虑单一图谱,忽视了不同图谱间的知识迁移.多源知识图谱联合训练虽然可以带来性能提升,但不支持新增知识图谱的拓展表示学习.鉴于此,提出了多源知识图谱终身表示学习的新范式.给定一个知识图谱序列,终身表示学习的目标是在学习新知识图谱的同时,从已学习的知识图谱与模型中获得知识迁移.为实现这一目标,提出了一个基于链接实体回放的多源知识图谱终身表示学习框架.首先,设计了一个以Transformer为编码器的知识图谱表示学习模型作为框架核心,利用关系相关性进行实体的链接预测;其次,提出了链接子图构造方法,基于实体对齐构建并回放新增知识图谱和已有知识图谱之间的链接子图进行终身学习和知识迁移;最后,采用动态结构方法,为每个知识图谱存储相应的模型参数快照来避免灾难性遗忘.多个链接预测基准数据集上的实验结果表明:所提出的表示学习模型可以取得最先进的性能,且提出的终身表示学习框架可以实现有效的知识迁移.

FS-Net: 面向时序知识图谱推理的频次统计网络

刘康正，赵峰，金海

2023, 34(10):4518-4532. DOI: 10.13328/j.cnki.jos.006885

摘要 (1218) HTML (892) PDF 2.96 M (1855) 评论 (0) 收藏

摘要:时序知识图谱推理吸引了研究人员的极大关注.现有的时序知识图谱推理技术通过建模历史信息取得了巨大的进步.但是,时变性问题和不可见实体(关系)问题仍然是阻碍时序知识图谱推理模型性能进一步提升的两大挑战;而且由于需要对历史子图序列的结构信息和时间依赖信息进行建模,传统的基于嵌入的方法往往在训练和预测过程中具有较高的时间消耗,这极大地限制了推理模型在现实场景中的应用.针对以上困境,提出了一个用于时序知识图谱推理的频次统计网络,FS-Net.一方面,FS-Net不断基于最新的短期历史的事实频次统计,动态地为变化的时间戳上的预测生成时变的得分;另一方面,FS-Net基于当前时间戳上的事实频次统计,为预测补充历史不可见实体(关系);特别地,FS-Net不需要进行训练,而且具有极高的时间效率.在两个时序知识图谱基准数据集上的大量实验,表明了FS-Net相较于基准模型的巨大提升.

面向时间感知的知识超图链接预测

陈子睿，王鑫，王晨旭，张少伟，闫浩宇

2023, 34(10):4533-4547. DOI: 10.13328/j.cnki.jos.006888

摘要 (1297) HTML (571) PDF 2.10 M (1799) 评论 (0) 收藏

摘要:知识超图是一种使用多元关系表示现实世界的异构图,但无论在通用领域还是垂直领域,现有的知识超图普遍存在不完整的情况.因此,如何通过知识超图中已有的链接推理缺失的链接,是一个具有挑战性的问题.目前,大多数研究使用基于多元关系的知识表示学习方法完成知识超图的链接预测任务,但这些方法仅从时间未知的超边中学习实体与关系的嵌入向量,没有考虑时间因素对事实动态演变的影响,导致在动态环境中的预测性能较差.首先,根据首次所提出的时序知识超图定义,提出时序知识超图链接预测模型,同时从实体角色、位置和时序超边的时间戳中学习实体的静态表征和动态表征,以一定比例融合后作为实体嵌入向量用于链接预测任务,实现对超边时序信息的充分利用.同时,从理论上证明模型具有完全表达性和线性空间复杂度.此外,通过上市公司的公开经营数据构建时序知识超图数据集CB67,并在该数据集上进行了大量实验评估.实验结果表明,模型能够在时序知识超图数据集上有效地执行链接预测任务.

用于冷启动推荐的异质信息网络对比元学习

方阳，谭真，陈子阳，肖卫东，张玲玲，田锋

2023, 34(10):4548-4564. DOI: 10.13328/j.cnki.jos.006886

摘要 (1213) HTML (734) PDF 2.24 M (1690) 评论 (0) 收藏

摘要:在推荐系统中,冷启动推荐由于缺乏用户和物品交互信息而具有很大的挑战性.该问题可以由数据层和模型层的策略进行缓解.传统的数据层方法利用如特征信息的辅助信息来增强用户和物品表示的学习.最近,异质信息网络被整合于推荐系统中.它可以提供更丰富的辅助信息和更有意义的语义信息.但是,这些模型无法充分利用结构和语义信息,并且忽视了网络中的无标签信息.模型层的方法应用了元学习框架,该框架通过学习相似任务的先验知识,然后利用很少的标签信息适应新任务,与冷启动问题相似.综上,提出了一个基于异质信息网络的对比元学习框架CM-HIN,同时,在数据层和模型层解决冷启动问题.具体的,利用元路径和网络模式这两个视图分别刻画异质信息网络的高阶以及本地结构信息.在元路径和网络模式视图中,采用对比学习挖掘异质信息网络的无标签信息并整合两个视图.在3个基准数据集上的3个冷启动推荐场景的大量实验中,CM-HIN超越了所有先进的基线模型.

面向知识图谱约束问答的强化学习推理技术

毕鑫，聂豪杰，赵相国，袁野，王国仁

2023, 34(10):4565-4583. DOI: 10.13328/j.cnki.jos.006889

摘要 (1367) HTML (714) PDF 2.42 M (1758) 评论 (0) 收藏

摘要:知识图谱问答任务通过问题分析与知识图谱推理,将问题的精准答案返回给用户,现已被广泛应用于智能搜索、个性化推荐等智慧信息服务中.考虑到关系监督学习方法人工标注的高昂代价,学者们开始采用强化学习等弱监督学习方法设计知识图谱问答模型.然而,面对带有约束的复杂问题,现有方法面临两大挑战:(1)多跳长路径推理导致奖励稀疏与延迟;(2)难以处理约束问题推理路径分支.针对上述挑战,设计了融合约束信息的奖励函数,能够解决弱监督学习面临的奖励稀疏与延迟问题;设计了基于强化学习的约束路径推理模型COPAR,提出了基于注意力机制的动作选择策略与基于约束的实体选择策略,能够依据问题约束信息选择关系及实体,缩减推理搜索空间,解决了推理路径分支问题.此外,提出了歧义约束处理策略,有效解决了推理路径歧义问题.采用知识图谱问答基准数据集对COPAR的性能进行了验证和对比.实验结果表明:与现有先进方法相比,在多跳数据集上性能相对提升了2%-7%,在约束数据集上性能均优于对比模型,准确率提升7.8%以上.

QA-KGNet: 一种语言模型驱动的知识图谱问答模型

乔少杰，杨国平，于泳，韩楠，覃晓，屈露露，冉黎琼，李贺

2023, 34(10):4584-4600. DOI: 10.13328/j.cnki.jos.006882

摘要 (1673) HTML (986) PDF 2.30 M (2050) 评论 (0) 收藏

摘要:基于知识图谱的问答系统可以解析用户问题,已成为一种检索知识、自动回答所询问题的有效途径.知识图谱问答系统通常是利用神经程序归纳模型,将自然语言问题转化为逻辑形式,在知识图谱上执行该逻辑形式能够得到答案.然而,使用预训练语言模型和知识图谱的知识问答系统包含两个挑战:(1)给定问答(question-answering,QA)上下文,需要从大型知识图谱(knowledge graph,KG)中识别相关知识;(2)对QA上下文和KG进行联合推理.基于此,提出一种语言模型驱动的知识图谱问答推理模型QA-KGNet,将QA上下文和KG连接起来形成一个工作图,使用语言模型计算给定QA上下文节点与KG节点的关联度,并使用多头图注意力网络更新节点表示.在CommonsenseQA、OpenBookQA和MedQA-USMLE真实数据集上进行实验来评估QA-KGNet的性能,实验结果表明:QA-KGNet优于现有的基准模型,表现出优越的结构化推理能力.

大模型: 基于自然交互的人机协同软件开发与演化工具带来的挑战

李戈，彭鑫，王千祥，谢涛，金芝，王戟，马晓星，李宣东

2023, 34(10):4601-4606. DOI: 10.13328/j.cnki.jos.007008

摘要 (3771) HTML (632) PDF 9.32 M (2554) 评论 (0) 收藏

摘要:以自然语言生成为核心的大模型技术正在人工智能领域掀起热潮, 并持续向更多的领域穿透其影响力. 以ChatGPT为代表的自然语言生成大模型(以下简称大模型), 已经在软件工程的多项活动中展示出其通过自然交互方式给人提供一定程度帮助的能力和潜力, 正在发展成为一种基于自然交互的人机协同软件开发与演化工具. 从人机协同软件开发与演化的视角, 大模型作为一种软件工具呈现出了两大特征: 其一是基于自然语言的人机交互, 在相当大程度上拓展了人机协同的工作空间、提高了人机协同的效率和灵活性; 其二是基于已积累的软件开发和演化知识、针对给定软件开发和演化任务的预测性内容生成, 可以对软件开发和演化工作提供一定程度的支持和帮助. 然而, 由于大模型本质是基于概率与统计原理和训练数据所形成的数学模型, 具有不可解释性和内生不确定性, 其生成的是缺失可信性判断的预测性内容, 而人在软件开发与演化中所需要完成的是具有可信保障的决策性任务, 所以大模型作为一种软件工具, 在人机协同的软件开发和演化工作环境中给人提供帮助的同时, 也带来了诸多的挑战. 围绕如何构造对软件开发与演化更有帮助的代码大模型、如何引导大模型生成对软件开发与演化更有帮助的预测性内容、如何基于大模型生成的预测性内容开发与演化高质量的软件系统等大模型带来的挑战进行分析和阐述.

分布式账本系统性能优化技术综述

石晶，张奥，白晓颖，蔡华谦，刘譞哲

2023, 34(10):4607-4635. DOI: 10.13328/j.cnki.jos.006677

摘要 (1321) HTML (963) PDF 9.45 M (2564) 评论 (0) 收藏

摘要:分布式账本作为分布式数据管理的体系架构, 通常在多节点之间通过共识机制来共同维护数据记录, 可将数据所有权、传播过程、交易链条等相关信息完整全面地记录在分布的账本中, 并在数据产生、流动的整个生命周期中, 保证数据的不可篡改、不可抵赖, 为确权、维权、审计提供背书. 区块链是一种典型实现. 随着数字货币、数据资产交易等数字经济新应用的发展, 分布式账本技术得到了越来越广泛的关注, 但系统性能是其大规模落地应用的一个主要瓶颈, 账本性能优化成为产业界和学术界一个研究热点. 从账本体系结构、数据结构、共识机制和消息通讯4个方面, 系统地调研分析了分布式账本性能优化的主要方法、关键技术和代表性的解决方案.

第三方库依赖冲突问题研究综述

李硕，刘杰，王帅，田浩翔，叶丹

2023, 34(10):4636-4660. DOI: 10.13328/j.cnki.jos.006666

摘要 (1385) HTML (939) PDF 8.34 M (3294) 评论 (0) 收藏

摘要:软件开发过程中, 开发人员通过大量使用第三方库来实现代码复用. 不同第三方库之间存在依赖关系, 第三方库间的不兼容会导致第三方库的安装、加载、调用时出现错误, 进而导致系统异常, 这类问题称之为第三方库依赖冲突问题. 依赖冲突的根本原因是加载的第三方库无法覆盖软件引用的必需特性(例如: 方法). 依赖冲突问题会在第三方库的下载安装, 项目编译和运行时中出现, 且定位困难. 依赖冲突问题的修复要求开发人员对使用的第三方库版本间差别具有准确的理解, 并且第三方库之间复杂的依赖关系增加了修复难度. 为了能够在软件运行前, 发现软件中存在的依赖冲突, 并且能够响应和处理运行过程中由依赖冲突引发的系统异常, 国内外学者展开了各种针对依赖冲突问题的研究. 从依赖冲突问题的4个方面, 对当前已有研究工作进行了梳理, 包括: 第三方库的使用实证分析、依赖冲突原因分析、依赖冲突检测方法以及依赖冲突常用修复方式. 最后对该领域未来值得关注的研究问题进行了展望.

基于图结构索引的分布式OLAP加速方法

沈斯杰，陈榕，陈海波，臧斌宇

2023, 34(10):4661-4680. DOI: 10.13328/j.cnki.jos.006665

摘要 (633) HTML (348) PDF 6.84 M (1547) 评论 (0) 收藏

摘要:随着业务数据的规模增大, 一些重要的应用场景需要使用分布式在线分析处理(OLAP)支持大规模数据的分析, 例如商务智能(BI), 企业资源计划(ERP), 用户行为分析等. 同时, 分布式OLAP打破单机存储的限制, 可以将数据放在内存中以提升OLAP的处理性能. 然而, 基于内存的分布式OLAP在消除磁盘I/O后, 性能瓶颈转移到了连接操作. 连接操作是OLAP中的一种常用操作, 会进行大量的数据读取与计算操作. 通过对现有的几种连接操作方式进行分析, 提出了一种能够加速连接操作的图结构索引以及基于图结构索引的连接操作方式LinkJoin. 图结构索引通过用户所指定的连接关系, 将数据在内存中的位置以图结构的形式进行存储. 基于图结构索引的连接方式, 不仅能够有等同于哈希连接的较低复杂度, 而且在执行过程中能减少数据读取与计算操作次数. 将目前先进的开源内存OLAP系统MonetDB从单机系统扩展成分布式系统, 并且在该系统上设计与实现了基于图结构索引的连接操作方式. 针对该系统的图索引结构, 列式存储以及分布式执行引擎这3个重要方面, 进行一系列设计与优化, 以提升系统的分布式OLAP处理性能. 测试结果表明, 在TPC-H标准测试中, 基于图结构索引的连接操作对于有连接操作的查询的平均性能提升达1.64倍(最多达4.1倍). 对于这些查询中的连接操作, 性能提升达9.8–22.1倍.

基于录制重放的区块链交易执行追溯方法

陈胜，方明哲，蒋步云，李春晓，左春，李玉成，梁赓

2023, 34(10):4681-4704. DOI: 10.13328/j.cnki.jos.006664

摘要 (770) HTML (560) PDF 15.89 M (1974) 评论 (0) 收藏

摘要:区块链上运行的智能合约具有一经部署难以修改、调用执行需经过共识等特点, 现有的需要修改智能合约代码或打断其执行过程的调试方法难以直接应用到智能合约上. 由于智能合约的运行过程由区块链交易顺序执行过程组成, 实现对区块链交易执行过程的追溯是提升智能合约可调试性的一个有效途径. 对区块链交易执行过程进行追溯主要目标是找出一条已经出块的区块链交易是如何得到当前的执行结果的. 区块链交易的执行依赖于区块链内部状态, 且该状态取决于之前区块链交易的执行结果, 因此存在着传递性依赖. 区块链交易的依赖性和区块链所提供的执行环境的特点给区块链交易执行追溯带来了挑战. 区块链交易执行追溯面临的挑战主要有3方面, 即如何从智能合约部署的生产环境中获取足够追溯的信息、如何获取区块链交易之间的依赖关系, 以及如何保证追溯结果与实际在线执行过程一致. 提出了一种基于录制重放的区块链交易执行追溯方法, 在合约容器中建立录制重放机制, 无需修改合约代码即可支持交易执行中对状态读写操作的录制, 并且不会打断智能合约运行; 提出了基于状态读写的交易依赖分析算法, 支持对存在依赖关系的前序交易进行按需回溯; 此外, 设计了录制读写操作记录的验证机制, 确保重放的执行过程与真实执行过程之间的一致性可被验证. 所提出的方法能够追溯区块链交易调用智能合约的执行过程, 可用于智能合约调试, 并且当智能合约异常造成损失时可用于举证. 在实验中对比了将录制的读写操作记录存储于链上和存储于链下之间的性能差异, 通过案例研究展示了所提方法在追溯区块链交易执行方面的有效性和优点.

面向代码审查的细粒度代码变更溯源方法

王敏，潘兴禄，邹艳珍，谢冰

2023, 34(10):4705-4723. DOI: 10.13328/j.cnki.jos.006674

摘要 (525) HTML (328) PDF 6.60 M (1405) 评论 (0) 收藏

摘要:代码审查是现代软件分布式并行开发过程中的重要机制. 在代码评审时, 帮助代码评审者快速查看某一段源代码的演化过程, 可以让评审者快速理解此段代码变更的原因和必要性, 从而有效提升代码评审的效率与质量. 现有工作虽然提供了一些类似的代码提交历史回溯方法及对应工具, 但缺乏从历史数据中进一步提取辅助代码评审相关辅助信息的能力. 为此, 提出一个面向代码评审的细粒度代码变更溯源方法C2Tracker. 给定一段方法(函数)级别的细粒度代码变更, C2Tracker能够自动追溯到历史开发过程中修改该段代码相关的代码提交, 并在此基础上进一步挖掘其中与该段代码频繁共现修改的代码元素以及相关的变更片段, 辅助代码评审者对当前代码变更的理解与决策. 在10个著名开源项目的数据集下进行实验验证. 实验结果表明, C2Tracker在追溯历史提交的准确率上达到97%, 在挖掘频繁共现代码元素任务上的准确率达到95%, 在追溯相关代码变更片段任务上的准确率达到97%; 相比现有评审方式, C2Tracker在具体案例的代码评审效率和质量上均有较大提升, 在绝大多数的代码评审案例中被评审者认为能提供“明显帮助”或“很大帮助”.

RTDMiner: 基于数据挖掘的引用计数更新缺陷检测方法

边攀，梁彬，黄建军，游伟，石文昌，张健

2023, 34(10):4724-4742. DOI: 10.13328/j.cnki.jos.006676

摘要 (389) HTML (367) PDF 9.95 M (1172) 评论 (0) 收藏

摘要:在Linux内核等大型底层系统中广泛采用引用计数来管理共享资源. 引用计数需要与引用资源的对象个数保持一致, 否则可能导致不恰当引用计数更新缺陷, 使得资源永远无法释放或者被提前释放. 为检测不恰当引用计数更新缺陷, 现有静态检测方法通常需要知道哪些函数增加引用计数, 哪些函数减少引用计数. 而手动获取这些关于引用计数的先验知识过于费时且可能有遗漏. 基于挖掘的缺陷检测方法虽然可以减少对先验知识的依赖, 但难以有效检测像不恰当引用计数更新缺陷这类路径敏感的缺陷. 为此, 提出一个将数据挖掘技术和静态分析技术深度融合的不恰当引用计数更新缺陷检测方法RTDMiner. 首先, 根据引用计数的通用规律, 利用数据挖掘技术从大规模代码中自动识别增加或减少引用计数的函数. 然后, 采用路径敏感的静态分析方法检测增加了引用计数但没有减少引用计数的缺陷路径. 为了降低误报, 在检测阶段再次利用数据挖掘技术来识别例外模式. 在Linux内核上的实验结果表明, 所提方法能够以将近90%的准确率自动识别增加或减少引用计数的函数. 而且RTDMiner检测到的排行靠前的50个疑似缺陷中已经有24个被内核维护人员确认为真实缺陷.

基于分解的演化多目标优化算法综述

高卫峰，刘玲玲，王振坤，公茂果

2023, 34(10):4743-4771. DOI: 10.13328/j.cnki.jos.006672

摘要 (1305) HTML (1082) PDF 26.10 M (3302) 评论 (0) 收藏

摘要:基于分解的演化多目标优化算法(MOEA/D)的基本思想是将一个多目标优化问题转化成一系列子问题 (单目标或者多目标)来进行优化求解. 自2007年提出以来, MOEA/D受到了国内外学者的广泛关注, 已经成为最具代表性的演化多目标优化算法之一. 总结过去13年中关于MOEA/D的一些研究进展, 具体内容包括: (1)关于MOEA/D的算法改进; (2) MOEA/D在超多目标优化问题及约束优化问题上的研究; (3) MOEA/D在一些实际问题上的应用. 然后, 实验对比几个具有代表性的MOEA/D改进算法. 最后, 指出一些MOEA/D未来的研究方向.

逆向强化学习研究综述

张立华，刘全，黄志刚，朱斐

2023, 34(10):4772-4803. DOI: 10.13328/j.cnki.jos.006671

摘要 (2376) HTML (1426) PDF 7.90 M (3883) 评论 (0) 收藏

摘要:逆向强化学习(inverse reinforcement learning, IRL)也称为逆向最优控制(inverse optimal control, IOC), 是强化学习和模仿学习领域的一种重要研究方法, 该方法通过专家样本求解奖赏函数, 并根据所得奖赏函数求解最优策略, 以达到模仿专家策略的目的. 近年来, 逆向强化学习在模仿学习领域取得了丰富的研究成果, 已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中. 首先介绍逆向强化学习理论基础, 然后从奖赏函数构建方式出发, 讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法, 包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等. 随后从逆向强化学习领域的前沿研究方向进行综述, 比较和分析该领域代表性算法, 包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等. 最后总结分析当前存在的关键问题, 并从理论和应用方面探讨未来的发展方向.

基于自编码器的贝叶斯网嵌入及概率推理

杜斯，祁志卫，岳昆，段亮，王笳辉

2023, 34(10):4804-4820. DOI: 10.13328/j.cnki.jos.006670

摘要 (461) HTML (396) PDF 8.37 M (1150) 评论 (0) 收藏

摘要:贝叶斯网(BN)是不确定性知识表示和推理的基本框架, 广泛用于社交网络、知识图谱和医疗诊断等领域. 特定领域中基于BN的分析诊断和决策支持, 其核心计算任务是基于BN进行多次概率推理. 然而, 使用传统的概率推理方法, 基于同一BN的多次概率推理其中间过程存在很多重复的计算结果, 具有较高的时间复杂度. 为了提高多次概率推理的效率, 提出易于重用和易于计算的贝叶斯网嵌入及相应的概率推理方法. 首先, 借鉴图嵌入的基本思想, 使用点互信息矩阵来表示BN的有向无环图结构和条件概率参数, 提出基于自编码器和注意力机制的BN嵌入方法. 其中, 自编码器的每一编码层利用节点与其邻居节点(父节点和子节点)的相关性生成节点嵌入, 从而在嵌入向量中保存BN节点间的概率依赖关系. 然后, 使用嵌入向量之间的距离来度量节点之间的联合概率, 提出基于嵌入向量的BN概率推理方法. 实验证明, 针对BN的多次概率推理, 所提方法的效率高于现有方法, 且能得到准确的推理结果.

近似最近邻归约问题在泊松点过程上的再研究

马恒钊，闫跃，李建中

2023, 34(10):4821-4829. DOI: 10.13328/j.cnki.jos.006649

摘要 (435) HTML (377) PDF 4.39 M (1221) 评论 (0) 收藏

摘要:在已发表文献中, 研究了基于图灵归约求解$ \varepsilon $-NN的问题, 即给定查询点q、点集P及近似参数$ \varepsilon $, 找到q在P中近似比不超过$ 1 + \varepsilon $的近似最近邻, 并提出了一个具有${\rm{O}}(\log n)$查询时间复杂度的图灵归约算法, 这里的查询时间是调用神谕的次数. 经过对比, 此时间优于所有现存的归约算法. 但是已发表文献中提出的归约算法的缺点在于, 其预处理时间和空间复杂度中有${\rm{O}}({(d/\varepsilon )^d})$的因子, 当维度数d较大或者近似参数$ \varepsilon $较小时, 此因子将变得不可接受. 因此, 重新研究了该归约算法, 在输入点集服从泊松点过程的情况下, 分析算法的期望时间和空间复杂度, 将算法的期望预处理时间复杂度降到${\rm{O}}(n\log n)$, 期望空间复杂度降到${\rm{O}}(n\log n)$, 而期望查询时间复杂度保持${\rm{O}}(\log n)$不变, 从而完成了在已发表文献中所提出的未来工作.

异质信息网络的复杂条件社区搜索

王家龙，杨杰，周丽华，王丽珍，王睿康

2023, 34(10):4830-4850. DOI: 10.13328/j.cnki.jos.006654

摘要 (442) HTML (206) PDF 9.03 M (1546) 评论 (0) 收藏

摘要:社区是信息网络的重要属性, 社区搜索旨在寻找满足用户给定条件的节点集合, 是信息网络分析的重要研究内容. 异质信息网络由于包含更加全面、丰富的结构和语义信息, 所以异质信息网络的社区搜索近年来受到人们的广泛关注. 针对现有异质信息网络的社区搜索方法难以满足复杂条件社区搜索要求的不足, 定义了复杂条件社区搜索问题, 提出了考虑非对称元路径、受限元路径和禁止节点约束的搜索算法. 3种算法分别通过元路径补全策略、调整带标签的批量搜索策略和拆分复杂搜索条件的方式搜索社区, 同时针对禁止节点约束的搜索算法设计了基于剪枝策略和近似策略的优化算法以提高搜索效率. 在真实数据集上进行了大量实验, 实验结果证明了所提算法的有效性和高效性.

面向社交推荐的自适应高阶隐式关系建模

李邵莹，孟丹，孔超，张丽平，徐辰

2023, 34(10):4851-4869. DOI: 10.13328/j.cnki.jos.006662

摘要 (590) HTML (393) PDF 8.63 M (1445) 评论 (0) 收藏

摘要:近年来, 社交推荐的研究主要聚焦于社交网络中显式、隐式关系的联合建模, 却忽视了高阶隐式关系并非对每个用户都同等重要这一特殊现象. 高阶隐式关系对一个有着足够多邻居的用户与一个仅有少量邻居的用户重要性存在明显差异. 此外, 由于社交关系建立的随机性, 显式关系并不总是可用的. 提出了一种新的自适应高阶隐式关系建模方法(adaptive high-order implicit relations modeling, AHIRM), 该模型由3个部分组成: 首先, 过滤不可靠关系且识别出潜在可靠关系. 旨在避免不可靠关系带来的负面影响, 并部分缓解数据稀疏的问题; 其次, 设计自适应随机游走算法, 结合规范化后的节点中心度为用户捕获不同阶数的邻居, 构建用户间的高阶隐式关系, 进而重构社交网络; 最后, 运用图卷积网络(graph convolutional network, GCN)聚合邻居节点信息, 更新用户嵌入, 实现高阶隐式关系建模, 从而进一步缓解数据稀疏问题. 在建模过程中, 同时考虑到社交结构和个人偏好的影响, 模拟并保留了社交影响传播的过程. 在LastFM、Douban和Gowalla这3个数据集上与相关算法做了对比验证, 结果证实了该模型的有效性和合理性.

面向异质性医学图像处理的深度学习算法综述

马梓博，米悦，张波，张征，吴静云，黄海文，王文东

2023, 34(10):4870-4915. DOI: 10.13328/j.cnki.jos.006680

摘要 (1663) HTML (1078) PDF 20.57 M (3087) 评论 (0) 收藏

摘要:近年来深度学习技术在诸多计算机视觉任务上取得了令人瞩目的进步, 也让越来越多的研究者尝试将其应用于医学图像处理领域, 如面向高通量医学图像(CT、MRI)的解剖结构分割等, 旨在为医生提供诊断辅助, 提高其阅片效率. 由于训练医学图像处理的深度学习模型同样需要大量的标注数据, 同一医疗机构的数据往往不能满足需求, 而受设备和采集协议的差异的影响, 不同医疗机构的数据具有很大的异质性, 这导致通过某些医疗机构的数据训练得到模型很难在其他医疗机构的数据上取得可靠的结果. 此外, 不同的医疗数据在患者个体病情阶段的分布上也往往是十分不均匀的, 这同样会降低模型的可靠性. 为了减少数据异质性的影响, 提高模型的泛化能力, 域适应、多站点学习等技术应运而生. 其中域适应技术作为迁移学习中的研究热点, 旨在将源域上学习的知识迁移到未标记的目标域数据上; 多站点学习和数据非独立同分布的联邦学习技术则旨在在多个数据集上学习一个共同的表示, 以提高模型的鲁棒性. 从域适应、多站点学习和数据非独立同分布的联邦学习技术入手, 对近年来的相关方法和相关数据集进行了综述、分类和总结, 为相关研究提供参考.

基于注意力机制及类别层次结构的弱监督目标定位

冯迅，杨健，周涛，宫辰

2023, 34(10):4916-4929. DOI: 10.13328/j.cnki.jos.006675

摘要 (464) HTML (397) PDF 7.49 M (1350) 评论 (0) 收藏

摘要:弱监督目标定位是指仅利用图像级的类别标注信息来训练目标定位器, 而不需要使用精确的目标位置标注信息来进行算法训练. 当前的一些方法往往只能定位出目标对象中最具鉴别性的部分而无法准确地标识出完整的目标对象, 或者易受背景无关信息干扰从而导致定位结果不精确. 为了解决上述问题, 提出一种基于注意力机制和类别层次结构的弱监督目标定位方法. 该方法通过对卷积神经网络的注意力图进行均值分割提取更完整的目标区域. 进一步, 通过类别层次结构网络实现对背景区域注意力的削弱, 从而提高对感兴趣目标的定位精度. 基于多个网络结构和公共数据集上的大量实验结果表明, 相比目前已有的弱监督定位方法, 所提方法在多个评价指标下均能够获得更好的定位效果.

面向异构DHT存储的数据与位置解耦算法

罗超然，金鑫，张颖，蔡华谦，柳熠，景翔，黄罡

2023, 34(10):4930-4940. DOI: 10.13328/j.cnki.jos.006663

摘要 (559) HTML (411) PDF 8.98 M (1636) 评论 (0) 收藏

摘要:分布式哈希表(distributed hash table, DHT)由于其高效的数据寻址方式而被广泛应用于分布式存储. 传统DHT必须将数据存放在指定节点中才能实现高效的数据分布式寻址, 极大地限制了DHT技术的应用范围. 例如, 在异构存储网络中, 节点的存储空间、带宽、稳定性等均有较大差异, 结合数据特征和节点性能差异选择合适的数据存放节点可以很大程度上提高数据的访问效率, 而传统DHT数据和存储位置紧耦合的特征导致其难以应用于异构的存储网络中. 针对此问题, 提出了vRoute算法以实现DHT中数据标识与其存储位置的解耦. 通过构建基于Bloom Filter的分布式数据索引, vRoute算法可以在不降低数据寻址效率的基础上允许数据存储在网络中的任意节点. 通过扩展Kademlia算法实现了vRoute, 并从理论上证明了vRoute算法的有有效性. 最后, 模拟实验表明vRoute以较低的存储、网络开销实现了和传统的DHT算法接近的数据寻址效率.

微信服务号

微信订阅号

>专刊文章

>综述文章

>专刊文章

>综述文章

>综述文章

>综述文章

当期目录

年份

刊期