2024年第5期文章目次

多模态协同感知与融合技术专题前言

孙立峰，宋新航，蒋树强，王莉莉，申恒涛

2024, 35(5):2099-2100. DOI: 10.13328/j.cnki.jos.007030

摘要 (911) HTML (1368) PDF 5.62 M (5793) 评论 (0) 收藏

摘要:

视觉语言模型引导的文本知识嵌入的小样本增量学习

姚涵涛，余璐，徐常胜

2024, 35(5):2101-2119. DOI: 10.13328/j.cnki.jos.007022

摘要 (1549) HTML (1661) PDF 7.05 M (4799) 评论 (0) 收藏

摘要:真实场景往往面临数据稀缺和数据动态变化的问题, 小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘. 已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器, 实现模型对于新数据的迁移和旧数据的抗遗忘. 但是少量数据的视觉特征往往难以建模一个类别的完整特征分布, 导致上述算法的泛化能力较弱. 相比于视觉特征, 图像类别描述的文本特征具有较好的泛化性和抗遗忘性. 因此, 在视觉语言模型的基础上, 研究基于文本知识嵌入的小样本增量学习, 通过在视觉特征中嵌入具有抗遗忘能力的文本特征, 实现小样本增量学习中新旧类别数据的有效学习. 具体而言, 在基础学习阶段, 利用视觉语言模型抽取图像的预训练视觉特征和类别的文本描述, 并通过文本编码器实现预训练视觉特征到文本空间的映射. 进一步利用视觉编码器融合学习到的文本特征和预训练视觉特征抽象具有高辨别能力的视觉特征. 在增量学习阶段, 提出类别空间引导的抗遗忘学习, 利用旧数据的类别空间编码和新数据特征微调视觉编码器和文本编码器, 实现新数据知识学习的同时复习旧知识. 在4个数据集(CIFAR-100, CUB-200, Car-196和 miniImageNet)上验证算法的有效性, 证明基于视觉语言模型文本知识嵌入可以在视觉特征的基础上进一步提升小样本增量学习的鲁棒性.

面向跨模态检索的查询感知双重对比学习网络

尹梦冉，梁美玉，于洋，曹晓雯，杜军平，薛哲

2024, 35(5):2120-2132. DOI: 10.13328/j.cnki.jos.007021

摘要 (1281) HTML (1525) PDF 10.54 M (3866) 评论 (0) 收藏

摘要:近期, 跨模态视频语料库时刻检索(VCMR)这一新任务被提出, 它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段. 现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合, 然而, 简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近, 也未考虑查询语句的语义. 为了解决上述问题, 提出一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN), 该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示. 具体地, 提出一种查询感知的跨模态语义融合策略, 根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征, 获得视频的查询感知多模态联合表示. 此外, 提出一种面向视频和查询语句的模态间及模态内双重对比学习机制, 以增强不同模态的语义对齐和融合, 从而提高不同模态数据表示的可分辨性和语义一致性. 最后, 采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索. 大量实验验证表明, 所提出的QACLN优于基准方法.

面向遥感视觉问答的尺度引导融合推理网络

赵恩源，宋宁，聂婕，王鑫，郑程予，魏志强

2024, 35(5):2133-2149. DOI: 10.13328/j.cnki.jos.007025

摘要 (1100) HTML (1664) PDF 4.58 M (3798) 评论 (0) 收藏

摘要:遥感视觉问答(remote sensing visual question answering, RSVQA)旨在从遥感图像中抽取科学知识. 近年来, 为了弥合遥感视觉信息与自然语言之间的语义鸿沟, 涌现出许多方法. 但目前方法仅考虑多模态信息的对齐和融合, 既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘, 又缺乏对尺度特征的建模和推理的研究, 导致答案预测不够全面和准确. 针对以上问题, 提出一种多尺度引导的融合推理网络(multi-scale guided fusion inference network, MGFIN), 旨在增强RSVQA系统的视觉空间推理能力. 首先, 设计基于Swin Transformer的多尺度视觉表征模块, 对嵌入空间位置信息的多尺度视觉特征进行编码; 其次, 在语言线索的引导下, 使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系, 并进行空间层次推理; 最后, 设计基于推理的融合模块来弥合多模态语义鸿沟, 在交叉注意力基础上, 通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征, 并辅助预测最终答案. 实验结果表明, 所提模型在两个公共RSVQA数据集上具有显著优势.

基于条件语义增强的文本到图像生成

余凯，宾燚，郑自强，杨阳

2024, 35(5):2150-2164. DOI: 10.13328/j.cnki.jos.007024

摘要 (1090) HTML (1470) PDF 7.68 M (3906) 评论 (0) 收藏

摘要:文本到图像生成取得了视觉上的优异效果, 但存在细节表达不足的问题. 于是提出基于条件语义增强的生成对抗模型(conditional semantic augmentation generative adversarial network, CSA-GAN). 所提模型首先将文本进行编码, 使用条件语义增强对其进行处理. 之后, 提取生成器的中间特征进行上采样, 再通过两层CNN生成图像的掩码. 最后将文本编码送入两个感知器处理后和掩码进行融合, 充分融合图像空间特征和文本语义, 以提高细节表达. 为了验证所提模型的生成图像的质量, 在不同的数据集上进行定量分析、定性分析. 使用IS (inception score)、FID (Frechet inception distance)指标对图像清晰度, 多样性和图像的自然真实程度进行定量评估. 定性分析包括可视化生成的图像, 消融实验分析具体模块等. 结果表明: 所提模型均优于近年来同类最优工作. 这充分验证所提出的方法具有更优性能, 同时能够优化图像生成过程中一些主体特征细节的表达.

分层特征编解码驱动的视觉引导立体声生成方法

王睿琦，程皓楠，叶龙

2024, 35(5):2165-2175. DOI: 10.13328/j.cnki.jos.007027

摘要 (613) HTML (1585) PDF 4.93 M (3172) 评论 (0) 收藏

摘要:视觉引导的立体声生成是多模态学习中具有广泛应用价值的重要任务之一, 其目标是在给定视觉模态信息及单声道音频模态信息的情况下, 生成符合视听一致性的立体声音频. 针对现有视觉引导的立体声生成方法因编码阶段视听信息利用率不足、解码阶段忽视浅层特征导致的立体声生成效果不理想的问题, 提出一种基于分层特征编解码的视觉引导的立体声生成方法, 有效提升立体声生成的质量. 其中, 为了有效地缩小阻碍视听觉模态数据间关联融合的异构鸿沟, 提出一种视听觉特征分层编码融合的编码器结构, 提高视听模态数据在编码阶段的综合利用效率; 为了实现解码过程中浅层结构特征信息的有效利用, 构建一种由深到浅不同深度特征层间跳跃连接的解码器结构, 实现了对视听觉模态信息的浅层细节特征与深度特征的充分利用. 得益于对视听觉信息的高效利用以及对深层浅层结构特征的分层结合, 所提方法可有效处理复杂视觉场景中的立体声合成, 相较于现有方法, 所提方法生成效果在真实感等方面性能提升超过6%.

结合面部动作单元感知的三维人脸重建算法

章毅，吕嘉仪，兰星，薛健

2024, 35(5):2176-2191. DOI: 10.13328/j.cnki.jos.007029

摘要 (975) HTML (1836) PDF 7.66 M (3895) 评论 (0) 收藏

摘要:三维人脸重建在计算机视觉及动画领域是一项重要任务, 它可以为人脸多模态应用提供三维模型结构和丰富的语义信息. 然而, 单目二维人脸图像缺乏深度信息, 预测的三维模型参数不够可靠, 从而导致重建效果不佳. 提出采用与模型参数高度相关的面部动作单元和人脸关键点作为桥梁, 引导模型相关参数回归, 以解决单目人脸重建的不适定问题. 基于人脸重建的现有数据集, 提供一套完整的面部动作单元半自动标注方案, 并构建300W-LP-AU数据集. 进而提出一种结合动作单元感知的三维人脸重建算法. 该算法实现端到端的多任务学习, 有效降低了整体训练难度. 实验结果表明, 该算法能有效地提升三维人脸重建性能, 重建的人脸模型具有更高的保真度.

多模态特征分析的帕金森病辅助诊断方法

强薇，杜宇，李信金，范向民，苏闻，陈海波，孙伟，田丰

2024, 35(5):2192-2207. DOI: 10.13328/j.cnki.jos.007028

摘要 (1089) HTML (1694) PDF 10.48 M (3811) 评论 (0) 收藏

摘要:帕金森病是一种常见的神经退行性疾病, 会逐步破坏患者运动功能和部分认知功能, 且发病隐匿、不可治愈, 为患者及家人带来沉重负担. 然而, 帕金森病的临床诊断通常依赖主观评估量表, 会同时受到评估者主观性、被评估者回忆偏差的影响. 目前, 有大量研究从各个模态探索了帕金森病的生理特征, 并借此提供了客观量化辅助诊断方法. 但是, 神经退行性疾病种类繁多、影响类似, 从帕金森病表征出发的单模态方法特异性问题仍有待解决. 为此, 搭建一套包含帕金森病异常诱发范式的多模态辅助诊断系统. 首先, 根据正态分布检验结果进行特征的参数检验, 构建具有统计学意义的特征集(p<0.05); 其次, 在临床环境中收集38例带有MDS-UPDRS评分量表的多模态数据; 最后, 基于步态和眼动模态, 分析不同特征组合方式评估帕金森病的显著性; 验证虚拟现实场景下高沉浸诱发型任务范式和多模态帕金森病辅助诊断系统的有效性; 其中步态与眼动模态综合使用, 只需要进行2–4个任务, 平均AUC和平均准确率就分别能达到0.97和0.92.

基于多模态关系建模的三维形状识别方法

陈浩楠，朱映映，赵骏骐，田奇

2024, 35(5):2208-2219. DOI: 10.13328/j.cnki.jos.007026

摘要 (699) HTML (1631) PDF 6.64 M (3273) 评论 (0) 收藏

摘要:为了充分利用点云和多视图两种模态数据之间的局部空间关系以进一步提高三维形状识别精度, 提出一个基于多模态关系的三维形状识别网络, 首先设计多模态关系模块(multimodal relation module, MRM), 该模块可以提取任意一个点云的局部特征和一个多视图的局部特征之间的关系信息, 以得到对应的关系特征. 然后, 采用由最大池化和广义平均池化组成的级联池化对关系特征张量进行处理, 得到全局关系特征. 多模态关系模块分为两种类型, 分别输出点-视图关系特征和视图-点关系特征. 提出的门控模块采用自注意力机制来发现特征内部的关联信息, 从而将聚合得到的全局特征进行加权来实现对冗余信息的抑制. 详尽的实验表明多模态关系模块可以使网络获得更优的表征能力; 门控模块可以让最终的全局特征更具判别力, 提升检索任务的性能. 所提网络在三维形状识别标准数据集 ModelNet40 和 ModelNet10上分别取得了93.8%和95.0%的分类准确率以及90.5%和93.4%的平均检索精度, 在同类工作中处于先进水平.

事件融合与空间注意力和时间记忆力的视频去雨网络

孙上荃，任文琦，操晓春

2024, 35(5):2220-2234. DOI: 10.13328/j.cnki.jos.007023

摘要 (911) HTML (1579) PDF 10.27 M (3449) 评论 (0) 收藏

摘要:近年来数码视频拍摄设备不断升级, 其感光元件宽容度、快门速率的提升虽然极大程度地丰富了可拍摄景物的多样性, 雨痕这类由于雨滴高速穿过景深范围的退化元素也更容易被记录到, 作为前景的稠密雨痕阻挡了背景景物的有效信息, 从而影响图像的有效采集. 由此视频图像去雨成为一个亟待解决的问题, 以往的视频去雨方法集中在利用常规图像自身的信息, 但是由于常规相机的感光元件物理极限、快门机制约束等原因, 许多光学信息在采集时丢失, 影响后续的视频去雨效果. 由此, 利用事件数据与常规视频信息的互补性, 借助事件信息的高动态范围、时间分辨率高等优势, 提出基于事件数据融合与空间注意力和时间记忆力的视频去雨网络, 利用三维对齐将稀疏事件流转化为与图像大小匹配的表达形式, 叠加输入至集合了空间注意力机制的事件-图像融合处理模块, 有效提取图像的空间信息, 并在连续帧处理时使用跨帧记忆力模块将先前帧特征利用, 最后经过三维卷积与两个损失函数的约束. 在开源视频去雨数据集上验证所提方法的有效性, 同时达到了实时视频处理的标准.

智能合约安全漏洞检测研究进展

崔展齐，杨慧文，陈翔，王林章

2024, 35(5):2235-2267. DOI: 10.13328/j.cnki.jos.007046

摘要 (2221) HTML (2065) PDF 4.22 M (4678) 评论 (0) 收藏

摘要:智能合约是运行在区块链合约层的计算机程序, 能够管理区块链上的加密数字货币和数据, 实现多样化的业务逻辑, 扩展了区块链的应用. 由于智能合约中通常涉及大量资产, 吸引了大量攻击者试图利用其中的安全漏洞获得经济利益. 近年来, 随着多起智能合约安全事件的发生(例如TheDAO、Parity安全事件等), 针对智能合约的安全漏洞检测技术成为国内外研究热点. 提出智能合约安全漏洞检测的研究框架, 分别从漏洞发现与识别、漏洞分析与检测、数据集与评价指标这3个方面分析现有检测方法研究进展. 首先, 梳理安全漏洞信息收集的基本流程, 将已知漏洞根据基础特征归纳为13种漏洞类型并提出智能合约安全漏洞分类框架; 然后, 按照符号执行、模糊测试、机器学习、形式化验证和静态分析5类检测技术对现有研究进行分析, 并讨论各类技术的优势及局限性; 第三, 整理常用的数据集和评价指标; 最后, 对智能合约安全漏洞检测的未来研究方向提出展望.

自动化渗透测试技术研究综述

陈可，鲁辉，方滨兴，孙彦斌，苏申，田志宏

2024, 35(5):2268-2288. DOI: 10.13328/j.cnki.jos.007038

摘要 (1916) HTML (3531) PDF 9.33 M (7286) 评论 (0) 收藏

摘要:渗透测试是发现重要网络信息系统弱点并进而保护网络安全的重要手段. 传统的渗透测试深度依赖人工, 并且对测试人员的技术要求很高, 从而限制了普及的深度和广度. 自动化渗透测试通过将人工智能技术引入渗透测试全过程, 在极大地解决对人工的重度依赖基础上降低了渗透测试技术门槛. 自动化渗透测试主要可分为基于模型和基于规则的自动渗透测试. 二者的研究各有侧重, 前者是指利用模型算法模拟黑客攻击, 研究重点是攻击场景感知和攻击决策模型; 后者则聚焦于攻击规则和攻击场景如何高效适配等方面. 主要从攻击场景建模、渗透测试建模和决策推理模型等3个环节深入分析相关自动化渗透测试实现原理, 最后从攻防对抗、漏洞组合利用等维度探讨自动化渗透的未来发展方向.

基于对抗生成网络的缺陷定位模型域数据增强方法

张卓，雷晏，毛晓光，薛建新，常曦

2024, 35(5):2289-2306. DOI: 10.13328/j.cnki.jos.006961

摘要 (598) HTML (889) PDF 8.46 M (2003) 评论 (0) 收藏

摘要:缺陷定位获取并分析测试用例集的运行信息, 从而度量出各个语句为缺陷的可疑性. 测试用例集由输入域数据构建, 包含成功测试用例和失败测试用例两种类型. 由于失败测试用例在输入域分布不规律且比例很低, 失败测试用例数量往往远少于成功测试用例数量. 已有研究表明, 少量失败测试用例会导致测试用例集出现类别不平衡问题, 严重影响着缺陷定位有效性. 为了解决这个问题, 提出基于对抗生成网络的缺陷定位模型域数据增强方法. 该方法基于模型域(即缺陷定位频谱信息)而非传统输入域(即程序输入), 利用对抗生成网络合成覆盖最小可疑集合的模型域失败测试用例, 从模型域上解决类别不平衡的问题. 实验结果表明, 所提方法大幅提升了11种典型缺陷定位方法的效能.

基于误差分治的神经网络验证

董彦松，刘月浩，董旭乾，赵亮，田聪，于斌，段振华

2024, 35(5):2307-2324. DOI: 10.13328/j.cnki.jos.006967

摘要 (476) HTML (1168) PDF 10.88 M (1664) 评论 (0) 收藏

摘要:随着神经网络技术的快速发展, 其在自动驾驶、智能制造、医疗诊断等安全攸关领域得到了广泛应用, 神经网络的可信保障变得至关重要. 然而, 由于神经网络具有脆弱性, 轻微的扰动经常会导致错误的结果, 因此采用形式化验证的手段来保障神经网络安全可信是非常重要的. 目前神经网络的验证方法主要关注分析的精度, 而易忽略运行效率. 在验证一些复杂网络的安全性质时, 较大规模的状态空间可能会导致验证方法不可行或者无法求解等问题. 为了减少神经网络的状态空间, 提高验证效率, 提出一种基于过近似误差分治的神经网络形式化验证方法. 该方法利用可达性分析技术计算非线性节点的上下界, 并采用一种改进的符号线性松弛方法减少了非线性节点边界计算过程中的过近似误差. 通过计算节点过近似误差的直接和间接影响, 将节点的约束进行细化, 从而将原始验证问题划分为一组子问题, 其混合整数规划(MILP)公式具有较少的约束数量. 所提方法已实现为工具NNVerifier, 并通过实验在经典的3个数据集上训练的4个基于ReLU的全连接基准网络进行性质验证和评估. 实验结果表明, NNVerifier的验证效率比现有的完备验证技术提高了37.18%.

基于数据流传播路径学习的智能合约时间戳漏洞检测

张卓，刘业鹏，薛建新，鄢萌，陈嘉弛，毛晓光

2024, 35(5):2325-2339. DOI: 10.13328/j.cnki.jos.006989

摘要 (1237) HTML (1261) PDF 2.95 M (2577) 评论 (0) 收藏

摘要:智能合约是一种被大量部署在区块链上的去中心化的应用. 由于其具有经济属性, 智能合约漏洞会造成潜在的巨大经济和财产损失, 并破坏以太坊的稳定生态. 因此, 智能合约的漏洞检测具有十分重要的意义. 当前主流的智能合约漏洞检测方法(诸如Oyente和Securify)采用基于人工设计的启发式算法, 在不同应用场景下的复用性较弱且耗时高, 准确率也不高. 为了提升漏洞检测效果, 针对智能合约的时间戳漏洞, 提出基于数据流传播路径学习的智能合约漏洞检测方法Scruple. 所提方法首先获取时间戳漏洞的潜在的数据传播路径, 然后对其进行裁剪并利用融入图结构的预训练模型对传播路径进行学习, 最后对智能合约是否具有时间戳漏洞进行检测. 相比而言, Scruple具有更强的漏洞捕捉能力和泛化能力, 传播路径学习的针对性强, 避免了对程序整体依赖图学习时造成的层次太深而无法聚焦漏洞的问题. 为了验证Scruple的有效性, 在真实智能合约的数据集上, 开展Scruple方法与13种主流智能合约漏洞检测方法的对比实验. 实验结果表明, Scruple在检测时间戳漏洞上的准确率, 召回率和F1值分别可以达到0.96, 0.90和0.93, 与13种当前主流方法相比, 平均相对提升59%, 46%和57%, 从而大幅提升时间戳漏洞的检测能力.

开源软件缺陷的跨项目相关问题推荐方法

刘宝川，张莉，刘桢炜，蒋竞

2024, 35(5):2340-2358. DOI: 10.13328/j.cnki.jos.006992

摘要 (1203) HTML (1028) PDF 2.90 M (1831) 评论 (0) 收藏

摘要:GitHub是著名的开源软件开发社区, 支持开发人员在开源项目中使用问题追踪系统来处理问题. 在软件缺陷问题的讨论过程中, 开发人员可能指出与该缺陷问题相关的其他项目问题(称为跨项目相关问题), 为缺陷问题的修复提供参考信息. 然而, GitHub平台中托管了超过2亿的开源项目和12亿个问题, 导致人工识别和获取跨项目相关问题的工作极其耗时. 提出为缺陷问题自动化推荐跨项目相关问题的方法CPIRecom. 为了构建预选集, 采用项目之间历史相关问题对的数量和问题发布时间间隔筛选问题. 其次, 为了精准推荐, 采用BERT预训练模型提取文本特征, 分析项目特征. 然后使用随机森林算法计算预选问题与缺陷问题的相关概率, 最终根据相关概率排名得到推荐列表. 模拟CPIRecom方法在GitHub平台的使用情况. CPIRecom方法的平均倒数排名达到0.603, 前5项查全率达到0.715.

swLLVM: 面向神威新一代超级计算机的优化编译器

沈莉，周文浩，王飞，肖谦，武文浩，张鲁飞，安虹，漆锋滨

2024, 35(5):2359-2378. DOI: 10.13328/j.cnki.jos.006896

摘要 (908) HTML (1267) PDF 11.85 M (2157) 评论 (0) 收藏

摘要:异构众核架构具有超高的能效比, 已成为超级计算机体系结构的重要发展方向. 然而, 异构系统的复杂性给应用开发和优化提出了更高要求, 其在发展过程中面临好用性和可编程性等众多技术挑战. 我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro. 为了发挥新一代众核处理器的性能优势, 支撑新兴科学计算应用的开发和优化, 设计并实现面向SW26010Pro平台的优化编译器swLLVM. 该编译器支持Athread和SDAA双模态异构编程模型, 提供多级存储层次描述及向量操作扩展, 并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化. 测试结果表明, 所设计并实现的编译优化效果显著, 其中, 控制流向量化和节点合并优化的平均加速比分别为1.23和1.11, 而访存相关优化最高可获得2.49倍的性能提升. 最后, 使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估, 相较于SWGCC的相同优化级别, swLLVM整型课题性能平均下降0.12%, 浮点型课题性能平均提升9.04%, 整体性能平均提升5.25%, 编译速度平均提升79.1%, 代码尺寸平均减少1.15%.

随机配置网络研究进展

张成龙，丁世飞，郭丽丽，张健

2024, 35(5):2379-2399. DOI: 10.13328/j.cnki.jos.006804

摘要 (2248) HTML (2171) PDF 7.12 M (5815) 评论 (0) 收藏

摘要:随机配置网络(stochastic configuration network, SCN)是一种新兴的增量式神经网络模型, 与其他随机化神经网络方法不同, 它能够通过监督机制进行隐含层节点参数配置, 保证了模型的快速收敛性能. 因其具有学习效率高、人为干预程度低和泛化能力强等优点, 自2017年提出以来, SCN吸引了大量国内外学者的研究兴趣, 得到了快速的推广和发展. 从SCN的基础理论、典型算法变体、应用领域以及未来研究方向等方面切入, 全面地概述SCN研究进展. 首先, 从理论的角度分析SCN的算法原理、通用逼近性能及其优点; 其次, 重点研究深度SCN、二维SCN、鲁棒SCN、集成SCN、分布式并行SCN、正则化SCN等典型变体; 随后介绍SCN在硬件实现、计算机视觉、医学数据分析、故障检测与诊断、系统建模预测等不同领域的应用进展; 最后指出SCN在卷积神经网络架构、半监督学习、无监督学习、多视图学习、模糊神经网络、循环神经网络等研究方向的发展潜力.

基于奇异值分解的隐式后门攻击方法

吴尚锡，尹雨阳，宋思清，陈观浩，桑基韬，于剑

2024, 35(5):2400-2413. DOI: 10.13328/j.cnki.jos.006949

摘要 (649) HTML (1079) PDF 9.00 M (2940) 评论 (0) 收藏

摘要:深度神经网络训练时可能会受到精心设计的后门攻击的影响. 后门攻击是一种通过在训练集中注入带有后门标志的数据, 从而实现在测试时控制模型输出的攻击方法. 被进攻的模型在干净的测试集上表现正常, 但在识别到后门标志后, 就会被误判为目标进攻类. 当下的后门攻击方式在视觉上的隐蔽性并不够强, 并且在进攻成功率上还有提升空间. 为了解决这些局限性, 提出基于奇异值分解的后门攻击方法. 所提方法有两种实现形式: 第1种方式是将图片的部分奇异值直接置零, 得到的图片有一定的压缩效果, 这可以作为有效的后门触发标志物. 第2种是把进攻目标类的奇异向量信息注入到图片的左右奇异向量中, 也能实现有效的后门进攻. 两种处理得到的后门的图片, 从视觉上来看和原图基本保持一致. 实验表明, 所提方法证明奇异值分解可以有效地利用在后门攻击算法中, 并且能在多个数据集上以非常高的成功率进攻神经网络.

面向小样本学习的轻量化知识蒸馏

陈嘉言，任东东，李文斌，霍静，高阳

2024, 35(5):2414-2429. DOI: 10.13328/j.cnki.jos.006958

摘要 (1090) HTML (1349) PDF 7.75 M (3264) 评论 (0) 收藏

摘要:小样本学习旨在模拟人类基于少数样例快速学习新事物的能力, 对解决样本匮乏情境下的深度学习任务具有重要意义. 但是, 在诸多计算资源有限的现实任务中, 模型规模仍可能限制小样本学习的广泛应用. 这对面向小样本学习的轻量化任务提出了现实的需求. 知识蒸馏作为深度学习领域广泛使用的辅助策略, 通过额外的监督信息实现模型间知识迁移, 在提升模型精度和压缩模型规模方面都有实际应用. 首先验证知识蒸馏策略在小样本学习模型轻量化中的有效性. 并结合小样本学习任务的特点, 针对性地设计两种新的小样本蒸馏方法: (1)基于图像局部特征的蒸馏方法; (2)基于辅助分类器的蒸馏方法. 在miniImageNet和TieredImageNet数据集上的相关实验证明所设计的新的蒸馏方法相较于传统知识蒸馏在小样本学习任务上具有显著优越性.

KENN: 线性结构熵的图核神经网络

徐立祥，许巍，陈恩红，罗斌，唐远炎

2024, 35(5):2430-2445. DOI: 10.13328/j.cnki.jos.007039

摘要 (705) HTML (1521) PDF 4.18 M (2499) 评论 (0) 收藏

摘要:图神经网络(graph neural network, GNN)是一种利用深度学习直接对图结构数据进行表征的框架, 近年来受到人们越来越多的关注. 然而传统的基于消息传递聚合的图神经网络(messaging passing GNN, MP-GNN)忽略了不同节点的平滑速度, 无差别地聚合了邻居信息, 易造成过平滑现象. 为此, 研究并提出一种线性结构熵的图核神经网络分类方法, 即KENN. 它首先利用图核方法对节点子图进行结构编码, 判断子图之间的同构性, 进而利用同构系数来定义不同邻居间的平滑系数. 其次基于低复杂度的线性结构熵提取图的结构信息, 加深和丰富图数据的结构表达能力. 通过将线性结构熵、图核和图神经网络三者进行深度融合提出了图核神经网络分类方法. 它不仅可以解决生物分子数据节点特征的稀疏问题, 也可以解决社交网络数据以节点度作为特征所产生的信息冗余问题, 同时还使得图神经网络能够自适应调整对图结构特征的表征能力, 使其超越MP-GNN的上界(WL测试). 最后, 在7个公开的图分类数据集上实验验证了所提出模型的性能优于其他的基准模型.

基于两阶段学习的多行为推荐

严明时，程志勇，孙静，王法胜，孙福明

2024, 35(5):2446-2465. DOI: 10.13328/j.cnki.jos.006897

摘要 (700) HTML (1312) PDF 10.05 M (1934) 评论 (0) 收藏

摘要:多行为推荐系统旨在利用用户多种行为的交互数据来提升系统的推荐性能. 现有的多行为推荐方法通常将多行为数据直接作用于共享的初始化用户表征上, 并在任务中糅合了对用户偏好的挖掘和对不同行为间联系的建模. 然而, 这些算法忽视了不同交互行为中存在的数据不平衡问题(不同行为交互数据量差别较大)以及适配上述两种任务而引起的信息损失问题. 事实上, 用户偏好是指用户在不同行为中表现出来的喜好(例如, 浏览的喜好), 而各行为间的联系表现为用户偏好在不同行为间潜在的转化关系(例如, 浏览转换为购买). 在多行为推荐中, 对用户偏好的挖掘和对行为间联系的建模可以看作两个阶段的任务. 基于上述讨论, 提出基于两阶段学习的多行为推荐. 两阶段策略设计的优势是解耦了前述两种任务. 两阶段策略采取固定参数交替训练的方式实现, 并同时保留了模型端到端的结构. 1)第1阶段专注于不同行为下的用户偏好建模: 先利用所有交互数据(不区分行为类别)对用户的全局喜好进行建模, 以最大程度缓解数据稀疏性问题, 再分别利用各行为的交互数据细化该特定行为下的用户偏好(局部偏好), 以减轻不同行为之间的数据不平衡问题造成的影响. 2)第2阶段专注于对不同行为间联系的建模, 通过解耦对用户偏好的挖掘和对不同行为间联系的建模, 以缓解因适配两种任务而引起的信息损失问题. 这种两阶段模式能够显著提升系统对目标行为的预测能力. 大量实验结果表明, 所提模型在性能上远优于最先进的基线模型, 在Tmall和Beibei两个真实基准数据集上的性能提升平均可以达到103.01%和33.87%.

面向知识结构分析的模糊概念格模型

智慧来，李金海

2024, 35(5):2466-2484. DOI: 10.13328/j.cnki.jos.006899

摘要 (620) HTML (940) PDF 3.52 M (1751) 评论 (0) 收藏

摘要:知识空间理论使用数学语言对学习者进行知识评价与学习指导, 属于数学心理学的研究范畴. 技能与问题是构成知识空间的两个基本要素, 深入研究两者之间的关系是知识状态刻画与知识结构分析的内在要求. 在当前的知识空间理论研究中, 没有明确建立技能与问题之间的双向映射, 从而难以提出直观概念意义下的知识结构分析模型, 也没有明确建立知识状态之间的偏序关系, 不利于刻画知识状态之间的差异, 更不利于规划学习者未来的学习路径. 此外, 现有的成果主要集中在经典的知识空间, 没有考虑实际问题中数据的不确定性. 为此, 将形式概念分析与模糊集引入知识空间理论, 建立面向知识结构分析的模糊概念格模型. 具体地, 分别建立知识空间与闭包空间的模糊概念格模型. 首先, 建立知识空间模糊概念格, 并通过任意两个概念的上确界证明所有概念的外延构成知识空间. 引入粒描述的思想定义技能诱导的问题原子粒, 由问题原子粒的组合判定一个问题组合是否是知识空间中的一个状态, 进而提出由问题组合获取知识空间模糊概念的方法. 其次, 建立闭包空间模糊概念格, 并通过任意两个概念的下确界证明所有概念的外延构成闭包空间. 类似地, 定义问题诱导的技能原子粒, 由技能原子粒的组合判定一个技能组合是否是闭包空间中某一知识状态所需的技能, 进而提出由技能组合获取闭包空间模糊概念的方法. 最后, 通过实验分析问题数量、技能数量、填充因子以及分析尺度对知识空间与闭包空间规模的影响. 结论表明知识空间模糊概念不同于现有的任何概念, 也不能从其他概念派生而来. 闭包空间模糊概念本质上是一种面向属性单边模糊概念. 在二值技能形式背景中, 知识空间与闭包空间中的状态具有一一对应关系, 但这种关系在模糊技能形式背景中并不成立.

带有预验证机制的区块链动态共识算法

侯凯祥，邱铁，徐天一，周晓波，池建成

2024, 35(5):2485-2502. DOI: 10.13328/j.cnki.jos.006892

摘要 (1069) HTML (984) PDF 3.93 M (2198) 评论 (0) 收藏

摘要:委员会共识和混合共识通过选举委员会来代替全网节点完成区块验证, 可有效加快共识速度, 提高吞吐量, 但恶意攻击和收买易导致委员会发生腐败问题, 严重时将影响共识结果甚至造成系统瘫痪. 现有工作虽引入信誉机制降低委员会节点腐败的可能性, 但开销大、可信度低且无法降低腐败问题对系统的影响. 提出一种带有预验证机制的区块链动态共识算法(DBCP), 通过预验证机制在较小开销的前提下对委员会进行可靠的信誉评估, 及时淘汰委员会中的恶意节点. 若腐败问题已影响到共识结果, DBCP会通过动态共识将区块验证权转移到全网节点, 并淘汰给出错误意见的委员会节点, 避免系统瘫痪. 若委员会通过迭代达到高可信状态, 则DBCP会将区块验证权交由委员会, 全网节点将认同委员会的共识结果, 并不再对区块进行验证, 进而加快共识速度. 经实验验证, DBCP的吞吐量与比特币相比提升了两个数量级, 且与Byzcoin相近, 可在一个出块周期内快速应对委员会腐败问题, 安全性优于Byzcoin.

轻量级链式验证的网络传输层安全性增强方法

冯学伟，徐恪，李琦，杨宇翔，朱敏，付松涛

2024, 35(5):2503-2521. DOI: 10.13328/j.cnki.jos.006941

摘要 (568) HTML (1048) PDF 3.48 M (1777) 评论 (0) 收藏

摘要:传输层是网络协议栈的关键组成部分, 负责为不同主机间的应用程序提供端到端的服务. 已有的传输层协议如TCP等为用户提供了基本的差错控制和确认应答等安全保护机制, 在一定程度上保证了不同主机间应用程序收发报文的一致性. 但现有的传输层安全保护机制存在严重的缺陷, 如TCP报文的序列号容易被猜测推理, 报文校验和的计算依赖于有漏洞的补码求和算法等. 这导致现有的传输层安全机制并不能保证报文的完整性和安全性, 从而允许一个远程的攻击者伪造出一个报文, 注入到目标网络流中, 对目标网络流形成污染或攻击. 针对传输层的攻击发生在网络协议栈的基础层次, 可以旁路掉上层应用的安全保护机制, 对网络基础设施造成严重的危害. 深入研究近年来针对网络协议栈的各种攻击和相关安全漏洞, 提出一种基于轻量级链式验证的传输层安全性增强方法LightCTL. 所提方法基于哈希验证的方式, 使TCP连接双方能够对传输层报文形成彼此可验证的共识, 避免攻击者或中间人窃取和伪造敏感信息, 从而解决网络协议栈面临的典型安全威胁, 包括基于序列号推理的TCP连接重置攻击、TCP劫持攻击、SYN洪泛攻击、中间人攻击、报文重放攻击等. LightCTL不需要修改中间网络设备如路由器等的协议栈, 只需对终端协议栈中的校验和相关部分进行修改, 因此方法易于部署, 同时显著提升了网络系统的安全性.

IPv6中一种基于卷积的DDoS攻击两阶段防御机制

王郁夫，王兴伟，易波，黄敏

2024, 35(5):2522-2542. DOI: 10.13328/j.cnki.jos.006988

摘要 (446) HTML (1050) PDF 8.98 M (2060) 评论 (0) 收藏

摘要:针对IPv6快速普及背景下分布式拒绝服务(DDoS)攻击威胁不断增长的现状, 提出一种两阶段的DDoS攻击防御机制, 包括初期实时监控DDoS攻击发生的预检测阶段, 以及告警后精准过滤DDoS攻击流量的深度检测阶段. 首先, 分析IPv6报文格式并解析PCAP流量捕获文件中的16进制头部字段作为样本元素. 其次, 在预检测阶段, 引入轻量化二值卷积神经网络(BCNN), 设计一种二维流量矩阵作为模型输入, 整体感知网络在混杂DDoS流量后出现的恶意态势作为告警DDoS发生的证据. 告警后, 深度检测阶段介入, 引入一维卷积神经网络(1DCNN)具体区分混杂的DDoS报文, 从而下发阻断策略. 在实验中, 自建IPv6-LAN拓扑并基于NAT 4to6技术重放CIC-DDoS2019公开集生成纯IPv6-DDoS流量源测试. 结果证明, 所提机制提升针对DDoS攻击的响应速度、准确度和攻击流量过滤效率, 当DDoS流量出现仅占总网络6%和10%时, BCNN就能以90.9%和96.4%的准确度感知到DDoS攻击的发生, 同时1DCNN能够以99.4%准确率区分DDoS报文并过滤.

基于龙格库塔法的对抗攻击方法

万晨，黄方军

2024, 35(5):2543-2565. DOI: 10.13328/j.cnki.jos.006893

摘要 (546) HTML (1056) PDF 5.32 M (1911) 评论 (0) 收藏

摘要:深度神经网络在许多领域中取得了显著的成果, 但相关研究结果表明, 深度神经网络很容易受到对抗样本的影响. 基于梯度的攻击是一种流行的对抗攻击, 引起了人们的广泛关注. 研究基于梯度的对抗攻击与常微分方程数值解法之间的关系, 并提出一种新的基于常微分方程数值解法-龙格库塔法的对抗攻击方法. 根据龙格库塔法中的预测思想, 首先在原始样本中添加扰动构建预测样本, 然后将损失函数对于原始输入样本和预测样本的梯度信息进行线性组合, 以确定生成对抗样本中需要添加的扰动. 不同于已有的方法, 所提出的方法借助于龙格库塔法中的预测思想来获取未来的梯度信息(即损失函数对于预测样本的梯度), 并将其用于确定所要添加的对抗扰动. 该对抗攻击具有良好的可扩展性, 可以非常容易地集成到现有的所有基于梯度的攻击方法. 大量的实验结果表明, 相比于现有的先进方法, 所提出的方法可以达到更高的攻击成功率和更好的迁移性.

支持批量证明的SM2适配器签名及其分布式扩展

涂彬彬，陈宇

2024, 35(5):2566-2582. DOI: 10.13328/j.cnki.jos.006912

摘要 (1098) HTML (1167) PDF 5.59 M (2576) 评论 (0) 收藏

摘要:适配器签名, 又称无脚本脚本, 是解决区块链应用(如密码货币)中扩展性差、吞吐量低等问题的重要密码技术. 适配器签名可看作数字签名关于困难关系的扩展, 同时具有签名授权和证据提取两种功能, 在区块链应用中具有以下优点: (1) 降低链上成本; (2) 提高交易的可替代性; (3) 突破区块链脚本语言限制. SM2签名是我国自主设计的国家标准签名算法, 在各种重要信息系统中有着广泛应用. 基于SM2签名构造出高效的适配器签名方案, 并在随机谕言机模型下给出安全性证明. 所提方案结合SM2签名结构, 可避免在预签名阶段生成额外的零知识证明, 与现有ECDSA/SM2适配器签名相比更加高效, 其中, 预签名生成效率提升4倍, 预签名验证效率提升3倍. 随后, 基于SM2协同签名, 构造分布式SM2适配器签名, 可避免单点故障问题, 提升签名私钥安全. 最后, 在实际应用方面, 基于SM2适配器签名构造适用于一对多场景下安全高效的批量原子交换协议.

微信服务号

微信订阅号

>专刊文章

>综述文章

>综述文章

当期目录

年份

刊期