2023年第3期文章目次

大数据治理的理论与技术专题前言

杜小勇，杨晓春，童咏昕

2023, 34(3):1007-1009. DOI: 10.13328/j.cnki.jos.006796

摘要 (1062) HTML (1000) PDF 548.44 K (2028) 评论 (0) 收藏

摘要:

面向列语义识别的共现属性交互模型构建与优化

高珊，袁宛竹，卢卫，王兰，张静，杜小勇

2023, 34(3):1010-1026. DOI: 10.13328/j.cnki.jos.006787

摘要 (1112) HTML (1604) PDF 2.22 M (2140) 评论 (0) 收藏

摘要:政务数据治理正在经历从“物理数据汇聚”到“逻辑语义汇通”的新阶段.逻辑语义汇通是指针对各孤岛政务系统因长期“自治”而形成的元数据缺失、元数据同名不同义以及同义不同名等问题，在不重建或修改原系统代码以及不物理汇聚各政务数据的前提下，通过技术手段，统一各孤岛信息系统元数据的语义表达，实现元数据的语义互联互通.该工作是将各孤岛信息系统的元数据语义对齐到已有的标准元数据上，具体地，将标准元数据名称看作语义标签，对孤岛关系数据的列投影进行语义识别，从而建立列名和标准元数据的语义对齐，实现孤岛元数据标准化治理.已有基于列投影的语义识别技术无法捕捉到关系数据的列顺序无关性特征以及属性语义标签之间的相关性特征，针对这一问题，提出了基于预测阶段和纠错阶段的两阶段模型：在预测阶段，提出了共现属性交互的CAI模型（co-occurrence-attribute-interaction model），利用并行化的自注意力机制保证列顺序无关的共现属性交互；在纠错阶段，结合语义标签之间的共现性，通过引入纠错机制（correction mechanism），优化CAI模型预测结果.在政务基准数据和Magellan等多组公开英文数据集上进行了实验，结果表明，引入纠错机制的两阶段模型，在宏平均和加权平均两个指标上，比已有最优模型最多可分别提高20.03%，13.36%.

面向聚合查询的Apache IoTDB物理元数据管理

赵东明，邱圆辉，康瑞，宋韶旭，黄向东，王建民

2023, 34(3):1027-1048. DOI: 10.13328/j.cnki.jos.006789

摘要 (1032) HTML (1494) PDF 3.12 M (2035) 评论 (0) 收藏

摘要:时间序列数据在能源、制造、金融、气候等领域有着广泛应用，聚合查询是相关分析场景中常见的查询需求，快速获取海量数据的概要信息，对于提高数据分析工作的效率具有重要意义.通过存储元数据加速聚合查询是一种有效的提升聚合查询执行效率的手段，但现有的时间序列数据库都使用时间窗口切分数据，需要对数据进行实时排序和分区，难以适应物联网场景下高并发、大吞吐量的数据写入特点.因此，提出了一种面向聚合查询的Apache IoTDB物理元数据管理方案.该方案按照数据文件的物理存储特性切分数据，并结合同步计算和异步计算策略，优先保证数据的写入性能.针对时间序列数据中普遍存在的乱序数据，将时间范围重叠的一组文件抽象为乱序文件组并提供元数据，聚合查询会被重写为3个结合物理元数据和原始数据的子查询高效执行.多个数据集上的实验验证了该方案对聚合查询执行效率的提升效果以及不同计算策略对性能的影响.

基于多视角的多类型错误全面检测方法

彭锦峰，申德荣，寇月，聂铁铮

2023, 34(3):1049-1064. DOI: 10.13328/j.cnki.jos.006791

摘要 (913) HTML (1260) PDF 1.77 M (1788) 评论 (0) 收藏

摘要:随着信息化社会的发展，数据的规模越发庞大，数据的种类也越发丰富.时至今日，数据已经成为国家和企业的重要战略资源，是科学化管理的重要保障.然而，随着社会生活产生的数据日益丰富，大量的脏数据也随之而来，数据质量问题油然而生.如何准确而全面地检测出数据集中所包含的错误数据，一直是数据科学中的痛点问题.尽管已有许多传统方法被广泛用于各行各业，如基于约束与统计的检测方法，但这些方法通常需要丰富的先验知识与昂贵的人力和时间成本.受限于此，这些方法往往难以准确而全面地检测数据.近年来，许多新型错误检测方法利用深度学习技术，通过时序推断、文本解析等方式取得了更好检测效果，但它们通常只适用于特定的领域或特定的错误类型，面对现实生活中的复杂情况，泛用性不足.基于上述情况，结合传统方法与深度学习技术的优点，提出了一个基于多视角的多类型错误全面检测模型CEDM.首先，从模式的角度，结合现有约束条件，在属性、单元和元组层面进行多维度的统计分析，构建出基础检测规则；然后，通过词嵌入捕获数据语义，从语义的角度分析属性相关性、单元关联性与元组相似性，进而基于语义关系，从多个维度上更新、扩展基础规则；最终，联合多个视角对多种类型的错误进行全面检测.在多个真实数据集与合成数据集上进行了实验，结果表明，该方法优于现有的错误检测方法，并且能够适用于多种错误类型与多种领域，具有更高的泛用性.

兼顾行列的时序数据质量规则发现

丁小欧，李映泽，王晨，王宏志，李昊轩

2023, 34(3):1065-1086. DOI: 10.13328/j.cnki.jos.006793

摘要 (898) HTML (1478) PDF 3.06 M (2192) 评论 (0) 收藏

摘要:智能装置设备产生的时序数据增长迅速，存在严重的数据质量问题.劣质时序数据质量管理和数据质量提升技术需求日益迫切.时序数据的有序时窗、行列关联等特点，为时序数据质量语义表达提出了挑战.提出了一种同时考虑时序数据在行与列上的数据依赖信息的数据质量规则，即时序否定约束TDC.研究了TDC的定义与构建方法，从时窗与多阶表达式运算这两个方面，对已有的数据质量规则体系进行表达力的扩展，并提出针对兼顾行列的时序数据质量规则挖掘方法.在真实时序数据集上开展大量实验，实验结果验证了该方法能够有效且高效地挖掘时序数据中隐藏的数据质量规则.对比实验的结果表明，该方法能够有效地对行与列上的关联信息进行谓词构造；在质量规则挖掘效果上优于单纯的行上约束挖掘方法以及单纯的列上约束挖掘方法.

预训练语言模型实体匹配的可解释性

梁峥，王宏志，戴加佳，邵心玥，丁小欧，穆添愉

2023, 34(3):1087-1108. DOI: 10.13328/j.cnki.jos.006794

摘要 (1152) HTML (1930) PDF 3.33 M (2364) 评论 (0) 收藏

摘要:实体匹配可以判断两个数据集中的记录是否指向同一现实世界实体，对于大数据集成、社交网络分析、网络语义数据管理等任务不可或缺.作为在自然语言处理、计算机视觉中取得大量成功的深度学习技术，预训练语言模型在实体识别任务上也取得了优于传统方法的效果，引起了大量研究人员的关注.然而，基于预训练语言模型的实体匹配技术效果不稳定、匹配结果不可解释，给这一技术在大数据集成中的应用带来了很大的不确定性.同时，现有的实体匹配模型解释方法主要面向机器学习方法进行模型无关的解释，在预训练语言模型上的适用性存在缺陷.因此，以Ditto、JointBERT等BERT类实体匹配模型为例，提出3种面向预训练语言模型实体匹配技术的模型解释方法来解决这个问题：（1）针对序列化操作中关系数据属性序的敏感性，对于错分样本，利用数据集元特征和属性相似度实现属性序反事实生成；（2）作为传统属性重要性衡量的补充，通过预训练语言模型注意力机制权重来衡量并可视化模型处理数据时的关联性；（3）基于序列化后的句子向量，使用k近邻搜索技术召回与错分样本相似的可解释性优良的样本，增强低置信度的预训练语言模型预测结果.在真实公开数据集上的实验结果表明，通过增强方法提升了模型效果，同时，在属性序搜索空间中能够达到保真度上限的68.8%，为针对预训练语言实体匹配模型的决策解释提供了属性序反事实、属性关联理解等新角度.

面向数据联邦的安全多方θ-连接算法

张媛媛，李书缘，史烨轩，周南，徐毅，许可

2023, 34(3):1109-1125. DOI: 10.13328/j.cnki.jos.006795

摘要 (914) HTML (1511) PDF 2.15 M (2180) 评论 (0) 收藏

摘要:近年来，多个国家地区出台了一系列数据安全相关的法律，例如欧盟的《通用数据保护条例》等.这些相关法律法规的出台，加剧了各企业机构等多方之间数据共享难的数据孤岛问题.数据联邦（data federation）正是解决该问题的可能出路.数据联邦是指多个数据拥有方在不泄露各自原始数据的前提下，结合安全多方计算等隐私计算技术，联合完成查询任务的计算.这一概念已成为近年来的研究热点，并涌现出一系列相关的代表性系统工作，如SMCQL、Conclave.然而，针对关系数据库系统中核心的连接查询，现有数据联邦系统还存在如下问题：首先，连接种类单一，难以满足复杂连接条件下的查询需求；其次，算法性能低下，由于现有系统往往直接调用安全工具库，其运行时间与通信开销高昂.因此，针对以上问题进行研究，提出了数据联邦下连接算法.主要贡献如下：首先，设计实现了面向多方的联邦安全算子，能够支持多种运算；其次，提出了支持q-连接的联邦连接算法与优化策略，显著减少了连接查询所需安全计算代价；最后，基于基准数据集TPC-H，验证了该算法的性能.实验结果表明，与现有数据联邦系统SMCQL、Conclave相比，该算法能够将运行时间和通信开销分别降低61.33%和95.26%.

基于联邦学习的跨源数据错误检测方法

陈璐，郭宇翔，葛丛丛，郑白桦，高云君

2023, 34(3):1126-1147. DOI: 10.13328/j.cnki.jos.006781

摘要 (1238) HTML (1747) PDF 2.58 M (2277) 评论 (0) 收藏

摘要:随着海量数据的涌现和不断积累，数据治理成为提高数据质量、最大化数据价值的重要手段.其中，数据错误检测是提高数据质量的关键步骤，近年来引起了学术界及工业界的广泛关注.目前，绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中，数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题，跨源数据往往不允许集中共享.鉴于此，提出了一种基于联邦学习的跨源数据错误检测方法FeLeDetect，以在数据隐私保证的前提下，利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征，首先提出一种基于图的错误检测模型GEDM，并在此基础上设计了一种联邦协同训练算法FCTA，以支持在各方数据不出本地的前提下，利用跨源数据协同训练GEDM.此外，为了降低联邦训练的通信开销和人工标注成本，还提出了一系列优化方法.最后，在3个真实数据集上进行了大量的实验.实验结果表明：（1）相较于5种现有最先进的错误检测方法，GEDM在本地场景和集中场景下，错误检测结果的F1分数平均提高了10.3%和25.2%；（2） FeLeDetect错误检测结果的F1分数较本地场景下GEDM的结果平均提升了23.2%.

基于贡献度证明共识机制的去中心化联邦学习框架

乔少杰，林羽丰，韩楠，杨国平，李贺，袁冠，毛睿，元昌安，Louis Alberto GUTIERREZ

2023, 34(3):1148-1167. DOI: 10.13328/j.cnki.jos.006784

摘要 (1631) HTML (1779) PDF 2.77 M (2315) 评论 (0) 收藏

摘要:在大数据背景下，保证数据可信共享是数据联邦的基本要求.区块链技术代替传统的主从架构，可以提高联邦学习（federated learning，FL）的安全性.然而，现有工作中，模型参数验证与数据持久化所产生的巨大通信成本和存储消耗，已经成为数据联邦中亟待解决的问题.针对上述问题，设计了一种高效的去中心化联邦学习框架（efficient decentralized federated learning framework，EDFL），能够降低存储开销，并显著提升FL的学习效率.首先，提出了一种基于贡献度证明（proof-of-contribution）的共识机制，使得区块生成者的选举基于历史贡献度而不采用竞争机制，从而有效发避免了挖矿过程产生的区块生成延迟，并以异步方式缓解模型参数验证中的阻塞问题；其次，提出了一种角色自适应激励算法，因为该算法基于节点的工作强度和EDFL所分配的角色，所以能够激励合法节点更积极地进行模型训练，并有效地识别出恶意节点；再者，提出一种区块链分区存储策略，使得多重局部修复编码块（local reconstruction code）可被均匀地分布到网络的各个节点上，进而降低节点的本地存储代价，并实现了较高的数据恢复效率；最后，在真实的FEMNIST数据集上，对EDFL的学习效率、存储可扩展性和安全性进行了评估.实验结果表明，EDFL在以上3个方面均优于主流的基于区块链的FL框架.

联邦学习贡献评估综述

王勇，李国良，李开宇

2023, 34(3):1168-1192. DOI: 10.13328/j.cnki.jos.006786

摘要 (3066) HTML (4178) PDF 2.68 M (4185) 评论 (0) 收藏

摘要:数据不动的联邦学习框架是多个数据持有方合作训练机器学习模型的新范式.多个数据持有方参与联邦学习时的贡献评估是联邦学习的核心问题之一.参与方贡献评估需要兼顾有效性、公平性和合理性等要素，在理论方法与实际应用中均面临多项挑战.贡献评估首先需要明确如何度量数据价值，然而数据估值存在主观性与依赖于实际任务场景的特点，如何设计有效、可靠并对恶意数据鲁棒的数据估值指标是第一大挑战.其次，联邦学习合作中的参与方贡献评估是经典的合作博弈问题，如何制定公平合理的参与方贡献评估方案，实现参与方一致认可的博弈平衡是第二大挑战.最后，参与方贡献评估往往计算复杂度高，同时，联邦学习中围绕模型的数据估值时间开销大，因此，在实践中如何设计高效且准确的近似算法是第三大挑战.近年来，为了有效地解决上述挑战，学术界对联邦学习中的贡献评估问题展开了广泛的研究.首先，简要介绍联邦学习与参与方贡献评估的背景知识；然后，综述数据估值指标、参与方贡献评估方案和相关优化技术；最后，讨论了联邦学习贡献评估仍面临的挑战并展望未来研究的发展方向.

跳跃滤波:一种面向大数据治理的动态数据摘要设计

符鹏涛，罗来龙，郭得科，赵翔，李尚森，王怀民

2023, 34(3):1193-1212. DOI: 10.13328/j.cnki.jos.006782

摘要 (991) HTML (1437) PDF 2.46 M (2210) 评论 (0) 收藏

摘要:随着信息技术的迅速发展，数据体量维持指数增长，数据价值挖掘困难，这为数据采集、清洗、存储、共享等数据生命周期中各环节的高效管控带来极大的挑战.数据摘要技术利用哈希表/矩阵/位向量对数据的频数、基数、成员关系等核心基础特性进行追踪，使得数据摘要自身成为元数据，并在共享、传输、更新等场景得到广泛应用.大数据的快速流转特性更是催生了动态数据摘要技术.现有的动态数据摘要技术通过动态维护链状或树状结构的概率数据结构列表，具有其容量随数据流大小而扩增或缩减的优势，然而也存在空间开销过大以及时间开销随数据基数增加而增长的缺陷.基于先进的跳跃一致性哈希理论，设计了一种面向大数据治理的动态数据摘要技术.该方法可以同时实现随数据基数线性增长的空间开销以及数据处理分析常数级别的时间开销，能够有效地支撑要求苛刻的多种大数据处理分析任务.在多种合成和真实数据集上，通过与传统方法实验对比，验证了所提方法的有效性和高效性.

面向开放大数据环境的动态数据保护系统

屠要峰，牛家浩，王德政，高洪，徐进，洪科，阳方

2023, 34(3):1213-1235. DOI: 10.13328/j.cnki.jos.006783

摘要 (990) HTML (1527) PDF 2.81 M (1856) 评论 (0) 收藏

摘要:大数据成为国家基础性战略资源，数据的开放共享是我国大数据战略的核心.云原生技术和湖仓一体架构正在重构大数据基础设施，并推动数据共享和价值传播.大数据产业和技术的发展都需要更强的数据安全和数据共享能力.然而，开放环境下数据的安全问题已成为制约大数据技术发展与利用的瓶颈.无论开源大数据生态还是商业大数据系统，所引发的数据安全及隐私保护问题都日益凸显.开放大数据环境下的动态数据保护系统面临着数据可用性、处理高效性和系统可扩展性等方面的挑战.提出了面向开放大数据环境的动态数据保护系统BDMasker，通过一种基于查询依赖模型（query dependency model）的精准查询分析及查询改写技术，能够精准感知但不改变原始业务请求，实现动态脱敏全过程对业务零影响；通过面向多引擎的统一安全策略框架，实现了动态数据保护能力的纵向扩展和在多种计算引擎中的横向扩展；利用大数据执行引擎的分布式计算能力，提升系统的数据保护处理性能.实验结果表明，BDMasker提出的精准SQL分析及改写技术是有效的，系统具有良好的扩展能力和性能表现，在TPC-DS和YCSB基准测试中，整体性能波动在3%之内.

面向大数据分析的分布式矩阵计算系统研究进展

陈梓浩，徐辰，钱卫宁，周傲英

2023, 34(3):1236-1258. DOI: 10.13328/j.cnki.jos.006785

摘要 (1110) HTML (2097) PDF 2.58 M (2265) 评论 (0) 收藏

摘要:在大数据治理应用中，数据分析是必不可少的一环，且具有耗时长、计算资源需求大的特点，因此，优化其执行效率至关重要.早期由于数据规模不大，数据分析师可以利用传统的矩阵计算工具执行分析算法，然而随着数据量的爆炸式增长，诸如MATLAB等传统工具已无法满足应用需求的执行效率，进而涌现出了一批面向大数据分析的分布式矩阵计算系统.从技术、系统等角度综述了分布式矩阵计算系统的研究进展.首先，从发展成熟的数据管理领域的视角出发，剖析分布式矩阵计算系统在编程接口、编译优化、执行引擎、数据存储这4个层面面临的挑战；其次，分别就这4个层面展开，探讨、总结相关技术；最后，总体分析了典型的分布式矩阵计算系统，并展望了未来研究的发展方向.

基于多粒度注意力网络的知识超图链接预测

庞俊，刘小琪，谷峪，王鑫，赵宇海，张晓龙，于戈

2023, 34(3):1259-1276. DOI: 10.13328/j.cnki.jos.006788

摘要 (1443) HTML (1637) PDF 2.04 M (2244) 评论 (0) 收藏

摘要:在知识图谱中进行链接预测是图谱补全的有效方法，可以有效地改善知识图谱的数据质量.然而，现实生活中的关系往往是多元的，这些包含多元关系的知识图谱可称为知识超图（knowledge hypergraph，KHG）.然而，现有的知识超图链接预测模型忽略了多元关系的平等性（多元关系中实体不存在先后关系）与整体性（多元关系缺少一个实体则不成立）.针对以上问题，首先提出了一种知识超图多元关系表示模型，可以直接建模知识超图中的多元关系；然后研究了一种基于多粒度神经网络的链接预测方法（hyperedge prediction based on multi-granular attention network，HPMG）.该模型将关系划分为多重粒度进行学习，从不同粒度联合完成知识超图的学习和预测，充分考虑了知识超图中不同维度多元关系的整体性.接下来，针对HPMG特征融合不充分的问题，提出了基于多粒度注意力网络的知识超图链接预测方法HPMG⁺，结合全局和局部注意力，实现了不同特征的有区分融合，进一步提高了模型的性能.最后，真实数据集上的大量实验结果验证了所提方法的效果显著地优于所有基线方法.

属性公平的异质信息网络上的社区搜索算法

乔连鹏，侯会文，王国仁

2023, 34(3):1277-1291. DOI: 10.13328/j.cnki.jos.006792

摘要 (737) HTML (1310) PDF 1.67 M (1803) 评论 (0) 收藏

摘要:近年来，异质信息网络上的社区搜索问题已经吸引了越来越多的关注，而且被广泛应用在图数据分析工作中.但是现有异质信息网络上的社区搜索问题都没有考虑子图上属性的公平性.将属性的公平性与异质信息网络上的kPcore挖掘问题相结合，提出了基于属性公平的异质信息网络上的极大core挖掘问题.针对该问题，首先提出了一个子图模型FkPcore.当对FkPcore进行枚举时，基础算法Basic-FkPcore遍历了所有路径实例，并枚举了大量kPcore及其子图.为了提高算法效率，提出了Adv-FkPcore算法，以避免在枚举FkPcore时对所有的kPcore及其子图进行判断.另外，为了提高点的P_neighbor的获取效率，提出了结合点标记的遍历方法（traversal method with vertex sign，TMS），并基于TMS算法提出了FkPcore枚举算法Opt-FkPcore.在异质信息网络数据集上进行的大量实验证明了所提方法的有效性和效率.

基于宽容训练和隐私保护的快速监控视频检索模型

覃浩，王平辉，张若非，覃遵颖

2023, 34(3):1292-1309. DOI: 10.13328/j.cnki.jos.006790

摘要 (894) HTML (1327) PDF 2.24 M (1748) 评论 (0) 收藏

摘要:监控视频关键帧检索和属性查找在交通、安防、教育等领域具有众多应用场景，应用深度学习模型处理海量视频数据在一定程度上缓解了人力消耗，但是存在隐私泄露、计算资源消耗大、时间长等特点.基于上述场景，提出了一个面向大规模监控视频的安全、快速的视频检索模型.具体地，根据云端算力大、监控摄像头算力规模小的特点，在云端部署重量级模型，并使用所提出的宽容训练策略对其进行定制化知识蒸馏，将蒸馏后的轻量级模型部署在监控摄像头内，同时使用局部加密算法对图像敏感部分进行加密，结合云端TEE技术和用户授权机制，在极低资源消耗的情况下实现隐私保护.通过合理控制蒸馏策略的“容忍度”，能够较好地平衡摄像头视频输入阶段和云端检索阶段的耗时，在保证极高准确率的前提下，保证极低的检索时延.相比于传统检索方法，该模型具有安全高效、可伸缩、低延时的特点.实验结果显示，在多个公开数据集上，该模型相比于传统检索方法提供9x-133x的加速.

基于双重信息检索的Bash代码注释生成方法

陈翔，于池，杨光，濮雪莲，崔展齐

2023, 34(3):1310-1329. DOI: 10.13328/j.cnki.jos.006690

摘要 (405) HTML (748) PDF 2.25 M (965) 评论 (0) 收藏

摘要:Bash是Linux默认的shell命令语言.它在Linux系统的开发和维护中起到重要作用.对不熟悉Bash语言的开发人员来说，理解Bash代码的目的和功能具有一定的挑战性.针对Bash代码注释自动生成问题提出了一种基于双重信息检索的方法ExplainBash.该方法基于语义相似度和词法相似度进行双重检索，从而生成高质量代码注释.其中，语义相似度基于CodeBERT和BERT-whitening操作训练出代码语义表示，并基于欧式距离来实现；词法相似度基于代码词元构成的集合，并基于编辑距离来实现.以NL2Bash研究中共享的语料库为基础，进一步合并NLC2CMD竞赛共享的数据以构造高质量语料库.随后，选择了来自代码注释自动生成领域的9种基准方法，这些基准方法覆盖了基于信息检索的方法和基于深度学习的方法.实证研究和人本研究的结果验证了ExplainBash方法的有效性.然后设计了消融实验，对ExplainBash方法内设定（例如检索策略、BERT-whitening操作等）的合理性进行了分析.最后，基于所提方法开发出一个浏览器插件，以方便用户对Bash代码的理解.

开源软件供应链安全研究综述

纪守领，王琴应，陈安莹，赵彬彬，叶童，张旭鸿，吴敬征，李昀，尹建伟，武延军

2023, 34(3):1330-1364. DOI: 10.13328/j.cnki.jos.006717

摘要 (3032) HTML (2154) PDF 3.90 M (4054) 评论 (0) 收藏

摘要:随着近年来开源软件的蓬勃发展，现代化软件的开发和供应模式极大地促进了开源软件自身的快速迭代和演进，也提高了社会效益.新兴的开源协作的软件开发模式，使得软件开发供应流程由较为单一的线条转变为复杂的网络形态.在盘根错节的开源软件供应关系中，总体安全风险趋势显著上升，日益受到学术界和产业界的重视.针对开源软件供应链，厘清了其关键环节，基于近10年的攻击事件，归纳了开源软件供应链的威胁模型和安全趋势，并通过对现有安全研究成果的调研分析，从风险识别和加固防御这两个方面总结了开源软件供应链安全的研究现状，最后对开源软件供应链安全所面临的挑战和未来研究方向进行了展望和总结.

深度知识追踪模型综述和性能比较

王宇，朱梦霞，杨尚辉，陆雪松，周傲英

2023, 34(3):1365-1395. DOI: 10.13328/j.cnki.jos.006715

摘要 (1519) HTML (1724) PDF 3.86 M (2114) 评论 (0) 收藏

摘要:知识追踪是一种重要的认知诊断方法，往往被用于在线学习平台、智能辅导系统等信息化教学平台中.知识追踪模型通过分析学生与课程作业的交互数据，即时模拟学生对课程知识点的掌握水平，模拟的结果可以用来预测学生未来的学习表现，并帮助他们规划个性化的学习路径.在过去20多年中，知识追踪模型的构建通常基于统计学和认知科学的相关理论.随着教育大数据的开放和应用，基于深度神经网络的模型（以下简称“深度知识追踪模型”）以其简单的理论基础和优越的预测性能，逐渐取代了传统模型，成为知识追踪领域新的研究热点.根据所使用的神经网络结构，阐述近年来代表性深度知识追踪模型的算法细节，并在5个公开数据集上对这些模型的性能进行全面比较.最后讨论了深度知识追踪的应用案例和若干未来研究方向.

数据定价与交易研究综述

江东，袁野，张小伟，王国仁

2023, 34(3):1396-1424. DOI: 10.13328/j.cnki.jos.006751

摘要 (1567) HTML (3362) PDF 6.93 M (3120) 评论 (0) 收藏

摘要:在大数据时代，随着信息技术的发展，各行各业都在收集海量数据.数据是数字经济的基础，蕴含有巨大价值.但是由于缺乏高效可行的共享机制，数据拥有方彼此之间缺乏沟通，形成了一个个数据孤岛.这不利于大数据产业的健康发展.因此，给数据分配一个合适的价格，设计高效的数据交易市场平台成为消除数据孤岛、使数据充分流动的重要途径.系统梳理进行数据定价与交易时涉及的技术性问题.具体来说，介绍数据定价与交易的难点和相关准则；将大数据在市场中的生命周期分为数据收集与集成、数据管理与分析、数据定价和数据交易4个环节；在大数据管理研究的基础上介绍适用于前两个环节的相关方法；然后对数据定价思路和方法进行分类，分析各类方法的适用场景以及优势和短板；介绍数据市场的分类，以博弈论和拍卖为例研究了数据交易中市场类型和参与人行为对交易过程及价格的影响.最后，对数据定价与交易的未来研究方向进行展望.

高速流环境下近似连续k代表轮廓查询算法

朱睿，宋栿尧，王斌，杨晓春，张安珍，夏秀峰

2023, 34(3):1425-1450. DOI: 10.13328/j.cnki.jos.006718

摘要 (259) HTML (677) PDF 3.05 M (912) 评论 (0) 收藏

摘要:k代表轮廓查询是从传统轮廓查询中衍生出来的一类查询.给定多维数据集合D，轮廓查询从D中找到所有不被其他对象支配的对象，将其返回给用户，便于用户结合自身偏好选择高质量对象.然而，轮廓对象规模通常较大，用户需要从大量数据中进行选择，导致选择速度和质量无法得到保证.与传统轮廓查询相比，k代表轮廓查询从所有轮廓对象中选择“代表性”最强的k个对象返回给用户，有效地解决了传统轮廓查询存在的这一问题.给定滑动窗口W和连续查询q，q监听窗口中的数据.当窗口滑动时，查询q返回窗口中，组合支配面积最大的k个对象.现有算法的核心思想是：实时监测当前窗口中的轮廓对象集合，当轮廓对象集合更新时，算法更新k代表轮廓.然而，实时监测窗口中，轮廓集合的计算代价通常较大.此外，当轮廓集合规模较大时，从中选择k代表轮廓的计算代价是同样巨大的，导致已有算法无法在高速流环境下使用.针对上述问题，提出了r-近似k代表轮廓查询.为了支持该查询，提出了查询处理框架PAKRS （predict-based approximate k representative skyline）.首先，PAKRS利用高速流的特性对当前窗口进行划分，根据划分结果构建未来窗口预测结果集，用其预测新流入窗口数据成为轮廓对象的最早时间.其次，提出了索引r-GRID.它帮助PAKRS在2维和d维（d>2）环境下，分别以O （k/s+k/m）和O （2^Ld/m+2^Ld/s）的增量维护代价下筛选近似k代表轮廓，L是一个小于k的正整数.由理论分析证明可知，PAKRS的计算复杂度小于前人所提的算法计算复杂度.最后，通过大量实验对所提算法性能进行评估.结果表明，PAKRS的运行时间是PBA （prefix-based algorithm）算法的1/4、GA （greedy algorithm）算法的1/6、e-GA （e-constraint greedy algorithm）算法的1/3.

多模态医疗数据中海量小文件存储优化方法

曾梦，邹北骥，张文生，杨雪冰，朱承璋

2023, 34(3):1451-1469. DOI: 10.13328/j.cnki.jos.006710

摘要 (614) HTML (861) PDF 1.95 M (1103) 评论 (0) 收藏

摘要:Hadoop分布式文件系统（HDFS）通常用于大文件的存储和管理，当进行海量小文件的存储和计算时，会消耗大量的NameNode内存和访问时间，成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题，提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时，使用可扩展哈希函数构建索引文件存储桶，使索引文件可以根据需要进行动态扩展，实现文件追加功能.在每个存储桶中，使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置，当访问文件时，无须读取所有文件的索引信息，只需读取相应存储桶中的索引信息即可，从而能够在O （1）的时间复杂度内读取文件，提高文件查找效率.为了满足多模态医疗数据的存储需求，使用HBase存储文件索引信息，并设置标识列用于标识不同模态的医疗数据，便于对不同模态数据的存储管理，并提高文件的读取速度.为了进一步优化存储性能，建立了基于LRU的元数据预取机制，并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率，实验结果表明，所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及HPF小文件合并方法相比，文件读取时间更短，能够提高HDFS在处理多模态医疗数据中海量小文件时的整体性能.

基于区块链的物联网认证机制综述

程冠杰，邓水光，温盈盈，严学强，赵明宇

2023, 34(3):1470-1490. DOI: 10.13328/j.cnki.jos.006778

摘要 (1760) HTML (3073) PDF 7.62 M (3781) 评论 (0) 收藏

摘要:随着物联网（Internet of Things，IoT）技术的高速发展，各类智能设备数量激增，身份认证成为保障IoT安全的首要需求.区块链作为一种分布式账本技术，提供了去信任的协作环境和安全的数据管理平台，使用区块链技术驱动IoT认证成为学术界和工业界关注的热点.基于云计算和云边协同两种架构分析IoT身份认证机制设计的主要需求，总结区块链技术应用于IoT场景面临的挑战；梳理现有IoT身份认证机制的工作，并将其归结为基于密钥的认证、基于证书的认证和基于身份的认证；分析应用区块链技术的IoT认证工作，并根据认证对象和附加属性对相关文献进行归纳和总结.从形式化和非形式化两个方向总结基于区块链的IoT认证机制的安全性分析方法.最后展望了未来研究方向.

基于智能合约的工业互联网数据公开审计方案

李涛，杨安家，翁健，郭梓繁

2023, 34(3):1491-1511. DOI: 10.13328/j.cnki.jos.006716

摘要 (929) HTML (929) PDF 2.42 M (1733) 评论 (0) 收藏

摘要:随着工业互联网产生的数据量日益增加，越来越多的企业选择将工业互联网数据外包存储在云服务器上以节省存储开销.为了防止外包存储的数据被篡改或删除，企业需要定期对其进行审计.提出了一种基于智能合约的工业互联网数据公开审计方案.该方案基于博弈论的思想，设计了一系列智能合约，以高效地抵抗参与者恶意行为.与现有抗合谋的公开审计方案相比，该方案不依赖于复杂的密码学工具实现对参与者恶意行为的抵抗，使得其更为高效，进而能够更好地应用于海量且频繁更新的工业互联网数据场景中.特别地，所设计的博弈合约作为一种独立的工具，能够与现有的公开审计方案有效结合，在不降低其审计效率的同时，增加方案的安全性.在本地环境和以太坊公有测试链Ropsten上对博弈合约以及整体方案进行了一系列的测试，结果表明，所设计的合约运行花费低且对运行环境适应性强，对原有完整性审计方案的效率影响小；同时，与其他抗审计者恶意行为的完整性方案相比，该方案更为高效.

地区网络边界发现方法

朱金玉，张宇，曾良伟，张宏莉，方滨兴

2023, 34(3):1512-1522. DOI: 10.13328/j.cnki.jos.006321

摘要 (337) HTML (811) PDF 1.43 M (965) 评论 (0) 收藏

摘要:地区网络边界刻画了现实世界国家和地区之间在网络空间中的拓扑界限.提出了一种主被动结合的双阶段地区网络边界发现方法——RNB （regional network border）.第1阶段，基于定向拓扑测量与地理定位方法发现目标地区网络边界片段；第2阶段，基于多源信息加权定位和双重PING定位在边界片段中精准发现网络边界.实验以中国网络为对象，与CAIDA数据集相比，仅以2.5%的探测代价新发现了37%的边界节点，共计1 644个.经人工验证的一致率为99.3%，经某运营商验证的准确率为75%.

微信服务号

微信订阅号

>专刊文章

>综述文章

>专刊文章

>综述文章

>专刊文章

>综述文章

>综述文章

>综述文章

当期目录

年份

刊期