2024, 35(12):5558-5581.DOI: 10.13328/j.cnki.jos.007058
摘要:由于深度学习领域的不断进步, 人们对用协同查询处理(CQP)技术扩展关系数据库以处理涉及结构化和非结构化数据的高级分析查询越来越感兴趣. 最先进的CQP方法使用用户定义函数(UDFs)来实现深度神经网络(NN)模型来处理非结构化数据, 并使用关系操作来处理结构化数据. 基于UDF的方法简化了查询书写, 允许用户使用单一的SQL提交分析查询, 但要求在即席数据分析中能够根据所需性能指标手动选择合适且高效的模型, 这对用户提出了很高的挑战. 为了解决该问题, 提出基于声明式推理函数(DIF)的协同查询处理技术, 通过优化模型选择、执行方式、设备绑定等多个查询实现路径构建完整的协同查询处理框架. 基于所提研究设计的成本模型和优化规则, 查询处理器能够计算出不同查询计划的代价, 并自动选择最优的物理查询计划. 在4个数据集上的实验结果证实了提出的基于DIF的CQP方法的有效性和效率.
2016, 27(9):2248-2264.DOI: 10.13328/j.cnki.jos.004855
摘要:由于随机块模型能够有效处理不具有先验知识的网络,对其研究成为了机器学习、网络数据挖掘和社会网络分析等领域的研究热点.如何设计出具有模型选择能力的快速随机块模型学习算法,是目前随机块模型研究面临的一个主要挑战.提出一种精细随机块模型及其快速学习算法.该学习方法基于提出的模型与最小消息长度推导出一个新成本函数,利用期望最大化参数估计方法,实现了边评价模型边估计参数的并行学习策略,以此方式显著降低随机块模型学习的时间复杂性.分别采用人工网络与真实网络,从学习时间和学习精度两方面对提出的学习算法进行了验证,并与现有的代表性随机块模型学习方法进行了对比.实验结果表明:提出的算法能够在保持学习精度的情况下显著降低时间复杂性,在学习精度和时间之间取得很好的折衷;在无任何先验知识的情况下,可处理的网络规模从几百节点提高至几万节点.另外,通过网络链接预测的实验,其结果也表明了提出的模型及学习算法相比现有随机块模型和学习方法具有更好的泛化能力.
2014, 25(9):2149-2159.DOI: 10.13328/j.cnki.jos.004650
摘要:模型选择是支持向量学习的关键问题.已有模型选择方法采用嵌套的双层优化框架,内层执行支持向量学习,外层通过最小化泛化误差的估计进行模型选择.该框架过程复杂,计算效率低.简化传统的双层优化框架,提出一个支持向量学习的多参数同时调节方法,在同一优化过程中实现模型选择和学习器训练.首先,将支持向量学习中的参数和超参数合并为一个参数向量,利用序贯无约束极小化技术(sequential unconstrained minimization technique,简称SUMT)分别改写支持向量分类和回归的有约束优化问题,得到多参数同时调节模型的多元无约束形式定义;然后,证明多参数同时调节模型目标函数的局部Lipschitz连续性及水平集有界性.在此基础上,应用变尺度方法(variable metric method,简称VMM)设计并实现了多参数同时调节算法.进一步地,基于多参数同时调节模型的性质,证明了算法收敛性,对比分析了算法复杂性.最后,实验验证同时调节算法的收敛性,并实验对比同时调节算法的有效性.理论证明和实验分析表明,同时调节方法是一种坚实、高效的支持向量模型选择方法.
2013, 24(1):109-120.DOI: 10.3724/SP.J.1001.2013.04230
摘要:ROC曲线是模型选择的一种重要方法,但ROC曲线的不确定性影响了模型选择的准确性.基于分辨粒度,从反映得分的不确定性的角度提出gROC和gAUC的概念,从理论上讨论了gROC的若干性质.在给出其算法之后,利用双正态模型检验了gROC的合理性.在此基础上,提出了两个模型选择度量——λAUC和ρAUC,并在UCI数据集上验证了该模型选择度量的高效性.实验结果表明,gROC能够有效反映ROC曲线的不确定性,基于λAUC和ρAUC的模型选择方法优于基于AUC或sAUC的模型选择方法,在某些情况下,gROC具有更强的对分类器性能的比较能力.
2012, 23(10):2643-2654.DOI: 10.3724/SP.J.1001.2012.04153
摘要:由 Sch?lkopf 等人提出的ν支持向量回归机具有通过参数ν控制支持向量和错误向量个数的优点,然而与标准的支持向量机相比,其形式更为复杂,迄今为止仍没有有效的算法计算ν解路径.基于ν支持向量回归机的修改形式,提出了一种新的解路径算法,它能够追踪参数ν对应的所有解,并通过理论分析和实验,说明了该算法能够尽可能地避免不可行的更新路径,并在有限步内拟合出所有的ν解路径.