2013, 24(11):2473-2475. DOI: 10.3724/SP.J.1001.2013.04487 CSTR:
摘要:
2013, 24(11):2476-2497. DOI: 10.3724/SP.J.1001.2013.04486 CSTR:
摘要:概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
2013, 24(11):2498-2507. DOI: 10.3724/SP.J.1001.2013.04479 CSTR:
摘要:机器学习正面临着数据规模日益扩大的严峻挑战,如何处理大规模甚至超大规模数据问题,是当前统计学习亟需解决的关键性科学问题.大规模机器学习问题的训练样本集合往往具有冗余和稀疏的特点,机器学习优化问题中的正则化项和损失函数也蕴含着特殊的结构含义,直接使用整个目标函数梯度的批处理黑箱方法不仅难以处理大规模问题,而且无法满足机器学习对结构的要求.目前,依靠机器学习自身特点驱动而迅速发展起来的坐标优化、在线和随机优化方法成为解决大规模问题的有效手段.针对L1 正则化问题,介绍了这些大规模算法的一些研究进展.
2013, 24(11):2508-2521. DOI: 10.3724/SP.J.1001.2013.04468 CSTR:
摘要:在关系分类模型的学习过程中,目前还没有类似统计学习理论中学习界限的支撑.研究关系分类的学习界限显得尤为重要,为此,提出了一些适用于关系分类模型的学习界限.首先推导出在模型假设空间有限和无限情况下的学习界限.接着提出一个衡量关系模型关联数据能力的复杂性度量——关系维,并证明了该复杂度和关系模型的生长函数之间的关系,得到有限VC 维和有限关系维下的学习界限.然后分析了该界限可学习和有意义的条件,并对界限的可行性进行了详细的分析.最后分析了基于马尔可夫逻辑网的传统学习界限和关系分类中的学习情况,实验结果表明,所提出的界限能够解释实际关系分类中遇到的一些问题.
2013, 24(11):2522-2534. DOI: 10.3724/SP.J.1001.2013.04483 CSTR:
摘要:在机器学习领域,核方法是解决非线性模式识别问题的一种有效手段.目前,用多核学习方法代替传统的单核学习已经成为一个新的研究热点,它在处理异构、不规则和分布不平坦的样本数据情况下,表现出了更好的灵活性、可解释性以及更优异的泛化性能.结合有监督学习中的多核学习方法,提出了基于Lp范数约束的多核半监督支持向量机(semi-supervised support vector machine,简称S3VM)的优化模型.该模型的待优化参数包括高维空间的决策函数fm和核组合权系数θm.同时,该模型继承了单核半监督支持向量机的非凸非平滑特性.采用双层优化过程来优化这两组参数,并采用改进的拟牛顿法和基于成对标签交换的局部搜索算法分别解决模型关于fm的非平滑及非凸问题,以得到模型近似最优解.在多核框架中同时加入基本核和流形核,以充分利用数据的几何性质.实验结果验证了算法的有效性及较好的泛化性能.
2013, 24(11):2535-2547. DOI: 10.3724/SP.J.1001.2013.04472 CSTR:
摘要:粒度支持向量机(granular support vector machine,简称GSVM)可以有效提高支持向量机(support vectormachine,简称SVM)的学习效率,但由于经典GSVM 通常将粒用个别样本替代,且粒划和学习在不同空间进行,因而不可避免地改变了原始数据分布,从而可能导致泛化能力降低.针对这一问题,通过引入动态层次粒划的方法,设计了动态粒度支持向量回归(dynamical granular support vector regression,简称DGSVR)模型.该方法首先将训练样本映射到高维空间,使得在低维样本空间无法直接得到的分布信息显示出来,并在该特征空间中进行初始粒划.然后,通过衡量样本粒与当前回归超平面的距离,找到含有较多回归信息的粒,并通过计算其半径和密度进行深层次的动态粒划.如此循环迭代,直到没有信息粒需要进行深层粒划时为止.最后,通过动态粒划过程得到的不同层次的粒进行回归训练,在有效压缩训练集的同时,尽可能地使含有重要信息的样本在最终训练集中保留下来.在基准函数数据集及UCI 上的回归数据集上的实验结果表明,DGSVR 方法能够以较快的速度完成动态粒划的过程并收敛,在保持较高训练效率的同时可有效提高传统粒度支持向量回归机(granular support vector regression machine,简称GSVR)的泛化性能.
2013, 24(11):2548-2557. DOI: 10.3724/SP.J.1001.2013.04475 CSTR:
摘要:针对光滑孪生支持向量机(smooth twin support vector machines,简称STWSVM)采用的Sigmoid 光滑函数逼近精度低和STWSVM 对异常点敏感的问题,引入一种性能更好的光滑函数——CHKS 函数,提出了光滑CHKS孪生支持向量机模型(smooth CHKS twin support vector machines,简称SCTWSVM).在此基础上,根据样本点的位置为每个训练样本赋予不同的重要性,以降低异常点对非平行超平面的影响,提出了加权光滑CHKS 孪生支持向量机(weighted smooth CHKS twin support vector machines,简称WSCTWSVM).不仅从理论上证明了SCTWSVM 具有严凸性和任意阶光滑的性能,而且在数据集上的实验结果表明,相对于STWSVM,SCTWSVM 可以在更短的时间内获得更高的分类精度,同时验证了WSCTWSVM 的有效性和可行性.
2013, 24(11):2558-2570. DOI: 10.3724/SP.J.1001.2013.04482 CSTR:
摘要:普遍认为,云计算和多核处理器将会统治计算领域的未来.但是,目前云计算数据中心的计算资源使用率非常低,其主要原因在于多核处理器上存在严重且不可预知的性能干扰.为了保证关键应用程序的QoS,只能禁止这些关键程序与其他程序共同运行,导致了资源的过度分配.为了提高数据中心的利用率,分析多核间的性能干扰成为一个关键的问题.观察到程序遭受的核间性能干扰可以表示为内存子系统总压力的线性分段函数,而与构成压力的具体应用程序无关.以此观察为基础,提出了一种基于统计学习的多核间性能干扰分析方法,使用主成分线性回归的方法获得干扰模型,可以精确且定量地预测任意程序由于内存子系统资源竞争导致的性能下降.实验结果表明,平均预测误差仅为1.1%.
2013, 24(11):2571-2583. DOI: 10.3724/SP.J.1001.2013.04467 CSTR:
摘要:文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive andunlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM 主动学习和改进的Rocchio 构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3 个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.
2013, 24(11):2584-2596. DOI: 10.3724/SP.J.1001.2013.04485 CSTR:
摘要:AdaBoost 是一种重要的集成学习元算法,算法最核心的特性“Boosting”也是解决代价敏感学习问题的有效方法.然而,各种代价敏感Boosting 算法,如AdaCost、AdaC 系列算法、CSB 系列算法等采用启发式策略,向AdaBoost 算法的加权投票因子计算公式或权值调整策略中加入代价参数,迫使算法聚焦于高代价样本.然而,这些启发式策略没有经过理论分析的验证,对原算法的调整破坏了AdaBoost 算法最重要的Boosting 特性。AdaBoost算法收敛于贝叶斯决策,与之相比,这些代价敏感Boosting 并不能收敛到代价敏感的贝叶斯决策.针对这一问题,研究严格遵循Boosting 理论框架的代价敏感Boosting 算法.首先,对分类间隔的指数损失函数以及Logit 损失函数进行代价敏感改造,可以证明新的损失函数具有代价意义下的Fisher 一致性,在理想情况下,优化这些损失函数最终收敛到代价敏感贝叶斯决策;其次,在Boosting 框架下使用函数空间梯度下降方法优化新的损失函数得到算法AsyB以及AsyBL.二维高斯人工数据上的实验结果表明,与现有代价敏感Boosting 算法相比,AsyB 和AsyBL 算法能够有效逼近代价敏感贝叶斯决策;UCI 数据集上的测试结果也进一步验证了AsyB 以及AsyBL 算法能够生成有更低错分类代价的代价敏感分类器,并且错分类代价随迭代呈指数下降.
2013, 24(11):2597-2609. DOI: 10.3724/SP.J.1001.2013.04473 CSTR:
摘要:传统的降维方法追求较低的识别错误率,假设不同错分的代价相同,这个假设在一些实际应用中往往不成立.例如,在基于人脸识别的门禁系统中,存在入侵者类和合法者类,将入侵者错分成合法者的损失往往高于将合法者错分成入侵者的损失,而将合法者错分成入侵者的损失又大于将合法者错分成其他合法者的损失.为此,首先通过对人脸识别门禁系统进行分析,将其归为一个代价敏感的子类学习问题,然后将错分代价以及子类信息同时注入判别分析的框架中,提出一种近似于成对贝叶斯风险准则的降维算法.在人脸数据集Extended Yale B以及ORL上的实验结果表明了该算法的有效性.
2013, 24(11):2610-2627. DOI: 10.3724/SP.J.1001.2013.04469 CSTR:
摘要:针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.
2013, 24(11):2628-2641. DOI: 10.3724/SP.J.1001.2013.04470 CSTR:
摘要:类属型数据广泛分布于生物信息学等许多应用领域,其离散取值的特点使得类属数据聚类成为统计机器学习领域一项困难的任务.当前的主流方法依赖于类属属性的模进行聚类优化和相关属性的权重计算.提出一种非模的类属型数据统计聚类方法.首先,基于新定义的相异度度量,推导了属性加权的类属数据聚类目标函数.该函数以对象与簇之间的平均距离为基础,从而避免了现有方法以模为中心导致的问题.其次,定义了一种类属型数据的软子空间聚类算法.该算法在聚类过程中根据属性取值的总体分布,而不仅限于属性的模,赋予每个属性衡量其与簇类相关程度的权重,实现自动的特征选择.在合成数据和实际应用数据集上的实验结果表明,与现有的基于模的聚类算法和基于蒙特卡罗优化的其他非模算法相比,该算法有效地提高了聚类结果的质量.
2013, 24(11):2642-2655. DOI: 10.3724/SP.J.1001.2013.04464 CSTR:
摘要:对于时间序列聚类任务而言,一个有效的距离度量至关重要.为了提高时间序列聚类的性能,考虑借助度量学习方法,从数据中学习一种适用于时序聚类的距离度量.然而,现有的度量学习未注意到时序的特性,且时间序列数据存在成对约束等辅助信息不易获取的问题.提出一种辅助信息自动生成的时间序列距离度量学习(distancemetric learning based on side information autogeneration for time series,简称SIADML)方法.该方法利用动态时间弯曲(dynamic time warping,简称DTW)距离在捕捉时序特性上的优势,自动生成成对约束信息,使习得的度量尽可能地保持时序之间固有的近邻关系.在一系列时间序列标准数据集上的实验结果表明,采用该方法得到的度量能够有效改善时间序列聚类的性能.
2013, 24(11):2656-2666. DOI: 10.3724/SP.J.1001.2013.04465 CSTR:
摘要:基于谱方法的流形学习算法的目标是发现嵌入在高维数据空间中的低维表示.近年来,该算法已得到广泛的应用.等谱流形学习是谱方法中的主要内容之一.等谱流形学习源于这样的结论:只要两个流形的谱相同,其内部结构就是相同的.而谱计算难以解决的问题是近邻参数的选择以及如何构造合理邻接权.为此,提出了等谱流形学习算法(isospectral manifold learning algorithm,简称IMLA).它通过直接修正稀疏重构权矩阵,将类内的判别监督信息和类间的判别监督信息同时融入邻接图,达到既能保持数据间稀疏重建关系,又能利用监督信息的目的,与PCA等算法相比具有明显的优势.该算法在3 个常用人脸数据集(Yale,ORL,Extended Yale B)上得到了验证,这进一步说明了IMLA 算法的有效性.
2013, 24(11):2667-2675. DOI: 10.3724/SP.J.1001.2013.04471 CSTR:
摘要:强化学习通过从以往的决策反馈中学习,使Agent 做出正确的短期决策,以最大化其获得的累积奖赏值.以往研究发现,奖赏塑形方法通过提供简单、易学的奖赏替代函数(即奖赏塑性函数)来替换真实的环境奖赏,能够有效地提高强化学习性能.然而奖赏塑形函数通常是在领域知识或者最优策略示例的基础上建立的,均需要专家参与,代价高昂.研究是否可以在强化学习过程中自动地学习有效的奖赏塑形函数.通常,强化学习算法在学习过程中会采集大量样本.这些样本虽然有很多是失败的尝试,但对构造奖赏塑形函数可能提供有用信息.提出了针对奖赏塑形的新型最优策略不变条件,并在此基础上提出了RFPotential 方法,从自生成样本中学习奖赏塑形.在多个强化学习算法和问题上进行了实验,其结果表明,该方法可以加速强化学习过程.
2013, 24(11):2676-2686. DOI: 10.3724/SP.J.1001.2013.04466 CSTR:
摘要:在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法收敛.将该算法用于经典的Mountain Car 问题,实验结果表明,该算法收敛速度较快,收敛精度较好.
2013, 24(11):2687-2698. DOI: 10.3724/SP.J.1001.2013.04476 CSTR:
摘要:布谷鸟搜索(cuckoo search,简称CS)算法是一种新兴的仿生智能算法,对解采用整体更新评价策略.在求解多维函数优化问题时,由于各维之间相互干扰,采用整体更新评价策略将恶化算法的收敛速度和解的质量.为了弥补此缺陷,提出了基于逐维改进的布谷鸟搜索算法.在改进算法的迭代过程中,针对解采用逐维更新评价策略.该策略将各维的更新值与其他维的值组合成新的解,并采用贪婪方式接受能够改善解质量的更新值.实验结果说明,改进策略能够有效地提高CS 算法的收敛速度并改善解的质量.与相关的改进布谷鸟搜索算法以及其他演化算法的比较结果表明,改进算法在求解连续函数优化问题上是具有竞争力的.
2013, 24(11):2699-2709. DOI: 10.3724/SP.J.1001.2013.04474 CSTR:
摘要:随机块模型可以生成各种不同结构(称作广义社区,包括传统社区、二分结构、层次结构等)的网络,也可以根据概率对等原则发现网络中的广义社区.但简单的随机块模型在网络生成过程建模和模型学习方面存在许多问题,导致不能很好地发现实际网络的结构,其扩展模型GSB(general stochastic block)基于链接社区思想发现广义社区,但时间复杂度限制其在中大型规模网络中的应用.为了在无任何先验的情形下探索不同规模网络的潜在结构,基于GSB 模型设计一种快速算法FGSB,更快地发现网络的广义社区.FGSB 在迭代过程中动态学习网络结构参数,将GSB 模型的参数重新组织,减少不必要的参数,降低算法的存储空间;对收敛节点和边的参数进行裁剪,减少每次迭代的相关计算,节省算法的运行时间.FGSB 与GSB 模型求解算法有相同的结构发现能力,但FGSB 耗费的存储空间和运行时间比GSB 模型求解算法要低.在不同规模的人工网络和实际网络上验证得出:在近似相同的准确率下,FGSB 比GSB 模型求解算法快,且可发现大型网络的广义社区.
2013, 24(11):2710-2720. DOI: 10.3724/SP.J.1001.2013.04477 CSTR:
摘要:时序数据集中的社群演化模式是网络行为动力学研究与应用的重要领域.基于社群演化的离群点检测不仅能够发现新颖的异常行为模式,同时也有利于更准确地理解社群的演化趋势.运用成员关于社群隶属关系的变化,提出了社群演化迁移矩阵的概念,研究并揭示了迁移矩阵的若干性质及其与社群结构演化之间的关系.在采用稳健回归M-估计方法进一步优化迁移矩阵降低异常点干扰的同时,对社群演化离群点加以刻画和定义.鉴于复杂网络包含大量随机游走的边缘个体,所定义的离群点综合考虑其在社群中角色的变化和相对于社群总体迁移模式的差异.基于上述思想提出的演化离群点检测算法能够适应各类社群演化趋势,更有效地聚焦和发现大规模社会网络中重要成员的异常演化行为.实验结果表明,所提出的方法能够从大规模社会网络演化序列中发现重要的离群演化模式,并在现实中找到合理的解释.
2013, 24(11):2721-2733. DOI: 10.3724/SP.J.1001.2013.04478 CSTR:
摘要:协同过滤直接根据用户的行为记录去预测其可能喜欢的产品,是现今最为成功、应用最广泛的推荐方法.概率矩阵分解算法是一类重要的协同过滤方式.它通过学习低维的近似矩阵进行推荐,能够有效处理海量数据.然而,传统的概率矩阵分解方法往往忽略了用户(产品)之间的结构关系,影响推荐算法的效果.通过衡量用户(产品)之间的关系寻找相似的邻居用户(产品),可以更准确地识别用户的个人兴趣,从而有效提高协同过滤推荐精度.为此,提出一种对用户(产品)间的时序行为建模的方法.基于该方法,可以发现对当前用户(产品)影响最大的邻居集合.进一步地,将该邻居集合成功融合到基于概率矩阵分解的协同过滤推荐算法中.在两个真实数据集上的验证结果表明,所提出的SequentialMF 推荐算法与传统的使用社交网络信息与标签信息的推荐算法相比,能够更有效地预测用户实际评分,提升推荐精度.
2013, 24(11):2734-2746. DOI: 10.3724/SP.J.1001.2013.04480 CSTR:
摘要:专家证据文档识别是专家检索的关键步骤.融合专家候选文档独立页面特征以及页面之间的关联关系,提出了一个专家证据文档识别无向图模型.该方法首先分析各类专家证据文档中的词、URL 链接、专家元数据等独立页面特征以及候选专家证据文档间的链接和内容等关联关系;然后将独立页面特征以及页面之间的关联关系融入到无向图中构建专家证据文档识别无向图模型;最后利用梯度下降方法学习模型中特征的权重,并利用吉布斯采样方法进行专家证据文档识别.通过对比实验验证了该方法的有效性.实验结果表明,该方法有较好的效果.
2013, 24(11):2747-2757. DOI: 10.3724/SP.J.1001.2013.04484 CSTR:
摘要:提出一种基于局部区域稀疏编码的人脸检测方法.首先提取人脸局部区域作为训练样本;然后学习得到一个具有较强判别性的字典,字典中的每个基与人脸各局部区域有明确的对应关系;接着,基于各检测窗口稀疏编码的响应判断人脸某一局部区域是否出现;最后,利用人脸局部区域的检测结果和位置约束进行投票,完成人脸定位.该方法的创新在于将稀疏编码和基于部件模型的思想相结合,实现人脸检测.在Caltech 和BioID 人脸数据库的实验结果表明:该方法适用于小样本问题,且在遮挡、复杂表情、人脸偏转等情况下具有较好的检测效果.
2013, 24(11):2758-2766. DOI: 10.3724/SP.J.1001.2013.04481 CSTR:
摘要:美丽的极光形态各异,不同形态的极光蕴含不同的物理意义,所以研究极光图像的分类具有重要的科学价值.在LDA(latent Dirichlet allocation)模型基础上提出了一种融合显著信息的LDA 方法(LDA with saliencyinformation,简称SI-LDA),利用极光图像的谱残差(spectral residual,简称SR)显著信息生成视觉字典,加强极光图像的语义信息,并将其用于极光图像的特征表示.最后,利用SVM分类器对极光图像进行分类.实验结果表明,所提出的算法获得了良好的分类结果.