2017, 28(11):2811-2813. DOI: 10.13328/j.cnki.jos.005353 CSTR:
摘要:
2017, 28(11):2814-2824. DOI: 10.13328/j.cnki.jos.005344 CSTR:
摘要:近年来,随着现实生活中数据量的不断增大,不一致数据的出现也越发频繁,这使得人工修正不一致数据变得更加耗时.而且,人工修正数据方法本身也存在着不可避免的人为操作错误,因此,这种修正方法不再可行.如何不提前修复不一致数据,直接在不一致数据上进行分类,是该文的核心研究内容.对决策树生成算法的目标函数进行改进,使其能够直接对不一致数据进行分类,并得到较好的分类结果.对约束条件中的特征对分类结果的影响进行了多方面衡量,从而调整该特征的影响因子,使得决策树的节点分割更加精确,分类效果更优.
2017, 28(11):2825-2835. DOI: 10.13328/j.cnki.jos.005337 CSTR:
摘要:传统的属性约简由于其时间复杂度和空间复杂度过高,几乎无法应用到大规模的数据集中.将随机抽样引入传统的模糊粗糙集中,使得属性约简的效率大幅度提升.首先,在统计下近似的基础上提出一种统计属性约简的定义.这里的约简不是原有意义上的约简,而是保持基于统计下近似定义的统计辨识度不变的属性子集.然后,采用抽样的方法计算统计辨识度的样本估计值,基于此估计值可以对统计属性重要性进行排序,从而可以设计一种快速的适用于大规模数据的序约简算法.由于随机抽样集以及统计近似概念的引入,该算法从时间和空间上均降低了约简的计算复杂度,同时又保持了数据集中信息含量几乎不变.最后,数值实验将基于随机抽样的序约简算法和两种传统的属性约简算法从以下3个方面进行了对比:计算属性约简时间消耗、计算属性约简空间消耗、约简效果.对比实验验证了基于随机抽样的序约简算法在时间与空间上的优势.
2017, 28(11):2836-2850. DOI: 10.13328/j.cnki.jos.005343 CSTR:
摘要:聚类是数据挖掘领域中的一种重要的数据分析方法.它根据数据间的相似度,将无标注数据划分为若干聚簇.CSDP是一种基于密度的聚类算法,当数据量较大或数据维数较高时,聚类的效率相对较低.为了提高聚类算法的效率,提出了一种基于密度的分布式聚类方法MRCSDP,利用MapReduce框架对实验数据进行聚类.该方法定义了独立计算单元和独立计算块的概念.首先,将数据拆分为若干数据块,构建独立计算单元和独立计算块,在集群中分配独立计算块的任务;然后进行分布式计算,得到数据块的局部密度,将局部密度合并得到全局密度,根据全局密度计算中心值,由全局密度和中心值得到每个数据块中候选聚簇中心;最后,从候选聚簇中心选举出最终的聚簇中心.MRCSDP在充分降低时间复杂度的基础上得到较好的聚类效果.实验结果表明,分布式环境下的聚类方法MRCSDP相对于CSDP更能快速、有效地处理大规模数据,并使各节点负载均衡.
2017, 28(11):2851-2864. DOI: 10.13328/j.cnki.jos.005339 CSTR:
摘要:弱标记学习是多标记学习的一个重要分支,近几年已被广泛研究并被应用于多标记样本的缺失标记补全和预测等问题.然而,针对特征集合较大、更容易拥有多个语义标记和出现标记缺失的高维数据问题,现有弱标记学习方法普遍易受这类数据包含的噪声和冗余特征的干扰.为了对高维多标记数据进行准确的分类,提出了一种基于标记与特征依赖最大化的弱标记集成分类方法EnWL.EnWL首先在高维数据的特征空间多次利用近邻传播聚类方法,每次选择聚类中心构成具有代表性的特征子集,降低噪声和冗余特征的干扰;再在每个特征子集上训练一个基于标记与特征依赖最大化的半监督多标记分类器;最后,通过投票集成这些分类器实现多标记分类.在多种高维数据集上的实验结果表明,EnWL在多种评价度量上的预测性能均优于已有相关方法.
2017, 28(11):2865-2878. DOI: 10.13328/j.cnki.jos.005341 CSTR:
摘要:多标记学习广泛存在于现实生活中,是当今机器学习领域的研究热点.在多标记学习框架中,每个对象由一个示例构成,但可能同时属于多个类别标记,并且各个标记之间相互关联,所以挖掘多标记之间的关联性对于多标记学习框架具有重要的意义.首先对经典的关联规则算法进行改进,提出了基于矩阵分治的频繁项集挖掘算法,并证明了该算法挖掘频繁项集的正确性;进而将该算法应用于多标记学习框架中,分别提出了基于全局关联规则挖掘和局部关联规则挖掘的多标记分类算法;最后对所提出的算法与现有多标记算法进行实验对比,结果表明,算法在5种不同的评价准则下能够取得更好的效果.
2017, 28(11):2879-2890. DOI: 10.13328/j.cnki.jos.005349 CSTR:
摘要:卷积神经网络等深度神经网络凭借着其强大的表达能力、突出的分类性能,已在不同领域内得到了广泛应用.当面对高维特征时,深度神经网络通常被认为具有较好的鲁棒性,能够隐含地对特征进行选择,但由于网络参数巨大,如果数据量达不到足够的规模,则会导致学习不充分,因而可能无法达到最优的特征选择.而神经网络的黑箱特性使得无法观测神经网络选择了哪些特征,也无法评估其特征选择的能力.为此,以卷积神经网络为例,首先研究如何显式地表达神经网络中的特征重要性,提出了基于感受野的特征贡献度分析方法;其次,将神经网络特征选择与传统特征评价方法进行对比分析发现,在非海量样本的情况下,传统特征评价方法对高重要性特征和噪声特征的识别能力反而能够超过神经网络.因此,进一步地提出了卷积神经网络增强特征选择模型,将传统特征评价方法对特征重要性的理解结合到神经网络的学习过程中,以辅助深度神经网络进行特征选择.在基于文本的社交媒体用户属性建模任务下进行了对比实验,结果验证了该模型的有效性.
2017, 28(11):2891-2904. DOI: 10.13328/j.cnki.jos.005350 CSTR:
摘要:基于模式的贝叶斯分类模型是解决数据挖掘领域分类问题的一种有效方法.然而,大多数基于模式的贝叶斯分类器只考虑模式在目标类数据集中的支持度,而忽略了模式在对立类数据集合中的支持度.此外,对于高速动态变化的无限数据流环境,在静态数据集下的基于模式的贝叶斯分类器就不能适用.为了解决这些问题,提出了基于显露模式的数据流贝叶斯分类模型EPDS(Bayesian classifier algorithm based on emerging pattern for data stream).该模型使用一个简单的混合森林结构来维护内存中事务的项集,并采用一种快速的模式抽取机制来提高算法速度.EPDS采用半懒惰式学习策略持续更新显露模式,并为待分类事务在每个类下建立局部分类模型.大量实验结果表明,该算法比其他数据流分类模型有较高的准确度.
2017, 28(11):2925-2939. DOI: 10.13328/j.cnki.jos.005336 CSTR:
摘要:高时空分辨率晴雨分类与交通、旅游、农业灌溉及人们日常出行都密切相关,然而"天有不测风云","东边日头西边雨",准确的高时空分辨率晴雨分类是极具挑战性的问题.提出了一种基于多源数据的多视角学习晴雨分类方法,其中,多源数据包括雷达、卫星及地面观测因子及晴雨观测数据.该方法表述如下:首先,依据雷达观测因子构造了VisCAPPI视角和VisPPI视角,依据葵花卫星资料构造了VisSat视角,依据地面观测因子构造了VisGround视角;然后,对这4个视角特征进行组合获得组合视角VisCAPPI_PPI,VisRadar_Sat,VisRadar_Groumd,VisSat_Ground,VisRadar_Sat_Ground,应用随机森林机器学习方法分别对这些视角进行样本学习,获得这些视角的晴雨分类模型;最后,对这些视角晴雨分类模型估计进行融合,获得晴雨分类结果.主要贡献在于:(1)提出了雷达、卫星和地面观测因子多视角构建方法,构建了VisCAPPI,VisPPI,VisSat和VisGround晴雨分类视角及其组合视角;(2)提出了一种多视角方法(multi-view weight random forest,简称MVWRF),能够处理雷达、卫星和地面观测因子多源数据融合晴雨分类问题,提高1km×1km和6min时空分辨率晴雨分类准确率.在2016年10月7日和8日,泉州雷达覆盖的393个气象观测站上进行模型训练和测试,结果显示,该方法能够取得较高的晴雨分类准确率和较低的漏报率、空报率,优于对比方法.
2017, 28(11):2940-2960. DOI: 10.13328/j.cnki.jos.005352 CSTR:
摘要:近年来,迁移学习得到越来越多的关注.现有的在线迁移学习算法一般从单个源领域迁移知识,然而,当源领域与目标领域相似度较低时,很难进行有效的迁移学习.基于此,提出了一种基于局部分类精度的多源在线迁移学习方法——LC-MSOTL.LC-MSOTL存储多个源领域分类器,计算新到样本与目标领域已有样本之间的距离以及各源领域分类器对其最近邻样本的分类精度,从源领域分类器中挑选局部精度最高的分类器与目标领域分类器加权组合,从而实现多个源领域知识到目标领域的迁移学习.在人工数据集和实际数据集上的实验结果表明,LC-MSOTL能够有效地从多个源领域实现选择性迁移,相对于单源在线迁移学习算法OTL,显示出了更高的分类准确率.
2017, 28(11):2961-2970. DOI: 10.13328/j.cnki.jos.005338 CSTR:
摘要:零样本分类的目标是对训练阶段未出现过的类别的样本进行识别和分类,其主要思路是,借助类别语义信息,将可见类别的知识转移到未见类别中.提出了一种直推式的字典学习方法,包含以下两个步骤:首先,提出一个判别字典学习模型,对带标签的可见类别样本的视觉特征和类别语义特征建立映射关系模型;然后,针对可见类别和未见类别不同引起的域偏移问题,提出了一个基于直推学习的修正模型.通过在3个基准数据集(AwA,CUB和SUN)上的实验结果,证明了该方法的有效性和先进性.
2017, 28(11):2971-2991. DOI: 10.13328/j.cnki.jos.005348 CSTR:
摘要:多源数据学习在大数据时代具有极其重要的意义.目前,多源数据学习算法研究远远超前于多源数据学习理论研究,经典的机器学习理论难以应用于多源数据学习,更难以提供多源数据学习算法在实际应用中的理论保障.从学习的最终目的是知识这一认知切入点出发,对人类学习的认知机理、机器学习的三大经典理论(计算学习理论、统计学习理论和概率图理论)以及多源数据学习算法设计这3个方面的研究进展进行总结,最后给出未来研究方向的思考.
2017, 28(11):2992-3001. DOI: 10.13328/j.cnki.jos.005346 CSTR:
摘要:在机器学习和模式识别任务中,选择一种合适的距离度量方法是至关重要的.度量学习主要利用判别性信息学习一个马氏距离或相似性度量.然而,大多数现有的度量学习方法都是针对数值型数据的,对于一些有结构的数据(比如符号型数据),用传统的距离度量来度量两个对象之间的相似性是不合理的;其次,大多数度量学习方法会受到维度的困扰,高维度使得训练时间长,模型的可扩展性差.提出了一种基于几何平均的混杂数据度量学习方法.采用不同的核函数将数值型数据和符号型数据分别映射到可再生核希尔伯特空间,从而避免了特征的高维度带来的负面影响.同时,提出了一个基于几何平均的多核度量学习模型,将混杂数据的度量学习问题转化为求黎曼流形上两个点的中心点问题.在UCI数据集上的实验结果表明,针对混杂数据的多核度量学习方法与现有的度量学习方法相比,在准确性方面展现出更优异的性能.
2017, 28(11):3002-3017. DOI: 10.13328/j.cnki.jos.005331 CSTR:
摘要:基于时序对齐的k近邻分类器是时间序列分类的基准算法.在实际应用中,同类复杂时间序列经常展现出不同的全局特性.由于传统时序对齐方法平等对待实例特征并忽略其局部辨别特性,因此难以准确、高效地处理此类具有挑战性的时间序列.为了有效对齐并分类复杂时间序列,提出了一种具有辨别性的局部加权动态时间扭曲方法,用于发现同类复杂时间序列的共同点以及异类序列间的不同点.同时,通过迭代学习时间序列对齐点的正例集与负例集,获取每条复杂时间序列中每个特征的辨别性权重.在多个人工和真实数据集上的实验结果表明了基于局部加权对齐策略的k近邻分类器所具有的可解释性与有效性,并将所提出方法扩展至多变量时间序列分类问题中.
2017, 28(11):3018-3029. DOI: 10.13328/j.cnki.jos.005332 CSTR:
摘要:近年来,深度学习在计算机视觉方面取得了巨大的进步,并在利用计算机视觉完成医学影像的阅片工作方面展现出了良好的应用前景.针对糖尿病眼底病变筛查工作,通过构建两级深度卷积神经网络,完成了原始照片的特征提取、特征组合和结果分类,最终得出筛查结果.通过与医生的诊断结果进行比较,证明了模型的输出结果与医生诊断结果之间具有高度的一致性.同时,提出了利用弱监督学习进行细粒度图像分类的改进方法.最后,对未来研究的方向进行了展望.
笱程成 , 秦宇君 , 田甜 , 伍大勇 , 刘悦 , 程学旗
2017, 28(11):3030-3042. DOI: 10.13328/j.cnki.jos.005333 CSTR:
摘要:社交网络中,消息的爆发预测属于社交网络流行动态分析的范畴,是社会计算领域的研究热点之一.通过利用基于深度循环神经网络对社交消息的传播过程进行建模,提出了SMOP(social messages outbreak prediction model based on recurrent neural network)模型.与传统的基于机器学习的模型相比,SMOP直接对消息转发的到达过程进行建模,避免了传统方法中繁琐的特征工程;与基于点随机过程的模型相比,SMOP可以自动学习消息传播过程的速率函数,不需要手动定义消息传播速率的特征函数,具有较强的数据场景适应性.另外,SMOP采用了时间向量和用户向量的输入表示方法,将时间的周期性和用户的兴趣偏好建模到传播过程之中,提升了SMOP的预测效果.在Twitter和新浪微博数据集上的实验结果均表明,SMOP具有优良的数据适应能力,可以在消息传播的早期(0.5h),以较高的F1值预测某条社交消息是否爆发,验证了模型的有效性.
乔少杰 , 韩楠 , 李天瑞 , 李荣华 , 李斌勇 , 王晓腾 , Louis Alberto GUTIERREZ
2017, 28(11):3043-3057. DOI: 10.13328/j.cnki.jos.005340 CSTR:
摘要:智能手机、车载GPS终端、可穿戴设备产生了海量的轨迹数据,这些数据不仅描述了移动对象的历史轨迹,而且精确地反映出移动对象的运动特点.已有轨迹预测方法的不足在于:不能同时兼具预测的准确性和时效性,有效的轨迹预测受限于路网等局部空间范围,无法处理复杂、大规模位置数据.为了解决上述问题,针对海量移动对象轨迹数据,结合频繁序列模式发现的思想,提出了基于前缀投影技术的轨迹预测模型PPTP(prefix projection based trajectory prediction model),包含两个关键步骤:(1)挖掘频繁轨迹模式,构造投影数据库并递归挖掘频繁前序轨迹模式;(2)轨迹匹配,以不同频繁序列模式作为前缀增量式扩展生成频繁后序轨迹,将大于最小支持度阈值的最长连续轨迹作为结果输出.算法的优势在于:可以通过较短的频繁序列模式,增量式生成长轨迹模式;不会产生无用的候选轨迹,弥补频繁模式挖掘计算代价较高的不足.利用真实大规模轨迹数据进行多角度实验,表明PPTP轨迹预测算法具有较高的预测准确性,相对于1阶马尔可夫链预测算法,其平均预测准确率可以提升39.8%.基于所提出的轨迹预测模型,开发了一个通用的轨迹预测系统,能够可视化输出完整的轨迹路线,为用户路径规划提供辅助决策支持.
2017, 28(11):3058-3071. DOI: 10.13328/j.cnki.jos.005342 CSTR:
摘要:移动应用软件安全检测和防护是软件安全领域中的研究热点.传统的安全解决方案是安全厂商将其开发的APP安装到用户终端进行保护,但对于安全意识薄弱的普通用户而言,他们不了解安全威胁的严重性和安全管理APP的重要性,终端缺少安全威胁的防御能力,需要从威胁发生的源头和传播途径进行保护.从威胁发生的源头、途径和终端出发,实现了基于编程风格的源代码作者溯源追踪、移动应用安全加固及渠道监测、基于深度学习的移动应用安全检测,构建移动应用安全生态链,保障用户个人信息安全.在实际应用环境中验证了所提出方法的有效性,结果显示,该方法能够达到应用全方位安全防护的目的.另外,也对未来的研究方向进行了展望.
2017, 28(11):3072-3079. DOI: 10.13328/j.cnki.jos.005345 CSTR:
摘要:在大型软件项目的开发与维护中,从大量的代码文件中定位软件缺陷费时、费力,有效地进行软件缺陷自动定位,将能极大地降低开发成本.软件缺陷报告通常包含了大量未发觉的软件缺陷的信息,精确地寻找与缺陷报告相关联的代码文件,对于降低维护成本具有重要意义.目前,已有一些基于深度神经网络的缺陷定位技术相对于传统方法,其效果有所提升,但相关工作大多关注网络结构的设计,缺乏对训练过程中损失函数的研究,而损失函数对于预测任务的性能会有极大的影响.在此背景下,提出了代价敏感的间隔分布优化(cost-sensitive margin distribution optimization,简称CSMDO)损失函数,并将代价敏感的间隔分布优化层应用到深度卷积神经网络中,能够良好地处理软件缺陷数据的不平衡性,进一步提高缺陷定位的准确度.
2017, 28(11):3080-3093. DOI: 10.13328/j.cnki.jos.005335 CSTR:
摘要:现有的软子空间聚类算法在分割MR图像时易受随机噪声的影响,而且算法因依赖于初始聚类中心的选择而容易陷入局部最优,导致分割效果不理想.针对这一问题,提出一种基于烟花算法的软子空间MR图像聚类算法.算法首先设计一个结合界约束与噪声聚类的目标函数,弥补现有算法对噪声数据敏感的缺陷,并提出一种隶属度计算方法,快速、准确地寻找簇类所在子空间;然后,在聚类过程中引入自适应烟花算法,有效地平衡局部与全局搜索,弥补现有算法容易陷入局部最优的不足.EWKM,FWKM,FSC,LAC算法在UCI数据集、人工合成图像、Berkeley图像数据集以及临床乳腺MR图像、脑部MR图像上的聚类结果表明,所提出的算法不仅在UCI数据集上能够取得较好的结果,而且对图像聚类也具有较好的抗噪性能,尤其是对MR图像的聚类具有较高的精度和鲁棒性,能够较为有效地实现MR图像的分割.
2017, 28(11):3094-3102. DOI: 10.13328/j.cnki.jos.005351 CSTR:
摘要:microRNAs(miRNAs)在生命进程中发挥着重要作用.近年来,预测miRNAs与疾病的关联关系成为一个研究热点.当前,计算方法整体上可以分为两大类:基于相似度度量的方法和基于机器学习的方法.前者通过度量网络中节点之间的关联强度预测miRNA-疾病关联,但需要构建高质量的生物网络模型;后者将机器学习相关算法应用到这个问题中,但需要构建高可信度的负例集合.基于以上困难和不足,提出了一种计算模型BNPDCMDA,用于预测miRNAs-疾病关联关系.该方法首先构建miRNA-疾病双层网络模型,然后利用miRNA的功能相似度对其进行基于密度的聚类,进而将二分网络投影应用于聚类后的miRNAs及疾病集合构成的miRNA-疾病双层子网中,最终完成对miRNA与疾病关联关系的预测.实验结果表明,采用留一交叉验证法得到的AUC值可达99.08%,明显优于当前其他高效方法.最后,采用BNPDCMDA方法对某些常见疾病所关联的miRNAs进行预测,实验结果获得了文献的支持,进一步表明了该方法的有效性.
2017, 28(11):3103-3114. DOI: 10.13328/j.cnki.jos.005347 CSTR:
摘要:目前,针对复杂网络的社区发现算法大多仅根据网络的拓扑结构来确定社区,然而现实复杂网络中的边可能带有表示连接紧密程度或者可信度意义的权重,这些先验信息对社区发现的准确性至关重要.针对该问题,提出了基于加权稠密子图的重叠聚类算法(overlap community detection on weighted networks,简称OCDW).首先,综合考虑网络拓扑结构及真实网络中边权重的影响,给出了一种网络中边的权重定义方法;进而给出种子节点选取方式和权重更新策略;最终得到聚类结果.OCDW算法在无权网络和加权网络都适用.通过与一些经典的社区发现算法在9个真实网络数据集上进行分析比较,结果表明算法OCDW在F度量、准确度、分离度、标准互信息、调整兰德系数、模块性及运行时间等方面均表现出较好的性能.