引　言

rjxb

软件学报

Journal of Software

1000-9825

软件学报编辑部

中国北京

6515

219a61f8d1c26252cbea88483121dc1d11efe76d1934fb1bceeb7638e2584b7f

10.13328/j.cnki.jos.006515

一种基于各向异性高斯核核惩罚的PCA特征提取算法

PCA Feature Extraction Algorithm Based on Anisotropic Gaussian Kernel Penalty

刘

俊

LIU

Jun

刘俊(1978－), 男, 博士, 讲师, CCF专业会员, 主要研究领域为信息安全, 人工智能, 高性能存储优化, 大规模机器学习, 大数据分析与处理, 区块链

junliu@cqupt.edu.cn 1 *

李

威

Wei

李威(1997－), 男, 硕士生, 主要研究领域为机器学习, Spark平台性能调优, 大数据分析与处理

S191231031@stu.cqupt.edu.cn 1

陈

蜀宇

CHEN

Shu-Yu

陈蜀宇(1963－), 男, 博士, 教授, 博士生导师, CCF高级会员, 主要研究领域为云计算, 可信计算, 行业大数据

s201231012@stu.cqupt.edu.cn 2

徐

光侠

Guang-Xia

徐光侠(1974－), 女, 博士, 教授, 博士生导师, CCF专业会员, 主要研究领域为区块链, 大数据安全与智能分析, 网络安全与管控

xugx@cqupt.edu.cn 1

重庆邮电大学软件工程学院, 重庆 400065

School of Software Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

重庆大学大数据与软件学院, 重庆 401331

School of Big Data & Software Engineering, Chongqing University, Chongqing 401331, China

刘俊, E-mail: junliu@cqupt.edu.cn

25 10 2022

24 11 2021

33 12 4574 4589 9 4 2021 14 10 2021 12 9 2021

2022

刘俊, 李威, 陈蜀宇, 徐光侠. 一种基于各向异性高斯核核惩罚的PCA特征提取算法. 软件学报, 2022, 33(12): 4574–4589

Liu J, Li W, Chen SY, Xu GX. PCA Feature Extraction Algorithm Based on Anisotropic Gaussian Kernel Penalty. Ruan Jian Xue Bao/Journal of Software, 2022, 33(12): 4574–4589 (in Chinese)

提出了一种基于各向异性高斯核核惩罚的主成分分析的特征提取算法. 该算法不同于传统的核主成分分析算法. 在非线性数据降维中, 传统的核主成分分析算法忽略了原始数据的无量纲化. 此外, 传统的核函数在各维度上主要由一个相同的核宽参数控制, 该方法无法准确反映各维度不同特征的重要性, 从而导致降维过程中准确率低下. 为了解决上述问题, 首先针对现原始数据的无量纲化问题, 提出了一种均值化算法, 使得原始数据的总方差贡献率有明显的提高. 其次, 引入了各向异性高斯核函数, 该核函数每个维度拥有不同的核宽参数, 各核宽参数能够准确地反映所在维度数据特征的重要性. 再次, 基于各向异性高斯核函数建立了核主成分分析的特征惩罚目标函数, 以便用较少的特征表示原始数据, 并反映每个主成分信息的重要性. 最后, 为了寻求最佳特征, 引入梯度下降算法来更新特征惩罚目标函数中的核宽度和控制特征提取算法的迭代过程. 为了验证所提出算法的有效性, 各算法在UCI公开数据集上和KDDCUP99数据集上进行了比较. 实验结果表明, 所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法在9种公开的UCI公开数据集上准确率平均提高了4.49%. 在KDDCUP99数据集上, 所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法准确率提高了8%.

This study proposes a feature extraction algorithm based on the principal component analysis (PCA) of the anisotropic Gaussian kernel penalty which is different from the traditional kernel PCA algorithms. In the non-linear data dimensionality reduction, the nondimensionalization of raw data is ignored by the traditional kernel PCA algorithms. Meanwhile, the previous kernel function is mainly controlled by one identical kernel width parameter in each dimension, which cannot reflect the significance of different features in each dimension precisely, resulting in the low accuracy of dimensionality reduction process. To address the above issues, contraposing the current problem of nondimensionalization of raw data, an averaging algorithm is proposed in this study, which has shown sound performance in improving the variance contribution rate of the original data typically. Then, anisotropic Gaussian kernel function is introduced owing each dimension has different kernel width parameters which can critically reflect the importance of the dimension data features. In addition, the feature penalty function of kernel PCA is formulated based on the anisotropic Gaussian kernel function to represent the raw data with fewer features and reflect the importance of each principal component information. Furthermore, the gradient descent method is introduced to update the kernel width of feature penalty function and control the iterative process of the feature extraction algorithm. To verify the effectiveness of the proposed algorithm, several algorithms are compared on UCI public data sets and KDDCUP99 data sets, respectively. The experimental results show that the feature extraction algorithm of the PCA based on the anisotropic Gaussian kernel penalty is 4.49% higher on average than the previous PCA algorithms on UCI public data sets. The feature extraction algorithm of the PCA based on the anisotropic Gaussian kernel penalty is 8% higher on average than the previous PCA algorithms on KDDCUP99 data sets.

各向异性高斯核特征惩罚函数主成分分析梯度下降法

anisotropic Gaussian kernel feature penalty function principal component analysis (PCA) gradient descent algorithm

国家自然科学基金(61772099, 61772098); 重庆市自然科学基金(cstc2021jcyj-msxmX0530); 重庆市“三百”科技创新领军人才支持计划(CSTCCXLJRC201917); 重庆市创新创业示范团队培育计划(CSTC2017kjrc-cxcytd0063)

1 引　言

在数据分析、数据挖掘、模式识别等研究领域中, 数据维数问题是被广大研究学者一直关注的经典问题之一. 降维是解决维数灾难的常用方法. 主要是通过算法大幅度降低数据的维数, 并保留数据中的大部分信息. 特征提取是降维的重要部分, 其主要通过寻找一个子集的可用特征建立一个良好的预测模型来解决降维问题. 在特征提取算法中, 主成分分析(principal component analysis, PCA)算法^[1]是科研工作者一直研究的无监督数据降维算法之一, 它是降维方法中最常用的一种算法^[2]. 主成分分析算法的思想在于很简单, 即减少数据集的维数, 用更少的特征尽可能多地保留原始数据的信息.

主成分分析功能强大且用途广泛, 应用于许多领域的经典统计技术. 它能够提供复杂的多变量概述的方法整理数据^[3], 它也被称为KL (Karhunen-Loeve)变换^[4]. 但是原始数据集在通过主成分分析进行降维之后得到的各个特征维度的含义具有一定的模糊性, 解释不清楚其数据的具体含义, 不如原始样本的解释性强, 而且降维会有一定数据的丢失^[5], 方差小的非主成分信息也可能含有对样本差异的重要信息, 会对后续数据的处理产生一定的影响.

目前, 众多改进的PCA算法研究都主要集中在对特征提取、特征向量方向以及综合值计算的改进. 在对特征提取的改进中, 主要是对原始数据进行对数变换、平方根变换处理消除主成分之间的无量纲化影响. 在特征向量方向的确定上, 不同的方向会直接影响各个主成分的方差贡献率. 此外, 用熵值法改进传统的主成分评价方法能很好地消除用方差贡献率作为权值所带来的主观成分. 但在非线性主成分分析中, 常用的核函数在各维度上主要由同一个参数控制, 各个方向的参数都一样, 体现出一定的局限性.

因此选择由不同核宽参数控制每个维度的核函数一个重要的关注方面. 各向异性高斯核函数的核宽可以反映每个特征的重要程度^[6], 许多研究学者通过各向异性高斯核代替传统的高斯核函数去控制不同方向的参数, 提取出重要的信息. Li等人^[7]为了实现亚像素级的精确定位和精确的形状估计, 提出了一种新的仿射不变斑点测量方法, 通过各向异性高斯核描述斑点的五参数形状, 并提出基于梯度搜索收敛的斑点识别用于自动去除低质量的斑点, 最后得到了较高的定位精度和形状估计精度. Zhao等人^[8]在图像分割目标识别的关键技术研究中, 提出了一种基于各向异性高斯核(ANGK)边缘检测和区域邻接图(RAG)合并算法的混合分割方法. 利用角度ANGK构造各向异性方向导数滤波器来检测原始图像的边缘轮廓. 与传统的基于边缘和区域的方法相比, 该方法具有更好的分割效果.

目前基于核函数的主成分分析研究大多数都是针对几种常见的核函数. 并且在各维度上的映射主要由一个核宽控制, 而各个方向的相同核宽参数不能具体反映出每个特征的重要程度. 各向异性高斯核每个方向的控制参数可以为不相同值, 因此可以从不同的方向反映数据特征的变换信息. 并且在数据局部结构特征不清晰的情况下, 通过给不同方向设置不同的参数, 各向异性高斯核已经被证明能够较好地提取各个方向的有用特征^[9]. 因此近年来, 用各向异性高斯代替传统的核函数去解决非线性问题越来越多, 并取得了显著的效果.

基于以上分析, 本文提出了一种基于各向异性高斯核核惩罚的主成分分析方法, 利用各向高斯核每个方向可以设置不同参数的特点, 反映出主成分信息每个特征的重要程度, 易于更好的大数据分析处理.

本文的贡献总结如下.

(1) 针对现原始数据的无量纲化问题, 提出了一种均值化算法以提高原始数据信息主成分的总方差贡献率.

(2) 针对现有核函数用相同核宽表示不同维度特征重要性而导致特征提取准确率低的问题, 提出了用各向异性高斯核的多维核宽向量表征不同维度特征重要性的方法.

(3) 基于各向异性高斯核, 建立了基于核惩罚函数的主成分分析特征提取目标函数. 目标函数通过 \begin{document}${l_0}$\end{document} 范数惩罚函数删除不重要的核宽向量. 为了获得特征提取算法合适的迭代次数和得到特征提取的最优解, 提出了一种梯度下降算法更新各向异性高斯核函数的核宽度和不重要特征的删除, 以尽可能少的特征去表示原始数据.

本文第2节介绍了本文的相关工作; 第3节简要介绍了PCA线性降维方法和KPCA非线性降维方法; 第4节说明了本文的动机; 第5节提出了一种基于各向异性高斯核核惩罚的主成分分析的特征提取算法; 第6节给出了9个公开数据集以及KDDCUP99数据集的实验结果并进行分析评价; 第7节进行了总结并展望未来工作.

2 相关工作

主成分分析是一个无监督学习问题, 它是基于方差去提取最有价值的信息^[10]. 此外, 通过数据降维可以减轻维数灾难^[11]和高维空间中其他不相关属性. 目前在对主成分分析算法的优化主要集中在特征提取的改进、特征向量方向的确定以及主成分综合值计算的改进方法上.

在特征提取的改进中, 主要是对需要进行主成分分析的原始数据集进行对数变换或者平方根变换等一些消除变量之间的无量纲化方法. 宋昱等人^[12]对主成分分析在图像识别的研究中, 提出了一种对数变换的主成分分析算法, 将原始数据集进行对数变换处理, 进一步提升了传统的主成分分析算法处理图像识别领域中含有异常样本数据的性能, 能得到最高的识别精度和最低的重构误差. Tucker等人^[13]提出了一种弹性函数主成分回归算法, 该算法对时间测量中的误差, 函数未对齐等问题进行相位去除和功能校准达到对平方根斜率函数的改进, 大大提高了模型的预测正确性.

特征向量方向的正确选择会直接影响各个样本降维之后的总方差贡献率. Gu^[14]提出了一种基于多特征和主成分分析的海上监视雷达小浮目标检测方法. 该方法主要分为3个阶段: 第1阶段是对雷达波中的特征进行选取组合成一个特征向量以达到最高的总方差贡献率. 第2阶段为对特征向量进行矩阵分解. 第3阶段为构造基于PCA的异常检测器. 第1阶段为第2和第3阶段的特征矩阵分解和异常检测器的建立提供最准确的信息, 该方法大大提高了模型目标检测的检测率. Bhandary等人^[15]为了能够快速准确地诊断出人类肺部异常以进行快速有效的治疗, 采用序列融合和基于主成分分析的特征选择来增强特征向量的选择, 提高了肺癌评估期间的分类准确性.

熵值法、主成分聚类法是从主成分综合值计算方面进行优化. 高光谱图像通常将土地覆盖类型的信息保存为一组连续的窄光谱波段, 为了有效进行分类, Uddin等人^[16]首先对主成分分析算法的目标函数进行优化, 然后对最终得到的主成分进行熵值法处理, 以避免由于根据方差贡献率作为权值来计算综合评价带来的主观成分, 最后提出了一种基于Renyi二次熵的特征选择和改进的主成分分析结合使用的算法, 提高了模型的分类性能.

在美国, 农民的生产水平与信贷约束有很大的联系. Griffin等人^[17]用基于主成分聚类的倾向得分匹配模型, 从可用的农业资源管理调查数据中得出农民的生产水平以确定其信贷约束.

本研究中, 对主成分分析算法的优化主要是在核函数的选择上即特征向量方向的确定, 选择了各向异性高斯核函数来代替传统的高斯核函数, 既展现了核函数线性不可分特点, 又体现了各个主成分特征的重要程度, 并且提高了核主成分分析算法的性能.

3 PCA线性降维和KPCA非线性降维 3.1 PCA线性降维

主成分分析是一个无监督学习问题, 它是一种常用的降维和特征提取方法, 通过将高维数据映射到方差最大的数轴上, 丢弃方差较小的数轴来达到降维目的. 它的主要思想是将一组 \begin{document}$N$\end{document} 维向量数据降为 \begin{document}$K\left( {0 < K < N} \right)$\end{document} 维不相关变量, 即主成分^[18]. 具体目标是使原始数据变换到一个正交基上后各字段两两间协方差为0, 字段的方差则尽可能大. 并且使得原始数据在相互独立的方向上的投影能够尽可能分散, 其中, 尽可能分散就是为了能更多地保留原始信息, 当然寻找的方向相互独立就是为了避免保留下来的信息存在冗余.

将求最大方差的问题通过拉格朗日乘子法转化为求数据矩阵的特征值问题:

① 求最大方差:

\begin{document}$ \left\{ {\begin{array}{l} {\rm{max}}\text{ }{V}^{{\rm{T}}}CV,\\ {\rm{s.t.}}{\text{ }}\left\| V \right\| = 1 . \end{array}} \right. $ \end{document}

又由于 \begin{document}$\left\| V \right\| = {V^{\rm{T}}}V$\end{document} , 故 \begin{document}${\rm{s.t.}}{\text{ }}{V^{\rm{T}}}V = 1$\end{document} 即可.

② 转化为求特征值: 利用拉格朗日乘子法可以将上述问题转化为:

1 \begin{document}$ f\left( {v, \lambda } \right) = {V^{\rm{T}}}CV - \lambda \left( {{V^{\rm{T}}}V - 1} \right) $ \end{document}

其中, \begin{document}$ f\left(v, \lambda \right) $\end{document} 的平稳点和求最大方差问题等价:

2 \begin{document}$ \left\{ {\begin{array}{*{20}{l}} {\dfrac{{\partial f}}{{\partial v}} = 2CV - 2\lambda V = 0} \\ {\dfrac{{\partial f}}{{\partial v}} = {V^{\rm{T}}}V - 1 = 0} \end{array}} \right. $ \end{document}

公式(2)等价于: \begin{document}$\left\{\begin{array}{l}CV=\lambda V\\ \left|\left|V\right|\right|=1\end{array}\right.$\end{document} . \begin{document}$CV = \lambda V$\end{document} 就是求数据矩阵的特征值和特征向量. 因此求出特征值和特征向量并从大到小进行排序, 选择与最大特征值对应的特征向量组成一个正交变换矩阵. 最后原始矩阵通过这个正交矩阵进行变换就得到了线性无关向量组成的矩阵, 即原始矩阵的主成分. Delchambre^[19]也证明过PCA降维效果就是由协方差矩阵的特征值和相应的特征向量的大小确定的.

3.2 核PCA (KPCA)非线性降维

传统的主成分分析算法不能处理非线性的数据. 因此为了扩展对非线性数据的处理, 核PCA^[20]被引入. 其算法思想是对于输入空间中的矩阵X, 通过核函数即非线性映射把 \begin{document}$X$\end{document} 中的所有样本数据映射到一个高维度甚至是无穷纬度的特征空间 \begin{document}$F$\end{document} 中, 再利用PCA算法对其在高维度 \begin{document}$F$\end{document} 空间中的数据集进行降维. 与PCA算法相似之处在于, 二者都是通过数据矩阵的变换将其投影到新的低维空间中. 不同的是核PCA算法可实现数据的非线性降维, 用于处理线性不可分的数据集, 它其实是一个改进的PCA方法, 采用了非线性的核函数来提取主成分.

设 \begin{document}${x_1}, {x_2}, {x_3}, \ldots , {x_n} \in R$\end{document} 是要进行KPCA特征提取的 \begin{document}$n$\end{document} 个高维数据, 那么降维后的主成分信息 \begin{document}${t_i}$\end{document} 就可以通过以下的方法来获取:

3 \begin{document}$ {t_i} = \frac{1}{{\sqrt {{\lambda _i}} }}\gamma _i^{\rm{T}}{\left[ {k\left( {{x_1}, {x_{{\rm{new}}}}} \right), k\left( {{x_2}, {x_{{\rm{new}}}}} \right), \ldots , k\left( {{x_n}, {x_{{\rm{new}}}}} \right)} \right]^{\rm{T}}}, \; i = 1, 2, \ldots , p $ \end{document}

这里的列向量 \begin{document}${\gamma _i}$\end{document} ( \begin{document}$i = 1, 2, \ldots , p$\end{document} ; \begin{document}$0 < p < n$\end{document} )是相对应的 \begin{document}$p$\end{document} 个最大特征值 \begin{document}$\left( {{\lambda _1} \geqslant {\lambda _2}, \ldots , \geqslant {\lambda _p}} \right)$\end{document} 的正交特征向量, \begin{document}$k\left( {{x_i}, {x_j}} \right)$\end{document} 是内核函数实现在高维空间 \begin{document}$ F $\end{document} 中两个向量的内积运算, 不用知道核函数具体的表达式, 它可以直接得到低维数据映射到高维后的内积, 提供了一个从线性到非线性的连接. 它会根据你选择的核函数来生成内核矩阵, 并且每个核函数都有不同的表达式来计算自己的内核矩阵. 相比于PCA, KPCA不仅能够解决非线性结构的问题, 还能得到更高质量的主成分信息, 尽可能地去抽取原始指标包含的信息. 但是两者在降维之后的主成分信息具体的实际意义不明确, 需要根据实际情况选择不同的特征提取方法.

4 核函数选择的重要性

核函数的正确选择是核主成分分析算法的重要步骤, 直接决定了KPCA算法的非线性处理能力^[21]. 常见的核函数有线性核函数、多项式核函数、径向基核函数、Sigmoid核函数等. 选择正确适合的核函数可以高效处理高维特征空间中计算量巨大、“维数灾难”等问题. 常见的几种核函数如表1所示.

4个常见的核函数

英文名称	缩写	数学表达式
Linear kernel	Linear	\begin{document}$k\left( {x, y} \right) = {x^{\rm{T}}}y + c$\end{document}
Polynomial kernel	Poly	\begin{document}$k\left( {x, y} \right) = {\left( {a{x^{\rm{T}}}y + c} \right)^d}$\end{document}
Radial basis kernel	RBF	\begin{document}$k\left( {x, y} \right) = {\rm{exp}}\left( { - \gamma { {\left\| {\left\| {x - y} \right\|} \right\|}^2} } \right)$\end{document}
Exponential kernel	EK	\begin{document}$k\left( {x, y} \right) = {\rm{exp}}\left( { - \left\| {\left\| {x - y} \right\|} \right\|/2{\sigma ^2} } \right)$\end{document}

通常在没有先验知识的情况下, 人们都会利用自己的主观经验去选择核函数, 具有很大的随意性. 并且常见的几种传统核函数在各维度上主要由同一个参数控制, 各个方向的参数都一样, 无法准确反应KPCA体现每个主成分的重要性, 有一定的局限性.

因此, 选择一个能够让不同的方向由不同的参数控制的核函数, 使其能够体现出每个特征的重要程度, 并提高核主成分分析算法的性能非常重要.

5 基于各向异性高斯核核惩罚的主成分分析方法

本文提出的基于各向异性高斯核核惩罚的PCA (AP-KPCA)算法主要由均值化算法、核函数的确定、特征惩罚函数的选择、改进的目标函数组成. 均值化算法主要用来处理原始样本, 改进样本数据的无量纲化. 核函数主要用各向异性高斯核替代了传统的高斯核函数, 利用多核宽参数来控制原始数据映射到高维空间的过程. 特征惩罚函数对降维过程中核参数进行惩罚, 以便提取重要的特征.

5.1 均值化处理数据集算法

AP-KPCA的一个关键步骤是求主成分信息, 通常会对原始数据集进行标准化处理来消除变量量纲的影响, 但在消除量纲的同时, 也消除了各指标之间变异程度的差异信息. 事实上, 原始指标是包含两方面的信息. 一部分是由相关系数矩阵来体现的各指标之间的相关信息, 另一部分是由各指标的方差大小来反映的各指标变异程度的差异信息. 原始数据的标准化使各指标的方差都变成了1, 消除了各指标之间变异程度上的差异信息. 因此从数据标准化之后得到的主成分, 不能准确反映原始数据的全部信息.

均值化后数据的协方差矩阵的对角元素是各指标的变异系数的平方, 它反映了各指标变异程度上的差异^[22]. 因此, 均值化处理不会改变各指标间的相关系数, 并且协方差矩阵反映了相关系数矩阵的全部信息. 它不仅消除了原始指标量纲和数量级的影响, 还能包含原始数据的全部信息, 即用更少的特征包含更多的原始信息, 提高方差贡献率.

因此, 在原始样本数据处理方面, 本文提出的AP-KPCA采用均值化算法对PCA算法的原始样本数据进行改进. 假设有 \begin{document}$n$\end{document} 个被评价的对象和 \begin{document}$p$\end{document} 个指标, 那么原始样本数据中第 \begin{document}$i$\end{document} 个对象的第 \begin{document}$j$\end{document} 个评价指标可以定义为: \begin{document}${X_{ij}} \; (i = 1, 2, \ldots , n; \; j = 1, 2, \ldots , p )$\end{document} ; 每个评价指标的均值为 \begin{document}${\overline x_j}$\end{document} , \begin{document}${\overline{x}}_{j}$\end{document} 定义为: \begin{document}${\overline x_j} = {X_{ij}}/j$\end{document} . 均值化定义为各个指标的均值除以它们对应的原始数据, 假设均值化定义为 \begin{document}${Z_{ij}}$\end{document} , 其可定义为公式(4):

4 \begin{document}$ {Z_{ij}} = {X_{ij}}/{\overline x_j} $ \end{document}

经过均值化后每个协方差矩阵 \begin{document}$V$\end{document} 的元素为:

5 \begin{document}$ {u_{ij}} = \frac{1}{{n - 1}}\mathop \sum \limits_{i = 1}^n ({Z_{li}} - {Z_i})({Z_{lj}} - {Z_j}) $ \end{document}

根据上述表达可知, 在经过均值化后的各个指标的均值为1, 因此有:

6 \begin{document}$ {u_{ij}} = \frac{1}{{n - 1}}\mathop \sum \limits_{i = 1}^n ({Z_{li}} - 1)({Z_{lj}} - 1)=\frac{1}{{n - 1}}\mathop \sum \limits_{l = 1}^n \frac{{\left( {{x_{li}} - {x_i}} \right)({x_{lj}} - {x_j})}}{{{x_i}{x_j}}} = \frac{{{R_{ij}}}}{{{x_i}{x_j}}} $ \end{document}

其中, \begin{document}${R_{ij}}$\end{document} 就为原始数据的协方差. 假设当 \begin{document}$i = j$\end{document} 时, 协方差矩阵就为 \begin{document}${u_{ij}} = {\left( {\dfrac{{\overline {{R_{ii}}} }}{{{x_i}}}} \right)^2}$\end{document} , \begin{document}${R_{ii}} = \dfrac{1}{n}\displaystyle\mathop \sum \limits_{l = 1}^n {\left( {{x_{li}} - {x_i}} \right)^2}$\end{document} , 所以说在经过均值化后数据的协方差矩阵 \begin{document}$V$\end{document} 的对角元素是各个指标的变异系数 \begin{document}${S_{ii}}/{X_i}$\end{document} 的平方. 在均值化前, 各个指标之间的相互影响程度的相关系数 \begin{document}$r_{ij}'$\end{document} 为: \begin{document}$r_{ij}'$\end{document} = \begin{document}$\dfrac{{{R_{ij}}}}{{\overline {{R_{ii}}}\; \overline {{R_{jj}}} }}$\end{document} , 均值化后的各个指标之间的相互影响程度的相关系数 \begin{document}${r_{ij }}=\dfrac{{{u_{ij}}}}{{\overline {{u_{ii}}}\; \overline {{u_{jj}}} }}$\end{document} , 将公式(6)代入可得:

7 \begin{document}$ r_{ij}' = \frac{{{R_{ij}}}}{{{x_i}{x_j}}}\Bigg/\frac{{\overline {{R_{ii}}} }}{{{x_i}}}\frac{{\overline {{R_{jj}}} }}{{{x_j}}} = \frac{{{R_{ij}}}}{{\overline {{R_{ii}}} \;\overline {{R_{jj}}} }} = {r_{ij}} $ \end{document}

根据以上证明可知, 经过均值化后原始数据的协方差矩阵中不仅包含了由于标准化所带来的各个指标各指标之间变异程度, 并且也消除了指标量纲与数量级的影响.

5.2 各向异性高斯核函数

常见的核函数有高斯核、线性核、多项式核、西蒙核等, 本文选择的各向异性高斯核是传统高斯核的一种改进. 传统的高斯核函数将原始数据映射到高维空间的过程中主要由一个参数控制, 即每个方向维度的参数都一样, 不能反映出每个特征的重要性. 而各向异性高斯核可以对特征向量的每个维度设置不同的核参数, 通过设置不同方向的参数, 提取各个方向有用的特征信息^[23]. 其定义为:

8 \begin{document}$ K\left( {{x_i}, {x_s}, v} \right) = {\rm{exp}}\left[ { - \mathop \sum \nolimits_{j = 1}^n \frac{{{{\left( {{x_{ij}} - {x_{sj}}} \right)}^2}}}{{2\sigma _j^2}}} \right] $ \end{document}

其中, \begin{document}${x_i}, {x_s}$\end{document} 为样本空间, \begin{document}$n$\end{document} 为样本的特征维度, \begin{document}${\sigma _j}$\end{document} 为各向异性高斯核函数的核宽参数, 对应 \begin{document}$ n $\end{document} 维度样本特征, 具体为 \begin{document}$\sigma = \left[ {{\sigma _1}, {\sigma _2}, {\sigma _3}, \ldots , {\sigma _n}} \right]$\end{document} . 不同的核宽参数能反映样本数据中某个特征的重要程度^[9], 即特征 \begin{document}$n$\end{document} 的重要程度由 \begin{document}${\sigma _n}$\end{document} 来决定. 例如: \begin{document}${\sigma _n}$\end{document} 的值越大, 那么 \begin{document}$K\left( {{x_i}, {x_s}, v} \right)$\end{document} 值就越接近于0, 贡献也接近于0, 间接就说明特征 \begin{document}$n$\end{document} 的重要程度较低. \begin{document}${\sigma _n}$\end{document} 的值越小, 那么 \begin{document}$K\left( {{x_i}, {x_s}, v} \right)$\end{document} 值就会很大, 贡献也就会很大, 间接就说明特征 \begin{document}$n$\end{document} 的重要程度较高. 将 \begin{document}${\sigma _n}$\end{document} 值较大的对应的特征 \begin{document}$n$\end{document} 删掉, 提取 \begin{document}${\sigma _n}$\end{document} 值较小的对应的特征, 这样就达到了特征提取的目的. 因此, 核宽向量 \begin{document}$v$\end{document} ^[23]的定义为:

9 \begin{document}$ v = \left[ {\frac{1}{{{\sigma _1}}}, \frac{1}{{{\sigma _2}}}, \frac{1}{{{\sigma _3}}}, \ldots , \frac{1}{{{\sigma _n}}}} \right]^{} $ \end{document}

10 \begin{document}$ \begin{aligned}[b] K\left( {{x_i}, {x_s}, v} \right) =& {\rm{exp}}\left[ { - \mathop \sum \nolimits_{j = 1}^n \frac{{{{\left( {{x_{ij}} - {x_{sj}}} \right)}^2}}}{{2\sigma _j^2}}} \right] = {\rm{exp}}\left[ { - \mathop \sum \nolimits_{j = 1}^n \dfrac{{{{\left( {{x_{ij}} - {x_{sj}}} \right)}^2}}}{{2{{\left( {\dfrac{1}{{{v_j}}}} \right)}^2}}}} \right] ={\rm{exp}}\left[-\frac{{{\displaystyle \sum }}_{j=1}^{n}{\left[{v}_{j}\left({x}_{ij}-{x}_{sj}\right)\right]}^{2}}{2}\right] \\ =& {\rm{exp}}\left[-\frac{{{\displaystyle \sum }}_{j=1}^{n}{\left[{v}_{j}{x}_{ij}-{v}_{j}{x}_{sj}\right]}^{2}}{2}\right] =\text{exp}\left[-\frac{{\left({v}_{1}{x}_{i1}-{v}_{1}{x}_{s1}\right)}^{2}+{\left({v}_{2}{x}_{i2}-{v}_{2}{x}_{s2}\right)}^{2}+\ldots +{\left({v}_{n}{x}_{in}-{v}_{n}{x}_{sn}\right)}^{2}}{2}\right]\\ =& {\rm{exp}}\left[-\frac{{{\displaystyle \sum }}_{j=1}^{n}{\left[{v}_{j}{x}_{ij}-{v}_{j}{x}_{sj}\right]}^{2}}{2}\right] \end{aligned} $ \end{document}

因此核函数变为:

11 \begin{document}$ K\left( {{x_i}, {x_s}, v} \right) = {\rm{exp}}\left[ { - \frac{{v*{x_i} - v*{x_s}^2}}{2}} \right] $ \end{document}

其中, \begin{document}$a*b = \left( {{a_1}{b_1}, {a_2}{b_2}, \ldots , {a_n}{b_n}} \right)$\end{document} , \begin{document}$ v $\end{document} 也被称为各向异性高斯核的核宽向量.

5.3 特征惩罚函数

特征惩罚函数可以通过外部罚函数法、内部罚函数法等将目标函数由有约束问题转化为无约束优化问题. 其中 \begin{document}${l_0}$\end{document} 范数逼近具有非平滑的特性并且可以用来寻找最少最优的系数特征项, 已经被广泛应用在有向量参数的目标函数中, 在基于支持向量机和K-means的特征选择算法中均得到很好的验证^[9,23]. 因此本文也采用 \begin{document}${l_0}$\end{document} 范数逼近的方法应用在核主成分分析的特征提取过程中. 根据文献[9,23], \begin{document}${l_0}$\end{document} 范数 \begin{document}${\left| {\left| w \right|} \right|_0}$\end{document} 可以由一个凹函数近似表达为:

12 \begin{document}$ {\left| {\left| w \right|} \right|_0} \approx {{{e}}^{\rm{T}}}\left( {{{e}} - {\rm{exp}}\left( { - \beta \left| w \right|} \right)} \right) $ \end{document}

其中, \begin{document}$e = {\left( {1, \ldots , 1} \right)^{\rm{T}}}$\end{document} , \begin{document}$ \; \beta \in {R}_{+} $\end{document} , 并根据公式(12)提出了特征惩罚函数:

13 \begin{document}$ f\left( v \right) = {e^{\rm{T}}}\left( {e - {\rm{exp}}\left( { - \beta \left| w \right|} \right)} \right) = \mathop \sum \nolimits_{j = 1}^n \left( {1 - {\rm{exp}}\left( { - \beta {v_j}} \right)} \right) $ \end{document}

这里的 \begin{document}${v_j}$\end{document} 描述的是各向异性高斯核中的核宽参数. \begin{document}$\;\beta $\end{document} 为近似参数, 根据文献[9,23]的结论, \begin{document}$\;\beta $\end{document} 的值设置为5时效果较好而且适应的范围最广, 因此本文也将 \begin{document}$\;\beta $\end{document} 的值设置为5.

5.4 目标函数的建立

在求解PCA运算过程中, 目标是选择更少的单位正交基, 使原始数据变换到这组基上后, 各字段两两间协方差为0, 方差尽可能大. 而计算得到的协方差矩阵中对角线元素则是两两字段间的方差, 其他元素则是两两字段间的协方差, 将协方差矩阵进行对角化便可得到其特征值和特征向量. 因此它的求解目标公式(14)定义为:

14 \begin{document}$ \left( {\mathop \sum \nolimits_{i = 1}^m {Z_i}{Z_i}^{\rm{T}}} \right)W = \lambda W $ \end{document}

其中, \begin{document}${Z_i}$\end{document} 是样本点 \begin{document}${x_i}$\end{document} 在高维空间中的像, \begin{document}$W$\end{document} 为特征向量组成的矩阵, \begin{document}$\lambda $\end{document} 为特征值, 简化得:

15 \begin{document}$ W = \mathop \sum \nolimits_{i = 1}^m {Z_i}\left( {{Z_i}^{\rm{T}}W} \right)/\lambda = \mathop \sum \nolimits_{i = 1}^m {Z_i}{\alpha _i} $ \end{document}

然后假定 \begin{document}${Z_i}$\end{document} 是由原始属性空间中的样本点 \begin{document}${x_i}$\end{document} 通过非线性映射 \begin{document}$\phi $\end{document} 产生的, 那么将公式(14)和公式(15)改成如下:

16 \begin{document}$ \left( {\mathop \sum \nolimits_{i = 1}^m \phi \left( {{x_i}} \right)\phi {{\left( {{x_i}} \right)}^{\rm{T}}}} \right)W = \lambda W $ \end{document}

17 \begin{document}$ W = \mathop \sum \nolimits_{i = 1}^m \phi \left( {{x_i}} \right){\alpha _i} $ \end{document}

引入各向异性高斯核函数:

18 \begin{document}$ K\left( {{x_i}, {x_j}, v} \right) = {\rm{exp}}\left[ { - \frac{{v{{*}}{x_i} - v{{*}}{x_j}^2}}{2}} \right] $ \end{document}

化简后得到 \begin{document}$KA = \lambda A$\end{document} , 其中, \begin{document}$K$\end{document} 为对应的核矩阵, \begin{document}$A = \left( {{\alpha _1};{\alpha _2}; \ldots ;{\alpha _m}} \right)$\end{document}

最后得到样本 \begin{document}${x_i}$\end{document} 在投影后的第 \begin{document}$j$\end{document} 维坐标Z_j为:

19 \begin{document}$ {Z_j} = W_j^{\rm{T}}\phi \left( x \right) = \mathop \sum \nolimits_{i = 1}^m \alpha _i^jK\left( {{x_i}, {x_j}, v} \right) $ \end{document}

因此, 目标函数可以写为:

20 \begin{document}$ \mathop {\min }\limits_v F\left( v \right) = \mathop \sum \nolimits_{i = 1}^m \alpha _i^jK\left( {{x_i}, {x_j}, v} \right) $ \end{document}

目标函数通过 \begin{document}${l_0}$\end{document} 范数惩罚函数删除不重要的核宽向量 \begin{document}$v$\end{document} 以及对应的特征向量, 并且所选择的特征尽可能地包含了原始特征信息. 因此将特征惩罚函数公式(13)引入公式(20)中建立AP-KPCA算法的最小化目标函数公式(21):

21 \begin{document}$\left\{ { \begin{array}{l} \mathop {\min }\limits_v F\left( v \right) = \displaystyle\mathop \sum \nolimits_{i = 1}^m \alpha _i^jK\left( {{x_i}, {x_j}, v} \right) + \mu f\left( v \right)\\ {v_i} \geqslant 0, \; \forall i \in \left\{ {1, \ldots , N} \right\} \end{array}} \right. $ \end{document}

其中, \begin{document}$\mu $\end{document} 是预定义的参数, 用于惩罚 \begin{document}$f\left( v \right)$\end{document} .

基于各向异性高斯核的核惩罚的主成分分析算法的具体步骤如算法1.

算法1. 基于各向异性高斯核的核惩罚的主成分分析算法.

Input: \begin{document}$ {x}_{i} $\end{document} : Data sample, \begin{document}${x}_{1}, \ldots , {x}_{k}$\end{document} ;

Output: \begin{document}$ {Z}_{j} $\end{document} : Data samples after dimensionality reduction, \begin{document}${Z}_{1}, \ldots , {Z}_{k} \; (k\ll i)$\end{document} .

1. \begin{document}${\rm{Begin}}$\end{document}

2. \begin{document}${{{\rm{Define}}}}\;{\rm{the}}\;{\rm{eigenvector}}\;{\rm{matrix}}{\rm{:}}\;W;\;{\rm{Eigenvalues}}{\rm{:}}\;\lambda ;$\end{document}

3. \begin{document}${\rm{for}}\;\left(i=0;i\leqslant m;i++\right)\{$\end{document}

4.　　　 \begin{document}$W=\phi \left({x}_{i}\right){\alpha }_{i};$\end{document}

5. \begin{document}$ \} $\end{document}

6. \begin{document}${\rm{for}}\;\left(i=0;i\leqslant m;i++\right)\{$\end{document}

7.　　　 \begin{document}$ {Z}_{j}={\alpha }_{i}^{j}K\left({x}_{i}, {x}_{j}, v\right); $\end{document}

8. \begin{document}$ \} $\end{document}

9. The feature vector with variance contribution rate > 85% is selected as the data sample after dimensionality reduction: \begin{document}${Z}_{1}, \ldots , {Z}_{k}\;(k\ll i)$\end{document} ;

10. \begin{document}${\rm{End}}$\end{document}

5.5 特征删除和核宽的更新

基于梯度下降的特征删除算法已经在SVM和K-means^[9,23,24]的算法中得到了验证, 因此, 本文也采用了梯度下降的算法对特征进行删除和更新核宽, 在迭代的过程中最小化核宽向量 \begin{document}$v = \left[ {\dfrac{1}{{{\sigma _1}}}, \dfrac{1}{{{\sigma _2}}}, \dfrac{1}{{{\sigma _3}}}, \ldots , \dfrac{1}{{{\sigma _n}}}} \right]$\end{document} , 并在每次迭代中对不重要的特征信息 \begin{document}${\lambda _j}$\end{document} 进行删除以及核宽向量 \begin{document}$v$\end{document} 的更新, 具体算法步骤如算法2.

算法2. 特征删除和核宽的更新.

1. initialization: \begin{document}$ v={v}_{0}e $\end{document}

2. definition: \begin{document}$EndFlag={\rm{true}};t=0$\end{document}

3. \begin{document}${\rm{while}}\;\left(EndFlag=={\rm{true}}\right)\;{\rm{do}}$\end{document}

4.　 \begin{document}${\rm{KPCA}}\left({\rm{ANGKS}}\right)$\end{document} ;

5.　 \begin{document}${v}^{t+1}={v}^{t}-\gamma \nabla {F}\left({v}^{t}\right)$\end{document} ;

6.　 \begin{document}${\rm{for}}\;{\rm{all}}\;\left({\lambda }_{j}^{t+1} < \in \right)\;{\rm{do}}$\end{document}

7.　　　 \begin{document}$ {{v}_{j}^{t+1}=\lambda }_{j}^{t+1}=0 $\end{document} ;

8. 　　　 \begin{document}${\rm{endfor}}$\end{document}

9.　 \begin{document}${\rm{if}}\;({v}^{t+1}=={v}^{t})\;\;{\rm{then}}$\end{document}

10.　　 \begin{document}$EndFlag={\rm{false}}$\end{document} ;

11. 　　 \begin{document}${\rm{endif}}$\end{document}

12.　 \begin{document}$ t=t+1 $\end{document} ;

13. \begin{document}${\rm{endwhile}}$\end{document}

利用梯度下降算法对核宽向量进行更新, 当核宽向量集合 \begin{document}$ v $\end{document} 中对应特征值的方差贡献率小于预先定义的ϵ则将其删除(对应算法2第5–8行); 当 \begin{document}$ t $\end{document} 时刻的核宽向量与 \begin{document}$t + 1$\end{document} 时刻的核宽向量相近似的时候, 则整个算法结束(对应算法2的第9–11行). 对于特征 \begin{document}$ j $\end{document} , 梯度下降函数为:

22 \begin{document}$ {\nabla _j}F\left( v \right) = \mathop \sum \nolimits_{i, s = 1}^m {v_j}{\left( {{x_{i, j}} - {x_{s, j}}} \right)^2}\alpha _i^jK\left( {{x_i}, {x_s}, v} \right) + \mu \beta {\rm{exp}}\left( { - \beta {v_j}} \right) $ \end{document}

6 实验与分析 6.1 实验数据集

UCI公开数据集^[25,26]是一种标准的测试数据集并被广泛地应用于各种机器学习算法的测试中. 因此本文为了检测本文提出的AP-KPCA算法的有效性, 也选取了UCI公开数据集作为测试数据. 此外, 为了更有效地验证算法在实际场景中的有效性, 引入了网络攻击环境中常用的KDDCUP99数据集中进行验证. 在UCI公开数据集中, 选择了abalone、column、glass、iris、cmc、south、segment、waveform和wine 这9个大小不同的测试数据集, 这些测试数据集涉及医学、自然科学和物理等学科领域. 数据集的样本数目的范围较广, 样本数目较小的iris数据集为150, 而样本数目最大的数据集waveform个数为5 000. 而特征维度最小的是iris数据集, 维度为3, 特征最大的维度是waveform, 维度为21. 从数据集的多样性、样本和维度的广泛围可以在一定程度上测试所提出算法的有效性. 各数据集的详细信息(数据集名称、类别数目、样本数和特征个数)如表2所示.

数据集

数据集名称	类别数目	样本数	维数 (原始特征个数)
abalone	3	4 177	9
column	2	310	6
glass	6	214	9
iris	3	150	4
cmc	3	1 473	9
south	2	1 000	20
segment	7	2 310	19
waveform	3	5 000	21
wine	3	178	13
KDDCUP99	2	2 000 000	41

6.2 数据集的预处理

用均值化方法对选取的9个UCI公开数据集以及KDDCUP99进行预处理, 为了证明所提出的均值化方法的有效性, 将其得到的方差贡献率与传统的PCA算法进行对比, 得到表3.

方差贡献率对比

数据集名称	维数 (降维之后的)	传统的PCA算法	改进的PCA算法
abalone	2	0.94779206	0.96033089
column	3	0.86691033	0.97966776
glass	5	0.89310496	0.99906141
iris	2	0.95800975	0.97884042
cmc	6	0.85018334	0.99060549
south	13	0.85883466	0.92552102
segment	7	0.88651302	0.98826480
waveform	9	0.85114392	0.99993117
wine	7	0.89336794	0.94765788
KDDCUP99	13	0.90817923	0.94157903

从表3可以明显看出所选取的10个公开数据集在进行均值化处理之后, 明显提高其相应的方差贡献率, 用同样的特征维度表示出更多的原始信息, 并剔除了原始数据中不重要的冗余信息.

6.3 评价指标与评价方法

为了验证本文提出的AP-KPCA算法的有效性. 首先将UCI数据样本和KDDCUP99数据集采用AP-KPCA算法进行降维, 然后采用SVM算法对降维后的数据进行分类, 得到全局最优解^[27]. 最后采用谢娟英等人^[28]在研究基于基因表达数据进行疾病诊断时所选择的准确率(ACC)、精确率(AUC)、召回率(recall)、F1-score这4个经典的评价指标对分类的有效性进行验证.

本研究实验的评价标准都是通过5次实验取平均值作为最后的结果. 实验首先比较了未加入惩罚项的基于各向异性高斯核的主成分分析算法(KPCA(ANGKS))与线性主成分分析方法(PCA)、基于线性核函数的主成分分析方法(KPCA(linear))、基于高斯核函数的主成分分析方法(KPCA(rbf))、基于多项式核函数的主成分分析方法(KPCA(ploy))、文献[29]所提出的改进LDA的特征提取算法以及鲁棒性主成分分析方法(RobustPCA)分别对10个公开数据集进行降维, 再分别用SVM分类器^[30] (统一惩罚因子C取100, 核函数采用线性核函数, 其余参数均取默认值)对降维之后的主成分信息作分类预测, 计算出准确率、精确率、召回率和F1-score并进行对比. 然后比较加入惩罚项的基于各向异性高斯核的主成分分析算法(AP-KPCA)与KPCA(ANGKS)算法的性能.

6.4 实验结果与分析

本节首先比较了本文提出的 \begin{document}${\rm AP}{\textit{-}}{\rm KPCA}$\end{document} 算法、 \begin{document}$ \mathrm{P}\mathrm{C}\mathrm{A} $\end{document} 算法、KPCA(linear)算法^[31]、KPCA(rbf)算法^[32]、KPCA(ploy)算法^[33]、文献[29]提出的改进LDA的特征提取算法以及RobustPCA算法在表2数据集中的性能, 比较各特征提取的主成分信息对应分类器的各指标值, 然后对各算法在5次实验之后准确率平均值进行了比较, 最后对核主成分分析的核函数的惩罚项以及核参数进行了分析和讨论.

6.4.1 实验结果

本小节以iris、glass和wine数据集为例, 采用10折交叉验证方法划分训练集与测试集, 对比AP-KPCA算法与各算法采用 \begin{document}$ \mathrm{S}\mathrm{V}\mathrm{M} $\end{document} 分类的实验结果. 图1分别是各算法在iris、glass和wine数据集的实验结果.

各算法在不同数据集下的SVM分类器指标值

从图1实验结果显示, 红色虚线代表的是本文所提出的AP-KPCA算法, 可以看出在本文所举例的3个数据集中, 进行SVM分类之后. 在准确率、精确率, 召回率和F1-score值这4个指标中, 都优越于其他对比的算法, 证明了AP-KPCA算法的有效性.

从glass数据集的实验结果显示, 本文所提出的AP-KPCA算法提取的主成分信息的SVM分类器的各指标值绝对地优于对比算法, 然后是RobustPCA算法, 接着是文献[29]所提出的改进LDA的降维算法和基于多项式核的主成分分析算法, 线性主成分分析算法所提取的主成分信息的SVM分类器的性能最差.

从iris数据集的实验结果显示, 各个算法所提取的主成分信息的分类性能指标虽然纵横交错, 在准确率、精确率分类性能指标中, 其他几种算法都有高于本文所提出的算法, 但本文所提出的AP-KPCA算法提取的主成分信息的分类性能指标都处于一个较高水平的位置, 线性主成分分析提取的主成分信息的分类性能最差.

从wine数据集的实验结果显示, 本文提出的AP-KPCA算法提取的主成分信息的分类性能优于其他几种算法提取的主成分信息的分类性能. 文献[29]提出的特征提取算法和RobustPCA算法各个分类指标都趋于稳定, 分类性能紧随其后, 基于线性核的主成分分析算法和基于高斯核的主成分分析算法提取的主成分信息的分类性能居中, 基于多项式核的主成分分析算法提取的主成分信息的分类性能最差.

综上所述, 本文所提出的AP-KPCA算法能提取出更优质的主成分信息, 而加入的惩罚项对各向异性高斯核函数进行惩罚能更好地剔除冗余信息, 证明AP-KPCA算法要由于其他对比算法.

6.4.2 各算法准确率性能比较

为了验证本文所提出算法的整体性能, 比较各算法在表2数据集中5次实验所提取的主成分信息对应分类器的各指标平均结果的最优值. 表4分别展示了各个算法在9个数据集和KDDCUP99数据集提取的主成分信息对应 \begin{document}$ \mathrm{S}\mathrm{V}\mathrm{M} $\end{document} 分类器的最优平均分类准确率. 表5分别展示了各个算法在9个数据集和KDDCUP99数据集提取的主成分信息对应 \begin{document}$ \mathrm{S}\mathrm{V}\mathrm{M} $\end{document} 分类器的平均方差. 其中加粗的表示各算法提取的主成分信息的分类最优准确率和方差. 具体如表4–表6所示.

各算法特征提取准确率均值比较

数据集	n	AP-KPCA	KPCA(ANGKS)	PCA	KPCA(linear)	KPCA(poly)	KPCA(rbf)	文献[29]	RobustPCA
abalone	2	0.5371	0.5339	0.5382	0.5359	0.5219	0.5433	0.5508	0.5565
column	3	0.8537	0.8408	0.7526	0.7806	0.7634	0.7913	0.8279	0.8344
glass	5	0.7125	0.6875	0.6093	0.6187	0.6593	0.6062	0.64375	0.6562
iris	2	0.9733	0.9688	0.92	0.9422	0.9466	0.96	0.9466	0.96
cmc	6	0.4825	0.4784	0.4394	0.4616	0.4421	0.4562	0.4943	0.4820
south	13	0.7740	0.7813	0.7706	0.7586	0.758	0.7613	0.7666	0.7533
segment	7	0.8349	0.8308	0.8268	0.8317	0.7197	0.8513	0.9454	0.9584
waveform	9	0.8758	0.8736	0.8722	0.87	0.8710	0.8633	0.8665	0.8656
wine	7	0.9849	0.9924	0.9371	0.9428	0.92	0.9485	0.9714	0.9584
KDDCUP99	13	0.9933	0.9800	0.9133	0.9466	0.9466	0.9466	0.9371	0.9666

各算法特征提取性能准确率方差比较

数据集	n	AP-KPCA	KPCA(ANGKS)	PCA	KPCA(linear)	KPCA(poly)	KPCA(rbf)	文献[29]	RobustPCA
abalone	2	0.000300317	0.000207961	0.00010592	0.000305922	0.000186623	0.00009681	0.000142483	0.000081528
column	3	0.000265927	0.001237137	0.00098277	0.001653372	0.004220141	0.00130650	0.001329633	0.002289282
glass	5	0.000805664	0.003051758	0.00097656	0.004589844	0.001635742	0.00187988	0.006396484	0.002807617
iris	2	0.000145679	0.000395062	0.00014814	0.000395062	0.000395062	0.00034567	0.000641975	0.000592593
cmc	6	0.000288974	0.000239098	0.00057434	0.000114664	0.000593888	0.00029668	0.000210818	0.000708552
south	13	0.000753333	0.000352222	0.00118555	0.000603333	0.000642222	0.00025888	0.000672222	0.000416667
segment	7	0.000189069	0.000182614	0.00010723	0.000870382	0.000429361	0.00020718	0.000145133	0.000021979
waveform	9	0.000149778	0.000736889	0.00036888	0.000480000	0.000463556	0.00033333	0.000220889	0.000448000
wine	7	0.000427198	0.000106842	0.00016326	0.000163265	0.000979592	0.00057142	0.000163265	0.000249199
KDDCUP99	13	0.000222222	0.000333333	0.00033333	0.000333333	0.000333333	0.00033333	0.000163265	0

从表4中可以看出, 本文所提出的基于各向异性高斯核的主成分分析算法在7/10的数据集上表现更好, 其中加入惩罚项的AP-KPCA算法比未加入惩罚项的效果更优. 其中n表示的是数据集进行各个算法之后所提取的特征维数, 代表原始信息的特征维度. south数据集从原来的20维降到13维, waveform数据集从原来的21维降到9维, wine数据集从原来的13维降到7维, AP-KPCA算法都在该数据集中提取了很好的主成分信息, 展示出更好的分类性能, 说明本文所提出的算法更适合于更高维的数据集的特征提取, 并且能达到一个很好的效果. 结合表5可以看出, 本文所提出的基于各向异性高斯核的主成分分析算法在4/5的数据集上求出的准确率均值越大方差就越小, 证明本文所提出的模型的有效性.

各算法特征选择的平均准确率如图2所示.

各算法特征提取性能比较

从图2中可以明显看出, 红色的线代表的本文所提出的AP-KPCA算法在不同数据集下的平均准确率, 大部分点红色的线都居于上位部分, 说明此方法的平均准确率在大部分的数据集下是要优于其他对比算法的.

综上所述, 本文提出的基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法在9种公开的UCI公开数据集上准确率平均提高了4.49%. 在KDDCUP99数据集上, 本文提出的基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法准确率提高了8%.

6.4.3 惩罚项影响及讨论

本小节主要验证了惩罚项对采用各向异性高斯核函数的KPCA算法的影响. 因此, 本节比较了加入惩罚项的AP-KPCA算法和未加入惩罚项的KPCA算法. 数据集采用表2中的数据, 评价方法仍采用SVM分类算法对使用AP-KPCA和KPCA算法降维后的数据进行分类, 再比较准确率ACC、精确率AUC、召回值recall和F1-score值, 通过5次实验的平均值来作为最终的结果.

图2是两种算法在9个数据集所选主成分对应SVM分类器的最优平均分类准确率ACC、精确率AUC、召回值recall、F1-score值的比较.

图2实验结果显示, 本文提出的AP-KPCA算法提取的特征子集的SVM分类器的各指标值在9个数据集下都优于未加入惩罚项的基于各向异性高斯核函数的主成分分析算法, 说明特征惩罚函数对惩罚核主成分分析算法的效果比较明显.

综合图1和图2的实验结果来看, 本文所提出的基于惩罚项各向异性高斯核的主成分分析算法能提取出类别区分能力很好的特征子集更优质的主成分信息, 优于其他对比算法.

6.4.4 核参数的影响及讨论

本文所提出的梯度下降法更新核宽向量的优点是能自动获得一个最优的特征子集, 根据特征子集中的核宽参数对应的准确率去进行核宽向量的更新, 并不断调整以达到一个最优的状态. 图3给出了iris数据集在不同核参数下所提取的主成分信息对应的SVM分类准确率, 改变核参数值为: {2⁻⁵, 2⁻⁴, 2⁻³, 2⁻², 2⁻¹, 2⁰, 2¹, 2², 2³, 2⁴, 2⁵}.

有无惩罚项的KPCA(ANGKS)算法在9种数据集下的SVM分类器指标值

从图4中, 可以明显看出核参数在2⁻²和2²之间时, 基于各向异性高斯核核惩罚的主成分分析算法性能趋于稳定状态, 而对于更高或者更低的值, 其性能较差. 所以在选取核参数时, 选取2⁻²和2²之间的值能得到一个很好的效果.

iris数据集特征提取性能

6.4.5 总方差贡献率阈值影响及讨论

本文在进行思考数据降维到多少维度时, 选择了总方差贡献率大于85%的特征向量作为降维后的数据样本. 但是选取不同的阈值就会代表不同的原始数据的信息, 并且会影响后续的分类实验. 本文以south数据集为例, 讨论在阈值为75%、80%、85%、90%左右时进行SVM分类的准确率, 具体如表6所示.

从表6可以明显看出, 总方差贡献率越大, 降维之后的维数也越大, 平均准确率也相对应升高. 但是在选取较高的总方差贡献率之后, 维数也随之增大, 就脱离了本文所提出的初衷用较少的主成分去表征尽可能多的原始数据信息. 因此, 为了避免由于多变量带来的冗余性以及查阅相关文献, 特选取适中的总方差贡献率85%.

south数据集方差贡献率不同阈值性能分析

总方差贡献率 (%)	维数 (降维之后的)	平均准确率
75	7	0.7241
80	9	0.7531
85	11	0.7740
90	13	0.7804

7 总　结

本文提出了一种基于各向异性高斯核惩罚的主成分分析算法. 通过改变每个方向的控制参数, 从不同的方向反映数据特征的变换信息, 并在特征提取的过程中加入了特征惩罚函数, 同时引入梯度下降算法选择用更少的特征代表更多的原始特征信息, 为了验证所提方法的性能进行了一系列实验, 将本文提出的算法与其他几种常见的核函数以及文献[29]进行对比, 实验证明各向异性高斯核要优越于传统的高斯核函数及其他常见的几种核函数. 因此, 相信所提出的各向异性高斯核函数还可以应用在各个领域. 此外本文还提出了用均值法去改进传统的PCA算法, 实验证明了经过均值化处理数据, 可用更少的主成分去提取更多的原始信息, 提高了其方差贡献率.

所有实验表明, 所提出的各向异性高斯核函数的主成分分析算法是有效的, 但是仍有许多改进的余地. 进一步的工作可以选择不同的降维算法替代主成分分析算法, 比如线性判别分析、独立成分分析等.

References 1

van Luong H, Deligiannis N, Seiler J, Forchhammer S, Kaup A

Compressive online robust principal component analysis via n-ℓ₁ minimization

IEEE Trans. on Image Processing 2018 27 9 4314 4329

10.1109/TIP.2018.2831915

Van Luong H, Deligiannis N, Seiler J, Forchhammer S, Kaup A. Compressive online robust principal component analysis Via n-ℓ₁ minimization. IEEE Transactions on Image Processing, 2018, 27(9): 4314–4329. [doi: 10.1109/TIP.2018.2831915]

Chu Z, Yu J, Hamdulla A

LPG-model: A novel model for throughput prediction in stream processing, using a light gradient boosting machine, incremental principal component analysis, and deep gated recurrent unit network

Information Sciences 2020 535 107 129

10.1016/j.ins.2020.05.042

Chu Z, Yu J, Hamdulla A. LPG-model: A novel model for throughput prediction in stream processing, using a light gradient boosting machine, incremental principal component analysis, and deep gated recurrent unit network. Information Sciences, 2020, 535: 107–129. [doi: 10.1016/j.ins.2020.05.042]

Esmaeili M, Ahmadi M, Kazemi A

Kernel-based two-dimensional principal component analysis applied for parameterization in history matching

Journal of Petroleum Science and Engineering 2020 191 107134

10.1016/j.petrol.2020.107134

Esmaeili M, Ahmadi M, Kazemi A. Kernel-based two-dimensional principal component analysis applied for parameterization in history matching. Journal of Petroleum Science and Engineering, 2020, 191: 107134. [doi: 10.1016/j.petrol.2020.107134]

Reddy GT, Reddy MPK, Lakshmanna K, Kaluri R, Rajput DS, Srivastava G, Baker T

Analysis of dimensionality reduction techniques on big data

IEEE Access 2020 8 54776 54788

10.1109/ACCESS.2020.2980942

Reddy GT, Reddy MPK, Lakshmanna K, Kaluri R, Rajput DS, Srivastava G, Baker T. Analysis of dimensionality reduction techniques on big data. IEEE Access, 2020, 8: 54776–54788. [doi: 10.1109/ACCESS.2020.2980942]

Liu J, Tang SL, Xu GX, Ma C, Lin MW

A novel configuration tuning method based on feature selection for hadoop MapReduce

IEEE Access 2020 8 63862 63871

10.1109/ACCESS.2020.2984778

Liu J, Tang SL, Xu GX, Ma C, Lin MW. A novel configuration tuning method based on feature selection for hadoop MapReduce. IEEE Access, 2020, 8: 63862–63871. [doi: 10.1109/ACCESS.2020.2984778]

Li O, Shui PL

Subpixel blob localization and shape estimation by gradient search in parameter space of anisotropic Gaussian kernels

Signal Processing 2020 171 107495

10.1016/j.sigpro.2020.107495

Li O, Shui PL. Subpixel blob localization and shape estimation by gradient search in parameter space of anisotropic Gaussian kernels. Signal Processing, 2020, 171: 107495. [doi: 10.1016/j.sigpro.2020.107495]

Zhao Z, Li B, Kang XQ, Chen L, Wei X, Xin MT

Hybrid image segmentation method based on anisotropic Gaussian kernels and adjacent graph region merging

Review of Scientific Instruments 2020 91 1 015104

10.1063/1.5095557

Zhao Z, Li B, Kang XQ, Chen L, Wei X, Xin MT. Hybrid image segmentation method based on anisotropic Gaussian kernels and adjacent graph region merging. Review of Scientific Instruments, 2020, 91(1): 015104. [doi: 10.1063/1.5095557]

Maldonado S, Carrizosa E, Weber R

Kernel penalized K-means: A feature selection method based on kernel K-means

Information Sciences 2015 322 150 160

10.1016/j.ins.2015.06.008

Maldonado S, Carrizosa E, Weber R. Kernel penalized K-means: A feature selection method based on Kernel K-means. Information Sciences, 2015, 322: 150–160. [doi: 10.1016/j.ins.2015.06.008]

Kouadri A, Hajji M, Harkat MF, Abodayeh K, Mansouri M, Nounou H, Nounou M

Hidden Markov model based principal component analysis for intelligent fault diagnosis of wind energy converter systems

Renewable Energy 2020 150 598 606

10.1016/j.renene.2020.01.010

Kouadri A, Hajji M, Harkat MF, Abodayeh K, Mansouri M, Nounou H, Nounou M. Hidden Markov model based principal component analysis for intelligent fault diagnosis of wind energy converter systems. Renewable Energy, 2020, 150: 598–606. [doi: 10.1016/j.renene.2020.01.010]

Fernández-Martínez JL, Fernández-Muñiz Z

The curse of dimensionality in inverse problems

Journal of Computational and Applied Mathematics 2020 369 112571

10.1016/j.cam.2019.112571

Fernández-Martínez JL, Fernández-Muñiz Z. The curse of dimensionality in inverse problems. Journal of Computational and Applied Mathematics, 2020, 369: 112571. [doi: 10.1016/j.cam.2019.112571]

宋昱, 孙文赟, 陈昌盛

对数变换主成分分析的图像识别

西安交通大学学报 2021 55 1 33 42

10.7652/xjtuxb202101005

宋昱, 孙文赟, 陈昌盛. 对数变换主成分分析的图像识别. 西安交通大学学报, 2021, 55(1): 33–42. [doi: 10.7652/xjtuxb202101005]

Song Y, Sun WY, Chen CS

Logarithm transformation based principal component analysis for image recognition

Journal of Xi’an Jiaotong University 2021 55 1 33 42

10.7652/xjtuxb202101005

Song Y, Sun WY, Chen CS. Logarithm transformation based principal component analysis for image recognition. Journal of Xi'an Jiaotong University, 2021, 55(1): 33–42 (in Chinese with English abstract). [doi: 10.7652/xjtuxb202101005]

Tucker JD, Lewis JR, Srivastava A

Elastic functional principal component regression

Statistical Analysis and Data Mining 2019 12 2 101 115

10.1002/sam.11399

Tucker JD, Lewis JR, Srivastava A. Elastic functional principal component regression. Statistical Analysis and Data Mining, 2019, 12(2): 101–115. [doi: 10.1002/sam.11399]

Gu TC

Detection of small floating targets on the sea surface based on multi-features and principal component analysis

IEEE Geoscience and Remote Sensing Letters 2020 17 5 809 813

10.1109/LGRS.2019.2935262

Gu TC. Detection of small floating targets on the sea surface based on multi-features and principal component analysis. IEEE Geoscience and Remote Sensing Letters, 2020, 17(5): 809–813. [doi: 10.1109/LGRS.2019.2935262]

Bhandary A, Prabhu GA, Rajinikanth V, Thanaraj KP, Satapathy SC, Robbins DE, Shasky C, Zhang YD, Tavares JMRS, Raja NSM

Deep-learning framework to detect lung abnormality—A study with chest X-ray and lung CT scan images

Pattern Recognition Letters 2020 129 271 278

10.1016/j.patrec.2019.11.013

Bhandary A, Prabhu GA, Rajinikanth V, Thanaraj KP, Satapathy SC, Robbins DE, Shasky C, Zhang YD, Tavares JMRS, Raja NSM. Deep-learning framework to detect lung abnormality – A study with chest X-Ray and lung CT scan images. Pattern Recognition Letters, 2020, 129: 271–278. [doi: 10.1016/j.patrec.2019.11.013]

Uddin P, Mamun A, Afjal MI, Hossain A

Information-theoretic feature selection with segmentation-based folded principal component analysis (PCA) for hyperspectral image classification

Int’l Journal of Remote Sensing 2021 42 1 286 321

10.1080/01431161.2020.1807650

Uddin P, Mamun A, Afjal MI, Hossain A. Information-theoretic feature selection with segmentation-based folded principal component analysis (PCA) for hyperspectral image classification. International Journal of Remote Sensing, 2021, 42(1): 286–321. [doi: 10.1080/01431161.2020.1807650]

Griffin B, Hartarska V, Nadolnyak D

Credit constraints and beginning farmers’ production in the US: Evidence from propensity score matching with principal component clustering

Sustainability 2020 12 14 5537

10.3390/su12145537

Griffin B, Hartarska V, Nadolnyak D. Credit constraints and beginning farmers' production in the U. S. : Evidence from propensity score matching with principal component clustering. Sustainability, 2020, 12(14): 5537. [doi: 10.3390/su12145537]

Delchambre L

Weighted principal component analysis: A weighted covariance eigendecomposition approach

Monthly Notices of the Royal Astronomical Society 2015 446 4 3545 3555

10.1093/mnras/stu2219

Delchambre L. Weighted principal component analysis: A weighted covariance eigendecomposition approach. Monthly Notices of the Royal Astronomical Society, 2015, 446(4): 3545–3555. [doi: 10.1093/mnras/stu2219]

Schölkopf B, Smola A, Müller KR

Nonlinear component analysis as a kernel eigenvalue problem

Neural Computation 1998 10 5 1299 1319

10.1162/089976698300017467

Schölkopf B, Smola A, Müller KR. Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 1998, 10(5): 1299–1319. [doi: 10.1162/089976698300017467]

Lee K, Lee CH, Kwak MS, Jang EJ

Analysis of multivariate longitudinal data using ARMA Cholesky and hypersphere decompositions

Computational Statistics & Data Analysis 2021 156 107144

10.1016/j.csda.2020.107144

Lee K, Lee CH, Kwak MS, Jang EJ. Analysis of multivariate longitudinal data using ARMA Cholesky and hypersphere decompositions. Computational Statistics & Data Analysis, 2021, 156: 107144. [doi: 10.1016/j.csda.2020.107144]

Maldonado S, Weber R, Basak J

Simultaneous feature selection and classification using kernel-penalized support vector machines

Information Sciences 2011 181 1 115 128

10.1016/j.ins.2010.08.047

Maldonado S, Weber R, Basak J. Simultaneous feature selection and classification using kernel-penalized support vector machines. Information Sciences, 2011, 181(1): 115–128. [doi: 10.1016/j.ins.2010.08.047]

https://archive.ics.uci.edu/ml/index.php]]>

Amarnath B, Balamurugan SAA

Review on feature selection techniques and its impact for effective data classification using UCI machine learning repository dataset

Journal of Engineering Science and Technology 2016 11 11 1639 1646

Amarnath B, Balamurugan SAA. Review on feature selection techniques and its impact for effective data classification using UCI machine learning repository dataset. Journal of Engineering Science and Technology, 2016, 11(11): 1639–1646.

http://www.jos.org.cn/1000-9825/5927.htm ]]>

http://www.jos.org.cn/1000-9825/5927.htm]]>

Chen YR, Tao X, Xiong CC, Yang JC

An improved method of two stage linear discriminant analysis

KSII Trans. on Internet and Information Systems 2018 12 3 1243 1263

10.3837/tiis.2018.03.015

Chen YR, Tao X, Xiong CC, Yang JC. An improved method of two stage linear discriminant analysis. KSII Transactions on Internet and Information Systems, 2018, 12(3): 1243–1263. [doi: 10.3837/tiis.2018.03.015]

Wang Y, Yu WK, Fang ZC

Multiple kernel-based SVM classification of hyperspectral images by combining spectral, spatial, and semantic information

Remote Sensing 2020 12 1 120

10.3390/rs12010120

Wang Y, Yu WK, Fang ZC. Multiple kernel-based SVM classification of hyperspectral images by combining spectral, spatial, and semantic information. Remote Sensing, 2020, 12(1): 120. [doi: 10.3390/rs12010120]

Si W, Qiao YL, Liu Z, Jin GW, Liu YF, Xue XY, Zhou H, Liu YM, Shen AJ, Liang XM

Combination of multi-model statistical analysis and quantitative fingerprinting in quality evaluation of Shuang-huang-lian oral liquid

Analytical and Bioanalytical Chemistry 2020 412 29 8223

10.1007/s00216-020-02937-6

Si W, Qiao YL, Liu Z, Jin GW, Liu YF, Xue XY, Zhou H, Liu YM, Shen AJ, Liang XM. Combination of multi-model statistical analysis and quantitative fingerprinting in quality evaluation of Shuang-huang-lian oral liquid. Analytical and Bioanalytical Chemistry, 2020, 412(29): 8223. [doi: 10.1007/s00216-020-02937-6]

Zhou T, Peng YB

Kernel principal component analysis-based Gaussian process regression modelling for high-dimensional reliability analysis

Computers & Structures 2020 241 106358

10.1016/j.compstruc.2020.106358

Zhou T, Peng YB. Kernel principal component analysis-based Gaussian process regression modelling for high-dimensional reliability analysis. Computers & Structures, 2020, 241: 106358. [doi: 10.1016/j.compstruc.2020.106358] (查阅所有网上资料, 本条文献与第1、21条文献重复, 请联系作者确认)

İkizoğlu S, Heydarov S

Accuracy comparison of dimensionality reduction techniques to determine significant features from IMU sensor-based data to diagnose vestibular system disorders

Biomedical Signal Processing and Control 2020 61 101963

10.1016/j.bspc.2020.101963

İkizoğlu S, Heydarov S. Accuracy comparison of dimensionality reduction techniques to determine significant features from IMU sensor-based data to diagnose vestibular system disorders. Biomedical Signal Processing and Control, 2020, 61: 101963. [doi: 10.1016/j.bspc.2020.101963]