刘俊(1978-), 男, 博士, 讲师, CCF专业会员, 主要研究领域为信息安全, 人工智能, 高性能存储优化, 大规模机器学习, 大数据分析与处理, 区块链
李威(1997-), 男, 硕士生, 主要研究领域为机器学习, Spark平台性能调优, 大数据分析与处理
陈蜀宇(1963-), 男, 博士, 教授, 博士生导师, CCF高级会员, 主要研究领域为云计算, 可信计算, 行业大数据
徐光侠(1974-), 女, 博士, 教授, 博士生导师, CCF专业会员, 主要研究领域为区块链, 大数据安全与智能分析, 网络安全与管控
提出了一种基于各向异性高斯核核惩罚的主成分分析的特征提取算法. 该算法不同于传统的核主成分分析算法. 在非线性数据降维中, 传统的核主成分分析算法忽略了原始数据的无量纲化. 此外, 传统的核函数在各维度上主要由一个相同的核宽参数控制, 该方法无法准确反映各维度不同特征的重要性, 从而导致降维过程中准确率低下. 为了解决上述问题, 首先针对现原始数据的无量纲化问题, 提出了一种均值化算法, 使得原始数据的总方差贡献率有明显的提高. 其次, 引入了各向异性高斯核函数, 该核函数每个维度拥有不同的核宽参数, 各核宽参数能够准确地反映所在维度数据特征的重要性. 再次, 基于各向异性高斯核函数建立了核主成分分析的特征惩罚目标函数, 以便用较少的特征表示原始数据, 并反映每个主成分信息的重要性. 最后, 为了寻求最佳特征, 引入梯度下降算法来更新特征惩罚目标函数中的核宽度和控制特征提取算法的迭代过程. 为了验证所提出算法的有效性, 各算法在UCI公开数据集上和KDDCUP99数据集上进行了比较. 实验结果表明, 所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法在9种公开的UCI公开数据集上准确率平均提高了4.49%. 在KDDCUP99数据集上, 所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法准确率提高了8%.
This study proposes a feature extraction algorithm based on the principal component analysis (PCA) of the anisotropic Gaussian kernel penalty which is different from the traditional kernel PCA algorithms. In the non-linear data dimensionality reduction, the nondimensionalization of raw data is ignored by the traditional kernel PCA algorithms. Meanwhile, the previous kernel function is mainly controlled by one identical kernel width parameter in each dimension, which cannot reflect the significance of different features in each dimension precisely, resulting in the low accuracy of dimensionality reduction process. To address the above issues, contraposing the current problem of nondimensionalization of raw data, an averaging algorithm is proposed in this study, which has shown sound performance in improving the variance contribution rate of the original data typically. Then, anisotropic Gaussian kernel function is introduced owing each dimension has different kernel width parameters which can critically reflect the importance of the dimension data features. In addition, the feature penalty function of kernel PCA is formulated based on the anisotropic Gaussian kernel function to represent the raw data with fewer features and reflect the importance of each principal component information. Furthermore, the gradient descent method is introduced to update the kernel width of feature penalty function and control the iterative process of the feature extraction algorithm. To verify the effectiveness of the proposed algorithm, several algorithms are compared on UCI public data sets and KDDCUP99 data sets, respectively. The experimental results show that the feature extraction algorithm of the PCA based on the anisotropic Gaussian kernel penalty is 4.49% higher on average than the previous PCA algorithms on UCI public data sets. The feature extraction algorithm of the PCA based on the anisotropic Gaussian kernel penalty is 8% higher on average than the previous PCA algorithms on KDDCUP99 data sets.
在数据分析、数据挖掘、模式识别等研究领域中, 数据维数问题是被广大研究学者一直关注的经典问题之一. 降维是解决维数灾难的常用方法. 主要是通过算法大幅度降低数据的维数, 并保留数据中的大部分信息. 特征提取是降维的重要部分, 其主要通过寻找一个子集的可用特征建立一个良好的预测模型来解决降维问题. 在特征提取算法中, 主成分分析(principal component analysis, PCA)算法[
主成分分析功能强大且用途广泛, 应用于许多领域的经典统计技术. 它能够提供复杂的多变量概述的方法整理数据[
目前, 众多改进的PCA算法研究都主要集中在对特征提取、特征向量方向以及综合值计算的改进. 在对特征提取的改进中, 主要是对原始数据进行对数变换、平方根变换处理消除主成分之间的无量纲化影响. 在特征向量方向的确定上, 不同的方向会直接影响各个主成分的方差贡献率. 此外, 用熵值法改进传统的主成分评价方法能很好地消除用方差贡献率作为权值所带来的主观成分. 但在非线性主成分分析中, 常用的核函数在各维度上主要由同一个参数控制, 各个方向的参数都一样, 体现出一定的局限性.
因此选择由不同核宽参数控制每个维度的核函数一个重要的关注方面. 各向异性高斯核函数的核宽可以反映每个特征的重要程度[
目前基于核函数的主成分分析研究大多数都是针对几种常见的核函数. 并且在各维度上的映射主要由一个核宽控制, 而各个方向的相同核宽参数不能具体反映出每个特征的重要程度. 各向异性高斯核每个方向的控制参数可以为不相同值, 因此可以从不同的方向反映数据特征的变换信息. 并且在数据局部结构特征不清晰的情况下, 通过给不同方向设置不同的参数, 各向异性高斯核已经被证明能够较好地提取各个方向的有用特征[
基于以上分析, 本文提出了一种基于各向异性高斯核核惩罚的主成分分析方法, 利用各向高斯核每个方向可以设置不同参数的特点, 反映出主成分信息每个特征的重要程度, 易于更好的大数据分析处理.
本文的贡献总结如下.
(1) 针对现原始数据的无量纲化问题, 提出了一种均值化算法以提高原始数据信息主成分的总方差贡献率.
(2) 针对现有核函数用相同核宽表示不同维度特征重要性而导致特征提取准确率低的问题, 提出了用各向异性高斯核的多维核宽向量表征不同维度特征重要性的方法.
(3) 基于各向异性高斯核, 建立了基于核惩罚函数的主成分分析特征提取目标函数. 目标函数通过
本文第2节介绍了本文的相关工作; 第3节简要介绍了PCA线性降维方法和KPCA非线性降维方法; 第4节说明了本文的动机; 第5节提出了一种基于各向异性高斯核核惩罚的主成分分析的特征提取算法; 第6节给出了9个公开数据集以及KDDCUP99数据集的实验结果并进行分析评价; 第7节进行了总结并展望未来工作.
主成分分析是一个无监督学习问题, 它是基于方差去提取最有价值的信息[
在特征提取的改进中, 主要是对需要进行主成分分析的原始数据集进行对数变换或者平方根变换等一些消除变量之间的无量纲化方法. 宋昱等人[
特征向量方向的正确选择会直接影响各个样本降维之后的总方差贡献率. Gu[
熵值法、主成分聚类法是从主成分综合值计算方面进行优化. 高光谱图像通常将土地覆盖类型的信息保存为一组连续的窄光谱波段, 为了有效进行分类, Uddin等人[
在美国, 农民的生产水平与信贷约束有很大的联系. Griffin等人[
本研究中, 对主成分分析算法的优化主要是在核函数的选择上即特征向量方向的确定, 选择了各向异性高斯核函数来代替传统的高斯核函数, 既展现了核函数线性不可分特点, 又体现了各个主成分特征的重要程度, 并且提高了核主成分分析算法的性能.
主成分分析是一个无监督学习问题, 它是一种常用的降维和特征提取方法, 通过将高维数据映射到方差最大的数轴上, 丢弃方差较小的数轴来达到降维目的. 它的主要思想是将一组
将求最大方差的问题通过拉格朗日乘子法转化为求数据矩阵的特征值问题:
① 求最大方差:
又由于
② 转化为求特征值: 利用拉格朗日乘子法可以将上述问题转化为:
其中,
公式(2)等价于:
传统的主成分分析算法不能处理非线性的数据. 因此为了扩展对非线性数据的处理, 核PCA[
设
这里的列向量
核函数的正确选择是核主成分分析算法的重要步骤, 直接决定了KPCA算法的非线性处理能力[
4个常见的核函数
英文名称 | 缩写 | 数学表达式 |
Linear kernel | Linear |
|
Polynomial kernel | Poly |
|
Radial basis kernel | RBF |
|
Exponential kernel | EK |
|
通常在没有先验知识的情况下, 人们都会利用自己的主观经验去选择核函数, 具有很大的随意性. 并且常见的几种传统核函数在各维度上主要由同一个参数控制, 各个方向的参数都一样, 无法准确反应KPCA体现每个主成分的重要性, 有一定的局限性.
因此, 选择一个能够让不同的方向由不同的参数控制的核函数, 使其能够体现出每个特征的重要程度, 并提高核主成分分析算法的性能非常重要.
本文提出的基于各向异性高斯核核惩罚的PCA (AP-KPCA)算法主要由均值化算法、核函数的确定、特征惩罚函数的选择、改进的目标函数组成. 均值化算法主要用来处理原始样本, 改进样本数据的无量纲化. 核函数主要用各向异性高斯核替代了传统的高斯核函数, 利用多核宽参数来控制原始数据映射到高维空间的过程. 特征惩罚函数对降维过程中核参数进行惩罚, 以便提取重要的特征.
AP-KPCA的一个关键步骤是求主成分信息, 通常会对原始数据集进行标准化处理来消除变量量纲的影响, 但在消除量纲的同时, 也消除了各指标之间变异程度的差异信息. 事实上, 原始指标是包含两方面的信息. 一部分是由相关系数矩阵来体现的各指标之间的相关信息, 另一部分是由各指标的方差大小来反映的各指标变异程度的差异信息. 原始数据的标准化使各指标的方差都变成了1, 消除了各指标之间变异程度上的差异信息. 因此从数据标准化之后得到的主成分, 不能准确反映原始数据的全部信息.
均值化后数据的协方差矩阵的对角元素是各指标的变异系数的平方, 它反映了各指标变异程度上的差异[
因此, 在原始样本数据处理方面, 本文提出的AP-KPCA采用均值化算法对PCA算法的原始样本数据进行改进. 假设有
经过均值化后每个协方差矩阵
根据上述表达可知, 在经过均值化后的各个指标的均值为1, 因此有:
其中,
根据以上证明可知, 经过均值化后原始数据的协方差矩阵中不仅包含了由于标准化所带来的各个指标各指标之间变异程度, 并且也消除了指标量纲与数量级的影响.
常见的核函数有高斯核、线性核、多项式核、西蒙核等, 本文选择的各向异性高斯核是传统高斯核的一种改进. 传统的高斯核函数将原始数据映射到高维空间的过程中主要由一个参数控制, 即每个方向维度的参数都一样, 不能反映出每个特征的重要性. 而各向异性高斯核可以对特征向量的每个维度设置不同的核参数, 通过设置不同方向的参数, 提取各个方向有用的特征信息[
其中,
因此核函数变为:
其中,
特征惩罚函数可以通过外部罚函数法、内部罚函数法等将目标函数由有约束问题转化为无约束优化问题. 其中
其中,
这里的
在求解PCA运算过程中, 目标是选择更少的单位正交基, 使原始数据变换到这组基上后, 各字段两两间协方差为0, 方差尽可能大. 而计算得到的协方差矩阵中对角线元素则是两两字段间的方差, 其他元素则是两两字段间的协方差, 将协方差矩阵进行对角化便可得到其特征值和特征向量. 因此它的求解目标公式(14)定义为:
其中,
然后假定
引入各向异性高斯核函数:
化简后得到
最后得到样本
因此, 目标函数可以写为:
目标函数通过
其中,
基于各向异性高斯核的核惩罚的主成分分析算法的具体步骤如算法1.
算法
Input:
Output:
1.
2.
3.
4.
5.
6.
7.
8.
9. The feature vector with variance contribution rate > 85% is selected as the data sample after dimensionality reduction:
10.
基于梯度下降的特征删除算法已经在SVM和K-means[
算法
1. initialization:
2. definition:
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
利用梯度下降算法对核宽向量进行更新, 当核宽向量集合
UCI公开数据集[
数据集
数据集名称 | 类别数目 | 样本数 | 维数 (原始特征个数) |
abalone | 3 | 4 177 | 9 |
column | 2 | 310 | 6 |
glass | 6 | 214 | 9 |
iris | 3 | 150 | 4 |
cmc | 3 | 1 473 | 9 |
south | 2 | 1 000 | 20 |
segment | 7 | 2 310 | 19 |
waveform | 3 | 5 000 | 21 |
wine | 3 | 178 | 13 |
KDDCUP99 | 2 | 2 000 000 | 41 |
用均值化方法对选取的9个UCI公开数据集以及KDDCUP99进行预处理, 为了证明所提出的均值化方法的有效性, 将其得到的方差贡献率与传统的PCA算法进行对比, 得到
方差贡献率对比
数据集名称 | 维数 (降维之后的) | 传统的PCA算法 | 改进的PCA算法 |
abalone | 2 | 0.94779206 | 0.96033089 |
column | 3 | 0.86691033 | 0.97966776 |
glass | 5 | 0.89310496 | 0.99906141 |
iris | 2 | 0.95800975 | 0.97884042 |
cmc | 6 | 0.85018334 | 0.99060549 |
south | 13 | 0.85883466 | 0.92552102 |
segment | 7 | 0.88651302 | 0.98826480 |
waveform | 9 | 0.85114392 | 0.99993117 |
wine | 7 | 0.89336794 | 0.94765788 |
KDDCUP99 | 13 | 0.90817923 | 0.94157903 |
从
为了验证本文提出的AP-KPCA算法的有效性. 首先将UCI数据样本和KDDCUP99数据集采用AP-KPCA算法进行降维, 然后采用SVM算法对降维后的数据进行分类, 得到全局最优解[
本研究实验的评价标准都是通过5次实验取平均值作为最后的结果. 实验首先比较了未加入惩罚项的基于各向异性高斯核的主成分分析算法(KPCA(ANGKS))与线性主成分分析方法(PCA)、基于线性核函数的主成分分析方法(KPCA(linear))、基于高斯核函数的主成分分析方法(KPCA(rbf))、基于多项式核函数的主成分分析方法(KPCA(ploy))、文献[
本节首先比较了本文提出的
本小节以iris、glass和wine数据集为例, 采用10折交叉验证方法划分训练集与测试集, 对比AP-KPCA算法与各算法采用
各算法在不同数据集下的SVM分类器指标值
从
从glass数据集的实验结果显示, 本文所提出的AP-KPCA算法提取的主成分信息的SVM分类器的各指标值绝对地优于对比算法, 然后是RobustPCA算法, 接着是文献[
从iris数据集的实验结果显示, 各个算法所提取的主成分信息的分类性能指标虽然纵横交错, 在准确率、精确率分类性能指标中, 其他几种算法都有高于本文所提出的算法, 但本文所提出的AP-KPCA算法提取的主成分信息的分类性能指标都处于一个较高水平的位置, 线性主成分分析提取的主成分信息的分类性能最差.
从wine数据集的实验结果显示, 本文提出的AP-KPCA算法提取的主成分信息的分类性能优于其他几种算法提取的主成分信息的分类性能. 文献[
综上所述, 本文所提出的AP-KPCA算法能提取出更优质的主成分信息, 而加入的惩罚项对各向异性高斯核函数进行惩罚能更好地剔除冗余信息, 证明AP-KPCA算法要由于其他对比算法.
为了验证本文所提出算法的整体性能, 比较各算法在
各算法特征提取准确率均值比较
数据集 | AP-KPCA | KPCA(ANGKS) | PCA | KPCA(linear) | KPCA(poly) | KPCA(rbf) | 文献[ |
RobustPCA | |
abalone | 2 | 0.5371 | 0.5339 | 0.5382 | 0.5359 | 0.5219 | 0.5433 | 0.5508 | |
column | 3 | 0.8408 | 0.7526 | 0.7806 | 0.7634 | 0.7913 | 0.8279 | 0.8344 | |
glass | 5 | 0.6875 | 0.6093 | 0.6187 | 0.6593 | 0.6062 | 0.64375 | 0.6562 | |
iris | 2 | 0.9688 | 0.92 | 0.9422 | 0.9466 | 0.96 | 0.9466 | 0.96 | |
cmc | 6 | 0.4825 | 0.4784 | 0.4394 | 0.4616 | 0.4421 | 0.4562 | 0.4820 | |
south | 13 | 0.7740 | 0.7706 | 0.7586 | 0.758 | 0.7613 | 0.7666 | 0.7533 | |
segment | 7 | 0.8349 | 0.8308 | 0.8268 | 0.8317 | 0.7197 | 0.8513 | 0.9454 | |
waveform | 9 | 0.8736 | 0.8722 | 0.87 | 0.8710 | 0.8633 | 0.8665 | 0.8656 | |
wine | 7 | 0.9849 | 0.9371 | 0.9428 | 0.92 | 0.9485 | 0.9714 | 0.9584 | |
KDDCUP99 | 13 | 0.9800 | 0.9133 | 0.9466 | 0.9466 | 0.9466 | 0.9371 | 0.9666 |
各算法特征提取性能准确率方差比较
数据集 | AP-KPCA | KPCA(ANGKS) | PCA | KPCA(linear) | KPCA(poly) | KPCA(rbf) | 文献[ |
RobustPCA | |
abalone | 2 | 0.000300317 | 0.000207961 | 0.00010592 | 0.000305922 | 0.000186623 | 0.00009681 | 0.000142483 | |
column | 3 | 0.001237137 | 0.00098277 | 0.001653372 | 0.004220141 | 0.00130650 | 0.001329633 | 0.002289282 | |
glass | 5 | 0.003051758 | 0.00097656 | 0.004589844 | 0.001635742 | 0.00187988 | 0.006396484 | 0.002807617 | |
iris | 2 | 0.000395062 | 0.00014814 | 0.000395062 | 0.000395062 | 0.00034567 | 0.000641975 | 0.000592593 | |
cmc | 6 | 0.000288974 | 0.000239098 | 0.00057434 | 0.000114664 | 0.000593888 | 0.00029668 | 0.000708552 | |
south | 13 | 0.000753333 | 0.000352222 | 0.00118555 | 0.000603333 | 0.000642222 | 0.000672222 | 0.000416667 | |
segment | 7 | 0.000189069 | 0.000182614 | 0.00010723 | 0.000870382 | 0.000429361 | 0.00020718 | 0.000145133 | |
waveform | 9 | 0.000736889 | 0.00036888 | 0.000480000 | 0.000463556 | 0.00033333 | 0.000220889 | 0.000448000 | |
wine | 7 | 0.000427198 | 0.00016326 | 0.000163265 | 0.000979592 | 0.00057142 | 0.000163265 | 0.000249199 | |
KDDCUP99 | 13 | 0.000222222 | 0.000333333 | 0.00033333 | 0.000333333 | 0.000333333 | 0.00033333 | 0.000163265 |
从
各算法特征选择的平均准确率如
各算法特征提取性能比较
从
综上所述, 本文提出的基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法在9种公开的UCI公开数据集上准确率平均提高了4.49%. 在KDDCUP99数据集上, 本文提出的基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法准确率提高了8%.
本小节主要验证了惩罚项对采用各向异性高斯核函数的KPCA算法的影响. 因此, 本节比较了加入惩罚项的AP-KPCA算法和未加入惩罚项的KPCA算法. 数据集采用
综合
本文所提出的梯度下降法更新核宽向量的优点是能自动获得一个最优的特征子集, 根据特征子集中的核宽参数对应的准确率去进行核宽向量的更新, 并不断调整以达到一个最优的状态.
有无惩罚项的KPCA(ANGKS)算法在9种数据集下的SVM分类器指标值
从
iris数据集特征提取性能
本文在进行思考数据降维到多少维度时, 选择了总方差贡献率大于85%的特征向量作为降维后的数据样本. 但是选取不同的阈值就会代表不同的原始数据的信息, 并且会影响后续的分类实验. 本文以south数据集为例, 讨论在阈值为75%、80%、85%、90%左右时进行SVM分类的准确率, 具体如
从
south数据集方差贡献率不同阈值性能分析
总方差贡献率 (%) | 维数 (降维之后的) | 平均准确率 |
75 | 7 | 0.7241 |
80 | 9 | 0.7531 |
85 | 11 | 0.7740 |
90 | 13 | 0.7804 |
本文提出了一种基于各向异性高斯核惩罚的主成分分析算法. 通过改变每个方向的控制参数, 从不同的方向反映数据特征的变换信息, 并在特征提取的过程中加入了特征惩罚函数, 同时引入梯度下降算法选择用更少的特征代表更多的原始特征信息, 为了验证所提方法的性能进行了一系列实验, 将本文提出的算法与其他几种常见的核函数以及文献[
所有实验表明, 所提出的各向异性高斯核函数的主成分分析算法是有效的, 但是仍有许多改进的余地. 进一步的工作可以选择不同的降维算法替代主成分分析算法, 比如线性判别分析、独立成分分析等.
Van Luong H, Deligiannis N, Seiler J, Forchhammer S, Kaup A. Compressive online robust principal component analysis Via
Chu Z, Yu J, Hamdulla A. LPG-model: A novel model for throughput prediction in stream processing, using a light gradient boosting machine, incremental principal component analysis, and deep gated recurrent unit network. Information Sciences, 2020, 535: 107–129. [doi: 10.1016/j.ins.2020.05.042]
Esmaeili M, Ahmadi M, Kazemi A. Kernel-based two-dimensional principal component analysis applied for parameterization in history matching. Journal of Petroleum Science and Engineering, 2020, 191: 107134. [doi: 10.1016/j.petrol.2020.107134]
Reddy GT, Reddy MPK, Lakshmanna K, Kaluri R, Rajput DS, Srivastava G, Baker T. Analysis of dimensionality reduction techniques on big data. IEEE Access, 2020, 8: 54776–54788. [doi: 10.1109/ACCESS.2020.2980942]
Liu J, Tang SL, Xu GX, Ma C, Lin MW. A novel configuration tuning method based on feature selection for hadoop MapReduce. IEEE Access, 2020, 8: 63862–63871. [doi: 10.1109/ACCESS.2020.2984778]
Li O, Shui PL. Subpixel blob localization and shape estimation by gradient search in parameter space of anisotropic Gaussian kernels. Signal Processing, 2020, 171: 107495. [doi: 10.1016/j.sigpro.2020.107495]
Zhao Z, Li B, Kang XQ, Chen L, Wei X, Xin MT. Hybrid image segmentation method based on anisotropic Gaussian kernels and adjacent graph region merging. Review of Scientific Instruments, 2020, 91(1): 015104. [doi: 10.1063/1.5095557]
Maldonado S, Carrizosa E, Weber R. Kernel penalized K-means: A feature selection method based on Kernel K-means. Information Sciences, 2015, 322: 150–160. [doi: 10.1016/j.ins.2015.06.008]
Kouadri A, Hajji M, Harkat MF, Abodayeh K, Mansouri M, Nounou H, Nounou M. Hidden Markov model based principal component analysis for intelligent fault diagnosis of wind energy converter systems. Renewable Energy, 2020, 150: 598–606. [doi: 10.1016/j.renene.2020.01.010]
Fernández-Martínez JL, Fernández-Muñiz Z. The curse of dimensionality in inverse problems. Journal of Computational and Applied Mathematics, 2020, 369: 112571. [doi: 10.1016/j.cam.2019.112571]
宋昱, 孙文赟, 陈昌盛. 对数变换主成分分析的图像识别. 西安交通大学学报, 2021, 55(1): 33–42. [doi: 10.7652/xjtuxb202101005]
Song Y, Sun WY, Chen CS. Logarithm transformation based principal component analysis for image recognition. Journal of Xi'an Jiaotong University, 2021, 55(1): 33–42 (in Chinese with English abstract). [doi: 10.7652/xjtuxb202101005]
Tucker JD, Lewis JR, Srivastava A. Elastic functional principal component regression. Statistical Analysis and Data Mining, 2019, 12(2): 101–115. [doi: 10.1002/sam.11399]
Gu TC. Detection of small floating targets on the sea surface based on multi-features and principal component analysis. IEEE Geoscience and Remote Sensing Letters, 2020, 17(5): 809–813. [doi: 10.1109/LGRS.2019.2935262]
Bhandary A, Prabhu GA, Rajinikanth V, Thanaraj KP, Satapathy SC, Robbins DE, Shasky C, Zhang YD, Tavares JMRS, Raja NSM. Deep-learning framework to detect lung abnormality – A study with chest X-Ray and lung CT scan images. Pattern Recognition Letters, 2020, 129: 271–278. [doi: 10.1016/j.patrec.2019.11.013]
Uddin P, Mamun A, Afjal MI, Hossain A. Information-theoretic feature selection with segmentation-based folded principal component analysis (PCA) for hyperspectral image classification. International Journal of Remote Sensing, 2021, 42(1): 286–321. [doi: 10.1080/01431161.2020.1807650]
Griffin B, Hartarska V, Nadolnyak D. Credit constraints and beginning farmers' production in the U. S. : Evidence from propensity score matching with principal component clustering. Sustainability, 2020, 12(14): 5537. [doi: 10.3390/su12145537]
Delchambre L. Weighted principal component analysis: A weighted covariance eigendecomposition approach. Monthly Notices of the Royal Astronomical Society, 2015, 446(4): 3545–3555. [doi: 10.1093/mnras/stu2219]
Schölkopf B, Smola A, Müller KR. Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 1998, 10(5): 1299–1319. [doi: 10.1162/089976698300017467]
Lee K, Lee CH, Kwak MS, Jang EJ. Analysis of multivariate longitudinal data using ARMA Cholesky and hypersphere decompositions. Computational Statistics & Data Analysis, 2021, 156: 107144. [doi: 10.1016/j.csda.2020.107144]
Maldonado S, Weber R, Basak J. Simultaneous feature selection and classification using kernel-penalized support vector machines. Information Sciences, 2011, 181(1): 115–128. [doi: 10.1016/j.ins.2010.08.047]
https://archive.ics.uci.edu/ml/index.php]]>
Amarnath B, Balamurugan SAA. Review on feature selection techniques and its impact for effective data classification using UCI machine learning repository dataset. Journal of Engineering Science and Technology, 2016, 11(11): 1639–1646.
http://www.jos.org.cn/1000-9825/5927.htm ]]>
http://www.jos.org.cn/1000-9825/5927.htm]]>
Chen YR, Tao X, Xiong CC, Yang JC. An improved method of two stage linear discriminant analysis. KSII Transactions on Internet and Information Systems, 2018, 12(3): 1243–1263. [doi: 10.3837/tiis.2018.03.015]
Wang Y, Yu WK, Fang ZC. Multiple kernel-based SVM classification of hyperspectral images by combining spectral, spatial, and semantic information. Remote Sensing, 2020, 12(1): 120. [doi: 10.3390/rs12010120]
Si W, Qiao YL, Liu Z, Jin GW, Liu YF, Xue XY, Zhou H, Liu YM, Shen AJ, Liang XM. Combination of multi-model statistical analysis and quantitative fingerprinting in quality evaluation of Shuang-huang-lian oral liquid. Analytical and Bioanalytical Chemistry, 2020, 412(29): 8223. [doi: 10.1007/s00216-020-02937-6]
Zhou T, Peng YB. Kernel principal component analysis-based Gaussian process regression modelling for high-dimensional reliability analysis. Computers & Structures, 2020, 241: 106358. [doi: 10.1016/j.compstruc.2020.106358]
İkizoğlu S, Heydarov S. Accuracy comparison of dimensionality reduction techniques to determine significant features from IMU sensor-based data to diagnose vestibular system disorders. Biomedical Signal Processing and Control, 2020, 61: 101963. [doi: 10.1016/j.bspc.2020.101963]