在保圣ENOSE电子鼻软件中,主成分分析是最基层也是最常用的方法。
主成分分析或PCA 是一种统计过程,它允许您通过更易于可视化和分析的较小“汇总索引”集合来汇总大型数据表中的信息内容。例如,基础数据可以是描述生产样品、化学化合物或反应、连续过程的过程时间点、批次过程中的批次、生物个体或 DOE 协议试验的特性的测量值。
使用 PCA 可以帮助识别数据点之间的相关性,例如北欧国家冷冻鱼和脆面包等食品的消费之间是否存在相关性。
当今的主成分分析是最流行的多元统计技术之一。 它已广泛应用于模式识别和信号处理领域,是一种广义上称为因子分析的统计方法。
PCA 是 MVDA 的母方法
PCA 构成了基于投影方法的多元数据分析的基础。PCA 最重要的用途是将多元数据表表示为较小的变量集(汇总索引),以观察趋势、跳跃、集群和异常值。该概述可能会揭示观察值和变量之间以及变量之间的关系。
PCA 可以追溯到 Cauchy,但首先由 Pearson 在统计学中提出,他将分析描述为寻找“最接近空间点系统的线和平面”[Jackson, 1991]。
PCA 是一种非常灵活的工具,可以分析可能包含例如多重共线性、缺失值、分类数据和不精确测量的数据集。目标是从数据中提取重要信息,并将这些信息表示为一组称为主成分的汇总指标。
从统计上讲,PCA 在 K 维空间中找到尽可能接近数据的线、平面和超平面,以最小二乘的方式进行。作为一组数据点的最小二乘近似的线或平面使线或平面上的坐标的方差尽可能大。
PCA 创建数据的可视化,以最小化最小二乘意义上的残差方差并最大化投影坐标的方差
PCA 的工作原理
在之前的文章中,我们解释了为什么需要对 PCA 数据进行预处理。现在,让我们使用几何方法来看看 PCA 是如何工作的。
考虑一个有N 行(又名“观察”)和 K 列(又名“变量”)的矩阵 X。对于这个矩阵,我们构造了一个变量空间,其维度与变量的数量一样多(见下图)。每个变量代表一个坐标轴。对于每个变量,长度已根据缩放标准标准化,通常通过缩放到单位方差。您可以在上一篇博客文章中找到有关缩放到单位方差的更多详细信息。
一个 K 维变量空间。为简单起见,仅显示三个变量轴。每个坐标轴的“长度”已根据特定标准标准化,通常是单位方差缩放。
在下一步中,将 X 矩阵的每个观测值(行)放置在 K 维变量空间中。因此,数据表中的行在该空间中形成了一组点。
数据矩阵 X 中的观测值(行)可以理解为变量空间(K 空间)中的一组点。
均值居中接下来,均值居中涉及从数据中减去变量平均值。 平均值向量对应于 K 空间中的一个点。
在均值居中过程中,您首先计算变量平均值。 这个平均值向量可以解释为空间中的一个点(此处为红色)。该点位于点群的中间(在重心处)。从数据中减去平均值对应于坐标系的重新定位,使得平均点现在是原点。
平均定心过程对应于移动坐标系的原点以与平均点重合(此处为红色)。
第一主成分
在均值居中和缩放到单位方差之后,数据集已准备好计算第一个汇总指标,即第一个主成分 (PC1)。该分量是 K 维变量空间中最接近最小二乘意义上的数据的线。这条线穿过平均点。现在可以将每个观测值(黄点)投影到这条线上,以获得沿 PC 线的坐标值。这个新的坐标值也称为分数。
第一个主成分 (PC1) 是最能说明点群形状的线。它表示数据中的最大方差方向。每个观察(黄点)都可以投影到这条线上,以便获得沿着 PC 线的坐标值。该值称为分数。
第二主成分
通常,一个汇总指标或主成分不足以对数据集的系统变化进行建模。 因此,计算了第二个汇总指数——第二个主成分 (PC2)。第二个 PC 也由 K 维变量空间中的一条线表示,它与第一个 PC 正交。这条线也通过了平均点,并尽可能地提高了 X 数据的近似值。
第二主成分 (PC2) 的方向使其反映数据中第二大变化源,同时与第一主成分正交。PC2 也通过平均点。
两个主成分定义了一个模型平面
当导出了两个主成分时,它们一起定义了一个位置,一个进入 K 维变量空间的窗口。通过将所有观察结果投影到低维子空间并绘制结果,可以可视化研究数据集的结构。在这个平面上观察的坐标值称为分数,因此这种投影配置的绘图称为分数图。
两台 PC 组成一个平面。该平面是进入多维空间的窗口,可以用图形进行可视化。每个观察结果都可以投影到这个平面上,并为每个观察结果打分。
建模数据集
现在,让我们考虑一下使用不同欧洲国家普遍食用的食物数据集的情况。 下图显示了前两个主成分的得分图。这些分数称为 t1 和 t2。分数图是 16 个国家的地图。相近的国家有相似的食品消费概况,而相距较远的国家则不同。北欧国家(芬兰、挪威、丹麦和瑞典)一起位于右上角,因此代表了一组在食品消费方面具有一定相似性的国家。比利时和德国靠近地块的中心(原点),这表明它们的属性一般。
关于食物消费概况的数据集的前两台PC 的 PCA 得分图。这提供了一个国家如何相互关联的地图。第一个成分解释了 32% 的变化,第二个成分解释了 19%。按相应首都的地理位置(纬度)着色。
如何解释分数图
在具有两个组件的 PCA 模型中,即 K 空间中的一个平面,哪些变量(食品供应)负责观察(国家)中看到的模式?我们想知道哪些变量是有影响的,以及这些变量是如何相关的。这些知识由主成分载荷给出(下图)。这些加载向量称为 p1 和 p2。
下图同时显示了所有 20 个变量之间的关系。贡献相似信息的变量被组合在一起,也就是说,它们是相关的。脆面包 (crips_br) 和冷冻鱼 (Fro_Fish) 是两个正相关变量的示例。当一个变量的数值增加或减少时,另一个变量的数值有以相同方式变化的趋势。
当变量负相关(“反向”)相关时,它们位于图原点的相对两侧,在对角线 0pposed 象限中。例如,变量大蒜和甜味剂是负相关的,这意味着当大蒜增加时,甜味剂减少,反之亦然。
前两个主要成分(p2 与 p1)的 PCA 加载图比较消耗的食物。
如果两个变量正相关,当一个变量的数值增加或减少时,另一个变量的数值有以相同方式变化的趋势。
此外,到原点的距离也传达了信息。 变量离绘图原点越远,该变量对模型的影响就越大。这意味着,例如,变量脆面包 (Crisp_br)、冷冻鱼 (Fro_Fish)、冷冻蔬菜 (Fro_Veg) 和大蒜 (Garlic) 将四个北欧国家与其他国家区分开来。北欧四国的特点是前三项规定值高(高消费),大蒜消费低。此外,模型解释表明,意大利、葡萄牙、西班牙以及一定程度上的奥地利等国家的大蒜消费量较高,而甜味剂、罐头汤(Ti_soup)和罐头水果(Ti_Fruit)的消费量较低。
在几何上,主成分载荷表示模型平面在 K 维变量空间中的方向。PC1 相对于原始变量的方向由角度 a1、a2 和 a3 的余弦给出。这些值表示原始变量 x1、x2 和 x3 如何“加载”到 PC1 中(即贡献给 PC1)。因此,它们被称为载荷。
第二组加载系数表示 PC2 相对于原始变量的方向。因此,给定两个 PC 和三个原始变量,需要六个加载值(角度的余弦)来指定模型平面在 K 空间中的定位方式。
主成分载荷揭示了 PCA 模型平面是如何插入到变量空间中的。载荷用于解释分数的含义。
如若转载,请注明出处:https://www.shangmengchina.com/4252.html