- 2.92 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
2021/7/10中国人民大学六西格玛质量管理研究中心1多元统计分析何晓群中国人民大学出版社\n2021/7/10中国人民大学六西格玛质量管理研究中心2第五章主成分分析目录上页下页返回结束§5.1主成分分析的基本思想与理论§5.2主成分分析的几何意义§5.3总体主成分及其性质§5.4样本主成分的导出§5.5有关问题的讨论§5.6主成分分析步骤及框图§5.7主成分分析的上机实现\n2021/7/10中国人民大学六西格玛质量管理研究中心3第五章主成分分析目录上页下页返回结束主成分分析(principalcomponentsanalysis)也称主分量分析,是由霍特林(Hotelling)于1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。本章主要介绍主成分分析的基本理论和方法、主成分分析的计算步骤及主成分分析的上机实现。\n2021/7/10中国人民大学六西格玛质量管理研究中心4目录上页下页返回结束§5.1主成分分析的基本思想与理论§5.1.1主成分分析的基本思想§5.1.2主成分分析的基本理论\n2021/7/10中国人民大学六西格玛质量管理研究中心5目录上页下页返回结束§5.1.1主成分分析的基本思想在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。\n2021/7/10中国人民大学六西格玛质量管理研究中心6目录上页下页返回结束§5.1.1主成分分析的基本思想既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:1.每一个主成分都是各原始变量的线性组合;2.主成分的数目大大少于原始变量的数目\n2021/7/10中国人民大学六西格玛质量管理研究中心7目录上页下页返回结束§5.1.1主成分分析的基本思想3.主成分保留了原始变量绝大多数信息4.各主成分之间互不相关通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。\n2021/7/10中国人民大学六西格玛质量管理研究中心8目录上页下页返回结束§5.1.2主成分分析的基本理论设对某一事物的研究涉及个指标,分别用表示,这个指标构成的维随机向量为。设随机向量的均值为,协方差矩阵为。对进行线性变换,可以形成新的综合变量,用表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:(5.1)\n2021/7/10中国人民大学六西格玛质量管理研究中心9目录上页下页返回结束§5.1.2主成分分析的基本理论由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量的统计特性也不尽相同。因此为了取得较好的效果,我们总是希望的方差尽可能大且各之间互相独立,由于=而对任给的常数,有\n2021/7/10中国人民大学六西格玛质量管理研究中心10目录上页下页返回结束§5.1.2主成分分析的基本理论因此对不加限制时,可使任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下:1.,即:2.3.是的一切满足原则1的线性组合中方差最大者;是与不相关的所有线性组合中方差最大者;…,是与都不相关的的所有线性组合中方差最大者。\n2021/7/10中国人民大学六西格玛质量管理研究中心11目录上页下页返回结束§5.1.2主成分分析的基本理论基于以上三条原则决定的综合变量分别称为原始变量的第一、第二、…、第个主成分。其中,各综合变量在总方差中占的比重依次递减,在实际研究工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构,抓住问题实质的目的。\n2021/7/10中国人民大学六西格玛质量管理研究中心12目录上页下页返回结束§5.2主成分分析的几何意义由第一节的介绍我们知道,在处理涉及多个指标问题的时候,为了提高分析的效率,可以不直接对个指标构成的维随机向量进行分析,而是先对向量进行线性变换,形成少数几个新的综合变量,使得各综合变量之间相互独立且能解释原始变量尽可能多的信息,这样,在以损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。这一节,我们着重讨论主成分分析的几何意义,为了方便,我们仅在二维空间中讨论主成分的几何意义,所得结论可以很容易地扩展到多维的情况。\n2021/7/10中国人民大学六西格玛质量管理研究中心13目录上页下页返回结束§5.2主成分分析的几何意义设有个样品,每个样品有两个观测变量,这样,在由变量组成的坐标空间中,个样品点散布的情况如带状,见图5-1。图5-1\n2021/7/10中国人民大学六西格玛质量管理研究中心14目录上页下页返回结束§5.2主成分分析的几何意义由图可以看出这个样品无论沿轴方向还是沿轴方向均有较大的离散性,其离散程度可以分别用观测变量的方差和的方差定量地表示,显然,若只考虑和中的任何一个,原始数据中的信息均会有较大的损失。我们的目的是考虑和的线性组合,使得原始样品数据可以由新的变量和来刻画。在几何上表示就是将坐标轴按逆时针方向旋转角度,得到新坐标轴和,坐标旋转公式如下:\n2021/7/10中国人民大学六西格玛质量管理研究中心15目录上页下页返回结束§5.2主成分分析的几何意义其矩阵形式为:其中,为旋转变换矩阵,由上式可知它是正交阵,即满足\n2021/7/10中国人民大学六西格玛质量管理研究中心16目录上页下页返回结束§5.2主成分分析的几何意义经过这样的旋转之后,个样品点在轴上的离散程度最大,变量代表了原始数据绝大部分信息,这样,有时在研究实际问题时,即使不考虑变量也无损大局。因此,经过上述旋转变换就可以把原始数据的信息集中到轴上,对数据中包含的信息起到了浓缩的作用。进行主成分分析的目的就是找出转换矩阵,而进行主成分分析的作用与几何意义也就很明了了。下面我们用遵从正态分布的变量进行分析,以使主成分分析的几何意义更为明显。为方便,我们以二元正态分布为例。对于多元正态总体的情况,有类似的结论。\n2021/7/10中国人民大学六西格玛质量管理研究中心17目录上页下页返回结束§5.2主成分分析的几何意义设变量遵从二元正态分布,分布密度为:令为变量的协方差矩阵,其形式如下:令则上述二元正态分布的密度函数有如下矩阵形式:\n2021/7/10中国人民大学六西格玛质量管理研究中心18目录上页下页返回结束§5.2主成分分析的几何意义考虑(为常数),为方便,不妨设上式有如下展开形式:令,则上面的方程变为:\n2021/7/10中国人民大学六西格玛质量管理研究中心19目录上页下页返回结束§5.2主成分分析的几何意义这是一个椭圆的方程,长短轴分别为:又令为的特征值,为相应的标准正交特征向量.则为正交阵,有:因此有:\n2021/7/10中国人民大学六西格玛质量管理研究中心20目录上页下页返回结束§5.2主成分分析的几何意义与上面一样,这也是一个椭圆方程,且在构成的坐标系中,其主轴的方向恰恰正是坐标轴的方向。因为所以,就是原始变量的两个主成分,它们的方差分别为,在方向上集中了原始变量的变差,在方向上集中了原始变量的变差,经常有远大于,这样,我们就可以只研究原始数据在方向上的变化而不致于损失过多信息,而就是椭圆在原始坐标系中的主轴方向,也是坐标轴转换的系数向量。对于多维的情况,上面的结论依然成立。这样,我们就对主成分分析的几何意义有了一个充分的了解。主成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。\n2021/7/10中国人民大学六西格玛质量管理研究中心21目录上页下页返回结束§5.3总体主成分及其性质由上面的讨论可知,求解主成分的过程就是求满足三条原则的原始变量的线性组合的过程。本节先从总体出发,介绍求解主成分的一般方法及主成分的性质,然后介绍样本主成分的导出。\n2021/7/10中国人民大学六西格玛质量管理研究中心22目录上页下页返回结束§5.3.1总体主成分主成分分析的基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。而这里对于随机变量而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反应,而相关矩阵不过是将原始变量标准化后的协方差矩阵。我们所说的保留原始变量尽可能多的信息,也就是指的生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。一般地说,从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的。下面我们分别就协方差矩阵与相关矩阵进行讨论。\n2021/7/10中国人民大学六西格玛质量管理研究中心23目录上页下页返回结束§5.3.1总体主成分(1)从协方差矩阵出发求解主成分引论:设矩阵,将的特征值依大小顺序排列,不妨设,为矩阵各特征值对应的标准正交特征向量,则对任意向量,有:(5.2)证明:对与单位阵进行谱分解,可以写成下面的式子:而对任意向量,有,于是有\n2021/7/10中国人民大学六西格玛质量管理研究中心24目录上页下页返回结束§5.3.1总体主成分类似的,我们可以得出:于是,自然有\n2021/7/10中国人民大学六西格玛质量管理研究中心25目录上页下页返回结束§5.3.1总体主成分证明:由引论知,对于任意常向量,有:又为标准正交特征向量,于是:证明:由引论知,对于任意常向量,有:又为标准正交特征向量,于是:此时:(5.3)结论:设随机向量的协方差矩阵为,为的特征值,为矩阵各特征值对应的标准正交特征向量,则第i个主成分为:结论:设随机向量的协方差矩阵为,为的特征值,为矩阵各特征值对应的标准正交特征向量,则第i个主成分为:\n2021/7/10中国人民大学六西格玛质量管理研究中心26目录上页下页返回结束§5.3.1总体主成分且:令,则有类似的,有\n2021/7/10中国人民大学六西格玛质量管理研究中心27目录上页下页返回结束§5.3.1总体主成分由以上结论,我们把的协方差矩阵的非零特征值对应的标准化特征向量分别作为系数向量,分别称为随机向量的第一主成分、第二主成分、…、第主成分。的分量依次是的第一主成分、第二主成分、…、第主成分的充分必要条件是:(1),即为阶正交阵;(2)的分量之间互不相关;(3)的个分量是按方差由大到小排列。\n2021/7/10中国人民大学六西格玛质量管理研究中心28目录上页下页返回结束§5.3.1总体主成分于是随机向量与随机向量之间存在下面的关系式:(5.4)注:无论的各特征根是否存在相等的情况,对应的标准化特征向量总是存在的,我们总可以找到对应各特征根的彼此正交的特征向量。这样,求主成分的问题就变成了求特征根与特征向量的问题。\n2021/7/10中国人民大学六西格玛质量管理研究中心29目录上页下页返回结束§5.3.1总体主成分(二)主成分的性质性质1的协方差阵为对角阵。这一性质可由上述结论容易得到,证明略。性质2记,有证明:记则有于是\n2021/7/10中国人民大学六西格玛质量管理研究中心30目录上页下页返回结束§5.3.1总体主成分定义5.1称为第个主成分的方差贡献率,称为主成分的累积贡献率。由此进一步可知,主成分分析是把个随机变量的总方差分解为个不相关的随机变量的方差之和,使第一主成分的方差达到最大,第一主成分是以变化最大的方向向量各分量为系数的原始变量的线性函数,最大方差为。表明了的方差在全部方差中的比值,称为第一主成分的贡献率。这个值越大,表明这个新变量综合信息的能力越强,也即由的差异来解释随机向量的差异的能力越强。\n2021/7/10中国人民大学六西格玛质量管理研究中心31目录上页下页返回结束§5.3.1总体主成分正因如此,才把称为的主成分。进而我们就更清楚为什么主成分的名次是按特征根取值的大小排序的。进行主成分分析的目的之一是为了减少变量的个数,所以一般不会取个主成分,而是取个主成分,取多少比较合适,这是一个很实际的问题,通常以所取使得累积贡献率达到85%以上为宜,即(5.5)这样,既能使损失信息不太多,又达到减少变量,简化问题的目的。另外,选取主成分还可根据特征值的变化来确定。图5-2为SPSS统计软件生成的碎石图。\n2021/7/10中国人民大学六西格玛质量管理研究中心32目录上页下页返回结束§5.3.1总体主成分图5-2由图5-2可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工作者习惯于保留特征值大于1的那些主成分,但这种方法缺乏完善的理论支持。在大多数情况下,当时即可使所选主成分保持信息总量的比重达到85%以上。\n2021/7/10中国人民大学六西格玛质量管理研究中心33目录上页下页返回结束§5.3.1总体主成分定义5.2第个主成分与原始变量的相关系数称做因子负荷量。因子负荷量是主成分解释中非常重要的解释依据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下一章因子分析中还将要对因子负荷量的统计意义给出更详细的解释。由下面的性质我们可以看到因子负荷量与系数向量成正比。性质3(5.6)证明:令:为单位向量。则又\n2021/7/10中国人民大学六西格玛质量管理研究中心34目录上页下页返回结束§5.3.1总体主成分于是于是由性质3知因子负荷量与向量系数成正比,与的标准差成反比关系,因此,绝不能将因子负荷量与向量系数混为一谈。在解释主成分的成因或是第个变量对第个主成分的重要性时,应当根据因子负荷量而不能仅仅根据与的变换系数。\n2021/7/10中国人民大学六西格玛质量管理研究中心35目录上页下页返回结束§5.3.1总体主成分性质4(5.7)证明:由性质3有(5.8)性质5证明:因为向量是随机向量的线性组合,因此也可以精确表示成的线性组合。由回归分析知识知,与的全相关系数的平方和等于1,而因为之间互不相关,所以与的全相关系数的平方和也就是,因此,性质5成立。\n2021/7/10中国人民大学六西格玛质量管理研究中心36目录上页下页返回结束§5.3.1总体主成分定义5.3与前个主成分的全相关系数平方和称为对原始变量的方差贡献率,即(5.9)这一定义说明了前个主成分提取了原始变量中的信息,由此我们可以判断我们提取的主成分说明原始的能力。\n2021/7/10中国人民大学六西格玛质量管理研究中心37目录上页下页返回结束§5.3.1总体主成分(三)从相关阵出发求解主成分考虑如下的数学变换:令:其中,与分别表示变量的期望与方差。于是有令:于是,对原始变量进行标准化:\n2021/7/10中国人民大学六西格玛质量管理研究中心38目录上页下页返回结束§5.3.1总体主成分经过上述标准化后,显然有由于上面的变换过程,原始变量的相关阵实际上就是对原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则是相一致的,在此不再赘述。仍用分别表示相关阵的特征值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为:(5.10)\n2021/7/10中国人民大学六西格玛质量管理研究中心39目录上页下页返回结束§5.3.1总体主成分(四)由相关阵求主成分时主成分性质的简单形式由相关阵出发所求得主成分依然具有上面所述的各种性质,不同的是在形式上要简单,这是由相关阵的特性决定的。我们将由相关阵得到的主成分的性质总结如下:1.的协方差矩阵为对角阵;3.第个主成分的方差占总方差的比例,即第个主成分的方差贡献率为,前个主成分的累积方差贡献率为;\n2021/7/10中国人民大学六西格玛质量管理研究中心40目录上页下页返回结束§5.3.1总体主成分注意到,且,结合前面从协方差矩阵出发求主成分部分对主成分性质的说明,可以很容易的得出上述性质。虽然主成分的性质在这里有更简单的形式,但应注意其实质与前面的结论并没有区别;需要注意的一点是判断主成分的成因或是原始变量(这里原始变量指的是标准化以后的随机向量)对主成分的重要性有更简单的方法,因为由上面第4条知这里因子负荷量仅依赖于由到的转换向量系数(因为对不同的,因子负荷量表达式的后半部分是固定的)。\n2021/7/10中国人民大学六西格玛质量管理研究中心41目录上页下页返回结束§5.4样本主成分的导出记在实际研究工作中,总体协方差阵与相关阵通常是未知的,于是需要通过样本数据来估计。设有个样品,每个样品有个指标,这样共得到个数据,原始资料矩阵如下:\n2021/7/10中国人民大学六西格玛质量管理研究中心42目录上页下页返回结束§5.4样本主成分的导出为样本协方差矩阵,作为总体协方差阵的无偏估计,是样本相关矩阵,为总体相关矩阵的估计。由前面的讨论知,若原始资料阵是经过标准化处理的,则由矩阵求得的协方差阵就是相关矩阵,即与完全相同。因为由协方差矩阵求解主成分的过程与同相关矩阵出发求解主成分的过程是一致的,下面我们仅介绍由相关阵出发求解主成分。根据总体主成分的定义,主成分的协方差是:其中为对角阵\n2021/7/10中国人民大学六西格玛质量管理研究中心43目录上页下页返回结束§5.4样本主成分的导出用左乘上式,得假定资料矩阵为已标准化后的数据矩阵,则可由相关矩阵代替协方差矩阵,于是上式可表示为:即:\n2021/7/10中国人民大学六西格玛质量管理研究中心44目录上页下页返回结束§5.4样本主成分的导出把上式全部展开得到个方程,这里只考虑在矩阵乘积中由第一列得出的个方程:整理得到:\n2021/7/10中国人民大学六西格玛质量管理研究中心45目录上页下页返回结束§5.4样本主成分的导出为了得到上面齐次方程的非零解,根据线性方程组的理论知,要求系数矩阵行列式为0,即即对于可以得到完全类似的方程,于是,所求的新的综合变量(主成分)的方差()是的个根,为相关矩阵的特征值,相应的各个是其特征向量的分量。\n因为为正定矩阵,所以其特征根都是非负实数,将它们依大小顺序排列,其相应的特征向量记为,则相对于的方差为:同理有即对于有最大方差,有次大方差,……,并且,协方差为:2021/7/10中国人民大学六西格玛质量管理研究中心46目录上页下页返回结束§5.4样本主成分的导出\n2021/7/10中国人民大学六西格玛质量管理研究中心47目录上页下页返回结束§5.4样本主成分的导出由此可知新的综合变量(主成分)彼此不相关,并且的方差为,则分别称为第一、第二、……、第个主成分。由上述求主成分的过程可知,主成分在几何图形中的方向实际上就是的特征向量的方向,关于主成分分析的几何意义我们还要在下一节详细讨论;主成分的方差贡献就等于的相应特征值。这样,我们在利用样本数据求解主成分的过程实际上就转化为求相关阵或协方差阵的特征值和特征向量的过程。\n2021/7/10中国人民大学六西格玛质量管理研究中心48目录上页下页返回结束§5.5有关问题的讨论§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分§5.5.2主成分分析不要求数据来自于正态总体§5.5.3主成分分析与重叠信息\n2021/7/10中国人民大学六西格玛质量管理研究中心49目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分由前面的讨论可知求解主成分的过程实际就是对矩阵结构进行分析的过程,也就是求解特征值的过程。在实际分析过程中,我们可以从原始数据的协方差矩阵出发,也可以从原始数据的相关矩阵出发,其求主成分的过程是一致的。但是,从协方差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。下面我们举例说明这个问题,为了叙述方便,我们以二维数据为例。【例5.1】假定我们研究某一经济问题共涉及两个指标:产值和利税。其中产值以百万元计,利税以万元计,得原始资料矩阵如下:\n2021/7/10中国人民大学六西格玛质量管理研究中心50目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分可以得到,原始变量的协方差阵与相关阵分别为:由协方差阵出发求解主成分,得到结果见表5-1:\n2021/7/10中国人民大学六西格玛质量管理研究中心51目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分表5-1对应两特征值的标准正交特征向量为:表5-2\n2021/7/10中国人民大学六西格玛质量管理研究中心52目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分因此,所得的主成分的表达式为:其中,第一主成分保留了原始变量99.50%的信息,我们在分析中就可以把第二主成分舍掉,这样达到简化问题的目的。第一主成分与原始变量的因子负荷量分别为:由此可知,第一主成分反应了利税指标0.9871的信息,方差较大的利税指标对第一主成分起了主要作用。\n2021/7/10中国人民大学六西格玛质量管理研究中心53目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分由相关矩阵求解主成分的结果见表5-3:表5-3对应两特征值的标准正交特征向量为:表5-4\n2021/7/10中国人民大学六西格玛质量管理研究中心54目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分此时,所得主成分的表达式为:由从相关矩阵出发求解主成分的结果可知,第一主成分保留了原始变量66.29%的信息,且产值指标与利税指标对第一主成分的贡献是相同的。第一主成分分别集中了产值和利税的信息。\n2021/7/10中国人民大学六西格玛质量管理研究中心55目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分由此可以看出,由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的结果有很大不同,所得主成分解释原始变量方差比例与主成分表达式均有显著差别,且两者之间不存在简单的线性关系。正因有此差别,所以在处理实际问题时就面临着选取由协方差矩阵出发求解主成分还是由相关阵出发求解主成分的问题,为了更好的理解这种差别,我们对原始变量转换成同一度量单位再求主成分。对产值与利税均以万元计,原始数据资料阵变为以下形式:相关矩阵没有变化,协方差矩阵变为:\n2021/7/10中国人民大学六西格玛质量管理研究中心56目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分由此协方差矩阵出发重新求主成分,结果见表5-5:表5-5对应两特征值的标准正交特征向量见表5-6:表5-6\n2021/7/10中国人民大学六西格玛质量管理研究中心57目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分此时所得主成分的表达式为:其中,第一主成分保留了原始变量98.44%的信息,第一主成分与原始变量的因子负荷量分别为:由此可知,第一主成分保留原始变量的信息与主成分与原始变量的关系式均与上两种情况有很大差别,那么,究竟哪种方法得到的结果更为可信呢,在实际研究中我们应该作何选择呢?\n2021/7/10中国人民大学六西格玛质量管理研究中心58目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。比如,在对上市公司的财务状况进行分析时,常常会涉及到利润总额、市盈率、每股净利率等指标,其中利润总额取值常常从几十万到上百万,市盈率取值一般从五到六、七十之间,而每股净利率在1以下,不同指标取值范围相差很大,这时若是直接从协方差矩阵入手进行主成分分析,明显利润总额的作用将起到重要支配作用,而其它两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。\n2021/7/10中国人民大学六西格玛质量管理研究中心59目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分但是,对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。由上面的例子我们看到,对于取值范围相差不大或是度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为1,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。由此看来,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。\n2021/7/10中国人民大学六西格玛质量管理研究中心60目录上页下页返回结束§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分对于从什么出发求解主成分,现在还没有一个定论,但是我们应该看到,不考虑实际情况就对数据进行标准化处理或者直接从原始变量的相关矩阵出发求解主成分是有其不足之处的,这一点一定要引起注意。建议在实际工作中分别从不同角度出发求解主成分并研究其结果的差别,看看是否发生明显差异且这种差异产生的原因在何处,以确定用哪种结果更为可信。\n2021/7/10中国人民大学六西格玛质量管理研究中心61目录上页下页返回结束§5.5.2主成分分析不要求数据来自于正态总体由上面的讨论可知,无论是从原始变量协方差矩阵出发求解主成分,还是从相关矩阵出发求解主成分,均没有涉及到总体分布的问题。也就是说,与很多多元统计方法不同,主成分分析不要求数据来自于正态总体。实际上,主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。我们知道,对多元随机变量而言,其协方差矩阵或是其相关矩阵均是非负定的,这样,我们就可以按照求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到缩减数据维数的目的。同时,由主成分分析的几何意义可以看到,对来自多元正态总体的数据,我们得到了合理的几何解释,即主成分就是按数据离散程度最大的方向进行坐标轴旋转。主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理,我们都可以尝试用主成分分析,而不用花太多精力考虑其分布情况。\n2021/7/10中国人民大学六西格玛质量管理研究中心62目录上页下页返回结束§5.5.3主成分分析与重叠信息首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。很多研究工作者在运用主成分分析方法时,都或多或少存在着对主成分分析去除原始变量重叠信息的期望,这样,在实际工作中初始就可以把与某一研究问题相关而可能得到的变量(指标)都纳入分析过程,再用少数几个主成分浓缩这些有用信息(假定已剔除了重叠信息),然后对主成分进行深入分析。在对待重叠信息方面,生成的新的综合变量(主成分)是有效剔除了原始变量中的重叠信息,还是仅仅按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,这一点还值得讨论。\n2021/7/10中国人民大学六西格玛质量管理研究中心63目录上页下页返回结束§5.5.3主成分分析与重叠信息为说明这个问题,我们有必要再回顾一下主成分的求解过程,我们仅就从协方差矩阵出发求主成分的过程予以说明,对相关阵有类似的情况。对于维指标的情况,我们得到其协方差矩阵如下:现在考虑一种极端情况,即有两个指标完全相关,不妨设第一个指标在进行主成分分析时考虑了两次。则协方差矩阵变为:\n2021/7/10中国人民大学六西格玛质量管理研究中心64目录上页下页返回结束§5.5.3主成分分析与重叠信息此时进行主成分分析的时候实际上是由维矩阵进行。的行列式的值为零但仍满足非负定,只不过其最小的特征值为0,由出发求解主成分,其方差总和不再是而是变为,也就是说,第一个指标在分析过程中起到了加倍的作用,其重叠信息完全象其他指标提供的信息一样在起作用。\n2021/7/10中国人民大学六西格玛质量管理研究中心65目录上页下页返回结束§5.5.3主成分分析与重叠信息这样求得的主成分已经与没有第一个指标重叠信息时不一样了,因为主成分方差的总和已经变为而不是,每个主成分解释方差的比例也相应发生变化,而整个分析过程没有对重叠信息作任何特殊处理。也就是说,由于对第一个指标罗列了两次,其在生成的主成分构成中也起到了加倍的作用。这一点是尤其应该引起注意的,这意味着主成分分析对重叠信息的剔除是无能为力的,同时主成分分析还损失了一部分信息。对此文献[4]举例进行了说明。这就告诉我们在实际工作中,在选取初始变量进入分析时应该小心,对原始变量存在多重共线性的问题,在应用主成分分析方法时一定要慎重。应该考虑所选取的初始变量是否合适,是否真实地反映了事物的本来面目,如果是出于避免遗漏某些信息而特意选取了过多的存在重叠信息的变量时,就要特别注意应用主成分分析所得到的结果。\n2021/7/10中国人民大学六西格玛质量管理研究中心66目录上页下页返回结束§5.5.3主成分分析与重叠信息如果所得到的样本协方差矩阵(或是相关阵)最小的特征值接近于0,那么就有(5.11)进而推出(5.12)这就意味着,中心化以后的原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。因此,在进行主成分分析得出协方差阵或是相关阵发现最小特征根接近于零时,应该注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选,由此可以看出,虽然主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在着重叠信息,这对我们减少分析中的失误是有帮助的。\n2021/7/10中国人民大学六西格玛质量管理研究中心67目录上页下页返回结束§5.6主成分分析步骤及框图§5.6.1主成分分析步骤§5.6.2主成分分析的逻辑框图\n2021/7/10中国人民大学六西格玛质量管理研究中心68目录上页下页返回结束§5.6.1主成分分析步骤由上面讨论大体上已经可以明了进行主成分分析的步骤,对此进行归纳如下:1.根据研究问题选取初始分析变量;2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;3.求协差阵或相关阵的特征根与相应标准特征向量;4.判断是否存在明显的多重共线性,若存在,则回到第一步;5.得到主成分的表达式并确定主成分个数,选取主成分;6.结合主成分对研究问题进行分析并深入研究。\n2021/7/10中国人民大学六西格玛质量管理研究中心69目录上页下页返回结束§5.6.2主成分分析的逻辑框图特征值标准正交特征向量是否有接近0的情况是其他处理否主成分对主成分进行分析深入分析选择初始变量度量或取值范围相同?是否(否)对比分析相关阵分析协方差阵主成分分析的逻辑框图见图5-3:\n【例5.2】数据集Employeedata为Midwestern银行在1969-1971年之间雇员情况的数据,共包括474条观测及如下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度(年数))、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间(月))、Prevexp(受雇以前的工作时间(月))、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。2021/7/10中国人民大学六西格玛质量管理研究中心70目录上页下页返回结束§5.7主成分分析的上机实现SPSS软件FACTOR模块提供了主成分分析的功能。下面先以SPSS软件包自带的数据Employeedata.sav为例介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。\n2021/7/10中国人民大学六西格玛质量管理研究中心71目录上页下页返回结束§5.7主成分分析的上机实现进入SPSS软件,打开数据集Employeedata.sav。依次点选Analyze→DataReduction→Factor….进入FactorAnalysis(因子分析)对话框。(在SPSS软件中,主成分分析与因子分析均在FactorAnalysis模块中完成。此时,数据集Employeedata.sav中的变量名均已显示在左边的窗口中,依次选中变量educ、salary、salbegin、jobtime、prevexp并点向右的箭头按钮,这五个变量便进入variables窗口(此时若选中variables窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OK按钮,即可得到如下输出结果5-1。\n2021/7/10中国人民大学六西格玛质量管理研究中心72目录上页下页返回结束§5.7主成分分析的上机实现输出结果5-1(2)输出结果5-1(1)\n2021/7/10中国人民大学六西格玛质量管理研究中心73目录上页下页返回结束§5.7主成分分析的上机实现输出结果5-1(3)\n2021/7/10中国人民大学六西格玛质量管理研究中心74目录上页下页返回结束§5.7主成分分析的上机实现其中Communalities给出了该次分析从每个原始变量中提取的信息,表格下面的注示表明,该次分析是用Factoranalysis模块默认的信息提取方法即主成分分析完成的。可以看到除受教育程度信息损失较大外,主成分几乎包含了各个原始变量至少90%的信息。TotalVarianceExplained表则显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在本例中看到当保留3个主成分为宜,这3个主成分集中了原始5个变量信息的90.66%,可见效果是比较好的。实际上,主成分解释总方差的百分比也可以由Communalities表中计算得出,即(0.896+0.916+0.999+0.968+0.754)/5=90.66%。ComponentMatrix表中给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中CurrentSalary一行为例,不妨用来表示各个主成分,则由ComponentMatrix表可以得到:标准化的salary\n2021/7/10中国人民大学六西格玛质量管理研究中心75目录上页下页返回结束§5.7主成分分析的上机实现在上面的主成分分析中,SPSS默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分,实际上,对主成分的个数我们可以自己确定,方法为:进入FactorAnalysis对话框并选择好变量之后,点击Extraction选项,在弹出的对话框中有一个Extract选择框,默认是选择Eigenvaluesover1也就是保留特征根大于1的主成分,我们可以输入别的数值来改变SPSS软件保留特征根的大小;另外,还可以选择NumberofFactors选项直接确定主成分的个数。在实际进行主成分分析时可以先按照默认设置做一次主成分,然后根据输出结果确定应保留主成分的个数,用该方法进行设定后重新分析。因为我们上面的结果是默认从相关阵出发得到的,而由相关阵出发求得的主成分其性质有简单的表达形式,我们可以方便地加以验证。\n2021/7/10中国人民大学六西格玛质量管理研究中心76目录上页下页返回结束§5.7主成分分析的上机实现由ComponentMatrix中的结果可以得到:=第一主成分的方差,这就验证了性质4。又有:这恰好与Communalities表中三个主成分提取salary变量的信息相等。我们重做一遍主成分分析,此次将5个主成分全部保留,得到ComponentMatrix表如输出结果5-2:\n2021/7/10中国人民大学六西格玛质量管理研究中心77目录上页下页返回结束§5.7主成分分析的上机实现输出结果5-2可以看到前三个主成分的相应结果与输出结果5-1中的对应部分结果是一致的。对上表中结果有如下关系式:\n2021/7/10中国人民大学六西格玛质量管理研究中心78目录上页下页返回结束§5.7主成分分析的上机实现这就验证了性质5。由此表还可以得到标准化原始变量用各主成分线性表示的精确的表达式,以仍以CurrentSalary为例,有:标准化的salary由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果及其他一些有用的结果,就需要对FactorAnalysis模块中的设置做一些调整,方法如下:进入FactorAnalysis对话框并选择好变量之后,点击对话框下部的Scores按钮进入FactorScores对话框,选择Displayfactorscorecoefficientmatrix选项并按Continue继续,该选项是让系统输出主成分得分系数矩阵。点击OK按钮运行,则除了默认结果,还输出如下输出结果5-3:\n2021/7/10中国人民大学六西格玛质量管理研究中心79目录上页下页返回结束§5.7主成分分析的上机实现输出结果5-3上表中给出了用原始变量表示主成分的系数信息。因为系统默认是从相关矩阵出发进行分析,所以,上面表格中的系数是将原始变量标准化后表示主成分的系数。也就是说,有下式成立:\n2021/7/10中国人民大学六西格玛质量管理研究中心80目录上页下页返回结束§5.7主成分分析的上机实现应当注意的是,此处SPSS给出的用原始变量表示主成分的表达式得到的是标准化后的主成分,也就是说,这样求得的主成分的方差是1,而不是原始变量相关矩阵的各个特征根了。如上式中,第一主成分的方差为2.477,而用上式求得的主成分方差为1,要得出未标准化的主成分与原始变量的表达式,只需将SPSS软件给出的系数前面乘以主成分方差的平方根即可,未标准化第一主成分与原始变量的关系式如下:类似可以写出第二、第三个主成分用标准化后的原始变量表示的表达式。\n2021/7/10中国人民大学六西格玛质量管理研究中心81目录上页下页返回结束§5.7主成分分析的上机实现【例5.3】在企业经济效益的评价中,设计的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表5-7,即样品数n=28,变量数p=9。\n2021/7/10中国人民大学六西格玛质量管理研究中心82目录上页下页返回结束§5.7主成分分析的上机实现100固定资产原值实现值(%)100元固定资产原值实现利税(%)100元资金实现利税(%)100元工业总产值实现利税(%)100元销售收入实现利税(%)每吨标准煤实现工业产值(元)每千瓦时电力实现工业产值(元)全员劳动生产率(元/人.年)100元流动资金实现产值(元)北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表5-7100固定资产原值实现值(%)100元固定资产原值实现利税(%)100元资金实现利税(%)100元工业总产值实现利税(%)100元销售收入实现利税(%)每吨标准煤实现工业产值(元)每千瓦时电力实现工业产值(元)全员劳动生产率(元/人.年)100元流动资金实现产值(元)北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表5-7\n2021/7/10中国人民大学六西格玛质量管理研究中心83目录上页下页返回结束§5.7主成分分析的上机实现江西(14)94.9414.714.1815.496.6916692.2410463274.4山东(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309广东(19)136.4423.6420.8317.337.8529593.7116259334广西(20)100.7222.0420.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5贵州(22)59.0514.4814.3524.538.0910681.329710206.7云南(23)73.7221.9122.729.729.3814471.9412517295.8陕西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肃(25)59.6214.0716.2423.5911.349261.1313084246.8青海(26)51.668.328.2616.117.0510551.319246176.49宁夏(27)52.958.258.8215.576.588341.1210406245.4新疆(28)60.2911.2613.1418.688.3910412.910983266续表5-7\n2021/7/10中国人民大学六西格玛质量管理研究中心84目录上页下页返回结束§5.7主成分分析的上机实现0.4235231.3384051.5902821.6875562.2396340.4819710.9547461.2603710.0488050.9951991.4096491.6314530.6672281.0658731.1887581.8553941.1338441.200166-0.14352-0.271-0.10906-0.29487-0.00854-0.57821-0.45763-0.152790.49097-0.81499-0.98577-1.08721-1.811432.740046-1.79273-0.84655-0.56349-0.15927-1.06992-1.20067-1.303-0.61894-1.14919-0.86449-0.69303-1.00129-1.18752-0.150240.1868270.5837370.7710330.694243-0.3171-0.11989-2.27170.308902-0.47486-0.71949-0.7039-0.68477-0.82907-0.43245-0.4167-0.69238-0.34307-0.58206-0.43218-0.290780.393790.359408-0.47334-0.22224-0.62003-0.466192.0095833.0809562.9886561.3001862.0961332.7554331.6711712.9832842.1625242.4302940.9494850.548246-1.48989-0.582541.5557832.264781.6592991.9648512.4650251.5813351.002539-0.85187-0.041662.1944081.7530481.43671.5885780.2264810.1377740.199007-0.15562-1.02776-0.26257-0.25294-0.157670.8186910.5038680.3503370.172033-0.24423-0.383850.5050410.156444-0.227320.126834-0.14028-0.56298-0.64428-0.9658-0.99465-0.05179-0.24271-0.51352-0.337870.3839290.2814290.308322-0.16574-0.107890.1065570.3304330.725830.645294表5-8\n2021/7/10中国人民大学六西格玛质量管理研究中心85目录上页下页返回结束§5.7主成分分析的上机实现-0.34774-0.25932-0.218380.206435-0.63406-0.43245-0.60092-0.38161-0.301460.068569-0.00238-0.03382-0.13536-0.085810.1159940.279260.375190.2603510.070190.2277050.3636890.335558-0.24771-0.4681-0.50881-0.059580.2620850.8206170.4811450.299804-0.49995-0.567831.3009631.2617850.4616730.695579-0.006450.2942770.3097410.6520370.1018430.014276-0.35529-0.180720.043603-0.37669-0.60386-0.6457-0.60122-0.52735-0.42825-0.14036-0.30489-0.89101-0.97128-0.58868-0.620141.322972-0.47952-0.68202-1.18429-0.64022-1.51177-0.631610.2790930.5652822.636993-0.00486-0.28459-0.54975-0.167930.033199-0.53205-0.74635-0.87284-0.62654-0.074770.013227-0.40646-0.36109-1.27595-0.95809-0.63656-0.351821.084980.71632-0.83093-1.37875-0.07253-0.81645-1.14239-1.30812-1.48472-0.80883-0.86219-0.69566-1.19453-0.71829-2.03561-1.11252-1.3163-1.40522-0.94555-1.03512-0.92741-1.38899-0.52311-0.84073-0.94257-0.96475-0.79192-0.15815-0.36913-0.710340.432779-0.42603-0.48353续表5-8\n2021/7/10中国人民大学六西格玛质量管理研究中心86目录上页下页返回结束§5.7主成分分析的上机实现将表5-8数据导入spss软件,依次点选Analyze-DataReduction-Factor进入FactorAnalysis对话框。(在spss中,主成分分析与因子分析均在FactorAnalysis模块中完成。)如图5-4所示:图5-4\n2021/7/10中国人民大学六西格玛质量管理研究中心87目录上页下页返回结束§5.7主成分分析的上机实现此时,数据集5-5.sav中的变量名均显示在对话框左边的窗口中,选择变量x1,x2,x3,x4,x5,x6,x7,x8,x9进入variables窗口中,操作如图5-5所示:图5-5\n2021/7/10中国人民大学六西格玛质量管理研究中心88目录上页下页返回结束§5.7主成分分析的上机实现图5-5点击descriptives按钮,在弹出的对话框中,在correlationmatrix中选择coefficients。回到原对话框点击右侧的Ok,即可得到输出结果5-4和输出结果5-5。\n2021/7/10中国人民大学六西格玛质量管理研究中心89目录上页下页返回结束§5.7主成分分析的上机实现输出结果5-4\n2021/7/10中国人民大学六西格玛质量管理研究中心90目录上页下页返回结束§5.7主成分分析的上机实现输出结果5-5由输出结果5-4看到,前面2个主成分、的方差和占全部方差的比例为84.7%。我们就选取为第一主成分,为第二主成分,且这两个主成分之方差和占全部方差的91.6%,即基本上保留了原来指标的信息,这样由原来的9个指标转化为2个新指标,起到了降维的作用。\n2021/7/10中国人民大学六西格玛质量管理研究中心91目录上页下页返回结束§5.7主成分分析的上机实现Spss软件得到主成分系数矩阵如下:\n2021/7/10中国人民大学六西格玛质量管理研究中心92目录上页下页返回结束§5.7主成分分析的上机实现由上表得到前2个主成分,,的线性组合为:(5.13)对所选主成分作经济解释。主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。\n2021/7/10中国人民大学六西格玛质量管理研究中心93目录上页下页返回结束§5.7主成分分析的上机实现我们所取的例子中有9个指标,这9个指标有很强的依赖性,通过主成分计算后,我们选择了2个主成分,这两个主成分有着明显的经济意义。第一主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外,其余变量的系数相当,所以第一主成分可看成是的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果,它是“投入”与“产出”之比。第一主成分所占信息总量为68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产的有效所产生的经济效益更大一些。第二主成分是把工业生产中所得总量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了“产出”对国家所作的贡献。这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所作的贡献,抓住了这2个方面,经济效益就一定会提高。\n2021/7/10中国人民大学六西格玛质量管理研究中心94目录上页下页返回结束§5.7主成分分析的上机实现通常为了分析各样品在主成分所反映的经济意义方面的情况,还将标准化后的原始数据带入主成分表达式计算出各样品的主成分得分,由各样品的主成分得分(当主成分个数为2时)就可在二维空间中描出各样品的分布情况。将表5-8数据代入式(5.13)式,得到28个省、市、自治区的主成分得分,见表5-9。将这28各样品在平面直角坐标系上描出来,进而可进行样品分类。主成分得分图见图5-6。\n2021/7/10中国人民大学六西格玛质量管理研究中心95目录上页下页返回结束§5.7主成分分析的上机实现样品号第一主成分得分第二主成分得分11.135631.9987521.506450.442053-0.19631-0.080544-0.815360.316885-1.20017-0.603566-0.168561.044517-0.65065-0.667128-0.419990.5704192.837911.13592101.5905-2.31268111.76154-1.50077120.02914-0.493130.20663-0.4310314-0.4798-1.03236150.39695-0.2989316-0.414350.08055170.14309-0.2474118-0.017560.31942190.73347-1.08331200.055450.5923621-0.56854-0.5028522-0.904951.0864123-0.008531.9777124-0.65494-0.3346325-0.663361.4408126-1.37435-0.4882327-1.2372-0.6938928-0.62211-0.23546表5-9续表5-9\n2021/7/10中国人民大学六西格玛质量管理研究中心96目录上页下页返回结束§5.7主成分分析的上机实现图5-6由图5-6可看出,分布在第一象限的是上海、北京、天津、广西这4个省,这四个省、市、自治区的经济效益在全国来说属于比较好的,其中上海的经济效益最好。分布在第四象限的江苏、浙江、安徽、福建、山东、湖北、广东七个省、市、自治区。因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,所以这七个省的经济效益也算比较好。分布在第二象限和第三象限的地区可属同一类,经济效益较差。\n2021/7/10中国人民大学六西格玛质量管理研究中心97目录上页下页返回结束§5.7主成分分析的上机实现主成分得分操作:在FactorAnalysis主对话框,点击下方的Scores按钮,进入FactorScores对话框,选中saveasvariables复选框,点击continue。系统默认用回归方法求得因子得分。见图5-7。图5-7\n2021/7/10中国人民大学六西格玛质量管理研究中心98目录上页下页返回结束§5.7主成分分析的上机实现【例5.4】全国重点水泥企业经济效益综合评价例。利用主成分综合评价全国重点水泥企业的经济效益。原始数据(数据来自1984年中国统计年鉴)见表5-10。\n2021/7/10中国人民大学六西格玛质量管理研究中心99目录上页下页返回结束§5.7主成分分析的上机实现厂家编号及指标固定资产利税率资金利税率销售收入利税率资金利润率固定资产产值率流动资金周转天数万元产值能耗全员劳动生产率1琉璃河16.6826.7531.8418.453.255528.831.752邯郸19.727.5632.9419.259.825532.922.873大同15.223.432.9816.2446.786541.691.534哈尔滨7.298.9721.34.7634.396239.281.635华新29.4556.4940.7443.6875.326926.682.146湘乡32.9342.7847.9833.8766.465032.872.67柳州25.3937.8236.7627.5668.186335.792.438峨嵋15.0519.4927.2114.216.137635.761.759耀县19.8228.7833.4120.1759.257139.131.8310永登21.1335.239.1626.5252.476235.081.7311工源16.7528.7229.6219.2355.765830.081.5212抚顺15.8328.0326.417.4361.196132.751.613大连16.5329.7332.4920.6350.416937.571.3114江南22.2454.5931.053767.956332.331.5715江油12.9220.8225.1212.5451.076639.181.83表5-10\n2021/7/10中国人民大学六西格玛质量管理研究中心100目录上页下页返回结束§5.7主成分分析的上机实现经标准化后的数据取名为“重点水泥厂”见表5-11。x1x2x3x4x5x6x7x8-0.14367-0.35795-0.11356-0.36669-0.038791.1933471.426821-0.277120.246189-0.293880.050803-0.287320.3561571.1933470.2890352.253119-0.33473-0.622920.056779-0.581-0.42773-0.37328-1.3981-0.77413-1.35585-1.76431-1.68844-1.71997-1.172550.043644-1.00954-0.548221.5048441.9944361.2162772.1414281.287927-0.872792.164810.6039441.9540870.9099992.2980751.1681420.7553152.2116560.3012351.643150.9807270.5176720.6215860.5421040.858711-0.09974-0.35411.259096-0.35409-0.9322-0.80537-0.7824-2.87137-1.6204-0.34791-0.27712表5-11\n2021/7/10中国人民大学六西格玛质量管理研究中心101目录上页下页返回结束§5.7主成分分析的上机实现续表5-110.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.16304-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.27114-2.009841.844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.62906-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.09639x1x2x3x4x5x6x7x80.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.16304-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.27114-2.009841.844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.62906-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.09639x1x2x3x4x5x6x7x8续表5-110.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.16304-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.27114-2.009841.844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.62906-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.09639x1x2x3x4x5x6x7x8\n2021/7/10中国人民大学六西格玛质量管理研究中心102目录上页下页返回结束§5.7主成分分析的上机实现导入spss中计算出其相关阵R如下,见表5-12:表5-12\n2021/7/10中国人民大学六西格玛质量管理研究中心103目录上页下页返回结束§5.7主成分分析的上机实现在确定主成分个数之前,与例5-3相同的spss操作,得出软件输出结果5-6如下:输出结果5-6(1)\n2021/7/10中国人民大学六西格玛质量管理研究中心104目录上页下页返回结束§5.7主成分分析的上机实现输出结果5-6(2)\n2021/7/10中国人民大学六西格玛质量管理研究中心105目录上页下页返回结束§5.7主成分分析的上机实现从上表及上图可看出,前3个主成分解释了全部方差的87.085%,也即包含了原始数据的信息总量达到了87.085%,这说明前三个主成分代表原来的8个指标评价企业的经济效益已经有足够的把握。设这3个主成分分别用来表示,按照例5-3操作,只不过在点击extraction按钮时,在numberoffactors中填写3,即可得到相关矩阵的前三个特征根的特征向量,见表5-13:表5-13\n2021/7/10中国人民大学六西格玛质量管理研究中心106目录上页下页返回结束§5.7主成分分析的上机实现由上表,三个主成分的线性组合如下:(5.14)主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定。综合因子中的系数远大于其他变量的系数,所以,主要是固定资产利税率、资金利税率、销售收入利税率、资金利润率这四个指标的综合反映,它代表着经济效益的盈利方面,刻画了企业的盈利能力。因为由来评价企业的经济效益已有60.76%的把握,所以这四项指标是反映企业经济效益的主要指标。\n2021/7/10中国人民大学六西格玛质量管理研究中心107目录上页下页返回结束§5.7主成分分析的上机实现同时,从的线性组合中可以看到前四个单项指标在综合因子中所占的比重相当,这进而说明这四项指标用于考核评价企业经济效益每一项都是必不可少的。主要是流动资金周转天数和全员劳动生产率的综合反映,它标志着企业的资金和人力的利用水平,以资金和个人的利用率作用于企业的经济效益。资金和人力利用得好,劳动生产率就提高,资金周转就加快,从而提高企业经济效益。主要反映万元产值能耗,从改进生产工艺、勤俭节约方面作用于企业经济效益。这三个综合因子从三个影响企业经济效益的主要方面刻画企业经济效益,用它们来考核企业经济效益具有87.085%的可靠性。\n2021/7/10中国人民大学六西格玛质量管理研究中心108目录上页下页返回结束§5.7主成分分析的上机实现企业经济效益的评价和排队。我们记,,分别为企业在三个综合因子方面的得分,F表示企业经济效益的总得分。将标准化后的原始数据代入(5.14)式就可计算出各企业在三个综合因子方面的名次。利用(5.15)式就可计算出各企业经济效益的综合得分,由综合得分可排出企业经济效益的名次。在spss中,计算各主成分得分步骤如例5-3操作,结果见表5-14:\n2021/7/10中国人民大学六西格玛质量管理研究中心109目录上页下页返回结束§5.7主成分分析的上机实现琉璃河0.022430.716231.83638邯郸0.381221.97497-0.09623大同-0.71186-0.15006-0.88207哈尔滨-1.69610.765690.39536华新1.79484-1.529730.40186湘乡1.764181.63618-0.85405柳州0.730740.28641-1.12474峨嵋-1.2721-0.63683-0.95769耀县-0.21511-0.53695-1.18281永登0.30076-0.27676-0.52736工源-0.122250.073971.68818抚顺-0.34114-0.046241.1871大连-0.48376-1.02203-0.34845江南0.78171-1.423850.70415江油-0.933560.16899-0.23962表5-14最后,按照式(5.15)计算各企业经济效益的综合得分,由综合得分可排出企业经济效益的名次。各主成分得分、综合得分及排名见下表5-15。\n2021/7/10中国人民大学六西格玛质量管理研究中心110目录上页下页返回结束§5.7主成分分析的上机实现表5-15\n2021/7/10中国人民大学六西格玛质量管理研究中心111目录上页下页返回结束§5.7主成分分析的上机实现在表5-15的经济效益得分中,有许多企业的得分是负数,但并不是企业的经济效益就为负。这里的正负仅表示该企业与平均水平的位置关系,企业的经济效益的平均水平算作零点,这是我们在整个过程中将数据标准化的结果。从表5-15可看到,湘乡水泥厂的综合经济效益最好,是第一名;华新水泥厂的综合经济效益为第二名;……,峨嵋水泥厂的综合经济效益最差。从影响企业经济效益的三个主要因子的得分看,峨嵋水泥厂不管在企业盈利能力、资金和人力利用及产能消耗方面,都处于最差地位,因此,他们反映出峨嵋水泥厂在盈利能力方面缺乏活力,资金和人力利用率也不高,产值能耗也相对较高。企业要改变落后的状况,只能改进各项工作,提高经济效益。华新水泥厂的盈利能力最强,但这个厂的资金和人力利用效率最差,这似乎是个矛盾。\n2021/7/10中国人民大学六西格玛质量管理研究中心112目录上页下页返回结束§5.7主成分分析的上机实现有的管理者认为只要企业盈利就一好百好,因而忽视企业的资金周转,不注重提高劳动生产率。然而,这种经济效益好、盈利能力强可能是由于企业具有得天独厚的优越条件。华新水泥厂若能正视自己,努力加快资金周转,进一步提高劳动生产率,保持自己强有力的盈利能力,该厂的经济效益从而会更好,将会立足于全国重点水泥厂的最前列。虽然此处可以根据各上市公司的主成分得分对各公司运营情况进行一些比较分析或分类研究,但因此处主成分的意义不十分明朗,我们把更深入的分析放到下一章,以期得到更合理,更容易解释的结果。\nTheend!Thanks!2021/7/10中国人民大学六西格玛质量管理研究中心113