统计学-复习资料 16页

  • 317.00 KB
  • 2022-08-13 发布

统计学-复习资料

  • 16页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
统计学复习资料第一章数据系统一、数据类型1、定性数据2、定量数据定量数据(scale):可以得到具体数值,一般还有测量单位。定距变量:如温度、年龄……定比变量:如收入……定距数据(Scale):通常指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据。定序数据(ordinal):是具有内在固定大小或高低顺序的数值或字符,如文化程度、职称,等。定类数据(nominal):没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据,如性别、民族,等。二、数据来源1、野外调查2、定位或半定位观测3、室内实验4、判图5、统计资料和文献二、数据的整理1、检查资料、统计分组与图表绘制确保资料的可靠性、完整性和准确性统计分组是按照一定标志和要求,把数据分成不同的组,为后续的统计研究打下基础。统计分组可分为:按质量标志分组和按数量标志分组。按质量标志分组,多用于人文-经济地理领域,其组数取决于社会经济现象的基本类型和其在研究中的意义,而且不分组距。如:在人口地理研究中,将人口按性别、民族、职业进行分组。按数量标志分组,是先依其变量类型不同,分为离散型变量和连续型变量,然后再根据其特征的不同进行分组。离散型变量可采用单项式(每个变量为一组)和组距式(整个变量分成几个区间,每个区间为一组)处理。连续型变量只能采取组距式分组。又可分为等距和不等距分组两种。组距分组:第一步,求变量的全距RR=Xmax-Xmin第二步,确定组数nn=1+3.32lgN(N为样本总量)第三步,计算组距:h=R/n第四步,确定每组的上、下限2、数据的合并与分割3、数据的函数变换4、数据的其他变换数据的函数变换是将原始数据的每一个数值通过特定的运算方式变换成新的数值。在原有数据基本上,计算产生一些含有更丰富信息的新数据。使数据更直观、更有效。常见的数据变换有:对数或多项式变换;时间序列的平稳化处理;利用区间变换压缩数据取值范围和标准化处理等。包括算术表达式、条件表达式和函数三大部分。\n第二节数据的分布特征数据经过整理后,得出了频数分布的大致情况。但为了确切地表示地理数据的分布性质和在数量上的特征,需要进一步定量计算其特征值。在数据的分布性质中,最重要的两个性质是集中性和分散性。反映数据集中性的特征值有:平均值(均数)、中位数、众数等。反映数据分散性的特征值有:绝对离差度(离差、离差平方和、标准差、方差等)和相对离差度(变异系数)1、平均数(均数,Mean)可代表数据的一般水平,并可作为对比分析的指标。主要包括算术平均数和几何平均数。(1)简单算术平均数:(2)加权算术平均数:3)几何平均数一般用来分析和研究国民经济、企业生产或人口等方面的平均发展速度和平均增长速度2、中位数(Median)也称中央值,它是数据按大小排序后位居中间的那个数值。当一个数据变量值分布很偏时,以中位数表示集中趋势比算术平均数更合理。如收入、分数的分布。对于未分组的数据:3、众数(Mode)是数据中出现频数最多的那个数。对于未分组的数据,可以根据每一个数据出现的频数大小直接确定众数。\n对于分组数据,按以下公式计算众数:三、数据的分布形态1、偏度(Skewness):反映频数分布偏态方向和程度的测度偏度值大于0,表示正偏差值大,称为右偏或正偏;偏度值小于0,表示负偏差值大,为负偏或左偏。(2)峰度(Kurtosis):指频数分布曲线高峰的形态,即反映分布曲线的尖峭程度的测度。当β=0时,表示分布的峰度是正态分布的峰度;当β>0时,表示分布曲线的高峰是尖顶高峰;当β<0时,表示分布曲线的高峰是平顶高峰。\n右面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。•交叉列联表的卡方(X2)检验•在列联表确定的情况下,卡方统计量观测值的大小仅取决于观测频数与期望频数的总差值。当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关。反之,当总差值越小时,卡方值也就越小,实际分布与期望分布越接近,表明行列变量之间越独立。卡方检验结果:P=0<α(0.05),则拒绝0假设,说明变量之间存在着显著联系,即强相关性。第二章时间序列分析数据的时间序列分析:事物存在于空间和时间之中,对事物的空间分布和时间序列的描述和测度,是分析问题或现象研究结果的基础。时间序列分析(TimeSeriesAnalysis)是研究事物发展变化规律的一种量化分析方法。\n一、数据空间分布类型1、点状分布2、线状分布3、面状分布:包括离散型区域、连续型区域两种。离散型区域是一种不连续的面状分布,两个相邻区域之间为不同的质量或性质差异的数据系统。数据的时间序列分析时间序列分析(TimeSeriesAnalysis)是研究事物发展变化规律的一种量化分析方法。是一些有着严格先后顺序的数据,它们之间存在着某种前后相承的关系,而非互相独立。数据的时间序列分析2、时间序列分析方法(1)时域分析:认为时间序列是过去值和一些相关变量的函数,即当前的表现是由过去的状态和一些外部因素决定的,通过过去和当前的序列数据可以预知未来的表现。(2)频域分析:认为时间序列是由若干个具有不同周期的正弦波成分叠加而成,通过复杂的数学工具,对其周期成分进行识别和分解,可以认识时间序列的特性,掌握其变化规律。时间序列——时域分析方法简单回归分析法:一种基于因果关系的分析方法,适合序列间的结构分析和较长期数列数据的预测。趋势外推法:对序列的长期趋势利用曲线进行拟合的分析方法,适用于精度要求不很高的中长期趋势预测。自回归(Autoregression)方法:引入了被解释就量某些阶数的滞后变量,适用于简单回归分析中残差项存在一阶自相关情况的序列。自回归移动平均(ARMA)模型,也称B-J方法:认为时间序列是若干白噪声序列的某种组合(MA模型),可以由其自身的某些滞后序列进行解释(AR模型)。常用于随机性波动较频繁序列的短期预测。时间序列的水平分析主要指标——发展水平、平均发展水平、增减量、平均增减量基期、报告期(末期)序时平均数:不同时间上的指标数值的平均数。时期数列:时点数列:增减量:报告期与基期水平之差。平均增减量4、时间序列的速度分析发展速度:报告期水平与基期水平之比\n增减速度:由增减量与基期水平对比求得平均发展速度------几何平均法:侧重于研究对象的最末期的发展水平,如生产能力、产值、人口增长等的统计。------累计法:侧重于研究对象各期发展水平的总和,如累计资产数、累计毕业生人数等的统计。5、时间序列的趋势变动分析1)长期趋势:现象在相当长的时间内所表现的某一方向持续的变化。增长趋势①线性趋势a、移动平均法是扩大原时间序列的时间间隔,选定一定的时距项数n,采用逐次递移的方法对原数列递移的n项计算一系列序时平均数。由于数据在某一时间段内的出现很大的波动,为了滤去数据中一些短期的不规则的变化,找出较长时间的变化规律。该方法适用来分析时间序列的长期趋势,不适合对现象未来的发展趋势进行预测。②滑动平均法由于地理数据在某一时间段内的出现很大的波动,为了滤去数据中一些短期的不规则的变化,找出较长时间的变化规律,常用滑动平均法处理。常用三年、五年、十年滑动平均数③直线趋势方程拟合3)线性拟合趋势分析4)非线性趋势方程拟合抛物线型指数曲线型\n指数平滑法:又叫指数加权移动平均法,通过对时间数列中各个数据进行加权处理,愈近的数据其权数应愈大。可以消除时间数列的偶然因素所引起的变动,进而找出预测对象的数据变化特征和趋势。一次指数平滑法6、时间序列——模型评价预测精度:误差平方和SSE、平均绝对百分误差MAPE、预测值的方差、拟合优度R2等变量的相关性:F统计量、变量系数的t统计量等;变量因果数量关系:显著性检验Y=0.156*X-298.4920.156为B1,然后为常数。SPSS时间序列的预处理——数据变换主要包括序列的平稳化处理和序列的平滑处理等。平稳化处理的目的是使处理后的序列成为平稳序列。一般而言,均值平稳化采用差分(Difference)处理,方差平稳化运用Box-Cox变换处理。第三章假设检验与均数比较数据的统计推断与假设检验1、空间类型的抽样设计总体:又称母体,即在数据统计中,把准备加以观测的一个满足指定条件的地理要素的集合。是研究对象的某特征值的全体。样本:从总体中抽出的一部分个体。从总体中取出部分个体的过程,称为“抽样”。抽样过程必须力求样本对总体具有很好的代表性。这种代表性不仅与样本容量有关,即样本越大,抽样误差越小,反之,误差越大,还受抽样方法的制约。抽样方法随机抽样法、系统点抽样法、分层区域抽样法、阶梯抽样法、横截面(线)法3、假设检验§假设检验的思想:首先提出假设,然后利用样本数据来检验假设,支持,则接受假设;不支持,则推翻假设。§假设检验的基本信条:小概率原理,即发生概率很小的随机事件,在一次实验中几乎不可能发生。参数:描述总体的数字特征,如总体均数。统计量:描述样本的数字特征,如样本均数。置信度:样本统计量推断总体特征的可靠性程度置信区间:概率保证下的总体参数的可能取值范围,如本地男性平均初婚年龄有95%的可能性为25±2周岁。推断统计推断统计:由样本数据推断总体特征的方法。在对样本数据描述的基础上,以概率形式对总体的数量特征进行表述。1.总体数据无法获得\n2.搜集总体数据投入较大推断统计包括参数估计和假设检验两种形式,二者原理一致,仅表现形式不同。均数比较过程是典型的参数检验,参数检验是推断统计的重要组成部分。假设检验的思想:首先提出假设,然后利用样本数据来检验假设,支持,则接受假设;不支持,则推翻假设。假设检验的基本信条:小概率原理,即发生概率很小的随机事件,在一次实验中几乎不可能发生。假设检验分为两类:参数检验:总体分布已知时(如正态分布),根据样本数据对某些总体参数(如均值)进行推断。非参数检验:总体分布未知或不符合参数检验的假定分布时。其中,卡方检验是非参数检验假设检验的基本步骤提出无效(零)假设(H0)。选择检验统计量,给定显著性水平α。计算检验统计量的发生概率。依据显著性水平,作出统计结论。假设检验无效假设H0:关于总体参数的假设,必定包含等号H0:μ=某值;H0:μ≥某值;H0:μ≤某值;对立假设H1:H1:μ≠某值;H1:μ<某值;H1:μ>某值;检验水平α:即显著性水平,一般取0.01、0.05或0.10。假设检验基于小概率原理:给定检验水平α,如果零假设成立条件下出现现有统计量的概率等于或小于α,则认为此事件可能性很小,因此就拒绝零假设。均数比较★正态分布:概率分布密度曲线呈钟型,两头低中间高,左右对称,近似于数学上的正态曲线。其性质和特点:☆决定于均数m和方差s2、☆钟形曲线、☆位置特征量均数、中位数、众数相等☆偏度和峰度均为零均数比较的假设检验数据类型:服从正态分布的定距型变量拟解决:某样本均值是否来自某个已知的正态总体?两个样本所代表的总体均值是否相同?某样本所代表的总体均值是否发生了数量上的变化?如果两个样本均数不同,可能存在以下两种情况1、两个样本所来自的总体均数相同,差别来自抽样误差。2、总体均数确实不同。均数比较的类型单个样本均数与总体均数比较、配对样本的均数比较、两个样本均数的比较两样本方差齐:原始资料呈正态分布时:t检验原始资料不呈正态分布,但样本量较大时:t检验原始资料不呈正态分布,且样本量较小时:非参数检验两样本方差不齐:\n数据变换后方差齐:t检验数据变换后方差不齐:t’检验检验步骤与统计量§事先确定是否双侧检验,建立无效假设H0:μ=μ0(双);对立假设?单侧检验?§确定检验水准α=0.05§选择检验统计量进行检验(υ=n-1)结果判断与解释§P>0.05,不能拒绝H0,p<=0.05,拒绝H0。第四章:方差分析方差分析§是一种从数据差异入手的分析方法,有助于人们从另一个角度发现事物的内在规律性。§它能解决多个均值是否相等的检验问题。§是一种实用、有效的分析方法。方差分析基本概念§方差分析:从分解数据差异来源入手,检验两个以上总体均数是否相等或是否具有差异的方法。§作用:可用于寻找关键性的影响因素,分析影响因素的不同水平及其组合是如何影响观测变量的。§观测变量:方差分析的因变量,即进行差异分析的数值型变量。如农作物产量、广告效果等。§控制变量:方差分析中的影响因素,分组变量、自变量。如品种、施肥量、广告形式等。Ø其不同类别,称为控制变量的不同水平。如广告形式中的电视广告、广播广告等。方差分析认为导致观测变量值变化的因素有两类:第一类是控制因素不同水平所产生的影响;第二类是随机因素所产生的影响。如果控制变量的不同水平对观测变量产生了显著影响,那么,它和随机变量共同作用必然使得观测变量值有显著波动。如果观测变量值在某控制变量的各个水平中没有出现明显波动,那么可以认为该控制变量没有对观测变量产生重要影响,其数据的波动是抽样误差造成的。方差分析常用于均数比较,研究控制因素(定性)与观测变量(定量)间的关系。与t检验:方差分析是检验多个总体的均值间差异是否具有统计意义的一种方法,比t检验更能节省时间。与回归分析:方差分析是回归分析的一种特例,可以用回归模型来表示方差分析单因素方差分析§拟分析一个控制因素是否对一个观测变量有影响。即控制因素不同水平下观测变量均值是否有差异;多个总体间的均值比较问题。§如:分析不同施肥量是否给农作物产量带来显著影响;考察地区差异是否会影响妇女的生育率;研究学历对工资收入的影响……§前提条件:§各样本彼此独立§各总体的方差相等\n§观测变量各总体应服从正态分布§统计思路:观测变量的总方差可分解为组间方差和组内方差,前者反映控制因素的影响,后者体现随机误差,如果前者显著大于后者,则可认为控制因素对观测值有影响。分析步骤:Ø明确控制因素(如:施肥量、地区、学历)和观测变量(如:农作物产量、妇女生育率、工资收入)Ø剖析观测变量的离均差平方和:SST=SSA+SSEØ分解自由度Ø比较组间和组内的方差大小,根据F分布界值做出统计结论。假设检验基本步骤§提出假设H0:a1=a2=…=ak=0§确定显著性水平α§构造F检验统计量并计算§§(F统计量服务(k-1,n-k)个自由度的F分布。)§统计结论与结果解释如果控制变量对观测变量造成了显著影响,观察变量总的变差中控制变量影响所占的比例相对于随机变量必然较大,F值明显大于1;反之,如果控制变量没有对观测变量造成显著影响,观测变量的变差应归结为随机变量造成的,F值接近于1。方差齐性检验:对控制变量不同水平下各观测变量总体方差是否相等进行分析。采用方差同质性(HomogeneityofVariance)的检验方法。多重比较检验:判断控制因素确有作用后,进一步确定控制因素不同水平对观测变量的影响程度,即各水平下观测变量的均值两两比较。Ø为何不用t检验:弃真错误α的概率增大多因素方差分析§协方差分析在协方差分析中,作为协变量的变量一般是定距变量。§协方差分析涉及到两种类型的控制变量(品质型和定距型)和定距型观测变量,如果将控制变量看做解释变量,观测变量看作被解释变量,那么协方差分析便是一种介于方差分析和线性回归分析之间的分析方法。§通过线性回归求出假定协变量相等时的控制因素各水平下的观测变量修正均数;§通过方差分析比较修正均数的差别。第五章:相关与回归分析相关分析和回归分析是研究客观现象之间数量联系的重要统计方法;作为推断统计的相关分析与回归分析具有广泛的应用价值;客观现象总是普遍联系和相互依存的;客观现象之间的数量联系,有两种不同的形态:函数关系和相关关系。相关关系\n:当一个或几个相互联系的变量取一定数值时,与之相对应的另一个变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。如:劳动生产率与工资水平、投资额与GDP、商品流通规模与商务成本之间的关系等均属于相关关系。2、相关关系类型划分:完全相关:当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这种现象间的关系为完全相关。如:在价格不变的情况下,商品的销售总额与其销售量总是成正比例关系。相关系数R=1或-1不相关:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。如:股票的价格高低与气温高低是不相关的。相关系数R=0不完全相关:两个现象之间的关系介于完全相关和不相关之间,称为不完全相关。相关系数00负相关:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。相关系数R<02、相关关系类型划分:线性相关:当两种相关现象之间的关系大到呈现为线性关系时,称之为线性相关。非线性相关:当两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线方程的关系,为非线性相关。2、相关关系类型划分:单相关:两个现象的相关,即一个变量对另一个变量的相关关系。如:y=ax+b复相关:当所研究的是一个变量对两个或两个以上其他变量相关关系时,称为复相关。如:Z=ax+by+c偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。如:3、相关分析与回归分析相关分析是用一个指标来表明现象之间相互依存关系的密切程度。回归分析是相关关系的具体形态。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关关系来表显现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。相关分析研究变量之间相关的方向和相关的程度,不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。回归分析则是研究变量之间相互关敏捷具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程式。1、回归分析概述回归分析:是研究变量之间数量依存关系的一种统计分析方法,可以把握因变量受一个或多个自变量影响的程度,并可利用回归方程进行预测和控制。\n回归分析的任务:建立回归方程。用途:考察影响因素;预测与控制(1)相关与回归的关系相关:反映变量间线性关系的密切程度(点的疏密)回归:反映自变量取值大小对因变量取值的影响程度(斜率大小)(2)回归分析的一般步骤§确定回归分析的自变量(解释变量)和因变量(被解释变量)§确定回归模型§建立回归方程§对回归方程进行检验§利用回归方程进行预测(3)SPSS回归分析线性回归(Linear):简单线性回归和多元线性回归★非线性回归:CurveEstimation和NonlinearRegression★Logistic回归:适用于因变量为分类变量的情况。分为二分类、多分类Logistic过程。★其他回归方法:线性回归的前提假设不满足时的补充方法。2、线性回归模型线性回归分析:是描述一个因变量(dependentvariable)Y与一个或多个自变量(independentvariable)X间的线性依存关系,根据自变量数目的不同可分为一元线性回归和多元线性回归。数学模型实际拟合的线性回归方程为第一个模型;第二个为变量个体具体取值的模型,其中残差满足:E(ε)=0;var(ε)=σ2(1)前提条件§线性趋势:因变量与自变量是线性相关的。§独立性:因变量y的取值相互独立§正态性:对于自变量的每一组合,y服从正态分布§方差齐性:对于自变量的每一组合,y的方差均相同§样本量要求:N≥20§回归方程的显著性检验:检验应变量与所有自变量的线性关系是否显著,F=回归均方/误差均方。§回归系数的显著性检验:检验总体偏回归系数βi是否等于0,在一元线性回归中,F=t2在多元线性回归中,Fch=ti2,偏F统计量为某个自变量引入方程后使得回归方程F统计量改善的程度.回归方程的拟合优度检验\n§回归方程能够解释的被解释变量变异程度越高,拟合优度越高.ØCox&SnellR2统计量=1-(L0/L)2/nØNaglkerkeR2=Cox&SnellR2/(1-(L0)2/n),取值0~1§回归方程预测值与实际值之间的吻合程度,总体预测准确率越高,拟合优度越高.Ø错判矩阵ØHosmer-Lemeshow统计量服从n-2个自由度的卡方分布:当自变量较多且多为连续性变量时§残差分析模型的检验§模型拟合优度的检验:Ø决定系数R2,检验样本数据点聚集在回归线周围的密集程度。但其大小受模型中自变量个数的影响,可检验一元线性回归模型拟合的优度Ø调整R2:修正了模型自变量个数P对R2的影响。可用于多元线性回归模型的拟合优度检验。第六章:聚类分析§1、聚类分析的意义和作用§(1)聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法;§(2)聚类分析是根据地理变量的属性或特征的相似性、亲疏程度,用数学的方法把它们逐步分型划类,最后得到一个能反映个体之间、群体之间亲疏关系的分类系统。§(3)在聚类分析中,关系亲密的个体聚合到一小类,而关系疏远的个体则聚合到一大类,直到把所有的个体都聚合完毕,最后便可根据各类之间的亲疏关系,画成一张完整的分类系统图,即谱系图。§2、聚类分析的基本特点§(1)无需先验知识:即事先无需知道分类对象的分类结构,而只需要一批地理数据;§(2)无需亲疏程度:即事先无需知识各变量取值上的总体差异程度,只要选好分类统计量,并按一定的方法步骤进行计算;§(3)能客观地获得一张完整的分类系统图。§3、聚类分析的基本类型§(1)Q型聚类分析,即对地点、地区或样品进行分类§(2)R型聚类分析,即对要素、指标或变量进行分类4、聚类分析的主要方法(1)系统聚类法(应用最广泛)(2)逐步聚类法(3)逐步分解法(4)最优分割法5、聚类分析注意事项§(1)所选择的变量应符合聚类要求,即各变量应能体现聚类的特征要求。§(2)各变量的变量值不应有数量级上的差异,可考虑运用标准化处理来消除数量级对聚类的影响。\n§(3)各变量间不应有较强的线性相关关系。§SPSS聚类功能常用的有两种:§快速聚类(迭代过程):K-MeansCluster§系统聚类:HierarchicalCluster系统聚类由两种方法:分解法和凝聚法。§系统聚类的功能:即可进行样品的聚类,也可进行变量的聚类。§系统聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。系统聚类的中要进行以下的选择:数据的标准化测度方法的选择:距离方法的选择或相似性、关联程度的选择。聚类方法的选择:即以什么方法聚类,SPSS提供了七种可供选择的方法。(一)聚类方法1.Between-groupslinkage类间平均法两类距离为两类元素两两之间平均平方距离2.Within-groupslinkage类内平均法两类距离为合并后类中可能元素两两之间平均平方距离3.Nearestneighbor最短距离法4.Furthestneighbor最长距离法5.Centroidclustering重心法(欧式距离)6.Medianclustering中间距离法(欧式距离)7.WardMethod离差平方和法(欧式距离输出图形的选择:树形图或冰柱图。第七章:因子分析1、因子分析的意义§(1)在研究实际问题时,往往希望尽可能多地收集相关变量,以期能对问题有比较全面、完整的把握和认识;§(2)由于收集的变量较多,如这些变量都参与数据建模,无疑会增加分析过程中计算工作量;§(3)同时,收集到的诸多变量间通常会存在或多或少的相关性,变量间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍;§(4)为解决这些问题,最简单和最直接的解决方案是削减变量个数,因子分析正是这样一种把原来多个指标化为少数几个综合指标的统计方法;§(5)因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。2、因子分析的基本特点(1)原有变量之间存在着较强的多重共线性;(2)因子个数远远少于原有变量的个数;(3)因子能够反映原有变量的绝大部分信息;(4)因子之间的线性关系不显著;(5)因子具有命名解释性;3、因子分析的数学模型和相关概念§设原有个变量:,且每个变量的均值为0,标准差均为1。现将每个原有变量用个因子的线性组合来表示,即有:\n§因子旋转载荷1、因子分析的基本步骤(1)原有变量之间相关性分析;(2)因子提取;(3)使因子更具有命名可解释性;(4)计算各样本的因子得分。2、因子分析的前提条件(1)一般在因子分析时需首先对因子分析的条件,即原有变量是否相关进行研究;(2)几种方法:△相关系数矩阵:如变量间相关系数小于0.3,弱相关,不适合进行因子分析。△巴特利特球度检验(Bartletttestofsphericity):如果统计量的观测值较大,且对应的概率p值小于给定的显著性水平,则适合做因子分析。△KMO检验:KMO值越接近1,越适合做因子分析(≥0.6)3、因子提取和因子载荷矩阵的求解\n主因子提取,一般有两种方法:特征根值>1;累计方差贡献率>0.8头两个成分特征值均大于1,其累积贡献率占了总方差的81.142%;

相关文档