医学统计学SPSS课件 127页

  • 1.45 MB
  • 2022-08-29 发布

医学统计学SPSS课件

  • 127页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第一章SPSS概述第一节SPSS的特点 1.除数据需键盘操作外,大多数操作通过“菜单”、“对话框”、“图标按钮”完成,易学易用。2.无需花大量时间记忆大量命令、过程、选择项等。3.三种运行方式,灵活方便。4.可根据设备情况选择安装模块。5.与其他软件有数据转化接口。6.统计分析方法丰富。\n7.具有较强的图表生成、编辑功能。8.丰富的联机帮助功能是初学者学习SPSS的帮手。\n第二节SPSS的安装、启动和退出一、SPSS的安装1.启动Windows。2.把SPSS安装光盘放入光驱。3.找到光盘中的setup文件并双击,即启动SPSS的安装程序。4.用户最先阅读版权声明,读完后单击“next”按钮,进入下一个画面。5.指定把SPSS安装在哪个目录下。\n6.选择安装的类型,Typical(典型安装)将安装对大多数用户来说最常用的模块。7.选择安装的组件。单击“Next”按钮继续安装。二、SPSS的启动1.利用“开始”菜单启动。2.利用快捷图标启动。三、SPSS的退出有多种退出方法,可根据自己的喜好选择任何一种。\n第三节SPSS的系统环境一、基本概念1.窗口及其类型2.窗口的基本结构(1)标题栏(2)菜单栏(3)工具栏(4)滚动条(5)工作区\n(6)状态栏3.对话框就是提供人机对话环境和内容的窗口。(1)常见的对话框类型A、文件操作对话框B、统计分析主对话框(2)对话框中的控制与选择类型A、移动变量按钮B、打开下一级对话框按钮\nC、执行功能按钮D、择其一按钮E、选择框F、下拉清单二、数据编辑窗(DataEditor)1、数据编辑窗的打开与关闭2、数据编辑窗的两个界面(1)DataView界面(2)VariableView界面\n3、DataEditor的功能三、结果输出窗(SPSSViewer)1、SPSSViewer打开与关闭(1)自动打开当用户运行一个SPSS的分析过程后,系统自动打开一个结果输出窗。(2)命令打开用户选择命令File->New->Output打开结果输出窗。(3)关闭\n2、结果输出区(1)大纲输出区(2)文本输出区四、SPSS的其他窗口五、多窗口操作\n第四节SPSS的基本运行方式一、用SPSS作统计分析的一般步骤1。数据文件的建立和编辑2。选择统计分析方法3。选择分析的变量、设置参数4。查看、解释分析结果二、SPSS系统的三种运行方式1。全屏窗口菜单运行方式2。程序运行方式3。混合运行方式\n第二章数据文件的建立和编辑第一节概述一、SPSS数据文件的结构个案、变量、单元格、当前单元格SPSS数据文件以二维表的形式组织数据。一行为一个样品(CASE)或个案,一列为一个变量(VARIABLE),行与列交叉之处为一个单元格,可在其中输入变量值。\n二、变量的定义通过数据编辑器的VariableView界面来定义。1。变量名(Name)2。变量类型(Type)3。变量长度(Width)4。小数位数(Decimals)5。变量名标签(Label)6。变量值标签(Values)7。缺失值定义(Missing)\n8.变量列宽(Column)9。数值对齐方式(Align)10。变量特性的测量尺度(Measure)(1)比例尺度(Scale)(2)定序尺度(Ordinal)(3)定类尺度(Nominal)\n三、数据的输入1。数值型数据的输入2。字符型数据的输入3。日期型数据的输入4。数据的输入方法(按行或按列输入)\n第二节SPSS数据文件的建立和编辑一、数据文件的建立基本步骤:1。打开新的数据编辑窗口2。在VariableView界面下定义变量3。在DataView界面下输入数据4。保存数据文件\nA公司某部门20名职工的性别、年龄、月收入、年终业务考核数据,请建一个名为“公司年终考核表”的数据文件。\n1女252000.00良11男323000.00良2男373000.00中12男292600.00中3女423200.00良13男423400.00良4男262000.00中14女272400.00及格5男282200.00良15男533600.00中6男302800.00中16女342600.00良7男383200.00良17男353000.00良8女554000.00中18男343600.00优9男463400.00优19男373000.00良10女272200.00良20男403200.00良\n\n\n二、数据文件的编辑(一)插入操作1、插入变量2、插入个案(二)删除操作1、删单元2、删个案3、删变量4、删连续区域\n第三节数据文件的整理一、排序1。打开数据文件2。选择Data->SortCase3。选择排序变量4。选择排序方式5。击OK\n在建立了数据文件后,为了某种需要可按关键变量对当前数据文件进行排序,重新调整个案在数据文件中的先后顺序。例如对“公司年终考核表”数据文件,按工资从高到底排序。1.打开数据文件,选菜单File->Open->data,在对话框中指定文件名“公司年终考核表”;2.选择Data->SortCase,打开对话框,3.选择排序变量,将变量salary置于Sortby框中;4.选择排序方式Descending;5.击OK。\n\n\n二、文件转置1。打开数据文件2。选择Data->Transpose3。选择要转置的变量4。根据需要选择‘名称变量’5。单击OK\n三、文件的拆分有时要对数据文件进行分组分析,SplitFiles能满足这种要求。1。读数据文件(Data05-01)2。选Data->SplitFiles3。选分组方式4。选分组标志5。指明数据文件的当前状态6。按OK键\n在进行数据处理时,有时要对数据文件进行分组分析,例如对某公司的男、女员工的工资或年龄进行分组分析,SplitFiles能满足这种要求。文件拆分并不是将一个文件拆分成多个文件,只是创造分组分析的前提条件。\n\n\n拆分以后的数据文件从外观上看,好像是按“gender”变量升序排序的结果,但若执行某个统计分析过程后,进行的是按男员工和女员工分组分析。\n四、文件的合并外部数据文件、当前数据文件(一)纵向合并(AddCase)合并的前提是两个数据文件存在相同变量。1。首先打开一个数据文件data05-032。选Data->MergeFile->AddCases3。确定外部数据文件data05-044。根据情况处理数据(如配对)5。按OK键\n(二)横向合并(AddVariables)合并的前提是两个数据文件至少存在一个共同的关键变量,并有一些个案在关键变量上的值相等。1。打开数据文件data05-03(当前数据文件)2。选Data->MergeFile->AddVariables3。制定外部数据文件data05-044。根据情况处理数据5。按OK键\n若两个文件的样品数不等或样品不是一一对应的关系,则首先对两个文件按关键变量升序排列,然后把关键变量送入Key-Variables框中,并激活Matchcaseonkeyvariablesinsortedfiles,从三种方式中选择一种合并方式。\n五、分类汇总按指定的分类变量对所有的个案进行分组,对每组中的个案求描述统计量,并生成新的数据文件。在新文件中对应分类变量的每个取值产生一个个案。1。打开数据文件2。选Data->Aggregate3。选分类变量4。选汇总变量5。按OK键6。打开Are.sav查看(例见DATA02-01)\n例如以公司年终考核表数据为例,要求得到不同考核等级员工的平均工资的分组汇总表。1、打开数据文件;2、选Data->Aggregate;3、选evalue为分类变量;4、选salary为汇总变量;系统隐含的汇总函数是计算均值,可根据具体需要作相应选择;5、按OK键;6、打开Aggr.sav查看。\n\n\n六、加权(Weight)该命令可对当前数据文件中的个案赋予不同的权数。但一个数据文件只能设立一个加权变量,且该变量是取值为正数的数值型变量。1。读数据文件2。选Data->WeightCases3。确定加权变量4。按OK\n七、选择个案(SelectCase)如果用户只想对数据文件中的部分个案进行统计分析,可通过SelectCase命令选择分析对象。可以根据不同的方法选取部分个案作为后面分析的对象。1。打开数据文件2。选Data->SelectCase3。确定选择个案的方法4。选择落选个案的处理方法5。按OK键(举例DATA02-01)\n利用数据文件data02-01,选择12岁身高超过140cm的同学,可以选择条件抽样方式,通过设立一个复合条件来抽取样品。\n1.打开数据文件;2.选Data->SelectCase;3.确定选择个案的方法,系统提供了条件抽样、随机抽样、范围抽样和使用过虑变量的方法来抽取样品,这里选择条件抽样方式,点击If按钮展开下一级对话框,设立复合条件age=12&h>140;4.选择落选个案的处理方法,采用系统隐含方式即过虑法,在未入选样品编号前加一条删除线;5.按OK键。\n\n第四节数据的变换一、计算(根据已有变量来建立新变量)Compute命令可以利用当前数据窗中已经存在的变量,根据变量之间的相互关系产生新变量,新变量名由用户定义,新变量值系统自动填充。1。读数据文件2。选Transform->compute3。确定目标变量4。确定目标变量的数值表达式5。按OK\n例如数据文件“消费.sav”是某年16个地区农民消费支出数据,利用compute命令计算得到各地区的恩格尔系数。\n\n1.读数据文件;2.选Transform->compute;3.在展开compute对话框中确定目标变量即新变量,故在TargetVariable处输入“系数”;4.确定目标变量的数值表达式,在NumericExpression框中输入表达式:系数=食品/(食品+衣着+燃料+住房+其它+文化);5.按OK。\n\n\n二、记数(Count)该命令的功能是建立新的数值变量,其取值是对指定变量等于指定值进行记数,经常用于问卷调查的数据处理。1。读数据文件2。选Transform->Count3。输入目标变量,用于放记数结果。4。确定参与记数的变量(即指定变量)5。指定值的定义6。按OK(参见data05-07)\n该命令的功能是建立新的数值变量,其取值是对指定变量等于指定值进行记数,经常用于问卷调查的数据处理。例如对数据文件“成绩”中的学生,分别统计每名学生的成绩有几门优秀。\n\n\n\n\n三、重编码(Record)Record命令可以对当前数据文件中的变量进行重新编码,包括将原变量值变换为新的取值和将连续取值的变量整型化等等。1。建立新变量(1)读数据文件(2)选Transform->Record->IntoDifferenceVariable(3)对重编码变量另外再取一个名字(4)定义新旧变换值(5)按OK\n2。不建立新变量(1)读数据文件(2)选Transform->Record->IntoSomeVariable(3)确定要重编码的变量(4)确定新旧变换值(即编码方法)(5)按OK\n一家电脑销售公司三个月的日销售量数据,如果要研究日销售量的分布规律,可以进行分组分析,则将日销售量在140-149编码为1,150-159编码为2,以此类推。然后再对重编码以后的数据进行描述统计分析,得到组距分组的结果。\n141159166172177182188196203214143160167173177183189196203215144160168173178184189196205218149161168174178185189196206223150161168174178186190196207225152162170174179186190197208226153163171175179187191197209228153163171175179187192198210233154164172175180187194198210233155165172175180187194200211234156165172176181188195201211234158165172176182188195202213237\n(1)建立数据文件;(2)选Transform->Record->IntoDifferenceVariable展开对话框;(3)对重编码变量另外再取一个名字;在变量列表栏点击变量“销售量”,再单击向右箭头按钮,则出现“销售量->?”,在Name框中输入新的变量名fenzu,单击Change按钮,\n(4)定义新旧变换值,单击Old&NewValues按钮,展开下一级对话框;(5)在OldValues下方栏中选择Range输入140though149,在NewValue下方的Value栏中输入1;(6)单击Add按钮,则在Old->New栏中显示“140though149->1”;(7)重复(5)-(6)步,输入所有的变换值;(8)按OK。重新编码的结果是在数据文件中新产生新的变量Fenzu,变量值由系统根据编码规则自动填充,\n四、自动代码重置(AutomaticRecord)该命令可用来快速地对任何类型的原始变量的值进行变换,产生1、2、3等顺序取值的数值型变量,变量名用户自定义。1。读数据文件2。选Transform->AutomaticRecord3。确定要重置代码的变量4。输入新变量名字5。按OK(例见“公司年终考核”)\n第三章单变量描述统计分析第一节概述描述统计学、推断统计学集中趋势(算术平均数、众数、中位数)离中趋势(全距、平均差、方差、离散系数等)偏态系数、峰度系数用以判断数据分布是否对称和集中趋势的程度如何。变量描述统计分析包括四个过程。\n第二节频数分析(Frequencies)(一)原始数据资料分析例1:随机抽取50位大学新生,调查他们的年龄数据如下(略),做描述统计分析。1。建立数据文件2。选Analyze->DescriptiveStatistics->Frequencies打开对话框3。确定要分析的变量\n4。击Statistics按钮,选择统计量5。击Chart按钮,选择统计图6。击Format按钮,选择频数表输出格式7。击OK\n(二)次级数据资料分析1。对资料进行分组,分组完成后再用Frequencies过程。(1)打开数据文件(2)选Transform->Record->IntoSomeVariable对年龄进行编码(3)再用Frequencies过程进行频数分析。\n2。对已分组的资料进行频数分析(1)输入组中值和次数(2)制定次数为加权变量(3)调用频数分析过程,其中要选择对应项Valuesaregroupmidpoints\n第三节描述统计(Descriptives)描述统计分析的结果指标与频数分析结果基本相同,区别在于描述统计操作更简单,输出的描述统计指标少些,不输出频数分布表。1。打开数据文件2。选择Analyze->DescriptiveStatistics->Descriptive3。确定分析变量4。根据需要选择OPTION按钮5。单击OK\n例如;已知生产同类产品的五家企业计划完成情况及一级品率资料如下(略)试求(1)平均计划完成情况。操作步骤:1。建立数据文件(Data05-10)2。对f1进行加权3。选Analyze->DescriptiveStatistics->Descriptive4。把x1放置Variable框中5。击OPTION按钮,选择输出的统计量6。击OK按钮\n(2)平均一级品率操作步骤:1。打开数据文件Data05-102。选择Transform->compute3。确定目标变量F24。确定目标变量的数值表达式X1*F15。按OK6。对F2进行加权\n7。选Analyze->DescriptiveStatistics->Descriptive8。把x2放置Variable框中9。击OPTION按钮,选择输出的统计量10。击OK按钮\n第四节探索性数据分析探索性数据分析是对数据进行初步考察,由描述统计指标和直观的图形组成。包括检查数据的错误、描述数据的数量特征和分布特征、奇异值的辨认等。1。打开数据文件2。选Analyze->DescriptiveStatistics->Explore3。确定分析变量4。确定分组变量\n5。根据需要击“Statistics”按钮6。根据需要击“Plots”按钮7。击OK(例见DATA05-11)\n第五节平均数分析(Mean)Mean过程可用于分组计算各描述统计量。1。打开数据文件2。选择Analyze->CompareMeans->Means3。确定因变量4。确定自变量即分组变量5。确定分组变量的控制层次6。击OK按钮(data02-01)\n第六节多选项分析\n第四章相关与回归分析第一节概述一、相关分析二、回归分析三、相关与回归的区别第二节相关分析过程一、两个变量的相关分析执行步骤:1。建立数据文件;\n2。选择Analyze->correlate->Bivariate,展开下一级对话框;3。选择分析变量置于Variable框中;4。选择相关分析方法:(1)Pearson,隐含定义,连续变量选该方法;(2)Kendall’s,有序变量选该方法;(3)spearman5。确定显著性水平是单尾或双尾;6。击OK。\n年份总收入X(亿元)零售总额Y(亿元)913920924522935226946334957036968038978540例1:某地国民总收入和社会商品零售总额\n例2:10名学生两门课程的名次排列(data10-03)Rank1:第一科名次Rank2:第二科名次\n编号HWV1135.132.01.752146.533.52.53167.841.52.754148.537.22.255153.341.02.756153.032.01.757155.144.72.758149.933.92.259158.237.52.00二、偏相关分析:偏相关分析是研究两个变量之间关系时控制可能对其产生影响的变量。\n执行步骤:1。建立数据文件(data10-04);2。选择Analyze->correlate->Partial,展开下一级对话框;3。选择分析变量置于Variable框中;4。确定控制变量置于Controlling框中;5。击OK\n第三节回归分析过程(Regression)一、线性回归过程(Linear)(一)执行步骤:1。建立数据文件;2。选择Analyze->Regression->Linear,展开下一级对话框;3。定义因变量置于Dependent框中;4。定义自变量置于Independent框中;5。选择变量分析方法Method;\n6。根据需要击Statistics…按钮;7。根据需要击Plots…按钮;7。根据需要击Save…按钮;8。根据需要击Option…按钮;9。击OK。(二)举例例1:试研究人均国民收入(X)对人均消费额(y)产生的影响。\n\n1、建立数据文件(数据参见例4)2、绘制散点图,选择Graph->Scatter,选Simple;击Define按钮,定义Y与X,从图中可看出X与Y之间呈现线性关系;3、选择Analyze->Correlate->Bivariate,进行相关分析;4、选择Analyze->Regression->Linear,进行回归分析;\n二、曲线配合过程(CurveEstimation)有时若不能马上根据观测数据确定一种最佳模型,可以利用曲线配合过程在众多的回归模型中来建立一个简单而又比较合适的模型。利用曲线配合过程可以方便地进行线性拟合、二次拟合和三次拟合,并从各自的以及生成的图形进行比较,从而确定较佳的模型。\n(一)曲线配合过程的一般步骤1。建立数据文件;2。选择Analyze->Regression->CurveEstimation,展开下一级对话框;3。定义因变量置于Dependent框中;4。定义自变量置于Independent的Variable框中;如果自变量为时间,则相应选“Time”;5。选择一个或多个拟合模型Model;\n6。某些选择项的确定;7。击OK;8。对结果进行分析。(二)举例例1:某产品产量1989-1999年资料如下:年份8990919293949596979899产量345380405440480520565610660710760\n通过比较,可判断二次曲线较优。例2:储蓄与居民收入模型的曲线分析三、二项逻辑回归(BinaryLogistic)当因变量只是具有两种属性的变量时(如变量取值为0或1),可采用二项逻辑回归。Logistic模型方程如下:Ln(P/(1-P))=B0+BiXi其中:P表示出现1的概率,1-P表示出现0的概率。\nTGAPTUCHPSILGTGAPTUCHPSILG12.662000172.75250022.892200182.83190033.282400193.122310…………………………162.741900322.391911例1:某课程用PSI新教学方法的效果评价研究\n现要分析GAP、PSI、TUCH对LG的影响。步骤:1。建立数据文件;2。选择Analyze->Regression->BinaryLogistic,展开下一级对话框;3。定义因变量LG置于Dependent框中;4。定义共变变量即自变量GAP、PSI、TUCH置于Covariates框;5。定义共变变量进出模型的筛选方法为Enter;\n6。根据需要击Option…按钮;在Display框中选Atlaststep项,要求只显示最终计算结果;7。击OK。例2:某医师研究男性胃癌患者发生术后院内感染的影响因素,试通过Logistic回归对主要影响因素进行分析。数据结构为:Y—术后有无感染(有为Y,无为N)X1—年龄X2—手术创伤程度\nX3—营养状态X4—术前预防性抗菌(有为Y,无为N)X5—白细胞数X6—癌肿病理分度步骤:1。建立数据文件;2。选择Analyze->Regression->BinaryLogistic,展开下一级对话框;3。定义因变量Y置于Dependent框中;\n4。定义共变变量即自变量X1、X2、X3、X4、X5、X6置于Covariates框;5。定义共变变量进出模型的筛选方法为Forward:Conditional;6。击Option…按钮,在Display框中选Atlaststep项,要求只显示最终计算结果;7。击OK。\n五、非线性回归(Nonlinear)以某商品销售额与广告费支出的关系分析为例对不同城市的15家商场有关化妆品销售额Y与广告费支出X的调查资料如下:Y202524303240285040704839426556X0.20.30.20.40.350.480.3.580.430.60.550.420.40.580.51\n1。建立数据文件(例5)2。作散点图:击Graph->Scatter->Simple->Define选Y进入YAxis,X进入Axis,单击OK,从图中可见呈现指数曲线关系。3。非线性回归分析(1)选Analyze->Regression->Nonlinear(2)选Y进入Dependent框中\n(3)击Parameters按钮输入初始值a=1b=1击Continue按钮;(4)在ModelExpression中输入指数曲线模型a*b**x;(5)击OK又例如:有10个售货员训练的天数和工作业绩(分数)的资料,试进行回归分析。\nNO训练天数X工作业绩Y114521403260426253756381741158515095145105148\n第五章聚类分析第一节概述一、聚类分析的基本概念1。距离和相似系数研究样品间的关系常用两种方法:一种是距离法。它将每一样品看成为m维空间的一个点(m是样品的指标个数),这样就将研究样品间的关系变为研究m维空间中点与点之间的关系。\n而点与点之间的关系常用距离来表示,并根据点与点间的距离进行分类,即将距离较近的点归为一类,而将距离较远的点归为不同的类。另一种是相似系数法。相近样品的相似系数接近1(或-1),而彼此无关的样品的相似系数接近于0,这样就可以根据样品的相似系数的值分为不同的类。\n聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数2类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。距离的定义很多,如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。\n2。Q型聚类(即样品聚类)和R型聚类(即变量聚类)3。分层聚类分析和快速样本聚类分析分层聚类法:先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类。再从中找出最接近的2类加以合并变成了n-2类。如此下去,最后所有的元素全聚在一类之中。\n快速样本聚类分析:这种方法是先将样品做一个初始的分类,然后按照某种最优的原则逐步调整,一直到调整的分类比较合理为止。\n第二节聚类分析过程一、分层聚类过程(一)步骤:1。建立数据文件2。选择Analyze->Classify->HierarchicalCluster3。指定分析变量4。指定标识变量5。选择聚类的类型\n6。若参与分析变量的量纲一致,可按系统默认值提交系统运行,击OK。可根据需要选择下列步骤:1、确定聚类方法,击Method按钮(1)聚类方法的选择(2)关于Measure的指定(3)选择数值标准化转换方法(4)选择测度的转换方法\n2、选择要输出的统计量,击Statistics按钮3、选择统计图输出,击Plot按钮(二)一维聚类分析有某家族14位成员的年龄:1,3,5,8,9,11,12,13,37,43,45,49,51,65。是否可以把他们的年龄区分为有意义的群体?1。建立数据文件data05-162。选择Analyze->Classify->HierarchicalCluster\n3。指定分析变量age4。指定标识变量no5。选择聚类的类型case6。击OK。(三)多维变量的聚类分析例1:家庭消费支出的聚类分析\n例2:一组有关瓶装啤酒的数据,共有20种啤酒,每一种啤酒有4个指标,要求根据啤酒的成分含量及价格对其进行分类。数据见data14-02。\n二、快速样本聚类过程(K-meanCluster)若在分类数已知、初始聚心已知的情况下,采用快速样本聚类过程。例1:(以研究生录取分析数据为例)(一)对前70个样本采用分层聚类过程处理,在得到分类的基础上计算聚心。1。建立数据文件;2。对数据进行标准化处理;3。选择个案;\n4。选择Analyze->Classify->HierarchicalCluster;5。指定分析变量ZGPA、ZGMAT;6。指定标识变量NO;7。选择聚类的类型(CASE);8。确定聚类方法(默认值);9。选择要输出的统计量,击Statistics按钮10。选择统计图输出,击Plot按钮11。击Save按钮,保存建立的新变量;12。击OK\n13。用分类汇总计算类聚心;(二)对后16个样本采用快速样本聚类过程处理:1。打开数据文件(标准化后);2。选择后16个样本;3。选择Analyze->Classify->K-meanCluster;4。指定分析变量ZGPA、ZGMAT,确定分类数为3,使用默认的聚类方法;5。击Centers按钮,选择Readinitialfrom项,击File按钮,从指定的数据文件中读入初始聚心;\n6。击Save按钮,选择所有选项;7。击Options按钮,选择所有统计量选项;8。击OK。例2:数据来自data14-01,已知NO=9、8、4、6的四名运动员分别是蝶、仰、蛙、自由泳四种姿势成绩突出者,以这四个观测量作为初始聚心进行聚类。\n第六章判别分析第一节概述一、判别分析的基本概念二、建立判别函数的方法三、判别分析的基本步骤对于分为K组的研究对象,可建立K-1个典则判别函数和K个Fisher线性判别函数,然后将各样品的自变量值回代到判别函数中,计算其判别分数或属于各组的概率,根据数值大小判别样品所属组别,\n对比样品的原始组别给出错分率。第二节判别分析过程(Discriminant)操作步骤:1。建立数据文件;2。选择Analyze->Classify->Discriminant;3。定义组变量;4。定义自变量;5。选择分析方法(隐含定义为用所选择的全部自变量建立判别模型);\n6。击Statistics按钮、Classify按钮、Save按钮,在各自的下一级对话框中进行选择;7。击OK。第三节实例分析例1:研究生录取分类判别分析例2:统计学常用的实例,三种鸢尾花的分类。数据见DATA14-04。\n例3:为研究舒张压X1和胆固醇X2对冠心病的作用,某医生测定了50~59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,数据见data12-18,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。\n第七章主成份分析与因子分析第一节概述一、主成份分析假设有n个样本,每个样本测得P项指标,由于这P项指标之间往往具有相关性,如何从这P项指标中找出少数几个综合指标,使其尽可能多地反映这P项指标的信息,而且彼此之间不相关,主成份分析给出了最好方法。\n主成份分析(PrincipalComponentsAnalysis)是研究如何将多个变量指标间的问题化为较少的几个新指标问题。这些新的指标是彼此既互不相关,又能综合反映原来多个指标的信息,是原来多个指标的线性组合。\n多指标的主成份分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。\n这种处理问题的方法就称为主成份分析或主分量分析,综合后的新指标则称为原来指标的主成份或主分量。主分量分析还可用于揭示变量间的共线性。主成份的几何意义为了理解方便,我们在二维空间中讨论主成份的几何意义。\n设有n个样品,每个样品有两个观测变量x1和x2,在由变量x1和x2所确定的二维平面中,n个样本点所散布的情况如带状,见图8-1a。由图可以看出这n个样本点无论是沿着x1轴方向或x2轴方向都具有较大的离散性.\n其离散的程度可以分别用观测变量x1的方差和x2的方差定量地表示。显然,如果只考虑xl和x2中的任何一个,那么包含在原始数据中的信息将会有较大的损失。\n\n\n二、因子分析因子分析是主成份分析的推广,是根据相关性大小把变量分组,使得同组内的相关性较强,不同组的变量间相关性较低。对于每一个变量可用最少个数的公共因子的线性函数与特殊因子之和来描述。\n第二节主成份分析与因子分析过程基本步骤:1。建立数据文件;2。选Analyze->DataReduction->Factor,展开对话框;3。指定参与分析的变量置于Variable框;4。Factor过程的选择项的指定:(1)Descriptive按钮,对描述统计量的选定;该子对话框中的选择包括两组,即统计量组和相关矩阵组。\n(2)Extraction按钮,因子提取子对话框;(3)Rotation按钮,旋转方法选择子对话框;(4)Score按钮,有关因子得分的选择项;5。击OK二、实例分析(经济效益综合评价分析)(一)主成份分析1。建立数据文件(DATA12-16);2。选Analyze->DataReduction->Factor,展开对话框;\n3。指定参与分析的变量X1、X2、X3、X4、X5、X6、X7置于Variable框;4。击Descriptive按钮,对描述统计量的选定;5。击Extraction按钮,进行选择;6。击OK。(二)综合评价计算各企业在各主成份上的得分和综合得分,然后排序,进行综合评价。

相关文档