- 414.50 KB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
方差分析--多个样本均数比较的假设检验1.基本概念t检验解决了推断两个总体均数是否相等的问题,但实际工作中还会遇到需要推断多个总体均数是否相等的问题。如:Ex1为研究煤矿粉尘作业环境对尘肺的影响,将18只大鼠随机分到甲、乙、丙三个组,每组6只,分别在地面办公楼、煤碳仓库和矿井下染尘,12周后测量大鼠的全肺湿重,数据见下表,问不同环境下大鼠全肺湿重有无差别?返回\n甲组乙组丙组样本观测值4.24.55.63.34.43.6………3.34.24.7本例的问题是,要比较不同环境下大鼠的全肺湿重有无差别,即需要对下列假设作出推断:H0:μ1=μ2=μ3三种不同环境对大鼠的全肺湿重无影响\nex2为研究克拉霉素的抑菌效果,对28个短小芽孢杆菌平板依据菌株的来源不同分成了7个区组,每组4个平板用随机的方式分配给标准药物高剂量组(SH)、标准药物低剂量组(SL),以及克拉霉素高剂量组(TH)、克拉霉素低剂量组(TL)。给予不同的处理后,观察抑菌圈的直径,结果见下表,问(1)4种处理效果是否不同?(2)不同菌源之间抑菌圈的直径大小是否不同?\n本例有两问,需要对如下两个假设作出推断:H0:μSL=μSH=μTL=μTH4种处理效果相同H0:β1=β2=…=β7菌源对抑菌圈的直径大小没有影响区组SLSHTLTH118.0219.4118.0019.4618.72218.1220.2018.9120.3819.40318.0919.5618.2119.6418.88418.3019.4118.2419.5018.86518.2619.5918.1119.5618.88618.0220.1218.1319.6018.97718.2319.9418.0619.5418.94\n这两个例子都涉及到多个均数的比较问题。为了解决这类问题,我们先复习一下几个相关的概念:试验指标:要考察的指标称为试验指标----例1为全肺湿重,例2为抑菌圈的直径;因素:影响试验指标的条件称为因素----例1为组别,例2为药物(及剂量)、菌株来源;水平:因素所处的状态称为该因素的水平----例1组别这个因素有3个不同的水平;例2药物(及剂量)因素有4个水平,菌株来源有7个水平。在一项试验中,如果影响试验指标的因素只有一个,则称该试验为单因素试验(例1);如果影响试验指标的因素有多个,则称该试验为多因素试验(例2)。\n2.完全随机设计的方差分析(单因素试验)完全随机设计又称为成组设计,即将受试对象随机分配到处理因素的不同水平组中,比较处理因素各个水平组间均数有无显著差别。这种设计只有一个处理因素,故称为单因素试验。现在回到例1的问题:我们在因素(组别)所处的每一水平下进行了独立试验,其结果是一随机变量。如果将因素的每一水平分别视为一个总体,各总体的均值分别为μ1、μ2、μ3,则表中数据可视为来自三个不同总体的样本值。于是,例1的问题即为检验如下的假设:H0:μ1=μ2=μ3H1:μ1、μ2、μ3不全相等\n水平A1A2…As样本观测值x11x12…x1sx21x22…x2s……………样本总和T•1T•2…T•s样本均值…总体均值…完全随机设计(单因素)多个均数比较的资料一般地,对于单因素试验,假设因素A有s个水平:A1,A2,…,As。在水平Aj(j=1,2,…,s)进行nj次独立试验,得到如下的试验结果:\n为了对这个假设进行检验,需要对平方和进行分解。考虑总平方和是所有样本观测值的总平均;SS总又称为总变差,它反映了全部试验数据之间的差异。记水平Aj下的样本均值为假定各水平Aj均为正态总体N(μj,σ2),方差分析的任务是对假设H0:μ1=μ2=…=μs进行检验。其中\n水平A1A2…As样本观测值x11x12…x1sx21x22…x2s……………样本总和T•1T•2…T•s样本均值…总体均值…完全随机设计(单因素)多个均数比较的资料\n可将总平方和SS总分解为:反映了各水平组内每个样本观察值与其样本均数之间的差异,故SS组内称为组内平方和(又称为误差平方和),其自由度为n-s;反映了各水平下的样本均值与全部观测数据的总平均值之间的差异,这种差异是由不同水平及随机误差所引起的,故称SS组间为组间平方和(又称为因素A的效应平方和)其自由度为s-1。\n水平A1A2…As样本观测值x11x12…x1sx21x22…x2s……………样本总和T•1T•2…T•s样本均值…总体均值…完全随机设计(单因素)多个均数比较的资料\n水平A1A2…As样本观测值x11x12…x1sx21x22…x2s……………样本总和T•1T•2…T•s样本均值…总体均值…完全随机设计(单因素)多个均数比较的资料\n为了检验假设H0:μ1=μ2=…=μs进行检验。根据平方和分解式:我们来分析一下如下的统计量:MS组间称为组间均方MS组内称为组内均方如果F值远大于1,则说明SS组间很大,SS组内很小,即SS总主要是由各水平组之间的差异引起的,即认为假设H0不成立;\n可以证明,如上定义的统计量F~F(n-s,s-1),故可利用这个统计量来对H0进行检验。如果F值接近于1,则说明SS组间与SS组内较为接近,而SS组内反映的是随机误差,SS组间是由各水平之间的差异与随机误差两部分构成的,现在SS组间与SS组内很接近,即说明SS组间主要由随机误差构成,即水平之间的差异很小,因此没有理由认为H0不成立。\n下面将 例1完整地做一遍。1)作假设H0:μ1=μ2=μ3作业环境不影响大鼠全肺湿重。确定检验水准α=0.052)为计算F值,先计算出相关的统计量的值\n3)将算得的数据及相应统计量的自由度填入下面的方差分析表:\n方差分析表变异来源平方和SS自由度df均方MSF值P值组间2.52821.2644.70<0.05组内4.035150.269总6.563174)查F界值表,得F0.05(2,15)=3.68<4.70=F从而知P<0.05于是拒绝H0,即认为不同粉尘环境影响大鼠的全肺湿重。\n3.随机区组设计资料的方差分析随机区组设计又称为配伍组设计,是配对设计的扩展。其设计方法是按两个因素分组,一个是区组因素,一个是处理因素。具体做法是:按实验对象的自然属性或对实验结果有影响的非研究因素设置区组,先将具有某种共同属性的实验对象分配到同一个区组内,再将各区组内的实验对象随机分配到各个不同的处理组中,每个实验对象接受一种处理,各处理组的实验对象数量相等。如ex2\nex2为研究克拉霉素的抑菌效果,对28个短小芽孢杆菌平板依据菌株的来源不同分成了7个区组,每组4个平板用随机的方式分配给标准药物高剂量组(SH)、标准药物低剂量组(SL),以及克拉霉素高剂量组(TH)、克拉霉素低剂量组(TL)。给予不同的处理后,观察抑菌圈的直径,结果见下表,问(1)4种处理效果是否不同?(2)不同菌源之间抑菌圈的直径大小是否不同?一般地,随机区组设计的试验结果见下表:\n随机区组的试验结果区组序号处理因素区组合计样本均数总体均数1组2组…g组1x11x12…x1gB1β12x21x22…x2gB2β2……………………nxn1xn2…xngBnβn处理组合计T1T2…Tg样本均数…总体均数μ1μ2…μg\n假定处理组各水平Aj均为正态总体N(μj,σ2),区组各水平Bk均为正态总体N(βk,σ2),方差分析的任务是:对假设:H0:μ1=μ2=…=μgH0:β1=β2=…=βn进行检验。与完全随机设计的情形类似,我们将总平方和分解为:\nSS处理组表示各处理组的样本均值与全部观测数据的总平均值之间的差异,这种差异是由不同处理组及随机误差所引起的,故称SS处理组为处理组间平方和(又称为处理因素的效应平方和)其自由度为g-1。其中SS区组表示各区组的样本均值与全部观测数据的总平均值之间的差异,这种差异是由不同区组及随机误差所引起的,故称SS区组为区组间平方和(又称为区组因素的效应平方和)其自由度为n-1。\nSS误差表示处理和区组两个因素各水平组内每个样本观察值与其样本均数之间的差异,故SS误差称为误差平方和,其自由度为(g-1)(n-1)。于是,得检验统计量\n例2即是一个随机区组的方差分析问题。1)作假设本例有两问,需要对如下两个假设作出推断:H0:μSL=μSH=μTL=μTH4种处理效果相同H0:β1=β2=…=β7菌源对抑菌圈的直径大小没有影响α=0.052)计算相应的统计量,填入方差分析表中变异来源平方和SS自由度df均方MSF值P值处理16.117535.3725116.895<0.01区组1.095260.18253.97<0.05误差0.8273180.04596总18.0427\n3)确定P值,作出推断结论查F界值表,得F0.01(3,18)=5.09<116.859=F处理F0.05(6,18)=2.66<3.97=F区组从而对于处理组,按0.01的检验水准拒绝H0,可认为4种处理效果不全相同。对于区组,按0.05的检验水准拒绝H0,可认为菌源对抑菌圈的直径大小有影响。方差分析的应用条件:1).各观察值相互独立,且服从正态分布;2).各组资料总体方差相等。\n注1:对于两种不同设计的平方和分解,有:完全随机设计:SS总=SS处理+SS组内随机区组设计:SS总=SS处理+SS区组+SS误差由此可见,随机区组设计的优点是:从组内变异中分离出区组变异,使误差变异减小,因而更容易发现处理组间的差别,提高统计效率。每个区组内的若干个受试对象间具有良好的同质性,组间的均衡性较强。注2:当g=2时,完全随机设计方差分析的结果与两样本均数比较的t检验等价,理论上有t2=F。当g=2时,随机区组设计方差分析与配对设计资料的t检验等价,理论上有t2=F。\n4.拉丁方设计资料的方差分析由g个拉丁字母排成的g*g方阵,方阵的每行每列中每个字母都只出现一次,这样的方阵称为g阶拉丁方。如:DBCAACDBBDACCABDABCDBCDACDABDABC基本拉丁方拉丁方随机调换某两列(行)\n利用g阶拉丁方可按行、列、拉丁字母分别安排3个因素,每个因素有g个水平。如4阶拉丁方可安排3个因素:一二三四1DBCA2ACDB3BDAC4CABD\nEx3研究A、B、C、D四种食品以及甲、乙、丙、丁四种加工方法对小白鼠体重增加的影响。拟用4窝小白鼠,每窝4只,每只小白鼠随机喂养一种食品、随机采用一种加工方法,8周后观察小白鼠的体重增加情况。实验结果如下表。问食品种类是否影响小白鼠体重的增加?食品加工方法是否影响小白鼠体重的增加?不同窝别的小白鼠体重增加是否不同?窝别甲乙丙丁1D80B70C51A482A47C75D78B453B48D80A47C524C46A81B49D77\n本例有三问,需要对如下三个假设作出推断:H0:μA=μB=μC=μD四种食品对体重增加作用相同H0:μ1=μ2=μ3=μ4窝别对体重增加无影响H0:μ甲=μ乙=μ丙=μ丁食品加工方法对体重增加无影响与完全随机设计的情形类似,我们将总平方和(总变异)分解为:其中SS处理组表示各处理组的样本均值与全部观测数据的总平均值之间的差异,这种差异是由不同处理组及随机误差所引起的,故称SS处理组为处理组间平方和(又称为处理因素的效应平方和)其自由度为g-1。\nSS行表示行因素各水平组的样本均值与全部观测数据的总平均值之间的差异,其自由度为g-1。SS列表示列因素各水平组的样本均值与全部观测数据的总平均值之间的差异,其自由度为g-1。SS误差表示各因素各水平组内每个样本观察值与其样本均数之间的差异,其自由度为(g-1)(g-2)。于是,得检验统计量\n计算相应的统计量,填入方差分析表中变异来源平方和SS自由度df均方MSF值P值处理1726.253575.4179.85<0.01行区组98.75332.9170.56>0.05列区组1304.23434.7507.44<0.05误差350.50658.417总3479.7515根据P值,作出推断:1.拒绝H0,认为食品种类会影响大鼠体重增加;2.不拒绝H0,不能认为窝别可影响大鼠体重增加;3.拒绝H0,认为食品加工方法会影响大鼠体重增加。\n5.多个均数间的多重比较在方差分析中,若拒绝原假设,则说明多个总体均数不全相等,但究竟是哪些不等?却并没有解决。这需要对多个总体均数进一步作两两比较,即需要对如下假设进行检验。H0:μ1=μ2μ1=μ3…μ1=μgμ2=μ3…μ2=μg…μg-1=μg这里,每一个检验都是两个总体均数的比较,似乎都可以采用t检验来做,但由于这里需要进行多重比较,重复使用t检验会增大犯I类错误的概率。如需进行6次比较,每次犯I类错误的概率最大为0.05,则\n1.SNK-q检验适用于多个总体均数的两两比较;2.Dunnett-t检验适用于多个实验组与一个共用对照组的比较;3.LSD-t检验适用于多组中某一对或某几对在专业上有特殊意义的均数的比较。第1次比较时不犯一类错误的概率为:1-0.05前2次比较均不犯一类错误的概率为:(1-0.05)2……………6次比较均不犯一类错误的概率为:(1-0.05)6于是,6次比较中至少有一次犯一类错误的概率为:1-(1-0.05)6=0.26这个概率远大于0.05。故需采用特定的方法来作这种多重比较的假设检验。作这种多重比较,常用的方法有:\n6.多个方差的齐性检验与t检验类似,在进行方差分析时,要求数据满足正态性和方差齐性的条件。正态性一般可根据专业知识来判断,也可用正态性检验来处理;对于方差齐性问题,前面解决了两个方差的齐性检验问题,现在来看多个方差的齐性检验问题。Bartlett检验设从g个正态总体中独立抽取g个样本,求得各样本均数与样本方差,欲检验各总体方差是否相等:H0:σ21=σ22=…=σ2g\n在H0成立的条件下,可用如下的统计量进行检验:其中,合并方差对于完全随机设计,合并方差S2c=MS组内