• 944.00 KB
  • 2022-09-01 发布

《医学统计学基础》PPT课件

  • 176页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
医学统计学基础\n第一节概述描述性统计指标包括:(1)集中位置的指标:用以描述观察值的平均水平。如算术均数、几何均数、中位数、众数、百分位数、调和均数等。(2)资料变异的指标:用以描述观察值间参差不齐的程度,即离散度或称变异度。如全距、标准差、方差、变异系数、四分位数间距等。\n例1:请分别选择适当的平均指标反映下列5组资料的平均水平。①测定了5名健康成人第1小时末血沉值分别是6、3、2、9、10(mm);②有5人血清抗体效价分别为1:10,1:100,1:1000,1:10000,1:100000;③某医生观察5名小细胞未分化型肺癌患者,其生存期(month)分别为6、10、14、23十,41十;④用一定剂量的环己巴比妥使7只大鼠的睡眠持续时间(min)分别为25、30、55、50、35、26、>120(最后一只鼠虽等了2小时仍不苏醒);⑤12名食物中毒者进餐至发病时间(h)分别为2、2.5、2.5、2.7、2.8、3、3、3、3、3.5、4;\n设原始观察值共N例,为X1,X2,……,Xn。和(SUM):∑X=X1+X2+……+Xn。平方和,SS(SUMOFSQUARE):∑X2=X12+X22+……+Xn2平方和又记为USS(UNCORRECTEDSUMOFSQUARE)离均差平方和,记为CSS(CORRECTEDSUMOFSQUARE):\n第二节集中位置的指标一、算术平均数(ArithmeticMean,)简称为均数(Mean),总体均数用希腊字母μ表示,样本均数用表示。适用于服从正态分布的资料。\n一、算术平均数\n一、算术平均数x为每个组段的组中值,f为相应组段的频数。原理:将落在某一组段内的观察值都视为组中值。本例:=(4.0×4+4.2×5+……+5.8×3)/120=595.8/120=4.965如用原始观察值计算有=(5.195+5.070+……+5.010)/120=4.959\n二、几何均数 (GeometricMean,G)几何均数用G表示,为观察值的总乘积开n次方根,有\n常用对数计算,公式如下:LgG=∑lgX/n再查反对数得出G。列成频数表时计算公式如下:LgG=∑flgX/Σf适用条件:1.成倍数关系的资料。2.明显正偏态分布的资料。3.对数正态分布的资料。二、几何均数 (GeometricMean,G)\n例3:6例钩端螺旋体病人的潜伏期分别为7,10,12,14,18,20天,求其平均潜伏期。解:或者lgG=lg7+lg10+……+lg20)/6=1.1045查反对数得G=12.7(天)二、几何均数 (GeometricMean,G)\n当为滴度资料时,如5名学龄儿童的麻疹血凝抑制抗体滴度为1:25,1:50,1:50,1:100,1:100可先取其倒数25,50,50,100,100再求取几何均数为57.43,则平均抗体滴度为1:57。二、几何均数 (GeometricMean,G)\n三.中位数(Median,M)中位数用M表示,它将总体或样本的全部观察值分成两部分,每部分各有50%个观察值。计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均数为中位数。\n如求数列7,10,12,14,18,20的中位数。n=6,为偶数,取中间两个数的平均数,则M=(12+14)/2=13(天)如求数列7,10,12,14,15,18,20的中位数。n=7,为奇数,取中间那个数为中位数。则M=14(天)三.中位数(Median,M)\n适用于表示任何分布资料的平均水平。但常用于非正态分布资料。由于中位数不受个别特大,特小数值的影响,因此它比均数稳健,常用于资料分布不明,或明显偏态,或分布的一端无确定值的情况。三.中位数(Median,M)\n四.众数(Mode)频数最大的变量值称为众数。列成频数表的资料,频数最大的组段的组中值为众数。\n五.百分位数 (Percentile,Px)第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px,(100-x)%个观察值大于Px。用途:1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25,P50,P75,P95可以描述总体或样本的分布特征,如集中位置、变异度等。\n2.确定医学正常值范围。P25称为第1四分位数;记为Q1。P50称为第2四分位数;记为Q2,就是中位数M。P75称为第3四分位数;记为Q3。计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。五.百分位数 (Percentile,Px)\n例:用直接法计算例2资料共120例的第5百分位数,用频数表法计算第95百分位数,解:将原始观察值由小到大排列,得3.980,4.065,4.070,4.070,4.2150,4.250,4.260,4.290,……5.850,5.875先确定第x百分位数在第几位。用公式:(n+1)×x%五.百分位数 (Percentile,Px)\n本例(120+1)×5%=6.05,第5百分位数在第6.05位,即第6到第7位之间。简单的算法是取第6和第7位数的平均值,P5=(4.250+4.260)/2=4.255(1012/L)。计算精确点可用内插法。第6位第6.05位第7位4.250P54.260(7-6):(4.260-4.250)=(6.05-6):(P5-4.250)解得:P5=4.2505(1012/L)五.百分位数 (Percentile,Px)\n五.百分位数 (Percentile,Px)\n计算P951.列出频数分布表,计算累计频数。2.计算nx%,120×95%=1143.对照累计频数栏与nx%确定PX应落在哪一个组段中。114将在组限为5.5~的组中,该组段下限为:L,组距为i,频数为f,上一组累积频数为Σfl。PX=L+i(nx%-Σfl)/f,P95=5.5+0.2×(114-108)/9=5.633(1012/L)五.百分位数 (Percentile,Px)\n六、调和均数 (HarmonicMean,H)调和平均值与倒数的算术平均值互为倒数。数学表达式为:\n平均指标选用的具体条件算术平均数用于服从正态分布的资料;几何均数适用于服从对数正态分布的资料或倍数变化的资料;调和均数适用于呈极严重的正偏态分布的资料或类似求平均速度的问题;中位数适用于包含不完全信息的资料;众数适用于包含突发事件的时间资料;百分位数用于估计偏态分布资料的正常值范围和度量偏态分布资料的离散程度。\n问题在实际资料中,当S大于时,为什么不适合用±S的形式表达定量资料?\n\n第三节离散程度的指标全距(Range)是最大与最小观察值之差。全距计算方便,但仅利用最大与最小二个数据来代表全部数据的离散程度,信息利用差。全距受特大与特小值影响大,不稳定。四分位数间距(InterquartileRange)\n第三节离散程度的指标四分位数间距是第3四分位数与第1四分位数之差,即P75-P25。四分位数间距受特大值或特小值影响小,较稳定。中位数和四分位数间距相结合常用于表示非正态分布资料的平均水平和离散程度。\n第三节离散程度的指标3.标准差与方差(StandardDeviationandVariance)总体的标准差、方差符号为σ、σ2,样本的标准差、方差符号为S、S2。\n变异指标选用原则粗略地察看资料的离散程度适于选用极差;偏态资料适于选用四分位数或百分位数间距;正态分布资料计算正常值范围适于选用标准差;正态分布资料计算置信区间适于选用标准误;正态分布资料比较单位不同或均值相差悬殊的两组或两组以上定量资料的离散程度大小适于选用变异系数。\n第三节离散程度的指标当为频数表资料时,公式如下:方差S2是标准差S的平方值。标准差(或方差)越大,表示观察值的分布越分散,反之,标准差(或方差)越小,表示观察值的分布越集中。实际应用时常以均数±标准差的写法综合观察值的集中和离散特征。\n第三节离散程度的指标4.变异系数(CoefficientofVariation)简记为CV,它是标准差与均数之比,用百分数表达。由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。\n第三节离散程度的指标\n偏态系数(skewness):评价正态分布对称性的指标。对称:skewness=0;正偏态:skewness>0;个别数据特别大,使得正态峰偏左,长尾向右侧。负偏态:skewness<0;个别数据特别小,使得正态峰偏右,长尾向左侧。医学资料正偏态较多,负偏态偏少。\n峰态系数(kurtosis):评价正态分布正态峰的指标。正态峰:kurtosis=0。尖峭峰:kurtosis>0;峰尖峭而尾部伸延,两尾部曲线在正态曲线之上,面积分布与正态分布相比,中部偏少而尾部偏多。平阔峰:kurtosis<0;峰顶平阔而尾部短促,两尾部曲线在正态曲线之下,面积分布与正态分布相比,中部偏多而尾部偏少。\n正态分布与t分布这是两个最为重要的连续性变量的分布规律;小样本时,常用t分布;大样本时,常用正态分布;n→∞时,t分布→正态分布。\n平均与变异指标应用时常犯的错误所选用的指标与资料分布类型不吻合。误用标准误取代标准差。误用标准差取代变异系数。\n表两组褥疮愈合时间指数对比表()组别愈合时间猪皮组1.34±2.63对照组0.75±1.47\n表正常人与十组不同疾病患者血清PCⅢ的测定结果组别例数P值*正常对照组10085.0±17.5急性病毒性肝炎22131.1±30.2<0.01慢性迁延性肝炎1894.9±26.5>0.05慢性活动性肝炎13188.2±73.9<0.001代偿性肝硬化10227.4±91.0<0.001失代偿性肝硬化20266.2±157.5<0.001肝硬化合并肝癌46288.7±101.4<0.001原发性肝癌(单纯性)22168.5±39.3<0.01胆石症1288.0±18.6>0.05其他肝病788.2±26.0>0.05非肝病1188.6±10.5>0.05注:*代表各组病人与正常对照组比较\n第二章 总体均数的估计和t检验\n第一节总体均数的估计一.标准误(StandardError)标准差是描述个体值的变异。标准误用于描述统计量的变异。均数的标准误,就是样本均数的标准差,用以表达样本均数分布的离散程度。标准误小,表示抽样误差小,统计量较稳定,与所估计的参数较接近。\n样本1N样本2N样本3N。。。。。。正态总体N(,2)各样本均数构成一个总体,为正态分布N(,2/N)。样本均数的标准差为:/用一个样本来估计样本均数的标准差为:\n通常用均数±标准差:表示一组数据的平均水平和离散程度。有时用均数±标准误:表达样本均数及其离散程度,必须注明以免误解。除了均数的标准误外,还有率的标准误,回归系数的标准误等。\n二.总体均数的估计总体均数用μ表示,总体均数的估计包括点估计和区间估计。点估计即用样本均数来估计总体均数。区间估计即按一定的概率估计总体均数在哪个范围内,这个范围称为置信区间,这个概率称为可信度或置信度,用1-α表示,常取95%或99%,按此确定的可信区间分别称之为95%或99%可信区间。总体服从正态分布并且总体标准差σ未知,则总体均数的95%可信区间为:\n例5求红细胞数总体均数的点估计和区间估计。从计算中可得:n=120,=4.9591,s=0.4038,自由度ν=n-1=120-1=119,查t界值表得t0.05,120=1.980,t0.01,120=2.617;总体均数的点估计为:4.9591总体均数的95%可信区间为:=(4.8861,5.0321)总体均数的99%可信区间为:=(4.8626,5.0556)\nt检验预备知识t检验亦称studentt检验,是计量资料中最常用的假设检验方法,它以t分布为基础;t检验的前提条件为正态性和方差齐性。用于平均数比较时,t检验一般仅用于下面三种设计资料的一元分析:单组设计、配对设计(应满足正态性条件)、成组设计(应满足正态性和方差齐性条件)。\n第二节样本均数与总体均数比较的t检验设样本观察值为X1,X2,……,Xn,欲检验该样本是否来自均数为μ0的已知总体。t检验步骤为:(1)建立假设:H0:样本来自均数为μ0的总体H1:样本所来自的总体均数不为μ0双侧α=0.05(2)计算统计量,求P值\n自由度ν=n-1求得t值后,据ν查t临界值表得t0.05,t0.01。如果t<t0.05则P>0.05,不拒绝H0。样本均数和μ0的差异无统计学意义。t0.05<t<t0.01,则0.01<P<0.05,在α=0.05水平上拒绝H0,样本均数和μ0的差异有统计学意义。认为该样本并非来自均数为μ0的总体。t0.01<t,则P<0.01,在α=0.01水平上拒绝H0。\n例6随机抽取某地区96个成年男子的脉搏平均数是每分钟73.7次,标准差为8.8次,试问该地区成年男子的脉搏平均数和每分钟72次有无差别?解:H0:μ=72H1:μ≠72t=|73.7-72|/(8.8/)=1.893ν=96-1=95查t界值表(见附表二),ν=95时,t0.05=1.982,现t=1.893<t0.05,故P>0.05。认为某地区成年男子的平均脉搏数与每分钟72次差别无统计学意义。\n第三节配对t检验配对t检验(PariedtTest)用于配对试验设计(PairedDesign),它是按一些非实验因素条件将受试对象配成对子,给予每对中的个体以不同的处理。配对的条件一般为年龄、性别、体重、……。其优点是在同一对的试验对象间取得均衡,从而提高试验的效率。欲比较配对试验中两种处理的效果,或者自身对照中比较试验前后某指标的变化。可先求出成对数据之差值d。然后使用t检验,检验d是否来自均数为0的总体。\n配对比较设计处理前后的比较例号用药前用药后1118112211098……10122108治疗前后舒张压的改变两种处理的比较对子号A药B药10.2-0.121.01.8……100.40.8两种药物治疗白细胞降低疗效的比较(表中为白细胞升高数)。\n配对t检验公式为:例7用某药治疗10例高血压病人,治疗前后各例舒张压测量结果如表4.1,问该药是否有降低舒张压的作用?表4.110例高血压患者用某药治疗前后的舒张压(mmHg)──────────────────────────────例号治疗前治疗后差数d──────────────────────────────1117123-621271081931411202141071070511010010611498167115102138138152-149127104231012210715──────────────────────────────\n解:H0:差数总体均数μd=0H1:差数总体均数μd≠0。由表4.1算得各例治疗前后的差值d后,得=9.7,=12.3473/代入公式,t=9.7/(12.3473/)=2.4843,df=10-1=9查t界值表,df=9时,t0.05=2.262,t0.01=3.25现t0.05<t<t0.01,故0.01<P<0.05,所以,拒绝H0,认为治疗前后舒张压之相差有统计学意义,可以认为该药有降低舒张压作用。\n第四节成组t检验当按完全随机化设计的两个样本均数比较时,可用成组t检验(GroupedtTest),比较的目的是它们各自所代表的总体是否具有相同的均数,其假设检验为H0:μ1=μ2,H1:μ1≠μ2完全随机化设计两个样本均数比较方差齐方差不齐方差齐性检验t’检验样本大小合并方差估计法各自方差估计法\n分母称为两样本之差的标准误1.小样本时,用合并方差估计法:自由度:DF=n1+n2-22.大样本时,用各自方差估计法:自由度可用公式计算\n第五节两组的方差齐性检验两个均数比较的t检验,其前提是两个样本所代表的总体具有相同的方差,因此在作t检验前,应该作两个方差是否齐性(一致)的检验,称为方差的齐性检验(TestforHomogeneityofVariance)。H0:σ12=σ22H1:σ12≠σ22统计量F计算:F=较大的方差/较小的方差这是一个单側检验,查单侧方差分析用表。\n自由度值有2个,分别为分子的自由度与分母的自由度。由方差齐性检验专用的F界值表,据分子、分母的自由度查得F0.05,F0.01值。如果F<F0.05,则P>0.05,不拒绝H0;如果F0.055时,P的抽样分布接近正态,可用正态分布计算可信区间的上下限,95%可信区间为:P1.96Sp其中Sp为率的标准误:当样本含量n较小,且样本率P接近1或100时,如nP或n(1-P)<5时,可先用平方根反正弦变换,然后计算可信区间的上下限,最后变换回来。\n四格表和行×列表χ2检验χ2检验用于检验两个率或多个率之间的差别,两组或两组以上资料内部构成比之间的差别、理论分布数列与实际观测分布数列之间的差别、两个观测数列(配对计数资料)之间的差别是否显著及两种因素或特征之间有无相关关系等等。\nχ2检验的基本思想检验实际频数和理论频数的差别是否由抽样误差所引起的,也就是由样本率(或样本构成比)来推断总体率(或总体构成比)。\n认识误区很多人误认为“卡方检验”是处理定性资料的“万能工具”这是必须丢弃的一种错误观念!另一类错误是:对用“卡方检验”分析的结果作出含糊不清的解释。\n心功能不全*与溶栓的关系组别有*例数无*例数溶栓(n=216)75141未溶栓(n=356)162194计算结果:χ2=6.422,P<0.01。原作者的结论:溶栓与心功能不全的相关分析,发现两者的联系有统计学差异。这个结论说明了什么问题?\n对差错的分析(1)χ2检验原本是回答“溶栓与否”与“心功能不全与否”之间是否独立的,由于在四格表中,其独立性等价于“相关性”。(2)这并不意味着”溶栓与心功能不全之间有相关性”,而是意味着“溶栓与否”与“心功能不全与否”之间有相关性。仍感不够明确!(3)“两者的联系有统计学差异”,说明两者之间的联系有统计学意义还是没有统计学意义?令人费解!\n释疑计算两组“心功能不全”的发生率,溶栓组(75/216=34.72%),未溶栓组(162/356=45.51%),由χ2检验的结果,得P<0.01,说明未溶栓组“心功能不全”的发生率高于溶栓组“心功能不全”的发生率。\n四格表χ2检验──────────────────────组别有效无效合计有效率───────────────────1aba+bp1=a/(a+b)2cdc+dp2=c/(c+d)───────────────────合计a+cb+dn=a+b+c+d──────────────────────\nχ2分布的特性(1)卡方无负值,取值在0到正无穷大,成不对称分布。(2)卡方分布形状仅因自由度决定而与样本例数无关,自由度越大,分布越对称。(3)卡方分布的自由度与独立的格子数有关。(4)可加性,把一定个数的卡方相加可得到卡方的总值,集中很多个总值所形成的分布也呈卡方分布,其自由度为组成总值各个部分分布的自由度之和。\n两种药物治疗某病有效率的比较──────────────────────药物有效无效合计有效率──────────────────────西药63167979.75中药4775487.04──────────────────────合计1102313382.71──────────────────────两组有效率的差异是否有统计学意义?\nH0:1=2两总体率相等H1:12两总体率不相等2=(ad-bc)2n/[(a+b)(c+d)(a+c)(b+d)]自由度df=1,查表得P值如P<0.05,拒绝H0,结论为:两样本率的差异有统计学意义,两总体率不相等。如P>0.05,不拒绝H0,结论为:两样本率的差异无统计学意义,尚不能认为两总体率不相等。\n本例:2=(637-1647)2133/(795411023)=1.192自由度df=1,查表得P>0.05,不拒绝H0结论为:两组有效率的差异无统计学意义。\nχ2分布是一个连续型的分布,而计数资料中的频数是间断性的,使用的χ2检验与真正的χ2分布有一定的误差,自由度等于1时,特别当理论频数<5时,误差较大,使得所得概率值偏小,必须进行校正,称为连续性校正。校正2=(|ad-bc|-n/2)2n/[(a+b)(c+d)(a+c)(b+d)]某格理论频数=行合计×列合计/总例数\n当总例数大于等于40,各理论频数大于等于5,不须校正。当总例数大于等于40,有一格理论频数小于5,但大于等于1,用卡方校正公式。当总例数小于40,或有一格理论频数小于1,不能用卡方检验,必须用确切概率计算。常用Fisher’s精确检验法概率计算。\n二.行×列表卡方检验1.用于多个率的比较:K×2表H0:1=2=3K个总体率都相等H1:至少有两个总体率不相等\n──────────────────────组别阳性阴性合计阳性率───────────────────样本1f11f12n1+p1样本2f21f22n2+p2样本3f31f32n3+p3…...───────────────────合计n+1n+2n──────────────────────\n──────────────────────有效无效合计有效率───────────────────西药组63167979.75中药组4775487.04中西结合6536895.59───────────────────合计17526201──────────────────────\nH0:三种疗法的有效率相同H1:至少有二种疗法的有效率不相同χ2={632/(79175)+162/(7926)+···+32/(6826)-1}201=8.143df=2由χ2界值表,df=2时,查得χ20.05=5.99,χ20.01=9.21。现χ20.05=5.99<χ2<χ20.01,故0.01χ20.01,故P<0.01拒绝H0,认为血型分布与民族有关。或三个民族的ABO血型分布不同。\n如果1/5以上格子的理论频数小于5,或有1格理论频数小于1,则卡方检验不是一个有效的检验。解决方法:(1)增加例数(2)合理的合并相邻的行或列(3)用确切概率计算\n四格表Fisher精确检验法的 计算公式其中a、b、c、d为四格表的基本数据,n为四格表总例数。\nR×C表资料统计分析方法的合理选用原则双向无序列联表资料,当表中小于5的理论频数的个数没超过表中总格子数的1/5时,可用一般的χ2检验;反之,需选用Fisher精确检验法。若是单向有序列联表资料,应选用秩和检验或Ridit分析或有序变量的Logistic回归分析。\n双向有序且属性不同的列联表资料统计分析方法的合理选用原则第一种目的,希望考察各组的结果变量之间的差别是否有显著性意义时,应将其视为单向有序的列联表资料,故需选用秩和检验或Ridit分析或有序变量的Logistic回归分析。第二种目的,希望考察两个有序变量之间是否存在相关关系时,应选用定性资料的相关分析,如Spearman的秩相关分析或定性资料的典型相关分析。第三种目的,希望考察两个有序变量之间是否存在线性变化趋势时,应选用线性趋势检验。若是双向有序且属性相同的列联表资料,可选用一致性(或称Kappa)检验或采用特殊模型分析法。\n第四章方差分析\n第一节概论方差分析(AnalysisofVariance,简记为:ANOVA)的应用范围很广,本章的方差分析主要用于检验计量资料中两个或两个以上均数间差别显著性的方法。以一个实例说明方差分析的基本思想和原理。\n第二节单因素方差分析(one-wayANOVA,completelyrandomdesignANOVA)例5.1小白鼠给药前后发生咳嗽的推迟时间(秒)─────────────────────复方Ⅰ复方Ⅱ可待因─────────────────────40506015-1030-510577。。。。。。─────────────────────例数151510均值31.674460.7─────────────────────\n常见的错误是进行三组之间的两两t检验。这将增加第一类误差的概率。如两组比较作一次t检验取=0.05;三组之间的两两t检验作三次t检验,至少有一次拒绝H0的概率为0.14。五组之间的两两t检验作十次t检验,至少有一次拒绝H0的概率为0.40。两组以上均数的比较不能用两两t检验,而必须用方差分析。要比较三种药物的平均推迟咳嗽时间有否差异?\n总体1N(μ1,σ12)样本1(n1,,S1)总体2N(μ2,σ22)样本2(n2,,S2)总体3N(μ3,σ32)样本3(n3,,S3)已知:σ12=σ22=σ32,,不相等问:μ1=μ2=μ3??μ1,μ2,μ3不相等方差分析法的模型\n方差分析法的基本思想组间变异(不同药物引起,包含误差)总变异组内变异(误差引起)如不同药物的作用相同,并且无抽样误差,则:F=组间变异/组内变异=1由于抽样误差,F不等于1,但和1相差不大,F越大概率越小,如概率P<0.05,则可认为不同药物的作用是不相同的。即样本均数之间的差异有统计学意义。\n总变异组内变异组间变异\n方差分析法的基本思想为:根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应,总自由度也被分为相应的各个部分,各部分的离均差平方和除以相应自由度得出各个均方,然后列出方差分析表算出F值,作出统计推断。方差分析法的基本思想\n方差分析法的基本思想H0:1=2=3H1:至少有一个等式不成立或:H0:三种药物对小白鼠镇咳作用相同H1:三种药物镇咳作用不完全相同\n方差分析法的基本思想离均差平方和用SS表示,自由度用DF表示,均方(MEANSQUARE)用MS表示MS=SS/DF即方差。SS总=SS组间+SS组内DF总=DF组间+DF组内F=MS组间/MS组内=(SS组间/DF组间)/(SS组内/DF组内)根据F和DF组间,DF组内查方差分析用F界值表,得P值。如P<0.05,拒绝H0。\n方差分析法的基本思想以上分解和检验可列成方差分析表的形式:方差分析表────────────────────变异来源平方和自由度均方F值P值SourceSSDFMSFP────────────────────总变异组间误差────────────────────\n方差分析法的基本思想如果影响数据变异的因素不止一个,则可作二因素或三因素等的方差分析,总变异可分解成和各因素相对应的各个变异;这样,分解越细,误差越小,检验的效率就越高。\n方差分析的基本要求1.各组样本来自正态分布的总体。2.各总体的方差相等。3.各效应的可加性。如不符合基本要求时,可进行变量变换,变换成正态分布后再进行检验或用非参数检验的方法。\n变量变换1.服从对数正态分布的资料可用对数变换y=log(x)2.服从泊松分布的资料可用平方根变换y=3.表达成百分数的资料可用平方根反正弦变换y=arcsin\n校正数总平方和组间平方和方差分析基本步骤组内平方和=总平方和–组间平方和DF总=N-1DF组间=组数-1DF组内=DF总-DF组间\n方差分析表──────────────────────────────变异来源SSdfMSFP──────────────────────────────总变异31939.939药物间变异5062.466722531.23333.4845<0.05误差26877.433337726.4171──────────────────────────────由df1=2,df2=37查F临界值表得F0.05=3.25,现F>F0.05故知P<0.05,结论为在α=0.05水平上,拒绝H0,而认为三种药物平均推迟咳嗽时间不相同。方差分析结果\n第三节均数间两两比较K组均数比较时,经方差分析,拒绝H0:总体中各组均数相同,即μ1=μ2=……=μK时,如果需确定那二个均数间有显著差异,可用均数间的两两比较。如有三个组A,B,C时,每两个均数进行比较时可有A与B,A与C,B与C共三种,如有四个组时将有=6种比较。进行均数间两两比较的方法很多。本书介绍Student-Newman-Keuls(SNK)检验法。\n均数间两两比较H0:A=BH1:A≠B求得q值后,据误差项自由度及组数a查附表六q界值表,得q0.05,q0.01。a为均数从小到大排队后,所比较的二组相隔的组数。\n均数间两两比较均数一均数二均数三a=2a=2a=3\n均数间两两比较例5.1资料中误差项df=37,MS=726.4171,复方Ⅰ:n1=15,=31.6667;复方Ⅱ:n2=15,=44;可待因:n3=10,=60.7均数由小到大排列后,组别依次为复方Ⅰ,复方Ⅱ,可待因。比较复方Ⅰ与复方Ⅱ,其a=2q=|31.666-44|/=1.772比较复方Ⅰ与可待因,其a=3q=|31.666-60.7|/=3.732比较复方Ⅱ与可待因,其a=2q=|44-60.7|/=2.146\n均数间两两比较查附表,由误差项df=37,组数a=2查得q0.05=2.87,q0.01=3.84;a=3查得q0.05=3.46,q0.01=4.40。复方Ⅰ与可待因比较,q=3.732>3.46,故P<0.05,而其余二个Q皆小于q0.05;因此复方Ⅰ与可待因两药对小白鼠平均推迟咳嗽时间,在α=0.05水平上有显著差异,其余任两药间差异皆不显著。\n均数间两两比较进行均数间两两比较的方法很多:SNK(Student-Newman-Keuls)检验,DUNCAN检验,Tukey检验,LSD(最小显著差)检验,Scheffe检验,等。如只须几个实验组和一个对照组比较,实验组之间不比较:DUNNETT检验,DUNCAN新法,等\n第四节方差齐性检验H0:各个正态总体方差相等,即12=22=……=K2H1:至少存在一对i,j,有i2≠j2本书中介绍一种稳健的(Robust)方差齐性检验方法--Levene检验,它可以用于两个或两个以上方差的齐性检验。(1)对于K组的样本资料,求得各组的均数后计算观察值距各自组均数的绝对离差。(2)以绝对离差作为主要变量,使用前述的方差分析法。当拒绝H0时,认为各组方差不齐;当不拒绝H0时,认为方差齐性。\n算得三个药物组:=31.6667,=44,=60.7,得绝对离差如下:──────────────────────复方Ⅰ复方Ⅱ可待因──────────────────────8.333360.721.66672430.7………...18.333314──────────────────────再用上表中绝对离差值进行方差分析。第四节方差齐性检验\n第四节方差齐性检验──────────────────────变异来源SSDFMSFP──────────────────────总变异9108.3939药物间679.562339.781.490.2382误差8428.8337227.80──────────────────────由于P=0.2382,因此不拒绝H0,而认为三组方差齐性,因此符合均数间比较的方差分析法的基本要求。\n第五节随机单位组设计方差分析(randomizedblockdesignANOVA)随机单位组设计又称随机区组设计,随机配伍组设计,它是两样本配对试验的扩大。——————————————————————————单位组处理1处理2……...处理k——————————————————————————1X11X12X1k2X21X22X2k。。。。。。bXb1Xb2Xbk——————————————————————————\n随机单位组设计方差分析大白鼠注射不同剂量雌激素后的子宫重量(g)───────────────────────雌激素剂量(μg/100g)─────────────────大白鼠种系0.20.40.8───────────────────────A106116145B4268115C70111133D426387───────────────────────\n随机单位组设计方差分析欲比较因素Ⅰ的K个水平的各变量均值,同时控制另一个因素的作用。试验设计时,先将受试对象按其它控制因素性质相同或相近者组成单位组,每个单位组有K个受试对象,分别随机分配至因素Ⅰ的K个水平上。这时每个水平的受试对象不仅数量相同,而且性质亦相同或相近,就能缩小误差,提高实验效率。这样的设计可将单位组亦看作一个因素,就成为二个因素的设计\n随机单位组设计方差分析处理间变异————组间总变异单位组间变异组内误差(误差)和单因素方差分析相比,误差减少了,检验效率提高了。\n随机单位组设计方差分析可作二个假设检验:(1)H0:因素Ⅰ各水平x的均值相同H1:因素Ⅰ中至少有二个水平的x均值不相同F1=MS因素Ⅰ/MS误差DF因素Ⅰ=K-1,DF误差=(bk-1)-(k-1)-(b-1)=bk-k-b+1(2)H0:各个单位组的x均值相同H1:至少有二个单位组的x均值不相同F2=MS单位组/MS误差DF单位组=b-1,DF误差=bk-k-b+1当欲进一步比较因素Ⅰ中任二个的水平x均值是否相同。可用本章第三节中均数间两两比较的检验。\n大白鼠注射不同剂量雌激素后子宫重量处理组:雌激素剂量,三水平(0.2,0.4,0.8)单位组:大白鼠种系,四水平(A,B,C,D)───────────────────────变异来源SSDFMSFP───────────────────────总1307511剂量间60742303733.54<0.01种系间6457.6732152.5623.77<0.01误差543.33690.56───────────────────────F0.01(2,6)=10.92,F0.01(3,6)=9.78\n大白鼠注射不同剂量雌激素后子宫重量方差分析得各个不同剂量的平均子宫重量不相同。可进一步比较任二个剂量的平均子宫重量的差异是否有统计意义。可用SNK方法。比较结果为三种剂量两两之间的差异都有统计学意义。\n第六节拉丁方设计方差分析(latinsquaredesignANOVA)欲比较一个因素中K个水平的各均数,同时要控制另二个因素作用时,可用拉丁方设计。用K个拉丁字母排列成K行K列的方阵,使每行,每列中每个字母仅出现1次,这样的方阵称为拉丁方。\n第六节拉丁方设计方差分析例如:2×2拉丁方3×3拉丁方ABABCBACABBCA4×4拉丁方5×5拉丁方ABCDABCDEBCDABEDACDABCCAEBDCDAEDCAEBEDBCA拉丁方的行和行,或列和列交换,仍为拉丁方。\n第六节拉丁方设计方差分析拉丁方设计实际上是一种特殊类型的三因素试验设计,三个因素的水平数必须相同。(1)首先根据水平数选定拉丁方。(2)再随机交换拉丁方的行或列。(3)然后将三个因素分别放置于拉丁方的行,列及字母上面,主要考察因素放置于字母上。(4)根据设计进行试验,把试验结果记入相应位置。(5)进行方差分析,得出结论。\n第六节拉丁方设计方差分析5个不同日期,5个受试者,穿5种不同防护服的脉搏数────────────────────────受试者─────────────────────日期12345────────────────────────1ABCDE2BCDEA3CDEAB4DEABC5EABCD────────────────────────\n第六节拉丁方设计方差分析字母间(处理间)总变异行间列间误差由于总变异分解更细,误差更小,效率也更高。\n第六节拉丁方设计方差分析可作三个方差分析:(1)H0:各种防护服的平均脉搏数相同;H1:各种防护服的平均脉搏数不全相同;F1=MS防护服间/MS误差(2)H0:各个受试者的平均脉搏数相同;H1:各个受试者的平均脉搏数不全相同;F2=MS受试者间/MS误差(3)H0:不同日期的平均脉搏数相同;H1:不同日期的平均脉搏数不全相同。F3=MS日期间/MS误差\n第六节拉丁方设计方差分析例5.3的方差分析表─────────────────────────变异来源SSDFMSFP─────────────────────────总变异4105.9124日期间508.074127.012.89>0.05受试者间2853.674713.4116.27<0.01防护服间218.02454.501.24>0.05误差526.141243.84─────────────────────────F0.05(4,12)=3.26,F0.01(4,12)=5.41\n处理因素为药物复方1复方2可待因处理因素为药物不同浓度控制因素为动物种系单因素方差分析单位组设计方差分析\n拉丁方设计方差分析防护服A、B、C、D、E受试者甲、乙、丙、丁、戊试验日期1、2、3、4、5\n第七节析因设计的方差分析(factorialdesignANOVA)析因设计是一种多因素的交叉分组试验设计。例如:提取某蛋白质成分的研究中,蛋白质的提取量和温度,试剂浓度及PH值有关。温度分高,中,低三个水平;试剂浓度分0.1,0.2,0.3,0.4四个水平;PH值分6和8二个水平。这三个因素的各水平相结合,共形成342=24种处理组;各种处理组各有数例,这样的试验叫析因设计。由于进行了交叉设计,同时每组又有重复,因此可检验各因素间的交互作用(interaction)。上述试验也可称为3×4×2析因试验设计。重复数可以相等也可以不相等,一般地说,重复数相等时,效率最高。\n第七节析因设计的方差分析最简单的析因设计是22析因设计。有二个因素,每个因素分二个水平。因素A:分A1和A2二个水平;因素B:分B1和B2二个水平;分四个处理组:A1B1,A1B2,A2B1和A2B2。每个处理组做若干次试验。\n第七节析因设计的方差分析例5.4某研究所对甲、乙两药的降胆固醇作用进行研究,将甲药视作为因素Ⅰ,下有二个水平,水平1为不加甲药,水平2为加甲药。乙药为因素Ⅱ,水平1为不加乙药,水平2为加乙药。构成了2×2=4个水平组合,试验中将12个高胆固醇病人随机分为四组,每组3例,进行治疗,观察胆固醇的下降值。本试验为2×2析因试验设计,重复数为3。\n2×2析因设计试验结果──────────────────────因素Ⅱ(乙药)因素Ⅰ──────────────────(甲药)水平1(不加)水平2(加)──────────────────────水平10.4160.728(不加)0.6500.8060.4680.598水平21.4561.664(加)1.1442.0281.0922.080──────────────────────第七节析因设计的方差分析\n交互作用当二个因素的作用相互独立时,称这二个因素无交互影响;当二个因素的作用不独立,而相互有影响时,称这二个因素有交互影响。当存在交互影响时表示一个因素各水平间的差异随着另一个因素的水平改变而不同;当不存在交互影响时,则各个因素独立,即一个因素水平改变时不影响另一个因素的各水平之效应。因素A和因素B的交互作用记为AB。交互作用:几个因素联合作用不等于这几个因素单独作用的累加(有的情况是相乘),称这几个因素间存在交互作用,否则称为不存在交互作用或称为这几个因素相互独立。\n第七节析因设计的方差分析因素1引起的变异(甲药)因素2引起的变异(乙药)总变异因素1和因素2的交互作用引起的变异误差可作三个假设检验。\n第七节析因设计的方差分析(1)H0:因素Ⅰ的各水平的胆固醇的平均降低值相同;H1:因素Ⅰ的各水平的胆固醇的平均降低值不相同;(2)H0:因素Ⅱ的各水平的胆固醇平均降低值相同;H1:因素Ⅱ的各水平的胆固醇平均降低值不相同;(3)H0:因素Ⅰ的各水平的胆固醇平均下降值的差异,独立于因素Ⅱ,或者因素Ⅱ的各水平的胆固醇平均下降值的差异独立于因素Ⅰ;H1:两者不独立。第(3)个假设就是检验两个因素的交互影响。\n第七节析因设计的方差分析例5.4的方差分析表─────────────────────────变异来源SSDFMSFP─────────────────────────总变异3.814611因素Ⅰ2.801412.801496.2680<0.01因素Ⅱ0.597610.597620.5361<0.01Ⅰ×Ⅱ0.181310.18316.2921<0.05误差0.232580.0291─────────────────────────F0.05(1,8)=5.32,F0.01(1,8)=11.3\n第七节析因设计的方差分析───────────────────────乙药甲药─────────────单用乙药不加加───────────────────────不加1.5342.1320.598加3.6925.772───────────────────────单用甲药2.158二药合用:4.238\n第七节析因设计的方差分析二药单独作用的累加为:2.158+0.598=2.756二药联合作用为:5.772-1.534=4.238两者不相等,如差异显著,则二药间存在交互作用。联合作用>累加:有协同作用联合作用<累加:有桔抗作用联合作用=累加:无交互作用本例有协同作用。\n第九节平衡不完全单位组设计方差分析(balancedincompleteblockdesignANOVA)在随机单位组设计中有时处理组的水平数太多,大于单位组中的个体数,这时就可以有计划地安排每个单位组中的处理,使全部试验中每种处理的重复数相同,每两种处理同时出现在同一单位组中的次数相同,这就是平衡不完全单位组设计的方法。对于一个具体设计,欲用本方法时需查有关的书籍,作出实验安排。\n第九节平衡不完全单位组设计方差分析要比较9种饲料的作用,用同一窝的白鼠作为单位组。如用随机单位组设计,则每一窝都要有9个白鼠。但实际上做不到每一窝9个白鼠,只能做到每一窝4个白鼠。这时可选用平衡不完全单位组设计。本例处理组的水平数为9,每各单位组中实验单位数为4,可从有关专著中查到设计格式,以达到使全部试验中每种处理的重复数相同,每两种处理同时出现在同一单位组中的次数相同。根据设计格式安排试验,得到结果,再进行统计分析。\n─────────────────────────单位组(窝)处理─────────────────────────16(2.6)4(9.7)3(5.4)5(6.9)26(5.9)7(2.6)9(5.9)2(6.3)31(7.0)6(5.6)9(5.9)3(3.3)49(2.4)4(5.0)7(3.0)6(2.4)59(5.0)8(7.4)5(10.3)3(9.4)64(10.1)1(9.7)6(5.7)8(7.5)72(3.9)4(5.1)5(6.4)9(6.3)88(5.0)6(6.1)7(5.4)3(3.3)92(2.8)6(2.6)5(2.8)8(3.3)102(5.7)8(9.3)3(5.4)9(6.1)112(5.7)7(6.6)1(5.5)8(5.3)121(3.0)8(1.4)9(5.2)4(2.8)133(7.5)7(2.2)5(2.6)1(5.4)143(3.7)1(5.2)4(2.4)2(2.4)159(3.0)7(2.6)1(5.7)5(2.4)164(5.5)2(6.0)7(5.6)3(3.3)177(2.6)5(5.9)4(6.0)8(5.6)182(7.3)5(5.4)6(5.7)1(5.4)─────────────────────────\n第十节正交试验设计方差分析(orthogonalexperimentdesignANOVA)正交试验是一种高效,快速的多因素试验方法,能同时对多个因素,多个水平进行比较。正交试验利用一套规格化的正交表,使每次试验的因素,水平得到最合理的安排,所以能以较少的试验次数提供因素,交互影响等有关信息,作出统计推断。通过试验常能找出最佳实验条件,最好的生产条件,最合适的配料方案等。\n第十节正交试验设计方差分析正交试验设计方差分析的一般步骤为:(1)确定所研究的因素和水平;(2)选择合适的正交表,安排试验;(3)通过试验获得数据;(4)对试验结果用方差分析方法作出统计推断。\n第十节正交试验设计方差分析例5.6过氧乙酸是广泛应用的一种杀灭病毒性肝炎病毒的主要消毒剂,但其有效成分极不稳定,以致影响其消毒效果,现对下列四个因素,每个因素2个水平进行研究,由放置24个小时后过氧乙酸残存量(mg/3ml),分析哪些为主要影响因素。A:稳定剂,水平1:加磷酸0.3%;水平2:不加磷酸;B:水浴温度,水平1:25-30℃;水平2:35-40℃;C:浸泡口表,水平1:浸泡口表10支;水平2:不浸口表;D:加盖与否,水平1:加盖;水平2:不加盖。\n第十节正交试验设计方差分析选用L8(27)正交表:──────────────────────试验号1234567──────────────────────1111111121112222312211224122221152121212621221217221122182212112──────────────────────\n第十节正交试验设计方差分析二列间交互影响:────────────────────列1234567────────────────────132547621674537654412353261────────────────────\n第十节正交试验设计方差分析选择适当的正交表后,需先作表头设计;即哪一列安排哪个因素,哪一列为交互影响?必须剩下至少一列为误差项。本例可安排如下:列号1234567因素ABA×BCA×CB×CDC×DB×DA×D如需考虑6个一级交互影响,则L8(27)正交表太小,要选更大的正交表。这里只考虑2个交互影响:A×B和A×D。选用L8(27)作如下表头设计列号1234567因素ABA×BCA×DD\n第十节正交试验设计方差分析据L8(27)中的1,2,4,7列所示的因素水平进行试验得:───────────────────────试验号A(1)B(2)C(5)D(7)残存量───────────────────────111117.004.11211226.053.50312121.100.80412211.900.96521122.401.65621214.001.50722110.350.30822220.300.90───────────────────────\n第十一节协方差分析(analysisofcovariance)在各种试验设计中,对主要变量(dependentvariable)Y研究时,常希望其他可能影响Y的变量保持基本一致,以达到均衡可比。例如:比较几种药物的降压作用,各试验组在原始血压、性别、年龄等指标应无显著差异。\n第十一节协方差分析有时这些变量不能控制,须在统计分析时,通过一定方法来消除这些变量的影响后,再对主要变量y作出统计推断。如果所控制的变量是分类变量时,可用多因素的方差分析;当要控制的变量是连续型变量时,可用协方差分析。\n称这些影响变量为协变量(Covariate),消除协变量的影响后,或将协变量化成相等后,对y的修正均数所作的方差分析称为协方差分析。例如:比较几种不同饲料对动物体重增加的作用,可把动物的进食量作为协变量。比较大学生和运动员的肺活量时,可把身高作为协变量。比较治疗后二组舒张压的大小,可把治疗前的舒张压作为协变量。第十一节协方差分析\n第十一节协方差分析协方差分析的基本原理:协方差分析是把直线回归和方差分析结合起来的一种统计分析方法。当不同处理结果的y值还受协变量x的影响时,先找出y与x的直线关系,求出把x值化为相等后y的修正均数,然后进行比较,这样就能消除x对y的影响,更恰当地评价各种处理的作用。\n雌雄两组羔羊体重增加情况比较\n协方差分析步骤:(1)各处理组分别拟合直线回归方程第十一节协方差分析(2)比较各处理组的斜率,求公共回归系数。公共回归系数bc=0.1938\n第十一节协方差分析(3)求各组回归方程的截距a,用公式(4)得到各组回归方程\n第十一节协方差分析(5)从y中将x的影响扣除,(即把x化成相等后,对于y的修正均数进行方差分析)\n第十一节协方差分析协方差分析三个重要的假设:1.各组样本来自正态总体,且方差齐性。2.总体回归系数不等于0。3.各组的总体回归系数相等。协变量总变异处理误差\n第十一节协方差分析各种试验设计,如:完全随机化设计,随机区组设计,拉丁方设计,析因设计,平衡不完全单位组设计,正交试验设计等,都可以带有协变量,而且可以不止一个。SAS软件能对其作协方差分析,首先逐一作所列协变量是否对Y有影响的显著性检验,然后按设计方案,扣除协变量的影响后,对主要变量Y的修正均数作比较,得出统计结论。也可进一步比较任两个修正均数。

相关文档