生物统计学 总结 24页

  • 73.18 KB
  • 2022-08-13 发布

生物统计学 总结

  • 24页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
生物统计学总结绪论统计工作的四大步骤:设计、搜集、整理、分析统计资料的三大类型:e计量资料:对每个观察值单位用定量方法测得每项指标量的大小所得的资料e计数资料:将观察单位按照某种属性类别分组,所得的观察单位数e等级资料:将观察单位按某种属性的不同程度分组所得的资料同质与变异同质:除研究因素外,其他因素相同或相近为同质变异:观测值的不齐性总体与样本:总体:根据研究目的所确定的同质观察单位的全体=所有研究对象性质相同的全体观察单位某项变量值的集合总体含量:总体中所包含的观察单位数有限总体:总体观察单位数可数无限总体:总体观察单位数不可数样本:从总体中随机抽取的部分观察单位样本含量:样本中所包含的观察单位数抽样:从总体中获得样本的过程放回式抽样不放回式抽样抽样误差:因个体变异的存在,由抽样而导致的样本指标与总体指标之差统计量:有样本所得指标或数参数:由总体所得指标,关于特征的表征频数:完全相同的观察只出现的次数频率:某一观察值出现的次数与样本含量的比值概率:描述某事物发生可能性大小的一个度量样本空间:一次实验所有可能的结果的集合基本事物:样本空间每一个可能的结果小概率事件:P<=0.05或P<=0.01的事件小概率原理:小概率事件在一次抽样中不可能发生\n计量资料的统计描述集中趋势的指标:平均数定义:描述一组同质计量资料的集中趋势,反映某一组观察值的平均水平或某一分布的平均位置的指标作用:作为一组资料的代表值,可用于组间的分析比较均数的两个重要特征à代表性1.离均差和等于02.离均差平方最小小于常用平均数指标:1.算术均数(1)定义:全部观察值相加之和除以观察值个数所得的商总体均数样本均数(2)算法:1)直接法:2)加权法:3)缩减法(3)注意事项:1)只有在合理分组的基础上对同质数据取均数才有意义2)均数用于近似正态分布的对称分布,尤其是正态分布2.几何均数G(不能用算术均数时)(1)定义:几个观察值相乘之积,开几次方所得根(2)计算1)直接法2)(3)应用注意:1)几何均数适用于观察值相差很大,甚至呈倍数关系(等比或几何级数资料)或用于对数正态分布资料2)观察值不能有零,不能同时有正负,若都为负,去符号最后加符号,观察值比较小或有零,可加1,最后减去3)同一资料求得的几何均数小于均数\n中位数M(1)定义:把一组观察值按大小顺序排列,位次居中的(2)计算:1)直接法2)频数表法:(3)注意事项1)适用场合:偏态,开口(一端或两端无界限),分布不清的2)特性:只代表了居中观察值的特性,敏感性低,不受特小特大值的影响3)对于正态分布资料,理论上,中位数=均数(数值上)百分位数(1)定义:将n个观察值由小到大排列,编上秩次,将n个秩次100等分,与X%秩次相对应的数值,即X的百分位数,是一个位置指标,以Px表示(x代表百分秩次)Px将整个数列分为两半,X%比Px小,1-X%比Px大(2)计算:(3)应用注意1)百分位数常用于描述一组资料(样本或总体)在某百分位数上的水平和分布特征,多个百分位数结合使用,可全面描述观察值分布特征,包括位置的大小和变异度2)一般分布中部的百分位数相当稳定,代表性好,靠近两端的百分位数,只在样本含量足够大(>120个)才足够稳定,所以当样本含量不够大时,不宜取两端百分位数3)用百分位数确定正常值范围,习惯上95%\n离散趋势的描述1.极差R:样本资料中最大值和最小值之差在一定程度上能说明样本波动幅度的大小,但它只受样本中两个极端个体数值大小的影响,不能反映样本中各个观测值的变异程度,稳定性差2.四分位数间距:是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小.稳定性好,灵敏度不够3.标准差:1)定义:描述一组同质计量资料离散程度大小的指标反映了均数对一组观察值的代表性说明了观察值围绕均数分布的离散程度,个体变异2)计算:3)应用:1.表示变量分布的离散程度2.结合均数描述正态分布特征3.结合均数计算变异系数4.结合样本含量计算标准误4)注意:(1)不同单位,相同标准差,不能比较(2)大个体差异大,变异度大,小个体则变异度小4.变异系数CV1)定义:标准差与均数之比,用百分数表示2)计算:3)应用:单位不同的几组资料变异度及均数相差悬殊的几组资料的变异度的比较,不单独使用自由度ν泛指可以自由取值的变量的个数正常值:正常动植物解剖生理生化等各种数据的波动范围1)必要性1.区分正常和异常2.看不同种群在不同时间地域上某一指标的差异2)选取1.极差中的一部分2.单侧或双侧正常值之分,由指标实际情况及实验要求确定3.方式之一为正常值范围的百分位数,习惯上95%双侧:确定P2.5或P97.5单侧:P5或P95,看实验需要\n计量资料的统计推断统计推断用样本信息推断总体特征参数估计:由样本结果对总体参数在一定概率水平下所做出的估计假设检验正态分布1)概念:一种连续型随机变量的概率分布密度函数:分布函数:2)特征:1.在横轴上均数处最高2.以均数为中心,左右对称3.有两个参数4.曲线下的面积分布有一定的规律F(x)3)应用:1.以曲线下的面积反映频率及概率分布2.估计正常值范围或正常值范围的正态分布法à双侧正常值范围3.质量控制4.正态分布是很多种统计方法的理论基础标准正态分布,u分布Uα与面积的关系对数正态分布原观察值x呈偏态(正偏),取对数后,lgX呈正态分布àx服从对数正态分布\n均数的抽样误差1.定义:平均数与总体均数之差2.均数抽样误差大小的度量标准误1)定义:样本均数的标准差2)意义:反映抽样误差的大小是样本均数围绕总体均数分布的离散程度,衡量了样本均数的可靠程度3)计算:一般一次抽样估计总体没有标准误,只针对样本4)用途:(1)计算可信区间(参数估计)(2)用于统计推断(假设检验)t分布1.t变换与t变量2.t分布的特征1)单峰,一0为中心,左右对称2)曲线中间比正态分布低,两端翘得比正态分布高3)有无数根,中间越低,两端越翘t分布与自由度有关,自由度越小,中间越低,两端越翘当自由度趋向无穷时,t分布趋向标准正态分布,tàu3.概率密度函数与分布函数4.t介值与t介值表tα,ν:给定自由度为ν,两侧双尾面积之和为α时,相应t值。5.t分布原理:P(-tα,ν<=t<=tα,ν)=1-α方差分析方差分析又叫变量分析,俗称F检验用途:1.两个或多个均数的比较2.分离各有关因素,并分别估计其对变异的作用3.分析两个或多个因素的交互作用4.方差齐性检验\n适用条件(用于多个均数比较时)1.个样本是相互独立的随机样本2.小样本要求正态方差齐基本思想:把全部观察值之间的变异,总变异,按设计需要,分为两个或多个组成部分再作分析计算总体均数的估计1.总估计2.区间估计:1)定义:按一定的概率估计总体均数在什么范围内可信区间:按一定的概率估计总体均数的可能范围2)方式:1.t分布法:按t分布的原理估计总体均数在什么范围内适用于总体标准差未知且n<50的情形总体均数在可信区间的概率1-α可信度:1-α置信水平:α通常,我们取95%或99%作可信区间2.正态分布法适用于总体标准差已知或n>50总体标准差已知:n>50:\n假设检验为什么做假设检验检验差别是否由抽样误差造成的基本思想假定差别是由抽样误差引起的然后计算由抽样误差引起这么大,甚至比这更大的差别的概率P根据小概率原理,作出拒绝或者接受假设的判断步骤1.建立假设,确定检验水准先确定是单侧还是双侧的若考虑u,u0有误差别à双侧若不仅考虑差别,还关注u,u0大小à单侧一般认为双侧无效假设H0:从反证法的基础上提出的,无论何时,假设差别是由抽样误差造成的,但具体问题具体分析备择假设H1:与H0相对立的假设,是依H0而产生的,一旦H0不成立,只能接受H1,现在H0不成立à非H0à体现单双侧之分检验水准α:界定小概率事件的一个标准(有单双侧之分)通常α=0.052.选定检验方法,计算统计量3.确定P值,做出统计推断P值:指由H0所规定的总体中做随机抽样,获得等于大于或小于现有统计量的概率。若P<=α,拒绝H0;若P>α,接受H0第一类错误和第二类错误e第一类:拒绝实际上成立的H0e第二类:不拒绝实际上不成立的H0客观实际拒绝H0不拒绝H0H0成立第一类错误(α)推断正确(1-α)H0不成立推断正确(1-β)第二类错误(β)e可信度1-αe把握度β:未知,只能估计,不能单独存在,只有与H1结合才有意义e检验效能1-β:计量总体却有差别,按α水准,能够发现他们有差别的能力注意1.样本的代表性à组间的均衡性à资料的可比性2.选用的假设检验方法一定要符合其适用条件3.正确理解差别有无显著性的含义(显著、极显著不意味着差别的大小)4.结论不能绝对化5.报告要规范化\n检验方法一、完全随机设计(一)样本均数与已知总体均数比较的假设检验1.小样本,总体标准差σ未知àt检验(要求x取自正态总体)2.大样本,总体标准差σ未知:1)t检验(严格)à法2无需来自正态总体2)u检验(νà∞,tàu)à法13.大样本,总体标准差σ已知àu检验(二)两个样本均数比较的假设检验1.小样本(有一个就算),总体标准差σ未知,正态方差齐àt检验A.先求合并方差B.再求两样本均数差的标准误C.计算t值2.小样本(有一个就算),总体标准差σ未知,方差不齐(非正态)1)采用适当的变量变换使达到方差齐性的要求2)采用不要求方差齐的方法比较à非参数统计3)采用近似的t‘检验3.大样本àu检验(不考虑正态方差齐的情况下,仍可用t检验)(三)两个样本几何均数比较的假设检验对x取反对数,用t检验或者u检验(四)多个样本均数的比较(单因素方差分析)条件:1.个样本是相互独立的随机样本2.小样本要求正态方差齐*多个样本均数间的两两比较àq检验二、配对设计(一)配对设计的计量资料的比较小样本,t检验àt=dSd/n三、配伍组设计(一)多个样本均数的比较(两因素方差分析)多个性质相同的配伍,同一配伍组中的N个受试对象分别接受k种处理作用:1.可改善处理组间的均衡性2.可分析配伍因素的的影响3.提高设计效率,分析两个因素*多个样本均数间的两两比较àq检验\n正态性检验一、为什么做正态性检验特定统计方法要求的描述统计平均数、标准差正常值范围的正态统计法统计推断t检验F检验二、定义判定资料是否服从正态分布或样本是否来自正态总体的一类检验方法三、何时用?1.为了说明资料是否服从正态分布à一定要做2.为了满足特定统计方法的需要à可以不做四、怎么做?正态分布分布的特征:1.对称性à偏度(正偏、对称、负偏)三阶偏度系数g1态峰à翘度(正态峰、尖峭峰、平阔峰)四阶峰度系数g2方差齐性检验一、为什么?1.t检验F检验使用条件的要求2.方差的抽样波动二、定义说明变量值的变异度有无差别,或者通过样本信息来推断总体方差是否相等的一类检验方法三、何时做?1.说明变量值的变异度有无差别时à一定做2.为满足t、F检验方差齐性要求的à可不做四、如何做?\n多个方差的齐性检验——X2检验变量变换意义:通过改变观察值的原初形式,使资料正太化,达到方差齐性的要求,以满足t检验及方差分析的应用条件依据:只改变观察值的分布形式,而不是其相对大小常用方法:1)对数变换:以观察值x的对数值作为新的分析数据常用方式适用场合:1.使服从对数正态分布的资料正态化2.使方差达到方差齐性要求,特别是标准差与均数的比值接近时3.使指数曲线直线化,常用于曲线拟合2)平方根变换:以原观察值x的平方根作为新的分析数据常用方式适用场合:1.使服从Poisson分布的计数资料或轻度偏态资料正态化2.使各样本的方差与均数的正比例关系消除或削弱,达到方差齐性要求3)百分数、平方根、正反弦变换以原观察值用百分数表示,平方根反正弦值作为新的分析数据适用场合:总体百分数小于30%或大于70%的情形\n计数资料的统计描述和推断相对数(一)为什么引入绝对数不能做进一步分析(二)什么是相对数同一基础上,两个有联系指标之比*常用指标1.率/频率指标:用以说明某现象发生的频率与强度计算比例基数—依习惯而用—使算的的率至少保留1-2位整数2.构成比/构成指标:用以说明某一事物内部各组成部分所占的比重或分布→总和为100%计算*若总和不为100%:超减于大,低加在小3.相对比:两个有关同类指标之比,用以说明两者的对比水平计算*指标可为平均数、绝对数、相对数4.动态数列:一系列按时间顺序排列起来的统计指标,用以说明事物延时间发展的变化与趋势*指标可为平均数、绝对数、相对数*动态分析:(1)绝对增量=统计期指标-基期指标说明事物在一定时期增加的绝对数量可分为逐年的、逐期的:后比前,内部波动累计的:基期固定,总体结果(2)发展速度、增长速度:反映事物在一定时期的速度变化,可分为定基与环基发展速度=统计期指标/基期指标增长速度=发展速度-1\n(三)应用相对数应注意的问题1.计算相对数的分母一般不宜过小,对于动物实验,可减小2.分析时不能以比代率3.计算观察单位不等的几个率的平均值时,不能直接相加求平均4.资料的对比应注意可比性5.率和构成比也可有抽样误差→假设检验二项分布及其应用(一)概念及其应用条件对于某个性状,常常可以把其资料分成两个类型。即“非此即彼”两种情况,彼此构成对立事件,我们把这种“非此即彼”事件所构成的总体,称为二项总体,其概率分布称为二项分布。1.二项分布的概率密度函数:重复做①n次相互独立的实验,每次实验②有相互独立的结果,③P(A)=ΠP(A)=1-Π,则n次实验中A恰好发生x次的概率2.实验有①②③,则可用二项分布处理3.分布函数4.特征:Π=0.5对称,正态0.3≤Π≤0.7近似对称,近似正态Π>0.7或Π<0.3偏态严重,离0.5越远,偏的越厉害二项分布近似正态分布的条件:1)Π,1-Π均大于0.01àΠ不接近0或12)nΠ,n(1-Π)均大于5àn足够大5.二项分布的均数和标准差、\n(二)二项分布的应用1.总体率的可信区间(1)点估计(2)区间估计1)查表法2)正态近似法(条件)1.样本率与已知总体率比较的假设检验(1)直接计算概率法利用二项分布的概率密度和分布函数,求出p值,与所用的检验水准α进行比较,做出统计推断适用条件:Π偏离0.5较远,x较小(2)正态近似法(条件)(3)两个样本率比较的u检验(条件)\nPoisson分布及其应用(一)概念及应用条件是二项分布的一个特例,当Π或1-Π很小(<0.05)而n很大时,二项分布近似于Poisson分布常用于研究单位时间或单位面积或容积内,某罕见事件发生次数的分布1.概率密度函数:2.应用条件:同二项分布3.分布函数4.特点:X离散型分布,适用于计数资料X二项分布的特例,应用条件同二项分布X方差等于均数,σ=λXλ≥20时,Poission分布近似正态分布XPoisson分布具有可加性(二)应用1.总体均数λ的估计(区间)1)查表法x≤502)正态近似法2.样本均数与总体均数的比较1)直接计算概率法2)正态近似法3.两个样本均数的比较àu检验1)两个样本观察单位数相等2)两样本单位不同时\nX2检验及其应用——同性质、适合性、独立性检验一、X2分布1.X2变量ν个标准正态变量平方和2.概率密度函数3.分布函数4.X2介值表5.X2分布与正态分布的关系随着自由度的增加卡方分布近似于正态分布当ν=1时,二、X2检验的基本思想在实际操作中,k个实际频数ki与其相应的理论频数T的差值i=1kAi-Ti2Ti①表示实际频数与理论频数的吻合程度*当n>40,Ti>5时,上式①近似X2*可以利用X2值检验实际频数与按假设检验计算的理论频数是否相等的问题*如果假设成立,那X2≈0;不应出现大X2的概率P<α,如果出现,则可以怀疑假设是否成立,进而拒绝他,反之不拒绝X2的基本公式X2=A-T2Tn>40,T>5TRC=nR∙nCnTmin=nRmin∙nCminnν=R-1C-1四格表资料处理阳性数阴性数合计阳性率1aba+b2cdc+d合计a+cb+dn\nX2基本公式的专用公式X2=ad-bc2∙na+bc+da+cb+dn>40,T>5X2校正公式X2=A-T-0.52Tn>40,140,140时可不校正2)两种处理有无相关(双向有序列联表)X2=ad-bc-n22a+bc+da+cb+dR×C列联表X2检验基本数据中多于四格表用途:1.多个样本率的比较2.样本构成比的比较(三个以上)3.计数资料的相关分析基本思想、基本公式、自由度的计算同前X2=A2nR∙nC-1\n应用条件:1.n>402.1