生物统计复习资料 15页

  • 296.52 KB
  • 2022-07-29 发布

生物统计复习资料

  • 15页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
生物统计复习题从某种意义上讲,生物统计是利用样本推断总体被研究对象的全体称为总体,被抽出来的若干个体所组成的单位称为样本。由总体计算的特征数称为参数,由样本计算的特征数称为统计量。试验中由于许多无法控制的内在和外在的偶然因素所造成误差称为随机误差,由于试验动物的初始条件如年龄、初始重、性别、健康状况等相差较大,饲料种类、品质、数量、饲养条件未控制相同,测量仪器不准、标准试剂未经校正等所引起的误差称为系统误差。在调查或试验中,由观察、测量所得的数据按其性质不同,一般可以分为三大类,即:数量性状资料、质量性状资料和半定量(等级)资料。质量性状资料:是指能观察到而不能直接测量的性状,如颜色、性别、生死等。连续性变异资料:指用量测手段得到的数量性状资料,即用度、量、衡等计量工具直接测定的数量性状资料不连续性变异资料(间断性变异资料):指用计数方式得到的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。如猪的产仔数、鸡的产蛋数、鱼的尾数、母猪的乳头数等。资料中最大值与最小值之差称为全距(或极差)。每组最大值与最小值之差称为组距。各组的最大值与最小值称为组限。最小值称为下限(或组下限),最大值称为上限(或组上限)平均数主要包括有算术平均数、中位数、众数、几何平均数和调和平均数。算术平均数:指资料中各观测值的总和除以观测值个数所得的商算术平均数基本性质(1)样本各观测值与平均数之差的和为零,即离均差之和等于零(2)样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小几何平均数:n个观测值相乘之积开n次方所得的方根调和平均数:资料中各观测值倒数的算术平均数的倒数中位数(中数):将资料内所有观测值从小到大依次排列,位于中间的那个观测值众数:资料中出现次数最多的那个观测值或次数最多一组的组中值对于同一资料,算术平均数>几何平均数>调和平均数。要研究两个总体间的差异,为什么以样本平均数作为检验对象?(1)总体往往是无限总体(2)样本平均数离均差的平方和∑(-)2最小,说明样本平均数与样本各个观测值最接近,平均数是资料的代表数(3)样本平均数是总体平均数的无偏估计值,即E()=μ\n(4)根据统计学中心极限定理,样本平均数服从或逼近正态分布样本方差:统计量Σ称样本方差,记为S2,即S2=,也称样本均方(MS)。总体方差:对于有限总体而言,统计量σ2μ)2/N称为总体方差。样本标准差:统计学上把样本方差的平方根叫做样本标准差,表达式为,或标准差特性(1)统计学上把样本方差的平方根叫做样本标准差(2)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。(3)在计算标准差时,在各观测值加上或减去一个常数,其数值不变。(4)当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。(5)在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差(±S)范围内;约有95.43%的观测值在平均数左右两倍标准差(±2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(±3S)范围内。也就是说全距近似地等于6倍标准差,可用()来粗略估计标准差。随机变量x在平均数µ左右一倍标准差范围内取值的概率为0.6827,x在平均数µ左右二倍标准差范围内取值的概率为0.9543,在平均数µ左右三倍标准差范围内取值的概率为0.9973。随机变量x在平均数µ左右一倍标准差范围外取值的概率为0.3173,在平均数µ左右二倍标准差范围外取值的概率为0.0457,在平均数µ左右三倍标准差范围外取值的概率为0.0027。自由度:样本变数的总个数减去计算过程中使用的条件数变异系数及其特性。(1)标准差与平均数的比值(2)与标准差不同,标准差是绝对值,有单位,而变异系数是相对值,无单位(3)变异系数不受单位不同和平均数不同的影响。(4)变异系数的大小同时收标准差和平均数两个指标的影响试验:根据某一研究目的,在一定条件下对自然现象所进行的观察基本事件:把不能再分的事件称为基本事件,也称为样本点概率(统计概率,后验概率):当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率离散型随机变量:如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量连续型随机变量:如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间取值时,其概率是确定的,则称x为连续型随机变量。在一定条件下必然会出现的现象称为必然事件,在一定条件下必然不会出现的现象称为不可能事件。在一定条件下可能出现也可能不出现的事件称为随机事件。随机事件概率的基本性质(1)在一定条件下可能出现也可能不出现的事件\n(2)任何事件的概率都在0与1之间(3)必然事件的概率为1(4)不可能事件的概率为0正态分布的特征。(1)对称的悬钟形曲线,对称轴为x=μ(2)以x轴为渐近线,分布从-∞至+∞(3)在x=μ处具有最大的概率分布密度(4)曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的(5)分布密度曲线与横轴所夹的面积为1标准正态分布:平均数为0,方差为1的正态分布正态分布情况下,P(x<µ–1.96σ)+P(x>µ+1.96σ)=0.05正态分布情况下,P(x<µ–2.58σ)+P(x>µ+2.58σ)=0.01正态分布情况下,P(x<µ–1.96σ)=0.025正态分布情况下,P(x>µ+1.96σ)=0.025正态分布情况下,P(x>µ+2.58σ)=0.005正态分布情况下,P(x<µ–2.58σ)=0.005正态分布情况下,P(μ-1.96σ≤x<μ+1.96σ)=0.95正态分布情况下,P(μ-2.58σ≤x<μ+2.58σ)=0.99标准正态分布情况下,P(-1≤u<1)=0.6826标准正态分布情况下,P(-2≤u<2)=0.9545标准正态分布情况下,P(-3≤u<3)=0.9973标准正态分布情况下,P(-1.96≤u<1.96)=0.95标准正态分布情况下,P(-2.58≤u<2.58)=0.99纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为3∶1。求窝产仔n头,有k头白猪的概率当n→∞时,二项分布的极限分布是正态分布在n→∞,p→0,且np=λ(较小常数)情况下,二项分布趋于波松分布在n→∞,p→0.5时,二项分布趋于正态分布当λ→∞时,波松分布的极限分布是正态分布什么是标准误?标准误与标准差有何联系与区别?(1)样本平均数抽样总体的标准差(2)样本标准差反映样本中各观测值变异程度大小,说明样本平均数对该样本代表性的强弱(3)样本标准误是样本平均数的标准差,是抽样误差的估计值,说明样本间变异程度的大小及精确性的高低对于同性质且平均数相同的资料,标准差大表示该资料各变数的变异程度大两个样本平均数之差(-)包括两部分:一部分是两个总体平均数的差(-),叫做试验的处理效应;试验误差(-),是试验的表面效应显著水平:用来确定否定或接受无效假设的概率标准叫显著水平对于t检验来说,若|t|<,则说明试验表面效应属于试验误差的概率P>0.05,统计学上把这一检验结果表述为两个总体平均数与差异不显著;若≤|t|<\n,则说明试验表面效应属于试验误差的概率0.011000,>1%,采用正态分布近似法求置信区间(2)==0.0077(3)该地区奶牛结核病患病率P的95%置信区间为:,即在显著性检验中否定或接受无效假设的依据是小概率事件实际不可能性原理。Ⅰ型错误(“弃真”错误):就是把非真实差异错判为真实差异;Ⅱ型错误(“纳伪”):就是把真实差异错判为非真实差异配对设计:配对设计是指先根据配对的要求将试验单位两两配对,然后将配成对子的两个试验单位随机地分配到两个处理组中自身配对设计:指同一试验单位在二个不同时间上分别接受前后两次处理,用其前后两次的观测值进行自身对照比较;或同一试验单位的不同部位的观测值或不同方法的观测值进行自身对照比较同源配对设计:指将来源相同、性质相同的两个个体配成一对,如将畜别、品种、窝别、性别、年龄、体重相同的两个试验动物配成一对,然后对配对的两个个体随机地实施不同处理母猪的怀孕期为114天,今抽测100头母猪的怀孕期的平均数\n=115,标准差S=1.5,问试检验所得样本的平均数与总体平均数114天有无显著差异?(已知=2.262)(1)提出无效假设与备择假设:=114,:≠114(2)计算值根据、和所以=10-1=9(3)|t|>,P<0.05,故否定:=114,表明样本平均数与总体平均数差异显著。按饲料配方规定,每1000kg某种饲料中维生素C不得少于246g,现从工厂的产品中随机抽测12个样品,测得维生素C含量平均值=252,标准差S=9.115,若样品的维生素C含量服从正态分布,问此产品是否符合规定要求?(已知单侧=双侧=1.796)(1)按题意,此例应采用单侧检验(2)提出无效假设与备择假设:=246,:>250(4)所以===2.281(5)=12-1=11(6)|t|>单侧t0.05(11),P<0.05,否定:=246,接受:>246,表明样本平均数与总体平均数差异显著,可以认为该批饲料维生素C含量符合规定要求饲料A和B饲喂肉鸡对比试验,分别饲喂8只,经计算A饲料的肉鸡增重=705.625、=288.839,B饲料的肉鸡增重=696.125、=138.125,问两种饲料对肉鸡的增重效果有无显著差异?(已知=2.145)(1),经计算得(2)提出无效假设与备择假设:=,:≠(3)因为=7.306\n(4)于是==1.300(5)=(8-1)+(8-1)=14(6)|t|<2.145,P>0.05,故不能否定无效假设:=,表明两种饲料饲喂肉鸡的增重效果差异不显著,可以认为两种饲料的质量是相同的现从8窝仔猪中每窝选出性别相同、体重接近的仔猪两头进行饲料对比试验,将每窝两头仔猪随机分配到两个饲料组中,时间30天,各窝增重的标准差为0.5726,平均值为0.975。问两种饲料喂饲仔猪增重有无显著差异?(已知=3.499)(1)提出无效假设与备择假设:=0,即假定两种饲料喂饲仔猪平均增重无差异:≠0,即假定两种饲料喂饲仔猪平均增重有差异(2)计算得=0.975,(3)(4)=8-1=7(5)|t|>3.499,P<0.01,表明甲种饲料与乙种饲料喂饲仔猪平均增重差异极显著,这里表现为甲种饲料喂饲仔猪的平均增重极显著高于乙种饲料喂饲的仔猪平均增重据往年调查某地区的乳牛隐性乳房炎一般为30%,现对某牛场500头乳牛进行检测,结果有175头乳牛凝集反应阳性,问该牛场的隐性乳房炎是否比往年严重?(1)提出无效假设与备择假设,(2)总体百分数=30%,样本百分数=175/500=35%(3)=(4)=(5)因为1.960.05,不能否定H0,表明实际观察次数与理论次数差异不显著,可以认为白毛猪与黑毛猪的比率符合孟德尔遗传分离定律3∶1的理论比例某牛场用80头牛检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有12头发病,32头未发病;未注射的36头中有22头发病,14头未发病,问该疫苗是否有预防效果?(已知c20.01(1)=6.63)(1)先将资料整理成列联表2×2列联表发病未发病行总和Ti.发病率注射1232T1.:4427.3%\n未注射2214T2.:3661.1%列总和T.jT.1:34T.2:46T.。:80(2)提出无效假设与备择假设H0:发病与否和注射疫苗无关,即二因子相互独立。HA:发病与否和注射疫苗有关,即二因子彼此相关。(3)计算理论次数根据二因子相互独立的假设,由样本数据计算出各个理论次数。二因子相互独立,就是说注射疫苗与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同,均应等于总发病率34/80=0.425。依此计算出各个理论次数如下:注射组的理论发病数:T11=44×34/80=18.7注射组的理论未发病数:T12=44×46/80=25.3,或:T12=44-18.7=25.3;未注射组的理论发病数:T21=36×34/80=15.3,或T21=34-18.7=15.3;未注射组的理论未发病数:T22=36×46/80=20.7,或T22=36-15.3=20.7。(4)计算值+(5)统计推断:=7.944>c20.01(1),P<0.01,否定H0,接受HA,表明发病率与是否注射疫苗极显著相关,这里表现为注射组发病率极显著低于未注射组,说明该疫苗是有预防效果的。c2检验与t检验、F检验在应用上的区别(1)c2检验用于判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验(适合性检验)和根据次数资料判断两类因子彼此相关或相互独立的假设检验(独立性检验);(2)t检验主要用于样本平均数与总体平均数差异显著性检验和两个样本平均数的差异显著性检验;(3)F检验主要用于单因素、两因素和多因素试验资料的方差分析独立性检验与适合性检验的区别(1)研究目的不同,适合性检验是判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验,独立性检验是根据次数资料判断两类因子彼此相关或相互独立的假设检验;(2)独立性检验的次数资料是按两因子属性类别进行归组,而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组;(3)适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算(4)在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。独立性检验约束条件较多。显著性检验中应注意的问题(1)为了保证试验结果的可靠及正确,要有严密合理的试验或抽样设计,保证各样本是从相应同质总体中随机抽取的。并且处理间要有可比性,即除比较的处理外,其它影响因素应尽可能控制相同或基本相近(2)选用的显著性检验方法应符合其应用条件。由于研究变量的类型、问题的性质、条件、试验设计方法、样本大小等的不同,所用的显著性检验方法也不同,因而在选用检验方法时,应认真考虑其适用条件,不能滥用(3)要正确理解差异显著或极显著的统计意义。显著性检验结论中的“差异显著”或“差异极显著”不应该误解为相差很大或非常大。“显著”或“极显著”是指表面上如此差别的不同样本来自同一总体的可能性小于0.05或0.01,已达到了可以认为它们有实质性差异的显著水平(4)合理建立统计假设,正确计算检验统计量(5)结论不能绝对化\n变量间的关系有两类,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示,这类变量间的关系称为函数关系。一类是变量间关系不存在完全的确定性关系,不能用精确的数学公式来表示,这些变量间都存在着十分密切的关系,统计学中把这些变量间的关系称为相关关系统计学已证明,在直线回归分析中,F检验结果等价于t检验结果相关系数的取值范围为[-1,1]完全正相关时,相关系数的取值为1,完全负相关时,相关系数的取值为-1,完全无相关时,相关系数的取值为0。一元回归分析:一个自变量与一个依变量的回归分析称为一元回归分析多元回归分析:多个自变量与一个依变量的回归分析称为多元回归分析简单相关分析:对两个变量间的直线关系进行相关分析称为简单相关分析直线相关分析:对两个变量间的直线关系进行相关分析称为直线相关分析在直线回归分析中,回归自由度等于自变量的个数,总自由度等于n-1,离回归自由度等于n-2总体相关系数与x和y的总体标准差、,总体协方差COV(x,y)或的关系可表示为。回归系数的基本表达式为。相关系数的基本表达式为,或协方差分析:将回归分析与方差分析结合在一起,对试验数据进行分析的方法,叫做协方差分析。协方差分析有二个意义,一是对试验进行统计控制,二是对协方差组分进行估计。试验设计:广义理解是指试验研究课题设计,也就是整个试验计划的拟定。狭义的理解是指试验单位(如动物试验的畜、禽)的选取、重复数目的确定及试验单位的分组。完全随机设计:是根据试验处理数将全部供试动物随机地分成若干组,然后再按组实施不同处理的设计。这种设计应用了重复和随机化两个原则,因此能使试验结果受非处理因素的影响基本一致,真实反映出试验的处理效应。随机单位组设计:根据局部控制的原则,如将同窝、同性别、体重基本相同的动物划归一个单位组,每一单位组内的动物数等于处理数,并将各单位组的试验动物随机分配到各处理组,这种设计称为随机单位组设计。完全随机抽样:首先将有限总体内的所有个体全部编号,然后用抽签或用随机数字表的方法,随机抽取若干个个体作为样本顺序抽样:先将有限总体内的每个个体按其自然状态编号,然后根据调查所需的数量,按一定间隔顺序抽样系统抽样:先将有限总体内的每个个体按其自然状态编号,然后根据调查所需的数量,按一定间隔顺序抽样机械抽样:先将有限总体内的每个个体按其自然状态编号,然后根据调查所需的数量,按一定间隔顺序抽样动物试验:在畜牧、水产等试验研究中,通常以动物作为试验对象,因而将所进行的试验统称为动物试验试验方案:是指根据试验目的与要求而拟定的进行比较的一组试验处理的总称局部控制:是指在试验时采取一定的技术措施或方法来控制或降低非试验因素对试验结果的影响\n正交设计:就是安排多因素试验、寻求最优水平组合的一种高效率试验设计方法。正交设计是利用正交表来安排与分析多因素试验的一种设计方法。它利用从试验的全部水平组合中,挑选部分有代表性的水平组合进行试验,通过对这部分试验结果的分析了解全面试验的情况,找出最优的水平组合回归方程的基本性质(1)最小;(2);(3)回归直线必须通过中心点相关系数与回归系数的关系(1)相关变量x与y的相关系数r是y对x的回归系数与x对y的回归系数的几何平均数。(或)(2)研究对象都是呈直线关系的相关变量(3)直线回归分析侧重于寻求它们之间的联系形式——直线回归方程(4)直线相关分析侧重于揭示它们之间的联系程度和性质——计算出相关系数(5)两种分析所进行的显著性检验是等价的,即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著10头育肥猪的饲料消耗(x)和增重(y)资料如下表(单位:kg),试计算增重对饲料消耗的回归系数。 x191167194158200179178174170175y33114224384438373035(1)计算相关数据(2)计算回归系数试计算y与x的相关系数X36302623263020192016Y0.890.800.740.800.850.680.730.680.800.58(1)计算相关数据\n(2)计算相关系数动物试验特点(1)试验干扰因素多(2)试验具有复杂性(3)试验周期长动物试验要求(1)试验要有代表性(2)试验要有正确性(3)试验要有重演性动物试验误差的主要来源(1)供试动物固有的差异是指各处理的供试动物在遗传和生长发育上或多或少的差异性。如试验动物的遗传基础、性别、年龄、体重不同,生理状况、生产性能的不一致等,即使是全同胞间或同一个体不同时期间也会存在差异(2)饲养管理不一致所引起的差异指在试验过程中各个处理在饲养技术、管理方法及日粮配合等在质量上的不一致,以及在观测记载时由于工作人员的认真程度,掌握的标准不同或测量时间、仪器的不同等所引起的偏差(3)环境条件的差异主要指那些不易控制的环境的差异,如栏舍温度、湿度、光照、通风不同所引起的差异等(4)由一些随机因素引起的偶然差异如偶然疾病的侵袭、饲料的不稳定等引起的差异试验设计些基本原则(1)重复:指试验中同一处理实施在两个或两个以上的试验单位上。在动物试验中,一头动物可以构成一个试验单位,有时一组动物也可构成一个试验单位。设置重复的主要作用在于估计试验误差和降低试验误差。重复数的多少可根据试验的要求和条件而定。(2)随机化:指在对试验动物进行分组时必须使用随机的方法,使供试动物进入各试验组的机会相等,以避免试验动物分组时试验人员主观倾向的影响。这是在试验中排除非试验因素干扰的重要手段,目的是为了获得无偏的误差估计量(3)局部控制:指在试验时采取一定的技术措施或方法来控制或降低非试验因素对试验结果的影响。(4)由一些随机因素引起的偶然差异如偶然疾病的侵袭、饲料的不稳定等引起的差异配对试验设计与非配对试验设计区别(1)配对设计是指先根据配对的要求将试验单位两两配对,然后将配成对子的两个试验单位随机地分配到两个处理组中。配对的要求是,配成对子的两个试验单位的初始条件尽量一致,不同对子间试验单位的初始条件允许有差异,每一个对子就是试验处理的一个重复(2)非配对设计或成组设计是指当进行只有两个处理的试验时,将试验单位完全随机地分成两个组,然后对两组随机施加一个处理。在这种设计中两组的试验单位相互独立,所得的二个样本相互独立,其含量不一定相等如何理解显著性检验结论中的“差异不显著”、“差异显著”和“差异极显著”?(1)显著性检验结论中的“差异显著”或“差异极显著”不应该误解为相差很大或非常大,也不能认为在专业上一定就有重要或很重要的价值。(2)“显著”或“极显著”是指表面上如此差别的不同样本来自同一总体的可能性小于0.05或0.01,已达到了可以认为它们有实质性差异的显著水平\n(3)“差异不显著”是指表面上的这种差异在同一总体中出现的可能性大于统计上公认的概率水平0.05,不能理解为试验结果间没有差异。多个处理平均数间的相互比较为什么不宜用t检验法?(1)t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验(2)多个平均数间的差异显著性检验,若仍采用t检验法检验过程烦琐(3)多个平均数间的差异显著性检验,若仍采用t检验法,无统一的试验误差,误差估计的精确性和检验的灵敏性低(4)多个平均数间的差异显著性检验,若仍采用t检验法,推断的可靠性低,检验的I型错误率大如何拟定一个正确的试验方案?(1)根据试验的目的、任务和条件挑选试验因素;(2)根据各试验因素的性质分清水平间差异;(3)试验方案中必须设立作为比较标准的对照;(4)试验处理(包括对照)之间应遵循唯一差异原则;(5)有的试验要设置预试期。进行南江黄羊体高调查,已测得体高的标准差S=3.05cm,今欲以95%的置信度使调查所得的样本平均数与总体平均数的允许误差不超过0.5cm,问需要抽取多少只南江黄羊组成样本才合适?(t0.05=1.96)(1)已知:S=3.05,d=0.5,1-=0.95,取t0.05=1.96(2)根据n=1.962×3.052/0.52=142.95≈143(只)即对南江黄羊体高进行调查,至少需要调查143头,才能以95%的置信度使调查所得样本平均数与总平均数相差不超过0.5cm欲了解某地区鸡新城疫感染率,已知道通常感染率约60%,若规定允许误差为3%,取置信度1-=0.95,问至少需要调查多少只鸡?(1)p=0.6,q=1-p=1-0.6=0.4,d=0.03,=1.96(2)根据n=1.962×0.6×0.4/0.033≈1025(只)即至少需要调查1025只鸡,才能以95%的置信度使调查所得的样本百分数与总体百分数相差不超过0.03。

相关文档