- 272.50 KB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
《生物统计学》复习串讲\n常用统计学术语试验:是一个综合条件的实现或实施,假定这种综合条件可以任意地重复实现很多次。事件:是试验的结果和现象。(必然事件、不可能事件、随机事件)样本容量(n):样本中包含个体的数目小样本:n≤30大样本:n>30参数:总体的特征数。是指由总体的全部观察值计算所得到的特征数如:总体平均数(μ)、总体方差(σ2)、总体标准差(σ)等均为参数总体参数是一个固定的值,通常是未知的统计量:样本的特征数。是指由样本中计算所得到的特征数如:样本平均数()、样本方差(s2)、样本标准差(s)等均为统计量统计量是样本的已知函数\n(试验)误差:指试验中因无法控制的随机因素所引起的差异误差不可避免准确性(准确度):指在试验过程中某一试验指标和性状的观察值与真值接近的程度,即统计量接近参数真值的程度说明测定值对真值符合程度的大小精确性(精确度):指在试验过程中同一试验指标和性状的重复观察值彼此接近的程度,即样本中各个变数间的变异程度的大小说明多次测定值的变异程度\n数据资料根据观察和测量对象的性质,可分为:数量性状资料计量资料:用度量衡等计量工具测量后而得到的资料。也称为连续性变数资料计数资料:由计数的方式而得到的资料。也称为间断性变数资料质量性状资料(属性性状资料)\n计数资料的整理与分组基本上采用“单项式分组法”。特点:用样本变数的自然值进行分组,每组均用一个(或几个)变数值来表示。计量资料的整理方法:采用“组距式分组法”。步骤:分6步进行确定全距确定组数确定组距确定组中值确定各组上下限按观测值大小归组并制作次数分布表质量性状的分析,先将质量性状数量化常采用“统计次数法”\n常用的次数分布图包括:直方图多边形图(以上两个用于连续性资料的分布)条形图(用于表示计数资料和质量性状资料的分布)\n变量的特征集中性离散性平均数变异数算术平均数中位数众数几何平均数极差方差标准差变异系数调和平均数特征数平方平均数\n算术平均数的性质:离均差之和为零离均差平方和为最小方差是度量资料变异的常用指标,在统计分析中有较广泛的应用。s2是σ2的最好估计值。方差虽能反映变量的变异程度,但由于离均差取了平方值,使得它与原始数据的数值和单位都不相适应。方差的平方根值就是标准差\n各观测数加上或减去一个常数,其标准差不变;各观测数乘以或除以一个常数a,其标准差扩大或缩小a倍。标准差的作用表示变量分布的离散程度。估计平均数的标准误。进行平均数的区间估计和变异系数计算。可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。\n自由度的统计意义:DF是指样本内独立且能自由变动的观测值的个数。在统计学中,自由度等于样本变数的总个数减去计算过程中使用的条件的个数。如果受到k个条件的限制,则自由度为df=n-k变异系数是样本的标准差相对于其平均数的百分数变异系数是一种相对指标,既能反映样本的离散程度(s),又能表示出集中趋势(),因而是一项表示相对离散度的指标。用变异系数可以比较不同样本相对变异程度的大小。\n[概率的定义]事件A在一次试验中出现的可能性大小的量度p,称为事件A的概率概率是频率的稳定值。小概率原理(实际推断原理)原理:概率很小的事件(小概率事件)在一次试验中常被认为实际上是几乎不可能发生的,这就是小概率原理。应用:它是显著性检验的基本依据。理论分布定义:通俗地讲,是指多种事物相似分布规律的一种理想化的数学模型,即观测数据在一定变异基础上所服从的有一定规律的法则。常见的理论分布:二项分布、泊松分布、正态分布。\n二项分布间断性(离散型)随机变量的一种理论分布,是一种离散型的分布。假定某事件A在n次独立试验中,每次试验都具有相同的出现概率p,其不出现(或对立事件)的概率为q=1–p,则做n次独立试验,该事件A出现x次的概率为:P(x)=Cnxpxqn–x,x=0,1,2,3,…,nP(x)叫做随机变量x的二项(概率)分布记作:B(n,p)\n二项成数(百分数)分布的参数二项分布的极限分布当n较大(>30),而np及nq均大于5时(p、q均不趋于0),二项分布接近于正态分布当n→+∞时,二项分布的极限分布就是正态分布\n正态分布X服从正态分布,记作:X~N(μ,σ2)只有一个峰,当x=μ时,f(x)值最大。正态分布曲线是以平均数μ为中心的分布。图形关于直线x=μ对称,当x-μ的绝对值相等时,f(x)值也相等。正态分布的概率密度曲线与渐进线x轴所围成的全部面积等于1。正态分布曲线完全由参数μ和σ来决定μ确定其在x轴上的中心位置σ决定图形的形状,σ越大,图形显得矮和宽,σ越小,图形显得高和窄正态分布曲线在x=μ±σ处各有一个拐点。标准正态分布在x=±1处各有一个拐点。\n标准正态分布的概率计算一般正态分布的标准化及概率计算。两尾概率与单尾概率双侧分位数和单侧分位数概率一定时,两尾概率的总大于一尾概率的\n抽样分布从一个总体按一定的样本容量随机地抽出所有可能的样本,由这些样本计算出的统计量(如和s2)必然形成一种分布(亦即一个新的总体),这种分布称为该统计量的随机抽样分布或抽样分布。样本平均数的抽样分布t分布F分布卡方分布\n正态总体抽得的样本平均数的分布【定理】若随机变量X~N(μ,σ2),(x1,x2,x3,…,xn)是X的随机样本则:样本平均数=(Σxi)/n服从平均数为μ,方差为σ2/n的正态分布。即:~N(μ,σ2/n)任意样本平均数的极限分布【中心极限定理】如果被抽样总体不是正态总体,但具有一定的平均数μ和方差σ2,则随样本容量n的不断增大,样本平均数的分布越来越趋近于正态分布,且具有平均数μ和方差σ2/n。这称为中心极限定理。\n[中心极限定理的应用]这一定理对于连续性变量或非连续性变量都能适用。不论总体为何种分布,一般只要样本容量n≥30,属于大样本,就可以应用中心极限定理,认为样本平均数的分布是正态分布。\n样本平均数差数的分布假设X1~N(μ1,σ12)→随机抽得样本X2~N(μ2,σ22)→随机抽得样本则:从两个独立正态总体中抽出的独立样本平均数差数的分布也是正态分布即:~N(μ1-μ2,σ12/n1+σ22/n2)假设X1~N(μ1,σ12)→随机抽得样本X2~N(μ2,σ22)→随机抽得样本则:从两个独立正态总体中抽出的独立样本平均数差数的分布也是正态分布即:~N(μ1-μ2,σ12/n1+σ22/n2)\n分布1)定义:设()是来自总体的一个样本,则称统计量:所服从的分布是自由度为n的分布,记作:。若(X1,X2,…,Xn)是正态总体N(μ,σ2)的一个样本,和S2分别是样本均值和样本方差,则:°与S2相互独立;\n5t分布为服从自由度为n的t(Student)分布,记作t~t(n)。1.定义设X~N(0,1),Y~(n),且X与Y相互独立,则称随机变量\n近似从正态总体N(μ,σ2)抽样(或以足够大的样本容量从非正态总体抽样),所得的样本平均数~N(μ,σ2/n)如果:总体σ2已知,可用下式将标准化:如果:总体σ2未知时,能否用σ的估计值s代入上式?代入上式后有无偏差?若样本容量相当大(n>30),总体σ未知,可以用样本的标准差s直接估计总体的σ时,上式近似服从正态分布,可以应用。即:~N(0,1)且u~N(0,1)但是,当样本容量n<30且σ未知时,如以样本标准差s估计总体σ,则偏差较大,且标准化值不服从正态分布,\n[定理1]设x1,x2,…,xn(n≥2)相互独立,且都服从N(μ,σ2),则:服从自由度df=n-1的t分布,记为:t~t(n-1)定理2设(X1,X2,…,Xn1)和(Y1,Y2,…,Yn2)分别是从总体N(μ1,σ2)和N(μ2,σ2)中所抽取的样本,它们相互独立,则\nt分布的性质t分布曲线是左右对称的单峰曲线,围绕平均数μx=0向两侧递降。t分布受自由度df=n-1的制约,每个自由度都有一条t分布曲线。与正态分布相比,t分布的离散度较大,顶部偏低,尾部偏高,尤其是自由度小的t分布更为明显。当自由度df>30时,t分布曲线就比较接近正态分布曲线;当df→+∞时(极限分布)则和正态分布曲线重合。\nt分布的百分位点:t值表的使用:除了要考虑自由度df外,用法与正态分布的u值表相似。在已知两尾的阴影面积α和自由度df后,可以从表心找到对应的值。\nF分布设:从一正态总体N(μ,σ2)中随机抽取样本容量为n1和n2的两个独立样本,其样本方差为s12和s22则:定义s12和s22的比值为FF=s12/s22此F值具有s12的自由度df1=n1-1和s22的自由度df2=n2-1如果:对一正态总体在特定的df1和df2进行一系列的随机独立抽样,则所有可能的F值就构成一个F分布。F=s12/s22~F(df1,df2)\n0f(y)αFα(m,n)y0f(y)y\n统计推断统计推断是根据带随机性的观测数据(样本)以及问题的条件和假定模型,而对未知事物作出的,以概率形式表述的推断。主要内容假设检验(亦即“显著性检验”)参数估计\n假设检验就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。如果抽样结果使小概率发生,则拒绝假设;如果抽样结果没有使小概率发生,则接受假设。生物统计学中,一般认为小于0.05或0.01的概率为小概率。通过假设检验,可以正确分析处理效应和随机误差,作出可靠的结论。\n显著性检验的基本步骤(1)明确基本假设把欲考察的问题以基本假设的形式提出,并且在作出最后的判断之前,始终在“假设成立”的前提下进行分析.(2)规定显著性水平(0<α<1).(3)建立检验准则,构建统计量(4)根据样本值作判断\n(1)双尾检验统计假设:H0:μ=μ0,HA:μ≠μ0适用范围:这种假设用在对抽样总体的平均数μ毫无所知,即μ可能大于μ0,也可能小于μ0的情况。否定域(拒绝H0:μ=μ0的区域)上述假设检验的两个否定区分别位于分布的两尾(左边一尾和右边一尾),这类检验称为双尾检验。给定显著性水平α,若检验统计量为u,则否定域为:(-∞,-uα)∪(uα,+∞)或│u│>uα\n右尾检验统计假设:H0:μ=μ0(或μ≤μ0),HA:μ>μ0适应范围:如果有较大的把握μ会超过μ0,则备择假设取HA:μ>μ0,零假设则应为H0:μ=μ0(或μ≤μ0),这时应将显著性水平α全部取在右尾。否定域:若检验统计量为u,则否定域为:u>u临界值\n左尾检验统计假设:H0:μ=μ0(或μ≥μ0),HA:μ<μ0适用范围:如果凭生产经验或某项科研成果,有较大的把握不会超过,则备择假设为HA:μ<μ0,零假设应为H0:μ=μ0(或μ≥μ0)。这时宜将显著性水平α全部取在左尾。否定域:若检验统计量为u,则否定域为:u<-u临界值\n1.5假设检验中的两类错误(1)定义在检验一个假设H0时可能犯两类错误:第一类错误–––如果H0是真实的,但假设检验却否定了它,就犯了“以真为假”的错误,这类错误叫第一类错误,也可以叫Ⅰ型错误。犯Ⅰ型错误的概率为α。第二类错误–––如果H0不是真实的,但假设检验却接受了它,就犯了“以假为真”的错误,这类错误叫第二类错误,也可以叫Ⅱ型错误。犯Ⅱ型错误的概率为β。\n(2)α与β的关系及其控制α与β的关系:在样本容量给定的情况下,α越小,β就会愈大;反之,α越大,β就会越小。两类错误的控制方法:(1)在α=0.05(或0.01)就满意的前提下,β越小越好;(2)β值的大小主要取决于样本容量的大小。增加样本容量n,以减小标准误σ/,是减小两类错误的关键。\n2.1单个样本平均数的假设检验u检验当总体方差σ2已知时,不论其样本容量n是否大于30,均可采用u检验法。当总体方差σ2未知时,只要样本容量n>30,可用样本方差s2代替总体方差σ2,仍可用u检验法。t检验当总体方差σ2未知,样本容量n<30时,用t检验法。\n两样本的总体方差σ12和σ22已知时,用u检验。假设:则:检验统计量两个样本平均数比较的假设检验\n两样本的总体方差σ12和σ22未知,但两个样本均为大样本时(即n1≥30和n1≥30)用u检验法(u-test)检验统计量(TestingStatistic)\n两样本的总体方差σ12和σ22未知,且两样本为小样本(n1<30,n2<30)时采用t检验法(t-test)具体有以下2种类型EqualPopulationVariances(总体方差相等)UnequalPopulationVariances(总体方差不等)判断σ12=σ22是否成立——F检验(F-test重要哦)\nσ12=σ22时相关统计量(重要哦)合并方差(pooledsamplevariance)平均数差数的标准误(StandardDeviation)检验统计量(TestingStatistic)\n两样本的总体方差σ12和σ22未知,且σ12≠σ22,n1≠n2时采用Apsin-Welch检验\n配对样本平均数间的比较(成对法)假设HA:μd=0,H0:μd≠0显著水平为α计算检验统计量对零假设进行判断\n很显然,同一配对内两个体间的相关性要高于非对子间的相关性,因此,“配对样本平均数的比较”可视为两个“相关”样本平均数的比较。配对设计的优点:成对数据,由于同一配对内两个个体的试验条件非常接近,而不同配对间的条件差异又可以通过各配对数据的差数来消除,因而,配对试验可以控制试验误差,具有较高的精确度。\n样本频率(百分率)的假设检验\n参数的区间估计定义:参数的区间估计是用区间[L1,L2]作为参数θ的可能取值范围的一种估计,并以一定的概率保证所估计的总体参数在该区间内。区间估计的基础是抽样分布,可以弥补点估计的不足。置信区间:若参数满足P(L1≤θ≤L2)=1-α,则[L1,L2]叫做参数θ的置信水平为1-α的置信区间。显著性水平为α时,置信度为1-α\n【适合性检验】就是检验某一试验结果类别频数的划分是否符合某一理论比例。【独立性检验】是研究两个或两个以上因子彼此之间是独立的还是相互影响的一类统计方法。χ2检验的原理与方法\n【使用范围】χ2检验是与计数数据相关联的,因而用于计数资料或间断性数据的检验。【基本原理】应用实际观测值(O)与理论推算值(E)之间的偏离程度来计算χ2值的大小,根据χ2的概率来检验观测值与理论值的差异程度和符合程度的大小。\n【检验方法】按照假设检验的一般步骤,对计数资料进行右尾检验。如果有k组资料,则检验统计量的计算公式为:χ2=∑(Oi–Ei)2/Ei=∑(实际观测值–理论推算值)2/理论推算值【连续性矫正】当自由度df≥2时,一般不作连续性矫正。当自由度df=1时,需进行连续性矫正,统计量计算公式为:χc2=∑(|Oi–Ei|-0.5)2/Ei\n方差分析多个总体均值(或多个平均数)的比较方法能否直接采用2个总体均值比较的假设检验方法?为什么?\n1.1基本概念1.1.1试验指标度量试验结果的标准,它因试验的目的不同而异。1.1.2试验因子引起试验指标差异的大主要影响因素有两类:一类为处于“自然状态”的客观因素;另一类为“试验因子”,即人们要了解和研究试验因素对试验指标有哪些影响而有意识给予和控制的影响因素。1.1.3因子水平(水平)一个试验因子的不同数量等级或不同状态。方差分析是能够同时比较多个平均数的一种方法,其主要用途是研究外界因素或试验条件对观测结果影响的显著性。\n1.1.4试验处理(处理)施加给试验单元的条件称为处理。在单因子试验中,因子的某一水平就是一种处理;在多因子(析因)试验中,不同因子的不同水平的组合叫做处理。1.1.5试验单元(单元)试验材料是试验人员施加处理的对象,因而单元是材料的单位。试验单元不完全等同于抽样单元,抽样单元是试验单元的某个分段。\n1.1.6试验误差(误差)是对接受相同处理的试验单元上所得到的指标观测值之间差异的度量。试验误差有2个主要来源:试验单元本身所固有的变异;试验单元在环境条件和操作过程中缺乏均匀性而产生的变异。\n1.2方差分析的基本依据观测值之间的变异来源:试验处理+试验误差方差分析的基本依据——平方和的加和性各因素影响产生的平方和之和,就是这组观测值的总平方和;反之,一组观测值的总平方和可以分解成不同影响因素造成的平方和之和。即可以将总变异分解成不同来源的变异之和。\n根据方差分析的基本思想,可根据变异的来源将总平方和剖分为:组间平方和(处理间)+组内平方和(处理内)组内变异:一个观察值和所在组的处理平均数的差异。组间变异:一个观察值所在组的处理平均数与总平均数的差异。单因素方差分析的过程(重要!!)\n各平方和关系:SST=SSt+SSe总自由度的分解(1)总自由度:dfT=kn-1(2)处理间自由度:dft=k-1(3)处理内自由度:dfe=k(n-1)显然地dfT=dft+dfe根据各变异部分的平方和与自由度,可计算出处理间和处理内均方(1)处理间均方:St2(或MSt)=SSt/dft(2)处理内均方:Se2(或MSe)=SSe/dfe\n统计假设的显著性检验—F检验如果某因子的各水平之间没有差异,即当H0:μ1=μ2=…=μk成立时,可以证明:将检验统计量F的计算值与给定显著水平α所对应的右侧分位数(临界值)Fα进行比较:如果F>F0.05(或F0.01),则否定H0,认为在这些平均数中至少有一个平均数不等于其他平均数,说明:处理间差异显著(或极显著),表示方法为F*(或F**)。如果F<F0.05,则接受H0,说明:处理间差异不显著。~F(dft,dfe)\n多重比较最小显著差数法(Leastsignificantdifference,简称LSD法)此法的基本作法是:在F检验显著的前提下,先计算出显著水平为α的最小显著差数,然后将任意两个处理平均数的差数的绝对值与其比较。\n若>LSDα时,则与在α水平上差异显著;反之,则在α水平上差异不显著。最小显著差数由下式计算式中:为在F检验中误差自由度下,显著水平为α的临界t值,为均数差异标准误\n最小显著极差法(Leastsignificantrange,简称LSR法)针对LSD法的缺点,为了对k个平均数的任何两个进行非独立性的多重比较,人们提出了多范围检验的思想:在同一显著性水平上,两个平均数的最小显著差数随两个平均数所处范围的大小而不同。即:LSR法的特点是把平均数的差数看成是平均数的极差,根据极差范围内所包含的处理数(称为秩次距)k的不同而采用不同的检验尺度,以克服LSD法的不足。这些在显著水平α上依秩次距k的不同而采用的不同的检验尺度叫做最小显著极差LSR。\n邓肯氏(Duncan)新复极差检验(SSR检验)-重要!!q检验(Newman-Keuls检验)\n4.1方差分析的基本假定作为典型的参数方法,方差分析模型是建立在一系列基本假定基础上的。如果采集的数据不符合这些基本假定,方差分析所得出的结论就不会正确。分布正态性试验误差应当是服从正态分布的独立的随机变量。方差同质性(方差齐性)要求各处理的误差方差具备齐性。因子效应的加和性(可加性)即处理效应和误差效应是线性可加的,服从方差分析的数学模型。\n4.2数据转换方法如果获得的数据不符合方差分析的基本假定,在分析前可采取以下措施进行处理:剔除某些特殊的异常值、处理或重复;将总的试验误差的方差分裂为几个较为同质的试验误差的方差;进行数据变换,用变换后的数据作方差分析。\n4.2.1平方根变换(Squareroottransformation)适用对象主要是遵从泊松分布(Poisson)的计数资料。数据特征为:样本平均数与其方差有比例关系。变换方法对数据x作平方根转换,可使方差同质。\n4.2.2对数变换(Logarithmictransformation)适用对象当样本遵从对数正态分布时,即x的标准差与平均数成正比,变异系数C.V大体为常数时,可对x作对数变换。变换方法x>0时,u=logx或u=lnxx≥0时,u=log(x+1)或u=ln(x+1)\n4.2.3反正弦变换(Arcsinetransformation)适用对象如果数据是比例数或以百分率表示,其分布趋向二项分布,则需作反正弦变换,将数据转换为相应的角度,故又称角变换(Angulartransformation)。变换方法在理论上,p<30%或p>70%时,需作反正弦变换;30%<p<70%时,可不作变换,直接进行方差分析。\n回归分析(RegressionAnalysis)概念:是研究一个随机变量y与另一些变量(主要为固定变量)关系的一种统计方法。相关分析(CorrelationAnalysis)概念:是研究随机变量之间“相关关系”的一种统计方法。用于研究两个或数个变量共同变化的程度,主要通过计算相关系数来判断这种相关关系的强弱。\n回归分析与相关分析的主要差别统计方法相关分析回归分析研究对象若干变量一起变化的程度一个变量与其它变量间的函数关系变量关系变量间的共变关系一个因变量及一个或数个自变量,前者是后者的函数变量类型均为随机变量因变量:为随机变量自变量:为固定变量(为主)或随机变量统计量无量纲的相关系数有单位的回归系数\n相关与回归的关系(1)从检验结果,即数量上,b与r有着密切的联系,表现出一致性。对b与r的显著性检验,其实质是完全相同的,b显著,则r必显著;反之亦然。(2)从相关关系与回归关系的区别来看若自变量为固定变量,则两变量间可进行回归分析,而相关系数没有任何几何意义,r仅可用来间接反映回归方程的显著程度,即表示回归曲线与观测数据的吻合程度。如果两个变量均为随机变量,则相关系数与回归系数均存在,这时两种关系的显著性才是真正一致的。|r|大时,回归方程显著,且变量间线性相关关系密切;当|r|小时,则回归方程不显著,变量间线性相关关系松懈。\n试验设计的三个基本原则重复随机局部控制完全随机设计是根据试验处理数将全部供试动物随机地分成若干组,然后再按组实施不同处理的设计。完全随机设计的主要缺点1、由于未应用试验设计三原则中的局部控制原则,非试验因素的影响被归入试验误差,试验误差较大,试验的精确性较低。2、在试验条件、环境、试验动物差异较大时,不宜采用此种设计方法。