- 1.39 MB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
《生物统计学》讲稿福建农林大学林学院绪论学时数:1学时(一)学时:1学时(二)教学目的:\n使学生掌握生物统计学研究的基本问题,生物统计的发展历史,生物统计的研究方法及其应用与发展。(三)教学进程与内容:1.概率论与生物统计研究的对象①必然现象与随机现象②随机现象的统计规律性2.生物统计发展简史3.生物统计研究方法①研究如何抽样问题②如何进行整理、分析,进而进行估计推断4.生物统计的应用与发展(四)参考资料:1.贾乃光等编著.数理统计(第四版).中国林业出版社,20062.洪伟等.林业应用数理统计.大连海运学院出版社,19883.毕庆雨.数理统计.中国林业出版社,19924.贾乃光.数理统计(第三版).中国林业出版社,19935.洪伟.林业试验设计技术与方法.北京科学技术出版社,1993第一章随机事件及其概率随机变量及其分布学时数:21学时§1-1随机事件(一)学时:1学时\n(二)教学目的:使学生掌握本学科最重要的概念之一---随机事件,掌握事件的概念、事件之间关系及事件的运算,掌握互斥事件完备群的概念。(三)教学进程与内容:1.随机事件①随机事件:定义:在某一随机试验中有可能出现、也可能不出现的事件被称为随机事件,或简称为事件,用A、B、C等表示。②必然事件、不可能事件与集合(举例说明):并给全集与子集的概念。2.事件之间的关系及运算(以图示进行说明)①包含关系:事件A包含事件B,记为AB;或者事件B被事件A包含,记为。②事件的相等A=B:若AB且,则称A、B相等,记为A=B。③事件的和(或并)A+B:事件A、B中至少一个发生的事件被称为事件A、B的和,记为A+B。引出交换律、结合律④事件的积(或交)AB:事件A、B同时发生的事件被称为A、B的积,记为AB。引出分配律⑤事件的差A-B:事件A发生但事件B不发生的事件被称为A-B。⑥事件的补(或逆):事件A未发生也是一个事件,被称为A的补或逆。引出摩尔律⑦事件的互斥(或互不相容):若,则称A、B互斥或互不相容。⑧互斥事件完备群:若A1、A2…Ak两两互斥,且A1+A2+…+Ak=Ω,则称A1、A2…Ak为互斥事件完备群。§1-2概率(一)学时:5学时(二)教学目的:使学生掌握概率的定义、古典概型、概率的性质、条件概率、乘法法测及事件的独立性等定义并能熟练地加以应用,掌握全概率公式与逆概率公式。(三)教学过程与内容:1.事件出现的频率\n设同一试验被重复地做了n次,其中事件A出现了m次,则称m?n为事件A在此n次试验中出现的频率。2.概率的定义当同一试验重复进行了n次,若事件A的频率随着n的增大而愈趋于稳定地在某一常数p的附近摆动时,则称常数p为事件A的概率。3.古典概型若实验结果是由有限个基本事件组成,可设有n个基本事件,而且每一基本事件发生的概率相等,则事件A的概率为:P(A)=有利于A的基本事件的个数/n4.概率的性质(1)(2)(3)(4)概率的加法定理:任给事件A、B有P(A+B)=P(A)+P(B)-P(AB)(重点)(给出证明过程)。(5)当A、B为互斥事件时,P(A+B)=P(A)+P(B)推论:若A1、A2…An为两两互斥,则P(A1+A2+…+An)=P(A1+P(A2)+…+P(An)(6)P()=1-P(A)或P(A)=1-P()5.条件概率、乘法法则及事件的独立性①条件概率的定义及其计算公式:若P(A)=0或P(B)=0,规定P(A∣B),规定P(A∣B)=0②概率乘法定理:(可由条件概率直接得到)P(AB)=P(A)P(B∣A)=P(B)P(A∣B)进一步推广P(A1A2…An)=p(A1)P(A2∣A1)P(A3∣A2A1)…P(An∣A1A2…An-1)③事件的独立性ⅰ)定义1:若P(A∣B)=P(A)或P(B∣A)=P(B)称A、B相互独立。ⅱ)定义1ˊ:若P(AB)=P(A)P(B),则称事件A、B相互独立ⅲ)定义2:若定义A1、A2…Аk这k个事件中的任一事件Ai都满足。P(Ai∣Aj1)=P(Ai∣A1Aj2)=…=P(Ai∣Aj1Aj2…Ajk-1)=P(Ai)其中j1、j2…jk-1为i除外的1、2…k中k-1个数的任意种排列,则称A1、A2…\nAk相互独立ⅳ)推论:①若A、B相互独立,则与B,与,A与相互独立②若A1、A2…Ak(k≥2)相互独立,则④举例6.全概率公式与逆概率公式①互斥事件完备群:若A1、A2…Ak两两互斥,且A1+A2+…+Ak=Ω,则称A1、A2…Ak为互斥事件完备群。②全概率公式设B1、B2…Bk为互斥事件完备群,则任给事件A有(给出证明过程)③逆概率公式(Bayes公式)设B1、B2…Bk为互斥事件完备群,且有P(A)>0则(给出证明过程,并说明与全概率公式间的联系)④举例(四)作业:P46:1、2、3、4、5、6、14、18题§1-3随机变量(一)学时:3学时(二)教学目的:为了更深入研究随机现象,要求学生掌握随机变量概念,重点掌握一维随机变量的有关内容,让学生了解几种常见的随机变量类型及其有关函数。(三)教学过程与内容:1、随机变量的概念(从实际例子中引入随机变量的概念)定义:在一定条件下进行试验,如果所要观察的试验结果是某一变量或某一组变量,并且该变量或该组变量小于任意一个特定值或小于某一组特征数值的概率存在,则称所观察的试验结果是随机变量,当试验结果为一个变量时,称为一维随机变量;当所观察的试验结果是一组变量时,称为多维随机变量;当所观察的试验结果是一组变量时,称为多维随机变量。\n说明:①随机变量的特性:a)随机性;b)统计规律性②随机变量与普通变量的联系与区别2、一维随机变量及其概率分布①分布函数的概念:如果δ表示随机变量,x表示任一实数,则随机变量δ小于x的概率为x的函数,记作F(x)=P(δ50时,且np>5,nq>5时,③以泊松分布为极限:定理3:若随机变量~B(n,p),当n>50时,且p<0.1或q<0.1时即举例说明这个定理的应用,并对三种计算方法进行比较。(四)作业:P49:50、53§1-7大数定律与中心极限定理(一)学时:2学时(二)教学目的:向学生介绍数理统计的理论基础——概率论的基本定理,从而对前面所学的知识有了更深的理解。(三)教学过程与内容:1、切贝谢夫不等式:设x存在Ex及x,则任给x>0有给出证明过程并举例加以给证及其应用分析2、大数定律:(给出证明)①引理:若x1,x2…为随机变量,uk,分别为xk的期望与标准差,\n若=0,则②切贝谢夫定理:设x1,x2…为相互独立的随机变量,Exi,的期望与标准差,如果…)则③贝努里定理:设在一系列独立进行的试验中,若每次试验某事件A出现的概率皆为P,在n次试验中事件A出现的次数为m,则④泊松定理:设有一系列独立进行的试验,在第i次试验中,事件A出现的概率为Pi,在n次试验中,事件A出现m次,则注:大数定律中的这些定理不仅要给出证明过程,而且要详细说明每个定理的意义。3、中心极限定理:(不作证明)定理:设X1,X2…Xn为相互独立同分布的随机变量系列,,令,设其分布函数为则第二章统计中的一些基本概念学时数:2学时(一)学时:2学时(二)教学目的:使学生掌握生物统计中的一些基本概念,了解频率分布的有关内容。(三)教学过程与内容:1、总体与样本①总体:研究对象的全体。涉及:总体单元、总体单元划分方法及总体类型\n②标志:说明总体单元在某一方面的特征而采用的名称。标志值:总体单元为数量标志所作出的回答。③样本:在全部总体单元中,按照预先设计的方法抽出一部分单元,所抽取的这一部分单元称为样本。④抽样及抽样类型⑤等概抽样方法ⅰ)抽签法;ⅱ)随机数法;ⅲ)经验数据法2、样本特征数与统计量①样本特征数与统计量的概念②总体特征数与样本特征数的内容(见对比表)并举例说明其计算方法3、频率分布①频率分布定义②方法③样本频率分布4、平均数与方差:简便计算方法①数据分组后的计算方法②利用线性变换进行计算(四)作业:P734、10附表:总体平均数与样本平均数对比表特征数总体样本平均数总量平方平均数\n方差标准差极差变动系数频率第三章参数估计学时数:8学时§3-1概述(一)学时:2学时(二)教学目的:使学生了解本章所要解决的基本问题及制定估计量的方法,判断估计量好坏的标准。(三)教学过程与内容:\n1、参数估计的三个基本问题①估计量的制定②优良性的判断③误差限、可靠性及精度问题2、估计量的确定①矩估计法②极大似然估计法3、估计量的评价标准①无偏性(渐近无偏性):举例②一致性(拟合性):举例③有效性4、估计量的误差限与可靠性①误差限与可靠性的定义②参数估计的类型:ⅰ)点估计ⅱ)区间估计③估计精度§3-2总体平均数u的矩估计(一)学时:3学时(二)教学目的:使学生掌握总体平均数的参数估计方法,重点掌握大样本、重复抽样及小样本的估计方法。(三)教学过程与内容1、大样本估计方法(n≥50)①重复抽样估计方法a)估计值的确定:b)估计量概率分布:~c)估计方法ⅰ)点估计:ⅱ)区间估计:当s未知时,用近似代替d)样本单元数的确定:e)举例说明其应用\n②不重复抽样的估计方法(作简单介绍)a)σ已知的估计方法区间估计:b)σ未知估计方法区间估计:2、小样本估计方法(n<50)①条件:总体服从或近似服从正态分布②σ已知时的估计方法(与大样本一致)③σ未知时的估计方法a)估计原理:~N(0,1);~b)估计量的制定:T==~t(n-1)c)估计方法:ⅰ)点估计:ⅱ)区间估计d)举例说明其应用e)说明大样本与小样本方法间的关系(四)作业:P96:10、11§3-3总体频率W的抽样估计(一)学时:3学时(二)教学目的:使学生掌握有关总体频率的估计方法,重点掌握大样本重复抽样时总体频率的估计方法。\n(三)教学过程和内容:1、估计量的确定:W2、估计方法①大样本估计方法a)重复抽样条件下ⅰ)用正态分布估计总体频率(n≥50,np>5,nq>5)点估计:W=w,区间估计:ⅱ)用泊松分布估计总体频率(n≥50,p<0.1或q<0.1)由m~B(n,w)~,(=nw)查《泊松分布参数λ的置信区间表》(附表7)得到λ的置信区间从而推及W的置信区间。ⅲ)举例说明b)不重复抽样的估计方法(简单介绍)点估计:区间估计:②小样本估计方法(二项分布估计方法)利用《二项分布参数的置信区间》(附表5)进行求解,具体方法以例题形式给出。(四);作业:P97:13、19、20§3-4总体方差的区间估计(一)学时:1学时(二)教学目的:使学生初步掌握总体方差的估计方法,学会简单运用。(三)教学过程与内容:1、设总体为正态或近似正态分布,与分别为样本均值与样本方差,有2、通过分布的上侧分位数表计算a、b。(四)作业:P97:21\n第四章统计假设检验§4-1一般概念一、统计假设和假设检验的概念1.统计假设:任何一个有关随机变量未知分布的假设称为统计假设,简称假设。引例:设某厂生产一种灯管,其寿命﹠~N(u,40000),长期生产情况看,此管平均寿命u=1500小时。问采用新工艺后,此管寿命是否会提高?分析:上述问题要判别新产品寿命是服从u>1500的正态分布(显著提高),还是服从u=1500的正态分布(设有显著提高),这两种情况用统计假设的形式表示:第一个统计假设u=1500表示采用新工艺后产品平均寿命设有显著提高称之为原假设(零假设,解消假设),记为:u=1500第二个统计假设u>1500表示寿命显著提高,称为备择假设。用符号::u>1500表示在许多问题中,总体分母的类型已知(如上例),仅是一个或几个参数未知,只要对这一个或几个参数的值作出假设,就完全确定了总体的分布。这种仅涉及到总体分布的的未知参数的统计假设称参数假设。但有些问题,我们无法知道总体分布的具体类型。如某种农作物农药的残留量,之和服从对数正态分布,也可能服从其它分布。因此,统计假设只能对未知分布函数的类型或其它的某些特征提出某种假设,称之非参数假设。2.假设检验:通过抽取一个样本进行考,从而决定它能否合理地被认为与假设相符,这一过程称假设检验。判别参数假设检验称参数检验。二、假设检验的基本思想引例2:设袋中有白球及黑球1000个,但不知它们各是多少。现提出原假设::白球是999个,H:白球≠999\n如果为真,则从袋中任取一球“得黑球”的概率是0.001,也就是说若为真,抽到黑球的可能性很小,即“得黑球”是个小概率事件,在一次试验中几乎不至于发生。但假如实际抽样“得黑球”这个事件竟然发生了,这就在为真的情况下产生了一个不合理的现象。于是怀疑为真,从而拒绝原假设而接受备择假设,即白球不是999个;相反,如果“得黑球”事件没有发生,这就只得接受。但是注意不否定,并不意味着H一定成立。三、假设检验的步骤1.根据问题的要求建立原假设及备择假设。2.选择一个合适的统计量(该统计量一般是在假设成立前提下构造)。3.给定显著水平,确定的拒绝域或接受域。所谓拒绝域:接受备择假设的样本观测值的集合。4.根据一次抽样结果和小概率原理作出结论。四、关于两类错误由于小概率事件在一次试验中有发生可能性,因此,按小概率原理进行检验,会犯两类错误。1.第一类错误(弃真错误):事实上是正确的,但结论却拒绝犯第一类错误的概率为,1﹣为可靠性。2.第二类错误(采伪错误):事实上是不正确的,但结论却接受犯第二类错误的概率为,1﹣为检验功效。一般地,与是此消彼长,不可能同时很小。若要同时变小,必须加大样本容量,又不合实际。§4-2总体平均数 u的假设检验一、类型::u=,:u≠1.大样本方法Ⅰ:重复抽样条件下在大样本,重复抽样条件下,~N(0,1)\n于是对于给定,P当成立时。有P=P或者P也就是说,在成立下,出现“”事件概率很小,只有若令u=,则“”事件发生是个概率事件,在一次试验中一般不会发生。如果真不发生,则依小概率原理,接受;如果发生,则没有理由接受,要拒绝即接受。于是得如下步骤:⑴建立假设::,:。即现实总体平均数与规定总体平均数间无显著差异。⑵计算统计量:(已知)(未知)⑶小概率标准,查表得⑷当时,接受,当时,拒绝Ⅱ:不重复抽样条件下在大样本不重复抽样条件下,有因此,在成立下,有令则接受域:,拒绝域:。例1:某林场内造了一块杉木速生生产林,5年后调查其树高,从中重复抽样得50株,\n10.8m,2.2m,问是否可以认为该丰产林平均高与10m无显著差异。(=0.05)解:ⅰ:设::(m)ⅱ:计算:ⅲ:∵故根据原假设,即平均高与10m有显著差异。例2:某杨树品种10年生平均高可达15m,另有一新杨树品种,10年后采取重复析样方式随机抽取60株进行调查,得其平均高为17.2m,标准差2.3m,问新杨树品种平均高与15m是否有显著差异?(=0.05)解:ⅰ:设::ⅱ:计算:ⅲ:∵∴根据原假设,即平均高与15m有显著差异。例3:某树种仔在某地区的千粒重为185克,现从其它地方调来一批种子,随机抽取65个样本测得平均千粒重169克,标准差13克,问所调来种子是否与该地区种子的千粒重有显著差异?(=0.05)解:ⅰ:设::克ⅱ:计算:ⅲ:∵∴根据原假设,即所调来的种子与该地区种子千粒重有显著差异。2.小样本方法(前提:小样本,总体服从正态分布)由第二章参数统计可知,在小样本及总体服从正态分布前提下:~故在成立下,~因此对于显著水平,查分布表有或∴:,:例5.作杨树育苗试验,得一定生长后,从株距为20cm的苗种随机抽取了12株,苗高数据为221、244、240、243、288、233、226、210、258、245、264、200(cm),得苗高分布近似正态,问能否认为该杨树苗高与240cm无显著差异?(=0.05)解:依题可得cm,cm,ⅰ.设:cm\nⅱ.计算:ⅲ.∵∴杨树苗高与240cm无显著差异例6.为调查某林杨滞尺蛾蛹密度,由该林志随机抽取10个1土方,资料为(头/):289、342、412、297、191、440、351、337、、304、357假定蛾蛹密度服从正态分布,问该林场滞尺蛾蛹密度与352(头/)是否有显著差异?(=0.01)解:ⅰ.设:(头/)ⅱ.计算,∴ⅲ.对于,得ⅳ.∵∴该林场滞尺蛾蛹与352(头/)无显著差异例7.某营林局用一定投资按技术规程育苗,在正常管理下,A树种1年生苗木高服从平均高为65cm的正态分布,现从苗圃中抽取5样本,平均高为72.5、76.5、58.0、65.0、46.0(cm)解:,ⅰ.设:ⅱ.计算:ⅲ.对于,,得ⅳ.∵二、类型:(a):,:;(b):,:在实际问题中,我们碰到的问题并不是想知道总体平均数是否向某一值无显著差异,而是想知道总体平均数能否(超过或低于)某一规定的标准,前面检验问题可以从两侧分边进行检验,而现在则规定只能从一个方向上进行,故称单侧检验。对于双侧检验来说,两边各2.5﹪属推翻假设的区域,而现在必然将5﹪概率全部归到一侧来,是否大于某一标准,集中于右侧,而是否小于某一标准,集中于左侧。以大样本情况说,集中一侧等于把2个2.5﹪搬到一边来,相当于分属两侧时,一侧占5﹪,从而两侧将是10﹪的情形。其检验方法与从侧检验基本相同,所不的是临界值(即)与拒绝域。类型确定方法由而定。1、样本方法\n1)、重复抽样条件下检验步骤:⑴建立假设::,:()⑵计算:⑶对于给定,查表得由正态分布对称性知,,⑷对于(a)式,拒绝域为::对于(b)式,拒绝域为::例1.规定白杨插条育苗一年生平均高达160cm以上可以出圃,今在圃地上随机抽取65株作为调查的平均高为155cm,标准差不24cm,问这批毛白杨能否出圃?解:=155cm〈160cm。∴毛白杨扦条苗高有可能低于160cm标准⑴设::,:cm⑵计算:⑶对于,⑷∵故拒绝,接受。例2.某苗圃规定杨树苗平均高达60cm以上才能出圃,今从中随机抽取64株,并求得cm,cm,试问该苗木能否出圃?()解:cm>62cm⑴设::cm,:⑵计算:⑶对于,⑷∵∴拒绝,接受,即这批苗木可以出圃。例3.某苗圃规定杨树苗平均高达60 cm以上才能出圃,今从中抽取50株,得平均高为62.5,标准差为9cm,问该批苗木能否出圃?()解:∵.5cm>60cm\n∴⑴设:,:=60⑵计算:⑶对于,⑷∵∴拒绝,接受,即可以出圃。2)不重复抽样(简述):由得于是对于(a)型,拒绝域::(b)型,拒绝域::2、小样本方法:仍用t分布,即将双侧检验中改为即有检验方法:⑴建立假设::,:()⑵计算:⑶对于给定,查t分布双侧分位数表得⑷对于(a)型,拒绝域:(b)型,拒绝域:例4.某木材公司购买木材时,按质论价,现从一批木材中随机抽取16根,测得它们的小头直径为12、10.2、11.4、13.6、14.5、16、8.4、9.6、18、8.0、12.4、13.6、10.8、15.4、7.6、16.6(cm)。假定木材的小头直径服从正态分布,试问这批木材小头直径可达12cm以上?解:,∴,∵∴⑴设::,:⑵计算:⑶对于,,⑷∵∴接受,即小头直径未达到以上。例5.对某种杀虫剂规定平均每瓶()杂质含量低于时才能出厂,今随机抽取20瓶进行检验,得资料为(g)2.7、3.1、2.5、3.3、2.6、2.8、2.4、3.4、3.2、2.5,设杂质含量服从正态分布,试问该杀虫剂能否出厂?()解:,,\n⑴设::,:⑵计算:⑶对于,,得⑷∵∴接受,拒绝。即该批杀虫剂不能出厂。§4-3总体频率的假设检验一、大样本方法设表示总体频率,为抽取样本计算所得的频率由前面知识已知:~()于是对于给定,在:成立条件下,可以得到不同类型的拒绝域:①双侧::②单侧:(a)型::(b)型::二、小样本(用二次分布表检验)①双侧检验:查二次分布参数P的置级区间表(附表5),若属于该区间,则接受,否则,接受②单侧:(a)型:查二次分布表(附表4)若,则拒绝(b)型:(同上)若,拒绝例1.已知某种子的发芽率为90﹪,现用辐射方法对种子进行处理,从处理后种子随机抽取500粒作发芽试验,结果有465粒发芽。问这批种子经过处理后,是否明显变了种子的发芽率?解:⑴设::⑵计算:,,∴⑶对于,⑷∵∴接受\n§4-4两个总体平均数与频率的差异显著性检验差异显著性检验(也称差异的假设检验),在实际中应用十分广泛。如可比较不同立地条件下林木生产的差异;不同抚育措施对林木生产的影响;不同的杀虫药剂对昆虫的毒杀作用等,其实质是解决两个或多个总体的同一特征数是否有显著差异问题。本节主要讨论两个总体平均数或频率之间的差异显著性问题。一、两个总体平均数的差异显著性检验思想:有两个独立抽取的样本,要检验它们是否来自是否有相同总体平均数的总体,解决方法是计算样本平均数,与样本标准差,然后判断与0是否有显著差异,若与0没有显著差异,则说明,所来自的总体可能具有相同的总体平均数;否则,则认为差异显著。1.大样本方法:前提:独立,重复抽样、等方差设:(即两总体平均数差异不显著)并设:则有在大样本情况下:~,~由于两总体相互独立,即与相互独立于是有令,则于是对于给定,得,=∴当时,接受原假设当时,拒绝原假设由于通常未知,在此用近似代替这时,统计量变为:\n得检验:①双侧::②单侧::即(右侧):即(左侧)例1.为比较林分对红松结实量的影响,现分别从缓坡灌林红松针阔混交林(A)及缓坡灌林云冷杉红松林(B)中测得红松一株木的结果如下表:林分株数一株木结果平均值标准差A6011167B8010750试问:这两种不同的林分对红松的结实量不无显著影响?解:①设::②计算:③∵∴接受假设例2.对甲、乙两块落叶松林地松毛虫蛹密度进行调查,甲、乙两林地各调查了100株,得到如下资料:甲林地(枚/株),(枚/株);乙林地(枚/株),(枚/株)。问两林地松毛虫蛹密度有无显著差异?解:①设::()②计算:③对于,④∵∴接受原假设例3.某林场调查了一种危害林木的昆虫的两个世代的卵块中卵粒数,第一代调查了128块,得平均数,标准差;第二代调查了69块,得。试检验两个世代卵块数差异性。解:①设::②计算:③对于,④∵∴拒绝原假设1.小样本方法:前提:独立、正态、等方差\n设:,由已知的前提条件得,在成立下,若令,则有又∵,由于与相互独立,若令则有由于与相互独立。令,则即于是对于给定,有,检验方法:①设::②计算:T①对于给定,查表得②若,拒绝例4.在不同的土壤上进行较在面积的育苗试验,然后进行随机抽样调查,得苗高资料如下表:(设苗高服从正态分布)砂土32347672756466403842壤土505155879193555762747672问:砂土与壤土对苗高的生长是否有显著影响?解:①设::②计算:,,,,\n∴②对于,,③∵,接受例5.在山坡上、下两个部位造林,5年后抽样调查其胸径(cm)上部8.67.99.310.711.211.49.89.510.18.5下部12.610.211.712.311.110.510.612.2该林木胸径服从正态分布。问上、下两个部位造林其林木胸径有无显著差异?解:①设::②计算:,,,,∴③对于,,④∵∴拒绝例6.为研究赤松和刚松的生物量差异,分别对每种松抽样调查测定8个样品的针叶生物量服从正态分布,试比较两种松树针叶生物量的差异性赤松1.131.091.141.201.261.171.171.19刚松1.201.251.251.311.241.231.281.22解:①设::②计算:,,,∴③∵∴拒绝二、两总体频率的差异显著性检验前提:大样本、重复抽样、相互独立设:总体1:、、;总体2:、,\n则,;,在成立下由于大样本有∵未知,用,近似代替即有于是得到三种不同检验类型拒绝域。例7.为比较林分类型对结实株率(结实株数/总株数)的影响,现由灌林云冷杉红松林中随机抽取370株红松,查得有129株结实;灌林红松针阔混交林中抽得200株红松,查得115结实,问这两种不同的林分的红松结实株率有无显著差异?解:① 设:② 计算:, ∴ ③ 对于,④ ∵ ∴ 拒绝例8.一个林场用1年生杉木苗造林,秋后调查400株,成活300株,问用1,2年生杉木苗在相同条件下造林,成活率有无显著差异?解:① 设:②计算:,,,, \n∴ ③ ∵ ∴ 接受例9:甲,乙两工人在相同条件下,对同种苗木进行嫁接,后调查它们的嫁接成活率,对甲调查200株,成活了180株,对乙调查了160株,成活135株,问甲、乙两人的嫁接水平有无显著差异?解:① 设:②计算:,,;,,∴③∵∴接受例10.某苗圃为鉴定两畦杨树扦条成活率,在第一畦中观察500株,成活450株,第二畦观察350株,成活322株,试以0.05检验水平检验两畦杨树扦条成活率有无显著差异?解:① 设:②计算:,,;,,∴③∵∴接受§4-5方差齐性检验前几节讨论了总体平均数与总体频率的假设及检验问题。它们常是实践中最关心的问题,因为诸如林分的生长、苗木的高、地径、林木的心腐率、昆虫的死亡率等都是通过平均数、频率表达出来的。但代表作用的强弱度各单元值的变动程度或相对地说爱各单元值稳定程度的制约。因此,有必要来讨论方差这个特征数。另外,在前几节讨论中曾指出,要对平均数的差异显著性作t检验,要以“等方差”假设为前提,否则,结论亦将不正确。能否判断方差相同或不同,涉及到方差的差异显著性检验问题。方差是否相同的假设检验统计上称方差齐性检验。一、两个正态总体的方差齐性检验(重复抽样)\n设两个总体方差为要检验:(即两个方差无显著差异)由前面可知,由于相互独立∴当成立时,有令,则由于F检验临界值表构造(拒绝域在右侧)及F分布随机变量期望值=特点,在检验中,要求上式于是对于给定,拒绝域为,若,则令再作检验例1.在不同的土壤进行较大面积的育苗试验,秋后进行随机抽样调查,得到苗高效资料如下表。砂土32347672756466403842壤土505155879193555762747672试检验它们所来自的两个正态总体的方差是否相等?解:①设:②计算:∵∴②于,③∵∴接受\n例2.设有甲、乙两块10年生人工马尾松林,所研究标致为林木胸径。已知林木胸径分布近似正态分布,用重复抽样方式分别从两总体中抽取若干林木,测得其胸径数据如下表,试以水平判断甲、乙两块林地胸径总体方差是否相等?甲4.58.05.02.03.55.55.07.55.57.5乙3.05.02.04.05.05.03.03.0解:①设:②计算:∵∴③对于,④∵∴接受二、多个正态总体的方差齐性检验设有m个正态总体,其方差分别为,要检验:中至少两个不相等1.检验法(巴特勒Bartlett检验法)设从m个总体中抽取了n个样本,其变量分别为则统计量为其中:,于是对于给定,查自由度为m-1的分布临界值表(附表9)得若,则拒绝2.Hartleg(哈特勤)检验若在m个总体中所抽取的样本容量相等,即则统计量\n其中:分别为m个样本方差的最大与最小者若,则拒绝三、数据变换目的:将不服从方差齐性的数据通过变换后变成服从方差齐性,这在方差分析中是十分重要的。变换方法:①平方根变换:(遵从泊松分布)②反正弦变换:(为百分率,为相应角度值)适用于数据的近似遵从二次分布的情况。③对数变换:,适用于标准差与平均数成比例的数据。§4-6总体分布的假设检验前面所讨论的各种假设检验,大部分要求总体服从正态分布,但在实际问题,对总体分布的类型我们常无法知道或了解甚少。因此,如何根据样本资料对总体分布的假设进行检验,如是否遵从正态分布、二次分布、泊松分布等。关于总体是否遵从某一分布的判断,称为总体分布的假设检验问题。理论基础:皮尔逊定理Pearson定理:设总体服从某分布,将的取值范围分成互不相交的m个小区间。以表示样本观测值落入第个小区间的个数(称实测频率)。表示落入第个小区间的概率,则当n充分大时,不论总体服从何分布(不含末知参数),统计量,当总体的分布有r个末知参数时。检验法:设:总体遵从某一分布,:总体不遵从某一分布。步骤:①设取值范围为(),将()分成m个小区间(一般7-14个):②统计落入上述每个小区间的观测值个数(实测频数),记为。再假定成立下,计算落入每个小区间:概率(理论频率):,于是得到落入每个小区间理论频数:③计算统计量:,则或(含有r个末知参数)④若,则拒绝例1.某林区随机抽取200株落中叶松得胸径资料如下表,试检验该地我落叶松用径是否服从正态分布?胸径分组株数组中值10—14312\n14—18141618—22222022—26522426—30592830—34313234—38153638—42440解:∵正态分布中有二个参数与均末知,需作相应估计,∴于是设①:落叶松胸径②计算:落入每个小区间概率;(正态分布表)同样有于是得到理论频数:从而:③对于,查表得④∵∴接受例2.对500个小土样方内查数得到的某种虫卵数资料如下:虫卵数01234567土方数941681316832511试检验卵在土中的分布是否服从泊松分布解:①设:虫卵数(末知)由于末知,用作估计于是:虫卵数②计算:区间:\n则由泊松分布表得(理论频率)同样有,于是理论频数,,∴③对于,查表得④∵∴接受§4-7适合性检验与独立性检验一、适合性检验检验法不仅可以用来检验总体分布,而且也可以用来检验实际试验中测定的结果与科学试验中所作的某种理论推断或某种科学假设是否相符合的问题。或者说,在科学试验中,常根据理论与推断,对实际数据提出种种科学假设。由于很多假设是定量性质的,如何证实或推翻这些假设呢?当然一般只有从总体中进行抽样,把实际内得样本数据与假设推翻的理论数据进行比较,从表达式可以看出,可理解为一批(m个)实测频数的相对差异之和,值越小,说明吻合情况越好。象这样利用统计量来检验实测与理论是否符合的问题,称适合性检验。例1.孟德尔在其著名的碗豆杂交试验中,用黄色光滑的种子与绿色皱皮的碗豆种子杂交;第二代种子的外形株数如下表,试问这种分离比率是否符合9:3:3:1的比例关系。(这个比例就是孟德尔提出的假设,并由此获得基因分离法测)。第二代种子外形黄色光滑黄色皱皮绿色光滑绿色皱皮合计株数31510110832556解:①设:分离比例符合9:3:3:1②计算:(在成立下,计算四种类型植株的理论频数)而实测频数为∴,故接受二、独立性检验:(同质性检验)\n在实测与理论是否相符的适合性检验问题中,有时是以属性资料形式(不是数量形式)如病腐木、树叶颜色等。这种要判断的是在若干个不同条件下得到的若干组(一个条件一组)数据是否成比例的形式的问题,称为独立性检验。例2.在三种不同灌溉方式下考察水稻叶子的衰老情况得下表数据,试问:不同灌溉方式对叶子的衰老有何显著差异?灌溉方式绿叶数黄叶数枯叶数总数深水146(140.69)7(8.78)7(10.53)160浅水183(180.07)9(11.24)13(13.49)205湿润152(160.04)14(9.98)16(11.98)182总和4813036547解:上表称3*3列联表①设::三种不同灌溉方式对叶子衰老无显著差异,即三种不同方式,三个绿叶,黄叶,枯叶的理论频数均无显著差异。因此,这是多个总体频率显著性检验问题,不能用前面方法检验。具体方法如下:首先计算深水灌溉方式下各种叶片的理论频数:深水*绿叶:深水*黄叶:深水*枯叶:同样可以得到其他交叉格内理论频数。(列于表中)于是,对于一般r*c联列表(r为横数,c为列数),自由度为(r-1)(c-1)于是对于∵∴接受第五章方差分析方差分析是R.A.Fisher于1923年提出的,它首先是被应用于生物学研究,特别是农业试验设计和分析中。目前,该方法广泛应用于科学试验结果进行数据分析。引例:⑴研究不同的造林高度对林木胸径生长是否有显著影响⑵研究几种抚育措施对林木生长的影响⑶研究不同的施肥量与不同的深翻来考察育苗的质量⑷用不同的生长激素对林木种子发芽的影响\n⑸国家重点科研攻关课题之一“全国杉木种源试验”的周期长达十几至二十年,试验分布我国南方十几个省区,如何进行科学结果数据分析。象以上这些问题,都要用到方差分析方法。实质上,方差分析是判断多个总体在某一个特征上是否有显著差异,是上一章差异显著性推广,但是又存在着很大区别,为什么不能用判断两个总体差异显著性检验方法来解决多个总体的问题呢?这在多重比较一节中我们再详细讨论。§5-1方差分析的逻辑基础引例:设某苗圃对杉木种子制定了3种不同的处理方法,各种方法处理5粒种子进行育苗,一年半后观察苗高得下表数据。处理苗高123.52422.32523.823.722212324.522.72423.043252423.224.32624.5从以上表可以看到:15个数据(苗高)大小不一,参次不齐。造成它们这种差异的原因是什么呢?首先,不同的处理方法是造成这种差异的原因之一。三种处理方法得到苗高平均数:存在着差异,说明处理方法不同,试验结果存在着差异。其次,还发现,即使在同一种处理方法下,五粒种子的苗高却仍有差异,这又是什么原因造成的呢?一般地说,科学试验结果得到的数据通常存在着变动,变的原因大体可分为两类:①由于试验条件、工艺条件等受控因素不同造成,这些因素可以通过从为的控制进行调节,称为条件误差。②由随机因素(如环境、原材料等)引起实验手段无法加以控制的因素造成的,称为试验误差。试验的总误差是以下两类误差混合在一起构成数据变动的结果。如何将这两类误差从总试验的误差中分离出来,以研究条件误差对试验结果影响?方差分析可以有效地将这两类所造成的差异从混合中分离出来,并分别给予定量描述,并通过一定的检验手段确定被考虑因素对试验指标的影响程度或进而通过多重比较去选取较好的水平条件指导生产。因此,可以把方差分析的基本思想归纳如下:①.将试验数据的总误差中分离出条件误差与试验误差②.在一定条件下对条件误差与试验误差进行比较③.选择较好的工艺条件或处理方案,确定进一步试验方向一、几个基本概念⒈试验因素(因素、因子):试验中所放宽的条件。如上述中的造林强度、抚育措施、施肥等。根据被考察因子个数的多少,方差分析有:单因素(或单向分组)方差分析、双因素(两向分组方差分析)、多因素(多向分组)方差分析。\n⒉水平因素在试验中所划分的等级或状态:(水平又称处理)如:造林密度:二、方差分析问题的提法:方差分析要判断某个因素对试验结果是否有显著影响,意味着该因素的不同处理之间造成在某标志上的平均值是否有显著差异问题。如果把每种处理视为一个总体,则相当于检验:是否成立。因此分组是假设的一种推广。三、方差分析的前提条件:利用方差分析来处理试验数据时,要求试验所有观测值应是满足相互独立,具有相等方差,且服从正态分布的随机变量,也就是说方差分析是在假定总体具有相等方差条件下来检验各总体平均数是否相等。简言之:独立、正态、等方差(方差齐性)§5-2单因素方差分析设A因素分为a个水平,每个水平为一组,每组均有m个观测值(即每个水平试验m次),共有n=am个观测值,如下表:因素A12……………………欲判断该因素对试验结果是否有影响,就是判断该因素不同水平之间造成的试验结果是否有显著影响。这里:1、问题的提法2、平方和及自由度分解\n其中:事实上:任意固定a,记:称为总的离差平方和,反映了各观测值对全试验总体平均值的离差情况。称为组间离差平方和,它描述是各处理间平均数的变化程度(条件误差)组内离差平方和,反映各组内观测值变动情况(试验误差)于是有:相应的自由度也进一步分解:,即原因:am个观测值,有am个离差,具有一个约束条件∴而a个处理间的离差,也有一个约束条件∴又am个处理(组内)离差有a个约束条件∴令::组间均方:组内均方则:事实上:若设由相互独立\n,∴∴于是对于给定,查F分布得。其中的计算如下:简便计算:——校正次(修正次)1、统计假设检验4、F检验5、列方差分析表变差来源离差平方和自由度均方均方比(F值)值组间组内总和//\n④则拒绝注:水平,表示差异显著用“*”表示水平,表示差异极显著,用“**”表示例1八个毛白杨无性系选优,每个无性系间重复四次,造林五年后调查树高生长量得每个小区树高平均生长量如下表,问八个无性间高生长差异是否显著?(设高生长满足独立、正态、等方差条件)水平(品种)每小区平均生长量()503.02.92.93.111.92.9750013.23.33.33.513.33.325723.63.83.33.514.23.55043093.73.73.73.814.93.725CK2.23.02.52.610.32.57598214.03.73.53.815.03.75098043.73.63.63.514.43.600433.23.23.03.312.73.175解:①②计算:③列方差分析表变差来源离差平方和自由度均方组间4.697组内0.742224总和5.432231/④∵∴差异极显著例2.某防治站对4个林场的松毛虫密度进行调查,每个林场调查5块资料如下表。设松毛虫的分布近似正态,等方差,试以9.5﹪可靠性判断4个林场松毛虫密度有无显著差异?处理虫口密度(头/标准地)\nA1192189176185190932186.4A2190201187196200974194.8A3188179191183194935187.0A4187180188175182912182.4解:①②计算:③列方差分析表变差来源离差平方和自由度均方组间403.353134.45组内571.201635.70总和974.5519/若各组内试验不等,仍假设试验结果分成a组,但各组内试验次数不等,试验数据如下表。组号xijT1x12x13…x1mT12x21x22…x2mT2…axa1xa2…xamTa共计…仍然与前面相似的平方和分解式即LT=LE+LA检验步骤与(一)相同,即H0:u1=u2=…=ua=u所以,左端遵从x2(n-1)分布\n右端第一项遵从x2(a-1)分布右端第二项遵从x2(n-a)分布这里证明从略,前第三章证,所不同的是计算统计量用下式即可根据F值与F(a-1,n-a)的临界值的比较对假设H0作出判断LE=LT-LT例3将某林分视为总体,按蓄积量大小为三层,按层面积权重分别于各层中,用重复抽样方式抽取0.1分顷的样地8块,13块,9块,每木检尺后得各样地蓄积量如表,不同层单位面积蓄积量之间是否确有差异?(这个问题的回答可以帮助人们认定这样的分层是否合理)水平层次蓄积量Yij(m3/0.1hm2)Ti10.61.25.97.18.20.67.18.839.54.937521.6121.215.313.013.514.115.914.111.8198.615.276915.318.812.417.1320.026.526.530.621.820.617.127.121.8212.023.5556SST=450.1解:(1)作统计检验假设H0:u1=u2=u3即三个层单位面积蓄积之间无显著差异(2)计算离差平方和及自由度LE=LT-LA=319.54相应各项同自由度分别为fT=30-1=29fA=a-1=3-1=2Fe=n-a=30-3=27(3)列方差分析表变差来源自由度平方和均方均方比,F值Fx组间21469.81743.9162.096**5.49组内27319.5411.835共和291789.35-----------\n所以,F>Fx故推翻假设,即各层蓄积平均值之间差异显著。作业:试验三种不同的毒杀,松毛虫的药品看它们在杀出率方面有无明显的不同,试验结果如下:农药ⅠⅡⅢⅣⅤⅥ杀虫率%87.490.556.255.092.075.285.088.562.448.299.272.380.287.395.381.394.791.5§5-3多重比较方差分析实际上也就是F检验,当F检验结果得出的结论为该因素各水平差异显著时一般地说并不能断言各水平两两之间都有显著差异,某些水平间的十分显著往往可以掩盖某些水平之间的差异不显著而使总的结论为差异显著,当着水平数(组数)为a时,共具有个两两之间的差异比较,究竟哪两个水平之间差异显著,哪两个水平之间差异不显著?这种比较称为多重比较。要检验各个平均数间差异是否显著,固然可用前章所讲的t检验法,但是采用t检验法和u检验法都有缺点。(1)计算较繁杂。例如当有5组平均数要作两两之间的差异比较,须作比较,若组平均数更多,检验的工作量更大,而且5组水平方差都要算出来,作10次比较。(2)采用t检验法或u检验法,作多重比较时,可能使检验犯第一类错误的概率增大,因为一共进行k次比较,每次犯第一类错误的概率是x,总的犯第一类错误的概率就是1-(1-x)k。统计学者在40年代发现有t检验法作多重比较时当检验的平均数个数m﹥3时用5%。显著性水平,在检验中犯第一类错误的概率不是5%而是超过5%。比如:当k=5X1=1-(1-0.05)5=0.226或23%k=10X2=1-(1-0.05)10=0.401或40%k=20X3=1-(1-0.05)20=64%那么,如何解决多重比较的问题:一种方法是把显著性水平减小,R.A.Fisher(R.A费歇)提议,如果原来显著性水平为x,共作m个比较时,则把显著性水平改为(例如m=5,)仍用t检验法。另外,为了弥补这一缺点,50年代就有许多统计学家提了好几种不同的检验法,来解决多重比较问题。例如,图基(ToKey)哈特得(Hartley)邓肯(Duncan),柯利斯(Keuls),斯塔登特(Student)纽曼(Newman)等人各自提出了检验方法,且各有其独到之处。这里我们仅介绍二种方法Q检验法和S检验法。书中其它两种大家自己看,自学。1、杜奇W检验法此检验法适用于各组内试验次数相等的情况检验的具体步骤:(1)计算(2)根据规定的值及组数Q,组内方差的自由度,查多重比较中的个表得值\n(3)计算D值式中为组内方差,m为各组内单元数(4)当时,判断与差异显著当时,判断与差异不显著由于不仅取决于和相应的自由度a(m-1)而且还与组数a有关,a愈大,q愈大,从而保证在所有比较时,(共有1/2a(a-1)个),均与统一的D比较,计算工作量只有一个D及各组间的差数从而使计算简化了。例3由例1已知F检验结果,该不同处理方法对苗高生长有显著差异,现对各处组平均苗高的显著性作多重比较,取=0.05解:(1)己知a=5,=28.41组内自由度fe=25=0.05查q表得q0.05=(5,25)=4.17(2)计算D值,D=(3)将按大小次序排列后,按表4.8形式进行逐个比较34.411.0*9.5*7.73.331.17.76.24.426.73.31.824.91.523.4从表中看到的比较只有两个,即与即全部两两比较结果表明仅与,与之间差异显著,而其它各组平均数差异不显著这里说明:对于q表中的所求q0.05(5,25)并没有为了精确地表述,可用等比内插法得q0.05(5,25)=4.17q0.05(5,30)=4.10设q0.05(5,25)=x则2、费歇最小显著差方法检验此法适用各组内试验次数不等时,作平均权间多重比较检验具体步骤:\n查分布表得故知按蓄积量分成三层,两两之间均有显著差异§5-4双因素方差分析\n实际问题中常常会遇到两个或多个因素同时影响试验结果的情形,通过双因素方差分析,一次便能够确定两个因素对试验结果有无显著影响,并能对两个因素的联合影响(交互作用)作出估计,它是一种优良的分析试验结果的方法,特别对于试验费用较昂贵的试验来说,更值得大为提倡。我们这里仅介绍不考虑交互作用的情况一、基本原理设可能影响试验结果的有A和B两因素,不考虑它们之间的交互作用,试验数据如下:因素A因素BTAiB1B2B3……A1A2::AαX11X21::X12X22::…………::………………::……X1bX2b::XabTA1TA2::TAaTBjTB1TB2…………TBbT其中A因素分成a组(a个水平)B因素分成b组(b个水平)A与B每一水平的交叉只作一次试验,A的第i水平与B的第j水平交叉作试验结果用xij表示,即重复一次,以表示全部n=ab个数据的平均数即其样本方差S2为。现在来检验A,B因素分别对于试验结果有无显著影响,或者说A因素各水平之间是否差异显著,又B因素各水平之间是否差异显著?与前一节单因素方差分析相类似地,双因素方差分析首先必须满足:A因素各水平对应的试验结果,与B因素各水平对应的试验结果分别来自方差相同的正态总体,且抽样方式为重复抽样,即满足独立,正态,等方差三个条件与单因素方差分析情形类似,双因素方差分析也是样本方差的可分解性为基础的。样本方差总离差平方和可分解为\n不难验证上式中后三项交叉积和为0所以说明:表示A因素的组间离差平方和揭示A因素对试验结果影响大小若愈大,则A因素对试验结果影响越大,反之则小。表示B因素的组间离差平方和揭示B因素对试验结果影响大小若值越大,则B因素对试验结果影响愈大,反之则小。表示在总离差平方和除去了A,B两因素的离差平方和后所剩余的部分离差平方和。这部分可视为随机误差,与单因素的组内离差平方和地位相当,记为Le当然于是\n同理可证明由此可知其自由度:二、双因素方差分析的具体骤如下:(1)建立假设:假设A,B两个因素对试验效果均无显著影响即:于是将A因素条件误差和试验误差在一定意义下进行比较,考察A因素对试验结果影响是否显著。同样,B因素也是如此。(2)由原始资料得下面计算:(3)计算统计量FA,FB(4)依α查表Fα(a-1,(a-1)(b-1))以及Fα(b-1,(a-1)(b-1))\n(5)结论当FA>Fα(a-1,(a-1)(b-1))推翻统计假设,判断A因素对试验结果有显著影响当FAFа,FB>Fа故判断无论苗床还是肥料对试验结果有显著影响。这里说明(4)(5)不列也可。三、考虑交互作用的情况1.交互作用的概念实践中当试验结果受到二个或多个因素影响时,常常不仅每个因素单独地对试验结果起作用而且两因素各水平之间的搭配还会对试验结果起作用,现在用例子来说明交互作用的概念和意义。例某一生产队对大豆试验地用不同方式施氮肥(N)和磷肥(P)即施氮肥又施磷肥及对照(不施肥)共四种方式,结果按平均亩产得pNP1=0P2=4斤N1=0N2=0斤400斤430斤450斤500斤从表中可看出:另加的4斤磷肥增产50斤,另加6斤氮肥增产30斤而氮肥,磷肥合施则增产160斤,这160斤里除了N,P肥的单独作用外,还有它们的联合作用的效果,这种联合作用便称之为二因素的交互作用,联合作用效果,等于160-(30+50)=802.考虑交互作用时的方差分析在作双因素方差分析时若考虑交互作用,则要求这两个因素的每一交叉组至少重复两次,若每一交叉组重复m次,则一般地可得如下表:变差来源自由度平方和均方F值Fα因素A因素B误差项(e)236318.5114.6732.83SA2=154.25SB2=38.22Se2=5.47总计466.0\nAiBjA1A2……AaTBjBiB1X111X112……X11mX211X212……x21m……Xa11Xa12……xa1mTB1B1B2X121X122……x12mX221X222……x22m……Xa21Xa22……xa2mTB2B2……………………………………BbX1b1X1b2……x1bmX2b1X2b2……x2bm……Xab1Xab2……xabmTBbBbTAiTA1TA2……TAaAiA1A2……Aa检验的一般步骤:(1)统计假设:假设因素AB及其交互作用试验结果均无显著影响(2)由于A因素有a个处理(a个水平)由于B因素有b个处理(b个水平)共有ab个处理组合,每一交叉组有m个观察值,则该资料有abm个观察值设abm个观察值的平均数为以Mij表示由A因素第i组B因素第j组所形成的交叉组的组平均数则:以Ai表示按A因素分组时,第i组中各观察值的组平均数,则有:于是\n也就是说相当于从总体方差(xijk-)中除去A因素,B因素各水平的变动,再除去剩余变动后的部分,在考虑有交互作用条件下,自然将其归结为交互作用的结果,而自由度fT=fA+fB+fAB+fefT=abm-1fA=a-1fB=b-1fAB=(a-1)(b-1)fe=abm-ab(3)计算i个统计量FA,FB,FAB计算可用下列公式\nTij为各交叉组观察值的和。LAB=LT-(LA+LB+Le)当FA>Fα(a-1,ab(m-1))时,则判断A因素对试验结果有显著影响,反之无显著影响当FA>Fα(a-1,ab(m-1))时,则判断判断B因素对试验结果有显著影响,反之无显著影响当FAB>Fα[(a-1)(b-1),ab(m-1))]则判断A,B因素的交互作用对试验结果有显著影响,反之,无显著影响。(4)列出方差分析表变差来源自由度平方和均方F值FxAa-1LaBb-1LBAB(a-1)(b-1)LAB误差项Ab(m-1)Le共计Abm-1LT--------------------------\n例:用三种深翻种四种施肥方案组成十二种育苗方案作搞树育苗试验,取得苗高资料如表,设苗高的分布为正态,等方差,试分析深翻,施肥以及它们的交互作用对苗高生长有显著影响?施肥AA1A2A3A4TBj深翻BB1524834454313437114421145814550742.2539293842B2415036444714141121391194615053144.2553304460B3493637433812948131401095614050942.4242473241TAi404366342435T=154744.8940.6738.0048.3342.47解:(1)作统计假设:假设施肥(A)及深翻(B),因素和它们的交互作用对试验结果均无显影响。(2)依表可求得-C=1888.97\n(3)列方差分析表变差来源自由度平方和均方F值FxA3562.08187.36*B229.5614.78AB676.6712.78误差项241220.6750.86共计351888.97-----------故A因素即施肥因素对试验结果——苗木高生长有显著影响,而深翻及深翻与施肥的交互作用对苗木高生长均无显著影响。(4)对A因素各水平进行检验取,组数a=4,误差项自由度为24则查q表得q0.05=(4,24)=3.9010.33*7.663.446.894.222.67由表可看到仅有显著差异,其余各组两两之间的无显著差异说明:A,B二因素的每一交叉只作一次试验m=1从而xijk=Mij对一切ij成则误差项均方为0,这时只能以LAB作为误差项平方和,才能检验A,B的影响与否。于A×B的影响就无法检验了,而这时不难验证,交互作用项均方与不考虑交互作用的误差项均方完全一致。因此,为了考虑因素间的交互作用,必需使因素间的每一交叉至少重复二次。\n第六章回归分析引言一.回归分析及其应用回归分析是研究两个或两个以上变量之间相互联系的规律性的一种数学分析方法,在各次及科学研究中有广泛应用,在其在林业生产和科学研究中,其应用相当广泛。例如:1.研究林木密度与大气净化效果之间的规律性。2.研究林分平均高,密度,年龄与优势木平均高之间规律性。3.森林病虫害的预测预报。二.回归分析主要解决的问题1.确定几个特定变量之间的关系,并用数学表达式给予描述。2.根据一个或几个变量数值,预测控制另一个变量取值,并计算预测控制的精确度。3.进行因素分析,找出哪些变量是重要的,哪些是次要的,以及它们之间的关系。三.确定性关系与不确定性关系人们通过长期的实践与试验,发现两个变量之间的关系可以分为两种类型。1.确定性关系:两个变量均为非随机变量,如圆面积A=pr2,固定容积的容器内,气体温度T与压力P的关系:P=KT(K为常数)只要知道其中一个变量值,就可由这种关系确定另外一个变量值,这种关系称确定性关系,其关系式称函数关系。2.非确定性关系:a)一个变量是非随机变量,另一个是随机变量如农作物单位面积产量与单位面积施肥量之间的关系,苗木生长高度与水分之间的关系。这是产量、苗高为随机变量,而施肥量、水分却不是随机变量,即同一施肥量,农作物产量存在差异,水分一样,苗高可能不一样,并存在相应的概率分布.这种两个变量之间的关系(或一个随机变量对另外一个非随机变量的依存关系)称为回归关系,而且通常视非随机变量为自变量,而随机变量为因素变量。b)两个变量均为随机变量如:林木胸径与树高之间的关系,对于同一胸径的的林木、胸高不尽相同,反过来对于同一树高的林木,胸径也不尽相同,二者都是随机变量,且都存在相应的概率分布,这种两变量之间的关系,称为相关关系(即不能确定谁依赖于谁)。四.回归分析前提线性、独立、正态、等方差\n§6-1一元线性回归一、散点图令X为树之胸径,Y表示同一棵树的材积,对每一株树,可得一成对数据(X,Y)。假设我们观测了n个成对数据:(X1,Y1)、(X2,Y2)、……、(Xn,Yn),并根据数据作散点图。根据散点图的趋势,我们可以观察X和Y之间的关系是否像直线关系,若是,则可以进一步建立其线性回归模型。设总体两变量Y与Z之间存在回归关系,表达式为称上式为线性回归方程(模型),其中X为可以精确测定的变量,、称为总体回归系数。那么如何根据样本资料对参数A,B进行估计呢?二、模型设从总体中抽取N个单元组成样本,现测值为(Xi,Yi),(i=1,2,……,n),将这n个现交点绘在直角坐标系上所在地成的图形——散点图那么,我们可以根据这些样本资料去估计、,从而得出经验的直线回归方程(或样本回归直线方程):其中X为自变量、非随机变量;、为未知常量;为随机项,又称随机误差,满足假定、的估计值为a,b,于是有-----------样本回归直线方程,其中:a,b称为样本回归系数,为的估计值(加“ˆ”是为了区别其实测值Y),称为回归值。三、、的最小二乘估计及的无偏估计1、最小二乘估计如何求样本回归系数a,b呢?最常用方法是:平方和最小原则,称最小二乘法,即求得a,b使得,这里回归值与实测值Yi的差表示与回归直线上对应于同一xi的值的偏离程度,考虑到正、负偏离的关系,采用其差值的平方和来描述其偏离的程度。下面根据最小二乘法原则来求参数a,b\n要使必须:即:整理得:-------------标准方程(正规方程)由(1)式得:将(3)式代入(2)得:得:记:则有:2、的无偏估计(1)(2)定义称为y对x的回归剩余标准差,或剩余标准差。易知,是的无偏估计。(3)的计算由及可得二、最小二乘估计、的性质1、、分别为、的无偏估计\n2、、的方差二、对“”的检验可以证明建立假设Ho:=0H1:≠0当时拒绝H0、接受H1。六、样本相关系数用来判断线性回归关系紧密程度的特征数。1、平方和的分解把因变量总体上的离差平方和进行分解:两边除以n得:于是:记::样本总方差:样本剩余方差:样本回归方差∴令r2=/Sy2,r2体现了在Sy2中所占有比例,其值越大,则表明线性相关关系愈亲切。2、样本相关系数由于令r2=/Sy2,r2体现了在Sy2中所占有比例,其值越大,则表明线性相关关系愈亲切。因此,用的r2作为判断线性回归关系的显著性指标,称r为样本相关系数(相关系数)。\n3、r的计算公式1、r和b的关系r与b同号;2、利用r对“”的检验i.建立假设Ho:=0H1:≠0ⅱ.计算统计量~t(n-2)ⅲ.给定,查附表11得t(n-2)ⅳ.若|t|>t(n-2),则回归显著或者:ⅰ.查检验相关系数>0ⅱ.给定值表(附表17)得r(n-2)ⅲ.若|r|>r(n-2),则回归显著\n七、标准化由于令、则有称之为标准化。八、预测1、总体条件平均数的抽样估计根据样本回归方程,对于某个特点的x0,需对总体条件平均数进行估计结论:当x=x0时,用作为估计值误差限为可靠性能1-,而且1-置信区间为1、已知x=x0,对该单元在因变量Y上的数值y0进行预测仍然以作为y0的预测值误差限为:,可靠性1-而的1-的预测区间(置信区间)为:例1.在某林分内随机抽取6块面积为0.8hm2的样地,测得样地上平均树高x与0.8hm2平均断面积y后得下表,试估计该林分每0.8hm2林地上每块平均断面积块平均断面积y对平均高x的回归直线方程,计算相关系数并进行检验。样地号123456xi202224262830yi24.326.528.730.531.732.9解:\n检验:例1.在某同个杉木林中,抽取5株杉木测得枝盘数与当年树高生长量数据如下表,试据此建立回归方程,并计算相关系数和检验。X(枝盘数)12345Y(高生长量)2436445160解:\n检验:例1.在6块落叶杉林地上,测量蓄积量与胸高断面积,得下表资料,试求回归方程式,相关系数并进行检验。胸高断面积xi(m2)29.129.930.631.532.2蓄积量yi(m3)173190206223240解:\n检验:例1.在某林分内随机抽取6块样地,测得每公顷断面积x与公顷蓄积量y得下表,试求回归方程,相关系数并作显著性检验.断面积x(m2/hm2)24.326.528.730.531.732.9蓄积量y(m3/hm2)314376436498557612解:检验:\n株数fi12354421伐根直径xi(cm)4.66.17.810.111.514.216.918.2胸径(cm)2.34.35.36.88.011.011.913.2例1.经过外业调查,取得表中人工林落叶松伐根直径与胸径的数据,试求回归方程,相关系数及检验,对伐根直径xo=6cm时预测胸径值y0。解:检验:\n例1.在某林分内随机抽取10块标准地,测定了标准地上单位面积胸高断面积与单位面积木材蓄积量后得下表,求(1)回归方程(2)相关系数(3)显著性检验(4)预测断面积为7m2时蓄积量(5)估计断面积为7m2时平均蓄积量(α=0.05)断面积xi(m2/hm2)5.75.46.37.27.88.89.910.711.411.8蓄积量yi(m3/hm2)465667658986103108121118例2.对全国6个白榆种源进行调查,观测每个种源所在纬度xi与生长60天的苗高yi后得下表,求(1)回归方程(2)相关系数(3)显著性检验(4)x0=36时,估计平均苗高r0,预测苗高y0(α=0.05).纬度xi(o)34.535.033.038.039.540.0苗高y0(cm)37.036.736.035.134.334.0\n§6-2一元非线性回归(曲线回归)一、可线性化为直线的曲线回归:在实际应用中,回归关系不会局限于一元一次,即一元线性情形,如材积对胸径的回归形式常用的幂函数形式,树高对胸径的关系常取二次抛物线,而林分立木株数对于林龄的关系则往往采用双曲线回归形式等等这些都是一元非线性回归问题。如何来求解这些非线性方程的有关参数呢?解决方法:①首先将这些方程进行线性化.②用最小二乘法求解线性化后的新参数.③用变换关系,将新参数求逆运算,得到原参数值.1.幂函数曲线:y=axb幂函数曲线在林业科研及生产实践中应用十分广泛,如常用于编制一元立木材积表、生长率、生长量表、林分密度控制图案。我们以幂函数为例,讲述如何曲线化及求有关参数。2.数函数曲线y=aebx(a>0)该方程可用于表示害虫的产卵数与温度之间的关系3.双曲线函数\n4.对数函数曲线:y=a+blgx比方程可用来编制杉木或马尾松地位指数表。令5.一、多次式回归方程以上讲座的各种回归问题都要求我们事先确定回归方程的类型,这一点并不总是容易实现的,因此,在不易对回归方程的类型作出判断时,常采用多次式进行逼近,因为任意曲线都可以近似地用多次式表示.多次式一般形式为:y=a0+a1x+……+anxn\n一、决定指数与相关指数在线性回归研究中,我们用来衡量回归效果好坏。但在曲线回归中,虽然通过线性化求相关系数但它反映的是的回归吻合程度,而不是x与y的回归吻合程度。为了反映回归曲线上多点实测值y与吻合程度。定义决定估数(R2)为:而称R为相关指数(回归指数)。因此相关指数是描述总体两变量Z与Y所有在曲线回归关系的紧密程度的特征数。例1.现测得云杉平均高y与平均胸径x资料如下表:平均胸径xi(cm)1520253035404550556065\n平均高yi(m)13.917.120.022.124.025.627.028.329.430.231.4试求平均树高y对平均胸径y的:1.幂函数回归方程y=axb2.指数函籽回归方程y=abb3.对数函数回归方程是y=a+blgx4.二次抛物线回归方程y=b0+b1x+b2x2解:\n\n培养时间xi(分)0130175225252315菌数yi(107)1.5313.6026.4059.2077.60148.20例1.为了解某菌的生长量与培养时间的关系,经观察后得下表资料,试按指数函数y=abx求回归方程、相关系数和相关指数。解:\n例1.夏季绿地生长量y与生长时间x的有关数据如下表,试按指数函数y=aebx形式进行回归分析。生长时间x15202530354045生长量y586779140200320480解:\n含盐百分数x(%)0.20.40.60.91.21.62.02.53.03.4植物覆盖度y64.138.225.020.815.410.38.77.66.25.4例1.下表是某地区盐百分数与植物覆盖度的样本资料,试按幂函数y=axb进行回归分析。解:\n例1.为了探索某树种树高与胸径间的变化规律,由外业取得下表资料,试按对数函数H=a+blgD求回归方程和相关指数。平均胸径Di(cm)24.026.027.029.331.733.835.9平均树高Hi(m)16.1817.3218.1218.4218.8019.7119.53株数fi4246434724115解:\n