高等生物统计学课件1 90页

1.91 MB
2022-09-01 发布

高等生物统计学课件1

关闭预览

90页
当前文档由用户上传发布，收益归属用户

1、本文档由用户上传，淘文库整理发布，可阅读全部内容。
2、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，请立即联系网站客服。
3、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细阅读内容确认后进行付费下载。
网站客服QQ：403074932

高等生物统计AdvancedBiostatistics\n关于《高等生物统计课程》的说明本课程是为满足生物科学各专业研究生学习和研究的需要而开设的一门工具类课程。课程主要介绍生物学研究中常用的现代统计分析方法，课程注重统计思想和方法应用、计算机实现的介绍。内容包括均值比较、回归分析、数据缩减、聚类与模式识别等。要求学生具有初等概率统计或初等生物统计的基础和计算机基础。课程的内容分为两部分1.思想方法讲授，大约用42课时；2.统计方法的计算机实现，大约18课时。主要参考资料：1.高级生物统计，明道绪主编，中国农业出版社，20062.试验设计与分析，袁志发主编，中国农业出版社，20073.多元统计分析，袁志发主编，科学出版社，19994.非参数统计方法，吴喜之主编，高等教育出版社，19965.SPSS实用教程，阮贵海主编，高等教育出版社，2000\n高等生物统计学的概述一、生物统计学科性质与任务生物学领域中所涉及的大多数学科是实验科学，这些学科研究的共同特点是通过缜密设计的实验探索新知识，发现客观世界规律。而实验方法主要有两类：一类是试验，另一类是抽样调查。这些学科研究的基本过程一般包括：1.由经验和已有的知识对所研究新问题提出一种假设；2.根据假设内容科学的安排实验(包括试验与抽样调查)；3.根据实验数据进行分析推段，形成结论。生物统计(BiometricsorBiostatistics)为实现这一基本过程中2,3环节而产生的一个学科。合理设计试验和调查，科学地整理分析试验数据，揭示和发现新知识是其根本任务。\n生物统计学是运用数理统计的原理和方法研究生物现象的数量特征及其变异规律的应用学科，属于交叉学科。生物统计对生物科学的作用1.提供试验设计、抽样调查的方法，即解决生物科学研究中科学制订实验方案，合理收集有代表性的数据问题；2.提供整理、分析数据的科学方法，即解决从数据中提取有效信息获得结论的方法问题。二、生物统计学发展简史生物统计学是以门较为年轻的一个学科，从诞生到现在大约经历了140年左右，她是数理统计学最早的应用分支之一，并为推动数理统计学的发展做出了突出贡献。生物统计学发展大致可分为两个阶段：1.萌芽阶段18世纪到19世纪初，拉普拉斯(1749-1827)和高斯(17\n77-1855）各自独立地导出了正态曲线，还创立了最小二乘法，并被广泛地应用于生物学，英国优生学派创始人高尔顿(达尔文的堂弟，博物学家，生物统计学之父)和他的继承人皮尔森在遗传学研究中发展了相关与回归的概念，皮尔森还发展了著名的卡方检验法，并于1901年创办了Biometrika杂志，使数理统计学的研究与发展进入一个新的阶段。2.蓬勃发展阶段进入20世纪后，数理统计理论和方法得到了蓬勃发展。英国统计学家哥色特提出了学生氏t分布，并将其用于平均数的比较；英国生物学家费希尔提出了试验设计的基本原则和方差分析法；英国计算机科学家叶茨也作了大量工作。许多多元分析方法被建立和应用。特别是20世纪后期由于计算机的快算发展，使得许多统计方法在解决生物科学领域内问题时，发挥出巨大作用。\n3.国内的发展情况在我国，现代生物统计学的起步较晚。在30年代首次由著名生物统计学家、植物育种学家王绶教授(1876-1972)将生物统计学引入我国，撰写的《实用生物统计法》是我国出版最早的生物统计专著之一。之后南京中央农业试验厅邀请美国专家Ｈ.Ｈ.Love来我国讲学，讲授StatisticalMethodinAgriculturalResearch，后来这本讲义由沈骊英翻译为《生物统计之理论与实际》，范福仁出版了《田间试验技术》等，这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响。解放初期，由于生物统计学的理论与方法与当时所推行的苏联米丘林遗传学相悖，使这门学科的研究、应用与发展受到很大影响，直到60年代初，随着农业科学研究的需要，才又重新被重视并得以迅速发展。党的十一届三中全会的春风使我国生物统计学的研究与应用进\n三、生物统计基本概念总体：根据研究目的确定的研究对象的全体。样本：按照一定方法从总体中抽取的一部分单元的全体。统计量：样本决定的不含任何参数的函数。准确度：指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。精确度：指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。进入到对一个新的历史时期，在农业部领导下，于1977年着手编写了《田间试验与统计方法》教学大纲，并由南京农业大学著名统计遗传学专家马育华教授编写了《田间试验与统计方法》全国统编教材。20世纪80年代后，我国各大农业院校陆续开设了生物统计课程，部分综合院校设立了生物统计硕士点，生物统计在我国进入一个崭新的时期。\n1.科学试验数据的特征试验数据不可能测量的绝对准确，必然存在着测定误差。误差是测量结果与真值的接近程度。真值是未知的，随认识水平和科学技术水平的提高而逐步逼近于真值。在试验过程中尽量减少误差，在测量和处理数据中采用数理统计的方法。四、误差理论和测定结果表达生物观测数据的类型：\n2.试验数据误差分类系统误差：是由较确定的原因引起的，可校正和消除；随机误差：是由不确定原因引起的，不可避免和消除；过失误差：是指一种显然与事实不符的误差，必须避免和剔除。3.试验数据误差的来源试验材料的固有差异：生物学研究对象一般是生物有机体。自然界不同的生物体具有不同的遗传性质，同一生物的不同种具有不同的特征，同一品种生物在生长发育过程中不同个体也有差异，这都能导致研究指标的变化。环境条件的差异：生物学试验一般都要在外界环境中进行，而外界环境是多变样的，且地域性很强有较难控制，这就会导致研究指标的差异。管理不一致所引起的差异:生物学试验是以生物个体为对象研究问题，生物个体在发育和生长过程需要管理，而对\n每个生物个体的管理很难做到完全一致，这就合造成观测结果的差异。观测不一致造成的差异：生物试验在观察和测定时，由于人员不同、时间不同也会导致试验结果的差异。4.随机误差的统计规律最大正误差、最大负误差的“有界性”；绝对值小的误差出现的次数比绝对值大的误差出现的次数多，“单峰性”；正负误差出现次数大致相等，“对称性”；测量次数增加，误差减小，“补偿性”；正常的随机误差服从均值为零的正态分布。五、样本异常值的判断与处理1.异常值的概念：样本异常值是指样本中的个别值，其数值明显偏离它所在样本的其余观测值。\n2.样本异常值的形成原因：异常值可能仅仅是数据中固有的随机误差的极端表现，也可能是过失误差。3.样本异常值的判定：如果某个测量值Ｘd的离差Ｕd满足Ud>3S，其中S为样本方差，则认为Ｘd是含有过失误差的异常值。4.样本异常值的处理原则异常值保留在样本中参加其后的数据统计计算；允许剔除异常值，即把异常值从样本中排除；允许剔除异常值并追加适宜的观测值代入样本。在找到实际原因时修正异常值。处理规则为：(1)对于任何异常值，若无充分的技术上的原因，则不得剔除或修正；(2)异常值中除有充分的技术上的或实验上的理由外，在统计上表现为高异常，才允许剔除或修正。\n第1章均值比较(Comparingmeans)1.1一个样本的均值比较1.3两个样本的均值比较1.4多个样本的均值比较1.2统计比较结果表达\n一个样本均值比较生物科学研究与生产实践中一种方法，一种药及处理，一种生境下植物生长状态与给定理论之比较等，这种实际问题都可以归为一个样本均值比较统计问题下。下面分不同条件讨论这类问题解法。一个样本均值与给定的标准比较时，针对样本所满足的不同条件，可以选用Z-检验或T-检验。Z-检验\n\nT-检验\n一个样本的符号检验一个样本的符号检验主要用来解决非正态总体中位数与指定值得比较问题，是一种非参数检验法。这种检验方法是利用样本实现与指定值差的符号分不来判断总体中位数与指定值关系。这种检验的一般做法是：首先，将样本实现与指定值比较大小，转化样本实现为符号（大于记“+”，小于记“-”，等于记“0”），数样本中“+”的个数n+，“-”的个数n-。符号检验：总体分布未限制，样本量较小（小于30）。\n1843401622302932373639343945283640343952\n符号检验当样本容量n>30时，检验统计量可以用近似服从正态分布的Z统计量检验：\n\n统计比较结果的表达统计比较是一小概率原理为依据，应用归纳推理的比较方法，其比较结果是概率意义上的结论。比较结果表达通常有两种形式，即临界值表示法和P-Value表示法。临界值表示法所谓临界值表示法是指：在统计比较时把检验统计量的样本实现与零假设拒绝域的分界点比较，从而得出拒绝还是接受零假设结论的表示方法。例如一个样本均值比较的Z-检验就是临界值表示法，其中是零假设拒绝域的分界点，可以通过标准正态分布分为数表查得。\nP-Value表示法所谓P-Value表示法是指：在统计比较时把检验统计量大于检验统计量样本实现的概率与检验水平比较，从而得出拒绝还是接受零假设结论的表示方法。下面以一个样本均值比较的Z-检验说明这种表示法。例如前面对昆虫平均身长比较的Z-检验，由于z0=-2.47，由正态分布N(100,122)计算P-Value得\n生物科学研究与生产实践中两种方法，两种药及处理，两种生境下植物生长状态比较等，这种实际问题都可以归为两总体平均值比较统计问题下。下面分不同条件讨论其解法。\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n配对样本的符号检验在进行配对样本均值是否相等的比较时，如果样本不服从正态分布，T-检验就不再适用。而符号检验恰好可以解决这一问题。这种检验的一般做法是：首先，将配对样本实现比较大小，转化样本实现为符号（大于记“+”，小于记“-”，等于记“0”），数样本中“+”的个数n+，“-”的个数n-。符号检验：总体分布未限制，样本量较小（小于30）。\n\n\n多个样本均值比较方差分析(AnalysisOfVariance)一、方差分析的概念与基本思想1.问题的提出例题8.1在饲料养鸡增肥研究中，某饲料研究所提出三种配方：A1以鱼粉为添加料，A2以槐树粉为添加料，A3以苜蓿粉添加料。为比较三种饲料的效果，特选24只相似的雏鸡随机分为三组，每组用一种饲料喂养，60天后测其体重，获得数据如下表饲料A鸡重/gA110731009106010011002101210091028A21107109299011091090107411221001A310931029108010211022103210291048\n比较三种饲料的增重效果是否一致，可以转化为利用样本比较三个总体均值是否相等。直观上看该问题可以用两个总体均值差异显著性检验解决，但细想想还是存在一定问题，因为这样的比较能增大犯错误的概率。为解决这类问题，英国统计学家R.A.Fisher于1924年提出了解决此类问题的通用方法-方差分析法。2.方差分析的概念因素：影响试验指标变化的原因。水平：因素所划分成不同等级，每个等级称为该因素的一个水平。条件变差：能反映控制因素不同水平对试验指标的作用的量，又称为处理效应或组间效应。随机误差：能反映控制因素以外因素对试验指标作用的量。\n3.方差分析的基本思想试验指标的变化可以用指标值的方差反映，导致指标值发生变化的原因有两方面：一是可控因素，二是不可控因素或未加控制因素。方差分析就是将指标值的方差分解成条件变差与随机误差，然后依据概率原理比较条件变差与随机误差大小关系，决定引起指标值的变化的主要原因。4.方差分析的基本假定不同因素对试验指标值的影响作用是加性效应，即试验指标值的变化是各种因素所起作用的累加；试验指标服从正态分布；试验数据是随机的，并且可控因素不同水平的试验数据方差齐性。\n二、单因素方差分析单因素方差分析的数据结构单因素方差分析的试验数据应具有下列结构模式。因素-水平试验数据和平均\n单因素方差分析的统计模型该形式称为单因素方差分析的统计模型。在方差分析统计模型下，方差分析要解决的问题转化为下列假设检验问题：\n三、单因素方差分析的原理试验数据离差平方和分解离差平方和分解式\n\n\n\n在实际应用中，方差分析结果以方差分析表形式给出。单因素方差分析表方差来源平方和自由度均方F临界值或Sig组间SSAr-1SSA/(r-1)MSA／MSe组内SSer(m-1)SSe／r(m-1)总和SSTrm-1\n例题在饲料养鸡增肥研究中，某饲料研究所提出三种配方：A1以鱼粉为添加料，A2以槐树粉为添加料，A3以苜蓿粉添加料。为比较三种饲料的效果，特选24只相似的雏鸡随机分为三组，每组用一种饲料喂养，60天后测其体重，获数据如下表，试以此数据判定不同饲料是否有差异？饲料A鸡重/g-1000A17396012129281943763610024A210792-101099074122158534222560355A3932980212232294835412531620984113350517791363\n方差分析表方差来源平方和自由度均方F临界值组间9660.0822830.043.59*3.47组内28215.96211343.62总和37876.0423\n例以A,B,C,D4种药剂处理水稻种子，其中A为对照，每处理各得4个苗高观察值(cm)，试由此试验数据判定药剂处理对水稻苗高声有无影响。药剂苗高观察值总和Ti平均数A182120137218B202426229223C101517145614D2827293211629T=336=21\n因此误差平方和可以采用简单的办法计算SSe=SST-SSB=602-504=98进而可得均方：查附表在f1=3，f2=12时，F0.05=3.49，F0.01=5.95实得F＞F0.01或P＜0.01，说明药剂处理有统计意义。\n四、单因素方差分析模型参数的估计当方差分析结果为否定原假设时，就需要估计模型的有关参数，下面就讨论方差分析模型参数的估计。\n四、秩和单因素方差分析(Kruskal–Wallisone-wayanalysisofvariance)在生物学研究中，经常会遇到多种处理试验数据差异分析，而这种试验数据有严重偏离正态分布，这时传统的方差分析已无法解决这类问题。为解决这种问题，一般是把差异比较转化为分布齐一性检验，利用秩和检验法解决。单因素方差分析的试验数据应具有下列结构模式。因素-水平试验数据\n因素-水平试验数据秩和秩平均首先，将个水平数据放在一起确定每个数据的秩，从而数据转化为秩数据，并对秩数据整理如下表\n可以证明，在各处理水平数据同分布，且ni>5，n>15情况下，统计量R成立以下结论：于是当ni>5，n>15时，可以用该结论检验分布同质性，也可以在分布形状和尺度相同下，检验不同总体中位数差异显著性，即方差分析。秩和单因素方差以下列步骤实施：\n例以A,B,C,D表示4种海拔水平，为掌握某植物生长受海拔影响，研究人员分别在每个海拔水平实测该植物生长量，数据如下所示(单位g)，试由此试验数据判定该植物生长是否受海拔影响。ABCD解\n\n五、多重比较法拒绝H0，接受H1,表示总体均数不全相等哪两两均数之间相等？哪两两均数之间不等？————>需要进一步作多重比较。方差分析结果不拒绝H0，表示拒绝总体均数相等的证据不足，————>分析终止。常用多重比较法最小显著差数法(Leastsignificantdifference，简称LSD法)\nq法(又称SNK(student-Newman-Keuls)检验法)q测验方法是将r个平均数由大到小排列后，根据所比较的两个处理平均数的差数是几个平均数间的极差分别确定最小显著极差LSRα值的。\nTukey法(又称honestlysignificantdifference，简称HSD)\nBonferroni法Bonferroni法是根据所比较的两个处理平均数的个数k，将检验水平缩小k倍祖为真实比较水平，确定是几个平均数间的极差分别确定最小显著差数LSDα值的。\n多重比较法选择1.试验事先确定比较的标准，凡是与对照相比较，或与预定要比较的对象比较，一般可选用最小显著差数法LSDa法；2.根据否定一个正确的H0和接受一个不正确的H0的相对重要性来决定。参考以下观点：根据试验的侧重点选择。三种方法的显著尺度不相同，LSD法最低，HSD法次之，SNK法最高。故对于试验结论事关重大或有严格要求时，用SNK法，一般试验可采用HSD法。当比较次数不多时，Bonferroni法的效果较好；但当比较次数较多(例如在10次以上)时，则由于其检验水准选择得过低，结论偏于保守。\n双因素方差分析背景双因素方差分析的类型若把品种看成影响产量的因素A，肥料则是影响产量的因素B。对因素A、因素B和二者互作同时进行分析，就属于双因素方差分析。在实际问题的研究中，有时需要考虑两个因素对实验结果的影响。如研究小麦产量问题，除了关心品种对产量的作用之外，我们还想了解化肥的使用对产量的作用，有时甚至要考虑品种与肥料的相互促进作用。如果不同品种、不同施肥量对产量作用存在显著的差异，就需要分析原因。选择合适的品种，决定恰当的施肥量，以达到增产的目的。双因素方差分析\n双因素方差分析的类型无交互作用的双因素方差分析有交互作用的双因素方差分析因素A和因素B的效应之间是相互独立的，不存在相互关系因素A和因素B的结合会产生出一种新的效应(交互效应)交互作用的概念有人在研究油菜产量受氮肥与磷肥影响问题时，获得如下试验数据。显然512-470-2-10=30既不是单纯氮肥引起的产量变化，也不是单纯磷肥引起的产量变化，这就是交互作用。氮肥磷肥06047047215480512\n不考虑交互作用的双因素方差分析因素B数据因素A双因素不考虑交互作用方差分析的数据结构双因素不考虑互作方差分析试验数据具有下列结构模式。\n双因素不考虑交互作用方差分析的统计模型\n该形式称为双因素不考虑交互作用方差分析的统计模型。在方差分析统计模型下，方差分析要解决的问题转化为下列假设检验问题：双因素不考虑交互作用方差分析原理试验数据离差平方和分解\n\n\n\n双因素不考虑交互作用方差分析表方差来源平方和自由度均方F临界值或Sig因素ASSAa-1SSA/(r-1)MSA／MSeMSB／MSe因素BSSBb-1SSB/(b-1)误差SSe(a-1)(b-1)SSe／(a-1)(m-1)总和SSTab-1\n例8.3对于四种不同种源的油松种子，在三种不同土质的土壤上进行育苗试验，两年后测定苗木高度，所得试验数据如表所示。假定试验数据满足正态、等方差条件试在检验水平0.05下，分析种源、土质对油松苗木高度的影响？因素B数据因素A因素BB1B2B3因素AA144534714448.0A237443511638.7A336473311638.7A445483112441.316219214650040.548.036.541.7\n\n双因素方差分析的模型\n数据结构A因素B因素总和Ti..平均B1B2…BbA1x111x121…x1b1T1..x112x122…x1b2︰︰︰︰x11rx12rx1brTij.T11.T12.T1b.︰︰︰︰︰︰︰Aaya11xa21…xab1Ta.xa12xa22…xab2︰︰︰︰xa1rxa2r…xabrTij.Ta1.Ta2.Tab.T.j.T.1.T.2.…T.b.T...平均…\n离差平方和的分解\n\n\n\n

高等生物统计学课件1 90页