医学统计学 获奖课件 665页

  • 18.89 MB
  • 2022-09-01 发布

医学统计学 获奖课件

  • 665页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第1章绪论第1页共666页医学本科生用医学统计学\n第1章绪论第2页共666页Theteachingplan formedicalstudentsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第1章绪论第3页共666页医学统计学总目录第1章绪论第2章定量资料统计描述第3章总体均数的区间估计和假设检验第4章方差分析第5章定性资料的统计描述第6章总体率的区间估计和假设检验第7章二项分布与泊松分布第8章秩和检验第9章直线相关与回归第10章实验设计第11章调查设计第12章统计表与统计图\n第1章绪论第4页共666页第1章绪论目录第五节学习统计学应注意的几个问题第二节统计工作的基本步骤第三节统计资料的类型第四节统计学中的几个基本概念第一节医学统计学的定义和内容\n第1章绪论第5页共666页第一章绪论第一节医学统计学的定义和内容医学统计学(medicalstatistics)---是以医学理论为指导,运用数理统计学的原理和方法研究医学资料的搜集、整理与分析,从而掌握事物内在客观规律的一门学科。\n第1章绪论第6页共666页医学研究的对象----主要是人以及与其健康有关的各种影响因素。医学统计学的主要内容:1.统计设计包括实验设计和调查设计,它可以合理地、科学地安排实验和调查工作,使之能较少地花费人力、物力和时间,取得较满意和可靠的结果。2.资料的统计描述和总体指标的估计通过计算各种统计指标和统计图表来描述资料的集中趋势、离散趋势和分布特征况(如正态分布或偏态分布);利用样本指标来估计总体指标的大小。\n第1章绪论第7页共666页3.假设检验是通过统计检验方法(如t检验、u检验、F检验、卡方检验、秩和检验等)来推断两组或多组统计指标的差异是抽样误差造成的还是有本质的差别。4.相关与回归医学中存在许多相互联系、相互制约的现象。如儿童的身高与体重、胸围与肺活量、血糖与尿糖等,都需要利用相关与回归来分析。\n第1章绪论第8页共666页5.多因素分析如多元回归、判别分析、聚类分析、正交设计分析、主成分分析、因子分析、logistic回归、Cox比例风险回归等,都是分析医学中多因素有效的方法(本书不涉及,请参考有关统计书籍)。这些方法计算复杂,大部分需借助计算机来完成。6.健康统计研究人群健康的指标与统计方法,除了用上述的某些方法外,他还有其特有的方法,如寿命表、生存分析、死因分析、人口预测等方法\n第1章绪论第9页共666页医学统计工作可分为四个步骤:统计设计、搜集资料、整理资料和分析资料。这四个步骤密切联系,缺一不可,任何一个步骤的缺陷和失误,都会影响统计结果的正确性。第二节统计工作的基本步骤\n第1章绪论第10页共666页设计(design)是统计工作的第一步,也是关键的一步,是对统计工作全过程的设想和计划安排。统计设计---就是根据研究目的确定试验因素、受试对象和观察指标,并在现有的客观条件下决定用什么方式和方法来获取原始资料,并对原始资料如何进行整理,以及整理后的资料应该计算什么统计指标和统计分析的预期结果如何等。一、统计设计\n第1章绪论第11页共666页搜集资料(collectionofdate)——是根据设计的要求,获取准确可靠的原始资料,是统计分析结果可靠的重要保证。医学统计资料的来源主要有以下三个方面:1.统计报表统计报表是医疗卫生机构根据国家规定的报告制度,定期逐级上报的有关报表。如法定传染病报表、出生死亡报表、医院工作报表等,报表要完整、准确、及时。二、搜集资料\n第1章绪论第12页共666页2.医疗卫生工作记录如病历、医学检查记录、卫生监测记录等。3.专题调查或实验研究它是根据研究目的选定的专题调查或实验研究,搜集资料有明确的目的与针对性。它是医学科研资料的主要来源。\n第1章绪论第13页共666页整理资料(sortingdata)的目的就是将搜集到的原始资料进行反复核对和认真检查,纠正错误,分类汇总,使其系统化、条理化,便于进一步的计算和分析。整理资料的过程如下:1.审核:认真检查核对,保证资料的准确性和完整性。2.分组:归纳分组,分组方法有两种:①质量分组,即将观察单位按其类别或属性分组,如按性别、职业、阳性和阴性等分组。②数量分组,即将观察单位按其数值的大小分组,如按年龄的大小、药物剂量的大小等分组。三、整理资料\n第1章绪论第14页共666页3.汇总:分组后的资料要按照设计的要求进行汇总,整理成统计表。原始资料较少时用手工汇总,当原始资料较多时,可使用计算机汇总。四、分析资料分析资料(analysisofdata)——是根据设计的要求,对整理后的数据进行统计学分析,结合专业知识,作出科学合理的解释。\n第1章绪论第15页共666页1.统计描述(descriptivestatistics)将计算出的统计指标与统计表、统计图相结合,全面描述资料的数量特征及分布规律。2.统计推断(inferentialstatistics)使用样本信息推断总体特征。通过样本统计量进行总体参数的估计和假设检验,以达到了解总体的数量特征及其分布规律,才是最终的研究目的。统计分析包括以下两大内容:\n第1章绪论第16页共666页医学统计资料按研究指标的性质一般分为定量资料、定性资料和等级资料三大类。一、定量资料定量资料(quantitativedata)亦称计量资料(measurementdata),是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。如身高(㎝)、体重(㎏)、脉搏(次/分)、血压(kPa)等为数值变量,其组成的资料为定量资料。第三节统计资料的类型\n第1章绪论第17页共666页定性资料(qualitativedata)亦称计数资料(enumerationdata)或分类资料(categoricaldata),是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料称定性资料。定性资料的观察指标为分类变量(categoricalvariable)。如人的性别按男、女分组;化验结果按阳性、阴性分组;动物实验按生存、死亡分组;调查某人群的血型按A、B、O、AB分组等,观察单位出现的结果为分类变量,分类变量没有量的差别,只有质的不同,其组成的资料为定性资料。二、定性资料\n第1章绪论第18页共666页三、等级资料等级资料(rankeddata)亦称有序分类资料(ordinalcategoricaldata),是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。如治疗结果分为治愈、显效、好转、无效四个等级。\n第1章绪论第19页共666页根据需要,各类变量可以互相转化。若按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。有时亦可将定性资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用0、1、2…等表示,则可按定量资料处理。如调查某人群的尿糖的情况,以人为观察单位,结果可分—、±、+、++、+++五个等级。\n第1章绪论第20页共666页同质(homogeneity)是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。变异(variation)由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。第四节统计学中的几个基本概念一、同质与变异\n第1章绪论第21页共666页二、总体与样本样本(sample):是从总体中随机抽取的部分观察单位变量值的集合。样本的例数称为样本含量(samplesize)。注意:1。总体是相对的,总体的大小是根据研究目的而确定的。2。样本应有代表性,即应该随机抽样并有足够的样本含量。\n第1章绪论第22页共666页图示:总体与样本populationsample2sample1sample3sample4sample5\n第1章绪论第23页共666页三、参数与统计量参数(parameter):由总体计算或得到的统计指标称为参数。总体参数具有很重要的参考价值。如总体均数μ,总体标准差σ等。统计量(statistic):由样本计算的指标称为统计量。如样本均数,样本标准差s等。注意:一般不容易得到参数,而容易获得样本统计量。\n第1章绪论第24页共666页四、抽样误差抽样误差(sampleerror):由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差别称为抽样误差。如样本均数与总体均数之间的差别,样本率与总体率的差别等。注意:抽样误差是不可避免的。无论抽样抽得多么好,也会存在抽样误差。\n第1章绪论第25页共666页五、概率概率(probability):是描述随机事件发生可能性大小的量值。用英文大写字母P来表示。概率的取值范围在0~1之间。当P=0时,称为不可能事件;当P=1时,称为必然事件。小概率事件:统计学上一般把P≤0.05或P≤0.01的事件称为小概率事件。小概率原理:小概率事件在一次试验中几乎不可能发生。利用该原理可对科研资料进行假设检验。\n第1章绪论第26页共666页第五节学习医学统计学应注意的问题1.重点掌握医学统计学的基本知识、基本技能、基本概念和基本方法,掌握使用范围和注意事项。2.要培养科学的统计思维方法,提高分析问题、解决问题的能力。3.掌握调查设计和实验设计的原则,培养搜集、整理、分析统计资料的系统工作能力。\n第1章绪论第27页共666页课后作业列举出计量资料、分类资料、等级资料各10个实例。列举出可能事件、必然事件、不可能事件及小概率事件各10个。认真复习本章已学过的基本概念2-3遍。\n第1章绪论第28页共666页BestWishestoAllofYou!ThankYouforListening!THEEND\n第2章定量资料统计描述第29页医学本科生用主讲程琮泰山医学院预防医学教研室zcheng@tsmc.edu.cn医学统计学\n第2章定量资料统计描述第30页Theteachingplan formedicalstudentsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第2章定量资料统计描述第31页第2章定量资料的统计描述目录第二节集中趋势的描述第三节离散趋势的描述第四节正态分布第一节频数分布表\n第2章定量资料统计描述第32页统计描述:是用统计图表、统计指标来描述资料的分布规律及其数量特征。频数分布表(frequencydistributiontable):主要由组段和频数两部分组成表格。第一节频数分布表第二章定量资料的统计描述\n第2章定量资料统计描述第33页二、频数分布表的编制编制步骤:1.计算全距(range):一组变量值最大值和最小值之差称为全距(range),亦称极差,常用R表示。2.确定组距(classinterval):组距用i表示;3.划分组段:每个组段的起点称组下限,终点称组上限。一般分为8~15组。;4.统计频数:将所有变量值通过划记逐个归入相应组段;5.频率与累计频率:将各组的频数除以n所得的比值被称为频率。累计频率等于累计频数除以总例数。\n第2章定量资料统计描述第34页表2-2某年某市120名12岁健康男孩身高(cm)的频数分布身高组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)125~10.8310.83129~43.3354.17133~108.341512.50…………………………合计120100.00\n第2章定量资料统计描述第35页\n第2章定量资料统计描述第36页二、频数分布表的用途1.揭示资料的分布类型2.观察资料的集中趋势和离散趋势3.便于发现某些特大或特小的可疑值4.便于进一步计算统计指标和作统计处理\n第2章定量资料统计描述第37页\n第2章定量资料统计描述第38页第二节集中趋势的描述集中趋势:代表一组同质变量值的集中趋势或平均水平。常用的平均数有算术均数、几何均数和中位数。另外不常用的有:众数,调和平均数和调整均数等。\n第2章定量资料统计描述第39页一、算术均数算术均数(arithmeticmean):简称均数。适用条件:对称分布或近似对称分布的资料。习惯上以希腊字母μ表示总体均数(populationmean),以英文字母表示样本均数(samplemean)\n第2章定量资料统计描述第40页1.直接法:用于观察值个数不多时计算方法\n第2章定量资料统计描述第41页2.加权法(weightingmethod):用于变量值个数较多时。注意:权数即频数f,为权重权衡之意。\n第2章定量资料统计描述第42页身高(1)组中值X(2)频数f(3)fX(4)=(2)(3)fX2(5)=(2)(4)125~127112716129129~131452468644133~135101350182250…………………………合计120171682460040表2-4120名12岁健康男孩身高(cm)均数和标准差加权法计算表\n第2章定量资料统计描述第43页\n第2章定量资料统计描述第44页120名12岁健康男孩身高均数为143.07cm。计算结果\n第2章定量资料统计描述第45页几何均数(geometricmean,简记为G):表示其平均水平。适用条件:对于变量值呈倍数关系或呈对数正态分布(正偏态分布),如抗体效价及抗体滴度,某些传染病的潜伏期,细菌计数等。计算公式:有直接法和加权法。二、几何均数\n第2章定量资料统计描述第46页1.直接法:用于变量值的个数n较少时\n第2章定量资料统计描述第47页直接法计算实例\n第2章定量资料统计描述第48页2.加权法:用于资料中相同变量值的个数f(即频数)较多时。\n第2章定量资料统计描述第49页抗体滴度(1)频数f(2)滴度倒数X(3)lgX(4)flgX(5)=(2)(4)1:4240.60201.20401:8680.90315.41861:167161.20418.4287…………………………合计50--89.1045表2-550名儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表\n第2章定量资料统计描述第50页\n第2章定量资料统计描述第51页50名儿童麻疹疫苗接种后平均血凝抑制抗体滴度为1:60.55。计算结果:将有关已知数据代入公式有\n第2章定量资料统计描述第52页①变量值中不能有0;②不能同时有正值和负值;③若全是负值,计算时可先把负号去掉,得出结果后再加上负号。计算几何均数注意事项:\n第2章定量资料统计描述第53页㈠中位数定义:将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数(median,简记为M)。适用条件:①变量值中出现个别特小或特大的数值;②资料的分布呈明显偏态,即大部分的变量值偏向一侧;③变量值分布一端或两端无确定数值,只有小于或大于某个数值;④资料的分布不清。三、中位数及百分位数\n第2章定量资料统计描述第54页定义:百分位数(percentile)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M。㈡百分位数\n第2章定量资料统计描述第55页①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。百分位数的应用条件:\n第2章定量资料统计描述第56页计算方法:有直接法和加权法1.直接法:用于例数较少时n为奇数时n为偶数时\n第2章定量资料统计描述第57页2.频数表法:用于例数较多时中位数百分位数\n第2章定量资料统计描述第58页潜伏期(小时)(1)频数f(2)累计频数(3)累计频率(%)(4)0~171711.76~466343.412~3810169.9……………………合计145--表2-6145例食物中毒病人潜伏期分布表\n第2章定量资料统计描述第59页\n第2章定量资料统计描述第60页先找到包含Px的最小累计频率;该累计频率同行左边的组段值为L;L同行右边的频数为fx(或fm);L前一行的累计频数为∑fL;将上述已知条件代入公式计算Px或P50。计算中位数及百分位数的步骤:\n第2章定量资料统计描述第61页计算结果:\n第2章定量资料统计描述第62页定义:用来说明变量值的离散程度或变异程度。注意:仅用集中趋势尚不能完全反映一组数据的特征。故应将集中趋势和离散趋势结合起来才能更好地反映一组数据的特征。常用离散指标有:极差、四分位数间距、标准差、方差、变异系数。第三节离散趋势的描述\n第2章定量资料统计描述第63页甲组:184186188190192乙组:180184188192196两组球员的平均身高都是188cm,但甲组球员身高比较集中,乙组球员身高比较分散。为了说明离散趋势,就要用离散指标。实例分析\n第2章定量资料统计描述第64页㈠极差极差(range,简记为R)亦称全距,即一组变量值中最大值与最小值之差。特点:计算简单,不稳定,不全面,易变化;可用于各种分布的资料。一、极差和四分位数间距\n第2章定量资料统计描述第65页㈡四分位数间距公式:Q=P75-P25特点:比极差稳定,只反映中间两端值的差异。计算不太方便。可用于各种分布的资料。\n第2章定量资料统计描述第66页二、方差和标准差㈠方差(variance)总体方差样本方差\n第2章定量资料统计描述第67页自由度(degreeoffreedom)的概念n-1是自由度,用希腊小写字母ν表示,读作[nju:]。定义:在N维或N度空间中能够自由选择的维数或度数。例:A+B=C,共有n=3个元素,其中只能任选2个元素的值,故自由度ν=n-1=3-1=2。\n第2章定量资料统计描述第68页方差的特点充分反映每个数据间的离散状况,意义深刻;指标稳定,应用广泛,但计算较为复杂,不易理解;方差的单位与原数据不同,有时使用时不太方便;在方差分析中应用甚广而极为重要。\n第2章定量资料统计描述第69页(二)标准差(standarddeviation)总体标准差样本标准差\n第2章定量资料统计描述第70页牢记:离均差平方和展开式:\n第2章定量资料统计描述第71页标准差的特点:意义同方差,是方差的开平方;标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标准,故称标准差。\n第2章定量资料统计描述第72页标准差的计算方法:可分为直接法和加权法。1.直接法2.加权法\n第2章定量资料统计描述第73页直接法:标准差计算实例:例2.12例2.2中7名正常男子红细胞数(1012/L)如下:4.67,4.74,4.77,4.88,4.76,4.72,4.92,计算其标准差。∑x=4.67+4.74+4.77+4.88+4.76+4.72+4.92=33.46∑x2=4.672+4.742+4.772+4.882+4.762+4.722+4.922=159.99\n第2章定量资料统计描述第74页计算结果:\n第2章定量资料统计描述第75页例2.13对表2-4资料用加权法计算120名12岁健康男孩身高值的标准差。加权法:标准差计算实例:在表2-4中已算得∑fx=17168,∑fx2=2460040,代入公式\n第2章定量资料统计描述第76页变异系数(coefficientofvariation):简记为CV;特征:①变异系数为无量纲单位,可以比较不同单位指标间的变异度;②变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。三、变异系数\n第2章定量资料统计描述第77页例2.14某地20岁男子160人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.72kg,标准差为4.96kg。试比较身高与体重的变异程度。变异系数计算实例\n第2章定量资料统计描述第78页身高体重变异系数计算结果\n第2章定量资料统计描述第79页第四节正态分布一、正态分布的概念和特征正态分布(normaldistribution):也称高斯分布,是医学和生物学最常见的连续性分布。如身高、体重、红细胞数、血红蛋白等。\n第2章定量资料统计描述第80页图2-1120名12岁健康男孩身高的频数分布\n第2章定量资料统计描述第81页㈠正态分布的函数和图形正态分布的密度函数,即正态曲线的方程为:\n第2章定量资料统计描述第82页图2-2频数分布逐渐接近正态分布示意\n第2章定量资料统计描述第83页为了应用方便,常按公式(2.19)作变量变换u值称为标准正态变量或标准正态离差,有的参考书也将u值称为z值。\n第2章定量资料统计描述第84页这样将正态分布变换为标准正态分布(standardnormaldistribution)\n第2章定量资料统计描述第85页图2-3正态分布的面积与纵高\n第2章定量资料统计描述第86页㈡正态分布的特征1.集中性正态曲线的高峰位于正中央,即均数所在的位置。对称性正态曲线以均数为中心,左右对称,3.正态分布有两个参数,即均数和标准差。4.正态曲线下面积有一定的分布规律\n第2章定量资料统计描述第87页图2-4不同标准差的正态分布示意\n第2章定量资料统计描述第88页二、正态曲线下面积的分布规律\n第2章定量资料统计描述第89页标准正态分布表(u值表)标准正态分布曲线下的面积,由此表可查出曲线下某区间的面积。查表时应注意:①表中曲线下面积为-∞到u的下侧累计面积;②当已知μ、σ、和X时,先按公式(2.19)求得u值,再查表;当和未知时,并且样本例数在100例以上,常用样本均数和标准差S分别代替μ和σ,按公式(2.19)求得u值;③曲线下横轴上的总面积为100%或1\n第2章定量资料统计描述第90页例2.16前例2.1中,某年某市120名12岁健康男孩身高,已知均数=143.07cm,标准差S=5.70cm,①估计该地12岁健康男孩身高在135cm以下者占该地12岁男孩总数的百分数;②估计身高界于135cm~150cm范围内12岁男孩的比例;③分别求出均数±1S、均数±1.96S、均数±2.58S范围内12岁男孩人数占该120名男孩总数的实际百分数,说明与理论百分数是否接近。\n第2章定量资料统计描述第91页根据题意,按公式(2.19)作u变换\n第2章定量资料统计描述第92页身高范围所占面积故估计该地12男孩身高在135cm以下者约占7.78%;身高界于135cm~150cm范围内者约占81.10%。\n第2章定量资料统计描述第93页三、正态分布的应用㈠制定医学参考值范围参考值范围也称为正常值范围。医学上常把绝大数正常人的某指标范围称为该指标的正常值范围。这里的“绝大多数”可以是90%、95%、99%,最常用的是95%。㈡质量控制常以均数±2S作为上、下警戒值,以均数±3S作为上、下控制值。㈢正态分布是很多统计方法的理论基础\n第2章定量资料统计描述第94页THEENDTHANKYOUFORLISTENING\n第3章总体均数的区间估计和假设检验第95页本科生用医学统计学教案主讲程琮泰山医学院预防医学教研室Zcheng@tsmc.edu.cn\n第3章总体均数的区间估计和假设检验第96页Theteachingplan formedicalstudentsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第3章总体均数的区间估计和假设检验第97页第3章总体均数的区间估计和假设检验目录第五节均数的u检验第二节t分布第三节总体均数的区间估计第四节假设检验的意义和基本步骤第一节均数的抽样误差与标准误第六节均数的t检验第七节两个方差的齐性检验和t’检验第八节Ⅰ型错误和Ⅱ型错误第九节应用假设检验应注意的问题\n第3章总体均数的区间估计和假设检验第98页图示:总体与样本Populationμsample2sample1sample3sample4sample5\n第3章总体均数的区间估计和假设检验第99页一、标准误的意义及其计算统计推断(statisticalinference):根据样本信息来推论总体特征。均数的抽样误差:由抽样引起的样本均数与总体均数的差异称为均数的抽样误差。标准误(standarderror):反映均数抽样误差大小的指标。第一节均数的抽样误差与标准误\n第3章总体均数的区间估计和假设检验第100页σ已知:标准误计算公式σ未知:\n第3章总体均数的区间估计和假设检验第101页实例:如某年某市120名12岁健康男孩,已求得均数为143.07cm,标准差为5.70cm,按公式计算,则标准误为:\n第3章总体均数的区间估计和假设检验第102页1.表示抽样误差的大小;2.进行总体均数的区间估计;3.进行均数的假设检验等。二、标准误的应用\n第3章总体均数的区间估计和假设检验第103页正态变量X采用u=(X-μ)/σ变换,则一般的正态分布N(μ,σ)即变换为标准正态分布N(0,1)。又因从正态总体抽取的样本均数服从正态分布N(μ,),同样可作正态变量的u变换,即第二节t分布一、t分布的概念\n第3章总体均数的区间估计和假设检验第104页实际工作中由于理论的标准误往往未知,而用样本的标准误作为的估计值,此时就不是u变换而是t变换了,即下式:\n第3章总体均数的区间估计和假设检验第105页t分布于1908年由英国统计学家W.S.Gosset以“Student”笔名发表,故又称Studentt分布(Students’t-distribution)。\n第3章总体均数的区间估计和假设检验第106页二、t分布曲线的特征t分布曲线是单峰分布,以0为中心,左右两侧对称,曲线的中间比标准正态曲线(u分布曲线)低,两侧翘得比标准正态曲线略高。t分布曲线随自由度υ而变化,当样本含量越小(严格地说是自由度υ=n-1越小),t分布与u分布差别越大;当逐渐增大时,t分布逐渐逼近于u分布,当υ=∞时,t分布就完全成正态分布。t分布曲线是一簇曲线,而不是一条曲线。t分布下面积分布规律:查t分布表。\n第3章总体均数的区间估计和假设检验第107页t分布示意图\n第3章总体均数的区间估计和假设检验第108页t分布曲线下双侧或单侧尾部合计面积我们常把自由度为υ的t分布曲线下双侧尾部合计面积或单侧尾部面积为指定值α时,则横轴上相应的t界值记为tα,υ。如当υ=20,α=0.05时,记为t0.05,20;当υ=22,α=0.01时,记为t0.01,22。对于tα,υ值,可根据α和υ值,查附表2,t界值表。\n第3章总体均数的区间估计和假设检验第109页t分布是t检验的理论基础。由公式(3.4)可知,│t│值与样本均数和总体均数之差成正比,与标准误成反比。在t分布中│t│值越大,其两侧或单侧以外的面积所占曲线下总面积的比重就越小,说明在抽样中获得此│t│值以及更大│t│值的机会就越小,这种机会的大小是用概率P来表示的。│t│值越大,则P值越小;反之,│t│值越小,P值越大。根据上述的意义,在同一自由度下,│t│≥tα,则P≤α;反之,│t│<tα,则P>α。\n第3章总体均数的区间估计和假设检验第110页第三节总体均数的区间估计参数估计:用样本指标(统计量)估计总体指标(参数)称为参数估计。估计总体均数的方法有两种,即:点值估计(pointestimation)区间估计(intervalestimation)。\n第3章总体均数的区间估计和假设检验第111页一、点值估计点值估计:是直接用样本均数作为总体均数的估计值。此法计算简便,但由于存在抽样误差,通过样本均数不可能准确地估计出总体均数大小,也无法确知总体均数的可靠程度。\n第3章总体均数的区间估计和假设检验第112页二、区间估计区间估计是按一定的概率(1-α)估计包含总体均数可能的范围,该范围亦称总体均数的可信区间(confidenceinterval,缩写为CI)。1-α称为可信度,常取1-α为0.95和0.99,即总体均数的95%可信区间和99%可信区间。1-α(如95%)可信区间的含义是:总体均数被包含在该区间内的可能性是1-α,即(95%),没有被包含的可能性为α,即(5%)。\n第3章总体均数的区间估计和假设检验第113页总体均数的可信区间的计算1.未知σ且n较小(n<100)按t分布的原理2.已知σ或n较大(n≥100)按u分布的原理\n第3章总体均数的区间估计和假设检验第114页95%的可信区间为123.7±2.064×2.38,即(118.79,128.61)。故该地1岁婴儿血红蛋白平均值95%的可信区间为118.7~128.61(g/L)。例3.1为了了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿25人,测得其血红蛋白的平均数为123.7g/L,标准差为11.9g/L。试求该地1岁婴儿的血红蛋白平均值95%的可信区间。\n第3章总体均数的区间估计和假设检验第115页例3.2上述某市120名12岁健康男孩身高均数为143.07cm,标准误为0.52cm,试估计该市12岁康男孩身高均数95%和99%的可信区间。95%的可信区间为143.07±1.96×0.52,即(142.05,144.09)。99%的可信区间为143.07±2.58×0.52,即(141.73,144.41)。\n第3章总体均数的区间估计和假设检验第116页注意点标准误愈小,估计总体均数可信区间的范围也愈窄,说明样本均数与总体均数愈接近,对总体均数的估计也愈精确;反之,标准误愈大,估计总体均数可信区间的范围也愈宽,说明样本均数距总体均数愈远,对总体均数的估计也愈差。\n第3章总体均数的区间估计和假设检验第117页表3-1标准差和标准误的区别\n第3章总体均数的区间估计和假设检验第118页第四节假设检验的意义和基本步骤假设检验(hypothesistest):亦称显著性检验(significancetest),是统计推断的重要内容。它是指先对总体的参数或分布作出某种假设,再用适当的统计方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。\n第3章总体均数的区间估计和假设检验第119页例3.3根据大量调查,已知健康成年男子脉搏的均数为72次/分钟,某医生在一山区随机测量了25名健康成年男子脉搏数,求得其均数为74.2次/分钟,标准差为6.5次/分钟,能否认为该山区成年男子的脉搏数与一般健康成年男子的脉搏数不同?本例两个均数不等有两种可能性:①山区成年男子的脉搏总体均数与一般健康成年男子的脉搏总体均数是相同的,差别仅仅由于抽样误差所致;②受山区某些因素的影响,两个总体的均数是不相同的。如何作出判断呢?按照逻辑推理,如果第一种可能性较大时,可以接受它,统计上称差异无统计学意义(nostatisticalsignificance);如果第一种可能性较小时,可以拒绝它而接受后者,统计上称差异有统计学意义(statisticalsignificance)。\n第3章总体均数的区间估计和假设检验第120页假设检验的一般步骤如下:1.建立检验假设一种是无效假设(nullhypothesis),符号为H0;一种是备择假设(alternativehypothesis)符号为H1。H0:H1:\n第3章总体均数的区间估计和假设检验第121页表3-2样本均数所代表的未知总体均数与已知总体均数的比较\n第3章总体均数的区间估计和假设检验第122页表3-3两样本均数所代表的未知总体均数的比较\n第3章总体均数的区间估计和假设检验第123页2.确定检验水准检验水准(sizeofatest)亦称显著性水准(significancelevel),符号为α。它是判别差异有无统计意义的概率水准,其大小应根据分析的要求确定。通常取αα=0.05。3.选定检验方法和计算统计量根据研究设计的类型和统计推断的目的要求选用不同的检验方法。如完全随机设计中,两样本均数的比较可用t检验,样本含量较大时(n>100),可用u检验。不同的统计检验方法,可得到不同的统计量,如t值和u值。\n第3章总体均数的区间估计和假设检验第124页4.确定概率P值P值是指在H0所规定的总体中作随机抽样,获得等于及大于(或小于)现有统计量的概率。│t│≥tα,υ,则P≤α;│t│α。\n第3章总体均数的区间估计和假设检验第125页5.作出推断结论①当P≤α时,表示在H0成立的条件下,出现等于及大于现有统计量的概率是小概率,根据小概率事件原理,现有样本信息不支持H0,因而拒绝H0,结论为按所取检验水准拒绝H0,接受H1,即差异有统计学意义,如例3.3可认为两总体脉搏均数有差别;②当P>α时,表示在H0成立的条件下,出现等于及大于现有统计量的概率不是小概率,现有样本信息还不能拒绝H0,结论为按所取检验水准不拒绝H0,即差异无统计意义,如例3.3尚不能认为两总体脉搏均数有差别。\n第3章总体均数的区间估计和假设检验第126页下结论时的注意点:P≤α,拒绝H0,不能认为H0肯定不成立,因为虽然在H0成立的条件下出现等于及大于现有统计量的概率虽小,但仍有可能出现;同理,P>α,不拒绝H0,更不能认为H0肯定成立。由此可见,假设检验的结论是具有概率性的,无论拒绝H0或不拒绝H0,都有可能发生错误,即第一类错误或第二类错误\n第3章总体均数的区间估计和假设检验第127页第五节均数的u检验国外统计书籍及统计软件亦称为单样本u检验(onesampleu-test)。样本均数与总体均数比较的u检验适用于:①总体标准差σ已知的情况;②样本含量较大时,比如n>100时。对于后者,是因为n较大,υ也较大,则t分布很接近u分布的缘故。一、样本均数与总体均数比较的u检验\n第3章总体均数的区间估计和假设检验第128页u值的计算公式为:总体标准差σ已知时,不管n的大小。总体标准差σ未知时,但n>100时。\n第3章总体均数的区间估计和假设检验第129页例3.4某托儿所三年来测得21~24月龄的47名男婴平均体重11kg。查得近期全国九城市城区大量调查的同龄男婴平均体重11.18kg,标准差为1.23kg。问该托儿所男婴的体重发育状况与全国九城市的同期水平有无不同?(全国九城市的调查结果可作为总体指标)实例\n第3章总体均数的区间估计和假设检验第130页(1)建立检验假设H0:μ=μ0,即该托儿所男婴的体重发育状况与全国九城市的同期水平相同,α=0.05(双侧)H1:μ≠μ0,即该托儿所男婴的体重发育状况与全国九城市的同期水平不同。(2)计算u值本例因总体标准差σ已知,故可用u检验。本例n=47,样本均数=11,总体均数=11.18,总体标准差=1.23,代入公式(3.7)\n第3章总体均数的区间估计和假设检验第131页(3)确定P值,作出推断结论查u界值表(附表2,t界值表中为∞一行),得u0.05=1.96,u=1.0030.05。按α=0.05水准,不拒绝H0,差异无统计学意义。结论:可认为该托儿所男婴的体重发育状况与全国九城市的同期水平相同。\n第3章总体均数的区间估计和假设检验第132页二、两样本均数比较的u检验该检验也称为独立样本u检验(independentsampleu-test),适用于两样本含量较大(如n1>50且n2>50)时,u值可按下式计算:\n第3章总体均数的区间估计和假设检验第133页例3.5测得某地20~24岁健康女子100人收缩压均数为15.27kPa,标准差为1.16kPa;又测得该地20~24岁健康男子100人收缩压均数为16.11kPa,标准差为1.41kPa。问该地20~24岁健康女子和男子之间收缩压均数有无差别?实例\n第3章总体均数的区间估计和假设检验第134页(1)建立检验假设H0:μ1=μ2,即该地20~24岁健康女子和男子之间收缩压均数相同;H1:μ1≠μ2,即该地20~24岁健康女子和男子之间收缩压均数不同。α=0.05(双侧)(2)计算u值本例n1=100,均数1=15.27,S1=1.16n2=100,均数2=16.11,S2=1.41\n第3章总体均数的区间估计和假设检验第135页(3)确定P值,作出推断结论查u界值表(附表2,t界值表中为∞一行),得u0.05=1.96,现u>u0.05=1.96,故P<0.05。按水准α=0.05,拒绝H0,接受H1,差异有统计学意义。结论:可认为该地20~24岁健康人的收缩压均数男性高于女性。\n第3章总体均数的区间估计和假设检验第136页第六节均数的t检验当样本含量较小(如n<50)时,t分布和u分布有较大的出入,所以小样本的样本均数与总体均数的比较以及两个样本均数的比较要用t检验。t检验的适用条件:①样本来自正态总体或近似正态总体;②两样本总体方差相等。\n第3章总体均数的区间估计和假设检验第137页一、样本均数与总体均数比较的t检验亦称为单样本t检验(onesamplet-test)。即样本均数代表的未知总体均数与已知的总体均数(一般为理论值、标准值或经过大量观察所得的稳定值等)进行比较。这时检验统计量t值的计算在H0成立的前提条件下由公式(3.4)变为:\n第3章总体均数的区间估计和假设检验第138页例3.6对例3.3资料进行t检验。(1)建立检验假设H0:μ=μ0,即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数相同;H1:μ≠μ0,即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数不同。α=0.05(双侧)(2)计算t值本例n=25,s=6.5,样本均数=74.2,总体均数=72,代入公式(3.10)\n第3章总体均数的区间估计和假设检验第139页(3)确定P值,作出推断结论本例υ=25-1=24,查附表2,t界值表,得t0.05,24=2.064,现t=1.6920.05。按α=0.05的水准,不拒绝H0,差异无统计学意义。结论:即根据本资料还不能认为此山区健康成年男子脉搏数与一般健康成年男子不同。\n第3章总体均数的区间估计和假设检验第140页二、配对资料的t检验医学科研中配对资料的三种主要类型:同一批受试对象治疗前后某些生理、生化指标的比较;同一种样品,采用两种不同的方法进行测定,来比较两种方法有无不同;配对动物试验,各对动物试验结果的比较等。配对实验设计得到的资料称为配对资料。\n第3章总体均数的区间估计和假设检验第141页先求出各对子的差值d的均值,若两种处理的效应无差别,理论上差值d的总体均数应为0。所以这类资料的比较可看作是样本均数与总体均数为0的比较。要求差值的总体分布为正态分布。t检验的公式为:配对资料的t检验(pairedsamplest-test)\n第3章总体均数的区间估计和假设检验第142页例3.7设有12名志愿受试者服用某减肥药,服药前和服药后一个疗程各测量一次体重(kg),数据如表3-4所示。问此减肥药是否有效?(1)建立检验假设H0:μd=0,即该减肥药无效;H1:μd≠0,即该减肥药有效。单侧α=0.05\n第3章总体均数的区间估计和假设检验第143页表3-4某减肥药研究的体重(kg)观察值\n第3章总体均数的区间估计和假设检验第144页(2)计算t值本例n=12,Σd=-16,Σd2=710,差值的均数=Σd/n=-16/12=-1.33(kg)\n第3章总体均数的区间估计和假设检验第145页(3)确定P值,作出推断结论自由度=n-1=12-1=11,查附表2,t界值表,得单侧t0.05,11=2.201,现t=0.580.05。按α=0.05水准,不拒绝H0,差异无统计学意义。结论:故尚不能认为该减肥药有减肥效果。\n第3章总体均数的区间估计和假设检验第146页例3.8某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近配成8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,然后定期将大白鼠杀死,测得其肝中维生素A的含量如表3-5。问不同饲料组的大白鼠肝中维生素A含量有无差别?(自学内容)\n第3章总体均数的区间估计和假设检验第147页三、两样本均数比较的t检验两本均数比较的t检验亦称为成组t检验,又称为独立样本t检验(independentsamplest-test)。适用于比较按完全随机设计而得到的两组资料,比较的目的是推断它们各自所代表的总体均数和是否相等。\n第3章总体均数的区间估计和假设检验第148页样本估计值为:总体方差已知:标准误的计算公式\n第3章总体均数的区间估计和假设检验第149页若n1=n2时:已知S1和S2时:\n第3章总体均数的区间估计和假设检验第150页例3.9测得14名慢性支气管炎病人与11名健康人的尿中17酮类固醇(mol/24h)排出量如下,试比较两组人的尿中17酮类固醇的排出量有无不同。原始调查数据如下:病人X1:n=14;10.0518.7518.9915.9413.9617.6720.5117.2214.6915.109.428.217.2424.60健康人X2:n=11;17.9530.4610.8822.3812.8923.0113.8919.4015.8326.7217.29\n第3章总体均数的区间估计和假设检验第151页(1)建立检验假设H0:μ1=μ2,即病人与健康人的尿中17酮类固醇的排出量相同H1:μ1≠μ2,即病人与健康人的尿中17酮类固醇的排出量不同α=0.05\n第3章总体均数的区间估计和假设检验第152页(2)计算t值本例n1=14,ΣX1=212.35,ΣX12=3549.0919n2=11,ΣX2=210.70,ΣX22=4397.64\n第3章总体均数的区间估计和假设检验第153页(3)确定P值作出推断结论υ=14+11-2=23,查t界值表,得t0.05,23=2.069,现t=1.80350.05。按α=0.05水准,不拒绝H0,差异无统计学意义。结论:尚不能认为慢性支气管炎病人与健康人的尿中17酮类固醇的排出量不同。\n第3章总体均数的区间估计和假设检验第154页四、两样本几何均数t检验比较两样本几何均数的目的是推断它们各自代表的总体几何均数有无差异。适用于:①观察值呈等比关系,如血清滴度;②观察值呈对数正态分布,如人体血铅含量等。。两样本几何均数比较的t检验公式与两样本均数比较的t检验公式相同。只需将观察X用lgX来代替就行了\n第3章总体均数的区间估计和假设检验第155页例3.10将20名钩端螺旋体病人的血清随机分为两组,分别用标准株和水生株作凝溶试验,抗体滴度的倒数(即稀释度)结果如下。问两组抗体的平均效价有无差别?标准株(11人):1002004004004004008001600160016003200水生株(9人):1001001002002002002004001600将两组数据分别取对数,记为x1,x2。x1:2.0002.3012.6022.6022.6022.6022.9033.2043.2043.2043.505x2:2.0002.0002.0002.3012.3012.3012.3012.6023.204\n第3章总体均数的区间估计和假设检验第156页一、两样本方差的齐性检验用较大的样本方差S2比较小的样本方差S2第七节两总体方差的齐性检验和t'检验υ1为分子自由度,υ2为分母自由度\n第3章总体均数的区间估计和假设检验第157页注意:①方差齐性检验本为双侧检验,但由于公式(3.18)规定以较大的方差作分子,F值必然大于1,故附表3单侧0.025的界值,实对应双侧检验P=0.05;②当样本含量较大时(如n1和n2均大于50),可不必作方差齐性检验。\n第3章总体均数的区间估计和假设检验第158页深层水:n1=8,样本均数=1.781(mg/L),S1=1.899(mg/L)表层水:n2=10,样本均数=0.247(mg/L),S2=0.210(mg/L)例3.11某研究所为了了解水体中汞含量的垂直变化,对某氯碱厂附近一河流的表层水和深层水作了汞含量的测定,结果如下。试检验两个方差是否齐性。\n第3章总体均数的区间估计和假设检验第159页确定P值作出推断结论本例υ1=8-1=7,υ2=10-1=9,查附表3,F界值表(方差齐性检验用),得F0.05,7,9=4.20,本例F=80.97>F0.05,7,9=4.20;故P<0.05,按α=0.05水准,拒绝H0,接受H1,结论:故可认为两总体方差不齐。\n第3章总体均数的区间估计和假设检验第160页方差不齐时,两小样本均数的比较,可选用以下方法:①采用适当的变量变换,使达到方差齐的要求;②采用秩和检验;③采用近似法t'检验。二、t'检验\n第3章总体均数的区间估计和假设检验第161页计算统计量t'值\n第3章总体均数的区间估计和假设检验第162页例3.12由例3.11已知表层水和深层水含汞量方差不齐,试比较其均数有无差别?自学内容\n第3章总体均数的区间估计和假设检验第163页假设检验中作出的推断结论可能发生两种错误:①拒绝了实际上是成立的H0,这叫Ⅰ型错误(typeⅠerror)或第一类错误,也称为α错误。②不拒绝实际上是不成立的H0,这叫Ⅱ型错误(typeⅡerror)或第二类错误,也称为β错误。第八节Ⅰ型错误和Ⅱ型错误\n第3章总体均数的区间估计和假设检验第164页表3-6可能发生的两类错误\n第3章总体均数的区间估计和假设检验第165页\n第3章总体均数的区间估计和假设检验第166页联系:一般α增大,则β减小;α减小,则β增大;区别:(1)一般α为已知,可取单侧或双侧,如0.05,或0.01。(2)一般β为未知,只取单侧,如取0.1或0.2。1-β(把握度)≮0.75。两类错误的联系与区别\n第3章总体均数的区间估计和假设检验第167页1-β称为检验效能(poweroftest)或把握度,其意义是两总体确有差别,按α水准能发现它们有差别的能力。α与β的大小应根据实际情况适当取值。\n第3章总体均数的区间估计和假设检验第168页1.资料要来自严密的抽样研究设计2.选用假设检验的方法应符合其应用条件3.正确理解差别有无显著性的统计涵义正确理解差别有统计学意义及临床上的差别的统计学意义。4.假设检验的推断结论不能绝对化5.要根据资料的性质事先确定采用双侧检验或单侧检验第九节应用假设检验的注意问题\n第3章总体均数的区间估计和假设检验第169页THANKYOUFORLISTENINGTHEEND\n第4章方差分析第170页医学本科生用泰山医学院预防医学教研室Email:zcheng@tsmc.edu.cn主讲程琮医学统计学\n第4章方差分析第171页TeachingPlanforMedicalStudentsMedicalStatisticsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第4章方差分析第172页第4章方差分析目录第五节多个方差的齐性检验第二节单因素方差分析第三节双因素方差分析第四节多个样本均数间的两两比较第一节方差分析的基本思想第六节变量变换\n第4章方差分析第173页第四章方差分析学习要求:1。掌握方差分析的基本思想;2。掌握单因素、双因素方差分析的应用条件、意义及计算方法;3。熟悉多个均数间两两比较的意义及方法;4。了解方差齐性检验和t’检验的意义及方法;5。熟悉变量变换的意义和方法。\n第4章方差分析第174页第一节方差分析的基本思想一、方差分析的用途及应用条件方差分析(analysisofvariance,缩写为ANOVA)是常用的统计分析方法之一。其应用广泛,分析效率高,节省样本含量。主要用途有:①进行两个或两个以上样本均数的比较;②可以同时分析一个、两个或多个因素对试验结果的作用和影响;③分析多个因素的独立作用及多个因素之间的交互作用;④进行两个或多个样本的方差齐性检验等。方差分析对分析数据的要求及条件比较严格,即要求各样本为随机样本,各样本来自正态总体,各样本所代表的总体方差齐性或相等。\n第4章方差分析第175页二、方差分析的基本思想处理因素可分为若干个等级或不同类型,通常称为水平。在不同的水平下进行若干次试验并取得多个数据,可以将在每个水平下取得的这些数据看作一个样本。若某个因素有四个水平,每个水平的数据代表一个样本,则获得四个样本的数据。设有k个相互独立的样本,分别来自k个正态总体X1,X2,…Xk,且方差相等,即要求检验假设为此假设的意义为,在某处理因素的不同水平下,各样本的总体均数相等。\n第4章方差分析第176页1。设某因素有多个水平,即试验数据产生多个样本。由多个样本的全部数据可以计算出总变异,称为总的离均差平方和。即SS总。2。数理统计证明,SS总可以由几个部分构成。单因素方差分析中,SS总由组间变异和组内变异构成。SS总=SS组间+SS组内。3。组间变异主要受到处理因素和个体误差两方面影响,组内变异主要受个体误差的影响。当H0为真时,由于处理因素不起作用,组间变异只受个体误差的影响。此时,组间变异与组内变异相差不能太大。\n第4章方差分析第177页表4-2PCNA在三种不同胃组织中的表达结果标本Xj不同胃组织XiABC156302124637143392027…………∑Xj553221100874(∑X)ni109827(N)均数55.3024.5612.532.37(总均值)∑Xj2312916273167239236(∑X2)\n第4章方差分析第178页4。各种变异除以相应的自由度,称为均方,用MS表示,也就是方差。当H0为真时,组间均方与组内均方相差不大,两者比值F值约接近于1。即F=组间均方/组内均方≈1。5。当H0不成立时,处理因素产生了作用,使得组间均方增大,此时,F>>1,当大于等于F临界值时,则P≤0.05。可认为H0不成立,各样本均数不全相等。\n第4章方差分析第179页三、方差分析的类型1。单因素方差分析(one-wayANOVA)也称为完全随机设计(completelyrandomdesign)的方差分析。该设计只能分析一个因素下多个水平对试验结果的影响。2。双因素方差分析(two-wayANOVA)称为随机区组设计(randomizedblockdesign)的方差分析。该设计可以分析两个因素。一个为处理因素,也称为列因素;一个为区组因素,也称为行因素。\n第4章方差分析第180页3。三因素方差分析也称为拉丁方设计(Latinsquaredesign)的方差分析。该设计特点是,可以同时分析三个因素对试验结果的作用,且三个因素之间相互独立,不能有交互作用。4。析因设计(factorialdesign)的方差分析当两个因素或多个因素之间存在相互影响或交互作用时,可用该设计来进行分析。该设计不仅可以分析多个因素的独立作用,也可以分析多个因素间的交互作用,是一种高效率的方差分析方法。\n第4章方差分析第181页5。正交试验设计的方差分析如果要分析的因素有三个或三个以上,可进行正交试验设计(orthogonalexperimentaldesign)的方差分析。当分析因素较多时,试验次数会急剧增加,用此设计进行分析则更能体现出其优越性。该设计利用正交表来安排各次试验,以最少的试验次数,得到更多的分析结果。\n第4章方差分析第182页四、方差分析的基本步骤1。计算总变异:指所有试验数据的离均差平方和。2。计算各部分变异:单因素方差分析中,可以分出组间变异(SS组间)和组内变异(SS组内);双因素方差分析中,可以分出处理组变异(SS处理),区组变异(SS区组)或称为配伍组变异(SS配伍)及误差变异(SS误差)。\n第4章方差分析第183页3。计算各部分变异的均方在方差分析中,方差也称为均方,是各部分的离均差平方和除以其相应的自由度,用MS表示。基本公式为:MS=SS/ν。4。计算统计量F值F值是指两个均方之比。一般是用较大的均方除以较小的均方。故F值一般不会小于1。5。确定P值,推断结论根据分子ν1,分母ν2,查F界值表(方差分析用),得到F值的临界值(criticalvalue),即:如果F≥F界值,则P≤0.05,在α=0.05水准上拒绝H0,接受H1。可以认为各样本所代表的总体均数不全相等。如果想要了解哪两个样本均数之间有差异,可以继续进行各样本均数的两两比较。\n第4章方差分析第184页第二节单因素方差分析1。特点单因素方差分析是按照完全随机设计的原则将处理因素分为若干个不同的水平,每个水平代表一个样本,只能分析一个因素对试验结果的影响及作用。其设计简单,计算方便,应用广泛,是一种常用的分析方法,但其效率相对较低。该设计中的总变异可以分出两个部分,即SS总=SS组间+SS组内。2。常用符号及其意义(1)Xij意义为第i组的第j个数据。其中下标i表示列,j表示行。(2)意义为将第i组的全部j个数据合计。\n第4章方差分析第185页(3)将第i组的j个数据合计后平方,再将所有各i组的平方值合计。(4)变异来源①SS总:表示变异由处理因素及随机误差共同所致;②SS组间:表示变异来自处理因素的作用或影响;③SS组内:表示变异由个体差异和测量误差等随机因素所致。\n第4章方差分析第186页计算公式\n第4章方差分析第187页三。计算实例例4.1科研人员研究细胞增殖核抗原(PCNA)在胃癌组织(A组),胃癌旁组织(B组)及正常胃粘膜组织(C组)中的表达状况。检测结果用表达指数来表示。数据见表4-2。试分析PCNA在三种胃组织中的表达有无差异。\n第4章方差分析第188页表4-2PCNA在三种不同胃组织中的表达结果标本Xj不同胃组织XiABC156302124637143392027…………∑Xj553221100874(∑X)ni109827(N)均数55.3024.5612.532.37(总均值)∑Xj2312916273167239236(∑X2)\n第4章方差分析第189页检验步骤及方法⑴建立检验假设H0:PCNA在三种组织中的表达指数相同,μ1=μ2=μ3;H1:PCNA在三种组织中的表达指数不全相同。α=0.05,⑵计算检验统计量F值由表4-2的数据计算有:校正系数C=(∑X)2/N=(874)2/27=28291.70SS总=∑X2-C=39236-28291.70=10944.3υ总=N-1=27-1=26\n第4章方差分析第190页υ组间=k-1=3-1=2SS组内=SS总-SS组间=10944.3-8965.98=1978.32\n第4章方差分析第191页(3)列方差分析表见表4-3。(4)确定P值根据α=0.05,υ1=υ组间=2,υ2=υ组内=24,查附表4,F界值表,得F界值:F0.01(2,24)=5.61。本例F=54.39,大于界值F0.01(2,24)=5.61,则P<0.01。(5)推断结论由于P<0.01,在α=0.05水准上拒绝H0,接受H1,差异有统计学意义。可以认为PCNA在三种不同胃组织中的表达指数不全相同。该结论的意义为,至少有两种组织的PCNA表达指数不同。如果想确切了解哪两个组织的PCNA表达指数有差异,可进一步作多个样本均数的两两比较。\n第4章方差分析第192页表4-3方差分析表变异来源SS自由度均方F值F0.05F0.01P值(1)(2)(3)(4)(5)(6)(7)(8)SS总10944.3026SS组间8965.9824482.9954.393.405.61<0.01SS组内1978.322482.43\n第4章方差分析第193页第三节双因素方差分析一、特点及意义1.特点按照随机区组设计的原则来分析两个因素对试验结果的影响及作用。其中一个因素称为处理因素,一般作为列因素;另一个因素称为区组因素或配伍组因素,一般作为行因素。两个因素相互独立,且无交互影响。双因素方差分析使用的样本例数较少,分析效率高,是一种经常使用的分析方法。但双因素方差分析的设计对选择受试对象及试验条件等方面要求较为严格,应用该设计方法时要十分注意。该设计方法中,总变异可以分出三个部分:SS总=SS处理+SS区组+SS误差\n第4章方差分析第194页2.常用符号及其意义⑴:将第i个处理组的j个数据合计后平方,再将所有i个处理组的平方值合计。⑵:将第j个区组的i个数据合计后平方,再将所有j个区组的平方值合计。⑶各种变异来源SS总:总变异,由处理因素、区组因素及随机误差的综合作用而形成。SS处理:各处理组之间的变异,可由处理因素的作用所致。SS区组或SS配伍:各区组之间的变异,可由区组因素的作用所致。SS误差:从总变异中去除SS处理及SS区组后剩余的变异。此变异由个体差异和测量误差等随机因素所致。\n第4章方差分析第195页计算公式\n第4章方差分析第196页三、计算实例例4.2某医院研究五种消毒液对四种细菌的抑制效果。抑制效果用抑菌圈直径(mm)表示。数据见表4-5。试分析五种消毒液对细菌有无抑制作用,对四种细菌的抑制效果有无差异。\n第4章方差分析第197页表4-5消毒液对不同细菌的抑制效果\n第4章方差分析第198页检验步骤及方法(1)建立检验假设1)对处理因素作用的检验假设H0:五种消毒液的消毒效果相同,μ1=μ2=μ3=μ4=μ5;H1:五种消毒液的消毒效果不全相同。α=0.052)对区组因素作用的检验假设H0:四种细菌的抑菌圈直径相同,μ1=μ2=μ3=μ4;H1:四种细菌的抑菌圈直径不全相同。α=0.05\n第4章方差分析第199页(2)计算统计量F值由表4-5数据计算,有:校正系数C=(∑X)2/N=(348)2/20=6055.2SS总=∑X2-C=6716-6055.2=660.8υ总=N-1=20-1=19υ处理=k-1=5-1=4\n第4章方差分析第200页υ区组=b-1=4-1=3SS误差=SS总-SS处理-SS区组=660.8-31.3-566=63.5υ误差=(k-1)(b-1)=(5-1)(4-1)=12\n第4章方差分析第201页υ误差=υ总-υ处理-υ区组=(4-1)(5-1)=12MS处理=SS处理/υ处理=(31.3)/4=7.825MS区组=SS区组/υ区组=(566)/3=188.667MS误差=SS误差/υ误差=(63.5)/12=5.292F处理=MS处理/MS误差=7.825/5.292=1.4796F区组=MS区组/MS误差=188.667/5.292=35.65\n第4章方差分析第202页表4-6双因素方差分析表\n第4章方差分析第203页4)确定P值根据α=0.05,υ1=υ处理=4,υ2=υ误差=12,查附表4,F界值表,得F0.05(4,12)=3.26,F0.01(4,12)=5.41,再由υ1=υ区组=3,υ2=υ误差=12,查F界值表,得F0.05(3,12)=3.49,F0.01(3,12)=5.95。本例F处理=35.65,P<0.01;F区组=1.48,P>0.05。(5)推断结论由表4-6知,①处理组间的P>0.05,在α=0.05水准上不拒绝H0,差异无统计学意义。可以认为五种消毒液之间的消毒效果相同。②区组间P<0.05,在α=0.05水准上拒绝H0,接受H1,差异无统计学意义。可认为不同细菌的抑菌圈直径不全相同,即消毒液对不同细菌类型的抑菌效果不全相同。\n第4章方差分析第204页第四节多个样本均数间的两两比较一、均数两两比较的特点和意义1。当分析结果为P≤α,拒绝H0时,得出的结论只是指各总体均数不全相等。如果想要确切了解哪两个样本均数之间的差异有统计学意义(总体均数不等),哪两个样本均数之间的差异无统计学意义(总体均数相等),可以进行多个样本均数的两两比较。2。当有三个及三个以上样本均数比较时,如果仍使用一般的t检验对样本均数两两组合后进行比较,会使检验水平α值增大,即增大第一类错误的概率,这样,就可能把本来无差别的两个总体均数判为有差别。例如,有4个样本均数进行两两比较,如用一般的t检验,则可以比较\n第4章方差分析第205页例如,有4个样本均数进行两两比较,如用一般的t检验,则可以比较6次,即可有6个对比组。若每次比较的检验水准α=0.05,则每次比较不犯第一类错误的概率为(1-0.05)=0.95。那么根据概率的乘法法则,比较6次均不犯第一类错误的概率为(1-0.05)6=0.7351。此时,总的显著性水平变为:α=1-0.7351=0.2649。此值已远远大于规定的检验性水平α=0.05。\n第4章方差分析第206页二、SNK-q检验法(一)特点及意义SNK-q检验法,全称为Student-Newman-Keulsq检验法,也简称为SNK法。这是国内外常用而较为经典的检验方法。可以对所有对照组及处理组的样本均数进行两两比较。式中:q为检验统计量,及为任意比较的两样本均数,为两样本均数差值的标准误。\n第4章方差分析第207页当两样本n相等时自由度=υ误差当两样本n不相等时上式中MS误差在单因素方差分析中即为MS组内。\n第4章方差分析第208页(三)计算步骤及方法1.首先将多个样本均数由大到小顺序排列。2.按照两均数组合原则,计算出每两个样本均数比较的统计量q值。3.根据误差的自由度和两样本间隔组数a,查q界值表得q界值。注意:组数a的计算方法:由于各样本均数已由大到小顺序排列,因此,相邻两样本均数比较时,组数a=2,中间间隔一个样本均数时,组数a=3,间隔两个样本均数时,组数a=4,余类推。\n第4章方差分析第209页(四)计算实例例4.3仍以例4.1为计算实例说明计算方法。例4.1的数据经单因素方差分析,P<0.01,拒绝H0,接受H1。可以认为三种胃组织的PCNA表达指数不全相等。进一步作样本均数的两两比较。(1)建立检验假设H0:任意两样本的总体均数相等,μA=μBH1:任意两样本的总体均数不相等,μA≠μBα=0.05(2)计算统计量q值1)将三个样本均数由大到小顺序排列,见表4-7。\n第4章方差分析第210页表4-7三个样本均数顺序排列结果顺序123均数55.3024.5612.50组别ABC\n第4章方差分析第211页表4-8样本均数两两比较q检验表比较组A与B两均数之差组数a标准误q值q0.05q0.01P值(1)(2)(3)(4)(5)(6)(7)(8)1与230.7422.9510.422.923.96<0.011与342.8033.0514.033.534.54<0.012与312.0623.123.872.923.96<0.05\n第4章方差分析第212页⑶推断结论在α=0.05水准上拒绝H0,接受H1,各样本均数的两两比较的差异均有统计学意义。可以认为,胃癌组织,胃癌旁组织及正常胃粘膜组织的PCNA表达指数各不相同。计算统计量q值。应用第(2)栏数据除以第(4)栏数据即得q值。例如,1与2组比较有:\n第4章方差分析第213页(一)特点及意义LSD英文全称为least-significant-difference,译为最小显著差异法或最小有意义差异法,也可简称为LSD法。LSD法实际上是一种t检验法,但它与以前描述的一般t检验法有所不同。两种t检验法的主要区别在于计算标准误中的合并方差及自由度的不同。LSD法在计算标准误时,用MS组内或MS误差取代一般t检验标准误中的,自由度则用MS误差的自由度υ误差=N-K或υ误差=(k-1)(b-1)取代一般t检验法中的自由度υ=n1+n2-2。根据α及υ,查一般的t值表得t界值,与LSD计算的统计量t值的大小进行比较,并确定P值。据此作出判断和结论。三、LSD-t检验法\n第4章方差分析第214页(二)计算公式自由度=υ误差\n第4章方差分析第215页(三)计算步骤及方法LSD-t检验法在查t值表确定t界值时,不需要组数a,故各样本均数也不需要按大小顺序排列。各样本均数两两比较时,仍需要进行组合。组合计算公式及方法与q检验法相同。其它计算步骤与一般t检验法相同。\n第4章方差分析第216页(四)计算实例例4.4仍用例4.1为计算实例,说明LSD法的计算过程。(1)建立检验假设H0:任意两样本的总体均数相等,μA=μBH1:任意两样本的总体均数不相等,μA≠μB双侧α=0.05(2)计算统计量t值列出样本均数两两比较t检验表,见表4-9。\n第4章方差分析第217页表4-9样本均数两两比较t检验表比较组A与B两均数之差标准误t值t0.05t0.01P值(1)(2)(3)(4)(5)(6)(7)1与230.744.177.372.0642.797<0.011与342.804.319.932.0642.797<0.012与312.064.412.732.0642.797<0.05\n第4章方差分析第218页(2)计算标准误和t值;(3)推断结论在α=0.05水准上拒绝H0,接受H1,各样本均数的两两比较的差异均有统计学意义。此结论与q检验法的结论完全相同。\n第4章方差分析第219页(一)特点及意义在进行科研时,经常需要设立一个对照组和若干个实验组或处理组。按照研究目的和设计要求,有时只需要将各个处理组的试验结果与一个对照组进行比较,而各处理组之间并不需要比较。此时,仍可应用前述SNK-q检验法或LSD-t检验法处理资料。因为前两种检验方法均包括所有各组之间的比较。但处理此类资料也有非常常用而经典的方法,称为Dunnett-t检验法。该法在大型统计软件中的应用非常广泛。四、多个处理组与一个对照组均数间的两两比较\n第4章方差分析第220页(二)计算公式Dunnett-t检验计算公式为:当比较组两样本含量ni相等时当比较组两样本含量ni不相等时\n第4章方差分析第221页(四)计算实例例4.5以例4.2为计算实例,说明该方法的计算过程。顺序1234均数2617.214.611.80组别葡萄球菌痢疾杆菌大肠杆菌绿脓杆菌表4-10各组均数排列顺序\n第4章方差分析第222页表4-11Dunnett-t检验表比较组A与B两均数之差组数a标准误t值t0.05t0.01P值(1)(2)(3)(4)(5)(6)(7)(8)1与311.431.457.862.503.39<0.012与32.621.451.792.183.05>0.054与32.821.451.932.183.05>0.05\n第4章方差分析第223页计算均数差值的标准误:计算1与3比较组的标准误。(3)推断结论本例只有1与3比较组P<0.01,故在α=0.05水准上拒绝H0,接受H1,差异有统计学意义。可以认为消毒液对大肠杆菌和葡萄球菌的抑制效果不相同;其它各对比组的P>0.05,不拒绝H0,差异无统计学意义。则可认为消毒液对大肠杆菌,绿脓杆菌和痢疾杆菌的抑制效果相同。\n第4章方差分析第224页第五节多个方差的齐性检验一、概念及意义Bartlett检验法的基本思想是,设各总体方差相等,均等于其合并方差。则各样本方差与合并方差相差不会很大。如果相差很大,则计算的样本的值较大,当超过X2界值时,则P≤α。可以认为各样本所代表的总体方差不全相等。注意:统计软件中,最常用的是Levene方差齐性检验。可用于正态分布及非正态分布的资料。Bartlett检验法:主要用于正态分布的资料,对于非正态分布的资料不适用。具体内容自学。\n第4章方差分析第225页第六节变量变换一、概念及意义(一)概念变量变换(datatransformation)也称为变量代换,是指将原始数据X经过某种数学方法转换为其它的数据形式,使其达到统计学上的某种要求,以利于对资料进行统计处理。如对变量X取对数lgX或取平方根等。常用的变量变换方法有:对数变换,平方根变换,倒数变换,平方根反正弦变换,概率单位变换,logit变换,乘方变换等。\n第4章方差分析第226页(二)意义原始数据经变量变换后主要应该达到下列几个目的:1.使非正态分布的原始数据达到正态分布或近似正态分布。2.使各样本方差不齐的数据达到方差齐性。3.作曲线回归方程时,使之直线化。4.按照统计学要求,经变量变换后简化运算过程。\n第4章方差分析第227页(一)对数变换对数变换(logarithmtransformation)是将原始数据X取对数,并以对数值作为统计分析的新数据,一般对原始数据取常用对数。对数变换常用于:①正偏态分布的资料,尤其是数据呈等比关系的资料,使之成为正态分布或近似正态分布。这类资料也称为对数正态分布资料。②各样本方差不齐。③各样本方差与均数呈正比关系。公式为Y=lgX当原始数据有小值或零值时Y=lg(X+1),Y=lg(X+k),Y=lg(X-k)二、常用变量变换\n第4章方差分析第228页平方根变换(squareroottransformation)是将原始数据X开平方,以平方根值作为统计分析新的变量值。平方根变换的用途:①可以将泊松分布的数据转化为正态分布或近似正态分布;②轻度正偏态分布的资料转化为近似正态分布;③各样本方差不齐或样本方差与均数之间呈正比关系时,可以达到方差齐性,消除或削弱样本方差与均数的正比关系。(二)平方根变换\n第4章方差分析第229页平方根反正弦变换(squarerootarcsinetransformation)是将原始数据取平方根后,再计算反正弦函数值,得到转换后的新变量值。当P=0%时用下式当P=100%时用下式(三)平方根反正弦变换\n第4章方差分析第230页主要用于百分率的转换。百分率服从二项分布,如各种疾病的患病率、发病率、死亡率以及各种百分率等相对数。尤其是当百分率偏离50%较远如大于70%或小于30%时,二项分布偏离正态分布较远。经过将百分率转换后,可使新变量值接近正态分布,且往往达到方差齐性。据此,可对百分率p的均数进行t检验或方差分析。例题:自学内容。平方根反正弦变换的用途:\n第4章方差分析第231页THANKYOUFORLISTENINGTHEEND\n第5章定性资料的统计描述第232页医学统计学主讲程琮泰山医学院预防医学教研室zcheng@tsmc.edu.cn本科生用中文教案\n第5章定性资料的统计描述第233页ChineseTeachingPlan forMedicalStudentsMedicalStatisticsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第5章定性资料的统计描述第234页第5章定性资料的统计描述目录第五节常用的相对数指标第二节应用相对数应注意的问题第三节率的标准化法第四节动态数列及其分析指标第一节常用相对数\n第5章定性资料的统计描述第235页第五章定性资料的统计描述第一节常用相对数绝对数--调查或实验研究中清点定性资料得到的实际数据被称为绝对数。相对数:两个有联系指标之比。医学上常用的相对数有率、构成比相对比等统计指标。\n第5章定性资料的统计描述第236页一、率率(rate)又称频率指标,是某现象实际发生的观察单位数与可能发生该现象的观察单位总数之比,用以说明某现象发生的频率或强度。计算公式为:式中:K为比例基数,常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)表示,原则上使计算结果至少保留1~2位整数。但在医学资料中某些指标的比例基数是固定的。\n第5章定性资料的统计描述第237页常见率的指标如下:⒈粗死亡率、出生率、人口自然增长率、婴儿死亡率、新生儿死亡率等人口学指标常用的比例基数是1000‰。2.恶性肿瘤的死亡率、发病率、患病率通用比例基数是100000/10万。3.生存率、病死率通用的比例基数是100%。\n第5章定性资料的统计描述第238页二、构成比构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分布。常用来表示疾病或死亡的顺位、位次或所占比重。由于构成比之和为100%,一部分变化会影响其它部分的也发生变化。\n第5章定性资料的统计描述第239页率和构成比的区别(补充)构成比率1。各部分可直接相加各率不可直接相加。2。各部分之和等于100%。总率不一定等于各率之和。3。某部分变化,其它部分随之变化。某率的变化,不影响其它各率。\n第5章定性资料的统计描述第240页三、比(相对比)比(ratio)又称相对比,是A、B两个有关指标之比,说明A是B的若干倍或百分之几,通常用倍数或分数表示。计算公式为:(或×100%)\n第5章定性资料的统计描述第241页常用相对比指标1.对比指标:指两个同类事物某种指标(绝对数、两个率或其它同类指标)的比。2.关系指标:指两个有关的、但非同类事物的数量的比。3.计划完成指标:说明计划完成的程度,常用实际数达到计划数的百分之几或几倍表示。\n第5章定性资料的统计描述第242页表5-11993~1998年某地损伤与中毒病死率(%)与构成比(%)年度发病人数病死人数病死率构成比相对比(1)(2)(3)(4)(5)(6)199358481.378.8—1994571101.7511.01.281995714121.6813.21.231996748162.1417.61.561997942212.2323.01.6319981095242.1926.41.60合计4654911.96100.0—\n第5章定性资料的统计描述第243页第二节应用相对数应注意的问题1.计算相对数时分母一般不宜过小,一般不能小于30例。2.分析时不能以构成比代替率。3.对观察单位数不等的几个率,不能直接相加求其总率。4.应当注意不能用构成比的动态分析代替率的动态分析。5.在比较相对数时应注意可比性。6.对样本率(或构成比)的比较应随机抽样,并做假设检验。\n第5章定性资料的统计描述第244页第三节率的标准化法一、标准化法的意义和基本思想率的标准化--不同时间或不同地区的几组率比较时,为了消除资料在年龄、性别或其它有关指标的构成的不同,而选用某一标准人口构成加以校正,称为率的标准化。不同地区,不同时间的两个或多个率直接进行比较是不太合适的。会造成错误的结论。\n第5章定性资料的统计描述第245页表5-4甲、乙两地各年龄组人口数及死亡率(‰)年龄组甲地乙地人口数死亡人数死亡率人口数死亡人数死亡率0~930053257.2480034972.95~12200443.66600304.620~190001015.3353002547.240~76009212.128003914.260~19007640.05002346.0合计5000084516.95000069513.90\n第5章定性资料的统计描述第246页二、标准化率的计算标准化率(standardizedrate)亦称调整率(adjustedrate)。常用的计算方法按已知条件有:直接法:间接法:不讲。反推法:不讲。2。选择标准人口的方法:1)选择两地数据之一的人口数或构成比;2)选择两地数据之和的人口数或构成比;3)选择当地或全国的人口数或构成比;4)国际间比较选用世界通用标准。\n第5章定性资料的统计描述第247页表5-6按公式(5.4)用直接法计算标准化死亡率(‰)年龄组标准人口数甲地乙地(岁)(Ni)原死亡率pi预期死亡数Npi原死亡率pi预期死亡数Npi(1)(2)(3)(4)=(2)(3)(5)(6)=(2)(5)0~1410057.280772.910285~188003.6684.68620~543005.32887.239140~1040012.112614.214860~240040.09646.0110合计100000(N)16.191385(ΣNipi)13.901763(ΣNipi)\n第5章定性资料的统计描述第248页标化结果甲地标准化死亡率乙地标准化死亡率\n第5章定性资料的统计描述第249页表5-7按公式(5.5)用直接法计算标准化死亡率(‰)年龄组标准人口构成比甲地乙地(岁)(Ni/N)原死亡率pi分配死亡率(Ni/N)pi原死亡率pi分配死亡率(Ni/N)pi(1)(2)(3)(4)=(2)(3)(5)(6)=(2)(5)0~0.14157.28.0772.910.285~0.1883.60.684.60.8620~0.5435.32.887.23.9140~0.10412.11.2614.21.4860~0.02440.00.9646.01.10合计1.00016.1913.85(P’)13.9017.63(P’)\n第5章定性资料的统计描述第250页三、标准化法使用注意事项1.标准化法是采用统一标准人口年龄构成;2.标准化后的率并不表示某地实际水平,只能表明相对水平;3.如不计算标准化率,而分别比较各组的率,也可得出正确结论,但不能比较总率的大小。4.两样本标准化率是样本值,存在抽样误差,应作假设检验。检验方法比较麻烦。一般参考书上也没有。\n第5章定性资料的统计描述第251页第四节动态数列及其分析指标动态数列(dynamicseries)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。1.时间动态数列各个指标在时点上的数据;2.时期动态数列各个指标在一定的时间间隔内陆续发生并积累的数据。\n第5章定性资料的统计描述第252页常用动态数列有:1.绝对增长量说明事物在一定时期所增长的绝对值。2.发展速度和增长速度:①定基比;②环比。3.平均发展速度和平均增长速度用于概括某一时期的速度变化,即该时期环比的几何均数,其计算公式为:\n第5章定性资料的统计描述第253页表5-9某地1990~1998年床位发展动态年份指标符号年末床位数绝对增长量发展速度%增长速度%累计逐年定基环比定基环比(1)(2)(3)(4)(5)(6)(7)(8)(9)1990a05420——————1991a15608188188103.4103.43.43.41992a25766346158106.4102.96.42.91993a35886466120108.6102.18.62.11994a45991571105110.5101.710.51.7………………………1998a8735219321932135.6135.6135.6135.6\n第5章定性资料的统计描述第254页例5.4对表5-9第(1)、(3)栏资料作动态分析\n第5章定性资料的统计描述第255页例根据表5-9数据,预测2003年床位数\n第5章定性资料的统计描述第256页第五节常用的相对数指标1.发病率(incidencerate)指一定时期内,可能发生某病的一定人群中新发生的某病病例数的频率。比例基数K可为:100%,1000‰,10000/万,100000/10万。注意:分子为新发生病例数,分母为可能发生病例数。一定时期常指一年。计算公式为:\n第5章定性资料的统计描述第257页2.患病率(prevalencerate)又称现患率,指在某时点上受检人数中现患某种疾病的人数所占比例。注意:病人可以是新老病人。时点:常指几天,一周或二周等。\n第5章定性资料的统计描述第258页3.死亡率(mortalityrate)亦称粗死亡率(crudedeatharte),是指某人群在一定期间内死于所有原因的人数在该人群中所占的比例。时期常为一年。我国总死亡率稳定在7‰左右;按13亿人估计:每年正常死亡者约910万人。\n第5章定性资料的统计描述第259页4。婴儿死亡率(infantmortalityrate)指某年内不满一岁的婴儿死亡人数与全年活产数的比值。我国1949年以前:该率为200‰;现在:城市为14‰;农村为:34‰;印度:50~80‰;非洲:120‰。西方发达国家:8~12‰。该率变化反映经济水平和生活水平。不受人口构成影响,各国可直接比较。\n第5章定性资料的统计描述第260页5.新生儿死亡率(neonatalmortalityrate)指某年内出生之不满28天的死亡人数与全年活产数的比值。产科指标。\n第5章定性资料的统计描述第261页6.围产儿死亡率(prenatalmortalityrate)孕期满28周至生后7天以内的死亡,称为围产儿死亡。产科指标。\n第5章定性资料的统计描述第262页7.出生率(birthrate)亦称粗出生率,指一年内每千人口中的出生数。我国总出生率为17‰;每年出生约2210万。去除正常死亡的910万,净增长1300万。增长率为10‰。\n第5章定性资料的统计描述第263页8.人口自然增长率(naturalincreaserate)指出生率与死亡率之差。我国已控制在10‰以下。这是我国的基本目标。北京,上海为负增长,泰安也为负增长。法国、德国:为负增长;非洲约:35‰左右。人口自然增长率=出生率-死亡率\n第5章定性资料的统计描述第264页9.某病病死率(casefatality)表示一定期间内,某病患者中死于该病的频率。反映疾病严重程度。也可评价医院医疗水平。注意:各医院比较时,要有可比性。一般不同级别的医院不能直接比较。\n第5章定性资料的统计描述第265页生存率常用于评价某些慢性病如癌症、心血管等的远期疗效。可以计算3年、5年或10年生存率。10.生存率(survivalrate)是指患某种疾病的人(或接受某种治疗的某病病人)经n年的随访,到随访结束时仍存活的病例数所占的比例。\n第5章定性资料的统计描述第266页Bestwishestoyou.ThankyouforlisteningTheEnd\n第6章总体率的区间估计和假设检验第267页主讲程琮泰山医学院预防医学教研室zcheng@tsmc.edu.cn本科生用教案医学统计学\n第6章总体率的区间估计和假设检验第268页ChineseTeachingPlanforMedicalStudentsMedicalStatisticsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第6章总体率的区间估计和假设检验第269页第6章总体率的区间估计和假设检验目录第二节率的u检验第三节卡方检验第四节四格表的确切概率法第一节率的抽样误差与总体率的区间估计\n第6章总体率的区间估计和假设检验第270页第六章总体率的区间估计和假设检验第一节率的抽样误差与总体率的区间估计(1)一。率的抽样误差:在同一总体中按一定的样本含量n抽样,样本率和总体率或样本率之间也存在着差异,这种差异称为率的抽样误差。率的抽样误差的大小是用率的标准误来表示的。\n第6章总体率的区间估计和假设检验第271页Forexample例6.1检查居民800人粪便中蛔虫阳性200人,阳性率为25%,试求阳性率的标准误。本例:n=800,p=0.25,1-p=0.75,\n第6章总体率的区间估计和假设检验第272页二、总体率的区间估计㈠正态分布法样本含量n足够大,np与n(1-p)均≥5时,第一节率的抽样误差与总体率的区间估计\n第6章总体率的区间估计和假设检验第273页Forexample例6.2求例6.1当地居民粪便蛔虫阳性率的95%可信区间和99%的可信区间。95%的可信区间为:25%±1.96×1.53%即(22.00%,28.00%)99%的可信区间为:25%±2.58×1.53%即(21.05%,28.95%)\n第6章总体率的区间估计和假设检验第274页㈡查表法当样本含量较小(如n≤50),np或n(1-p)<5时,样本率的分布呈二项分布,总体率的可信区间可据二项分布的理论求得。例6.3某医院用某药治疗脑动脉硬化症22例,其中显效者10例。问该药总显效率的95%可信区间为多少?本例n=22,X=10,查附表7(201页),得此两数相交处的数值为24~68,即该药总显效率的95%可信区间为(24%,68%)。\n第6章总体率的区间估计和假设检验第275页第二节率的u检验(1)应用条件:样本含量n足够大,np与n(1-p)均≥5。此时,样本率p也是以总体率为中心呈正态分布或近似正态分布的。\n第6章总体率的区间估计和假设检验第276页一、样本率与总体率比较的u检验u值的计算公式为:\n第6章总体率的区间估计和假设检验第277页Forexample例6.5根据以往经验,一般胃溃疡病患者有20%(总体率)发生胃出血症状。现某医生观察65岁以上胃溃疡病人152例,其中48例发生胃出血,占31.6%(样本率)。问老年胃溃疡病患者是否较一般胃溃疡病患者易发生胃出血。\n第6章总体率的区间估计和假设检验第278页计算结果及判断判断:u=3.58>u0.05=1.64(单侧),P<0.05。在α=0.05水准上,拒绝H0,接受H1,差异有统计学意义。\n第6章总体率的区间估计和假设检验第279页二、两样本率比较的u检验适用条件为两样本的np和n(1-p)均大于5。计算公式为第二节率的u检验(3)\n第6章总体率的区间估计和假设检验第280页Forexample例6.6某中药研究所试用某种草药预防流感,观察用药组和对照组(未用药组)的流感发病率,其结果见表6-1。问两组流感发病率有无差别?\n第6章总体率的区间估计和假设检验第281页表6-1用药组和对照组流感发病率比较组别观察人数发病人数发病率(%)用药组1001414对照组1203025合计2204420\n第6章总体率的区间估计和假设检验第282页计算结果本例n1=100,p1=14%,n2=120,p2=25%,pc=20%,1-pc=80%,代入公式判断:u=2.031>u0.05=1.96,故p<0.05。在α=0.05水准上,拒绝H0,接受H1,差异有统计学意义。\n第6章总体率的区间估计和假设检验第283页第三节X2检验X2检验(chi-squaretest)或称卡方检验,是一种用途较广的假设检验方法,常用于检验两个或多个样本率及构成比之间有无差别,还用来检验配对定性资料及两种属性或特征之间是否有关系等。\n第6章总体率的区间估计和假设检验第284页一、四格表资料的检验四格表资料的检验主要用于两个样本率(或构成比)的假设检验,一般制成表6-2的计算格式(以阳性和阴性为例)。\n第6章总体率的区间估计和假设检验第285页表6-2四格表资料检验计算表组别阳性数阴性数合计甲组aba+b乙组cdc+d合计a+cb+da+b+c+d=n\n第6章总体率的区间估计和假设检验第286页X2检验的基本公式为理论频数T条件:n>40,T>=5\n第6章总体率的区间估计和假设检验第287页四格表检验专用公式省去计算T值\n第6章总体率的区间估计和假设检验第288页例6.7以例6.6资料为例表6-3用药组和对照组流感发病率的比较组别发病人数未发病人数合计用药组14(20)86(80)100对照组30(24)90(96)120合计44176220\n第6章总体率的区间估计和假设检验第289页两种方法计算结果\n第6章总体率的区间估计和假设检验第290页结果判断X2临界值:X20.05,1=3.84,请记住:X20.01,1=6.63,X2=u2本例:X2=4.125>X20.05,1=3.84,两组差别有统计学意义。与前面的结论相同。\n第6章总体率的区间估计和假设检验第291页四格表值的校正条件:(1)任一格的1≤T<5,且n≥40时,需计算校正值。(2)任一格的T<1或n≤40时,用确切概率计算法。基本公式专用公式\n第6章总体率的区间估计和假设检验第292页例6.8某医师用甲、乙两疗法治疗小儿单纯性消化不良,治疗结果如表6-4,问两疗法的治愈率是否相等?表6-4甲、乙两疗法治疗小儿单纯性消化不良的治愈率比较组别发病人数未发病人数合计用药组26(28.8)7(4.2)33对照组36(33.2)2(4.8)38合计62971\n第6章总体率的区间估计和假设检验第293页计算结果及判断本例:X2=2.71X2=9.49,P<0.05。(4)推断结论在α=0.05的水准上,拒绝H0,接受H1,差异有统计学意义。可认为冠心病诊断结果与眼底动脉硬化分级有关系。计算X2值\n第6章总体率的区间估计和假设检验第304页计算列联系数(Pearson法)r值。r值在0~1之间,0表示完全独立,1表示完全相关,r愈接近0,说明几乎没有关系,r愈接近1,说明关系愈密切。本例列联系数为:\n第6章总体率的区间估计和假设检验第305页行×列表资料的检验的注意事项1.理论数不宜太小,一般不宜有1/5以上格子的理论频数小于5,或有一个理论频数小于1。对理论数太小有三种处理方法:①最好增加样本含量以增大理论频数;根本的方法。②删去理论频数太小的行和列;此法不好。③将理论频数较小的行或列与邻行或邻列合并以增大理论频数。但后两法可能会损失信息,\n第6章总体率的区间估计和假设检验第306页行×列表资料的检验的注意事项2.当多个样本率(或构成比)比较的检验,结论为拒绝检验假设,只能认为各总体率(或总体构成比)之间不全相等,但不能认为彼此间都不相等。若要比较彼此间的差别,可用下述的行×列表的分割法。3.对于行×列表单向等级资料(单向有序资料)组间的比较,宜用第八章秩和检验,如作卡方检验法只说明各处理组的效应在构成比上有无差异,而不能说明组间整体效应的差异。\n第6章总体率的区间估计和假设检验第307页四、行×列表的分割法X2分割的目的是进行多个率之间的两两比较。分割法是利用X2值的可加性原理,把原R×C表分割为若干个分割表,这些分割表的自由度之和等于原R×C表的自由度,其值之和十分接近原表的值。分割的方法是按最相近的原则,把阳性率(或构成比)相差不大的样本分割出来,计算其X2值。当差异无统计学意义时,就把它合并为一个样本,再把它与另一较相近的样本比较,如此进行下去直到结束。\n第6章总体率的区间估计和假设检验第308页例6.13对例6.10三个地区的出生婴儿的致畸率的分析结果作进一步的两两比较地区畸形数无畸形数合计致畸率(‰)X2υP一般市区40440143405479.96农村67827583428.032.721>0.05合计47184818488899.63一般市区+农村47184818488899.63重污染区1143278339233.61164.781<0.005合计585516965228111.19167.492\n第6章总体率的区间估计和假设检验第309页第四节*四格表的确切概率法(Fisher’sexacttest)前已述及,四格表若有理论频数T小于1,或n<40时,尤其是用其他检验方法所得概率接近检验水准时,宜用四格表的确切概率法(exactprobabilitiesin2×2table),即四格表概率的直接计算法。本法的基本思想是:在四格表周边合计不变的情况下,获得某个四格表的概率为:\n第6章总体率的区间估计和假设检验第310页例6.14抽查两批食品的卫生状况,作大肠杆菌检查,检查结果见表6-10。问两批食品的卫生状况有无差别?表6-10甲乙两批食品大肠杆菌检查结果组别阳性数阴性数合计阳性率(%)甲批26(28.8)7(4.2)3341.67乙批36(33.2)2(4.8)3810.00合计6297127.27\n第6章总体率的区间估计和假设检验第311页计算P值表6-10中甲批食品阳性率P1=0.4167,乙批食品阳性率P2=0.1000,两者之差|p1-p2|=0.3167。在周边合计数不变的条件下,可能还有其它组合的四格表,其阳性率之差≥0.3167,所有这些比当前四格表更极端的情况都应考虑进去,因为这些极端情况在H0条件下都有可能发生。\n第6章总体率的区间估计和假设检验第312页表6-11中|p1-p2|≥0.3167的四格表为序号(0)、(1)、(5)、(6)的情形,按公式(6.16)求得序号(1)的概率为\n第6章总体率的区间估计和假设检验第313页表6-11确切概率计算表(四格表周边合计数不变)\n第6章总体率的区间估计和假设检验第314页余仿此,P(0)=0.0124,P(5)=0.0405,P(6)=0.0028,因此所求概率为:推断结论按=0.05的水准,不拒绝H0,差异无统计学意义。还不能认为两批食品卫生状况有差别。P=P(0)+P(1)+P(5)+P(6)=0.0124+0.1061+0.0405+0.0028=0.1618\n第6章总体率的区间估计和假设检验第315页THANKYOUFORLISTENINGTHEEND\n第7章二项分布与泊松分布第316页泰山医学院预防医学教研室zcheng@tsmc.edu.cn主讲程琮医学本科生用医学统计学\n第7章二项分布与泊松分布第317页TeachingPlan ForMedicalStudentsMedicalStatisticsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第7章二项分布与泊松分布第318页第7章二项分布与泊松分布目录第二节Poisson分布及其应用第三节二项分布与Poisson分布的拟合优度检验第一节二项分布及其应用\n第7章二项分布与泊松分布第319页第七章二项分布与Poisson分布第一节二项分布及其应用一、二项分布的概念及应用条件二项分布(binominaldistribution)是一种重要的离散型分布,在医学上常遇到属于两分类的资料,每一观察单位只具有相互独立的一种结果,如检查结果的阳性或阴性,动物试验的生存或死亡,对病人治疗的有效或无效等。\n第7章二项分布与泊松分布第320页如果已知发生某一结果(如阳性)的概率为π,其对立结果(阴性)的概率为(1-π),且各观察单位的观察结果相互独立,互不影响,则从该总体中随机抽取n例,其中出现阳性数为X(X=0,1,2,3,…,n)的概率服从二项分布。二项分布也称为贝努里分布(Bernoullidistribution)或贝努里模型,是由法国数学家J.Bernoulli于1713年首先阐述的概率分布。\n第7章二项分布与泊松分布第321页贝努里模型应具备下列三个基本条件。试验结果只出现对立事件A或,两者只能出现其中之一。这种事件也称为互斥事件。试验结果是相互独立,互不影响的。例如,一个妇女生育男孩或女孩,并不影响另一个妇女生育男孩或女孩等。每次试验中,出现事件A的概率为,而出现对立事件的概率为1-。则有总概率+(1-)=1。\n第7章二项分布与泊松分布第322页二、二项分布的概率函数根据贝努里模型进行试验的三个基本条件,可以求出在n次独立试验下,事件A出现的次数X的概率分布。X为离散型随机变量,其可以取值为0,1,2,…,n。则X的概率函数为:X=0,1,2,…,n(7.1)式中:0<π<1,为组合数,公式(7.1)称随机变量X服从参数为n,π的二项分布,则记为X~B(n,π)。\n第7章二项分布与泊松分布第323页三、二项分布的性质二项分布是概率分布,因此它就具备概率分布的各种性质。1.二项分布的每种组合的概率符合二项展开式,其总概率等于1(7.2)\n第7章二项分布与泊松分布第324页由公式(7.2)可看出二项展开式有以下特点:(1)展开式的项数为n+1。(2)展开式每项和(1-)指数之和为n。(3)展开式每项的指数从0到n;(1-)的指数从n到0。2.二项分布的累积概率设m1≤X≤m2(m1<m2),则X在m1至m2区间的累积概率有:(7.3)\n第7章二项分布与泊松分布第325页至多有x例阳性的概率为:至少有x例阳性的概率为:X=0,1,2,…,x(7.4)X=x,x+1,…,n(7.5)公式(7.4)为下侧累计概率,公式(7.5)为上侧累计概率。\n第7章二项分布与泊松分布第326页3.二项分布的概率分布图形以X为横坐标,P(X)为纵坐标,在坐标纸上可绘出二项分布的图形,由于X为离散型随机变量,二项分布图形由横坐标上孤立点的垂直线条组成。二项分布的图形取决于与n的大小。当n充分大时,二项分布趋向对称,可以证明其趋向正态分布。一般地,如果n乘以π即nπ之积大于5时,分布接近正态分布;当nπ<5时,图形呈偏态分布。当π=0.5时,图形分布对称,近似正态。如果π≠0.5或距0.5较远时,分布呈偏态。见图7-1。\n第7章二项分布与泊松分布第327页图7-1二项分布示意图\n第7章二项分布与泊松分布第328页4.二项分布的数字特征这里的数字特征主要指总体均数、方差、标准差等参数。随机变量X的数学期望E(X)=μ,即指总体均数:μ=nπ(7.6);随机变量X的方差D(X)=σ2为:(3)随机变量X的标准差为:(7.7)(7.8)\n第7章二项分布与泊松分布第329页(7.9)(7.10)⑷若X的总体均数和标准差用率来表示,则将公式(7.6)和公式(7.8)分别除以n,得:\n第7章二项分布与泊松分布第330页四、二项分布展开式各项的系数二项分布展开式的各项之前均有一个系数,用组合公式来表示。计算公式为:\n第7章二项分布与泊松分布第331页该系数也可用杨辉三角来表示,见图7-2。国外参考书习惯称之为巴斯噶三角。当试验次数n较小时,可直接利用杨辉三角将二项分布展开式各项的系数写出来,应用十分方便。\n第7章二项分布与泊松分布第332页图7-2杨辉三角模式图\n第7章二项分布与泊松分布第333页杨辉三角的意义:①杨辉三角中每行有几个数字,表示展开式有几项。当试验次数为n时,有n+1项。②杨辉三角中每行中的数字表示展开式中每项的系数大小。③杨辉三角中的各数字项及其数字的排列很有规律。可依照规律继续写下去。第一行的第一、第二项均为数字1,以后每下一行的首项及末项均为1,中间各项为上一行相邻两项数字之和。\n第7章二项分布与泊松分布第334页五、二项分布的应用二项分布在生物学及医学领域中,主要应用在下列几个方面:①总体率的可信区间估计,②率的u检验,③样本率与总体率比较的直接计算概率法。\n第7章二项分布与泊松分布第335页(一)应用二项分布计算概率例7.1如出生男孩的概率=0.5,出生女孩的概率为(1-)=0.5。在一个妇产医院里有3名产妇分娩3名新生儿,其中男孩为X=0,1,2,3的概率按公式(7.1)计算的结果列于表7-1的第(3)栏中。分析:根据题意,已知生育男孩为事件A,其概率P(A)=0.5(即π=0.5);生育女孩为事件,其概率为P()=1-P(A)=1-0.5=0.5(即1-π=0.5)。\n第7章二项分布与泊松分布第336页三个妇女生育一个男孩,两个女孩的概率为:三个妇女生育均为女孩(即无男孩)的概率为:余类推,见表7-1第(3)栏。表7-1第(5)栏为至少生育X个男孩的累积概率。\n第7章二项分布与泊松分布第337页(二)样本率与总体率的比较的直接概率法此法适用n和n(1-)均小于5的情形。应注意:①当样本率大于总体率时,应计算大于等于阳性人数的累积概率。②当样本率小于总体率时,应计算小于等于阳性人数的累积概率。\n第7章二项分布与泊松分布第338页例7.2A药治疗某病的有效率为80%。对A药进行改进后,用改进型A药继续治疗病人,观察疗效。①如果用改进型A药治疗20例病人,19例有效。②如果用改进型A药治疗30例病人,29例有效。试分析上述二种情形下,改进型A药是否疗效更好。分析:A药有效率为80%,可以作为总体率,即π0=0.8。治疗20例病人的样本有效率为(19/20)×100%=95%;治疗30例病人的样本有效率为(29/30)×100%=96.67%。两个样本率均大于总体率80%,故应计算大于等于有效例数的单侧累积概率。\n第7章二项分布与泊松分布第339页情形一:治疗20例病人的疗效分析(1)建立检验假设H0:改进型A药的疗效与原A药相同,π=π0=0.80H1:改进型A药的疗效高于原A药,π>π0=0.80单侧α=0.05(2)计算概率值根据二项分布有:=0.0548+0.0115=0.0663\n第7章二项分布与泊松分布第340页情形二:治疗30例病人的疗效分析(1)检验假设同情形一。(2)计算单侧累积概率有:(3)推断结论本例P=0.0663,在=0.05水准上,不拒绝H0。尚不能认为改进型A药的疗效优于原A药。=0.008975+0.001238=0.0102\n第7章二项分布与泊松分布第341页(3)推断结论本例P=0.0102,在=0.05水准上,拒绝H0,接受H1。可以认为改进型A药的疗效优于原A药。注意:治疗20例病人的有效率为95%,治疗30例病人的有效率为96.67%,两个样本有效率很接近。但最终得出的结论却不相同。一般地,临床上观察疗效,样本含量不能太小。随着观察例数的增加,疗效的稳定性及可靠性也相应增加,受到偶然因素影响的机会也变得较小。\n第7章二项分布与泊松分布第342页分析:本例总体率=1%。调查人群样本反应率为(1/300)×100%=0.33%。由于样本率小于总体率,故应计算小于等于阳性人数的累积概率。例7.3一般人群对B药的副作用反应率为1%。调查使用B药者300人,其中只有1人出现副作用。问该调查人群对B药的副作用反应率是否低于一般人群。\n第7章二项分布与泊松分布第343页(1)建立检验假设H0:调查人群反应率与一般人群相同,π=π0=0.01H1:调查人群反应率低于一般人群,π<π0=0.01单侧α=0.05(2)计算单侧累积概率:(3)推断结论本例P=0.1976,在α=0.05水准上,不拒绝H0。尚不能认为调查人群的B药副作用反应率低于一般人群。\n第7章二项分布与泊松分布第344页第二节Poisson分布及其应用一、Poisson分布的概念及应用条件(一)Poisson分布的概念Poisson分布由法国数学家S.D.Poisson在1837年提出。该分布也称为稀有事件模型,或空间散布点子模型。在生物学及医学领域中,某些现象或事件出现的机会或概率很小,这种事件称为稀有事件或罕见事件。稀有事件出现的概率分布服从Poisson分布。\n第7章二项分布与泊松分布第345页Poisson分布的直观描述:如果稀有事件A在每个单元(设想为n次试验)内平均出现λ次,那么在一个单元(n次)的试验中,稀有事件A出现次数X的概率分布服从Poisson分布。Poisson分布属于离散型分布。在Poisson分布中,一个单元可以定义为是单位时间,单位面积,单位体积或单位容积等。如每天8小时的工作时间,一个足球场的面积,一个立方米的空气体积,1升或1毫升的液体体积,培养细菌的一个平皿,一瓶矿泉水等都可以认为是一个单元。一个单元的大小往往是根据实际情况或经验而确定的。若干个小单元亦可以合并为一个大单元。\n第7章二项分布与泊松分布第346页(二)常见Poisson分布的资料在实际工作及科研中,判定一个变量是否服从Poisson分布仍然主要依靠经验以及以往累积的资料。以下是常见的Poisson分布的资料:1.产品抽样中极坏品出现的次数;2.枪打飞机击中的次数;3.患病率较低的非传染性疾病在人群中的分布;4.奶中或饮料中的病菌个数;5.自来水中的细菌个数;6.空气中的细菌个数及真菌饱子数;7.自然环境下放射的粒子个数;\n第7章二项分布与泊松分布第347页8.布朗颗粒数;9.三胞胎出生次数;10.正式印刷品中错误符号的个数;11.通讯中错误符号的个数;12.人的自然死亡数;13.环境污染中畸形生物的出现情况;14.连体婴儿的出现次数;15.野外单位面积某些昆虫的随机分布;16.单位容积内细胞的个数;17.单位空气中的灰尘个数;18.平皿中培养的细菌菌落数等。\n第7章二项分布与泊松分布第348页二、Poison分布的概率函数及性质㈠定义若变量X的概率函数为其中λ>0,则称X服从参数λ为的Poisson分布。记为X~P(λ)。式中:λ为总体均数,λ=nπ或λ=np;X为稀有事件发生次数;e为自然底数,即e=2.71828。(X=0,1,2,…)\n第7章二项分布与泊松分布第349页亦可用下列公式计算P(0)=e-λ\n第7章二项分布与泊松分布第350页(二)性质1.所有概率函数值(无穷多个)之和等于1,即2.分布函数(X=0,1,2,…x)\n第7章二项分布与泊松分布第351页(0≤x1<x2)3.累积概率4.其它性质总体均数:方差:标准差:μ=λ=nπ(或np)σ2=λ\n第7章二项分布与泊松分布第352页(三)Poisson分布的图形一般地,Poisson分布的图形取决于λ值的大小。λ值愈小,分布愈偏;λ值愈大,分布愈趋于对称。当λ=20时,分布接近正态分布。此时可按正态分布处理资料。当λ=50时,分布呈正态分布。见图7-3。这里通过计算一个具体实例来观察Poisson分布的概率分布趋势。\n第7章二项分布与泊松分布第353页图7-3Poisson分布的概率分布图\n第7章二项分布与泊松分布第354页例7.4计算Poisson分布X~P(3.5)的概率。\n第7章二项分布与泊松分布第355页余类推。经计算得到一系列数据,见表7-2。表7-2X~P(3.5)的Poisson分布\n第7章二项分布与泊松分布第356页(四)Poisson分布的可加性从同一个服从Poisson分布的总体中抽取若干个样本或观察单元,分别取得样本计数值X1,X2,X3,…,Xn,则∑Xi仍然服从Poisson分布。根据此性质,若抽样时的样本计数X值较小时,可以多抽取几个观察单元,取得计数Xi,将其合并以增大X计数值。\n第7章二项分布与泊松分布第357页三、Poisson分布与二项分布的比较Poisson分布也是以贝努里模型为基础的。实际上,Poisson分布是二项分布的一种特殊情形,即稀有事例A出现的概率很小,而试验次数n很大,也可将试验次数n看作是一个单元。此时,n或np=λ为一个常数,二项分布就非常近似Poisson分布。或p愈小,n愈大,近似程度愈好。设λ=1。当n=100,=0.01时,及n=1000,=0.001时,按照二项分布及Poisson分布计算概率P(X)。计算结果见表7-3。\n第7章二项分布与泊松分布第358页表7-3二项分布与Poisson分布计算的概率值比较\n第7章二项分布与泊松分布第359页余类推。1.按二项分布计算已知:n=100,π=0.01,1-π=0.99,代入公式有:\n第7章二项分布与泊松分布第360页2.按Poisson分布计算代入公式有:余类推。\n第7章二项分布与泊松分布第361页四、Poisson分布的应用Poisson分布有多种用途。主要包括总体均数可信区间的估计,样本均数与总体均数的比较,两样本均数的比较等。应用Poisson分布处理医学资料时,一定要注意所处理资料的特点和性质,资料是否服从Poisson分布。\n第7章二项分布与泊松分布第362页(一)总体均数的估计总体均数的估计包括点估计和区间估计。点估计是指由样本获得的稀有事件A出现的次数X值,作为总体均数的估计值。该法的优点是计算简便,但缺点是无法得知样本代表总体均数的可信程度。区间估计可以确切获知总体均数落入一个区域的可信度,一般可信度取95%或99%。\n第7章二项分布与泊松分布第363页估计总体均数可信区间一般分为小样本法和大样本法。小样本一般指样本均数或样本计数值X≤50的情形,可直接通过查表法得到可信区间。当样本均数X>50时,Poisson分布近似正态分布,可按正态分布处理资料。1.小样本法当样本均数或样本计数值X≤50时,可直接查附表9,“Poisson分布的可信区间”表,得到可信区间。\n第7章二项分布与泊松分布第364页例7.5在20ml的当归浸液中含某种颗粒30个。试分析该单元浸液中总体颗粒数的95%和99%的可信区间。分析:将20ml当归浸液看作一个单元,该单元的样本均数X=30,小于50。可查附表9,求出总体均数λ的可信区间。查附表9(205页)得:总体均数λ95%的可信区间为(20.2,42.8)总体均数λ99%的可信区间为(17.7,47.2)\n第7章二项分布与泊松分布第365页2.正态近似法当样本均数或计数X>50时,可按正态分布法处理。总体均数λ95%的可信区间为总体均数λ99%的可信区间为\n第7章二项分布与泊松分布第366页例7.6某防疫站检测某天然水库中的细菌总数。平均每毫升288个细菌菌落。求该水体每毫升95%和99%的可信区间。应用公式有:λ95%的可信区间=(255.74,320.26)λ99%的可信区间=(244.22,331.78)\n第7章二项分布与泊松分布第367页(1)发病人数的95%可信区间为:例7.7调查1985年某市某区30万人,流行性出血热发病人数为204人。求该市发病人数及发病率(1/10万)95%的可信区间。分析:已知样本均数X为204人,观察单元n=30万人。先计算出发病人数的可信区间,再按照发病率的要求以10万人作为观察单元,计算发病率可信区间的上下限值。=(176,232)\n第7章二项分布与泊松分布第368页(2)发病率的95%可信区间为:上限值:下限值:\n第7章二项分布与泊松分布第369页(二)样本均数与总体均数的比较常用的方法有两种。①直接计算概率法:与二项分布的计算思路基本相同。即当λ<20时,按Poisson分布直接计算概率值。②正态近似法:当λ≥20时,Poisson分布接近正态分布。按正态分布使用u检验处理资料。\n第7章二项分布与泊松分布第370页1.直接计算概率法例7.8某地区以往胃癌发病率为1/万。现在调查10万人,发现3例胃癌病人。试分析该地区现在的胃癌发病率是否低于以往的发病率。H0:现在胃癌发病率与以往相同,π=π0=0.0001H1:现在胃癌发病率低于以往,π<π0单侧α=0.05\n第7章二项分布与泊松分布第371页(2)计算概率值已知:n=100000,=0.0001,=n=100000×0.0001=10。根据题意,应计算小于等于3人发病的概率P(X≤3),即:P(X≤3)=P(0)+P(1)+P(2)+P(3)应用公式(7.14)及(7.15)有:\n第7章二项分布与泊松分布第372页(3)推断结论本例P=0.0103,小于P=0.05。在α=0.05水准上拒绝H0,接受H1。可以认为现在该地区胃癌发病率低于以往发病率。\n第7章二项分布与泊松分布第373页2.正态近似法当λ≥20时,用u检验法。例7.9根据医院消毒卫生标准,细菌总数按每立方米菌落形成单位(CFU/m3)表示。无菌间的卫生标准为细菌菌落数应不大于200(CFU/m3)。某医院引进三氧消毒机,每天自动对无菌间进行2小时消毒。对无菌间抽样调查显示,细菌总数为121CFU/m3。试问该医院无菌间的细菌总数低于国家卫生标准。\n第7章二项分布与泊松分布第374页(1)建立检验假设H0:无菌间的细菌总数符合国家卫生标准,λ=λ0=200H1:无菌间的细菌总数低于国家卫生标准,λ<λ0单侧α=0.05(2)计算u值:已知:λ0=200CFU/m3,X=121CFU/m3,代入公式(7.23)有:\n第7章二项分布与泊松分布第375页(3)确定P值查附表2,t界值表(一栏),单侧u0.0005=3.2905,现u>u0.0005,故P<0.0005。⑷推断结论因P<0.0005,拒绝H0,接受H1,差异有统计学意义。可以认为该医院无菌间的细菌总数低于国家卫生标准。例7.10某地区以往恶性肿瘤发病率为126.98/10万人。今调查发现,该地区恶性肿瘤发病率上升为148.62/10万人。试分析现在的发病率是否高于以往的发病率。\n第7章二项分布与泊松分布第376页(3)确定P值本例u=1.92,大于单侧u0.05=1.64,则P<0.05。(4)推断结论在=0.05水准上拒绝H0,接受H1,差异有统计学意义。可以认为该地区恶性肿瘤发病率高于以往的发病率。(1)建立检验假设H0:现在的发病率与以往的发病率相同,λ=λ0=126.98H1:现在的发病率高于以往的发病率,λ>λ0单侧=0.05(2)计算u值:\n第7章二项分布与泊松分布第377页(三)两样本均数的比较应用条件要求资料服从Poisson分布,两个样本均数X1及X2均大于20。1.两样本观察单元相同观察单元可以指单位面积、容积、体积、时间等。注意:Poisson分布中的观察单元具有可加性,如∑X1和∑X2。检验公式为:\n第7章二项分布与泊松分布第378页例7.11空气中负离子状况可以反映空气的新鲜感及污染状况。现调查某风景名胜区不同地点的负离子状况。海拔较高的山上风景点负离子数为240个/cm3。该景区商业区的百货大楼内的负离子数为146个/cm3。试分析该风景区两个不同地点负离子状况有无差异。(1)建立检验假设H0:两地点负离子状况相同,λ1=λ2H1:两地点负离子状况不同,λ1≠λ2双侧=0.05(2)计算u值:\n第7章二项分布与泊松分布第379页(3)确定P值查附表2,u0.001=3.2905,现u>u0.001,故P<0.001。⑷推断结论因P<0.001,拒绝H0,接受H1,差异有统计学意义。可以认为该风景区两个不同地点的空气负离子状况有差异。海拔较高的风景点空气状况要好于百货大楼。\n第7章二项分布与泊松分布第380页例7.12调查某地区人群死亡状况。结果显示,男性及女性的意外死亡率分别为62人/10万人和72人/10万人。试分析男女意外死亡率有无差异。分析:该资料服从Poisson分布,每10万人可以作为一个观察单元。(1)建立检验假设H0:男女意外死亡率相等,H1:男女意外死亡率不相等,α=0.05\n第7章二项分布与泊松分布第381页(3)确定P值,推断结论本例u=0.86,小于u0.05=1.96,则P>0.05。在α=0.05水准上,不拒绝H0,无统计学意义。可以认为男女性意外死亡率无差异。(2)计算u值:\n第7章二项分布与泊松分布第382页例7.13某医院使用一定方法对住院病房进行消毒,并检测某一病房消毒前后的细菌菌落数(CFU/m3)。消毒前后均检测9次。消毒前的菌落数为18,10,9,15,5,2,6,5,2。消毒后的菌落数为5,4,5,6,7,2,3,2,1。试分析该病房消毒前后的卫生状况有无差异。分析:该资料服从Poisson分布。根据Poisson分布的可加性,将9次取样的菌落数相加为一个观察单元。消毒前为∑X1=72;消毒后为∑X2=35。\n第7章二项分布与泊松分布第383页(1)建立检验假设H0:消毒前后菌落数相等,λ1=λ2H1:消毒前后菌落数不等,λ1≠λ2α=0.05(2)计算u值,应用公式(7.24)有:(3)确定P值,推断结论本例u=3.58,大于u0.05=2.58,则P<0.01。在α=0.05水准上拒绝H0,接受H1。可以认为该病房消毒前后的卫生状况不同。消毒后的细菌菌落数减少,卫生状况得到改善。\n第7章二项分布与泊松分布第384页2.两样本观察单元不同当两样本观察单元不同时,不可直接比较或直接相加后进行比较。可以将两样本观察单元先转化为相等的观察单元后,再应用公式进行比较。一般可计算两样本均数和,再按下式计算u值。\n第7章二项分布与泊松分布第385页例7.14某防疫站检验某商场的两种品牌的矿泉水。检测每ml的细菌总数(CFU/ml)。品牌A抽查4瓶,结果为132,156,182,143;品牌B抽查6瓶,结果为313,298,356,384,348,306。试分析A、B两种品牌矿泉水的细菌总数有无差异。分析:本例观察单元不相同,可以先求出均数。品牌A的均数品牌B的均数\n第7章二项分布与泊松分布第386页(1)建立检验假设H0:两种品牌矿泉水菌落数相等,λ1=λ2H1:两种品牌矿泉水菌落数不等,λ1≠λ2α=0.05(2)计算u值,应用公式(7.25)有:(3)确定P值,推断结论本例u=18.66,大于u0.01=2.58,则P<0.01。可以认为A、B两种品牌矿泉水受细菌污染程度不同。其中品牌B矿泉水的污染程度较高。\n第7章二项分布与泊松分布第387页(四)多个样本均数的比较当比较的样本为二个以上时,可进行多样本均数或样本计数值的检验。使用的方法为卡方检验。检验公式及步骤如下。1.首先计算观察单元的均数估计值。符号“∧”读作“hat”。英文为“帽子”之义。式中:X1,X2,…,Xn为样本计数值,u1,u2,…,un为观察单元值。\n第7章二项分布与泊松分布第388页2.将样本计数值Xi(即X1,X2,…,Xn)转换为Zi值。公式为:\n第7章二项分布与泊松分布第389页3.计算值X2值:自由度υ=组数-1。\n第7章二项分布与泊松分布第390页例7.15某医院对三个病房进行空气采样,检测细菌污染状况。细菌总数用每立方米菌落形成单元(CFU/m3)来表示。检测结果如下。病房A为168CFU/m3,病房B为131CFU/m3,病房C为630CFU/2m3。试分析三个病房的细菌污染状况有无差异。分析:应注意病房A与B的观察单元为1个m3,病房C的观察单元则为2个m3,可以看作为2个观察单元。\n第7章二项分布与泊松分布第391页(1)建立检验假设H0:三个病房的细菌总数相同,λ1=λ2=λ3H1:三个病房的细菌总数不全相同。双侧α=0.05(2)计算均数估计值应用公式(7.27)有:\n第7章二项分布与泊松分布第392页(3)计算Zi值已知:X1=168,X2=131,X3=630;u1=1,u2=1,u3=2。X1及X2均小于,应用公式(7.28)有:\n第7章二项分布与泊松分布第393页X3=630,大于应用公式(7.29)有:(4)计算值按公式(7.30)\n第7章二项分布与泊松分布第394页(5)确定P值根据组数即病房数为3,自由度=3-1=2,查值表得:=10.60。本例>,则P<0.005。(6)推断结论在=0.05水准上拒绝H0,接受H1,差异有统计学意义。可以认为三个病房的细菌总数不全相同,即三个病房的细菌污染状况不同。\n第7章二项分布与泊松分布第395页(五)应用Poisson分布的注意事项1.Poisson分布的观察单元具有可加性。当样本均数X或样本计数值<20时,可通过增加或合并观察单元以增大样本均数或样本计数值。当X>20时,Poisson分布近似正态分布,可按正态分布进行Poisson分布均数比较的u检验。\n第7章二项分布与泊松分布第396页2.Poisson分布的观察单元可以由大缩小,而不可以由小扩大。例如,实际观察1个平皿中的细菌菌落数为34个,不能据此将其扩大而认为10个平皿的菌落数为340个。如果实际观察了10个平皿的菌落数为340个,可以将其缩小而认为2个平皿有68个菌落数。3.判断一组数据或一个资料是否服从Poisson分布,主要是依靠以往积累的经验或专业知识。必要时也可进行拟合优度检验以确定资料分布类型。\n第7章二项分布与泊松分布第397页第三节二项分布与Poisson分布的拟合优度检验在实际工作中,科研人员经常需要了解取得的数据的分布特征。了解数据的分布特征一般有两种方法。一是根据以往积累的经验来判断,二是由公式进行检验。后者常用的方法为拟合优度检验(goodnessoffittest),也称为配合适度检验。其目的是检验数据的频数分布与一个已知分布是否相符合。常用的拟合优度检验为检验。其基本方法与步骤:略。\n第7章二项分布与泊松分布第398页ThankYouforListeningTHEEND\n第8章秩和检验第399页主讲程琮泰山医学院预防医学教研室zcheng@tsmc.edu.cn医学统计学临床医学本科生用\n第8章秩和检验第400页ChineseTeachingPlanforMedicalStudentsMedicalStatisticsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第8章秩和检验第401页第8章秩和检验目录第五节多个样本间两两比较的秩和检验第二节配对设计资料的秩和检验第三节两样本比较的秩和检验第四节完全随机设计多个样本比较的秩和检验第一节非参数统计的概念第六节随机区组设计资料的秩和检验第七节随机区组设计资料的两两比较\n第8章秩和检验第402页教学目的及要求第八章秩和检验掌握秩和检验的应用条件及其基本概念。掌握秩和检验的基本思想及分析方法。掌握秩和检验编排秩次的基本方法。\n第8章秩和检验第403页第一节非参数统计的概念秩和检验(ranksumtest)属于非参数统计(nonparametricstatistics)。它的假设检验是推断总体分布是否相同,而不是推断总体参数是否相等,故称为非参数检验(nonparametrictest)。非参数检验有时也称为任意分布检验(freeistribution)。参数统计:如t检验、F检验统计推断的是两个或多个总体均数(总体参数)是否相等,这类统计方法称为参数统计(parametricstatistics)。\n第8章秩和检验第404页非参数检验适用于以下类型的资料:1.等级资料(有序分类资料)。如疗效按治愈、显效、有效、无效分组的资料;临床化验结果按“-、±、+、++、+++、++++”分组的资料等。2.偏态分布资料。当观察值呈偏态或极度偏态分布,而又未经变量变换或虽经变换但仍未达到正态或近似正态分布。3.分布不明的资料。如新指标分布形态不明;小样本,但不趋向正态分布资料。4.各组方差明显不齐,且不易变换达到齐性。5.组内个别观察值偏离过大的资料。这里指随机的偏离,而不是“过失误差”。6.开口分组资料。数据分组某一端或两端无明确数值的资料,只给出一个下限或上限,而没有具体数值,如<0.01μg、≥60岁等。\n第8章秩和检验第405页非参数检验的特点非参数检验特点:1。主要优点是不受总体分布的限制,适用范围广。2。但对适宜用参数统计检验的资料,若用非参数检验处理,常损失部分信息,降低统计检验效率,即犯第二类错误的概率β比参数检验大。3。对于适合参数统计检验条件的资料或经变量变换后适合于参数统计检验,应最好用参数检验。当资料不具备用参数检验的条件时,非参数检验是很有效的分析方法。\n第8章秩和检验第406页第二节配对设计资料的秩和检验(Wilcoxon配对法)例8.112名宇航员航行前及返航后24小时的心率(次/分)变化如表8-1。问航行对心率有无影响?(1)建立检验假设H0:宇航对心率无影响,即差值的总体中位数Md=0H1:宇航对心率有影响,即Md≠0α=0.05(2)求差值计算每对观察值的差值d,见表8-1第(4)栏。\n第8章秩和检验第407页表8-1宇航员航行前后的心率比较编号航前航后差值秩次(1)(2)(3)(4)(5)17693-1792716831370655446165-4358093-138……………12636032T+=7,T-=71\n第8章秩和检验第408页(3)编秩次是关键。按差值的绝对值从小到大编秩次,即1、2、3、…、n,并按差值的正负标上正负号,如表8-1第(5)栏。编秩次时应注意:①遇差值为0时,弃去不计,对子数n也随之减少;②遇有差值相等,符号相同时,按顺序编秩次并标上相应的正负号,如本例差值有两个3,两个-6,按顺序编为1、2、-5、-6即可;③遇有差值相同,但符号不同时,要取平均秩次并分别标上相应的正负号。\n第8章秩和检验第409页(4)求秩和并确定检验统计量T值分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值以T-表示。T+及T-之和等于n(n+1)/2,即1+2+3+…+n之和。此式可验算T+和T-计算是否正确。本例T+=7,T-=71,其和为78,而12(12+1)/2=78,可见T+,T-计算无误。任取T+(或T-)作检验统计量T,本例取T=7。(5)确定P值和作出推断结论。\n第8章秩和检验第410页2)正态近似法当n>50超出了附表10,T界值表的范围,可按公式(8.1)计算u值。因为当n逐渐增大时,T值的分布将逐渐逼近于均数为n(n+4)/4,标准差为的正态分布,故可按正态分布进行u检验并作出结论。有相同差数个数较多时,用校正公式:\n第8章秩和检验第411页第三节两样本比较的秩和检验(两个独立样本比较的秩和检验)1。两样本比较的秩和检验(Wilcoxon两样本比较法)适用于完全随机设计两组定量资料和等级资料的比较。2。例8.2测得铅作业与非铅作业工人的血铅值(mol/L)如表8-2第(1)、(2)栏,问两组工人的血铅值有无差别?\n第8章秩和检验第412页表8-2两组工人血铅值的秩和检验非铅作业组秩次铅作业组秩次(1)(2)(3)(4)0.2410.8290.2420.8610.50.2930.96120.3441.20140.4351.63150.5862.06160.6272.1117……n2=10T1=59.5n1=7T1=93.5\n第8章秩和检验第413页检验步骤(1)(1)建立检验假设H0:两组工人血铅值的总体分布位置相同H1:铅作业工人血铅值高于非铅作业工人单侧α=0.05(2)编秩将两组原始数据由小到大统一编秩,编秩时如遇同组相同数据按顺序编秩,如本例非铅作业组有2个0.24,分别编秩次1、2即可;如遇不同组相同数据取原秩次的平均秩次,如两组各有一个0.86,原秩次为10和11,各取平均秩次(10+11)/2=10.5。(3)求秩和并确定检验统计量T值以n1和n2分别代表两样本含量,以样本含量小者为n1,其秩和T1为统计量T;若n1=n2,可取任一组的秩和为T。本例n1=7,n2=10,检验统计量T=93.5。\n第8章秩和检验第414页(4)确定P值和作出推断结论1)查表法当n1≤10,n2-n1≤10时,查附表11,T界值表。查表时,若统计量T值在某一行的上、下T界值范围内,其P值大于表上方相应的概率水平,差异无统计学意义;若T值恰等于上、下界值或在界值的范围以外,则P值等于或小于相应的概率水平,差异有统计学意义。本例T=93.5,以n1=7,n2-n1=3,查附表11,T界值表,单侧T0.005(7,3)为37~89,现T值在此范围以外,故P<0.005。按单侧α=0.05,拒绝H0,接受H1,差异有统计学意义。故可认为铅作业工人的血铅值高于非铅作业工人。检验步骤(2)\n第8章秩和检验第415页公式法:当n1或n2-n1超出附表11的范围,可按公式(8.4)求统计量u值。当相同的秩次较多时(超过25%),应对u值进行校正,u值经校正后略大,P值相应减少。\n第8章秩和检验第416页表8-3某药对支气管炎两种病情疗效的秩和检验\n第8章秩和检验第417页例8.3用某药治疗不同病情的老年慢性支气管炎病人,疗效见表8-3第(2)、(3)栏,问该药对两种病情的疗效有无差别?疗效单纯性合并性合计秩次范围平均秩次单纯性秩和合并性秩和(1)(2)(3)(4)(5)(6)(7)(8)控制65421071~1075435102268显效18624108~131119.52151717有效302353132~18415847403634无效131124185~208196.52554.52161.5合计n2=126n1=82208T2=12955.5T1=8780.5表8-3某药对支气管炎两种病情疗效的秩和检验\n第8章秩和检验第418页检验步骤(1)(1)建立检验假设H0:两种病情病人的疗效总体分布位置相同H1:两种病情病人的疗效总体分布位置不同α=0.05(2)编秩本例为等级资料,先计算各等级的合计人数,见第(4)栏,再确定秩次范围。如疗效控制者107例,其秩次范围1~107,平均秩次为(1+107)/2=54,依此得第(6)栏。(3)求两组的秩和将第(6)栏分别乘以第(2)、(3)栏,相加即得两组各自的秩和,见第(7)、(8)栏合计。用公式(8.3)检查:T1+T2=8780.5+12955.5=21736,n(n+1)/2=208×209/2=21736,说明计算无误。\n第8章秩和检验第419页4)计算u值由于n1=82,超出了附表11的范围,故需用u检验。本例n1=82,T=8780.5,N=208,代入公式(8.4)。相同秩次过多时,则用校正公式。检验步骤(2)\n第8章秩和检验第420页5)确定P值和得出推断结论查附表2,t界值表(υ=∞一行),u0.50=0.6745,现uc0.50。按=0.05的检验水准,接受H0,差异无统计学意义。尚不能认为该药对两种病情的疗效有差别。两组疗效评价:表8-3可见,按照从控制到无效顺序排列,疗效等级愈好,平均秩次愈小;疗效等级愈差,平均秩次愈大,所以平均秩和小的组疗效优于平均秩和大的组。反之,如果按照从无效到控制顺序排列,疗效等级愈差,平均秩次愈小;疗效等级愈好,平均秩次愈大,这时平均秩和大的组疗效优于平均秩和小的组。检验步骤(3)\n第8章秩和检验第421页第四节完全随机设计多个样本比较的秩和检验1。此方法也称为Kruskal-Wallis法,即H检验。2。主要适用于非正态分布,而不宜用方差分析检验的定量资料以及多组等级资料的比较。例8.4某医生分别测定了10名正常人、单纯性肥胖和皮质醇增多症患者血浆中总皮质醇的含量见表8-4。问三组人的血浆总皮质醇含量有无差别?\n第8章秩和检验第422页检验步骤(1)(1)建立检验假设H0:三组人的血浆总皮质醇的总体分布位置相同H1:三个总体分布位置不同或不全相同υ=0.05(2)编秩每组内数值由小到大依次排队,三组统一编秩。数值相同而不同组的均编为平均秩次,如正常人组和单纯肥胖组各有一个3.1,均取原秩次10及11的平均秩值次10.5;在同一组内的相同数值直接编相应秩次即可。\n第8章秩和检验第423页表8-4三组人的血浆总皮质醇测定值(g/L)\n第8章秩和检验第424页表8-4三组人的血浆总皮质醇测定值(g/L)检验步骤(2)正常人单纯性肥胖皮质醇增多症测定值秩次测定值秩次测定值秩次0.410.629.8201.941.2310.2212.262.0510.6222.582.4713.0232.893.110.514.025………………Ri96.5117.5251ni101010\n第8章秩和检验第425页(3)求秩和并计算统计量H值将各组的秩次相加即得各组的秩和(i为组别),并按公式(8.6)计算统计量H值。检验步骤(3)\n第8章秩和检验第426页(4)确定P值和作出推断结论①若组数k=3,每组例数ni≤5时,可查附表12,H界值表。若Hα;反之,H≥Hα,P≤α。②若组数k>3,或每组例数ni>5时,H分布近似服从X2分布,可查附表8,X2界值表,得P值。本例ni均为10,υ=3-1=2,查X2界值表,X20.05,2=5.99,现H=18.12>X20.05,2=5.99,故P<0.05。按υ=0.05的水准,拒绝H0,接受H1,差异有统计学意义。三组人的血浆总皮质醇含量有差别。检验步骤(4)\n第8章秩和检验第427页当各样本的相同秩次较多时(如超过25%),求校正Hc值:检验步骤(5)\n第8章秩和检验第428页例8.5五种病人阴道涂片按巴氏细胞学分级的检查结果,见表8-5第(1)~(6)栏,问五种病人的细胞学分级有无程度上的差别?(1)建立检验假设H0:五种病人细胞学分级的总体分布位置相同H1:五个总体的位置不同或不全相同,α=0.05(2)编秩先计算各等级的合计,见表8-5第(7)栏。再确定秩次范围和计算平均秩次,见第(8)、(9)栏。例8.5检验步骤(1)\n第8章秩和检验第429页表8-5五种病人阴道涂片的细胞学分级比较\n第8章秩和检验第430页表8-5五种病人阴道涂片的细胞学分级比较巴氏分级慢性炎症轻度增生重度增生原位癌浸润癌合计秩次范围平均秩次(1)(2)(3)(4)(5)(6)(7)(8)(9)Ⅰ2119000401-4020.5Ⅱ4441305241-9266.5Ⅲ00611314893-140116.5Ⅳ023154262141-202171.5Ⅴ000217798203-300251.5ni25255050150300Ri696.5998.53940933530180平均Ri27.939.478.8187.6201.2\n第8章秩和检验第431页(3)求秩和如(2)栏的秩和T1是用(2)栏各等级的频数与(9)栏平均秩次相乘再求和,即R1=21×20.5+4×66.5=696.5,余仿此得各Ri值。例8.5检验步骤(2)\n第8章秩和检验第432页5)确定P值和作出推断结论本例对比组数k=5,按υ=k-1=5-1=4,查界值表,X20.05,4=9.49,现X2=195.53>X20.05,4=9.49,故P<0.05。按α=0.05的水准,拒绝H0,接受H1,差异有统计学意义。故可认为五种病人的细胞学分级有程度上的差别。例8.5检验步骤(3)\n第8章秩和检验第433页第五节多个样本间两两比较的秩和检验一、各组样本含量相等时的两两比较各组样本含量相等时的两两比较秩和检验(Nemenyi-Wilcoxon-Wilcox秩和检验)\n第8章秩和检验第434页例8.6例8.4资料表结论为三组人的血浆总皮质醇含量有差别。试进一步比较每两组间的差别。(1)建立检验假设H0:对比的两组血浆总皮质醇含量的总体分布位置相同H1:对比的两总体分布位置不同α=0.05(2)计算q值\n第8章秩和检验第435页(1)先按各组秩和的大小从大到小排队,并编上组次,见表8-6。表8-6三组人的秩和按大小排列\n第8章秩和检验第436页表8-7表8-5资料两两比较的计算表(q检验)\n第8章秩和检验第437页(2)列出两两比较的计算表(表8-7)。表中第(1)栏为各比较组;第(2)栏为各比较组秩和之差;第(3)栏a为从第A组到第B组范围内所包含的组数,如比较1与3范围内包括3组,故a=3,余类推。\n第8章秩和检验第438页(3)确定P值根据,和各比较组的a值,查附表5,q界值表,得各比较组的P值,见表8-6第(8)栏。(4)作出推断结论按α=0.05的水准,2组与3组间不拒绝H0,1组与3组间、1组与2组间拒绝H0,接受H1。可认为皮质醇增多症病人的血浆总皮质醇水平高于正常人及单纯肥胖者,而后两者无差别。\n第8章秩和检验第439页二、各样本含量不等时的两两比较\n第8章秩和检验第440页表8-8表8-5资料两两比较的计算表(t检验)\n第8章秩和检验第441页4)推断结论按水准,1组与2组间、4组与5组间接受H0;其余组间均拒绝H0,接受H1。可认为慢性炎症伴有化生者与轻度不典型增生者、原位癌与侵润癌患者之间巴氏细胞学分级无差别;其余组间均有差别。\n第8章秩和检验第442页第六节随机区组设计资料的秩和检验前面已介绍了用方差分析方法来处理随机区组设计(配伍组设计)资料,当资料不能满足方差分析的要求时,则可用秩和检验来处理。例8.8某监测站为研究长江某段水中的生化需氧量,同时在6个采样点和4个不同的时间进行采样测定,结果见表8-9。问不同月份以及不同采样点间水中生化需氧量有无差别?\n第8章秩和检验第443页表8-9长江某段不同月份间生化需氧量(mg/L)比较的秩和检验\n第8章秩和检验第444页(2)编秩每一区组(同一采样点)数据由小到大编秩。编秩时,若有相同数据则取平均秩次,若第2行有2个0.3,均取原秩次1和2的平均秩次1.5。(3)求统计量M值1)分别求四个处理组(月份)的秩和Ri将各月份秩次相加即得,见表8-9下部。2)求平均秩和本例=(24+17+9.5+9.5)/4=15;或根据公式(8.12)计算。\n第8章秩和检验第445页3)计算M值按公式(8.13)计算M值。本例M=(24-15)2+(17-15)2+(9.5-15)2+(9.5-15)2=145.5\n第8章秩和检验第446页如果处理组数k或区组数b超过了附表13的范围,则按公式(8.14)或公式(8.15)求值。2.采样点间比较的秩和检验(略)。\n第8章秩和检验第447页第七节随机区组设计资料的两两比较当随机区组资料多个样本比较的秩和检验认为各总体的位置不同时,可进一步作两两比较的秩和检验。其方法和步骤与第五节完全随机设计各样本含量相等时的两两比较相同,作q检验,只是将公式(8.9)差值的标准误换为公式(8.16)即可。\n第8章秩和检验第448页表8-12月份间生化需氧量的两两比较\n第8章秩和检验第449页(5)确定P值和作出推断结论根据,和各比较组的a值,查附表5,q界值表,得P值,见表8-10第(5)栏。按水准,可认为一月与七、八月间生化需氧量有差别,其余月份间尚无差别。\n第8章秩和检验第450页\n第8章秩和检验第451页THANKYOU FORLISTENINGTHEEND\n第9章直线相关与回归第452页医学本科生用医学统计学泰山医学院预防医学教研室zcheng@tsmc.edu.cn主讲程琮\n第9章直线相关与回归第453页TeachingPlanforMedicalStudentsMedicalStatisticsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第9章直线相关与回归第454页第9章直线相关与回归目录第五节曲线直线化第二节直线回归第三节进行直线相关与回归应注意的问题第四节等级相关第一节直线相关\n第9章直线相关与回归第455页第九章直线相关与回归掌握直线相关与回归的概念、意义及应用条件;掌握直线相关与回归各指标的意义、应用及计算方法;熟悉直线相关与回归的联系及区别;了解曲线回归的概念、意义及类型。教学目的及要求\n第9章直线相关与回归第456页第九章直线相关与回归第一节直线相关1。当两事物或现象在数量上的协同变化呈直线趋势时则称为直线相关(linearcorrelation),又称简单相关(simplecorrelation),用于分析双变量正态分布资料。表示两变量相关关系的重要指标就是相关系数。\n第9章直线相关与回归第457页一、相关系数的意义相关系数(correlationcoefficient)又称为积差相关系数,用符号r表示。它描述两变量间相关关系的密切程度和相关方向。其数值1≥r≥-1,当r为正值时,表示一变量随另一变量的增加而增加称为正相关;当r为负值时,表示一变量随另一变量的增加而减少,称为负相关。当│r│愈接近1,表示两变量的相关愈密切;当│r│愈接近0时,表示两变量相关程度愈低;当│r│=0时,称为零相关,表示两变量无直线相关关系,见示意图9-1。\n第9章直线相关与回归第458页一般认为,当样本含量较大的情况下(n>100),大致可按下列标准估计两变量相关的程度│r│≥0.7高度相关0.7>│r│≥0.4中度相关0.4>│r│≥0.2低度相关\n第9章直线相关与回归第459页图9-1相关系数示意\n第9章直线相关与回归第460页二、相关系数的计算相关系数r的计算公式:第一节直线相关式中lXX与lYY分别为变量X与Y的离均差平方和,lXY为两变量X、Y的离均差积和。\n第9章直线相关与回归第461页计算公式为:\n第9章直线相关与回归第462页例9.1某研究者测量10名20岁男青年身高与前臂长。见表9-1。问身高与前臂长有无直线相关关系?计算步骤:(1)由原始数据绘制散点图9-2,本资料呈直线相关趋势。\n第9章直线相关与回归第463页表9-1身高与前臂长数据与计算表\n第9章直线相关与回归第464页(2)根据表9-1原始数据计算出∑X,∑Y,∑X2,∑Y2,∑XY。本例∑X=1725,∑Y=454,∑X2=298525,∑Y2=20690,∑XY=78541。(3)计算X、Y的离均差平方和与离均差积和\n第9章直线相关与回归第465页(4)求相关系数r\n第9章直线相关与回归第466页三、相关系数的检验假设检验r是否来自总体相关系数ρ为零的总体。\n第9章直线相关与回归第467页1。t检验法t检验的计算公式\n第9章直线相关与回归第468页例9.2对例9.1资料所得r值,检验20岁男青年身高与前臂长是否有直线相关关系。(1)建立检验假设Ho:ρ=0,两变量间无直线相关关系H1:ρ≠0,两变量间有直线相关关系α=0.05(2)计算t值本例n=10,r=0.8227,按公式(9.5)和公式(9.6)计算t值\n第9章直线相关与回归第469页(3)确定P值,作出推断结论按υ=n-2=8查t界值表,得0.002t0.005(8),故P<0.005。按α=0.05的水准,拒绝Ho,接受H1,可认为20岁男青年身高与前臂长有直线回归关系。\n第9章直线相关与回归第480页五、直线回归方程的应用(一)描述两变量间的依存关系可用直线回归来描述。(二)利用回归方程进行预测将X代入直线回归方程,可得到应变量Y的估计值。(三)利用回归方程进行统计控制通过X取值来控制Y的变化。\n第9章直线相关与回归第481页1.作相关回归分析要有实际意义。不要把毫无联系的两种现象作相关回归分析。2.相关关系不一定是因果关系,也可能是伴随关系。3.在进行直线相关与回归分析之前,应先绘制散点图,当观察到点的分布呈直线趋势时,方可进行分析,如散点图呈曲线趋势,应进行曲线回归分析。第三节进行直线相关与回归分析时应注意的问题\n第9章直线相关与回归第482页4.直线相关与回归的区别①在资料需求上,相关分析要求两变量X与Y均为服从正态分布的随机变量,即两者都不能预先指定;回归分析要求Y是正态随机变量,而X可以不是正态随机变量而是一确定值,此时回归分析称为Ⅰ型回归,X也可以是正态随机变量,此时回归分析称为Ⅱ型回归。②在意义上,相关反映两变量的相关关系;回归反映两变量间的依存关系。③在应用上,说明两变量间的相关程度及相关方向用相关;说明两变量间的依存变化的数量关系用回归。\n第9章直线相关与回归第483页5.相关与回归的联系①在同一组数据,相关系数r与回归系数b的符号一致。②同一组数据,r与b的假设检验是等价的,即tr=tb。因r的假设检验可直接查表,较为简便,故可代替b的假设检验。6.回归方程一般只适用于自变量X的原始数据范围内,不能任意外延。因为超出这个范围,X与Y就不一定仍然呈线性关系。\n第9章直线相关与回归第484页7.同一组资料由X推Y和由Y推X的直线回归方程是不同的。由X推Y:回归系数回归方程截距\n第9章直线相关与回归第485页由Y推X:回归系数8.建立回归方程的条件(时间、地点、方法、测量仪器等)一旦改变,原回归方程就不宜继续使用。截距回归方程\n第9章直线相关与回归第486页第四节等级相关当遇到有些资料并不呈正态分布,对于此类资料就不宜用上述所讲的直线相关与回归分析,而常用等级相关处理资料。等级相关(rankcorrelation)亦称为秩相关,适用于分布类型不明的资料、偏态分布资料和等级资料的相关分析。本节主要介绍Spearman等级相关法。\n第9章直线相关与回归第487页其分析步骤如下:1.先将X、Y分别由小到大列出等级,即编秩次,数字相同时需要求平均等级;2.求出每一对X、Y的等级之差d值;3.按下列公式计算等级相关系数rs式中rs为等级相关系数,d2为等级之差,n为样本含量。\n第9章直线相关与回归第488页4.根据n查附表15,rs界值表,确定P值。如rs≥rα,n,,则P≤α,说明X、Y两变量相关有统计学意义;如rsα,说明X、Y两变量相关无统计学意义。例9.5在肝癌病因研究中,某地调查了10个乡肝癌死亡率(1/10万)与某种食物中黄曲霉毒素相对含量,见表9-2。试分析黄曲霉毒素相对含量与肝癌死亡率有无相关的关系。\n第9章直线相关与回归第489页表9-2黄曲霉毒素相对含量与肝癌死亡率\n第9章直线相关与回归第490页分析步骤:(1)建立检验假设Ho:ρs=0,即黄曲霉毒素相对含量与肝癌死亡率无相关关系H1:ρs≠0,即黄曲霉毒素相对含量与肝癌死亡率有相关关系α=0.05(2)编秩次先将X值由小到大依序排列,再将两变量X、Y的数值分别由小到大编秩次,如有相同数值求平均秩次,列于表第(3)栏和第(5)栏。(3)求秩次之差d和d2列于表第(6)栏和第(7)栏。(4)计算等级相关系数rs将表9-2中数据代入公式(9.14)有\n第9章直线相关与回归第491页(5)确定P值查附表15,rs界值表,n=10,r0.05,10=0.648,现rs0.7455>r0.05,10=0.648,故P<0.05。(6)推断结论在α=0.05水准上,拒绝Ho,接受H1,可认为黄曲霉毒素相对含量与肝癌死亡率之间存在正相关关系。\n第9章直线相关与回归第492页第五节曲线直线化(1)一、曲线直线化的概述在医学研究中,有时两种变量间不呈直线关系,而是呈曲线关系。需要把这些关系变动的特征恰当地反映出来,需要根据实测资料的曲线类型找到能反映变量关系的曲线回归方程,求曲线回归方程的过程及方法叫曲线拟合。医学上常见的曲线类型有:指数曲线、对数曲线、双曲线、抛物线和“S”型曲线等。\n第9章直线相关与回归第493页(一)曲线直线化的用途1.修匀由于抽样误差的影响,实测资料存在一定的波动,难于绘出一条能完全符合每一观察点的光滑曲线,但得到的该回归曲线却能比较恰当的显示原资料中两变量间的回归关系。因此经过修匀的曲线比原资料的观察点合理而稳定。2.估计即由较易测得的自变量X推算较难测得的应变量Y的估计值。\n第9章直线相关与回归第494页3.求极大点或极小点这是拟合抛物线的特有用途,如细菌生长的最适温度是多少?人体发育在哪个年龄最快等,这些数据很难从散点图上确定,只有拟合成曲线后,才能根据曲线回归方程推算极大点或极小点的最可能数值。\n第9章直线相关与回归第495页(二)曲线拟合步骤1.定曲线型对实测数据选择何种曲线类型,一般要根据以下三个方面:①根据专业知识及过去经验或文献资料;②根据全部观察点在普通坐标纸上所呈现的总趋势;③根据观察点在某种变换值的坐标纸上是不是呈现直线趋势。如半对数纸上点图呈现直线趋势可选用指数曲线或对数曲线;如在双对数纸上呈直线趋势可选用双曲线;如在对数概率单位纸上呈直线趋势时,可选用S型曲线。\n第9章直线相关与回归第496页2.直线化对呈曲线关系的变量进行适当变换,使变换后的两个变量之间呈直线关系,称为直线化。直线化既可以验证所确定的曲线型是否恰当,更便于用求直线方程的方法得到曲线方程。除多项式曲线可不必经直线化外,其它几类曲线拟合大多经过直线化。3.求曲线回归方程4.求估计值5.作曲线图6.必要时作拟合优度检验。\n第9章直线相关与回归第497页二、指数与对数曲线的拟合这种X与Y之间的关系可归纳为下面二点:①二者关系始终是正比例或始终是反比例;②变化始终是“加速度”的或始终是“减速度”的。具有这种性质的资料一般均可拟和指数曲线或对数曲线。\n第9章直线相关与回归第498页指数曲线方程的一般形式为(9.15)若10a=A,10b=B,则公式可表示为(9.16)公式(9.15)两边取对数,得(9.17)公式(9.16)两边取对数,得(9.18)\n第9章直线相关与回归第499页令lgA=algB=b则公式(9.18)也变成公式(9.17)的形式。公式(9.17)是指数曲线方程的对数形式。如令y=lgY则公式(9.17)就变成了直线回归方程形式,可按最小二乘法求知直线回归方程,得a和b值后,直接可写成(9.15)的形式或经求得A=lg-1a,B=lg-1b后,写成公式(9.16)的形式。指数曲线的形式可概括为四种类型,见图9-3。\n第9章直线相关与回归第500页图9-3四型指数曲线的模型第五节曲线直线化(8)\n第9章直线相关与回归第501页例9.6某地大气中离污染源不同距离处氰化物浓度测定结果见表9-3。试拟合曲线。表9-3某地氰化物浓度与污染源距离的关系\n第9章直线相关与回归第502页拟合曲线的步骤如下:(1)定曲线型将表9-3第(1)、(2)栏各(X,Y)点绘于普通坐标纸上,得到图9-4,对照图9-3各型,接近Ⅱ型指数曲线,即lgY=a-bX.(2)直线化将表9-3第(1)、(2)栏数据在半对数纸上作图,置Y于对数轴,X置于真数轴,得观察点连线,见图9-5,其分布近于直线,说明直线化效果较好。故取y=lgY,见表9-3(3)栏。(3)求直线方程\n第9章直线相关与回归第503页图9-4污染源距离与氰化物浓度指数曲线图9-5曲线直线化\n第9章直线相关与回归第504页(二)对数曲线的拟合当自变量X取常用对数,而应变量Y取原测定值,则对数曲线方程为(9.19)\n第9章直线相关与回归第505页对数曲线(亦有书通称指数曲线)的形状亦可概括为四型见图9-6。图9-6四型对数曲线模型\n第9章直线相关与回归第506页对数曲线四型的形状与相应的指数曲线形状类似,只是对数曲线方程是以X变量为对数,故渐近线与Y轴平行。在选择曲线方程时应注意这一点。对数曲线的拟合与指数曲线的拟合方法与步骤基本一样,只是将X值置于对数轴上,Y值置于真数轴上,进行直线化。如果X与Y尚未达到直线化,可取X±k作校正,k的数值需经尝试,以使观察点逐步逼近直线趋势。例9.7某研究室以不同浓度的免疫球蛋白lgA(g%)作火箭电泳,测得火箭的高度(mm)如表9-4。试拟合曲线。\n第9章直线相关与回归第507页拟合曲线的步骤如下:(1)确定曲线类型将表9-4第(1)、(3)栏各(X,Y)点绘于普通坐标纸上,得图9-7上的观察点。对照图9-6各型,接近Ⅳ型对数曲线,即Y=a+blgX(2)直线化将表9-4第(1)(3)栏数据在半对数纸上作图,置X于对数轴,Y于真数轴,得观察点见图9-8。其分布近于直线,说明直线化效果较好。故取x=lgX,见表9-4第(2)栏。\n第9章直线相关与回归第508页表9-4lgA浓度与火箭高度之间的关系\n第9章直线相关与回归第509页图9-7IgA浓度与火箭高度的对数拟合曲线图9-8对数曲线直线化\n第9章直线相关与回归第510页则直线方程为求对数曲线方程将x=lgX代入直线方程得\n第9章直线相关与回归第511页三、曲线方程的假设检验和拟合优度当用拟合的曲线回归方程描述两变量间的曲线关系时,经常需要回答两个问题:一是拟合的曲线方程有无意义,即此曲线关系能否成立;二是拟合的效果如何。回答第一个问题需要作曲线回归方程的假设检验;回答第二个问题可用相关系数的大小说明。曲线回归方程是否有统计学意义,可以用方差分析来检验。其公式为:\n第9章直线相关与回归第512页计算出F值后,根据υ1=υ回归,υ2=υ剩余,查附表4,F界值表,得出P值,按所选择的检验水准作出结论。在曲线回归方程有统计学意义的前提下,曲线拟合得好坏可以看l剩余的大小。如果l剩余对l总的比例愈小,说明实际观察值与估计愈接近,曲线拟合得愈好;反之愈差。这种拟合度,可以用相关指数(R2)来表示。R2愈接近1,表示拟合得愈好。计算公式为:\n第9章直线相关与回归第513页例9.8以例9.6已经拟合成指数曲线为例,对曲线方程进行假设检验并判断拟合的情况。已经拟合的曲线方程为,按指数曲线方程计算其估计值,见表9-5。指数曲线拟合的相关指数为:说明指数曲线拟合较好。\n第9章直线相关与回归第514页THEENDTHANGYOUFORLISTENING\n第10章实验设计第515页医学统计学主讲程琮泰山医学院预防医学教研室zcheng@tsmc.edu.cn本科生用\n第10章实验设计第516页TeachingPlan forMedicalStudentsMedicalStatisticsProfessorChengCongDept.ofPreventiveMedicineTaishanMedicalCollege\n第10章实验设计第517页第10章实验设计目录第五节常用实验设计方法第二节实验设计的基本要素第三节实验设计的基本原则第四节样本含量的估计第一节实验研究\n第10章实验设计第518页第十章实验设计1。掌握实验设计的基本概念及意义。2。掌握实验设计的三个基本要素及四个基本原则。3。了解样本含量估计的意义及常用方法。4。熟悉常用实验设计方法。\n第10章实验设计第519页第一节实验研究一、实验设计的概念实验研究(experimentalresearch)是使设计的实验因素或处理因素在其它干扰因素被严格控制的条件下,观察其对实验结果或实验效应的作用及影响。实验设计(experimentdesign)是指研究人员对实验因素作合理的、有效的安排,最大限度地减少实验误差,使实验研究达到高效、快速和经济的目的。\n第10章实验设计第520页医学实验设计(medicalexperimentaldesign)是将实验设计的基本原理和方法应用于医学领域,主要包括基础医学、临床医学和预防医学。其目的是研究如何科学地、合理地安排实验因素,研究并排除实验中所有影响实验结果及效应的各种干扰因素的作用。干扰因素也称为非处理因素或背景因素,它是指处理因素以外的可以影响实验效应及实验结果的一切可能的因素。\n第10章实验设计第521页非处理因素一般多为受试对象本身的特征及外界环境因素,其来源复杂,范围广,经常不易控制或不易察觉。实验设计的基本构成包括三个基本要素及四个基本原则。三个基本要素是:受试对象,处理因素和试验效应。四个基本原则是:随机化的原则,对照的原则,重复的原则及均衡的原则。\n第10章实验设计第522页实验设计的基本构成三个基本要素四个基本原则受试对象处理因素试验效应随机化的原则对照的原则重复的原则均衡的原则\n第10章实验设计第523页实验研究主要具有三个基本特点:第一,研究人员能够按照实验设计的目的及要求设置处理因素。第二,受试对象可以通过随机化原则随机地接受某种处理因素或某种处理因素的不同水平。第三,由于应用了随机化原则,使各比较组之间达到了较好的均衡性,因而,最大限度地减少了非处理因素对实验效应及结果的干扰和影响。二、实验研究的特点\n第10章实验设计第524页由于实验研究具备这三个特点,就使得实验研究中各比较组之间具有较好的均衡性及可比性,大大减少了各种非处理因素或背景干扰因素对实验效应及结果的影响,可以更为有效地控制实验误差,提高了实验研究的效率及实验结果的可靠性。\n第10章实验设计第525页实验研究有多种分类方法,一般常根据受试对象的特征分为三大类:1.动物实验(animalexperiment)是指用人工饲养繁殖的动物进行实验研究。其特点是,容易控制处理因素及背景干扰因素,实验误差较小,实验成本较低,观察的实验效应较为客观。如果在实验研究中,出现因各种原因而导致动物意外死亡或缺失时,可据情予以补充,收集资料及分析资料均较为方便。三、实验研究的分类\n第10章实验设计第526页1。动物实验几乎可用于医学研究的各个领域。由于动物与人体之间在种属等等方面存在巨大差异,因此,动物实验的研究结果不能直接推论到人体上,而是可以作为人体研究的参考依据或基础数据。常用于医学研究的实验动物有大白鼠、小白鼠、豚鼠、兔子、猫、狗、羊和猪等,还可以是猴及灵长目类动物。各种动物都有其自身的特点,选择动物时,要根据研究目的先确定动物的种类,还应特别注意动物的性别、年龄、品系等特征。\n第10章实验设计第527页临床试验是指按科学的实验方法,研究疾病在临床阶段规律的试验。临床试验研究的对象主要是病人或健康人。1)选择病人可以作为实验组也可以作为对照组。一般是选择患某种确诊疾病的患者为观察病例。选择病人除考虑病人本身的特征外,还要考虑疾病的特征,如病情的发展状况,常规治疗方案的疗效情况,病人的生存状况是否存在危险等等方面。2.临床试验(clinicaltrial)\n第10章实验设计第528页2)选择健康人一般是作为试验的对照组,考虑的各方面因素与病人相同或相近。由于人的背景因素及个性特征极为复杂,在进行临床试验研究时,除考虑上述因素外,还要考虑医德等方面的问题。在选择病人及健康人、选择处理因素时,要非常慎重。试验前应该经过科研小组成员及有关专家的认真讨论,并进行周密设计,以避免出现各种意外情况。因此,针对人体的临床试验研究与动物试验研究存在很大的区别。这是每位医学科研工作者应该十分注意的。\n第10章实验设计第529页3。社区干预试验(communityinterventiontrial)是指对社区中的所有人群施加某种处理因素并观察一段较长的时间。其目的是通过干扰某些在人群中存在的危险因素或施加某种保护性措施,观察处理因素在社区人群中产生的效应或预防效果。典型的社区干预试验的实例之一是在社区人群的饮水中加入氟化物以观察是否能够降低人群的龋齿发生率的试验。由于社区干预试验中涉及人群数量多,人群结构复杂,不易控制处理因素及背景干扰因素,且难以对人群给予处理因素时进行随机化分配,其试验效果及效应的确切性往往不易准确判断或确定。\n第10章实验设计第530页典型的社区干预试验的实例之一是在社区人群的饮水中加入氟化物以观察是否能够降低人群的龋齿发生率的试验。由于社区干预试验中涉及人群数量多,人群结构复杂,不易控制处理因素及背景干扰因素,且难以对人群给予处理因素时进行随机化分配,其试验效果及效应的确切性往往不易准确判断或确定。第一节实验研究\n第10章实验设计第531页第二节实验设计的基本要素实验设计有三个基本要素,即受试对象、处理因素和实验效应。三个基本要素是相互联系的。在实验设计阶段,研究人员应根据实验研究的目的,紧紧抓住这三个基本要素,并应通盘考虑如何去合理有效地安排这三个基本要素。只有这样,实验设计才会有明确的方向。实验设计是实验研究中最为重要和关键的第一步。必须给予高度重视。有些研究人员未能充分认识到这第一步的重要性。经常是先进行实验研究工作,其后才考虑实验设计问题。\n第10章实验设计第532页一、受试对象受试对象(studysubjects)是指在实验研究中研究人员所要观察的客体,即处理因素作用的对象。受试对象主要包括人、动物、微生物以及人或动物的试验材料。如器官、组织、细胞、血液、尿液、粪便等。第二节实验设计的基本要素\n第10章实验设计第533页选择受试对象是根据科研课题的研究目的而确定的。选择受试对象应考虑下列几点:①进行基础性的医学研究,多选择动物及其材料作为受试对象,并可由此积累资料和基础数据;②观察临床疗效、临床检验水平、诊断水平及社区干预试验等,多选择人体及其材料作为受试对象。一般常以病人为实验组,健康人为对照组;也可选择几组不同类型的病人分别作为实验组和对照组。\n第10章实验设计第534页(一)受试对象的基本条件受试对象应具备下列基本条件。(1)敏感性:是指受试对象接受处理因素后,容易显示实验效应。(2)特异性:是指受试对象接受处理因素后,只产生特定的实验效应。(3)稳定性:是指受试对象产生的实验效应仅在特定范围内波动,且波动相对较小。(4)经济性:是指受试对象容易获取且价格便宜。(5)可行性:是指受试对象便于施加处理因素及获取标本。(6)相似性:是指动物产生的实验效应尽可能与人体近似。\n第10章实验设计第535页(一)常用受试对象的基本特征1。动物医学研究中的各个领域几乎都要用到实验动物。使用动物作为受试对象非常方便,安全性高,价格相对便宜,而且不涉及人类的医德问题。研究中动物意外缺失可以据情予以补充。饲养、管理及观察动物十分方便且容易做到。选择动物一般要考虑动物的种类、种属、品系、窝别、性别、年龄、体重、健康状况、是否容易饲养和存活,对施加的处理因素的反应特征等方面。\n第10章实验设计第536页(1)小白鼠及大白鼠啮齿类动物。主要用于进行毒理学研究。可以研究各种有害毒物的急慢性毒性作用及“三致”作用,即毒物的致突变作用,致畸变作用及致癌作用。用此类动物进行实验研究,其特点是价格低,易饲养,可以大量使用。但由于啮齿类动物缺乏呕吐反射,故凡是能引起呕吐反射的化合物的毒性研究,一般不能使用此类动物。(2)兔也属于啮齿类动物。用于化合物的毒性试验研究。尤其是经皮肤接触的毒作用试验。也可用于胃肠道对外来化合物的吸收动力学研究。\n第10章实验设计第537页(3)猫和狗为非啮齿类动物的典型代表。可用于毒理学试验研究,也可用于生理学研究。如进行血压、睡眠等方面的研究。但猫与狗的价格较高,不适于大数量使用。(4)猪其皮肤结构与人体较近似,可用于各种毒物对皮肤的毒性作用研究。猪的躯体较大,价格较高,不便于大量使用。(5)其它猴与灵长目类动物与人类较接近,但其价格昂贵,只用于某些特殊研究。一般情况下不使用此类动物。\n第10章实验设计第538页2。人体以人体作为观察对象,涉及的问题很多且较为复杂,一般应考虑下列几个方面:(1)一般条件性别、年龄、民族、个人嗜好、生活习惯、居住地区等。(2)健康状况既往病史、家族成员病史、目前健康状况,身体发育状况等。(3)社会因素职业、文化程度、经济条件、居住条件、家庭状况、心理状况、个性特征、病人及其家属的合作态度等。\n第10章实验设计第539页(4)疾病因素病种、病型、病期、病程、病情、诊断方法、诊断标准、试验研究的时间期限等。(5)机体材料标本的获取部位、获取条件、新鲜程度、保存方法、培养条件、运输及传送方式等。(6)外界环境因素医院规模、医疗水平、医疗设备、医护人员的水平及素质、病房的大小、病房中病人数量、病人距离医院的远近,就诊的方便程度等。\n第10章实验设计第540页人体作为受试对象,常用于临床治疗方案的疗效观察研究以及某种疫苗在人群中预防某种疾病的效果观察等。在临床治疗工作中,每一位病人都可以作为一个观察对象。但是,按照实验设计的四个基本原则,如想在特定时期内选择几组除处理因素不同以外,其它各方面条件都基本一致的病例,则是一件相当困难的事情。\n第10章实验设计第541页处理因素(studyfactor)是指由研究人员施加于受试对象并能产生一定试验效应的因素。医学科研中常用的处理因素主要有下列几大类:1.物理因素电、磁、光、声、温度、射线、微波、超声波等。2.化学因素药物、营养素、激素、毒物、各种有机和无机化合物等。3.生物因素寄生虫、真菌、细菌、病毒及其生物制品等。\n第10章实验设计第542页处理因素在实验设计阶段也要认真考虑并仔细分析。尤其是处理因素的剂量及水平数应该通过预试验或据以往经验有一定的了解和把握。处理因素剂量过小,受试对象不产生反应,达不到观察试验效应的目的。如果剂量过大,则可能导致受试对象的强烈反应乃至死亡。对动物进行毒理学研究时,处理因素的剂量变化范围较大,可以使动物不出现反应,刚出现反应,到动物出现较大反应或死亡。对于临床试验,由于针对的是人体,控制处理因素的剂量范围是非常重要的。其注意点是,应在保证人体安全的前提下,将处理因素安全剂量范围内的不同剂量水平施加于人体,观察机体的反应及试验效应。\n第10章实验设计第543页在实验研究中,由于影响试验结果的因素很多,有时则十分复杂。因此,在安排施加处理因素时,应考虑下列几个方面。1。抓住实验中的主要因素任何一项实验研究都有其主要的方面或主要矛盾。2。确定处理因素和非处理因素实验研究中应根据研究目的确定处理因素和非处理因素。一般情况下,两者的区别并不困难。3。处理因素标准化是指在进行同一个实验研究时,施加于多个受试对象的处理因素是相同一致的。不能随意加以改变。尤其是用于病人的药物。\n第10章实验设计第544页三、实验效应实验效应(experimentaleffect)是指处理因素施加于受试对象并经过一定时间,受试对象产生的各种反应及表现。这些反应可以是主观的,也可以是客观的。实验效应可以用各种各样的具体指标来表示。观察实验效应,应尽可能选择客观指标以及容易检测及分析的指标。第二节实验设计的基本要素\n第10章实验设计第545页(一)观察指标的分类观察指标按其性质一般可以分为下列几类:1.定量指标可以用具体的度量衡单位来表示的指标。如人体的身高用厘米表示,体重用公斤表示,脉搏用每分钟的次数来表示。计量指标可以根据具体指标的要求,精确到小数点后面若干位。2.分类指标按受试对象的属性或特征先分类,再计数各类的个数。用绝对数或相对数来表示。如某检测指标的结果可以用“是”或“否”,“阴性”或“阳性”来表示。\n第10章实验设计第546页3.等级指标按试验效应的程度分为若干等级,并计数各等级的个数。该指标介于定量及分类指标之间。如用某治疗方案治疗病人,其观察结果可以分为四个等级,即:无效,显效,好转,痊愈。这四个等级可以用一个或多个具体量度指标来确定。\n第10章实验设计第547页(二)选择观察指标的要求1.关联性是指观察指标与研究目的有着本质而密切的联系,能够确切反映处理因素的试验效应。这些指标可以通过查阅文献或根据以往经验而获得。2.客观性是指能够借助各种检测手段及方法所观测记录的指标。如血压,红细胞数,心电图,尿铅含量等指标。\n第10章实验设计第548页3.精确性精确性包括两层含义。其一是准确度,即指实际测量值与真值的接近程度。准确度越高,测量值越接近真值,误差则越小。尽管真值往往未知,但准确度越高,指标的可靠性越高。其二是精密度,指在重复观察及测量时,观察值与其平均值的接近程度。精密度越高,说明重复的测量值越接近,检测设备或手段的稳定性越好。\n第10章实验设计第549页4.稳定性是指观察指标变异度的大小。稳定性高,则变异度小,指标的代表性强,反之亦然。稳定性一般可以用该指标的变异系数来表示。如果变异系数不超过15%~20%,则该指标的稳定性较好。5.灵敏性是指各种检测手段和方法能够检测出试验效应微小变化的能力。灵敏性越高,则检测出试验效应微小变化的能力越强。随着科学技术的快速发展,检测手段的灵敏性将会越来越高。\n第10章实验设计第550页6.特异性是指检测指标的排它性,是观察指标对某种特殊试验效应及结果的反映能力。特异性越强,观察指标反映某种试验效应的能力越强。特异性对诊断严重疾病的意义非常重要。如果某检测指标特异性强,则该指标对确诊和早期发现严重疾病具有直接意义。如检测指标甲胎蛋白对确诊早期肝癌具有重要意义。\n第10章实验设计第551页6.特异性是指检测指标的排它性,是观察指标对某种特殊试验效应及结果的反映能力。特异性越强,观察指标反映某种试验效应的能力越强。特异性对诊断严重疾病的意义非常重要。如果某检测指标特异性强,则该指标对确诊和早期发现严重疾病具有直接意义。如检测指标甲胎蛋白对确诊早期肝癌具有重要意义。\n第10章实验设计第552页(三)消除心理偏性的方法心理偏性是指研究人员及受试对象由于各自的心理偏见而在观察或描述试验效应时产生的误差。如医护人员容易认为自己使用的治疗方案要好于其他人的治疗方案。病人则容易受医院规模大小,医疗设备的先进程度,医院医疗水平的高低,权威医护人员或普通医护人员治疗等等方面的心理影响。这些影响可以导致病人主观感觉的偏见。消除上述心理偏性的方法一般是使用盲法设计。\n第10章实验设计第553页第三节实验设计的基本原则实验设计包括四项基本原则,即随机化的原则,对照的原则,重复的原则和均衡的原则。一、随机化的原则1.概念及用途随机化(randomization)是指总体中的每一个个体都有均等的机会被抽取或被分配到实验组及对照组中去。随机化原则的核心是机会均等。使用随机化方法可以消除在抽样及分组过程中,由于研究人员对受试对象主观意愿的选择而造成试验效应的误差。\n第10章实验设计第554页2.随机化的方法随机化的方法有多种。常用的有抽签法,抓阄法,随机数字法等。随机数字法一般有随机数字表和随机排列表。普通函数型电子计算器也可以显示随机数字。随机数字表中出现数字0-9的机会或概率是均等的。利用随机数字分组的方法很多也很灵活。\n第10章实验设计第555页对照(control)是指在实验研究中使受试对象的处理因素和非处理因素的试验效应的差异有一个科学的对比。主要目的是为了排除对照组和实验组中非处理因素对试验效应的影响或干扰作用,并使得实验组和对照组具有可比性。对照的基本要求是,除处理因素作有计划的变化外,实验组与对照组的其它条件尽量保持一致。二、对照的原则\n第10章实验设计第556页实验研究中设置对照组是非常重要的。常用的对照方法有下列几种。(一)空白对照空白对照是指对照组不施加任何处理因素。常用于防疫系统疫苗接种效果的观察与研究。注意:在动物实验研究中,可以使用空白对照,而在针对人体的临床试验研究中,一般不能使用空白对照。对照组可以使用常规疗法以保证病人的生命安全,而对危重病人则更要注意不能使用空白对照。\n第10章实验设计第557页(二)标准对照标准对照是指以公认或习惯的标准方法、标准值或正常值作为对照。这些对照值或标准值一般是多个地区多年累积的经验结果,具有参考价值和意义。实验研究中一般不用标准值作对照,主要是某项实验研究中的实验条件难以与标准值的实验条件相一致,不具备良好的可比性。临床试验研究中可以用常规疗法或经验疗法作为标准对照组。\n第10章实验设计第558页(三)实验对照实验对照是指对照组虽未施加处理因素,但却施加了某种与处理因素有关的实验因素。这是一种比较特殊的非处理因素。例如,研究赖氨酸对促进儿童的生长发育作用,实验组儿童的课间餐为加赖氨酸的面包,对照组为不加赖氨酸的面包,两组儿童面包的数量是一致的。\n第10章实验设计第559页(四)自身对照自身对照是指对照和实验在同一个受试对象身上进行,只是在进行对照组和实验组的观察时,在时间上有前后顺序的不同。(五)相互对照相互对照是指不专门设置对照组,而以各实验组之间互为对照,比较各处理因素试验效应的相对大小及作用。\n第10章实验设计第560页(六)安慰剂对照安慰剂(placebo)是指一种无药理作用的假药,其与治疗药物在外观、剂型等方面不能被受试对象所识别。安慰剂对照则是指将安慰剂施加于对照组的受试对象。安慰剂对照是一种特殊的空白对照,其目的主要是排除病人或受试对象的心理偏见。人作为受试对象具有复杂的心理过程,极易受到各种外界因素的影响和干扰。\n第10章实验设计第561页(七)历史对照历史对照是指以过去或以往的研究结果作为对照。主要用于对难治或无法治愈的疾病的研究,如晚期恶性肿瘤,狂犬病等疾病。由于这些疾病难以治愈或无法治愈,这种累积下来的治疗结果就成为历史对照。例如,狂犬病一但发病,其治愈率几乎为零,这是一个历史的治疗结果。历史对照一般不宜使用,应用时应特别注意资料的各种背景条件因素及其可比性。\n第10章实验设计第562页三、重复的原则重复(replication)是指实验组和对照组的受试对象应具有一定的数量。重复表现为二个含义:其一是样本含量的大小;其二是同一试验重复次数的多少,两者的本质是相同的。按照抽样误差变化的规律,在抽样中,随着样本含量的增大或重复次数的增加,抽样误差将逐渐减小。\n第10章实验设计第563页如果研究总体中的所有个体,其优点是研究的指标准确可靠,没有抽样误差,具有较高或很高的参考价值;缺点是耗费大量的人力、物力、财力和时间,一般情况下是不采用的。研究样本的优点是节省人力、物力、财力和时间;缺点是观察指标存在抽样误差,降低了指标的准确性和可靠性。如果未认真进行实验设计和考虑抽样方法,则样本指标常可导致错误的结论。这也是在抽样研究中要十分注意的问题。\n第10章实验设计第564页四、均衡的原则均衡的原则也称为齐同原则,是指对照组除处理因素与实验组不同外,其它各种条件及因素应基本一致。这些条件及因素即指非处理因素或称为背景因素。对照组与实验组应具有较好的均衡性,这样才能保证各组之间具有较好的可比性,才能充分显示出实验组处理因素的效应和作用,排除其它各种因素的干扰和影响。\n第10章实验设计第565页第四节样本含量的估计一、确定样本含量的意义正确确定样本含量是实验设计中的一个重要部分,在估计样本含量时,应当注意克服两种倾向:1。某些研究工作者片面追求增大样本例数,认为样本例数越大越好,甚至提出“大量观察”是确定样本含量的一个重要原则,其结果导致人力、物力和时间上的浪费。\n第10章实验设计第566页2.确定总体标准差σ由于总体标准σ差往往未知或不易获得,一般可用预试验的样本标准差S来估计或代替。3.确定第一类错误的概率α也称为检验水准或显著性水平,α越小,所需样本例数越多。习惯上,检验水准一般取α=0.05,并可根据专业要求决定取单侧α或双侧α。\n第10章实验设计第567页4.检验效能(1-β)检验效能也称为把握度,是指在特定水准下,若总体间确实存在差异,则该次试验能发现此差异的概率。其中的β为第二类错误。(1-β)越大,即把握度越高,所需样本例数越多。通常取β=0.1或β=0.2,相应的检验效能为0.9或0.8。一般检验效能不宜低于0.75,否则第二类错误增大,“存伪”的概率增加。\n第10章实验设计第568页样本含量估计的方法较多,有些公式较为复杂,计算繁琐。最常用的几种方法有:1。样本均数与总体均数的比较2。两样本均数的比较3。两样本率的比较具体计算方法公式:略。三、常用样本含量估计方法\n第10章实验设计第569页完全随机设计(completelyrandomdesign)也称为单因素设计,该设计只能分析一个处理因素的作用。处理因素可有2个或2个以上水平,每个水平代表一个分组。可用抽签法、抓阄法或随机数字法等将受试对象随机分配到各实验组及对照组中。该设计的特点是,简单方便,应用广泛,容易进行统计分析;但只能分析一个因素的作用,效率相对较低。如果只有两个分组时,可用t检验或单因素方差分析处理资料。如果组数大于等于3时,可用单因素方差分析处理资料。一、完全随机设计第五节常用实验设计方法\n第10章实验设计第570页该设计如果用于临床试验,也可称为临床试验设计中的随机对照试验(randomizedcontroltrial);如果其中采用了盲法设计,则又称为随机盲法对照试验(randomizedblindcontroltrial)。注意,在受试对象分组前,应使其非处理因素尽量达到均衡,然后再采用随机方法对受试对象进行分组,这样才能使得各组的可比性高,均衡性强。\n第10章实验设计第571页例10.4按单因素设计要求,将15只动物等量分为A、B、C三组。设计及分组步骤如下。(1)选取15只品系相同,性别相同,年龄相同或相近,体重相近的动物15只。(2)将15只动物任意编号为1~15号。\n第10章实验设计第572页表10-4单因素设计动物分组方法(3)查附表17,“随机排列表”,预先规定:从该表第12行顺序查抄1~15范围内的随机数字15个,小于1及大于15的数字舍去。数字1~5归入A组,6~10归入B组,11~15归入C组。(4)15只动物分组方法及结果,见表10-4。\n第10章实验设计第573页配对设计(paireddesign)是将受试对象按一定条件配成对子,分别给予每对中的两个受试对象以不同的处理。配对的条件是影响实验效应的主要非处理因素。在这些非处理因素中,动物主要有:种属,性别,年龄,体重,窝别等因素;人群主要有:种族,性别,年龄,体重,文化教育背景,生活背景,居住条件,劳动条件等。其中病人还应考虑疾病类型,病情严重程度,诊断标准等方面。配对设计的目的是降低、减弱或消除两个比较组的非处理因素的作用。二、配对设计\n第10章实验设计第574页该设计的特点是:可以节约样本含量,增强组间均衡性,提高试验效率,减轻人力、物力和财力负担。在临床试验中,配对设计应用广泛。医学科研中常见的配对设计有下列几种类型:(1)配对设计将两个条件相近的受试对象按1:1配成对子,然后对每对中的个体随机分组,再施加处理因素观察效应。\n第10章实验设计第575页(2)自身对照设计临床上常见情况是,把病人治疗前与治疗后的检测指标值作为一对数据。若干个病人的检测值作为若干对数据。这种设计为配对设计中的一种。(3)同一标本用两种方法检测采集的同一份标本或样品如果用两种方法进行检测,则得到一对数据。检测一批样品则得到若干对数据。此种设计也属于配对设计。\n第10章实验设计第576页交叉设计(cross-overdesign)是一种特殊的自身对照设计。它克服了由于施加于受试对象的处理因素在时间上的不同而导致的试验效应的偏差。(一)交叉设计的特点1.节约样本含量,试验效率高。2.可以均衡因施加处理因素的时间顺序不同对试验效应的影响。3.每个受试对象均可接受A和B两种处理因素。4.需用交叉设计的方差分析方法处理数据,其计算稍嫌繁琐。三、交叉设计\n第10章实验设计第577页例10.5试将10对受试者随机分入甲、乙两处理组。先将受试者编号,如第一对第1受试者编为1.1,第2受试者编为1.2,余仿此。随机指定附表17随机排列表第2行,舍去10~19之间的数字,并规定单数取甲乙顺序,双数取乙甲顺序。表10-5按配对设计的要求将10对病人进行分组\n第10章实验设计第578页5.要求两种处理因素不能相互影响。观察时间不能过长,处理效应不能持续过久。6.临床试验设计中,不适合于急性病的疗效观察。由于急性病的病程较短,在试验的第一阶段该病可能已经治愈,则在第二阶段不可能再显示出疗效。7.该设计应采用双盲法设计较好,以避免试验执行者和病人的心理偏见。\n第10章实验设计第579页(二)设计方法1.先将条件相近的受试对象按1:1配成若干对子;2.用随机方法将每对中的两个个体分为两组;3.决定两个组中的哪个组的受试对象先用A处理因素,后用B处理因素;另一组的受试对象则与此相反。例如,第一组先给A,第二组先给B;经一定时间后,第一组再给B,第二组再给A。4.在试验的不同时期即前后两个阶段,A与B两种处理因素既同时使用又交叉使用。两组中A结果与B结果之差即为试验效应。\n第10章实验设计第580页例10.6已配成对子的10对病人(共计20例),请将他们按交叉设计要求进行A、B两种处理方式的随机分配。分组方法及步骤如下。(1)将10对病人任意编为1~10号,再将每对病人依次编号为1.1、1.2,2.1、2.2,…等。(2)查附表17随机排列表。任意指定随机排列表一行,比如从该表第9行,舍去10~20,将随机数字列于表10-6中。若遇随机数字的单数,则对子中的第1个病人先A后B,对子中的第2个病人先B后A。若遇双数,则对子中的第1个病人先B后A,第2个病人先A后B。余类推。\n第10章实验设计第581页表10-6按交叉设计要求对10对病人进行分组注意:所谓“先A后B”是指试验开始的第一阶段,先对相应病人使用A处理因素;在试验的第二阶段对该病人使用B处理因素。“先B后A”的意义与此相反。\n第10章实验设计第582页随机区组设计(randomizedblockdesign)也称为配伍组设计或双因素设计。它是1:1配对设计的扩大。该设计是将受试对象按配对条件先划分成若干个区组或配伍组,再将每一区组中的各受试对象随机分配到各个处理组中去。四、随机区组设计\n第10章实验设计第583页①进一步提高了各区组及处理组的均衡性及可比性;②可控制一般设计中的混杂性偏倚;③节约样本含量,增强试验效率;④可同时分析两个处理因素的作用,且两因素应相互独立,无交互作用;⑤每一区组中受试对象的个数即为处理组数,每一处理组中受试对象的个数即为区组数;⑥可用双因素方差分析方法处理数据,计算较为繁琐;⑦应特别注意该设计中受试对象的区组分组方法和处理组分组方法,否则将影响到该设计的均衡性及试验效率。该设计的特点是:\n第10章实验设计第584页例10.7研究人员在进行科研时,要观察2个因素的作用。欲用20只动物分为五个区组和四个处理组。试进行设计及分组。设计及分组方法和步骤如下:(1)该设计可采用随机区组设计方案。分析的两个因素的作用可分别列为区组因素和处理组因素。两因素服从正态分布、方差齐性且相互独立。(2)取同一品系的动物20只。其中每一区组取同一窝出生的动物4只。五个区组即为五个不同窝别的动物。\n第10章实验设计第585页(3)将每一区组的4只动物分别顺序编号为1~4号,5~8号,9~12号,13~16号,17~20号,接受A、B、C、D四种处理方式。(4)查附表17随机排列表,任意指定5行,如第9至第13行。每行只随机取数1~4,其余数舍去。依次将随机数字记录于各配伍组的编号下,其随机数字即为该动物应分入的处理组,见表10-7。\n第10章实验设计第586页表10-7按随机区组设计要求对20只动物进行分组表10-820只动物的分组结果\n第10章实验设计第587页拉丁方(Latinsquare)是指用r个拉丁字母排成r行r列的方阵,使每行每列中的每个字母都只出现一次,此方阵叫r阶拉丁方或r×r拉丁方。拉丁方设计(Latinsquaredesign)是利用拉丁方来安排并观察分析三个处理因素试验效应的设计方法。拉丁方设计的基本要求是:①必须是三个因素的试验,而且三个因素的水平数相等;②三个因素相互独立,无交互作用;③三个因素试验效应的测量指标服从正态分布且方差齐性。五*、拉丁方设计\n第10章实验设计第588页拉丁方设计的基本特点是:①拉丁方设计分别用行间、列间和字母间表示三个因素及其不同水平;②拉丁方方阵可以进行随机化,目的是打乱原字母排列的有序性。具体方法是,将整行的字母上下移动或将整列的字母左右移动。经多次移动即可以打乱字母的顺序性并达到字母排列的随机化;③无论如何随机化,方阵中每行每列每个字母仍只出现一次;④拉丁方设计均衡性强,试验效率高,节省样本含量,可用拉丁方设计的方差分析处理数据,但计算较为繁琐。\n第10章实验设计第589页例10.8将4×4拉丁方的有序字母随机化。见表10-9。表10-9中,第(1)栏的拉丁方字母有顺序,尚未随机化。第(2)栏:将第(1)栏的第1行与第3行交换位置。第(3)栏:将第(2)栏的第1列与第3列交换位置。还可以继续随机化,直到满意为止。表10-9拉丁方方阵的随机化\n第10章实验设计第590页六*、析因设计(一)概念及特点析因设计(factorialdesign)也称为析因实验(factorialexperiment),是一种多因素的交叉分组设计。它不仅可检验每个因素各水平间的差异,而且可检验各因素间的交互作用。交互作用是指两个或多个因素的作用相互影响,各因素间互不独立,一个因素的水平有改变时,另一个或几个因素的效应也相应有所改变。交互作用的结果是使总的试验效应增强或降低。\n第10章实验设计第591页最简单的析因设计为2×2(或22)析因设计。其意义为:试验中共有2个因素,每个因素各有两个水平。再如,2×2×2(或23)析因设计,表示试验中有三个因素,每个因素各有两个水平。数字表达式中的指数表示因素个数,底数表示每个因素的水平数。析因设计的特点是:①可分析多个因素多个水平的试验效应,可以分析各因素的独立作用及其各级交互作用;②节省样本含量,试验效率高;③设计时较为复杂,计算较为繁琐。可用析因设计的方差分析处理数据。当因素个数较多时,计算量大,计算工作相当繁琐,对计算结果的解释也会变得十分错综复杂。\n第10章实验设计第592页2×2析因实验作用模式表10-102×2析因设计作用模式\n第10章实验设计第593页(三)交互作用的类型设实验研究中有A、B、C、D四种因素,其交互作用的类型如下。(1)独立作用:A、B、C、D,是四个因素各自的单独作用。(2)一级交互作用:A×B,A×C,A×D,B×C,B×D,C×D,是任意两个因素的共同作用。(3)二级交互作用:A×B×C,A×B×D,A×C×D,B×C×D,是任意三个因素的共同作用。(4)三级交互作用:A×B×C×D,是四个因素的共同作用。上述独立作用与交互作用总共需进行15次试验,目的在于得出各因素的最佳水平及其组合。随着试验因素的增加,交互作用及试验次数会急剧增加。当试验次数很多时,则宜采用正交试验设计。\n第10章实验设计第594页七*、正交试验设计(一)概念及特点正交试验设计(orthogonalexperimentaldesign)是一种高效的多因素试验的设计方法。它利用一套规格化的正交表,合理地安排实验,通过对实验结果进行分析,获得有用的信息。正交设计的特点是:①可分析三个及三个以上因素的作用及其交互作用。②用最少的试验次数获得更多的信息。③可用方差分析处理正交设计的测量数据,但计算十分繁琐。\n第10章实验设计第595页(二)设计方法及步骤正交实验设计的步骤如下。(1)根据研究目的选择因素及其水平数;(2)选择正交表正交表是已经制好的统计用表,专供正交实验设计使用。表格的类型表示符号为Ln(tk)。其中n表示一套试验所需受试对象的个数,t表示每个因素的水平数,k表示可分析的因素数。例如,L8(27)的意义为:一套试验需8个受试对象,每个因素有2个水平,最多可分析7个因素的作用及其交互作用。选择哪一种正交表取决于某项研究的因素数,各因素水平数及各因素间交互作用的项数。\n第10章实验设计第596页(三)正交表应用实例分析例10.9根据研究目的选择一个L4(23)正交表,并对该正交表及其特点作出分析。表10-11L4(23)正交表\n第10章实验设计第597页1.分析该正交表L4(23)的意义为:每套试验选择4个受试对象,此处指表中试验号。最多可安排3个试验因素,用列号表示。每因素有2个水平,水平1和水平2由表中数字1和数字2表示。在1号试验中,第1,2,3列安排的3个因素均取水平1;第2号试验中,第1,2,3列的因素则分别取1,2,2水平;余类推。\n第10章实验设计第598页2.该正交表的特点(1)每列中出现水平1和水平2的次数相等。(2)对于任意两列的同一横行,由两个数字构成数据对。本例的数据对有:(1,1),(1,2),(2,1),(2,2)。在整个正交表中,上述四个不同数据对出现的次数相等。例如,在第1,2列同一横行中,数据对(1,1),(1,2)各出现一次;在第1,3列的同一横行中,这两个数据对又各出现一次;在第2,3列中,这两个数据对又再出现一次。这两个不同的数据对总共各出现3次。出现次数相等。其余二个数据对出现次数也相等。\n第10章实验设计第599页八、盲法设计盲法设计(designofblindmethod)是指使研究人员或病人不知道具体的研究设计方案,从而避免双方由于心理偏见造成的试验效应的偏差。盲法设计:一般分为单盲法及双盲法。单盲法是指受试对象不知道自己被施加何种处理因素,不知道该处理因素的预期结果或效应,而研究人员知道具体的设计方案。该法主要用于消除受试对象的心理偏见。\n第10章实验设计第600页双盲法是指实验执行者及受试对象均不知道具体的设计方案及处理因素的预期结果或效应。只有该实验设计的总负责人知道具体的设计方案。双盲法可以避免和消除医护人员和病人双方的心理偏见。盲法设计在临床试验中应用广泛,尤其是针对病人的单盲法,应用更为广泛。\n第10章实验设计第601页THANKYOUFORLISTENINGTHEEND\n第11章调查设计第602页医学统计学主讲程琮泰山医学院预防医学教研室zcheng@tsmc.edu.cn医学本科生用\n第11章调查设计第603页TeachingPlanforMedicalStudentsMedicalStatisticsPROFESSORCHENGCONGDept.ofPreventiveMedicineTaishanMedicalCollege\n第11章调查设计第604页第11章调查设计目录第五节样本含量的估计第二节调查计划第三节整理与分析计划第四节四种基本抽样方法第一节调查研究的特点第六节调查误差的控制第七节敏感问题的调查方法\n第11章调查设计第605页第十一章调查设计第一节调查研究的特点调查设计:是统计研究设计的一个重要部分,是医学科学研究的重要手段。调查研究的主要特点是研究过程中没有人为施加的干预措施,而是客观地观察记录某些现象的现状及其相关特征。在调查中,与研究的现象及其相关特征(包括研究因素和非研究因素)是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,这是调查研究区别于实验研究的最重要的特征。\n第11章调查设计第606页调查研究分为(1)横断面研究(2)现状研究(3)观察性研究。通过横断面调查,可以了解某一特定时间断面上特定人群中疾病或卫生服务的现状及其与之相联系的各种因素(如某病的患病率、人体的各种生理生化或病理指标、卫生资源状况等)的分布情况。\n第11章调查设计第607页第二节调查计划调查计划,主要应解决下列几方面的问题。一、明确调查目的和指标一是了解参数,用以说明总体特征;二是研究变量间的相关联系,探索病因。这些都需要通过具体指标来说明。因此,一定要把调查目的具体到指标。指标要精选,要重点突出。尽量选用客观性强、灵敏度高和特异性强的定量指标,少用定性指标。\n第11章调查设计第608页二、确定观察对象和观察单位根据调查目的和指标,确定观察对象和观察单位,即划清调查总体的同质范围,特别是作参数估计时更为重要。如上述食管癌调查,观察对象是该地某年的常住人口,观察单位是每个“人”,同属该地区和时间范围的全部常住人口组成研究的总体。注意:观察对象可以是人,但观察单位则也可以是人的眼睛或牙齿等。\n第11章调查设计第609页三、调查方法按调查的范围,可分为普查和非全面调查,后者又以抽样调查和典型调查最为常用。1.普查(census)亦称全面调查(completesurvey)就是将组成总体的所有观察单位全部加以调查,如我国的第五次人口普查。理论上只有普查才能取得总体参数,没有抽样误差,但往往非抽样误差较大。普查一般都是用于了解总体某一特定“时点”的情况,如年中人口数,时点患病率等。2.抽样调查(samplingsurvey)是指从总体中随机抽取一定数量的观察单位组成样本,然后用样本信息来推断总体特征。因而节省人力、财力和时间\n第11章调查设计第610页3.典型调查(typicalsurvey)亦称案例调查,即在对事物作全面分析的基础上,有目的地选定典型的人、典型的单位进行调查。由于典型调查没有遵循随机抽样的原则,不能用于估计总体参数,但在一定条件下,根据专业知识,选定一般典型,可对总体特征作经验推论,但这不属统计推断的范畴。\n第11章调查设计第611页四、搜集原始资料的方式主要有两种:直接观察法和采访法1.直接观察法是由调查人员到现场对观察对象进行直接观察、检查、测量或计数来取得资料。2.采访法是根据被调查者的回答来搜集资料。\n第11章调查设计第612页采访的方式常用的有三种:①访问:即通过调查人向被调查人作口头询问,将答案填入调查表,此法可以保证被调查人对问题的理解与设计要求一致和调查资料的准确性。②开调查会:即利用召开知情人座谈会的方式来搜集一些资料,如农村食管癌死亡调查中,可通过召开村乡干部、乡村医生、妇女代表等知情人员的调查会,全面回顾调查期内的死者,初步推定死因,填入“死亡人口登记表”,再从表中选出可疑的食管癌死者,逐户进行访问后确诊。因此,开调查会可起到初筛和快速取得资料的作用。\n第11章调查设计第613页③信访:即将调查表邮寄给被调查人,请他们填好后寄回,如病例随访调查等常用。采用信访法可节省人力、财力,但由于调查人与被调查人不见面,被调查人对调查问题的理解,常发生与设计要求不一致的情况,一般失访较多,以致影响调查资料的质量。\n第11章调查设计第614页五、确定调查项目和调查表根据调查指标确定每个观察单位的调查项目包括分析项目和备查项目。1.分析项目是直接用于计算调查指标,以及分析明确排除混杂因素影响所必须的内容。2.备查项目是为了保证分析项目填写的完整、准确,便于核查、补填和更正而设置的,通常不直接用于分析。如姓名,地址,联系电话等。\n第11章调查设计第615页表11-1调查表举例居民食管癌死亡调查表(编码)住址______________县_____________乡____________村___________居民组□□□□□□□□死者姓名____________________性别1男2女□死亡日期___________年_______月________日出生日期___________年_______月______日死时实足年龄______岁□□□诊断依据检查:X线1阳性2阴性9可疑□细胞病理1阳性2阴性9可疑□临床表现:进行性吞咽困难1有2无9不明□食物反流1有2无9不明□胸骨后闷、胀痛1有2无9不明□进行性消瘦或恶病质1有2无9不明□病程__________月□□诊断结果1是2否3可疑□调查人_____________________调查日期___________年___________月___________日\n第11章调查设计第616页项目的答案有两种设计:①封闭式选择答案:有确定的多个固定答案可选,一般只选一项,此类宜多用。②开放式回答。即不预先给定固定答案,让被调查者自由地说出自己的情况和想法,如症状或病程等。优点是可用于设计者不了解答案有哪些,或答案难于一一列举;缺点是容易离题,调查时间花费较多,不便综合汇总。\n第11章调查设计第617页调查表调查表(questionnaire),或称问卷:把调查项目按提问的罗辑顺序列成表格,供调查时使用。调查表的格式可分为单一表和一览表。单一表:每表只填一个观察单位,每一观察单位的调查项目较多时适用于大量人群的调查;整理资料十分方便。一览表:每表可填多个观察单位,每一观察单位的调查项目较少时。适用于较小人群的调查。整理资料不太方便。\n第11章调查设计第618页六、制订调查的组织计划主要包括:组织领导,宣传动员群众,时间进度,调查员培训,任务分工与联系,经费预算,调查表格和宣传资料的准备,以及调查资料的检查制度等内容。在正式调查之前,应先作小范围的试查,以便检验调查表设计,并作必要的修改。检查资料有无错误,一般从两方面考虑:①逻辑检查,即根据项目的性质及其相互关系,检查填写内容有无矛盾,②计算机检查,即验算计算机项目有无错误\n第11章调查设计第619页第三节整理与分析计划一、数据的计算机录入与清理1.录入前:设置数据范围。2.录入时:对同一资料,用甲、乙两位录入员,分别重复录入。3.录入后①抽查部分调查表,了解输入质量。②用统计软件做些简单的统计描述,如编制频数分布表,发现异常值;作两相关变量的散点图,发现异常点等③针对调查项目间的逻辑关系,编制检查程序,用于检查数据间的逻辑矛盾。\n第11章调查设计第620页二、设计分析表和资料的分组设计分组(classification)是将性质相同的观察单位合在一起,将性质不同的观察单位分开,把组内的差异性或相似性显示出来。分组有两种:①类型分组,按分组因素的类别来分组,如将观察单位按性别、职业、疾病分类,某项检查结果的阳性或阴性等分组;②数量分组,即按分组因素的数量大小来分组,如将观察单位按年龄大小、血压高低等分组。两种分组往往结合使用。\n第11章调查设计第621页三、汇总方法手工汇总一般采用划记法或分卡法。1.划记法就是汇总时用划“正”字或“+++”来记数。此法简便易行,但易出错,因此,划记时要小心细致,至少要重复划两遍以资核对。常用于观察单位数不多、调查项目较少的汇总。2.分卡法就是直接把原始记录卡分别归入各组,经过核对,然后清点每组卡片的张数,就是该组的观察单位数。3.穿孔法:在调查表的边缘打上一些孔,对于阳性指标将孔剪开与外界相通,通过穿孔将阳性指标分出来。此法在手工汇总中是最方便快捷的。\n第11章调查设计第622页四、组织计划一般包括:组织分工、时间进度和汇总要求等,特别是大规模的协作调查,有明确的组织计划才能使各协作单位步骤一致,按期完成总结。\n第11章调查设计第623页第四节四种基本抽样方法不同抽样方法,样本均数及其抽样误差的算法不同,而且无限总体和有限总体抽样的算法也不同。前面各章讲的都是无限总体抽样,而在现场调查中,常在有限总体中抽样。常用的抽样方法有下列四种。一、单纯随机抽样单纯随机抽样(simplerandomsampling)是指先将调查总体的全部观察单位编号,再用随机数字表或抽签等方法随机抽取部分观察单位组成样本。优点是均数(或率)及标准误的计算简便。缺点是当总体例数较多时,要对观察单位一一编号,甚为麻烦,实际工作中有时难于办到。\n第11章调查设计第624页二、系统抽样系统抽样(systematicsampling)又称等距抽样或机械抽样。即先将总体的观察单位按某一顺序号等分成n个部分,再从第一部分随机抽第k号观察单位,依次用相等间隔,机械地从每一部分各抽一个观察单位组成样本。系统抽样的优点是:①易于理解,简便易行。②容易得到一个按比例分配的样本。系统抽样的缺点是:①当总体的观察单位按顺序有周期趋势或单调增减趋势,则系统抽样将产生明显的偏性。②实际工作中的一般按单纯随机抽样方法估计抽样误差,但系统抽样抽取各处观察单位并不是彼此独立的,\n第11章调查设计第625页三、整群抽样而整群抽样(clustersampling)是先将总体划分为K个“群”组,每个群包括若干观察单位;再随机抽取k个“群”,并将被抽取的各个群的全部观察单位组成样本。整群抽样的最大优点是便于组织,节省经费,容易控制调查质量。它的缺点是当样本例数一定时,其抽样误差一般大于单纯随机抽样的误差。\n第11章调查设计第626页四、分层抽样分层抽样(stratifiedsampling)又称分类抽样,即先按影响观察值变异较大的某种特征,将总体分为若干类型或组别,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。有两种方法:按比例分配(proportionalallocation)法最优分配(optimumallocation)法分层抽样的优点是:①减少抽样误差。分层后增加了层内的同质性,因而可导致观察值的变异度减小,各层的抽样误差减小,。②便于对不同的层采用不同的抽样方法。③还可对不同层独立进行分析。\n第11章调查设计第627页第五节样本含量估计在抽样设计中还要考虑样本含量的大小,即样本观察单位数的多少问题。因为样本例数过少,所得指标不够稳定,用于推断总体的精度差,检验效能低;样本例数过多,不但造成不必要的浪费,也给调查的质量控制带来更多的困难。估计样本例数的目的是在保证一定精度和检验效能的前提下,确定最少的观察单位数。\n第11章调查设计第628页抽样方法不同,估计样本例数的方法各异。本节重点讲述单纯随机抽样时,估计总体均数所需样本例数n的方法,为此要确定:①容许误差δ,即预计样本统计量与相应总体参数的最大相差值控制范围。②所调查总体的标准差σ,若不了解,须通过试查、过去的经验或有关资料作估计。有限总体抽样,还须了解总体观察单位数N。③第一类错误的概率α,通常取α=0.05。若要求α越小,则所需样本例数越多,要结合需要与可能来决定。具体抽样方法:略。\n第11章调查设计第629页第六节调查误差的控制调查结果常常出现误差。除有抽样误差外,还可能有非抽样误差。抽样误差不仅易于控制,还可作出估计,但非抽样误差的控制却比较复杂。因为:①抽样误差的控制主要与调查设计人员有关;而非抽样误差的控制,不仅与设计人员有关,还涉及到为数众多的调查人员和观察对象;②从时间上来说,抽样误差的控制,主要在设计阶段;而非抽样误差的控制,则要求贯穿到设计、资料搜集、整理、分析的全过程。非抽样误差来源纷繁,形式多样。\n第11章调查设计第630页一、设计阶段非抽样误差可能来自:①调查指标选择不当②调查对象的范围划分不当。③调查项目的定义不明确。④周岁年龄计算不准确。⑤编制周密的逻辑检查与计算检查提纲,以提高资料检查的效果。\n第11章调查设计第631页二、调查阶段非抽样误差可能来自:①调查人员的工作态度不好,业务水平不足。②被调查者因故不在、躲避调查、拒绝回答、有意隐瞒、记忆不清等。为此应广泛开展宣传,争取群众积极配合;家访要摸清被调查者在家的时间规律,并作必要的补查;对敏感问题,要进行细致的思想工作,注意保密,或从侧面了解,或用下节随机应答技术;对记忆不清者可请知情人、同龄人帮助回忆。\n第11章调查设计第632页三、整理与分析阶段非抽样误差可能来自编码、录入、汇总、计算等方面的错误。为此,应严格地进行资料清理和检查,及时发现和更正错误。评价调查质量必须联系非抽样误差的控制,后者一般采用两种方法来衡量:①抽样复查。即随机抽取部分已调查对象,再次组织更严格的标准调查,抽查人员不得在原调查单位参加复查②与不同来源的同类资料作对比。\n第11章调查设计第633页第七节*敏感问题的调查方法敏感问题(sensitivequestion)包括对国家政策、社会规范、伦理道德的态度、经济收入、生活行为以及个人隐私等。被调查者往往被拒绝回答或隐瞒,但却是一个不容忽视的社会问题。对敏感问题的调查应该既能满足其本人不泄密,又能如实了解社会群体的问题。对敏感问题的调查经常采用的是随机应答技术(randomizedresponsetechnique,RRT)。具体方法:略。\n第11章调查设计第634页ThankYouforListeningTHEEND\n第12章统计表与统计图第635页医学统计学主讲程琮泰山医学院预防医学教研室zcheng@tsmc.edu.cn本科生用\n第12章统计表与统计图第636页第12章统计表与统计图目录第二节统计图第一节统计表\n第12章统计表与统计图第637页学习要求掌握统计表与统计图的概念和意义;掌握统计表与统计图的特点及应用条件;掌握统计表与统计图的绘制原则;掌握统计表与统计图的类型及各类型的应用条件.\n第12章统计表与统计图第638页统计表(statisticaltable)---把统计分析资料及其指标用表格列出,称为统计表。它可以代替冗长的文字叙述,便于计算、分析和对比。统计图(statisticalgraph)----是用点、线、面等表达统计资料中数量及其变化趋势,使统计资料更形象、更易懂,可直观地反映出事物间的数量关系。第一节统计表\n第12章统计表与统计图第639页由于统计图对数量的表达比较粗略,不便作深入细致的分析,所以一般在绘制统计图时,都应附有统计表。\n第12章统计表与统计图第640页统计表主要有表序、标题、标目、表体和线条等组成,其基本格式如下:表序标题××××××××\n第12章统计表与统计图第641页一、制表的基本要求1.标题:简明扼要能概括表中内容,它应包括时间、地点、内容等。标题应写在表顶线的上端中间的位置。2.标目用以说明表内数字含义的部分叫标目。(1)横标目横标目位于表左侧,是统计表所要叙述的主语,它说明同一横行数字的意义。(2)纵标目纵标目位于标目线的上端,是被说明事物的宾语,一般是绝对数或统计指标。\n第12章统计表与统计图第642页3.线条线条应尽量减少,除顶线、标目线、合计线和底线外,其余线条均可省略。特别是表的左上角的斜线和两侧的边线应一律不用。4.数字表内的数字一律用阿位伯数字,同一指标位数要对齐,小数点的位数要一致,一般保留1~2位小数。无数字的空格用“—”表示,暂缺或未记录用“…”表示。5.备注表内不应有其他文字出现,需要说明的备注用“*”号标出,写在表的底线下面。\n第12章统计表与统计图第643页二、统计表的种类1.简单表只按一个特征或标志分组的统计表称为简单表。如表12-1。2.复合表按两个或两上以上特征或标志结合起来分组的统计表称复合表或组合表。\n第12章统计表与统计图第644页表12-1某地某年流行性脑脊髓炎各病型的病死率\n第12章统计表与统计图第645页表12-2某地1995年流行性脑脊髓膜炎不同病型病死率与病情轻重的关系\n第12章统计表与统计图第646页第二节统计图统计图有多种,医学研究工作中常用的统计图有:直条图、百分直条图、圆形图、线图、半对数线图、直方图、散点图、箱式图和统计地图等。\n第12章统计表与统计图第647页1.根据资料性质和分析的目的,正确选择合适的图型。间断性资料:(1)直条图、箱式图——比较各个相互独立的样本指标。(2)圆形图、百分直条图——表示各组成部分或各构成部分的情况。\n第12章统计表与统计图第648页连续性资料线图——①表示数量随时间的变迁;②表示某种现象随另一种现象而变迁。半对数线图——比较两个或几个率的变化速度直方图——表示变量的频数分布。地域性资料:统计地图:表示某种事物的地理分布。\n第12章统计表与统计图第649页2.每图应有标题,其要求与统计表相同,一般放在图下方正中。3.纵横两轴应有标目并注明单位。横标目:一般表示主语,如疾病名称、发病时间、年龄组等,尺度自左向右;纵标目:表示宾语,一般表示频数、比或率,尺度自下而上,一般需从零开始,由小到大。纵横两轴长宽比例一般为5:7为宜。4.若图中用不同颜色或线条代表不同事物,则须在图中加以说明。\n第12章统计表与统计图第650页二、常用统计图及其绘制方法1.直条图(bargraph)它是以等宽直条的长短来表示各指标的数值,用来表示各相互独立指标之间的对比关系。直条图有单式直条图(见图12-1)、复式直条图(见图12-2)两种。\n第12章统计表与统计图第651页\n第12章统计表与统计图第652页2.圆形图(piegraph)圆形图是以圆面积为100%,圆内各扇形面积为各部分所占的百分比,用来表示总体各组成部分的构成比。如图12-3。圆面积的百分之一相当于3.6°,将资料各部分所占的百分数乘以3.6°即得各部分应占的度数。圆内各部分按百分比的大小顺序或按事物自然顺序排列,一般以时钟12点或9点的位置作始点,顺时针方向排列。\n第12章统计表与统计图第653页图12-31996年我国农村居民主要疾病的死因构成比\n第12章统计表与统计图第654页3.百分直条图(percentbargraph)亦称构成直条图,其作用和适用范围与圆形图是相同的。它只是以一直条的面积为100%,直条内各段的面积为相应部分所占的百分比。见图12-4。\n第12章统计表与统计图第655页图12-4某地1983年五种主要死因构成\n第12章统计表与统计图第656页4.线图(linegraph)它是用线段的上升、下降来说明某事物在时间上的发展变化的趋势,或某现象随另一现象变迁的情况。如图12-5,适用于连续性资料。\n第12章统计表与统计图第657页图12-5某市市区人口各年度出生率(1‰)、死亡率(1‰)、自然增加率(1‰)\n第12章统计表与统计图第658页5.半对数线图(semilogarithmiclinegraph)它是纵轴为对数尺度,横轴为算术尺度的线图。由于同样的增长速度在对数尺度上的距离是相等的,因此便于两事物或两种以上事物在发展速度上的对比。如图12-6。\n第12章统计表与统计图第659页图12-6某市市区各年度急性传染病、肺结核死亡率(1/10万)\n第12章统计表与统计图第660页6.直方图(histogram)直方图是以各矩形的面积表示各组段的频数,各矩形面积的总和为总频数,适用于表示连续性资料的频数分布。\n第12章统计表与统计图第661页图12-7某市某年乙脑患者的年龄分布(正确图)图12-8某市某年乙脑患者的年龄分布(错误图)\n第12章统计表与统计图第662页7.散点图(scatterdiagram)散点图是用点的密集程度和趋势表示两现象间的相关关系。见第九章。.箱式图(boxplot)常用于反映几组数据的变化情况并进行直观比较分析,如图12-9。以“箱子”上端为P75,下端为P25,中间以横线示P50,最大值、最小值为“箱子”上下两个柄,用于数据直观比较分析。\n第12章统计表与统计图第663页图12-9抑肿瘤药不同剂量组与对照组用药后小白鼠肿瘤重量的比较\n第12章统计表与统计图第664页9.统计地图(statisticalmap)统计地图是用点、线、颜色、形象或其他符号绘制于地图上,以表示某种事物的地理分布情况。\n第12章统计表与统计图第665页THANKYOUFORLISTENINGTHEEND

相关文档