统计学课前统计new 182页

  • 711.12 KB
  • 2022-08-13 发布

统计学课前统计new

  • 182页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
统计学教程第四军医大学徐勇勇\n第一章绪论一、教学大纲要求(一)掌握内容1.几个基本概念样本与总体、频率与概率、资料类型、随机变量、误差。2.统计工作的步骤设计、收集资料、整理资料、分析资料。(二)熟悉内容医学统计学的含义、内容及其医学应用。(三)了解内容医学统计的历史发展。二、教学内容精要(一)统计学、医学统计学、卫生统计学统计学是研究数据的收集、整理、分析与推断的科学。医学统计学是用统计学的原理和方法研究生物医学现象的一门学科。卫生统计学则是把统计理论、方法应用于居民健康状况研究、医疗卫生实践、卫生事业管理和医学科研的一门应用学科。(二)统计学中的几个基本概念1.随机变量随机变量(randomvariable)指取值不能事先确定的观察结果,通常简称为变量。随机变量有一个共同的特点是不能用一个常数来表示,而且理论上讲,每个变量的取值服从特定的概率分布。随机变量可分为两种类型:离散型变量和连续型变量。2.误差误差(error)指实际观察值与观察真值之差、样本指标与总体指标之差。误差可分为系统误差和随机误差,两种误差的区别见表1-1。表1-1系统误差与随机误差的区别误差分类产生原因对观察值的影响处理方法仪器未校正、测量者感使观察值不是分散在真值通过实验设计的完善和系统误差官的某种偏差、医生掌的两侧,而是有方向性、系技术措施的改进来消除握疗效标准偏高或偏低统性或周期性地偏离真值。或减少。等。随机误差排除系统误差后,其他使观察值不按方向性、系统可通过统计处理估计随多种不确定因素。性而随机的变化,误差变量机误差。1\n一般服从正态分布。3.资料类型观察单位的某项特征的测量结果按其性质可分为三种类型:(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurementdata)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表12现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(10/L)、脉搏(次/分)、血压(KPa)等。(2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(countdata)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O四种血型的人数等。(3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata)。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。4.总体与样本总体(population)指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。5.概率与频率概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A)。0<P(A)<1。在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(frequency)。当试验重复很多次时P(A)=m/n。(三)统计工作的步骤1.设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研究中最关键的一环,是今后工作应遵循的依据。2.收集资料:应采取措施使能取得准确可靠的原始数据。3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分析资料包括统计描述和统计推断。(四)医学研究中统计方法的应用医学统计方法在医学研究中的应用主要有三个方面:1.以正确的方式收集数据;2.描述数据的统计特征;3.统计分析得出正确结论。2\n(五)医学统计历史发展最初的统计主要是数据汇总。统计发展到今天,已经成为一种对客观现象数量方面进行的调查研究活动,是收集、整理、分析、判断等认识活动的总称,数据汇总仅仅是统计工作的一小部分。医学统计的发展起源于生物统计、遗传统计,经过了描述统计、大样本统计、小样本统计推断、临床统计和多变量统计几个发展阶段。三、典型试题分析(一)名词解释抽样误差。答案:抽样误差(samplingerror)是指样本统计量与总体参数的差别。在总体确定的情况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。[评析]本题考点:抽样误差的概念。抽样误差是统计学中的重要概念。在抽样研究中是不可避免的。产生抽样误差的根本原因是生物个体间存在的变异性。(二)单项选择题1.统计学中所说的样本是指()。A.随意抽取的总体中任意部分B.有意识的选择总体中的典型部分C.依照研究者要求选取总体中有意义的一部分D.依照随机原则抽取总体中有代表性的一部分答案:D[评析]本题考点:统计学中样本概念的理解。统计学中的样本是指从总体中随机抽取的部分观察单位测量值的集合。这里的“随机抽取”并非通常所说的“随意抽取”,而是保证总体中每个观察单位等概率被抽取的科学方法。随机抽样是样本具有代表性的保证。2.下列资料属等级资料的是()。A.白细胞计数B.住院天数C.门急诊就诊人数D.病人的病情分级答案:D[评析]本题考点:统计资料的分类。统计资料按其性质可分为三种类型:计量资料、计数资料和等级资料。计量资料变量值9是定量的,表现为数值大小,一般有度量衡单位,如本例中白细胞计数(10/L),住院天数(天)。计数资料其观察值是定性的,表现为互不相容的类别或属性的观察单位数,如门急诊就诊人数可按门诊、急诊分类清点各组人数。等级资料的属性分组有程度差别,各组按大小顺序排列,如病人的病情分级为轻、中、重。(三)简答题一位研究人员欲做一项实验研究,研究设计应包括那几方面的内容?答案:一般来讲,研究设计应包括两方面的设计:专业设计和统计设计。专业设计是针3\n对专业问题进行的研究设计,如选题、形成假说、干预措施、实验对象、实验方法等;统计设计是针对统计数据收集进行的设计,如样本来源、样本量、干预措施的分配、统计设计类型测量指标的选择等。统计设计是统计分析的基础,任何设计上的缺陷,都不可能在统计分析阶段弥补和纠正。[评析]本题考点:研究设计包含的内容。研究设计是整个研究中最关键的一环,是整个研究过程中始终遵循的依据。正确、严谨、周密的设计是研究工作顺利进行、研究结果真实可靠的保证。因此,应深刻理解并掌握研究设计的内容及其意义。(四)是非题描述不确定现象,通过重复观察,发现生物医学领域的不确定现象背后隐藏的统计规律是医学统计的显著特征。()答案:正确。[评析]本题考点:统计方法的特征。在生物医学研究领域,由于存在较大的生物变异性,并受诸多因素的影响,使实验或观察结果往往成为不确定现象。在大量的重复试验中,这种不确定现象却呈现出明显的统计规律性。统计方法能够帮助人们分析数据,达到去伪存真、去粗存精,透过偶然现象认识其内在的规律性。这正是统计方法的显著特征。四、习题(一)名词解释1.总体与样本2.随机抽样3.变异4.等级资料5.概率与频率6.随机误差7.系统误差8.随机变量9.参数10.统计量(二)单项选择题1.观察单位为研究中的()。A.样本B.全部对象C.影响因素D.个体2.总体是由()。A.个体组成B.研究对象组成C.同质个体组成D.研究指标组成3.抽样的目的是()。A.研究样本统计量B.由样本统计量推断总体参数C.研究典型案例研究误差D.研究总体统计量4.参数是指()。A.参与个体数B.总体的统计指标C.样本的统计指标D.样本的总和5.关于随机抽样,下列那一项说法是正确的()。A.抽样时应使得总体中的每一个个体都有同等的机会被抽取4\nB.研究者在抽样时应精心挑选个体,以使样本更能代表总体C.随机抽样即随意抽取个体D.为确保样本具有更好的代表性,样本量应越大越好(三)是非题1.研究人员测量了100例患者外周血的红细胞数,所得资料为计数资料。2.统计分析包括统计描述和统计推断。3.计量资料、计数资料和等级资料可根据分析需要相互转化。(四)简答题某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什麽?五、习题答题要点(一)名词解释1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。2.随机抽样:随机抽样(randomsampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。3.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。4.等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata)。等级资料又称有序资料。如患者的治疗结果可分为治愈、好转、有效、无效、死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量。5.概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。频率:在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。当试验重复很多次时P(A)=m/n。6.随机误差:随机误差(randomerror)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。7.系统误差:系统误差(systematicerror)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。5\n8.随机变量:随机变量(randomvariable)是指取指不能事先确定的观察结果。随机变量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。9.参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。10.统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。(二)单项选择题1.D2.C3.B4.B5.A(三)是非题91.错。外周血的红细胞数是对血液中红细胞含量的测量值,其测量单位为(10/L),属计量资料。2.正确。3.正确。(四)简答题答案:不能。因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。既使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。(倪宗瓒王霞)6\n第二章计量资料的统计描述一、教学大纲要求(一)掌握内容1.频数分布表与频数分布图(1)频数表的编制。(2)频数分布的类型。(3)频数分布表的用途。2.描述数据分布集中趋势的指标掌握其意义、用途及计算方法。算术均数、几何均数、中位数。3.描述数据分布离散程度的指标掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。二、教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。(一)频数分布表的编制频数表(frequencytable)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,⋯20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下:1.求数据的极差(range)。R=X-X(2-1)maxmin2.根据极差选定适当“组段”数(通常8—10个)。确定组段和组距。每个组段都有下限L和上限U,数据χ归组统一定为L≤χ22.9)=1(-£PX22.9)=1-£P(X--19.522.919.5)=1(-Pu£1.48)=F(-=1.48)0.06942.32.3③P(14.6£X£=£-£23.9)(PX23.9)(PX14.6)XX-19.523.9-19.5--19.514.619.5=PP(£-£)()2.32.32.32.3=£-P(u1.91)Pu(£-2.13)=1-F(-1.91)-F-(2.13)=0.9719-=0.01660.9553(2)设最重的5%,10%,2.5%男童体重的下限分别为xkg,xkg,xkg123x1-19.5P(X>x)=0.05Pu(£=)0.9512.3x1-19.5又∵P(u£1.645)=0.95∴=1.645x=23.3(kg)12.3P(Xx>=)0.10因为正态分布关于均数对称,所以2X-19.5x2-19.5X-19.5x2-19.5xx22--19.519.5P(>)=P(<-)=Pu(<-)=F(-=)0.102.32.32.32.32.32.3x2-19.5查标准正态曲线下面积表-=-1.282故x=22.4(kg)22.3同理x=24.0(kg)32.解:正常成人的血铅含量近似对数正态分布,经对数转换后应近似服从正态分布,所以对原始数据作对数变换,并编制频数表,再利用正态分布法求95%参考值范围。对数换算过程如表3-3所示。表3-3200名正常成人血铅含量(mg/100g)对数值频数表对数组段真数组段频数0.45—3—10.55—4—50.65—5—100.75—6—200.85—8—110.95—9—211.05—12—291.15—15—251.25—18—301.35—23—201.45—29—161.55—36—81.65—45—31.75—1.8557—12002依据表3-3,设x为对数组段的组中值,n=200,åfx=230,åfx=279.04åfx279.04则X===1.15(mmol/L)n20023\n222ååfx-()fxn279.04-(230)/200S===0.2703(mmol/L)n--12001该地正常成人血铅含量为对数正态分布,按正态分布法估计参考值范围,又因此指标过大属异常,故此参考值范围应为单侧范围。-1-1故单侧95%上限为:log(X+1.64S)=log(1.15+1.64´=0.2703)39(mmol/L)X所以该地正常成人血铅含量95%参考值范围上限为39(mmol/L)。3.解:由表3-2得300名正常人尿汞值X=15.08(mg/l),S=11.10(mg/l)用正态分布法估计正常值范围:90%正常值范围上限为:X+1.28S=15.08+1.28(11.10)=29.29(mg/l)95%正常值范围上限为:X+1.64S=15.08+1.64(11.10)=33.28(mg/l)99%正常值范围上限为:X+2.33S=15.08+2.33(11.10)=40.94(mg/l)用百分位数法估计正常值范围:490%正常值范围上限为:P=28+(300´90%-267)=29.33(mg/l)909490%正常值范围上限为:P=36+(300´95%-285)=36.00(mg/l)959499%正常值范围上限为:P=52+(300´99%-297)=52.00(mg/l)999本题正常人尿汞值属于偏态分布资料,用百分位数法估计较适宜。4.解:脉搏数的95%正常值范围为:X±1.96S=76.10±1.96(9.32)=57.83~94.37脉搏数的99%正常值范围为:X±2.58S=76.10±2.58(9.32)=52.05~100.375.解:(238+1)´0.95=227.05,则95%上限即为第227个数据与第228个数据之间。因为第227个和第228个数据均为2.6,故95%正常值范围的上限应为2.6(mgg/)。(曹素华杜晓晗)24\n第四章总体均数的估计和假设检验一、教学大纲要求(一)掌握内容1.抽样误差、可信区间的概念及计算;2.总体均数估计的方法;3.两组资料均数比较的方法,理解并记忆应用这些方法的前提条件;4.假设检验的基本原理、有关概念(如I、II类错误)及注意事项。(二)熟悉内容两样本方差齐性检验。(三)了解内容1.t分布的图形与特征;2.总体方差不等时的两样本均数的比较;3.等效检验。二、教学内容精要(一)基本概念1.抽样误差抽样研究中,样本统计量与总体参数间的差别称为抽样误差(samplingerror)。统计上用标准误(standarderror,SE)来衡量抽样误差的大小。不同的统计量,标准误的表示方法不同,如均数的标准误用SX表示,率的标准误用SP表示,回归系数的标准误用Sb表示等等。均数的标准误与标准差的区别见表4-1。表4-1均数的标准误与标准差的区别均数的标准误标准差意义反映X的抽样误差大小反映一组数据的离散情况记法sX(样本估计值SX)s(样本估计值S)ss=2Xå(X-m)ns=nS计算SX=n2å(X-X)S=n-1控制方法增大样本含量可减小标准误。个体差异或自然变异,不能通过统计方法来控制。25\n2.可信区间(1)定义、涵义:即按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidenceinterval,CI)。它的确切含义是:CI是随机的,总体参数是固定的,所以,CI包含总体参数的可能性是1-a。不能理解为CI是固定随机的,总体参数是随机固定的,总体参数落在CI范围内可能性为1-a。当a=0.05时,称为95%可信区间,记作95%CI。当a=0.01时,称为99%可信区间,记作99%CI。(2)可信区间估计的优劣:一定要同时从可信度(即1-a的大小)与区间的宽度两方面来衡量。(二)t分布与正态分布t分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t分布峰值较低,而尾部较高;③随自由度增大,t分布趋近与标准正态分布;当n®¥时,t分布的极限分布是标准正态分布。(三)总体均数的估计参数估计有点估计和区间估计两种方式。总体均数的估计,见表4-2。表4-2总体均数的估计点估计区间估计意义直接用样本统计量代替总用统计量X和Sx确定一个有概率意义的区间,以该体参数。区间具有较大的可信度包含总体均数。①小样本(X-ta/2,nSx,X+ta/2,nSx)②大样本(X-ua/2Sx,X+ua/2Sx)估计以X作为估计值③两总体均数差值的可信区间方法(X1-X2-ta/2,nSx1-x2,X1-X2+ta/2,nSx1-x2)(四)两均数差别的比较1.样本均数和总体均数比较的t检验前提:服从正态分布H:m=m;H:m¹m0010X-m0t=,n=n-1(4-1)SX2.配对设计的t检验前提:差值服从正态分布H:m=0;H:m¹00d1dd-mdt=,n=n-1(4-2)Sd3.成组设计的两样本均数比较的t检验前提:两组数据均服从正态分布;两组总体方差相等H:m=m;H:m¹m01211226\nX1-X2t=,n=n+n-2(4-3)12SX1-X2222æç11ö÷2(n1-1)S1+(n2-1)S2其中,SX-X=Scç+÷,Sc=(4-4)12ènnøn1+n2-212S表示两样本均数差值的标准误。X1-X24.单样本u检验前提:当样本较大(如n>50)或总体s0已知时X-m0u=(n较大时)(4-5)S/nX-m0u=(s0已知时)(4-6)s0/n5.大样本均数比较的u检验前提:样本足够大成组设计的两样本均数比较可用:X1-X2u=(4-7)22Sx+Sx126.要推断组间没有差别或差别很小,应采用等效检验(squivalencetest)。(五)假设检验的步骤及有关概念1.基本思想:把握“小概率事件在一次抽样试验中是几乎不可能发生”的原理。2.步骤:①建立假设、选用单侧或双侧检验、确定检验水准;②选用适当检验方法,计算统计量;③确定P值并作出推断结论。3.I类错误:H为真(实际无差别),假设检验结果拒绝H,接受H(推论有差别)001所犯的错误称为I类错误(typeIerror),I类错误的概率记作a。II类错误:H1为真(实际有差别),假设检验结果拒绝H1,接受H0(推论无差别)所犯的错误称为II类错误(typeIIerror),II类错误的概率记作b。4.1-b称为检验效能,过去称把握度(poweroftest),即两总体确有差别,按a水准能发现该差别的能力。三、典型试题分析(一)单项选择题1.当样本含量增大时,以下说法正确的是()A.标准差会变小B.样均数标准误会变小C.均数标准误会变大D.标准差会变大答案:B[评析]本题考点:这道题是考察均数标准误的概念。从均数标准误的定义讲,它反映的是均数抽样误差的大小,那么样本含量越大,抽样误差应该越小。从均数标准误的计算公式Sx=S/n来看,也应是n越大,Sx越小。27\n2.区间X±2.58Sx的含义是()A.99%的总体均数在此范围内B.样本均数的99%可信区间C.99%的样本均数在此范围内D.总体均数的99%可信区间答案:D[评析]本题考点:可信区间的含义。可信区间的确切含义指的是:总体参数是固定的,可信区间包含了总体参数的可能性是1-a,而不是总体参数落在CI范围的可能性为1-a。本题B、D均指样本均数,首先排除。A说总体均数在此范围内,显然与可信区间的含义相悖。因此答案为D。(二)是非题1.进行两均数差别的假设检验时,当P=0.05时,则拒绝H0;当P>0.05时,则接受H0,认为两总体均数无差别。[评析]答案:错误。当P=0.05,拒绝H0时,我们是依据a这一小概率来下结论的。而当P>0.05时,我们对两总体均数无差别这一结论无任何概率保证,因此不能贸然下无差别的结论。正确的说法是,按所取检验水准a,接受H1的统计证据不足。2.通常单侧检验较双侧检验更为灵敏,更易检验出差别,应此宜广泛使用。[评析]答案:错误。根据专业知识推断两个总体是否有差别时,是甲高于乙,还是乙高于甲,当两种可能都存在时,一般选双侧;若根据专业知识,如果甲不会低于乙,或者研究者仅关心其中一种可能时,可选用单侧。一般来讲,双侧检验较为稳妥。单侧检验,应以专业知识为依据,它充分利用了另一侧的不可能性,故检出率高,但应慎用。3.只要增加样本含量到足够大,就可以避免I和II型错误。[评析]答案:错误。因为通过假设检验推断出的结论具有概率性,因此出现错误判断的可能性就一定存在,无论用任何方法也不能消除这一可能。但是,我们可以使错误判断的可能性尽量地小,比如样本含量越大,犯I和II类错误的可能性越小。(三)简答题1.简述可信区间在假设检验问题中的作用。[评析]可信区间不仅能回答差别有无统计学意义,而且还能提示差别有无实际意义。可信区间只能在预先规定的概率即检验水准a的前提下进行计算,而假设检验能够获得一较为确切的概率P值。故将二者结合起来,才是对假设检验问题的完整分析。2.某医生就4-3资料,对比用胎盘浸液钩端螺旋体菌苗对328名农民接种前、后血清抗体的变化。表4-3328名农民血清抗体滴度及统计量抗体滴度的倒数XSsx02040801603206401280免疫前人数21127192425193076.1111.76.17免疫后人数216577675542523411.9470.525.9022t=(411.91-76.10)/25.90+6.17=12.6,按n=14查t界值表P<0.01,说明接种后血清抗体有增长。问该医生在整理资料和分析资料过程中有何不妥?28\n答:①资料整理不当,未整理成配对资料;②统计描述指标使用不当,对于滴度的倒数不宜用算术均数、标准差,有“0”出现,也不宜算几何均数。比较免疫前后抗体滴度的倒数,应计算中位数和四分位数间距;③不宜用t检验。可将抗体滴度的倒数经对数或平方根转换后,做配对t检验(ν=327)。(四)计算题1.某医院用新药与常规药物治疗婴幼儿贫血,将20名贫血患儿随机等分两组,分别接受两种药物治疗,测得血红蛋白增加量(g/L)见表4-4。问新药与常规药的疗效有无差别?表4-4两种药物治疗婴幼儿贫血结果治疗药物血红蛋白增加量(g/L)新药组24362514263423201519常规药组14182015222421252723解:本题属成组设计资料。H:m=mH:m¹ma=0.05012112X1-X2t=,n=n+n-212Sx-x122.7t==1.019,n=182.6485P>0.05因此,根据现有资料尚不能认为新药与常规药的疗效有差别。2.将20名某病患者随机分为两组,分别用甲、乙两药治疗,测得治疗前后的血沉(mm/h)见表4-5。问:(1)甲、乙两药是否均有效?(2)甲、乙两药疗效是否有别?表4-5甲、乙两药治疗某病情况序号12345678910甲治疗前30332631302728282529药治疗后26292330302422252323序号11121314151617181920乙治疗前29302933282630313030药治疗后26232523232528222724(1)解:对甲、乙两药治疗数据分别采用配对t检验,得甲药:t=d/S=3.2/0.611=5.237d乙药:t=d/S=5.0/0.9428=5.303dv=9,P<0.001,按a=0.05水准,拒绝H0,接受H1,故可认为甲乙两药治疗前后均有差别。(2)解:由表中资料分别求得治疗前后差值,再做两组比较。29\nd1-d2t==-1.602,v=18,得0.2>P>0.1,按a=0.05水准,不拒绝H0,尚不能认为甲、Sd1-d2乙两药疗效有差别。433.测得某地90名正常成年女性红细胞数(10/mm)的均值418、标准差为29。试求:(1)该地95%的正常成年女性红细胞数所在的范围;(2)该地正常成年女性红细胞数总体均数的95%可信区间。解:(1)用正态分布法估计正常值范围。因红细胞过多或过少均为异常,故此参考值范围应是双侧范围。43上限:X+1.96S=418+1.96´29=474.84(10/mm)43下限:X-1.96S=418-1.96´29=361.16(10/mm)。43即(361.16,474.84)(10/mm)。(2)由于n=90>50,故可近似为正态分布。43上限:X+1.96S=418+1.96´29/90=423.99(10/mm)X43下限:X-1.96S=418-1.96´29/90=412.01(10/mm)。X43即(412.01,423.99)(10/mm)。四、习题(一)单项选择题6.标准误的英文缩写为:A.SB.SEC.SD.SDX7.通常可采用以下那种方法来减小抽样误差:A.减小样本标准差B.减小样本含量C.扩大样本含量D.以上都不对8.配对设计的目的:A.提高测量精度B.操作方便C.为了可以使用t检验D.提高组间可比性9.以下关于参数估计的说法正确的是:A.区间估计优于点估计B.样本含量越大,参数估计准确的可能性越大C.样本含量越大,参数估计越精确D.对于一个参数只能有一个估计值10.关于假设检验,下列那一项说法是正确的A.单侧检验优于双侧检验B.采用配对t检验还是成组t检验是由实验设计方法决定的C.检验结果若P值大于0.05,则接受H0犯错误的可能性很小D.用u检验进行两样本总体均数比较时,要求方差齐性6.两样本比较时,分别取以下检验水准,下列何者所取第二类错误最小A.a=0.05B.a=0.01C.a=0.10D.a=0.207.统计推断的内容是30\nA.用样本指标推断总体指标B.检验统计上的“假设”C.A、B均不是D.A、B均是8.当两总体方差不齐时,以下哪种方法不适用于两样本总体均数比较A.t检验B.t’检验C.u检验(假设是大样本时)D.F检验9.甲、乙两人分别从随机数字表抽得30个(各取两位数字)随机数字作为两个样本,22求得X1,S1,X2,S2,则理论上22A.X1=X2,S1=S2B.作两样本t检验,必然得出无差别的结论C.作两方差齐性的F检验,必然方差齐D.分别由甲、乙两样本求出的总体均数的95%可信区间,很可能有重叠10.以下关于参数点估计的说法正确的是A.CV越小,表示用该样本估计总体均数越可靠B.s越小,表示用该样本估计总体均数越准确XC.s越大,表示用该样本估计总体均数的可靠性越差XD.S越小,表示用该样本估计总体均数越可靠(二)名词解释1.统计推断2.抽样误差3.标准误及sX4.可信区间5.参数估计6.假设检验中P的含义7.I型和II型错误8.检验效能9.检验水准(三)是非题1.若两样本均数比较的假设检验结果P值远远小于0.01,则说明差异非常大。2.对同一参数的估计,99%可信区间比90%可信区间好。3.均数的标准误越小,则对总体均数的估计越准确。(四)简答题1.假设检验时,当P£0.05,则拒绝H0,理论依据是什么?2.假设检验中a与P的区别何在?(五)计算题1.治疗10名高血压病人,对每一种病人治疗前、后的舒张压(mmHg)进行了测量,结果见(表4-6),问治疗前后有无差异?表4-610名高血压病人治疗前后的舒张压(mmHg)病例编号1234567891031\n治疗前117127141107110114115138127122治疗后123108120107100981021521041072.某医院病理科研究人体两肾的重量,20例男性尸解时的左、右肾的称重记录见表4-7,问左、右肾重量有无不同?表4-720例男性尸解时左、右肾的称重记录编号左肾(克)右肾(克)11701502155145314010541151005235222612511571301208145105910512510145135111551501211012513140150141451401512090161301201710510018951001910090201051253.有13例健康人,11例克山病人的血磷测定值(mg%)如表4-8所示,问克山病人的血磷是否高于健康人?表4-8健康人与克山病人的血磷测定值(mg%)健康人170155140115235125130145105145患者15012515014090120100100901252.某生化实验室测定了几组人的血清甘油三酯含量(mg%)见表4-9,试分析比较工人与干部,男与女的该项血酯水平。32\n表4-9正常成人按不同职业、性别分类的的血清甘油三酯含量(mg%)人数平均数标准差工人112106.4929.09干部10695.9326.63男116103.9127.96女10297.9328.71五、习题答题要点(四)单项选择题1.B2.C3.D4.B5.B6.D7.D8.A9.D10.C(五)名词解释1.统计推断:通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断(statisticalinference)。2.抽样误差:由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差(samplingerror)。3.标准误及sX:通常将样本统计量的标准差称为标准误。许多样本均数的标准差sX称为均数的标准误(standarderrorofmean,SEM),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。4.可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidenceinterval,CI)。它的确切含义是:可信区间包含总体参数的可能性是1-a,而不是总体参数落在该范围的可能性为1-a。5.参数估计:指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区间估计。6.假设检验中P的含义:指从H0规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。7.I型和II型错误:I型错误(typeIerror),指拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用a表示;II型错误(typeIIerror),指接受了实际上不成立的H0,这类“存伪”的误称为II型错误,其概率大小用b表示。8.检验效能:1-b称为检验效能(poweroftest),它是指当两总体确有差别,按规定的检验水准a所能发现该差异的能力。9.检验水准:,是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准(levelofatest),记为a。(六)是非题1.错。P值的大小只能说明差异是否有统计学意义,同样的差异,例数越多,P值越小。2.错。可信区间的优劣要通过两点衡量:区间的可信度;区间的宽度。因此不能笼统的通过区间可信度的大小来评价优劣。33\n3.正确。标准误越小,可信区间越窄,对总体均数估计的准确程度越高。(七)简答题1.答:P值系由H0所规定的总体做随机抽样,获得等于及大于(或等于及小于)依据现有样本信息所计算得的检验统计量的概率。当P£0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于a,因为小概率事件几乎不可能在一次试验中发生,所以拒绝H0。同时,下“有差别”的结论的同时,我们能够知道可能犯错误的概率不会大于a,也就是说,有了概率保证。2.答:以t检验为例,a与P都可用t分布尾部面积大小表示,所不同的是:a值是指在统计推断时预先设定的一个小概率值,就是说如果H0是真的,允许它错误的被拒绝的概率。P值是由实际样本获得的,是指在H0成立的前提下,出现等于或大于现有检验统计量的概率。(八)计算题1.解:本题属配对设计资料,故应用配对t检验方法计算。t=2.484,v=9,P<0.05,按a=0.05水准拒绝H0,认为治疗前后有差别(注:此类研究是非随机的自身前后对比研究,要确认疗效,应设立平行对照)。2.解:本题属配对设计资料,故应用配对t检验方法计算。t=2.157,v=19,P<0.05,按a=0.05水准拒绝H0,认为左、右肾重量差别有统计学意义,右较左肾轻。3.解:本题属成组设计资料,故应用成组t检验方法计算。t=2.539,v=22,P<0.05,按a=0.05水准拒绝H0,认为二者血磷含量差别有统计学意义,克山病人的血磷高于健康人。(注:此类研究是非随机化的对比研究,如果病人与健康人不具可比性,如居住地不同、性别不同、年龄不同,则不能保证结论正确。4.解:本题可通过计算两均数差值的95%或99%可信区间来判断两总体均数的差别。工人与干部均数差值的95%和99%可信区间分别为:(3.10,18.02),(0.73,20.39),均不包含0在内,故可认为工人与干部血清甘油三酯含量的总体均属有差别。男性与女性均数差值的95%和99%可信区间分别为:(-1.60,13.56),(-4.01,15.97),均包含0在内,故尚不能认为男性与女性血清甘油三酯含量的总体均属有差别。(潘晓平马跃渊)34\n第五章方差分析一、教学大纲要求(一)掌握内容1.方差分析基本思想(1)多组计量资料总变异的分解,组间变异和组内变异的概念。(2)多组均数比较的检验假设与F值的意义。(3)方差分析的应用条件。2.常见实验设计资料的方差分析(1)完全随机设计的单因素方差分析:适用的资料类型、总变异分解(包括自由度的分解)、方差分析的计算、方差分析表。(2)随机区组设计资料的两因素方差分析:适用的资料类型、总变异分解(包括自由度的分解)、方差分析的计算、方差分析表。(3)多个样本均数间的多重比较方法:LSD-t检验法;Dunnett-t检验法;SNK-q检验法。(二)熟悉内容多组资料的方差齐性检验、变量变换方法。(三)了解内容两因素析因设计方差分析、重复测量设计资料的方差分析。二、教学内容精要(一)方差分析的基本思想1.基本思想方差分析(analysisofvariance,ANOVA)的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(sumofsquaresofdeviationsfrommean,SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F分布作出统计推断,判断各因素对各组均数有无影响。2.分析三种变异(1)组间变异:各处理组均数之间不尽相同,这种变异叫做组间变异(variationamonggroups),组间变异反映了处理因素的作用(处理确有作用时),也包括了随机误差(包括个体差异及测定误差),其大小可用组间均方(MS组间)表示,即MS组间=SS组间/n组间,其k2中,SS组间=åni(xi-x),n组间=k-1为组间自由度。k表示处理组数。i=1(2)组内变异:各处理组内部观察值之间不尽相同,这种变异叫做组内变异(variationwithingroups),组内变异反映了随机误差的作用,其大小可用组内均方(MS组内)表示,kéniù2MS组内=SS组内/n组内,其中SS组内=åêå(xij-xi)ú,n组内=N-k,为组内均方自由度。i=1ëj=1û(3)总变异:所有观察值之间的变异(不分组),这种变异叫做总变异(totalvariation)。35\n其大小可用全体数据的方差表示,也称总均方(MS总)。按方差的计算方法,MS总=kni2SS总/n总,其中SS总=åå(xij-x),k为处理组数,ni为第i组例数,n总=N-1为总的自i=1j=1由度,N表示总例数。(二)方差分析的应用条件(1)各样本是相互独立的随机样本,且来自正态分布总体。(2)各样本的总体方差相等,即方差齐性(homoscedasticity)。(三)不同设计资料的方差分析1.完全随机设计的单因素方差分析(1)资料类型:完全随机设计(completelyrandomdesign)是将受试对象完全随机地分配到各个处理组。设计因素中只考虑一个处理因素,目的是比较各组平均值之间的差别是否由处理因素造成。(2)方差分析表:见表5-1。F³Fa时,拒绝H0:m12=mm==LLk。表5-1完全随机设计方差分析计算表来源nSSMSF值SS组间组间SS组间n=k-1MS组间=MS组间n组间组间F=MS组内SS组内组内SS组内=SS总-SS组间n=n-n=N-kMS组内=组内总组内(误差)n组内总计SS总n=N-1总2.随机区组设计的两因素方差分析(1)资料类型:随机区组设计(randomizedblockdesign)是将受试对象按自然属性(如实验动物的窝别、体重,病人的性别、年龄及病情等)相同或相近者组成单位组(区组),然后把每个组中的受试对象随机地分配给不同处理。设计中有两个因素,一个是处理因素,另一个是按自然属性形成的单位组。单位组的选择原则是“单位组间差别越大越好,单位组内差别越小越好”。(2)方差分析表:见表5-2。F处理³Fa时,拒绝H0:m12=mm==LLk。表5-2随机区组设计方差分析计算表变异来源nF值SSMSSSMS处理处理处理组间n处理=k-1MS处理=F处理=SS处理nMS处理误差36\nSSMS单位单位单位组间SS单位n=b-1MS单位=F单位=单位n单位MS误差SS误差=SS总-SS处理-SS单位n=n-n-nSS误差误差误差总处理单位MS误差==N-k-n+1n误差总计SS总n=N-1总3.多个样本均数的多重比较如果方差分析结果表明各组间有显著差别,则需要进一步进行两两比较,也称均数间的多重比较(multiplecomparison)。进行两两比较的方法主要有:(1)LSD-t检验:称为最小显著差异t检验。适用于k组中某一对或某几对在专业上有特殊意义的均数间差异的比较。检验统计量为t值,自由度为方差分析表中的误差自由度,查t界值表。XA-XB11t=其中Sd=MS(n+n)(5-1)SAB误差ABdAB(2)Dunnett-t检验:它适用于k-1个试验组与一个对照组均数差别的多重比较,检验统计量为t值,自由度为方差分析表中的误差自由度,查Dunnet-t界值表。xi-x011t=,其中Sxi-x0=MS误差(+)(5-2)Snin0xi-x0(3)SNK-q检验:在方差分析结果拒绝H0时采用。适用于所有组均数的两两比较。检验统计量为q,自由度为比较组数a和方差分析表中的误差自由度,查q界值表。()XXAB-MS误差11q=其中,Sd=+()nn(5-3)ABS2d4.多组资料方差起行检验当各组标准差相差较大(如1.5倍)时,需检验资料是否满足方差齐性的条件。5.变量变换当资料不能满足方差分析的条件时,如果进行方差分析,可能造成错误的判断。因此对于明显偏离上述应用条件的资料,可以通过变量变换的方法来加以改善。常用的变量变换方法有:(1)对数变换对数变换不仅可以将对数正态分布的数据正态化,还能使数据方差达到齐性,特别是各样本的标准差与均数成比例或变异系数接近于一个常数时。变换公式为:X¢=lgX(5-4)当原始数据中有小值或零时,可用X¢=lg(X+1)(2)平方根变换常用于使服从Possion分布的计数资料或轻度偏态的资料正态化;当各样本的方差与均数呈正相关时,可使资料达到方差齐性。变换公式为:X¢=X(5-5)当原始数据中有小值或零时,可用X¢=X+0.5(3)倒数变换常用于数据两端波动较大的资料,可使极端值的影响减小。变换公式为:37\nX¢=1/X(5-6)(4)平方根反正弦变换常用于服从二项分布的率或百分比资料。一般地,当总体率较小(<30%)或较大(>70%)时,通过平方根反正弦变换,可使资料接近正态,且达到方差齐性的要求。变换公式为:-1X¢=sinX(5-7)(5)秩转换后,采用秩和检验比较组间差别(祥见第九章)。6.两因素析因设计方差分析处理含有两因素两水平的全面组合。例如治疗肿瘤术后病人,可采用4种方法:既不放疗也不化疗(a0b0);放疗不化疗(a1b0);不放疗化疗(a0b1);既放疗又化疗(a1b1)。设放疗为A因素(两水平),化疗为B因素(两水平),则构成2´2析因设计,目的是分析A的主效应,B的主效应及AB的交互作用。7.重复测量资料的方差分析受试对象随机分组后,多次测量某一观察指标,以比较处理效应在不同时间点有无变化。如试验组和对照组的轻度高血压病人入院前、治疗后1天、2天、3天、4天的血压变化。设处理分组为A因素,重复测量的时间点为B因素,目的是分析A的主效应和AB的交互作用。三、典型试题分析1.完全随机设计资料的方差分析中,必然有()A.SS组内0.052,43.3034.735<0.012,33.4224.319<0.013,40.3320.417>0.05春与夏、秋与冬湖水中氯化物含量P>0.05,按α=0.05水准,不拒绝H0,即不能认为春与夏、秋与冬季湖水中氯化物含量有差别。而其它4组均有P<0.01,按α=0.05水准,拒绝H0,接受H1,即认为春夏两季湖水中氯化物含量高于秋冬两季。2.完全随机设计单因素芳差分析H0:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数相等.H1:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等.α=0.0522C=(ååXij)/n=288/30=2764.82SS总=ååXij-C=2924-2764.8=159.22SS组间=-åå[(Xiji)/]nC222=(92+84+112)/10-=2764.841.644\nSS=SS-SS=159.2-41.6=117.6组内总组间表5-11方差分析表变异来源SSnMSF总变异159.22941.6220.804.77组间变异117.6274.36组内变异查F界值表,F0.05,2,27=3.35。因F〉F0.05,2,27得P<0.05,按α=0.05水准,拒绝H0,接受H1,认为大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗对生存日数有影响.用Dunnet-t检验方法进行均数间多重比较:H0:任一组与对照组总体均数相同H1:任一组与对照组总体均数不同α=0.05由Dunnett-t检验公式,伤寒与对照组比较:XX10-t=MS误差(1/nn12+1/)=(9.2-11.2)/4.36(1/10+1/10)=-2/0.93=-2.14n=27,查Dunnett-t检验界值表,得P<0.05。按α=0.05水准,拒绝H0,接受H1,故可认为接种伤寒菌苗组较对照组生存日数减少。百日咳与对照组比较:t=(8.4-11.2)/4.36(1/10+1/10)=-2.99百对n=27,查Dunnett-t检验界值表,得P<0.05,按α=0.05水准,拒绝H0,接受H1,认为接种百日咳菌苗组较对照组生存日数减少。3.完全随机设计资料方差分析H0:三种抗凝剂所作血沉值之间没有差别H1:三种抗凝剂所作血沉值之间存在差别α=0.05表5-12方差分析表变异来源SSnMSF总变异4014组间变异10252组内变异30122.5查F界值表,F=3.88,所以P>0.05,按α=0.05水准,不能拒绝H0。即尚不能认为0.05,2,1245\n三种抗凝剂所作血沉值之间有差别。4.首先计算误差均方2SS=å(n-1)s误差ii22222=(8-1)´0.43+(5-1)´0.68+(5-1)´0.66+(8-1)´0.75+(9-1)´0.66=12.3086n=N-k=35-5=30误差MS===SS/n12.3086/300.4103误差误差误差(1)损伤后0.5小时与对照组比H0:损伤后0.5小时与对照组组织含水量相等H1:损伤后0.5小时与对照组组织含水量不等α=0.0579.65-78.86t=110.4103(+)85=2.16以n=30,处理数=4查Dunnett-t界值表,得界值2.25,因t=2.16<2.25,所以P>0.05。在误差α=0.05水准上,不拒绝H0,尚不能认为损伤后0.5小时与对照组组织含水量有差别。(2)损伤后3小时与对照组比H0:损伤后3小时与对照组组织含水量相等H1:损伤后3小时与对照组组织含水量不等α=0.0579.77-78.86t==2.49110.4103()+85因t>2.25(界值),故P<0.05。在α=0.05水准上,拒绝H0,认为损伤后3小时与对照组的组织含水量有差别。(3)损伤后6小时与对照组比H0:损伤后6小时与对照组组织含水量相等H1:损伤后6小时与对照组组织含水量不等α=0.0580.94-78.86t==6.49110.4103()+88因t>2.25(界值),故P<0.05。在α=0.05水准上,拒绝H0,认为损伤后6小时与对照组的组织含水量有差别。(4)治疗组与对照组比H0:治疗组与对照组组的织含水量相等H1:治疗组与对照组的组织含水量不等α=0.0579.61-78.86t==2.41110.4103()+89因t>2.25(界值),故P<0.05。在α=0.05水准上,拒绝H0,认为治疗组与对照组的组织含水量有差别。5.随机去组设计方差分析,总例数N=36,处量组数k=3,区组数n=12。46\n计算:SS=SS-SS-SS=162-8-110=44区组总饲料误差v总=N-1=36-1=35v=k-1=3-1=2饲料v=n-1=12-1=11区组v=N-k-n+1=36-3-12+1=22误差根据计算结果填写方差分析表,见表5-11。表5-13方差分析表变异来源SSnMSFP处理间8240.8>0.05区组间441140.8>0.05误差110225总变异162356.解:这两组资料用随机区组的方差分析为宜。(1)处理组间比较H0:不同治疗组血小板升高值相同H1:不同治疗组血小板升高值不全相同α=0.05(2)年龄组间比较H0:不同年龄组血小板升高值相同H1:不同年龄组血小板升高值不全相同α=0.05(3)计算,列方差分析表表5-14方差分析表变异来源SSnMSF总变异187.26517组间129.003264.50279.338区组间50.132510.02612.333误差8.13100.813查F界值表,F=4.10,F=3.48,因此,组间及区组间均为P<0.05。按α=0.050.05,2,100.05,4,10水准,拒绝H0,可认为不同治疗组间血小板升高值不相同,不同年龄组患者血小板升高值也不相同。7.设A因素为染毒(2水平),B因素为药物(2水平),做2´2表析因设计方差分析。结果见表5-15。表5-15方差分析表变异来源SSnMSF47\n总变异17.33919染毒0.00910.0091.000药物17.168117.1681907.555染毒*药物0.01410.0141.555误差0.148160.009查F界值表,F=8.68,因此,药物组间P<0.01。按α=0.01水准,认为给药组和0.01,1,16不给药组吞噬指数不相同。(赵清波张玉海)48\n第六章分类资料的统计描述一、教学大纲要求(一)掌握内容1.绝对数。2.相对数常用指标:率、构成比、比。3.应用相对数的注意事项。4.率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。(二)熟悉内容1.标准化率的计算。2.动态数列及其分析指标。二、教学内容精要(一)绝对数绝对数是各分类结果的合计频数,反映总量和规模。如某地的人口数、发病人数、死亡人数等。绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。(二)常用相对数的意义及计算相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。常用相对数的意义及计算见表6-1。表6-1常用相对数的意义及计算常用相对数概念表示方式计算公式举例率又称频率指标,说明百分率发生某现象的观察单位数单位时间内的发病率、患病率=´100%(rate)一定时期内某现象发(%)、千分率可能发生某现象的观察单位总数率,如年(季)发病率、时生的频率或强度(‰)等点患病率等某一组成部分的观察单位数构成比又称构成指标,说明百分数构成比=´100%疾病或死亡的顺位、位次或同一事物各组成部分的观察单位总数(proportion)某一事物内部各组成所占比重部分所占的比重或分布A比又称相对比,是A、倍数或分数比=①对比指标,如男:女B49\n(ratio)B两个有关指标之=106.04:100比,说明A是B的若②关系指标,如医护人员:干倍或百分之几病床数=1.64③计划完成指标,如完成计划的130.5%(三)应用相对数时应注意的问题1.计算相对数的分母一般不宜过小。2.分析时不能以构成比代替率容易产生的错误有(1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率;(2)若用构成指标下频率指标的结论将导致错误结论,如某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。3.不能用构成比的动态分析代替率的动态分析。4.对观察单位数不等的几个率,不能直接相加求其总率。5.在比较相对数时应注意可比性通常应注意:(1)观察对象,研究方法、观察时间、地区和民族等因素应相同或相近;(2)其它影响因素在各组的内部构成是否相同。6.对样本率(或样本构成比)的比较应随机抽样,并做假设检验。(四)标准化法1.标准化法(standardizationmethod)的意义和基本思想常用于内部构成不同的两个或多个率的比较。标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。2.标准化率的计算标准化率(standardizedrate)亦称调整率(adjustedrate)。常用的计算方法按已知条件有直接法和间接法。3.标准化法使用注意事项,如只用于组间比较,不能替代实际率等。(五)动态数列及其分析指标1.动态数列(dynamicseries)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。2.动态数列依据时间上的特点可分为⑴时点动态数列;⑵时期动态数列。3.动态数列常用的分析指标主要有⑴绝对增长量;⑵发展速度和增长速度,可计算1)定基比,即统一用某个时间的指标作基数,其它各时间的指标都与之相比;2)环比,即以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。⑶平均发展速度和平均增长速度。平均发展速度=naan0平均增长速度=平均发展速度-150\n三、典型试题分析(一)单项选择题1.某医院某年住院病人中胃癌患者占4%,则()。A.4%是强度百分数B.4%是构成比C.4%是相对比D.4%是绝对数答案:B[评析]本题考点:对相对数概念的理解。常用的相对数有率、构成比、比等。构成比又称构成指标,说明某是一事物内部各组成部分所占的比重或分布。胃癌患者是该年全部住院病人的一组成部分,占住院病人的4%,则4%是构成比。特别注意率与构成比的区别与联系,两者经常容易混淆。2.欲比较两地死亡率,计算标准化率可以()。A.消除两地总人口数不同的影响B.消除两地各年龄组死亡人数不同的影响C.消除两地各年龄组人口数不同的影响D.消除两地抽样误差不同的影响。答案:C[评析]本题考点:标准化法的意义及应用。标准化法常用于内部构成不同的两个或多个率的比较。标准化法的目的,就是为了消除由于内部构成不同对总率比较带来的影响,使调整以后的总率具有可比性。故欲比较两地死亡率,计算标准化率可以消除两地年龄别人口数不同对死亡率的影响。3.计算麻疹疫苗接种后血清检查的阳转率,分母为()。A.麻疹易感人群B.麻疹患者数C.麻疹疫苗接种人数D.麻疹疫苗接种后的阳转人数答案:C[评析]本题考点:对相对数中率的概念的理解。率又称频率指标,说明某现象发生的频率或强度。其公式为:发生某现象的观察单位数率=´100%,计算麻疹疫苗接种后血清检查的阳转率,可能发生某现象的观察单位总数分母为可能发生血清阳转的人数,即为麻疹疫苗接种人数。(二)是非题1.某医院收治某病患者10人,其中8人会吸烟,占80%,则结论为“吸烟是发生该病的原因”。答案:错。[评析]本题考点:对相对数概念的理解。某医院收治某病患者10人,其中8人会吸烟,占80%,则80%为构成比或结构相对数。如果要探讨吸烟是否为发生该病的原因,应该比较吸烟人群与不吸烟人群该病的患病率。分析时不能以构成比代替率,若用构成指标下频率指标的结论将导致错误结论。2.某化工厂某病连续4年患病率分别为6.0%、9.7%、11.0%、15.4%,则该病4年总患病51\n率为:(6.0+9.7+11.0+15.4)/4=10.53(%)。答案:错。[评析]本题考点:对应用相对数时应注意的问题的理解。应用相对数时对观察单位数不等的几个率,不能直接相加求其总率,而应该用总患病人数计算。因此该化工厂某病4年总患病率为10.53%是错误的。四、习题(七)单项选择题11.某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为()。A.该病男性易得B.该病女性易得C.该病男性、女性易患率相等D.尚不能得出结论12.甲县恶性肿瘤粗死亡率比乙县高,经标准化后甲县恶性肿瘤标化死亡率比乙县低,其原因最有可能是()。A.甲县的诊断水平高B.甲县的肿瘤防治工作比乙县好C.甲县的老年人口在总人口中所占比例比乙县小D.甲县的老年人口在总人口中所占比例比乙县大13.已知男性的钩虫感染率高于女性。今欲比较甲乙两乡居民的钩虫感染率,但甲乡人口女多于男,而乙乡男多于女,适当的比较方法是()。A.分别进行比较2B.两个率比较的χ检验C.不具备可比性,不能比较D.对性别进行标准化后再比较14.经调查得知甲乙两地的冠心病粗死亡率为40/10万,按年龄构成标化后,甲地冠心病标化死亡率为45/10万;乙地为38/10万,因此可以认为()。A.甲地年龄别人口构成较乙地年轻B.乙地年龄别人口构成较甲地年轻C.甲地冠心病的诊断较乙地准确D.甲地年轻人患冠心病较乙地多15.某地区某种疾病在某年的发病人数为a0,以后历年为a1,a2,⋯⋯,an,则该疾病发病人数的年平均增长速度为()。a+a+...+aA.01nB.n+1a´a´an+101naannnn-1C.D.aa0016.某部队夏季拉练,发生中暑21例,其中北方籍战士为南方籍战士的2.5倍,则结论为()。A.北方籍战士容易发生中暑B.南方籍战士容易发生中暑52\nC.北方、南方籍战士都容易发生中暑D.尚不能得出结论17.某地区某种疾病在某年的发病人数为a0,以后历年为a1,a2,⋯⋯,an,则该疾病发病人数的年平均发展速度为()。A.a0+a1+...+anB.n+1a´a´a01nn+1anan-1C.nD.na0a018.相对比包括的指标有()。A.对比指标B.计划完成指标C.关系指标D.以上都是(八)名词解释1.相对数2.率3.构成比4.比5.标准化法6.动态数列7.时点动态数列8.定基比9.环比10.平均增长速度(九)简答题1.常用的相对数指标有哪些?它们的意义和计算上有何不同?2.为什么不能以构成比代率?请联系实际加以说明。3.应用相对数时应注意哪些问题?(十)计算题1.某医院现有工作人员900人,其中男性760人,女性140人,在一次流感中发病者有108人,其中男性患者79人,而女性患者29人。试计算:⑴该院总流感发病率?⑵男、女流感发病率?⑶男、女患者占总发病人数的百分比?2.下表为一抽样研究资料,试:填补空白处数据并根据最后三栏结果作简要分析。表6-2某地各年龄组恶性肿瘤死亡情况年龄(岁)人口数死亡其中恶性肿恶性肿瘤死亡恶性肿瘤死亡年龄别死亡总数瘤死亡数占总死亡的%率(1/10万)率(‰)⑴⑵⑶⑷⑸⑹⑺0~8292042.9020~6319.0525.7340~281611724260及以上32合计1670907159012.593.某城市1971~1981年乙脑发病率如下,试作动态分析。表6-3某城市1971~1981年乙脑发病率(1/10万)53\n年份19711972197319741975197619771978197919801981发病率20.526.311.873.071.081.382.292.312.472.762.944.试就下表资料分析比较甲、乙两医院乳腺癌手术后的五年生存率。表6-4甲、乙两医院乳腺癌手术后的五年生存率(%)腋下淋巴甲医院乙医院结转移病例数生存数生存率病例数生存数生存率无453577.7730021571.67有71045068.38834250.60合计75548564.2438325767.10五、习题答题要点(十一)单项选择题1.D2.D3.D4.B5.D6.D7.C8.D(十二)名词解释1.相对数(relativenumber)是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、构成比、比等。2.率(rate)又称频率指标,说明一定时期内某现象发生的频率或强度。计算公式为:率=发生某现象的观察单位数´100%,表示方式有:百分率(%)、千分率(‰)等。可能发生某现象的观察单位总数3.构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分某一组成部分的观察单位数布。计算公式为:构成比=´100%,表示方式有:百同一事物各组成部分的观察单位总数分数等。4.比(ratio)又称相对比,是A、B两个有关指标之比,说明A是B的若干倍或百分A比=之几。计算公式为:B,表示方式有:倍数或分数等。5.标准化法(standardizationmethod)是常用于内部构成不同的两个或多个率比较的一种方法。标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。6.动态数列(dynamicseries)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。7.时点动态数列是依据指标在时间方面的特点划分的一种动态数列,各个指标是在时点上的数据,如历年人口数、性别比例、现场调查中的患病人数、时点患病率等。8.定基比即统一用某个时间的指标作基数,其它各时间的指标与之相比。9.环比即以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。54\n10.平均增长速度是用于概括某一时期的平均速度变化,即该时期环比的几何均数减1,其计算公式为:平均增长速度=平均发展速度-1=naa-1n0(十三)简答题1.常用的相对数指标有:率、构成比和相对比。意义和计算公式如下:发生某现象的观察单位数率=´100%可能发生某现象的观察单位总数率又称频率指标,说明某现象发生的频率或强度,常以100%、1000‰等表示。构成比又称构成指标,说明某一事物内部各组成部分所占的比重或分布。常以百分数表示。某一组成部分的观察单位数构成比=´100%同一事物各组成部分的观察单位总数比又称相对比,是A、B两个有关指标之比,说明两者的对比水平,常以倍数或百分数表示,其公式为:相对比=甲指标/乙指标(或100%)甲乙两个指标可以是绝对数、相对数或平均数等。2.率和构成比所说明的问题不同,绝不能以构成比代率。构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。例如:以男性各年龄组高血压分布为例,50~60岁年龄组的高血压病例占52.24%,所占比重最大,60~岁组则只占到6.74%。这是因为60~岁以上受检人数少,造成患病数低于50~60岁组,因而构成比相对较低。但不能认为年龄在50~60岁组的高血压患病率最严重,而60岁以上反而有所减轻。若要比较高血压的患病率,应该计算患病率指标。3.应用相对数时应注意的问题有:⑴计算相对数的分母一般不宜过小。⑵分析时不能以构成比代替率。⑶不能用构成比的动态分析代替率的动态分析。⑷对观察单位数不等的几个率,不能直接相加求其总率。⑸在比较相对数时应注意可比性。⑹对样本率(或构成比)的比较应随机抽样,并做假设检验。(十四)计算题:1.⑴该院总流感发病率为:(108/900)×100%=12%⑵男性流感发病率为:(79/760)×100%=10.39%;女性流感发病率为:(29/140)×100%=20.71%⑶男性患者占总发病人数的百分比为:(79/108)×100%=73.15%;女性患者占总发病人数的百分比为:(29/108)×100%=26.85%2.填补空白处数据,见下表()内。表6-5某地各年龄组恶性肿瘤死亡情况年龄人口数死亡其中恶性肿恶性肿瘤死亡恶性肿瘤死亡年龄别死亡(岁)总数瘤死亡数占总死亡的%率(1/10万)率(‰)⑴⑵⑶⑷⑸=⑷/⑶⑹=⑷/⑵⑺55\n0~82920(138)42.90(4.82)(1.66)20~(46638)63(12)19.0525.73(1.35)40~2816117242(24.42)(149.14)(6.11)60~(9371)(342)32(9.36)(341.48)(36.50)合计1670907159012.59(53.86)(4.28)根据最后三栏结果作简要分析。由表中第⑸栏可知:40~岁组恶性肿瘤死亡占总死亡比重最高,近1/4;20~岁组次之,占19.05%;60~岁组恶性肿瘤死亡人数虽多,但仅占总死亡的9.36%;0~岁组恶性肿瘤死亡占总死亡比重最低,仅占2.90%。由表中第⑹栏可知:恶性肿瘤的年龄别死亡率随年龄的增大而增加,以60~岁组为最高,为341.50/10万。故可认为随年龄增大,患恶性肿瘤的危险增加,应引起足够的重视。由表中第⑺栏可知:年龄别死亡率以20至40岁最低,以后随年龄的增加而增加,60岁以后高达36.50‰。3.计算结果见表6-6。表6-6某市1971~1981年乙脑发病率动态分析年份发病率绝对增长量发展速度(%)增长速度(%)(1/10万)累计逐年定基比环比定基比环比197120.52——100100——19726.31-14.21-14.2130.7530.75-69.25-69.2519731.87-18.56-4.449.1129.64-90.89-70.3619743.07-17.451.2014.96164.17-85.0464.1719751.08-19.44-1.995.2635.18-94.74-64.8219761.38-19.140.306.73127.78-93.2727.7819772.29-18.230.9111.16165.94-88.8465.9419782.31-18.210.0211.26100.87-88.740.8719792.47-18.050.1612.04106.93-87.966.9319802.76-17.760.2913.45111.74-86.5511.7419812.94-17.580.1814.33106.52-85.676.524.两医院乳腺癌患者的病情构成不同,比较两医院的标准化率,计算过程见表6-7。表6-7甲、乙两医院乳腺癌手术后的五年生存率标化(甲乙两医院合计为标准)腋下淋巴标准病例甲医院乙医院结转移数Ni原生存率Pi预期生存人数NiPi原生存率Pi预期生存人数NiPi⑴⑵⑶⑷=⑵⑶⑸⑹=⑵⑸无34577.7726871.67247有79368.3850350.6040156\n合计1138(∑64.24771(∑NiPi)67.10648(∑NiPi)Ni)甲医院乳腺癌手术后的五年生存率标化生存率:'åNiPi771p=´100%=´100%=67.75%N1138乙医院乳腺癌手术后的五年生存率标化生存率:'åNiPi648p=´100%=´100%=56.94%N1138因为甲、乙两医院有无腋下淋巴结转移的病情构成不同,故标化后,甲医院乳腺癌手术后的五年生存率高于乙医院,校正了标化前甲医院低于乙医院的情况。(蒋知俭万毅)57\n第七章二项分布与Poisson分布及其应用一、教学大纲要求(一)掌握内容1.二项分布(1)分布参数;(2)各项统计指标(均数、标准差等)的计算方法;(3)二项分布的分布特征,近似分布及其应用条件。2.Poisson分布(1)分布参数;(2)各项统计指标(均数、标准差等)的计算方法;(3)Poisson分布的分布特征,近似分布及其应用条件。(二)熟悉内容1.二项分布(1)样本率的分布;(2)总体率的区间估计;(3)样本率与总体率的比较;(4)两样本率的比较。2.Poisson分布(1)总体均数的区间估计;(2)样本均数与总体均数的比较;(3)两个样本均数的比较。(三)了解内容二项分布及Poisson分布的前提条件及其概率密度函数的应用。二、教学内容精要(一)基本概念1.概率分布二项分布(binomialdistribution)和Poisson分布是统计学中很重要的两种分布。二项分布:若一个随机变量X,它的可能取值是0,1,…,n,且相应的取值概率为nkn-kP(X=k)=()p(1-p)(7-1)k则称此随机变量X服从以n、π为参数的二项分布,记为X~B(n,π)。Poisson分布:若离散型随机变量X的取值为0,1,…,n,且相应的取值概率为km-mP(X=k)=e(μ>0)(7-2)k!则称随机变量X服从以μ为参数的Poisson分布(PoissonDistribution),记为X~P(μ)。2.两种分布成立的条件58\n(1)二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。(2)Poisson分布成立的条件:①平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关;②独立增量性:在某个观察单位上X的取值与前面各观察单位上X的取值无关;③普通性:在充分小的观察单位上X的取值最多为1。(二)分布参数1.二项分布,X~B(n,π)X的均数μX=nπ(7-3)2X的方差sX=nπ(1-π)(7-4)X的标准差s=np(1-p)(7-5)X2.Poisson分布,X~P(μ)X的均数μX=μ(7-6)2X的方差s=μ(7-7)XX的标准差σX=m(7-8)(三)分布特性1.可加性二项分布和Poisson分布都具有可加性。如果X1,X2,⋯Xk相互独立,且它们分别服从以ni,p(i=1,2,⋯,k)为参数的二项分布,则X=X1+X2+⋯+Xk服从以n,p(n=n1+n2+⋯+nk)为参数的二项分布。如果X1,X2,⋯,Xk相互独立,且它们分别服从以μi(i=1,2,⋯,k)为参数的Poisson分布,则X=X1+X2+⋯+Xk服从以μ(μ=μ1+μ2+⋯+μk)为参数的Poisson分布。2.近似分布特定条件下,二项分布、Poisson分布可近似于某种其它的分布,这一特性拓宽了它们的应用范围。二项分布的正态近似:当n较大,π不接近0也不接近1时,二项分布B(n,π)近似正态分布N(nπ,np(1-p))。二项分布的Poisson分布近似:当n很大,π很小,npl=为一常数时,二项分布近似于Poisson分布。Poisson分布的正态近似:Poisson分布P(μ),当μ相当大时(≥20),其分布近似于正态分布。(四)应用1.二项分布的应用(1)总体率的区间估计有查表法和正态近似法两种方法。当n≤50时可以通过查表求总体率的95%和99%可信区间。当二项分布满足近似正态分布的条件时(n较大,样本率p不接近0也不接近1),可用正态近似法求总体率的1-α可信区间:(p-uαSp,p+uαSp)(7-9)p(1-p)Sp=(7-10)n(2)样本率与总体率比较59\n应用二项分布的概率计算公式计算事件(一般指X取某给定值一侧的所有值)发生的概率,再比较其与检验水准α大小,推断样本所在的总体率与给定总体率的关系。(3)两样本率的比较根据独立的两个正态变量的差也服从正态分布的性质和二项分布在一定条件下的近似正态分布特性,当两个样本的含量n1和n2较大,且p1、(1-p1)、p2、(1-p2)均不太小,可用u检验方法对两样本率对应的总体率作统计推断。p-p12u=(7-11)Sp1-p2X1+X2X1+X211Sp-p=(1-)(+)(7-12)12n+nn+nnn1212122.Poisson分布的应用(1)总体均数的区间估计有查表法和正态近似法两种方法。当样本计数X≤50时,可用查表法求得总体均数的95%或99%可信区间。当样本计数X>50时,可利用Poisson分布的正态近似性,计算其总体均数(1-α)可信区间如下:(X-uX,X+uX)(7-13)aa(2)样本均数与总体均数的比较有直接计算概率法和正态近似法两种方法。样本均数与总体均数比较的目的是推断此样本所代表的未知总体均数μ是否等于已知总体均数μ0。当总体均数较小时,可采用直接计算概率法进行比较。X取某一值的概率以Poisson分布的概率密度函数来计算,即km-mP(X=k)=e(k=0,1,2,…)k!注意:样本均数与总体均数比较时,应以X取大于等于(样本均数大于总体均数时)或小于等于(样本均数小于总体均数时)样本均数的所有值的概率总和同检验界值α进行比较,切不可仅以X取样本均数的概率同检验界值进行比较。当总体均数较大时,可用正态近似法进行统计推断。此时Poisson分布近似正态分布,故可计算标准正态统计量u,X-u0u=(7-14)u0通过u值得出相应的概率,推断样本均数与总体均数的关系。(3)两个样本均数的比较:两个样本计数均较大时,可根据Poisson分布的正态近似性对其进行u检验。两个样本观察单位相同时,用下式计算u值。60\nX1-X2u=(7-15)X1+X2两个样本观察单位不同时,用下式计算u值。X1/n1-X2/n2u=(7-16)XX12+22nn12三、典型试题分析(一)单项选择题1.某地人群中高血压的患病率为π,由该地区随机抽查n人,则()A.样本患病率p=X/n服从B(n,π)B.n人中患高血压的人数X服从B(n,π)C.患病人数与样本患病率均不服从B(n,π)D.患病人数与样本患病率均服从B(n,π)答案:B[评析]本题考点:二项分布概念的理解。二项分布中所指的随机变量X代表n次试验中出现某种结果的次数,具体到本题目就是指抽查的n个人中患高血压的人数,因此答案为B。2.二项分布近似正态分布的条件是()A.n较大且π接近0B.n较大且π接近1C.n较大且π接近0或1D.n较大且π接近0.5答案:D[评析]本题考点:二项分布的正态近似特性。从对二项分布特性的描述中可知:当n较大,π不接近0也不接近1时,二项分布B(n,π)近似正态分布N(nπ,np(1-p))。π不接近0也不接近1,等同于π接近0.5,因而此题目答案为D。3.以下分布中,其均数和方差总是相等的是()A.正态分布B.对称分布C.Poisson分布D.二项分布答案:C[评析]本题考点:Poisson分布的特性。Poisson分布P(μ)的参数只有一个,即μ。它的均数和方差均等于μ,这一点大家需要牢记。4.测得某地区井水中细菌含量为10000/L,据此估计该地区每毫升井水中细菌平均含量的95%可信区间为()61\nA.10000±1.9610000B.10±1.961010000C.10±1.96D.10±1.96100001000答案:C[评析]本题考点:Poisson分布的正态近似性。当X较大(一般大于50)时,Poisson分布近似正态分布,按照正态分布资料的计算公式计算该地区井水中平均每升细菌含量的95%可信区间,再除以1000即得平均每毫升井水中细菌的平均含量(设Y=X,有S=SX=10000)。1000Y10001000(二)是非题从装有红、绿、蓝三种颜色的乒乓球各500、300、200只的暗箱中随机取出10个球,以X代表所取出球中的红色球数,则X服从二项分布B(10,0.5)。()答案:正确。[评析]本题考点:二项分布的定义。二项分布成立的条件是:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。此题目所述情况完全满足后两个条件,关键在于第一个条件的判断,从表面上看,每次试验的结果有三种,但本题目所关心的试验结果是“红色与否”,因而该试验结果仍为两种互斥的情况—“红色”和“非红色”。所以,此题目所述情况满足以上三个条件,X服从二项分布B(10,0.5)。(三)计算题炮击命中目标的概率为0.2,共发射了14发炮弹。已知至少要两发炮弹命中目标才能摧毁之,试求摧毁目标的概率。答案:0.802[评析]本题的考点:二项分布概率函数的理解和应用能力。摧毁目标的概率即有两发或两发以上炮弹命中目标的概率,此概率又等于1减去只有一发命中或无一命中的概率之差。根据二项分布的概率函数计算如下:[1414113][]P=1-P=1-(1-0.2)+()´0.2´(1-0.2)=1-0.044+0.154=0.802X³2X£11四、习题(一)名词解释1.二项分布2.Poisson分布3.Bernoulli试验(二)单项选择题:1.X1、X2分别服从二项分布B(n1,p1)、B(n2,p2),且X1、X2相互独立,若要X=X1+X2也服从二项分布,则需满足下列条件()。A.X1=X2B.n1=n2C.p1=p2D.n1p1=n2p262\n2.二项分布B(n,p)的概率分布图在下列哪种条件下为对称分布()。A.n=50B.p=0.5C.np=1D.p=1mmm3.Poisson分布P()满足下列何种条件时近似正态分布N(,)()。mmA.相当大B.=1mmC.=0D.=0.54.已知某高校学生近视眼的患病率为50%,从该高校随机挑选3名学生,其中2人患近视眼的概率为()。A.0.125B.0.375C.0.25D.0.55.某自然保护区狮子的平均密度为每平方公里100只,随机抽查其中一平方公里范围内狮子的数量,若进行100次这样的抽查,其中的95次所得数据应在以下范围内()。A.5~195B.80.4~119.6C.95~105D.74.2~125.8(三)简答题1.服从二项分布及Poisson分布的条件分别是什么?2.二项分布、Poisson分布分别在何种条件下近似正态分布?3.在何种情况下,可以用率的标准误Sp描述率的抽样误差?(四)计算题1.已知我国成人乙肝病毒表面抗原平均阳性率为10%,现随机抽查某地区10位成人的血清,其中3人为阳性。该地区成人乙肝表面抗原阳性率是否高于全国平均水平?2.对甲、乙两种降压药进行临床疗效评价,将某时间段内入院的高血压病人随机分为两组,每组均为100人。甲药治疗组80位患者有效,乙药治疗组50位患者有效,两种降压药有效率有无差别?3.某放射性物质发生脉冲频率为100/克/小时,已知某矿区矿石中该放射性物质的含量为4克/千克,今又测得另一矿区同种矿石每千克发生脉冲频率为1000/小时,问两个矿区矿石中该放射性物质的含量是否相等?4.一台仪器在10000个工作时内平均发生10次故障,试求在100个工作时内故障不多于两次的概率。五、习题答题要点(一)名词解释1.二项分布:若一个随机变量X,它的可能取值是0,1,…,n,且相应的取值概率为nkn-kP(X=k)=()p(1-p)k则称此随机变量X服从以n、π为参数的二项分布(BinomialDistribution),记为X~B(n,π)。63\n2.Poisson分布:若离散型随机变量X的取值为0,1,…,n,且相应的取值概率为km-mP(X=k)=e(μ>0)k!则称随机变量X服从以μ为参数的Poisson分布(PoissonDistribution),记为X~P(μ)。3.Bernoulli试验:将感兴趣的事件A出现的试验结果称为“成功”,事件A不出现的试验结果称为“失败”,这类试验就称为Bernoulli试验(BernoulliTest)。(二)单项选择题1.C2.B3.A4.B5.B(三)问答题1.二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。Poisson分布成立的条件:①平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关;②独立增量性:在某个观察单位上X的取值与前面各观察单位上X的取值无关;③普通性:在充分小的观察单位上X的取值最多为1。2.二项分布的正态近似:当n较大,π不接近0也不接近1时,二项分布B(n,π)近似正态分布N(nπ,np(1-p))。Poisson分布的正态近似:Poisson分布P(μ),当μ相当大时(≥20),其分布近似于正态分布。3.当率P所来自的样本近似服从正态分布时,即n较大,P不接近0也不接近1时,可以用率的标准误Sp描述率的抽样误差。(四)计算题1.建立检验假设H0:该地区成人乙肝表面抗原阳性率为10%;H1:该地区成人乙肝表面抗原阳性率大于10%。α=0.05。从总体率为10%的人群随机抽取10人,3人或3人以上阳性的概率为:10928P(X≥3)=1-[P(X=0)+P(X=1)+P(X=2)]=1-[0.9+10*0.1*0.9+45*0.1*0.9]=0.0702P(X≥3)>0.05,在α=0.05水平上,不拒绝H0,不能认为该地区成人乙肝表面抗原阳性率高于全国水平。2.建立检验假设H0:两种药有效率无差别;H1:两种药有效率有差别。α=0.05。X1+X211Sp-p=(+)12n+nnn121280+5011S=(+)=0.1095p1-p2100+10010010064\np1-p2u=Sp1-p20.8-0.5u==2.6312>2.58,P<0.010.114在α=0.05水平上,拒绝H0,接受H1,即两种降压药有效率有显著差别,甲药比乙药有效率高。3.放射性物质含量为4克/千克的矿石每千克的平均脉冲记数为m=100*4=400/小时,m值较大,可利用Poisson分布的近似正态分布特性进行计算。H0:两矿区矿石中该放射性物质含量相等,即后一矿区矿石发生脉冲频率的总体均数为400/小时;H1:两矿区矿石中该放射性物质含量不相等,即后一矿区矿石发生脉冲频率的总体均数不等于400/小时。α=0.05。X-u0u=u01000-400u==30>2.58,P<0.01。400在α=0.05水平上,拒绝H0,接受H1,即两矿区矿石中该放射性物质含量不相等,后一矿区矿石中该放射性物质含量高于前一矿区。4.该仪器在100个工作时内故障不多于两次的概率即为P(X=0),P(X=1),10P(X=2)三者之和。而100个工作时内故障平均次数为m=100´=0.1,根据10000Poisson分布的概率函数计算如下:012m-mm-mm-mP(X£2)=e+e+e=0.90484+0.09048+0.00452=0.999840!1!2!故该仪器在100个工作时内故障不多于两次的概率为0.99984。(夏结来薛富波)65\n2c检验一、教学大纲要求(一)掌握内容21.c检验的用途。22.四格表的c检验。2(1)四格表c检验公式的应用条件;(2)不满足应用条件时的解决办法;2(3)配对四格表的c检验。23.行´列表的c检验。(二)熟悉内容2频数分布拟合优度的c检验。(三)了解内容21.c分布的图形。2.四格表的确切概率法。二、教学内容精要2(一)c检验的用途2c检验(Chi-squaretest)用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别2.两种属性或两个变量之间有无关联性3.频数分布的拟合优度检验2(二)c检验的基本思想221.c检验的基本思想是以c值的大小来反映理论频数与实际频数的吻合程度。在零假2设H0(比如H0:p1=p2)成立的条件下,实际频数与理论频数相差不应该很大,即c值不2应该很大,若实际计算出的c值较大,超过了设定的检验水准所对应的界值,则有理由怀疑H0的真实性,从而拒绝H0,接受H1(比如H1:p1¹p2)。()22A-T2.基本公式:c=å,A为实际频数(ActualFrequency),T为理论频数T2(TheoreticalFrequency)。四格表c检验的专用公式正是由此公式推导出来的,用专用公式与2用基本公式计算出的c值是一致的。(三)率的抽样误差与可信区间1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:p(1-p)s=,p为总体率,或(8-1)pnp(1-p)Sp=,p为样本率;(8-2)n2.总体率的可信区间当n足够大,且p和1-p均不太小,p的抽样分布逼近正态分布。66\n总体率的可信区间:(p-ua/2´Sp,p+ua/2´Sp)。(8-3)2(四)c检验的基本计算见表8-1。2表8-1c检验的用途、假设的设立及基本计算公式资料形式用途H0、H1的设立与计算公式自由度四格表①独立资料两H0:两总体率相等H1:两总体率不等1样本率的比较①专用公式2②配对资料两2(ad-bc)nc=样本率的比较(a+b)(c+d)(a+c)(b+d)②当n³40但1£T<5时,校正公式2(ad-bc-n/2)n2c=(a+b)(c+d)(a+c)(b+d)2(b-c-1)2③配对设计c=b+cR´C表①多个样本率、H0:多个总体率(构成比)相等(R-1)(C-1)构成比的比较(H0:两种属性间存在关联)②两个变量之H1:多个总体率(构成比)不全相等间关联性分析(H0:两种属性间存在关联)22Ac=n(å-1)nRnC频数分布表频数分布的拟合优H0:资料服从某已知的理论分布据频数表度检验H:资料不服从某已知的理论分布的组数而1定2(A-T)åT(五)四格表的确切概率法当四格表有理论数小于1或n<40时,宜用四格表的确切概率法。2c(六)检验的应用条件及注意事项2c1.分析四格表资料时,应注意连续性校正的问题,当140时,用连续性校正检验;T£1,或n£40时,用Fisher精确概率法。2.对于R´C表资料应注意以下两点:(1)理论频数不宜太小,一般要求:理论频数<5的格子数不应超过全部格子的1/5;(2)注意考察是否有有序变量存在。对于单向有序R´C表资料,当指标分组变量是有序的时,宜用秩和检验;对于双向有序且属性不同的R´C表资料,若希望弄清两有序变量之间是否存在线性相关关系或存在线性变化趋势,应选用定性资料的相关分析或线性趋势检验;对于双向有序且属性相同的R´C表资料,为考察两种方法检测的一致性,应选用Kappa检验。三、典型试题分析(一)单项选择题21.下列哪项检验不适用c检验()A.两样本均数的比较B.两样本率的比较C.多个样本构成比的比较D.拟合优度检验67\n答案:A22[评析]本题考点:c检验的主要用途。c检验不能用于均数差别的比较。2.分析四格表时,通常在什么情况下需用Fisher精确概率法()A.140B.T<5C.T£1或n£40D.T£1或n£100答案:C2[评析]本题考点:对于四格表,当T£1或n£40时,不宜用c检验,应用Fisher精确概率法。23.c值的取值范围为2222A.-¥0.05,尚不能认为静脉曲张与肥胖有关。68\n2.某卫生防疫站在中小学观察三种矫正近视眼措施的效果,近期疗效数据见表8-3。试对这三种措施的疗效作出评价。表8-3三种措施的近期有效率比较矫治方法有效人数无效人数合计有效率(%)夏天无眼药水518413537.78新医疗法6263218.75眼保健操5131827.78合计6212318533.51[评析]H0:三种措施有效率相等H1:三种措施有效率不相等或不全相等a=0.05A2æ222222öc2=n(å-1)=185´ç51+84+6+26+5+13-1÷=4nnçè62´135123´13562´32123´3262´18123´18÷ørc.498,n=(2-1)(3-1)=2查表得0.25>P>0.10,按a=0.05水准不拒绝H,尚不能认为三种措施有效率有差别。03.某医院以400例自愿接受妇科门诊手术的未产妇为观察对象,将其分为4组,每组100例,分别给予不同的镇痛处理,观察的镇痛效果见表8-4,问4种镇痛方法的效果有无差异?表8-44种镇痛方法的效果比较镇痛方法例数有效率(%)颈麻10041注药10094置栓10089对照100272[评析]为了应用c检验,首先应计算出有效和无效的实际频数,列出计算表,见表8-5。表8-54种镇痛方法的效果比较镇痛方法有效例数无效例数合计颈麻4159100注药946100置栓8911100对照2773100合计251149400H0:4种镇痛方法的效果相同H1:4种镇痛方法的效果不全相同a=0.05A2æ222öc2=n(å-1)=400´ç41+59+...+73-1÷=146.175,nnçè251´100149´100149´100÷ørcn=(4-1)(2-1)=3查表得P<0.05,按a=0.05水准拒绝H,接受H,即4种镇痛方法的效果不全相同。0169\n四、习题(十一)单项选择题1.关于样本率p的分布正确的说法是:A.服从正态分布2B.服从c分布C.当n足够大,且p和1-p均不太小,p的抽样分布逼近正态分布D.服从t分布2.以下说法正确的是:A.两样本率比较可用u检验B.两样本率比较可用t检验2C.两样本率比较时,有u=c22D.两样本率比较时,有t=c3.率的标准误的计算公式是:p(1-p)pp(1-p)A.p(1-p)B.C.D.nn-1n24.以下关于c检验的自由度的说法,正确的是:A.拟合优度检验时,n=n-2(n为观察频数的个数)B.对一个3´4表进行检验时,n=11C.对四格表检验时,n=422D.若c0.05,n>c0.05,h,则n>h5.用两种方法检查某疾病患者120名,甲法检出率为60%,乙法检出率为50%,甲、乙法一致的检出率为35%,问两种方法何者为优?A.不能确定B.甲、乙法一样C.甲法优于乙法D.乙法优于甲法6.已知男性的钩虫感染率高于女性。今欲比较甲乙两乡居民的钩虫感染率,适当的方法是:2A.分性别比较B.两个率比较的c检验C.不具可比性,不能比较D.对性别进行标准化后再做比较7.以下说法正确的是2A.两个样本率的比较可用u检验也可用c检验2B.两个样本均数的比较可用u检验也可用c检验2C.对于多个率或构成比的比较,u检验可以替代c检验2D.对于两个样本率的比较,c检验比u检验可靠(十二)名词解释1.实际频数与理论频数22.c界值表3.拟合优度4.配对四格表5.双向有序分类资料6.率的标准误7.多个率的两两比较8.Fisher精确概率70\n9.McNemar检验10.Yates校正(十三)是非题22四个样本率做比较,c>c0.05(3),可认为各总体率均不相等。(十四)计算题1.121名前列腺癌患者中,82名接受电切术治疗,术后有合并症者11人;39名接受开放手术治疗,术后有合并症1人。试分析两种手术的合并症发生率有无差异?2.某厂在冠心病普查中研究冠心病与眼底动脉硬化的关系,资料见表8-6。问两者是否存在一定的关系?表8-6冠心病诊断结果与眼底动脉硬化级别的关系眼底动脉硬化级别冠心病诊断结果合计正常可疑冠心病0340116357I7313692II971818133III3216合计51344315883.表8-7是用两种方法检查已确诊的乳腺癌患者120名的检查结果,问:两种方法何者为优?表8-7两种方法检查结果比较甲法乙法合计+-+421860-303060合计72481204.用噬菌体治疗小儿细菌性痢疾结果见表8-8,问两组阴转率有无显著差异?表8-8两种方法检查结果比较组别观察人数粪见检阴性人数阴转率(%)试验组292586.2对照组281760.7合计574273.75.某医院用冠心2号方治疗心绞痛患者,经三个月疗程后,疗效见表8-9,问三个疗程组的有效率之间有无显著差异?表8-9冠心2号方治疗心绞痛的有效率疗程例数有效例数有效率(%)一疗程1108274.5二疗程15013086.7三疗程635688.9合计32326883.071\n6.某医院比较急性黄疸型肝炎与正常人在超声波波型上的表现,见表8-10。问两组肝波型的差异有无显著性?表8-10急性黄疸型肝炎与正常人的超声波波形组别波型合计正常可疑较密黄疸型肝炎组1243232287正常人组2773911327合计289822436147.有人研究惯用手与惯用眼之间是否存在一定关系,得资料如表8-11,试作统计分析。表8-11冠心2号方治疗心绞痛的有效率惯用左眼两眼并用惯用右眼合计惯用左手346228124两手并用27282075惯用右手5710552214合计1181951004138.苏格兰西南部两个地区献血人员的血型记录如下表(表8-12),问两地的血型分布是否相同?表8-12两个地区献血人员的血型分布地区血型合计ABOABEskdale336565100Annandale5414525125合计872010810225五、习题答题要点(一)单项选择题1.C2.A3.D4.D5.A6.D7.A(二)名词解释1.实际频数:actualfrequency,即实际观察值。理论频数:theoreticalfrequency,在假设多个率或构成比相等的前提下,由合计率(构成比)推算出来的频数。22222.c界值表:将c分布右侧尾部面积等于a时所对应的c值称为c分布的临界值,2对于不同的自由度及a有不同的临界值,由这些临界值构成的表即c界值表。3.拟合优度:goodnessoffit,指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。4.配对四格表:为了控制随机误差而采用配对设计方案,将条件相似的两个受试对象配成一对,然后随机地让其中一个接受A处理,另一个接受B处理,每种处理的反应都按二项分类。全部n对实验结果的资料以表8-12表示,这样的表称为配对四格表。72\n表8-12配对四格表的形式B处理A处理+-+ab-cd5.双向有序分类资料:对于R´C表资料,当两个定性变量都有序时,这样的资料称为双向有序分类资料,如“急性放射病分度与放射烧伤面积占不同体表面积的百分比”,这里的两个变量均为有序的。6.率的标准误:用以衡量由于抽样引起的样本率与总体率之间的误差的统计量,记为p(1-p)s。s=,p为总体率,n为样本容量;当总体率p未知时,以样本率P作为pPpnp(1-p)的估计值,率的标准误为Sp=。n7.多个率的两两比较:指当假设检验确定了多个率之间存在差别后,检验哪两个两个样本率之间的差别具有统计学意义的方法。8.Fisher精确概率:指当四格表中出现理论数小于1或n<40时,用R.A.Fisher(1934)提出的方法直接计算出的有利于拒绝H0的概率。9.McNemar检验:McNemar’stestforcorrelatedproportions,是分析配对四格表资料的方2(b-c-1)法,其计算公式为2c=,v=1。b+c210.Yates校正:英国统计学家YatesF认为,由于c分布理论上是一连续性分布,而分类2资料是间断性的,由此计算出的c值不连续,尤其是自由度为1的四格表,求出的概率P值2可能偏小,此时需对c值作连续性校正(correctionofcontinuity),这一校正即所谓的Yates校正(Yates’correction)。(三)是非题错。多个样本率做比较时,H1为各总体率不全相等,所以当接受H1时,并不能说明各总体率均不相等。(四)计算题:1.将资料整理成四格表手术方法合并症+-电切术117182开放手术13839121091212用四格表校正公式算得c=2.37,P>0.05,尚不能认为两种手术的合并症发生率有差异。22.该资料属双向有序分类资料,用c检验解决。H0:冠心病诊断结果与眼底动脉硬化级别无关联H1:冠心病诊断结果与眼底动脉硬化级别有关联a=0.05222c=61.59,c0.05,,按a=0.05水准不拒绝H0,尚不能认为惯用手与惯用眼之间存在关系。228.本例只有一个格子的理论频数小于5,故仍可用c检验。c=5.710,v=3,P>0.05,,按a=0.05水准不拒绝H0,尚不能认为两地的血型分布不同。(徐勇勇马跃渊)74\n第九章秩和检验一、教学大纲要求(一)掌握内容1.非参数统计基本概念和特点。2.配对设计差值的符号秩检验。3.成组设计资料两样本比较的秩和检验。(二)熟悉内容1.成组设计多样本比较的秩和检验步骤。2.随机区组设计资料的秩和检验。(三)了解内容1.成组设计多样本两两比较的秩和检验。2.随机区组设计资料两两比较的秩和检验。二、教学内容精要(一)参数统计与非参数统计1.参数统计样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。2.非参数统计样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametricstatistics),或称为不拘分布(distribution-freestatistics)的统计分析方法,又称为无分布型式假定(assumptionfreestatistics)的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。(二)非参数统计的特点和适用范围1.特点(1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。(2)收集资料方便,可用“等级”或“符号”来评定观察结果。(3)多数非参数方法比较简便,易于理解和掌握。(4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。2.适用范围(1)等级资料。(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。75\n(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。(三)配对设计差值的符号秩检验(Wilcoxon配对法)1.检验步骤(1)假设:H0:差值总体中位数Md=0H1:Md≠0a=0.05(2)求差值(3)编秩:依差值的绝对值从小到大编秩。编秩时遇差数等于0,舍去不计,同时样本例数减1;遇绝对值相等差数,符号相同顺次编秩,符号相反取平均秩次,且符号相反。(4)求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值以T-表示。T+及T-之和应等于n(n+1)/2,任取T+(或T-)作检验统计量T。(5)确定P值和作出推断结论:当n≤50时,查T界值表,得出P值。若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上若范围外,其P值小于表上方相应概率水平。2.正态近似法若n>50时,可用u检验,按如下公式计算u值:|T-n(n+1)/4|-0.5u=(9-1)n(n+1)(2n+1)/24当相同差值数多时,应改用校正式:|T-n(n+1)/4|-0.5u=(9-2)3n(n+1)(2n+1)å(tj-tj)-2448(四)成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)1.检验步骤:(1)假设:H0:两总体分布相同H1:两总体分布不同a=0.05(2)编秩:将两组原始数据分别由小到大排队,再将原始数据从小到大统一编秩。编秩时遇同组相同数据,顺次编秩,遇不同组相同数据取平均秩次。(3)求秩和并确定检验统计量:当两样本例数不等时,以样本例数小者为n1,其秩和为T。相等时,可任取一组的秩和为T。(4)确定P值和作出推断结论:查T界值表,得出P值。若检验统计量T值在上、下界76\n值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上若范围外,其P值小于表上方相应概率水平。2.正态近似法若n1或n2-n1较大时,可用u检验,按如下公式计算u值:|T-n(N+1)/2|-0.51u=(9-3)n1n2(N+1)/12当相同差值数多时,应改用校正式:u=u(9-4)cC33其中:C=1-å(tj-tj)(N-N)tj为第j个相同秩次的个数。(五)成组设计多个样本比较的秩和检验(Kruskal-Wallis法)检验步骤:1.假设:H0:各总体分布相同H1:各总体分布不同a=0.052.编秩:将两组原始数据分别由小到大排队,再将原始数据从小到大统一编秩。编秩时遇同组相同数据,顺次编秩,遇不同组相同数据取平均秩次。3.求秩和并确定检验统计量:将各组秩次相加。4.计算检验统计量H值:212RiH=(å)-3(N+1)(9-5)N(N+1)ni若各样本相同秩次较多时,应用校正公式Hc:H=H/C(9-6)c33其中:C=1-å(tj-tj)(N-N)tj为第j个相同秩次的个数。5.确定P值和作出推断结论:查H界值表,得出P值。若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上若范围外,其P值小于表上方相应概率水平。(六)多个样本两两比较的秩和检验(Nemenyi法)检验步骤:1.假设:H0:各总体分布相同H1:任意两总体的位置不同a=0.052.求秩和的差值:计算各组中所有可能两两对比组秩和差数的绝对值D=|RA-RB|3.确定P值和作出推断结论:(1)当各样本例数相等时,查D界值表或计算界值,得出P值。(2)当各样本例数不等或不全等时,将各对比组平均秩次之差与界值比较,界值计77\n算公式如下:2|RA-RB|c=(9-7)C[N(N+1)/12][1nA+1nB]332其中:相同秩次校正数C=1-å(tj-tj)(N-N)tj为第j个相同秩次的个数;ca,(k-1)2查χ界值表;N为各处理组的总例数。(七)随机区组设计资料的秩和检验1.查表法检验步骤:(1)将每个区组的数据由小到大分别编秩,遇相同数值取平均秩;(2)计算各处理组的秩和Ri;(3)求平均秩:R=b(k+1)/2式中,b:区组数k:处理组数;(4)计算各处理组的(Ri-R);2(5)求M=∑(Ri-R)(6)查M界值表,M大于或等于表中数值则差别有统计意义。2.Friedman检验检验步骤:(1)将各区组内数据由小到大分别编秩,遇相同数值取平均秩次(2)计算各处理组的秩和Ri;若各区组内无相同秩次,可用:k2122c=åRj-3b(k+1)(9-8)bk(k+1)j=12(3)查ca,(k-1)界值,确定P值,作出推断。(八)随机区组设计资料的两两比较检验步骤:(1)计算各处理组的秩和Ri;(2)计算各对比组秩和的差:R-RAB|R-R|ABu=(9-9)bk(k+1)/6查u界值,确定P值,若共进行c次比较,则用α/c作检验水平,作出推断。78\n三、典型试题分析(一)单项选择题1.以下对非参数检验的描述哪一项是错误的是()。A.非参数检验方法不依赖于总体的分布类型B.应用非参数检验时不考虑被研究对象的分布类型C.非参数的检验效能低于参数检验D.一般情况下非参数检验犯第二类错误的概率小于参数检验答案:D[评析]本题考点:非参数检验的特点。非参数检验优点是应用范围广、简便、易掌握、不依赖于总体分布;缺点是若资料符合参数检验条件而用非参数检验,则检验效率低于参数检验。2.多样本计量资料比较,当分布类型不清时选择()。A.t检验B.u检验2C.秩和检验D.?检验答案:C[评析]本题考点:非参数检验的适用范围。分布类型不明时,差别检验应首先考虑非参数统计方法。3.符合t检验条件的数值变量资料如果采用秩和检验,不拒绝H0时()。A.第一类错误增大B.第二类错误增大C.第一类错误减少D.第二类错误减少答案:B[评析]本题考点:非参数检验与非参数检验的区别。当资料符合参数检验条件时,非参数检验检验效能要比参数检验低,发现总体差异的能力不如参数检验高,容易把一些本来有差别的总体检验成同一总体。4.按等级分组的资料作秩和检验时,如果用H值而不用校正后的Hc值,则会()。A.提高检验的灵敏度B.会把一些无差别的总体推断成有差别C.会把一些有差别的总体推断成无差别D.第一、二类错误概率不变答案:C79\n[评析]本题考点:Kruskal-wallis秩和检验校正公式的应用。当各样本相同秩次较多时,应用校正公式Hc:33H=H/C其中:C=1-(t-t)(N-N)cåjjtj为第j个相同秩次的个数。由于C<1,因此HC>H,所求得相应概率P要大一些,那么就会把一些有差别的总体推断成无差别。(二)简答题“对某资料进行统计分析时,应尽量采用参数检验方法,一般不易采用非参数检验方法”,试评价这种说法正确否?答案:应根据设计的方案、资料性质和分析过程中所遇到的实际情况等来确定采用何种统计检验方法。当资料满足参数检验方法时,必须使用参数检验方法。反之,当资料不满足参数检验方法时,如资料分布不明、呈偏态分布、方差不齐、等级资料时,必须采用非参数检验方法。在实际工作中,许多资料不满足参数检验的条件,非参数检验并不比参数检验应用的场合少。所以,以上说法不正确。四、习题(二)名词解释1.非参数统计2.参数统计3.秩次4.秩和(二)单项选择题1.以下检验方法之中,不属于非参数检验法的是()。A.t检验B.符号检验C.Kruskal-Wallis检验D.Wilcoxon检验2.以下对非参数检验的描述哪一项是错误的()。A.参数检验方法不依赖于总体的分布类型B.应用非参数检验时不考虑被研究对象的分布类型C.非参数的检验效能低于参数检验D.一般情况下非参数检验犯第二类错误的概率小于参数检验3.符合方差分析检验条件的成组设计资料如果采用秩和检验,则()。A.一类错误增大B.第二类错误增大C.第一类错误减小D.第二类错误减小4.等级资料的比较宜用()。A.t检验B.秩和检验2C.F检验D.四格表X检验5.在进行成组设计两样本秩和检验时,以下检验假设正确的是()。A.H0:两样本对应的总体均数相同B.H0:两样本均数相同80\nC.H0:两样本对应的总体分布相同D.H0:两样本的中位数相同6.在进行Wilcoxon配对法秩和检验时,以下检验假设正确的是()。A.H0:两样本对应的总体均数相同B.H0:两样本的中位数相同C.H0:两样本对应的总体分布相同D.以上都不正确7.两个小样本比较的假设检验,应首先考虑()。A.t检验B.秩和检验C.任选一种检验方法D.资料符合哪种检验的条件8.对于配对比较的秩和检验,其检验假设为()。A.样本的差数应来自均数为0的正态总体B.样本的差数应来自均数为0的非正态总体C.样本的差数来自中位数为0的总体D.样本的差数来自方差齐性和正态分布的总体9.在配对比较的差数秩和检验中,如果有两个差数为0,则()。A.对正秩和有0.5和1,对负秩和有-0.5和-1B.对正秩和有2,对负秩和有-2C.对正秩和有3,对负秩和有-3D.不予考虑10.在成组资料的秩和检验中,设样本为n个秩号:1,2,...,n,如果有相同秩号,比如:i和i+1变成两个i+0.5,则对样本所有秩号的均数和标准差的影响有()。A.均数不变,标准差不变B.均数不变,标准差加大C.均数加大,标准差减小D.均数不变,标准差减小11.若随机化成组设计资料来自于正态总体,分别采用秩和检验与t检验、u检验,则它们检验效率关系正确的是()。A.t检验>u检验>秩和检验B.u检验>秩和检验>t检验C.t检验>秩和检验>u检验D.t检验,u检验>秩和检验12.配对比较的秩和检验的基本思想是:如果检验假设成立,则对样本来说()。A.正秩和的绝对值小于负秩和的绝对值B.正秩和的绝对值大于负秩和的绝对值C.正秩和的绝对值与负秩和的绝对值不会相差很大D.正秩和的绝对值与负秩和的绝对值相等13.按等级分组资料的秩和检验中,各等级平均秩次为()。A.该等级的秩次范围的上界B.该等级的秩次范围的下界C.该等级的秩次范围的上界、下界的均数D.该等级的秩次范围的上界、下界的之和14.成组设计多组资料比较的秩和检验,确定P值时,可利用查表法的情况正确的是()。81\nA.组数<3,每组例数<5B.组数<3,每组例数≤5C.组数≤3,每组例数<5D.组数≤3,每组例数≤515.配对设计资料的秩和检验,确定P值时,可利用查表法的样本例数n的范围为()。A.50≥n≥5B.30≥n≥5C.30≥n≥3D.50≥n≥316.成组设计两样本资料的秩和检验,样本例数分别为n1、n2,按检验水准为0.05(双侧),可利用查表法确定显著性水平的情况正确的是()。A.n1=4,n2=4B.n1=2,n2=4C.n1=9,n2=20D.n1=11,n2=1117.非参数统计应用条件是()。A.总体是正态分布B.若两组比较,要求两组的总体方差相等C.不依赖于总体分布D.要求样本例数很大18.下述哪些不是非参数统计的特点()。A.不受总体分布的限定B.多数非参数统计方法简单,易于掌握C.适用于等级资料D.检验效能总是低于参数检验19.设配对设计资料的变量值为X1和X2,则配对资料的秩和检验()。A.把X1与X2的差数绝对值从小到大编秩B.把X1和X2综合从小到大编秩C.把X1和X2综合按绝对值从小到大编秩D.把X1与X2的差数从小到大编秩20.秩和检验和t检验相比,其优点是()。A.计算简便,不受分布限制B.公式更为合理C.检验效能高D.抽样误差小21.配对设计差值的符号秩检验,对差值编秩时,遇有差值绝对值相等时()。A.符号相同,则取平均秩次B.符号相同,仍按顺序编秩C.符号不同,仍按顺序编秩D.不考虑符号,按顺序编秩22.配对设计的秩和检验中,其H0假设为()。A.差值的总体均数为0B.差值的总体中位数为0C.µd?0D.Md?023.一组n1和一组n2(n2>n1)的两个样本资料比较,用秩和检验,有()。A.n1个秩次1,2,...,n1B.n2个秩次1,2,...,n2C.n1+n2个秩次1,2,...,n1+n2D.n1-n2个秩次1,2,...,n1-n224.成组设计两样本比较的秩和检验中,描述不正确的是()。A.将两组数据统一由小到大编秩B.遇有相同数据,若在同一组,按顺序编秩C.遇有相同数据,若不在同一组,按顺序编秩82\nD.遇有相同数据,若不在同一组,取其平均秩次25.成组设计的两小样本均数比较的假设检验()。A.t检验B.成组设计两样本比较的秩和检验C.t检验或成组设计两样本比较的秩和检验D.资料符合t检验条件还是成组设计两样本比较的秩和检验条件26.对两样本均数作比较时,已知n1、n2均小于30,总体方差不齐且分布呈偏态,宜用()。A.t检验B.u检验C.秩和检验D.F检验27.等级资料两样本比较的秩和检验中,如相同秩次过多,应计算校正uc值,校正的结果使()。A.u值增加,P值减小B.u值增加,P值增加C.u值减小,P值增加D.u值减小,P值减小28.符号秩检验(Wilcoxon配对法)中,秩和T和P值的关系描述正确的是()。A.T落在界值范围内,则P值大于相应概率B.T落在界值范围上界外,则P值大于相应概率C.T落在界值范围下界外,则P值大于相应概率D.T落在界值范围上,则P值大于相应概率29.配对设计资料的符号秩检验中,如相同秩次过多,未计算校正uc值,而计算u值,不拒绝H0时()。A.第一类错误增加B.第一类错误减少C.第二类错误增加D.第二类错误减小(三)是非题1.统计资料符合参数检验应用条件,但数据量很大,可以采用非参数方法进行初步分析。2.对同一资料和同一研究目的,应用参数检验方法,所得出的结论更为可靠。23.等级资料差别的假设检验只能采用秩和检验,而不能采用列联表?检验等检验方法。4.非参数统计方法是用于检验总体中位数、极差等总体参数的方法。(四)计算题1.下表资料是8名健康成年男子服用肠溶醋酸棉酚片前后的精液检查结果,服用时间为1~3个月,问服药后精液中精子浓度有无下降?表9-1服药前后精子浓度(万/ml)编号12345678服药前6000220005900440060006500260005800服药后66056003700500063001200180022002.某营养实验室随机抽取24只小鼠随机分为两组,一组饲用未强化玉米,一组饲用已83\n强化玉米,观察玉米强化前后干物质可消化系数的差别有无显著意义。表9-2玉米干物质可消化系数已强化组未强化组可消化系数(%)秩次可消化系数秩次34.3<1038.115.842.818.245.921.948.223.451.724.652.426.152.827.254.529.354.830.755.334.465.434.7秩和T1=T2=3.配对设计的两组鼠肝中维生素A含量(IU/g)有无显著差异,用秩和检验和t检验分别作检验,试比较两法的检验结果并加以说明。表9-3不同饲料组鼠肝维生素A含量肝中维生素A含量差数大鼠配偶组正常饲料组维生素E缺乏组d1355024501100220002400-4003300018001200439503200750538003950-15063750270010507345025009508305017501300925002550-501036503750-1004.以下是测得的铅作业与非铅作业工人的血铅值(μmol/L),请问两组工人的血铅值有无差别?84\n表9-4两组工人血铅测定值(μmol/L)患者0.820.870.971.211.642.082.13健康人0.240.240.290.330.440.580.630.720.871.015.在研究人参镇静作用的实验中,曾有人以5%人参浸液对某批小白鼠20只作腹腔注射,而以等量蒸馏水对同批12只小白鼠作同样注射为对照,问能否说人参有显著的镇静作用?表9-5人参镇静作用的实验结果例数镇静等级人参组对照组-411±1...+21++1...+++12...五、习题答题要点(一)名词解释1.非参数统计:针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametricstatistics),或称为不拘分布(distribution-freestatistics)的统计分析方法,又称为无分布型式假定(assumptionfreestatistics)的统计分析方法。2.参数统计:通常要求样本来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数统计(parametricstatistics)3.秩次:变量值按照从小到大顺序所编的秩序号称为秩次(rank)。4.秩和:各组秩次的合计称为秩和(ranksum),是非参数检验的基本统计量。(二)单项选择题1.A2.D3.B4.B5.C6.D7.D8.C9.D10.D11.D12.C13.C14.D15.A16.A17.C18.D19.A20.A21.B22.B23.C24.C25.D26.C27.A28.A29.C(三)是非题1.正确。2.错误。应视资料的特性而定,若资料符合参数检验方法的条件,就运用参数检验方法;若符合非参数检验方法的条件,就运用非参数检验方法。3.错误。应根据研究目的和资料性质而定,例如当资料的实验分组变量有序,而指标85\n2分组变量无序时,可以采用列联表?检验。4.错误。非参数检验是检验总体分布,而非总体参数。(四)计算题1.答案:由于本资料数据离散程度相当大,分布不明,故宜用配对设计差值的符号秩检验(Wilcoxon配对法)。负秩和T-=4.5,正秩和T+=61.5,P<0.05。2.答案:由于本资料中存在截尾数据,故宜用成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)。第一组n1=12,秩和T1=220,第二组n2=12,秩和T2=80,P<0.01。3.答案:本资料应用配对设计差值的符号秩检验(Wilcoxon配对法)。负秩和T-=10,正秩和T+=45,P>0.05。若使用配对设计的t检验,则t=2.711,P<0.05。由此可见,按检验水准为0.05时,二者检验结果不一致,此时,应对样本作正态性检验,若样本所来自的总体服从正态分布,则t检验结果更可取,否则,秩和检验的结果更加可靠。在本例中,经检验样本所来自的总体服从正态分布,故可以说不同饲料组鼠肝维生素A含量不同。4.答案:由于本资料为成组设计,两组血铅方差不齐,故宜用成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)。第一组n1=7,秩和T1=93.5,第二组n2=10,秩和T2=59.5,0.010a>0表示直线与纵轴的交点在原点的b>0,表示直线从左下方走向右上方,即Y上方随X增大而增大系数<0a<0表示直线与纵轴的交点在原点的b<0,表示直线从左上方走向右下方,即Y下方随X增大而减小系数=0a=0表示回归直线通过原点b=0,表示直线与X轴平行,即Y不随X的变化而变化计算公式å(X-X)(Y-Y)lXYb==2a=Y-bXå(X-X)lXX87\n2.样本回归系数b的假设检验(1)方差分析;(2)t检验。3.直线回归方程的应用(1)描述两变量的依存关系;(2)用回归方程进行预测;(3)用回归方程进行统计控制;(4)用直线回归应注意的问题。(二)直线相关1.基本概念直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。2.计算公式å(X-X)(Y-Y)lXYr==22llå(X-X)(Y-Y)XXYY相关系数r没有单位,其值为-1≤r≤1。其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。r值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r的绝对值等于1为完全相关。3.样本相关系数r的假设检验(1)r界值表法;(2)t检验法。(三)直线回归与相关的区别与联系1.区别(1)资料要求:直线回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;直线相关要求两个变量X、Y服从双变量正态分布。这种资料若进行回归分析称为Ⅱ型回归。(2)应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。(3)意义:b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向。(4)计算:b=lxy/lxx;r=lxy/lxxlyy。(5)取值范围:—∞<b<+∞;-1≤r≤1。(6)单位:b有单位;r没有单位。2.联系88\n(1)方向一致:对一组数据若能同时计算b和r,它们的符号一致。(2)假设检验等价:对同一样本,r和b的假设检验得到的t值相等,即tb=tr。2l(3)用回归解释相关:决定系数2xy,回归平方和越接近总平方和,r==SSSS回总llxxyy2则r越接近1,说明引入相关的效果越好。(四)秩相关秩相关,又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:⒈不服从双变量正态分布而不宜作积差相关分析;⒉总体分布型未知;⒊用等级表示的原始数据。三、典型试题分析1.回归系数的假设检验()A.只能用r的检验代替B.只能用t检验C.只能用F检验D.三者均可答案:D[评析]本题考点:回归系数假设检验方法的理解。回归系数的假设检验常用的方法有:①方差分析;②t检验。对同一样本,r和b的假设检验等价,r和b的假设检验得到的t值相等,即tb=tr。故回归系数的假设检验用三者均可。2.已知r1=r2,那么()A.b1=b2B.tb1=tb2C.tr1=tr2D.两样本决定系数相等答案:D[评析]本题考点:直线相关系数与回归系数关系的理解。因为相关系数r和回归系数b的计算公式不同,不能推导出b1=b2;r和b的假设检验2等价,即tr1=tb1,tr2=tb2,而不是tb1=tb2,tr1=tr2;样本决定系数为r,已知r1=r2,则两样本22决定系数相等,即r1=r2。3.|r|>r0.05(n-2)时,可认为两变量X与Y间()A.有一定关系B.有正相关关系C.一定有直线关系D.有直线关系答案:D[评析]本题考点:直线相关系数假设检验的理解。因为直线相关系数r是样本的相关系数,它是相应总体相关系数ρ的估计值。由于抽样误差的影响,必须进行显著性检验。r的假设检验是检验两变量是否有直线相关关系。|r|>r0.05(n-2)时,P<0.05,拒绝H0,接受H1,认为总体相关系数ρ≠0,因此可认为两变量X与Y间有直线关系。4.相关系数检验的无效假设H0是()A.ρ=0B.ρ≠089\nC.ρ>0D.ρ<0答案:A[评析]本题考点:直线相关系数显著性检验中检验假设的理解。因为r是样本相关系数,它是总体相关系数ρ的估计值。要判两变量间是否有相关关系,就要检验r是否来自总体相关系数ρ为零的总体。因为即使从ρ=0的总体作随机抽样,由于抽样误差的影响,所得r值也常不等于零。5.同一双变量资料,进行直线相关与回归分析,有()。A.r>0,b<0B.r>0,b>0C.r<0,b>0D.r与b的符号毫无关系答案:B[评析]本题考点:直线相关与回归的区别与联系的理解。因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b和r,它们的符号一致。因此,同一双变量资料,进行直线相关与回归分析,有r>0,b>0。四、习题(三)单项选择题19.下列()式可出现负值。222A.∑(X—X)B.∑Y—(∑Y)/n2C.∑(Y—Y)D.∑(X—X)(Y—Y)20.Y=14+4X是1~7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg,则此方程()。A.截距改变B.回归系数改变C.两者都改变D.两者都不改变21.已知r=1,则一定有()。A.b=1B.a=1C.SY.X=0D.SY.X=SY22.用最小二乘法确定直线回归方程的原则是各观察点()。A.距直线的纵向距离相等B.距直线的纵向距离的平方和最小C.与直线的垂直距离相等D.与直线的垂直距离的平方和最小23.直线回归分析中,X的影响被扣除后,Y方面的变异可用指标()表示。A.Sn=-å()X-µX2(2)B.Sn=-å()YY-$2(1)xy,r2Sn=-å()YY-$2(2)D.µC.yx,SSb=xyå(XX-)24.直线回归系数假设检验,其自由度为()。A.nB.n-190\nC.n-2D.2n-125.应变量Y的离均差平方和划分,可出现()。A.SS剩=SS回B.SS总=SS剩C.SS总=SS回D.以上均可26.下列计算SS剩的公式不正确的是()。A.l-lbB.l-blYYXYYYXXl-ll2D.2C.YYXYXX(1)-rlYY27.直线相关系数可用()计算。A.lllB.bllXYXXYYYXXXYYC.bbD.以上均可YXXY28.当r=0时,Yˆ=a+bX回归方程中有()。A.a必大于零B.a必等于XC.a必等于零D.a必等于Y(四)名词解释1.直线回归2.回归系数3.剩余平方和4.回归平方和5.直线相关6.零相关7.相关系数8.决定系数9.曲线直线化10.秩相关(五)是非题1.剩余平方和SS剩1=SS剩2,则r1必然等于r2。2.直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。3.两变量关系越密切r值越大。(四)简答题1.用什么方法考察回归直线图示是否正确?2.剩余标准差的意义和用途?3.某资料n=100,X与Y的相关系数为r=0.1,可否认为X与Y有较密切的相关关系?4.r与rs的应用条件有何不同?5.应用直线回归和相关分析时应注意哪些问题?6.举例说明如何用直线回归方程进行预测和控制?7.直线回归分析时怎样确定因变量与自变量?(五)计算题1.10名20岁男青年身高与前臂长的数据见表10-2。⑴计算相关系数并对ρ=0进行假设检验;⑵计算总体ρ的95%可信区间。表10-210名20岁男青年身高与前臂长身高170173160155173188178183180165(cm)前臂长45424441475047464943(cm)2.某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3。91\n⑴此资料有无可疑的异常点?⑵求直线回归方程并对回归系数作假设检验。⑶试估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。⑷求进食量为900g时,个体Y值的95%容许区间,并解释其意义。表10-3八只大白鼠的进食量和体重增加量鼠号12345678进食量(g)800780720867690787934750增量(g)1851581301801341671861333.某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下,试检验两者有无相关?表10-4八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度城市编号12345678肺癌标化死亡率(1/10万)5.6018.5016.2311.4013.808.1318.0012.103苯并(a)芘(μg/100m)0.051.171.050.100.750.500.651.204.就下表资料分析血小板和出血症的关系。表10-512例病人的血小板浓度和出血症的关系病例号123456789101112血小板数120130160310420540740106012601230144020009(10/L)出血症状+++++±-++----++-五、习题答题要点(十五)单项选择题1.D2.C3.C4.B5.C6.C7.D8.B9.D10.D(十六)名词解释1.直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。2.回归系数(regressioncoefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。23.剩余平方和(residualsumofsquares),SS剩即å(Y-Yˆ),它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。在散点图中,92\n2各实测点离回归直线越近,å(Y-Yˆ)也就越小,说明直线回归的估计误差越小。24.回归平方和(regressionsumofsquares),SS回即å(Yˆ-Y),它反映由于X与Y的直线关系而使Y的总变异所减小的部分,也就是在总平方和中可以用X解释的部分。回归平方和越大,说明回归效果越好。5.直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。6.零相关(zerrocorrelation)是指两变量间没有直线相关关系。29.相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。30.决定系数(coefficientofdetermination)即r的平方,222lXYlXYlXXSS回r===,说明当SS总固定不变时,回归平方和的大小决定了r平方的lXXlYYlYYSS总大小。回归平方和越接近总平方和,则r平方值越接近1。31.曲线直线化(rectification)是曲线拟合的重要手段之一。对于某些非线性的资料可以通过简单的变量变换使之直线化,用直线回归分析方法来分析。14.秩相关又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:⑴不服从双变量正态分布而不宜作积差相关分析;⑵总体分布型未知;⑶用等级表示的原始数据。(三)是非题1.错。两样本剩余平方和SS剩1=SS剩2,但两样本总平方和SS总及回归平方和SS回不一定相等,故两样本相关系数r1与r2不一定相等。2.正确。3.错。相关系数r有正负之分,其值为-1≤r≤1,在总体相关系数不为零,即两变量确有直线关系前提下,r绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。(四)简答题1.用以下三种方法判定:⑴直线必须通过点(X,Y)。⑵若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距a。⑶直线是否在自变量X的实测范围内。22.剩余标准差用sY.X表示:sY.X=SS剩(n-2)=å(Y-Yˆ)(n-2)其意义是指当X对Y的影响被扣除后,Y方面仍有变异。这部分变异与X无关,纯属抽样变批注:考虑b=0时,y估计异。故sY.X是用来反映Y的剩余变异的,即不考虑X以后Y本身的随机变异。剩余标准差可值是相等的,但此时仍然有用于:剩余平方和存在;y的估计⑴估计回归系数b的标准误,s=sl,进行回归系数的区间估计和假设检验。值不相等,讲的恰好是回归bY.XXX⑵估计总体中当X为某一定值时,估计值Yˆ的标准误。s=s1n+(X-X)2å(X-X)2平方和,因为此时估计值与YˆY.Xy的均数存在离差。并可计算Yˆ的可信区间,sY.X可作为预报精度的指标。⑶估计总体中当X为某一定值时,个体Y值的标准差。93\n22sYˆ=sY.X1n+(X-X)å(X-X),并计算个体Y值的容许区间。3.n=100,r=0.1时,对相关系数进行t检验,按检验水准α=0.05,拒绝H0(ρ=0),接22受H1(ρ≠0),认为两变量有相关关系,但决定系数r=0.1=0.01,表示回归平方和在总平方和中仅占1%,说明两变量间的相关关系实际意义不大。4.积差相关系数r用于描述双变量正态分布资料的相关关系。等级相关系数rs适用于下列资料:⑴不服从双变量正态分布而不宜作积差相关分析的资料;⑵总体分布型未知的资料;⑶原始资料是用等级表示的资料。5.注意以下五个问题⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。⑵在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。⑶直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避免外延。⑷双变量的小样本经t检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。6.用直线回归方程进行预测和控制的步骤⑴根据研究目的确定预报因子(X)和预报量(Y),由X估计Y值,收集资料。⑵建立预报方程Yˆ=a+bX,并进行回归系数假设检验。若P小于临界值,则回归方程成立。⑶根据回归方程在X实测范围内对Y进行预测,并计算X为某定值时,个体Y值波动范围(容许区间)。例如,1~7岁儿童,X为年龄,Y为体重,可根据年龄预测(估计)体重。统计控制是利用回归方程进行逆估计,如要求因变量Y值在一定范围内波动,可以通过控制自变量X的取值来实现。步骤同前。例如,针刺哑门穴,进针深度Y与颈围X间存在直线关系,可根据X取值达到控制Y的目的。7.Ⅰ型回归中,X为精密测量和严格控制的变量,Y为正态变量。Ⅱ型回归中,X、Y均为服从正态分布的随机变量,可计算两个回归方程。何者为X,何者为Y,根据研究目的确定。例如,测得某一人群的身高和体重两变量,若目的只是由身高估计体重,则确定X为身高,Y为体重。(五)计算题1.由原始数据及散点图的初步分析(图10-1),估计本资料有直线趋势。94\n514947)45cm(43前臂长41393735150160170180190身高(cm)图10-110名20岁男青年身高与前臂长散点图(1)计算相关系数2åX=1725,åX=298525,X=172.52åY=454,åY=20690,Y=45.4,åXY=785412()22lXX=åX-åXn=298525-172510=962.52()22lYY=åY-åYn=20690-45410=78.4lXY=åXY-(åX)(åY)n=78541-1725´45410=226lXY226r===0.8227lXXlYY962.5´78.4与ρ=0进行假设检验。H0:ρ=0,即身高与前臂长间无直线相关关系H1:ρ≠0,即身高与前臂长间有直线相关关系r-0r0.8227´10-2t====4.09s(1-r2)(n-2)1-0.82272rα=0.05n=n-2=10-2=8,查t界值表,得0.002P>0.05,按α=0.05水准,拒绝H0,接受H1,结论同上。本题F=16.147=4.018=t故可用直线回归方程Yˆ=a+bX=-47.326+0.261X来描述大白鼠的进食量与增加体重的关系。异常点即对应于残差(Y-Yˆ)绝对值特大的观测数据见表10-7。表10-7残差的计算序号XYYˆY-Yˆ1800185161.47423.5262780158156.2541.7463720130140.594-10.5944867180178.9611.0395690134132.7641.2366787167158.0818.9197934186196.448-10.4488750133148.424-15.424由散点图及残差分析,第一号点(X=800,Y=185)为可疑的异常点。⑵根据以上的计算结果,进一步求其总体回归系数的95%可信区间。绘制回归直线并图示回归系数的95%可信区间。97\n总体回归系数β的95%可信区间:(b-t0.05(n-2)Sb,b+t0.05(n-2)Sb)=(0.261-2.447×13.5107∕43366,0.261+2.447×13.5107∕43366)=(0.1022,0.4198)取X1=690,代入回归方程Yˆ=-47.326+0.261X,得Y1=132.76;X2=934,Y2=196.45。在图上确定(690,132.76)和(934,196.45)两个点,以直线连接即得回归直线的图形见图10-2。按回归系数的95%可信区间下限和上限分别代入a=Y-bX,得a=78.285,a=-12172.937。回归系数的95%可信区间上、下限对应的两条直线,即图10-2中两条回归直线,回归方程为:Yˆ=78.285+0.1022X,Yˆ=-172.937+0.4198X⑶估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。22sY=sY.X1n+(X-X)(X-X)2=13.527618+(900-791)43366=8.5446当X=900时,m的95%可信区间:Yˆ(Yˆ-t0.05(6)sYˆ,Yˆ+t0.05(6)sYˆ)=(187.574-2.447×8.5446,187.574+2.447×8.5446)=(166.67,208.48)即总体中,进食量为900g时,大白鼠的体重平均增加187.574g,其95%的可信区间为166.67~208.48g。其含义为:当进食量为900g时,相应的平均增重服从一个正态分布(此正态分布的样本均数估计值为187.574g),如果从此正态分布中重复抽样100次,这100个可信区间中理论上将有95个区间包含真正的总体均数(虽然这个总体均数真值是未知的)。⑷求进食量为900g时,个体Y值的95%容许区间,并解释其意义。22sY=sY.X1+1n+(X-X)(X-X)2=13.52761+18+(900-791)43366=16.0002当X=900时,Yˆ=-47.326+0.261X=187.574,个体Y值的95%容许区间:(Yˆ-t0.05(6)SY,Yˆ+t0.05(6)SY)=(187.574-2.447×16.0002,187.574+2.447×16.0002)=(148.42,226.73)即估计总体中,进食量为900g时,有95%的大白鼠增加体重在148.42~226.73g范围内。3.本题资料不服从双变量正态分布,宜计算等级相关系数。计算过程见表10-8表10-8八个城市的肺癌标化死亡率和大气中苯并(a)芘的相关分析肺癌标化死亡率(1/10万)苯并(a)芘2城市编号X等级Y等级dd⑴⑵⑶⑷⑸⑹=⑶-⑸⑺15.6010.05100218.5081.17711316.2361.05600411.4030.1021198\n513.8050.7550068.1320.503-11718.0070.65439812.1041.2084162∑d=28H0:ρs=0,即肺癌标化死亡率和大气中苯并(a)芘无相关关系H1:ρs≠0,即肺癌标化死亡率和大气中苯并(a)芘有相关关系α=0.05222由上计算表,rs=1-6∑d/[n(n-1)]=1-6×28/[8×(8-1)]=0.6667查rs界值表,得0.10>P>0.05,按α=0.05水准,不拒绝H0,尚不能认为肺癌标化死亡率和大气中的苯并(a)芘有相关关系。4.本题资料不服从双变量正态分布,宜计算等级相关系数。计算过程见表10-9。表10-9血小板数与出血症状的等级相关分析9血小板数(×10/L)出血症状2病例号X等级Y等级dd⑴⑵⑶⑷⑸⑹=⑶-⑸⑺11201++10.5-9.590.2521302+++12.5-10.0100.0031603±7.0-4.016.0043104-3.50.50.2554205+8.5-3.512.2565406+8.5-2.56.2577407-3.53.512.25810608-3.54.520.259126010-3.56.542.251012309-3.55.530.2511144011++10.50.50.2512200012-3.58.572.252∑d=402.5H0:ρs=0,即血小板数与出血症状无相关关系H1:ρs≠0,即血小板数与出血症状有相关关系α=0.05因出血症状Y中,相同秩次较多,需计算校正rs值rs¢。TX=03333TY=∑(t-t)/12=[(6-6)+(2-2)+(2-2)]/12=18.599\n[(3)]()2n-n6-TX+TY-ådr¢=s[(3)][(3)]n-n6-2Tn-n6-2TXY[(3)]()12-126-0+18.5-402.5=[(3)][(3)]12-126-012-126-2´18.5=-0.5095查rs界值表,得0.10>P>0.05,按α=0.05水准,不拒绝H0,尚不能认为血小板数与出血症状有相关关系。(王彤万毅)100\n第十一章多元线性回归与logistic回归一、教学大纲要求(一)掌握内容1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。4.logistic回归模型结构:模型结构、发病概率比数、比数比。5.logistic回归参数估计方法。6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。(二)熟悉内容常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。(三)了解内容标准化偏回归系数的解释意义。二、教学内容精要(一)多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiplelinearregression),简称多元回归(multipleregression)基本形式:Ybˆ=++bXbX+×××+bX01122kk式中Yˆ为各自变量取某定值条件下应变量均数的估计值,X1,X2,…,Xk为自变量,k为自变量个数,b为回归方程常数项,也称为截距,其意义同直线回归,b,b,…,b称为012k偏回归系数(partialregressioncoefficient),b表示在除X以外的自变量固定条件下,X每改jjj变一个单位后Y的平均改变量。(二)多元线性回归的分析步骤Yˆ是与一组自变量X1,X2,…,Xk相对应的变量Y的平均估计值。多元回归方程中的回归系数b,b,…,b可用最小二乘法求得,也就是求出能使估计12k22值Yˆ和实际观察值Y的残差平方和åei=å(Y-Yˆ)为最小值的一组回归系数b1,b2,…,bk值。根据以上要求,用数学方法可以得出求回归系数b1,b2,…,bk的下列正规方程组(normalequation):101\nìbl+bl+L+bl=l111212k1k1yïïb1l21+b2l22+L+bkl2k=l2yíïïîb1lk1+b2lk2+L+bklkk=lky式中(ååXXij)()lij=lji=-åå(XXXiij)()-Xj=-XXijn(åXi)(åY)liy=å(Xi-Xi)(Y-Y)=åXiY-n常数项b可用下式求出:0b=Y-bX-bX-L-bX01122kk(三)多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X,X,…,X是否与Y真有线性依存关系,也就是检验无效假设H12k0(bb=====bbL0),备选假设H为各b值不全等于0或全不等于0。123k1j检验时常用统计量FMS回归l回归kF==MS误差l误差(n-k-1)式中n为个体数,k为自变量的个数。式中l=bl+bl+L+bl回归11y22ykkyl=l-l误差总回归å()2l=Y-Y=lyy总(四)logistic回归模型结构设X,X,L,X为一组自变量,Y为应变量。当Y是阳性反应时,记为Y=1;当Y是12k阴性反应时,记为Y=0。用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1。Logistic回归模型为:b+bX+bX+L+bXe01122kkP=b+bX+bX+L+bX1+e01122kk同时可以写成:1Q=1+eb0+b1X1+b2X2+L+bkXk式中b0是常数项;bj(jk=1,2),,L是与研究因素Xj有关的参数,称为偏回归系数。事件发生的概率P与bx之间呈曲线关系,当bx在(-¥,¥)之间变化时,P或Q在(0,1)之间变化。若有n例观察对象,第i名观察对象在自变量X,X,L,X作用下的应变量为Y,阳性i1i2iki102\n反应记为Y=1,否则Y=0。相应地用P表示其发生阳性反应的概率;用Q表示其发生阴性反iiii应的概率,仍然有P+Q=1。P和Q的计算如下:iiiieb01122++bXibbXXi++LkikPi=b01122++bXiibbXX++Lkik1+e1Qi=b01122++bXiibbXX++Lkik1+e这样,第i个观察对象的发病概率比数(odds)为PQ,第l个观察对象的发病概率比数ii为PQ,而这两个观察对象的发病概率比数之比值便称为比数比OR(oddsratio)。对比数ll比取自然对数得到关系式:æPQöiilnçç÷÷=b1(Xi1-Xl1)+b2(Xi2-Xl2)+L+bk(Xik-Xlk)èPlQlø等式左边是比数比的自然对数,等式右边的(X-X)(j=1,2,L,k)是同一因素X的不同ijlji暴露水平X与X之差。b的流行病学意义是在其它自变量固定不变的情况下,自变量X的ijljjj暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固bj定不变的情况下,当自变量X的水平每增加一个测量单位时所引起的比数比为增加前的ej倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。(五)logistic回归参数估计由于logistic回归是一种概率模型,通常用最大似然估计法(maximumlikelihoodestimate)求解模型中参数b的估计值b(jk=1,2),,L。jjY为在X1,X2,L,Xk作用下的阳性事件(或疾病)发生的指示变量。其赋值为:ì1,第i个观察对象出现阳性反应Yi=íî0,第i个观察对象出现阴性反应第i个观察对象对似然函数的贡献量为:YY1-l=PQiiiii当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似然函数贡献量的乘积,即nnL=Õl=ÕPYiQ1-Yiiiii=1i=1式中∏为i从1到n的连乘积。依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求103\n解参数估计值b(j=1,2,L,k)。j(六)logistic回归筛选自变量在logistic回归中,筛选自变量的方法有似然比检验(likelihoodratiotest)、计分检验(scoretest)、Wald检验(Waldtest)三种。其中似然比检验较为常用,用Λ表示似然比检验统计量,计算公式为:(')'L=2lnLL=2(lnL-lnL)'式中ln为自然对数的符号,L为方程中包含m(mFModel33.367321.1224413.410.0001Error161.338930.08368CorrectedTotal194.70626ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-4.675531.32051-3.540.0027X110.060360.020822.900.0105X210.035080.015442.270.0372X310.050100.028881.730.1020[评析]本题考点:统计软件关于多元线性回归的分析方法及主要输出结果。根据SPSS或SAS的输出结果,可进行以下分析:1.检验H0:bbb123===0的方差分析表。F=13.413,P=0.0001,拒绝H0,肺活量至少与一个自变量存在线性关系。2.估计偏回归系数b1,b2,b3,给出多元线性回归方程µ2=0.715,R2Y=4.68+++0.06XXX0.040.05,Ra=0.662。1233.偏回归系数检验,见表11-2。表11-2偏回归系数估计值及其检验偏回归系数估计值SEtPb0-4.6751.321-3.540.00b10.0600.0212.900.01b20.0350.0152.270.04b30.0500.0291.730.10四、习题(十五)单项选择题32.可用来进行多元线性回归方程的配合适度检验是:2A.c检验B.F检验C.U检验D.Ridit检验33.在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数:A.不变B.增加相同的常数C.减少相同的常数D.增加但数值不定107\n34.在多元回归中,若对某个自变量的值都乘以一个相同的常数k,则:B.该偏回归系数不变C.该偏回归系数变为原来的1/k倍D.所有偏回归系数均发生改变E.该偏回归系数改变,但数值不定35.作多元回归分析时,若降低进入的F界值,则进入方程的变量一般会:A.增多B.减少C.不变D.可增多也可减少(二)名词解释1.多元线性回归2.偏回归系数3.复相关系数4.确定系数5.比数6.比数比(三)简答题logistic回归模型中,偏回归系数b的解释意义是什么?i(四)计算题某学者研究在某种营养缺乏状态下儿童的体重(Y,kg)与身高(X,cm)、年龄(X,12岁)的关系获得了12名观察对象的观测资料,计算得到如下基本数据:22åX1=1611,åX1=219631,åX2=106,åX2=976,åY=341,2åY=9883,åX1X2=14454,åX1Y=46439,åX2Y=3079。(1)请写出求解Yˆ=b+bX+bX二元线性回归方程的正规方程组。01122(2)设方程组的解为b=2.114,b=0.135,b=0.923,请写出回归方程。012(3)完成下列方差分析表。表11-312名儿童体重与身高、年龄回归分析方差分析表变异来源vSSMSF回归残差总和五、习题答案要点(一)单项选择题1.B2.A3.B4.A(二)名词解释1.用回归方程定量地刻画一个应变量Y与多个自变量X间的线性依存关系,称为多元线性回归(multiplelinearregression),简称多元回归(multipleregression)。2.多元线性回归的基本形式为:Ybˆ=++bXbX+×××+bXb,b,…,b称01122kk12k为偏回归系数(partialregressioncoefficient),bj表示在除Xj以外的自变量固定条件下,Xj每改变一个单位后Y的平均改变量。3.复相关系数R(coefficientofmultiplecorrelation),R的大小表示所有自变量与应变量之间线性关系的密切程度。108\n24.确定系数(coefficientofdetermination)简记为R,表示回归平方和SS回归占总离均22差平方和SS总的比例,即R=SS回归/SS总。用R可定量评价在y的总变异中,由x变量组建立的线性回归方程所能解释的比例。5.logistic回归模型为:eb0+b1X1+b2X2+L+bkXkP=b+bX+bX+L+bX1+e01122kk同时可以写成:1Q=1+eb0+b1X1+b2X2+L+bkXk第i个观察对象的发病概率比数(odds)为PQ,即同一暴露水平下,阳性概率与阴性ii概率之比值称为比数(odds)。6.logistic回归模型中,两个观察对象的发病概率比数之比值称为比数比OR(oddsratio)。其大小反映了不同暴露水平下,个体发病的相对危险程度。(三)简答题答:bj的流行病学意义是在其它自变量固定不变的情况下,自变量Xj的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况bj下,当自变量Xj的水平每增加一个测量单位时所引起的比数比为增加前的e倍。(四)计算题1.求解Yˆ=b+bX+bX二元线性回归方程的正规方程组为:01122ìïb1l11+b2l12=l1yíïîbl+bl=l1212222y2.当方程组的解为b=2.114,b=0.135,b=0.923,回归方程为:012Yˆ=2.114+0.135X1+0.923X23.列方差分析表。表11-412名儿童体重与身高、年龄回归分析方差分析表变异来源vSSMSF回归2151.3575.67516.380残差941.574.62总和11192.92(尹平白玉祥)109\n第十二章统计表与统计图一、教学大纲要求(一)掌握内容1.统计表(1)统计表的结构。(2)统计表的种类。(3)编制统计表的注意事项。2.统计图(1)统计图的结构。(2)统计图的种类。(3)统计图的编制要求。(二)熟悉内容常用统计图的绘制方法和注意事项。(三)了解内容半对数线图、箱式图、误差线图等的绘制方法和注意事项。二、教学内容精要(一)统计表与统计图的概念将统计资料及其指标以表格形式列出,称为统计表(statisticaltable)。狭义的统计表只表示统计指标。统计图(statisticalgraph)是将统计指标以点的位置、线段的升降、直条的长短或面积的大小等几何图形直观的表示事物间的数量关系。(二)统计表中应注意的几个问题1.列表的原则(1)重点突出,简单明了。(2)主次分明,层次清楚,符合逻辑。2.统计表的结构与编制要求统计表由标题、标目、线条和数字所构成。如下表所示:顶线表号标题横标目名称纵标目名称合计横标目数字合计底线110\n(1)标题位于表的上方,概括表的主要内容,一般需注明时间与地点。(2)标目有横、纵标目之分,分别说明横行和纵行数字的含义,应做到文字简明,层次清楚。(3)线条多采用三条半线,即顶线、底线、纵标目下的横隔线及合计上的半线。忌斜线和竖线。(4)数字表内数据一律采用阿拉伯数字。同一指标小数点位数要一致,位次要对齐。表内不应有空项,无数字用“—”表示,数字若为零则填“0”,暂缺项或未记录用“⋯”表示。(5)备注不为表的必备内容,如有必要,可在表内用“*”号标记,然后在表的下方加以说明。3.统计表的种类统计表可分为简单表(simpletable)和复合表(combinativetable)两种类型。简单表:只按单一特征或标志分组。复合表:按两个或两个以上主要标志分组,如年龄和性别结合起来分组。(三)统计图中应注意的几个问题1.统计图的结构统计图通常由标题、标目、刻度和图例四部分组成。如下所示:图例男160女150140目标1301201107891011121314151617标目标题刻度2.常用统计图的分类医学统计学中常用的统计图有:条图(bargraph)、线图(linegraph)、圆图(piegraph)、直方图(histogram)、散点图(scatterdiagram)和统计地图(statisticalmap)等。3.制图的基本要求(1)根据资料的性质和分析目的,选择合适的图形。(2)标题扼要说明图的主要内容,位于图的下方,必要时注明时间和地点。(3)建立在直角坐标系上的统计图,其纵轴尺度自下而上,横轴尺度从左到右,数字一律由小到大,某些图还要求纵轴尺度从0开始(如直条图、直方图)。纵横两轴一般应有标目,注明单位。111\n(4)图的长宽比例(圆图除外)一般以7:5或5:7为宜。(5)可用不同的线条或颜色表示不同的事物,但需用图例说明,一般放在图的右上角或图的下方。4.常用统计图的定义和制图要求,见表12-1。表12-1常用统计图的定义和制图要求名称定义制图要求条图用等宽直条的长短来表示相互独起点为0的等宽直条,条间距相等,按高立的各统计指标的数值大小低顺序排列。普通线图适用于连续性资料。用线段的升纵横两轴均为算术尺度,相邻两点应以折降来表示一事物随另一事物变化线相连。图内线条不宜超过3条。的趋势。半对数线图用线段的升降来表示一事物随另横轴为算术尺度,纵轴为对数尺度。余同一事物变化的速度。普通线图。圆图以圆面积表示事物的全部,用扇以圆面积为100%,将各构成比分别乘以形面积表示各部分的比重3.6度得圆心角度数后再绘扇形面积。通常以12点为始边依次绘图。直方图用矩形的面积来表示某个连续型常以横轴表示连续型变量的组段(要求等变量的频数分布距),纵轴表示频数或频率,其尺度从“0”开始,各直条间不留空隙。以点的密集程度和趋势表示两种绘制方法同线图,只是点与点之间不连接。散点图事物间的相关关系三、典型试题分析1.指出表12-2的缺陷并作改进。表12-2119例宫颈糜烂冷冻治疗结果(原表)轻度糜烂中度糜烂重度糜烂总计例数%例数%例数%例数%治愈3932.77119.2421.685243.70好转21.681915.971411.763529.41无效86.7275.881714.293226.89合计493733119112\n[评析]本题考点:对列表的原则和统计表的结构与编制要求的掌握。表12-2的主要目的在于考察冷冻治疗宫颈糜烂的近期疗效。存在的问题是:标题未突出“近期疗效”这一主要内容;主谓语安排不当且标目重复,如例数和%多处出现;总计意义不明确;线条过多,以致数据隔离,不便比较。改正后见表12-3。表12-3冷冻治疗宫颈糜烂患者的近期疗效(修改表)疗效疗效构成比(%)糜烂程度例数治愈好转无效治愈好转无效轻度49392879.64.116.3中度371119729.751.418.9重度33214176.142.451.5合计11952353243.729.426.9修改表12-3很容易看清楚冷冻治疗宫颈糜烂中治愈、好转、无效在各级糜烂程度中的例数和所占的百分比,同时也可以看出疗效因宫颈糜烂程度不同而异,轻度糜烂者疗效较好,中、重度次之。2.将下表资料绘成合适的图形。表12-4亚洲国家成人HIV感染情况国家成人感染率(%)柬埔寨2.40泰国2.23缅甸1.79印度0.82中国0.06[评析]本题考点:对各种统计图适用情况的掌握。分析表12-4的资料,得出此资料适合做单式条图,见图12-1。113\n3.根据表12-5的资料,作图并作简要分析。表12-5某市某年男女学生不同年龄的身高均数(cm)年龄组(岁)男女17~115.41115.5118~118.33117.5319~122.16121.6610~129.48125.9411~129.64131.7612~135.50138.2613~138.36141.1714~145.14147.2115~150.84150.0316~154.70153.0617~18161.90156.63[评析]本题考点:对统计图的做法与分析知识点的掌握。绘线图,见图12-2。男160女150)cm(140130身高均数1201107891011121314151617年龄(岁)图12-2某市某年男女学生不同年龄身高均数由表12-5和图12-2可见,随着年龄的增加,男女生身高均数均逐渐增高。在7~10岁间,男生身高均数略高于女生;而10~15岁间,男生身高均数略低于女生;15岁以上,男生身高均数又超过女生,表现出不同性别儿童生长发育曲线的两交叉现象。4.根据表12-6的资料,做合适的图形并作简述作图步骤。表12-6我国1998年性病传播途径分布情况传播途径病例数构成比(%)非婚姻性接触41330372.1配偶传播10306418.0其他传播571749.9114\n[评析]本题考点:圆图的应用。圆图是用圆的总面积表示事物的全部,用各个扇形的面积表示各个部分的比重,根据资料的性质,此题适用于作圆图。o(1)先计算各部分的角度根据公式圆心角(度)=各部分百分比×360。(2)绘制图形先画出圆形,再借助量角器画出各圆心角。以第一个圆心角从时钟9点或12点处开始,顺时针方向排列。如下图12-3。其他传播10%配偶传播18%非婚姻性接触72%图12-3我国1998年性病传播途径构成比5.将表12-7资料中两种疾病发病率的历年变动情况绘制成普通线图及半对数线图,并说明两种图形的不同意义。表12-7某地结核病和白喉的死亡率(‰)年份结核病死亡率白喉死亡率1949150.220.11950148.016.61951141.014.01952130.011.81953110.410.7195498.26.5195572.63.9195668.02.4195754.81.3[评析]本题考点:半对数线图的应用。半对数线图是线图的一种特殊形式,在事物数量间相差较大的情况下,通常普通线图难于表达或相互比较两种或两种以上事物的变化速度,此时可采用半对数图来表示。(1)普通线图:115\n图12-4某市1949-1957年15岁以下儿童结核、白喉死亡率由纵横两轴均为算术尺度的普通线图12-4可见,结核病和白喉死亡率1949-1957年均呈下降趋势,给人们的直观感觉是结核病的死亡率下降较快,而白喉死亡率下降较平缓。(2)半对数线图2.5结核2.0白喉1.51.0死亡率之对数值0.50.0194919501951195219531954195519561957年份图12-5某市1949-1957年15岁以下儿童结核、白喉死亡率由半对数线图可见,结核病的死亡率下降速度始终比较平缓,而白喉死亡率下降速度开始几年和结核病持平,1954年后下降速度明显加快。四、习题(一)名词解释1.统计表2.统计图(二)简答题1.统计表和统计图在表达资料中各有何特殊意义?2.统计表有哪些要素构成?制表的注意事项有哪些?116\n3.统计图有哪些要素构成?绘制统计图的注意事项有哪些?4.为什么半对数线图可以描述发展速度的变化?(三)列表、制图与分析题1.某医院对麦芽根糖浆治疗急慢性肝炎161例的疗效列表,试作改进。表12-8麦芽根糖浆治疗急慢性肝炎疗效观察效果有效小计近期痊愈好转无效总例数例%例%例%例%16110867.17043.53823.65332.92.某地1952年和1972年三种死因别死亡率下表,试将该资料绘制成统计图并作分析。表12-9某地1952年和1972年三种死因别死亡率(1/10万)死因1952年1972年肺结核165.227.4心脏病72.583.6恶性肿瘤57.2178.23.据下例统计资料试作统计图。表12-10某地居民两次粪便蠕虫卵检查结果第一次阳性率(%)第二次阳性率(%)蛔虫91.4386.39钩虫61.2231.36鞭虫17.1416.51表12-11某部队1997年各月传染病发病人数月份123456789101112合计传染病人数3471491417104581252249表12-12224例胸膜炎病人的年龄分布年龄(岁)各组人数占全部病人的百分比11~4.116~13.521~44.631~27.141~8.951~1.8合计100.0117\n4.某县防疫站1972年开始在城关镇建立“预防接种卡”,使计划免疫得到加强。为说明效果,1975年5月观察了482人的锡克试验反应,其中:幼儿园儿童101人,阳性21人;小学生145人,阳性22人;中学生236人,阳性15人。相比起来,1947年为:幼儿园儿童144人,阳性37人;小学生1417人,阳性323人;中学生359人,阳性41人。试用适当的统计表和统计图描述上述结果,并作简要分析。(四)是非题1.一个绘制合理的统计图可直观的反映事物间的正确数量关系。2.在一个统计表中,如果某处数字为“0”,就填“0”,如果数字暂缺则填“⋯”,如果该处没有数字,则不填。3.备注不是统计表的必要组成部分,不必设专栏,必要时,可在表的下方加以说明。4.散点图是描写原始观察值在各个对比组分布情况的图形,常用于例数不是很多的间断性分组资料的比较。5.百分条图表示事物各组成部分在总体中所占比重,以长条的全长为100%,按资料的原始顺序依次进行绘制,其他置于最后。五、习题答题要点(一)名词解释1.统计表:将统计资料及其指标以表格形式列出,称为统计表(statisticaltable)。狭义的统计表只表示统计指标。2.统计图:统计图(statisticalgraph)是将统计指标用几何图形表达,即以点的位置、线段的升降、直条的长短或面积的大小等形式直观的表示事物间的数量关系。(二)简答题1.统计表可以代替冗长的文字叙述,便于指标的计算、分析和对比,其制作合理与否,对统计分析质量有着重要的影响。统计图可用点的位置、线段的升降、直条的长短和面积的大小直观地反映分析事物间的数量关系。因统计如对数量表达较粗略,故最好附上相应的统计表。2.一般说来,统计表由标题、标目、线条、数字四部分构成(有时附有备注)。编制统计表的注意事项:(1)标题概括表的内容,写于表的上方,通常需注明时间与地点。(2)标目以横、纵标目分别说明主语与谓语,文字简明,层次清楚。(3)线条不宜过多,通常采用三条半线表示,即顶线、底线、纵标目下的横隔线及合计上的半条线。(4)表内一律采用阿拉伯数字。同一指标小数点位数要一致,数次要对齐。表内不留空格。(5)备注不要列于表内,如有必要,可在表内用“*”号标记,并在表外加以说明。3.统计图通常由标题、标目、刻度和图例四部分组成。绘制统计图的注意事项:(1)根据资料的性质和分析目的,选择合适的图形。118\n(2)标题应扼要的说明图的内容、地点、时间,位于图的下方,一般需注明时间、地点。(3)统计图有纵轴和横轴,两轴应有标目,标目应注明单位。纵轴尺度自下而上,横轴尺度从左到右。数字一律由小到大,某些图要求纵轴尺度从0开始(4)图的长宽比例(除圆图外)一般以7:5或5:7左右较美观。(5)比较不同事物时,可用不同的线条或颜色表示,但需用图例说明,一般放在图的右上角或图下方的适当位置。半对数线图是以横轴为算术尺度,纵轴为对数尺度绘制而成。它表明数量间比例的动态变化趋势,如速率比A/B,设X=A/B,利用对数运算法则,lgX=lgA–lgB,即将纵轴上尺度的倍比关系用对数值之差表示,所以它反映的是A,B两事物现象间相互对比发展速度的变化。(三)列表、制图与分析题1.对表12-8进行改进后,见表12-13。表12-13某医院麦芽根糖浆治疗急慢性肝炎疗效分析疗效例数疗效构成比(%)无效5332.92好转3823.60近期痊愈7043.48161100.00合计2.根据资料性质,将资料绘成复式条图,见图12-6。18019721501952)万12010/1(9060死亡率300肺结核心脏病恶性肿瘤图12-6某地两年三种死因别死亡率(1/10万)比较由图可见,1972年与1952年相比肺结核死亡率明显下降;心脏病死亡率两年相比轻微增高;恶性肿瘤死亡率急剧上升,提示不同时期死因别死亡率的变化情况,反映出不同时期疾病防治的重点。3.表12-10绘成直条图,见图12-7。表12-11绘成线图,见图12-8。表12-12将组段改为等距后(见表12-14),绘成直方图,见图12-9。119\n(2)根据资料特点,计算每年龄组的患者人数及每5岁患者人数(见表12-8),再绘制直方图。表12-14224例胸膜炎患者的年龄分布年龄(岁)患者人数每5岁患者人数11~9916~303021~1005031~6130.541~201051~6142合计224224120\n图12-9224例胸膜炎患者年龄分布4.根据题意,可列统计表12-15和统计图12-10。表12-15某县两年不同人群锡克试验反应结果分析1947年1975年调查人数阳性人数阳性率(%)调查人数阳性人数阳性率(%)幼儿园1443725.691012120.79小学生141732322.791452215.17中学生3594111.422361516.3619743019752520(%)15阳性率1050幼儿园小学生中学生图12-10某县两年不同人群锡克试验阳性率(%)不同人群锡克试验反应阳性率均以1974年较高。121\n(四)判断正误并简述理由:1.正确。2.错。在一个统计表中,如果某处数据为“0”,就填“0”,如果数据暂缺则填“⋯”,若该处无数据,则填“—”。3.正确。4.正确。5.错。百分条图表示事物各组成部分在总体中所占的比重,以长条的全长为100%,然后按各构成比由大到小或由小到大排列绘图。(颜艳杨鹏)122\n第十三章实验设计一、教学大纲要求(一)掌握内容1.实验设计的基本原则随机化原则、对照的原则(对照的类型,对照的设置)、重复的原则。2.实验设计的基本内容和步骤3.常用的实验设计方法(1)随机化分组方法;(2)完全随机分组设计;(3)配对设计;(4)配伍组设计及随机分组方法。4.确定样本含量确定样本含量应当具备的条件:α、1-β、δ、σp。(二)熟悉内容1.常用的估计样本含量的计算方法及估计该试验的检验效能的方法。(1)两样本均数比较。(2)配对试验。(3)样本均数与总体均数的比较。(4)两样本率的比较。(5)配对资料进行卡方检验时的样本含量估计。(6)抽样调查估计总体均数的样本含量。(7)抽样调查估计总体率的样本含量。2.一致性检验:Kappa值的意义及计算。(三)了解内容1实验设计的特点和分类。2.临床设计书的主要内容。3.Kappa值的抽样误差和假设检验。二、教学内容精要(一)实验设计的特点和分类实验研究(experimentalstudy)是指研究者根据研究目的(或研究假设),主动加以干预措施,并观察总结其结果,回答假设研究所提出的问题的一种研究方法。实验研究可根据研究对象的不同分为两类:以动物或标本为研究对象的实验研究(experiment)和以人为研究对象的临床试验(clinicaltrial)。(二)实验设计的基本原则1.随机化原则总体中的每一个观察单位都有同等的机会被选入实验组和对照组或进入样本,保证了非123\n处理因素在各组间均衡一致而使样本具有代表性。2.对照原则正确的设立对照可可控制实验过程中非实验因素的影响和偏倚,从而使处理因素的效应充分的显露出来。设立对照组的常见方法有:空白对照、安慰剂(placebo)对照、实验对照、标准对照及自身对照。3.重复的原则保证每一个处理都有足够的重复数(样本量),避免把偶然性或巧合的现象当作必然的规律性现象,并能正确的估计实验误差。(三)实验设计的基本内容和步骤1.建立研究假设在选题时应当考虑题目的科学性、新颖性、可行性以及所选课题是否是当前社会需要解决的主要问题。根据研究目的确定本研究需要解决的主要问题(primaryquestion)及相应的辅助问题(secondaryquestion)。2.明确研究范围审慎考虑规定适当的纳入标准(inclusioncriteria)和排除标准(exclusioncriteria),选择适宜本次实验的受试对象。3.确立处理因素分清处理因素和非处理因素,并注意处理因素的标准化。4.明确观察指标选用客观性较强,易于量化,灵敏性和特异性均较高的指标。5.控制误差和偏倚采取各种有效措施控制误差(error)和偏倚(bias),使处理措施的效果能够真正的体现出来,是实验设计的重要任务之一。(1)误差:泛指实测值与真值之差。随机误差:随机误差(randomerror)它是一类不恒定的、随机、变化的误差,是不可避免的,但随机误差服从正态分布,可以用医学统计学的方法进行分析和推断。系统误差:系统误差(systematicerror)是指实验过程中产生的一些误差,它们的值是恒定不变或者是遵循着一定的规律变化。这两种误差都是人为因素产生的,可控制的。(2)偏倚:属于系统误差,它是指在实验中由于某些非实验因素的干扰所形成的,歪曲了处理因素的真实效应。选择性偏倚:选择性偏倚(selectionbias)是由于纳入观察对象的方法不正确而产生的偏倚。它产生于实验研究的开始阶段,即研究对象的选择时产生。测量性偏倚:测量性偏倚(measurementbias)是在实验过程中对研究对象进行观察或测量而造成的偏倚。它产生于实验进行的过程中。在实验研究中,特别是在社区实验研究中,产生测量性偏倚的常见因素有:沾染(contamination)、干扰(intervention)、依从(compliance)和非依从(noncompliance)、失访(lostoffollow-up)、检查和诊断结果的不一致(disagreement)、观察记录的失误、心理因素的干扰。防止测量性偏倚的主要方法:盲法(blindmethod)、签订实验合同、检查实验对124\n象的依从情况、注意医德、注意医德、定期检查研究记录、对每一种实验方法、诊断标准,重复判断的一致性应在实验前作出估计。混杂性偏倚:混杂性偏倚(confoundingbias)由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,造成混杂性偏倚。它产生于总结分析阶段。可通过对资料进行分层分析或采取配比法控制混杂性偏倚。(四)常用的实验设计方法1.随机对照试验随机对照实验(randomizedcontroltrial)由于采取了随机化的分配原则,增强了各比较组间的可比性,避免了某些非实验因素的干扰,使实验因素能充分的显露出来,由于随机化,满足了统计学假设检验的要求,使检验结果更能反映它们之间存在的真实差异;设立对照组,更好的控制非实验因素对实验因素的影响,有效的控制了偏倚和误差,有利于反映所比较组间所存在的真实差异。随机双盲对照实验,是目前国际上认为值得提倡的实验设计方案,特别适用于临床治疗效果、疾病的预后和诊断实验的研究。2.配对设计配对设计(paireddesign)可增强处理组间的均衡性,提高实验效率。3.配伍组设计又称随机单位区组设计(randomizedblockdesign)是配对设计的扩大(处理数大于2)。(五)确定样本含量1.确定样本含量的意义确定适当的样本含量,可节约资源,并防止因为样本含量过少引起的检验效能偏低,出现了非真实的阴性结果,这是当前医学研究中值得注意的问题。2.确定样本含量时应当具备的条件建立检验假设;确立检验水准α;提出在特定检验水准的条件下,所期望的检验效能1-β;总体参数间的差值δ;估计的总体标准差σ及估计的总体率p。3.确定样本含量的用途保证科研设计有适当的样本含量,而且可考察当前的样本含量是否能够保证足够大的检验效能。4.常用的估计样本含量的方法(1)两样本均数比较()2é2ua+ubsùN=êú(13-1)ëdû注意:上式中N为两组合计的样本含量,α有单双侧之分,β只取单侧。dNub=-ua(13-2)2s上式是已知样本含量时(试验结束后),估计其检验效能是否足够大。方法是根据u查正态b分布表得b,得到检验效能1-b。(2)配对试验125\n()2éua+ubsdùN=êú(13-3)ëdûN为观察的对子数。估计检验效能:Nub=d-ua(13-4)sd(3)样本均数与总体均数的比较()2éua+ubsùN=êú(13-5)ëdûNu=d-u(13-6)bas(4)两样本率比较,当例数相等时()2u+u4p(1-p)abccN=(13-7)()2p1-p2Np1-p2ub=-ua(13-8)2pc(1-pc)式中p、p分别代表两组的总体率,p代表两组的合并率。N为两组合计之样本含量。12c2(5)配对分类资料多用c检验进行处理的资料的样本含量估计éu2p+u2pppùacb-++-cN=êú(13-9)êëp-+-p+-úûbcp+p+--+p=p=p=+--+ca+ba+c2Np-+-p+--ua2pcu=(13-10)b2p-+p+-pc(6)抽样调查估计总体均数的样本含量2æusöaN=ç÷(13-11)èdø(7)抽样调查估计总体率的样本含量2()uap1-pN=(13-12)2d5.一致性检验Kappa值是判断一致性和信度评价的常用的重要指标。P-PAeKappa=(13-13)1-PeKappa值愈大,一致程度愈好,一般来说,Kappa值≥0.75,说明已取得相当满意的一致程度,若小于0.4,说明一致程度不够理想。126\n三、典型试题分析(一)名词解释实验效应。答:实验效应(experimentaleffect)主要指处理因素作用于实验对象的反应,这种效应将通过实验中观察指标显示出来。(二)填空题实验研究与调查研究的区别在于。答:前者主动施加干预措施而后者不。[评析]实验研究是指研究者根据研究目的,主动加以干预措施,并观察总结其结果,回答研究假设所提出的问题。而调查研究旨在客观的描述总体,未加任何干预措施。(三)是非题1.实验效应选择特异性高的指标可减少假阳性率()。答:正确。[评析]实验效应选择特异性高的指标减少假阳性率,而敏感度高的指标减少假阴性率。2.随机对照实验中所谓随机化就由受试对象随便选择进入实验组或对照组()。答:错。[评析]随机不等于随便,所谓随机是指总体中的每一个观察单位都有同等的机会被选入样本或进入实验研究的各处理组中。(四)简答题在选取实验效应时应考虑那几方面的问题?答:应考虑选用客观性较强,易于量化,灵敏度高精确性较强的指标。(五)计算题1.为考虑某疫苗的疗效,拟进行一场实验,该传染病的发病率一般为10%,接种组降低发病率5%以上才有推广价值,问两组各需多少人?(a=0.05,检验效能90%)。答:由原题可知接种疫苗后只会降低发病率,a=0.05(单侧),u=1.64,b=0.10,0.05u=1.28,p=0.1,p=0.05,d=0.05,p=0.0750.1012c代公式:(uu+)4´-pp(1)(1.64+1.28)4´´´0.0750.925abccN===946人2()pp12-0.05两组共需946,即每组473人。2.新生儿的出生体重其均数为3200g,标准差为467g。欲研究妇女在怀孕期间服用某药物是否会影响新生儿体重,假设服用该药后出生的新生儿将比一般的新生儿平均增重220g,假设单侧检验,a=0.05。问:(1)如果取1-b=0.08,两组样本含量相等时需要多大的样本含量才能发现其差异?(2)如果1-b为0.90,取两组相等时,需要多大的样本含量?(3)如果每组各有120人进入研究,仍采用单侧检验a=0.05,检验效能为多大?127\n答:22éù2(mab+ms)éù2(1.64+0.84)467(1)代入公式N=êú=êú=111êúëûdëû220两组样本含量相等时,需要112例样本才能发现其差异。22éù2(mab+ms)éù2(1.64+1.28)467(2)代入公式N=êú=êú=154êúëûdëû220取两组相等时,需要154例样本。dN220240(3)代入公式u=-u=-1.64=2.00ba2s2´467解得:mb=2.00,查表得:b=0.02,power=1-0.02=0.98。3.欲研究小剂量阿司匹林预防男性冠心病的效果,拟进行为期5年的随机双盲试验。若40~64岁男服用安慰剂后,冠心病5年发病率为2.5%,同一年龄男性服用阿司匹林后冠心病5年发病率为2.0%,问:(1)取a=0.05,用双侧检验,要有80%的机会发现其差异,每组需要多少人进入研究?(2)如检验效能取0.90,其余的条件不变,各组又需多少人?(3)若单侧检验,检验效能仍为为0.80,各组又需多少人?(4)如每个组有5000人进入研究,a=0.05,双侧检验时期检验效能为多大?答:(1)a=0.05,ua=1.96,b=0.20,ub=0.84,p1=0.025,p2=0.02,pc=0.0225()2()2ua+ub4pc1-pc(1.96+0.84)4´0.0225´(1-0.0225)N===27588人()2()2p1-p20.025-0.02取a=0.05,用双侧检验,要有80%的机会发现其差异,每组需要13794进入研究。(2)a=0.05,ua=1.96,b=0.10,ub=1.28()2()2ua+ub4pc1-pc(1.96+1.28)4´0.0225´(1-0.0225)N===36942()2()2p1-p20.025-0.02如检验效能取0.90,其余的条件不变,每组需18471少人。(3)a=0.05,单侧u=1.64,b=0.20,u=0.84ab()2()2ua+ub4pc1-pc(1.64+0.84)4´0.0225´(1-0.0225)N===21644()2()2p1-p20.025-0.02若单侧检验,检验效能仍为0.80,各组需10821人。(4)a=0.05,双侧u=1.96aNp1-p2100000.025-0.02ub=-ua=-1.96=0.16862pc(1-pc)20.0225(1-0.0225)查表得b=0.4325,则双侧检验时其检验效能为1-0.4325=0.5675。4.根据既往观察,人群接种某预防制剂后,体温高于37.5℃的反应率为10%,今欲推广使用,拟再次证实真实反映率是否为10%,要求容许误差在真实反应率的20%以内,a=0.05,b=0.10,问按单纯随机抽样需观察多少人?答:取a=0.05(双侧),u=1.96,p=0.1,d=10%×20%=0.02,0.050128\n2ua21.96N=pp00(1-)()=0.1´(1-=0.1)2864人d0.02需观察864人。5.已知藏族中HbsAg阳性感染为14.78%,现欲抽样检查了解拉萨地区藏族人的HbsAg阳感染率,要求误差不超过1%,a=0.05,b=0.10,问需调查多少人?答:已知a=0.05(双侧),u=1.96,p=0.1478,d=0.01,代入公式可得:0.05022æöuaæö1.96N=pp00(1-)ç÷=0.1478(1-=0.1478)ç÷4838人èødèø0.01需调查4838人。四、习题(一)名词解释1.安慰剂对照2.随机化3.混杂因素4.系统误差5.偏倚6.实验研究7.沾染8.干扰9.失访10.随机对照试验(二)填空题1.实验设计的基本原则是,,。2.决定样本含量的条件有,,,。(三)选择题1.在下面各种实验设计中,在相同条件下最节约样本含量的是。()A.完全随机设计B.配对设计C.配伍组设计D.交叉设计2.为研究新药“胃灵丹”治疗胃病(胃炎,胃溃疡)疗效,在某医院选择50例胃炎和胃溃疡病人,随机分成实验组和对照组,实验组服用胃灵丹治疗,对照组用公认有效的“胃苏冲剂”。这种对照在实验设计中称为()。A.实验对照B.空白对照C.安慰剂对照D.标准对照3.某医师研究丹参预防冠心病的作用,实验组用丹参,对照组用无任何作用的糖丸,这属于()。A.实验对照B.空白对照C.安慰剂对照D.标准对照4.某医师研究七叶一枝花治疗胃溃疡疗效时,实验组服用七叶一枝花与淀粉的合剂,对照组仅服用淀粉,这属于()。A.实验对照B.空白对照C.安慰剂对照D.标准对照5.实验设计的三个基本要素是()。A.受试对象、实验效应、观察指标B.随机化、重复、设置对照C.齐同对比、均衡性、随机化D.处理因素、受试对象、实验效应6.实验设计的基本原则()。A.随机化、盲法、设置对照B.重复、随机化、配对C.随机化、盲法、配对D.随机化、重复、设置对照129\n7.实验设计和调查设计的根本区别是()。A.实验设计以动物为对象B.调查设计以人为对象C.实验设计可随机分组D.实验设计可人为设置处理因素8.在()中,研究者可以人为设置各种处理因素;而在()中则不能人为设置处理因素。A.调查研究B.社区干预试验C.临床试验D.实验研究(四)是非题1.用元参钩藤汤治疗80名高血压患者,服用半月后比服用前血压下降了2.8kPa,故认为该药有效()。2.在实验设计中,样本含量越大,越符合其重复原则,越能降低实验误差()。(五)简答题1.随机化的作用是什么?2.某医师欲观察保健品“海兰兰”纠正小学生贫血的效果,您认为应采用何种类型的研究?在进行研究设计时应考虑那些主要问题,请简述之。3.某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中的维生素A的含量有无差别。请问:(1)此实验属于那种实验设计()。A.完全随机设计B.配对设计C.配伍组设计D.拉丁方设计(2)此实验结果应使用那种统计方法进行分析()。A.配对资料t检验B.回归分析C.成组资料t检验D.成组设计方差分析(3)以下假设检验那种是正确的()。A.H两种饲料喂养的大白鼠总体的肝中维生素A含量不等0H两种饲料喂养的大白鼠总体的肝中维生素A含量相等1B.H两种饲料喂养的大白鼠总体的肝中维生素A含量不等0H两种饲料喂养的大白鼠总体的肝中维生素A含量相等1C.H两种饲料喂养的大白鼠总体的肝中维生素A含量不等0H两种饲料喂养的大白鼠总体的肝中维生素A含量不等1D.H0两种饲料喂养的大白鼠总体的肝中维生素A含量相等H两种饲料喂养的大白鼠总体的肝中维生素A含量不等1(4)结果如何解释()。A.P﹤0.05时,两组饲料喂养的大白鼠样本的肝中维生素A含量差别无意义B.P﹤0.05时,两组饲料喂养的大白鼠样本的肝中维生素A含量差别有意义C.P﹤0.05时,两组饲料喂养的大白鼠总体的的肝中维生素A含量差别无意义D.P﹤0.05时,两组饲料喂养的大白鼠总体的的肝中维生素A含量差别有意义(六)计算题130\n1.在进行有两种处理的动物冠状静脉窦的血流实验时,A处理使平均血流量增加1.8ml/min,B处理使平均血流量增加2.4ml/min。设两处理的标准差相等,均为1.0ml/min,α=0.05,β=0.10,若要得出两处理有差别的结论,成组设计时需要多少实验动物?2.据说某民族正常人平均体温高于37℃,为核实这一点,拟进行抽样调查。如果就总体而言平均高出0.1℃便不可忽略,已知正常人的体温标准差约为0.2℃,那么,为了将第I,II类错误的概率a和b均控制在0.05,试计算单纯随机抽样样本量应该是多大?3.某药厂在大量筛选降压药物时规定平均降压效果超过2kPa者才作为候选药物进入下一轮研究。现对某药作了10个动物的预试验,血压下降值的标准差为5kPa,问正式试验时样本量多大为宜?4.为了比较两类片剂的溶解速率,决定各随机抽取10片,测定5分钟溶解量,然后作a=0.05水平的检验。据预试验,两类片剂的变异性相同,标准差约为6个单位,均数之差也约为6个单位,问欲使检验效能达到95%,样本量应当多大?5.甲乙两医院的内科分别随机调查了30名住院病人,甲医院中对医疗服务表示满意者有20名,乙医院中表示满意者有23名。经统计检验,尚不能认为两医院内科住院病人的满意率不等。如欲考察两医院内科住院病人的满意率是否相差10%以上,至少应当各调查多少病人?6.按120名患者就诊顺序,完全随机将其分为A,B,C三组。试列出随机分组表。试验结束后统计,发现其中有56个重症患者,就诊序号分别为:1~9,15~24,70~89,100~116。问A,B,C三组重症患者比例是否均衡?五、习题答案要点(一)名词解释1.安慰剂对照(placebocontrol)指在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。2.随机化(randomization)指研究对象中或总体中每一个观察单位都有同等的机会被选入样本或实验研究的各处理组中。3.混杂因素(confoundingfactor)指实验研究中由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,这种非实验因素称为混杂因素。4.系统误差(systematicerror)指实验过程中产生的一些误差,它们的值是恒定不变或者是遵循着一定的规律变化。5.偏倚(bias)是指在实验中由于某些非实验因素的干扰所形成的系统误差,歪曲了处理因素的真实效应。6.实验研究(experimentalstudy)是指研究者根据研究目的(或研究假设),主动加以干预措施,并观察总结其结果,回答假设研究所提出的问题的一种研究方法。7.沾染(contamination)是指对照组的实验对象接受实验组的处理措施,提高了对照组的有效率,其结果是造成了实验组和对照组之间差异缩小的假象。8.干扰(intervention)是实验组从实验外接受了对实验因素有效的药物或措施(非处理措施),提高了实验组的有效率,其结果是扩大了实验组和对照组之间的差异。131\n9.失访(lostoffollow-up)指受试者在实验过程中由于各种原因退出实验称为失访。10.随机对照实验(randomizedcontroltrial)首先将受试对象随机分配到实验组和对照组,通过比较分析回答研究假设的问题。(二)填空题1.重复、对照、随机化。2.检验水准α、检验效能1-β、总体参数间的差值δ、估计的总体标准差σ。(三)单项选择题1.D2.D3.C4.A5.D6.D7.D8.BC,A(四)是非题1.错。没有设立对照不能说明问题。2.错。样本含量过大,实验过程不易控制,反而增加系统误差,且成经济损失,故样本含量适当时,效能最高,重复性原则并非指样本含量越大约好。(五)简答题1.随机化保证了各比较组间的均衡可比性,也是资料统计分析时进行统计推断的前提。2.宜采用配对设计,将实验对象按照年龄,性别,营养状况,贫血轻、中、重的程度配对,随机分配每对中两个对象接受不同的处理方式。实验组给予“海兰兰”对照组给予安慰剂,最好采用双盲法。3.(1)B(2)A(3)D(4)D(六)计算题1.本题δ=2.4-1.8=0.6ml/min,σ=1,双侧α=0.05,β=0.1。查表得u=1.96,0.05u=1.282,按两组均数t检验估计样本含量:0.01()22é2ua+ubsùé2(1.96+1.282)´1ùN=êú=êú=120只ëdûë0.6û共需120只,每组60只。2.由原题可知a=0.05(单侧),u=1.64,b=0.05,u=1.64,d0.050.0500=0.1C,s=0.2C,按样本均数与总体均数比较t检验估计样本含量:22éù()uu+séù(1.64+´1.64)0.2abN=êú==43êúëûdëû0.1可取43个人参加试验。3.由原题可取a=0.05(单侧),u=1.64,b=0.01,u=2.33,d=2kPa,s=0.050.015kPa,因为s未知,所以用S代替σ,按配对t检验估计样本含量:22éù()uu+séù(1.64+´2.33)5abN=êú==98êúëûdëû2可取98只动物。4.由原题可知a=0.05(双侧),u=1.96,b=1-0.95=0.05,u=1.64,d=6,s=0.050.056,按两组均数t检验估计样本含量:22éù2()uuab+séù2´+´(1.961.64)6N=êú==51êúëûdëû6总片数只需52片,每类26片。132\n2235.由原题可取a=0.05(双侧),u=1.96,b=0.10,u=1.28,p=,p=,0.050.101233043p=,代入公式得:c60243432(1.96+1.28)´4´´-(1)(uuab+-)4ppcc(1)6060N===852()2223pp12-()-2330每个医院各调查426人。6.用计算器给每个患者产生一个3位数的随机数,规定随机数区间,000~332分到A组,333~665分到B组,666~998分到C组。随机分组表见表13-1。表13-1120例患者随机分组结果患者随机分组患者随机分组患者随机分组患者随机分组编号数字结果编号数字结果编号数字结果编号数字结果1﹡628B31747C61647B91994C2﹡673C32791C62474B92507B3﹡833C33503B63685C93542B4﹡915C34568B64414B94309A5﹡776C35442B65878C95871C6﹡713C36002A66790C96375B7﹡366B37735C67201A97701C8﹡663B38598B68690C98141A9﹡830C39400B69703C99305A10842C40157A70﹡723C100﹡018A11123A41531B71﹡437B101﹡341B12318A42820C72﹡126A102﹡769C13168A43801C73﹡222A103﹡334B14461B44125A74﹡010A104﹡125A15﹡449B45503B75﹡109A105﹡292A16﹡658B46692C76﹡479B106﹡314A17﹡123A47112A77﹡648B107﹡957C18﹡532B48370B78﹡947C108﹡322A19﹡993C49443B79﹡875C109﹡842C20﹡661B50465B80﹡120A110﹡445B21﹡394B51911C81﹡236A111﹡412B22﹡571B52601B82﹡873C112﹡874C23﹡931C53265A83﹡010A113﹡523B24﹡174A54520B84﹡923C114﹡499B25785C55502B85﹡391B115﹡421B26329A56129A86﹡436B116﹡748C27321A57484B87﹡786C117945C28700C58560B88﹡562B118797C29443B59294A89﹡919C119485B30690C60948C90536B120508B备注:﹡为重症患者。133\n从表13-1中可统计出A组、B组、C组中重症患者数分别为14、22、20个,A、B、C三组重症患者分布的均衡性检验结果见表13-2。13-2A、B、C三组重症患者分布的均衡性检验人数分组合计重症患者轻度患者A组141630B组222648C组202242合计566412022计算得c=0.028,c0.05,2=5.99,不能认为A、B、C三组重症患者分布不均衡。(周燕荣陈平)134\n第十四章调查设计与资料分析一、教学大纲要求(一)掌握内容1.调查的概念及其特点,调查研究与实验研究的区别。2.调查设计的基本原则与内容(1)明确调查目的。(2)确定调查对象和观察单位。(3)确定调查方法。(4)确定调查指标和变量。(5)调查工具和调查表的种类、调查表和问卷的一般结构、调查问题的形式、调查问题设计应注意的问题。(6)确定样本含量的意义及方法。(7)对调查员的要求。(8)有关伦理道德的问题。3.常用的抽样方法(1)概率抽样的概念。(2)常用的概率抽样方法:简单随机抽样、系统抽样、分层抽样、整群抽样。(3)(二)熟悉内容(1)非概率抽样的概念,配额抽样、“滚雪球”样本、识别(判断)样本的概念。(2)标准化率的概念及计算方法。(三)了解内容病例对照研究和队列研究的概念及数据的处理和分析。二、教学内容精要(一)调查的概念及其特点调查(survey)是指在没有任何干预措施的条件下客观地观察和记录研究对象的现状及其相关特征。在调查中,欲研究的对象及其相关特征(包括研究因素和非研究因素)是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,这是调查研究区别于实验研究的最重要特征。当然对非研究因素的控制可以在调查分析阶段通过标准化法、分层分析以及多因素统计分析等方法得以实现,而不是在调查阶段。(二)调查设计的基本原则与内容1.明确调查目的每一项调查,必须有明确的调查目的。调查目的一般可分为调查的总目的和具体目的。调查135\n目的是选定调查指标的依据。2.确定调查对象和观察单位根据调查目的确定调查对象,即明确调查总体的同质范围。在确定的总体范围内,组成调查对象的每个个体即为观察单位。观察单位可以是一个人、一个家庭或一个群体。3.确定调查方法根据研究问题的性质、客观条件和研究目的选择合适的调查方法。按调查的涉及面,一般可分为普查(overallsurvey)和抽样调查(samplingsurvey)。普查也称全面调查(completesurvey),是对调查范围内的全部观察对象(总体)进行调查,一般用于了解总体在某一特定“时点”的情况。抽样调查是一种非全面调查,是从总体中抽取一定数量的观察单位组成样本,然后根据样本信息来推断总体特征。抽样调查是医学科研中最为常用的方法。调查方法还可按调查的内容发生的时间,分为横断面调查(cross-sectionalstudy)和纵向调查(longitudinalstudy);按资料的来源,可分为现场调查和利用现有资料两种;按调查方式,可分为面对面调查和非面对面调查(信访、电话采访等)两种。4.确定调查指标和变量调查目的是选定调查指标的依据,调查指标是调查目的的具体体现。设计时,应将调查目的转化为具体的调查指标。调查指标可分为客观指标和主观指标,还可分为定性指标和定量指标。一个指标可以是一个或几个变量,也可以是几个指标构成一个变量。指标的设立应注意灵敏性、特异性和客观性,并紧扣研究目的,做到少而精。5.调查工具和调查表(1)调查工具:调查工具(instruments)可分为两类,一类是“硬”工具,一类是“软”工具。如尺、秤、温度计等是“硬”工具;调查表和问卷等是“软”工具。调查工具必须标准化,要防止系统误差。工具的使用和调查结果的记录也必须标准化。(2)调查表和问卷的一般结构:调查表和问卷(questionnaire)一般可划分为4个部分,分别为:“说明部分”、“填写说明”、“核查项目”、“调查项目”。“说明部分”主要说明调查目的,以取得调查对象的合作;“填写说明”是为了保证所有调查员和调查对象均能对调查项目及填写方法正确理解、统一认识而编写的;“核查项目”这一部分是与调查目的无关、不向调查对象询问的质量控制项目,如调查员姓名、调查日期、复核结果、未调查原因等;“调查项目”部分是调查对象填写的部分,是调查的核心内容。(3)问题的形式:根据问题答案的形式,问题可分为开放型和封闭型两类。开放型问题对问题答案不加任何限制,由调查对象对问题自由回答,适于调查者不清楚答案如何以及答案很多的情况,或事先不能确定回答的范围以及预调查;封闭型问题是根据问题可能的答案,提出两个或多个固定答案共调查对象选填,常用“是与否”或多项选择的形式。封闭型问题只能得到分类资料或等级资料,而开放型问题有时可得到数值变量资料。可根据具体情况加以选择。(4)问题设计应注意的问题:尽量避免术语;避免含糊的提问用词;避免双重问题;避免诱导或强制;敏感问题的调查要有专门技巧。6.确定样本含量为什么要确定样本含量或者说其意义有哪些?(1)可以控制统计量的抽样误差,样本含量越大,标准误越小;(2)提高估计的精度,增大样本含量是控制可信区间的宽度的有效办法;136\n(3)增大样本含量是控制统计分析中Ⅱ型错误的概率大小的有效措施;(4)表示抽样误差的指标(各种标准误)的抽样误差也与样本含量有关(如样本方差的方差)。在现场调查中,最常用的是估计总体均数及估计总体率时要求的样本含量。估计总体均数的样本含量的计算公式:ta/2s2n=()(14-1)d式中d为允许误差。s为估计的标准差,一般都是从以前的研究资料中获得。在算得n之前,自由度n不能确定,t仍是未知的,解决的办法是先以u代替t,用迭代0.05/20.05/20.05/2法求得n。估计总体率的样本含量的计算公式:2ua/2p(1-p)n=(14-2)2d式中d为允许误差。如果估计的p是一个范围,那就应该取其中最靠近50%的值。假定估计的p约在10%到30%之间,则取p=0.30;假定估计的p约在40%到80%之间,则取p=0.50;如果对p一无所知,则取p=0.50。7.调查员调查员应该经过选择和培训,培训分理论培训和实践培训。调查员的工作量要合理,对调查员应有监督机制和质量控制措施。8.伦理道德伦理道德问题可以来自于某些调查的问题本身,也可以来自于为获得有效而可靠的资料所用的方法。调查时要注意知情同意(informedconsent)和隐私的保护。知情同意是指在研究对象暴露于某种危险之中或丧失某种个人权益时,要征得研究对象同意。(三)抽样方法1.概率抽样所谓概率抽样(probabilitysampling),就是在抽样中必须使该总体中的每一个个体都有已知的或可计算的和非零的概率被抽样抽中。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样和整群抽样。各种抽样方法的抽样误差一般是:整群抽样≥简单随机抽样≥系统抽样≥分层抽样。在应用大多数的概率抽样方法时,确切的抽样框架非常重要。抽样框架(Samplingframe),简单地说就是一份完整的可以用来抽样的名单。如果没有抽样框架,也就是说目标人群(总体)不明确,那么所得的调查结论很难说适用于什么人群。(1)简单随机抽样:所谓简单随机抽样(simplerandomsampling)是在某个总体中以完全随机的方法抽取一部分个体组成样本。一般,在抽样前,需要先对抽样总体中的全部个体进行编号即确定抽样框架,然后用抽签或随机数字表的方法抽取一部分个体。这种抽样方法简单,计算抽样误差方便。但是,在大规模的调查中,由于对总体中的所有个体进行编号很困难,而且当样本量不大时抽取的个体可能很分散,因此,抽样和现场调查都会相当困难。简单随机抽样的均数和率的标准误的计算公式如下:137\n2nSS=(1-)(14-3)XNnnp(1-p)S=(1-)pNn-1(14-4)期中,n/N称为抽样比(samplingfraction),(1-n/N)为“有限总体校正数”(finitepopulationcorrection)。去掉“有限总体校正数”即可用于无限总体抽样误差的计算。(2)系统抽样:所谓系统抽样(systematicsampling)是指随机地在抽样框架内每间隔若干个个体抽取一个个体的抽样方法。在一般情况下,系统抽样的抽样误差是和简单随机抽样相仿甚至比简单随机抽样的抽样误差更小。系统抽样的抽样误差一般按简单随机抽样方法估计。(3)分层抽样:所谓分层抽样(stratifiedsampling)是先按对观察指标影响较大的某种特征,将总体分为若干类别(统计上称之为“层”,strata),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。分层的原则是层间差别越大越好,层内差别越小越好。在样本总含量n确定后,有两种比较常用的方法来分配各层的观察单位数ni。按比例分配(proportionalallocation):按各层观察单位数Ni占总体观察单位数N比例抽取样本,使各层样本含量ni与样本总含量n之比等于各层观察单位数Ni与总体观察单位数N之比。采用按比例分层随机抽样时,所得均数或比例是自动加权的。样本量分配可按下式计算:niNin=或n=N(14-5)iinNN最优分配(optimumallocation):即同时按总体各层观察单位数Ni的多少和标准差σi的大小分配,按下面两式分配各层的样本量,使抽样误差最小。均数的抽样公式:Nisini=n(14-6)åNisi率的抽样公式:Np(1-p)iiini=n(14-7)åNipi(1-pi)分层抽样中,若令W=N/N,样本均数X和率p及其标准误的计算公式如下:ii样本均数:X=åWiXi(14-8)ni22样本均数的标准误:SX=å(1-)WiSXi(14-9)Ni样本率:p=åWipi(14-10)ni22样本率的标准误:Sp=å(1-)WiSpi(14-11)Ni(4)整群抽样:所谓整群抽样(clustersampling)是先将总体按照某种与研究指标无关的特征化分为K个群组,每个群包括若干观察单位,然后在随机抽取k个群,将抽取的各个群的全部观察单位组成样本。整群抽样的特点是抽样和调查都很方便,可能省时、省力和省钱。缺点是可能抽样误差较大,特别是群间差别较大时。138\n整群抽样样本均数X和率p及其标准误的计算公式如下:K样本均数:X=åmiXi(14-12)NkkKk12均数的标准误:SX=(1-)()å(Ti-T)(14-13)NKk(k-1)i=1式中Ti为样本第i群内观察值之和,T为各Ti的均数,T=åTi/k。K样本率:p=åai(14-14)NkkKk12率的标准误:Sp=(1-)()å(ai-a)(14-15)NKk(k-1)i=1式中åai为样本中各群阳性数之和,a为样本各群的平均阳性数。2.非概率抽样所谓非概率抽样(non-probabilitysampling),是指各个个体被抽样抽中的概率是未知的和无法计算的。然而,一些非概率抽样方法,尽管不能按常规的理论来计算抽样误差和推断总体,在特定条件下,还是有用的。但在应用中,不能忘了它们的局限性,特别要注意结论的合适性。(1)配额抽样:所谓配额抽样(quotasampling)是一种的实用的非概率抽样方法。就是要求样本中个体的构成在指定的几个特征方面的(分配额度)比例完全与总体一样,例如,由于全人口中男女各半,所以要求调查对象中也是男女各半,由于该地有苗族居民30%,要求在调查对象中苗族居民占30%。配额抽样可以使样本有宏观上的代表性。(2)“滚雪球”样本和识别(判断)样本:在有些情况下,缺少目标总体中全部个体的名单,无法构成抽样框架,此时可用另外一些非概率抽样的方法,即“滚雪球”(snowballing)抽样和识别(judgement)抽样的方法。比如调查太极拳爱好者,由于正式参加太极拳运动的人数太少,因此难以获得抽样框架。但是每一位太极拳运动爱好者都会有一些相同兴趣的好友,所以可以通过这种关系滚雪球似地把样本扩大。所谓识别抽样,是指研究者尽可能找到和识别需调查的个体。这两种调查方法,都未能明确规定抽样框架,甚至难以说出要推断的总体是什么,然而,作为一项探索性的调查,仍可能获得有价值的信息。(四)病例对照研究和队列研究病例对照研究(casecontrolstudy)是一种“由果推因”的回顾性观察性研究,根据有无研究疾病或其它结局,将研究人群分为病例组(cases)和对照组(controls),追溯过去某些暴露情况,比较两组暴露水平有无差异,从而得出结局与暴露有无关联的推断。队列研究(cohortstudy)是一种“由因寻果”的纵向前瞻性观察研究。根据观察开始时有无暴露(exposure)史,研究者将没有出现研究疾病或其它结局(outcome)的研究人群分为暴露人群和非暴露人群,并随访观察一定时期,旨在比较两组人群的疾病“发病”率有无差异,从而得出暴露与结局有无关联的推断。两者关系可简要见下表:139\n表14-1病例对照研究与队列研究的比较比较项目病例对照研究队列研究观察方向“由果推因”的回顾性观察研究“由因寻果”的纵向前瞻性观察研究可获得比数比(oddsratio,OR),当发病率很低累积发病率(cumulativeincidence,CI);指标时,OR被认为与RR很接近;发病密度(incidencedensity,ID);用OR替代RR估计归因危险度百分比相对危险度(relativerisk,RR);(attributableriskproportion,AR%)归因危险度(attributablerisk,AR);归因危险度百分比(attributableriskproportion,AR%)优点省时、省人力、省经费,易组织实施;因结局发生在后,故对暴露资料的收集适于结局为罕见事件的病因研究;是无偏倚的;一次调查可探索疾病的多个可疑病因,可收集已知混杂因素的信息;常用于初步验证某病因假说或探测某可直接计算发病率、相对危险度等疾病些病因;与病因关联的指标;当发病率很低时,OR与RR相当近似病因在前结果在后,可证实病因假说;可获得多种结局资料缺点不适于研究人群中暴露比例很低的因耗费时间、人力、经费;素;当结局为罕见事件时,需样本量大;不能直接计算发病率;易产生以下偏倚:研究对象依从性偏倚、有时难以判断暴露与疾病之间的时间信息偏倚、对暴露与结局的评价偏倚先后关系;易发生选择偏倚、回忆偏倚、混杂偏倚(五)标准化率调查资料在进行对比分析时,要注意组间的可比性。当两组(或多组)资料的内部各小组的率明显不同,而且各小组观察单位的构成比明显不同时,则不能直接比较两组的总率。这时可采用一个“统一的标准”将两组(或多组)资料的内部构成比例调整一致后,分别计算出调整后的总率再作比较,这种方法叫做率的标准化(standardization)。率的标准化有以下两种方法:1.直接标准化直接标准化(directstandardization)是以有代表性的、人群数量大的组作为标准人群,用标准人群各小组观察单位数分别乘以被标化人群的各小组的阳性率(如发病率),得到被标化人群的理论阳性数。理论阳性数除以标准人群总人口数,得到被标化人群的标准化阳性率。2.间接标准化间接标准化(indirectstandardization)是以标准人群各小组阳性率乘以被标化人群的各小组观察单位数,得到被标化人群的理论阳性人数。被标化人群的实际阳性人数除以理论阳性总人数,得标准化阳性率比值(如标准化发病率比值standardizedincidenceratio,SIR或标准化死亡率比值standardizedmortalityratio,SMR)。SIR(SMR)乘以标准人群实际阳性率,得到140\n被标化人群的间接标准化阳性率。3.计算符号及公式表14-2计算用数据符号被标化组标准组组别观察单位数阳性数率观察单位数阳性数率1n1r1p1N1R1P12n2r2p2N2R2P23n3r3p3N3R3P3…………………iniripiNiRiPi…………………knkrkpkNkRkPk合计nrpNRPNpåii直接法计算公式:p¢=(14-16)Nr间接法计算公式:p¢=P(14-17)åniPirSMR=(14-18)åniPi三、典型试题分析(一)名词解释调查。答案:调查(survey)是指在没有任何干预措施的条件下客观地观察和记录研究对象的现状及其相关特征。在调查中,欲研究的对象及其相关特征(包括研究因素和非研究因素)是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,这是调查研究区别于实验研究的最重要特征。[评析]本题考点:调查的概念及其特点,调查研究与实验研究的区别。实验研究可以人为地设置干预措施,而调查研究是在没有任何干预措施的条件下观察和记录研究对象的现状及其相关特征。(二)单项选择题1.随机抽样是指()。A.每个个体必须有同样的概率被抽样抽中B.抽样中不要按主观意愿挑选C.概率抽样和非概率抽样D.哪一个个体被抽样抽中完全是由于碰巧141\n答案:A[评析]本题考点:统计学中随机抽样概念的理解。有限总体在获得抽样框架后,可以实现随机抽样,即总体中的每个观察单位都有同样的机会被选作样本,而不是按主观意愿挑选或哪一个个体被抽样抽中完全是由于碰巧。2.概率抽样是指()。A.每个个体被抽样抽中的概率是已知非零的B.每个个体被抽样抽中的概率是可计算的C.每个个体被抽样抽中的概率是非零的D.每个个体被抽样抽中的概率是非零的,已知或可计算的答案:D[评析]本题考点:统计学中概率抽样概念的理解。概率抽样就是在抽样中必须使该总体中的每一个个体都有已知的或可计算的和非零的概率被抽样抽中。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样和整群抽样。在应用大多数的概率抽样方法时,确切的抽样框架非常重要。概率抽样可以估计其抽样误差的大小。而非概率抽样是指各个个体被抽样抽中的概率是未知的和无法计算的。3.在常用的几种抽样调查中,其抽样误差的大小关系一般是()。A.整群抽样小于分层抽样B.系统抽样大于简单随机抽样C.整群抽样大于简单随机抽样D.简单随机抽样小于最优分配分层随机抽样答案:C[评析]本题考点:常用的几种随机抽样调查方法的抽样误差的估计。常用的几种随机抽样调查方法有统计的理论依据,可估计抽样误差,能客观地评价调查结果的精度。各种抽样方法的抽样误差一般是:整群抽样³简单随机抽样³系统抽样³分层抽样。在保证同样精度的条件下,所用抽样方法的抽样误差越大,则所需样本含量相对越多。4.最优分配分层抽样,()。A.可以使抽样误差最小B.可以使调查费用最小C.样本均数是无偏的D.要求的样本含量最小答案:A[评析]本题考点:分层抽样调查抽样误差的估计。分层抽样中,在样本总含量确定后,有两种比较常用的方法来分配各层的观察单位数。一种是按比例分配,另外一种是最优分配。按比例分配是按各层观察单位数占总体观察单位数比例抽取样本,使各层样本含量与样本总含量之比等于各层观察单位数与总体观察单位数之比;而最优分配是同时按总体各层观察单位数的多少和标准差的大小分配,使抽样误差最小。5.调查设计和实验设计的根本区别是()。A.实验设计以动物为对象B.调查设计以人为对象C.实验设计可随机分组142\nD.实验设计可人为设置处理因素答案:D[评析]本题考点:调查研究和实验研究的概念的理解。调查是指在没有任何干预措施的条件下客观地观察和记录研究对象的现状及其相关特征。在调查中,欲研究的对象及其相关特征是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,而实验研究可人为设置处理因素,这是调查研究区别于实验研究的最重要特征。(三)简答题四种基本抽样方法是如何体现随机性的?各自的优缺点和适用的场合是什么?答案:简单随机抽样:将调查总体的全部观察单位编号,再用随机数字标或抽签等方法随机抽取部分观察单位组成样本。优点:均数或率及标准误的计算简便。缺点:总体例数较多时,一一编号比较麻烦,实际工作中难以办到。适用场合:一些比较单纯的现象,如观察单位在总体中分布比较均匀时采用这种方法。系统抽样:将总体的观察单位按某一顺序等分成n个部分,在从第一部分随机抽第k号观察单位,依次用相等间隔机械地从每一部分各抽一个观察单位组成样本。优点:易于理解,简便易行;容易得到一个按比例分配的样本。缺点:当总体的观察单位按顺序有周期趋势或单调增(减)趋势,则系统抽样产生明显偏性;没有自己的估计抽样误差的方法。适用场合:观察单位分布十分均匀,可以保证样本对总体有较好的代表性。整群抽样:先将总体划分为K个群,每个群包含若干观察单位,再随机抽取k个群,并将被抽取的各个群的全部观察单位组成样本。优点:便于组织,节省经费。缺点:例数一定时,抽样误差较大。适用:群间差异较小的对象。分层抽样:按影响观察值变异较大的某种特征,将总体化分为若干类型或组别(即层),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。优点:减少抽样误差;便于对不同的层采用不同的抽样方法;可以对不同层独立进行分析。适用:各层间差异较大。[评析]本题考点:常用的几种概率抽样调查方法的比较。根据研究问题的性质、客观条件和研究目的选择合适的抽样调查方法。不同的抽样方法有不同的使用场合。(四)计算题某医师打算研究正常女大学生的收缩期血压(kPa),要求本次调查所得样本均数与未知的总体均数相差不大于0.5的概率是95%,以前的调查资料显示,标准差在2.2(kPa)左右,若作简单随机抽样,需调查多少对象?答案:本题为调查总体均数的样本含量估计。已知:s=2.2,d=0.5,双侧u=1.960.05ta/2s2根据公式n=()计算样本含量,但在算得n之前,自由度n不能确定,t0.05/2仍是d未知的,解决的办法是先以u代替t,用迭代法求得n。0.05/20.05/2ua/2s22首先根据公式n=(),n=(1.96×2.2/0.5)=74.37≈74(人)d由n=74,得自由度n=74-1=73,用n=73查t界值表得t0.05/2,73=1.993,再依据公式143\nta/2s22n=()=(1.993×2.2/0.5)=76.90≈77(人)d由n=76,得自由度n=76-1=75,用n=75查t界值表得t0.05/2,75=1.992,再依据公式ta/2s22n=()=(1.992×2.2/0.5)=76.82≈77(人)d因此认为,调查样本含量为77人。[评析]本题考点:调查总体均数的样本含量估计。ta/2s2在估计调查总体均数的样本含量时可用公式n=()采用迭代法求得,当然也可直接dua/2s2利用公式n=()求得。d四、习题(六)名词解释1.抽样调查2.简单随机抽样3.系统抽样4.分层抽样5.整群抽样6.概率抽样7.非概率抽样8.相对危险度9.病例对照研究10.队列研究(二)单项选择题1.在抽样调查中,理论上样本含量大小与()大小有关。A.样本极差B.样本变异系数C.样本方差D.样本四分位间距2.在计算简单随机抽样中估计总体均数所需样本例数n时,至少需要确定()。A.允许误差d,总体标准差s,第二类错误bB.第一类错误a,总体标准差s,总体均数mC.允许误差d,总体标准差s,第一类错误aD.允许误差d,总体标准差s,总体均数m3.拟用放射免疫法检测某人群(5000人)血液中流脑特异免疫球蛋白含量,根据文献报道,其标准差约为0.5mg/L,容许误差为0.1mg/L,则按单纯随机抽样,需抽出的样本例数为()人。A.97B.95C.96D.944.在抽样调查中,理论上样本含量大小会影响()。A.样本标准差的大小B.总体均数的稳定性C.样本标准差的稳定性D.样本中位数的大小5.S=S/n表示()抽样时均数的抽样误差。xA.整群B.系统C.分层D.简单随机6.我们工作中常采用的几种抽样方法中,最基本的方法为();144\n7.操作起来最方便的为();8.在相同条件下抽样误差最大的为();9.所得到的样本量最小的为()。A.简单随机抽样B.系统抽样C.整群抽样D.分层随机抽样10.调查用的问卷中,下面的四个问题中,()是较好的一个问题。A.你和你的妈妈认为女孩几岁结婚比较好____。B.如果只生1个孩子,你希望孩子的性别是:1.女;2.男;3.随便C.你1个月工资多少_____。D.你一个月吃盐____克。11.原计划调查1000名对象,由于种种非主观和非选择的原因,只调查到600名,这样的调查结果()。A.可能有偏性,因为失访者太多,可能这些失访有偏性B.不会有偏性,因为这种失访是自然的C.不会有偏性,因为这400名失访者不一定是某一种特征的人D.可能有偏性,因为600名对象不算多(三)简答题1.调查设计包含哪些内容?2.调查表或问卷的一般结构是什么?(四)计算题1.根据既往观察,人群接种某预防制剂后,体温高于37.5℃的反应率为10%。今欲推广使用,拟再次证实,要求容许误差在真实反应率的20%以内,a=0.05,问按简单随机抽样需观察多少人?2.拟用放射免疫法检测某人群血液中流行性脑脊髓膜炎特异免疫球蛋白含量,根据文献报告,其标准差约为0.5mg/L,容许误差为0.1mg/L,试按简单随机抽样估计样本例数。3.表14-3为英格兰和威尔士男性与移民男性发病率的比较,试用直接标准化和间接标准化两种方法分别计算标准化发病率。表14-3英格兰和威尔士男性与移民男性的发病率(1/10万)英格兰和威尔士移民年龄分组人口(千人)发病数发病率人口(千人)发病数发病率0~41900140674.0262180.85~1431001866.03026.715~449400178619.01272721.345~6449007350150.02542168.065~200017400870.0548960.0145\n合计2130028128132.121314065.74.欲检验缺铁性贫血是否是儿童智力损伤的危险因素,从“特殊”儿童日托中心选250名智力低下儿童,从正常学前教育中心选取同年龄250名儿童,测量了他们的血红蛋白等。结果见表14-4,试做OR分析。表14-4缺铁性贫血与儿童智力损伤关系的病例对照研究资料智力低下缺铁性贫血合计有无是110(a)25(b)135(m1)否140(c)225(d)365(m)0合计250(n1)500(n)250(n)0五、习题答案要点(一)名词解释1.抽样调查:抽样调查(samplingsurvey)是一种非全面调查,是从总体中抽取一定数量的观察单位组成样本,然后根据样本信息来推断总体特征。抽样调查是医学科研中最为常用的方法。2.简单随机抽样:所谓简单随机抽样(simplerandomsampling)是在某个总体中以完全随机的方法抽取一部分个体组成样本。一般,在抽样前,需要先对抽样总体中的全部个体进行编号,然后用抽签或随机数字表的方法抽取一部分个体。3.系统抽样:所谓系统抽样(systematicsampling)是指随机地在抽样框架内每间隔若干个个体抽取一个个体的抽样方法。在一般情况下,系统抽样的抽样误差是和简单随机抽样相仿甚至比简单随机抽样的抽样误差更小。系统抽样的抽样误差一般按简单随机抽样方法估计。4.分层抽样:所谓分层抽样(stratifiedsampling)是先按对观察指标影响较大的某种特征,将总体分为若干类别(统计上称之为“层”,strata),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。分层的原则是层间差别越大越好,层内差别越小越好。5.整群抽样:所谓整群抽样(clustersampling)是先将总体按照某种与研究指标无关的特征化分为K个群组,每个群包括若干观察单位,然后在随机抽取k个群,将抽取的各个群的全部观察单位组成样本。6.概率抽样:所谓概率抽样(probabilitysampling)就是在抽样中必须使该总体中的每一个个体都有已知的或可计算的和非零的概率被抽样抽中。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样和整群抽样。7.非概率抽样:所谓非概率抽样(non-probabilitysampling)是指各个个体被抽样抽中的146\n概率是未知的和无法计算的。然而,一些非概率抽样方法,尽管不能按常规的理论来计算抽样误差和推断总体,在特定条件下,还是有用的。8.相对危险度:相对危险度(relativerisk,RR)为暴露组发病(或死亡)率与非暴露组发病(或死亡)率之比,是队列研究中用于描述某因素与疾病发生之间的关联的主要统计学指标。9.病例对照研究:病例对照研究(casecontrolstudy)是一种“由果推因”的回顾性观察性研究,根据有无研究疾病或其它结局,将研究人群分为病例组和对照组,追溯过去某些暴露情况,比较两组暴露水平有无差异,从而得出结局与暴露有无关联的推断。10.队列研究:队列研究(cohortstudy)是一种“由因寻果”的纵向前瞻性观察研究。根据观察开始时有无暴露(exposure)史,研究者将没有出现研究疾病或其它结局(outcome)的研究人群分为暴露人群和非暴露人群,并随访观察一定时期,旨在比较两组人群的疾病“发病”率有无差异,从而得出暴露与结局有无关联的推断。(二)单项选择题1.C2.C3.C4.B5.D6.A7.B8.C9.D10.B11.A(三)简答题1.一个完整的调查设计应包括以下内容:确定明确的调查目的;确定调查对象和观察单位;确定调查方法;确定调查指标和变量;确定调查工具和设计调查表;确定样本含量;调查员的选择和培训;调查的组织计划;涉及伦理道德方面问题的处理。2.调查表或问卷的结构一般可划分为4个部分,分别为:“说明部分”、“填写说明”、“核查项目”、“调查项目”。“说明部分”主要说明调查目的,以取得调查对象的合作;“填写说明”是为了保证所有调查员和调查对象均能对调查项目及填写方法正确理解、统一认识而编写的;“核查项目”这一部分是与调查目的无关、不向调查对象询问的质量控制项目,如调查员姓名、调查日期、复核结果、未调查原因等;“调查项目”部分是调查对象填写的部分,是调查的核心内容。(四)计算题1.本题为调查总体率的样本含量估计。已知:p=0.1,d=0.2×p=0.2×0.1=0.02,双侧u0.05=1.962ua/2p(1-p)22n==1.96×0.1×0.9/(0.2×0.1)≈865(人)2d2.本题为调查总体均数的样本含量估计。已知:s=0.5,d=0.1,双侧u=1.960.05ta/2s2根据公式n=()计算样本含量,但在算得n之前,自由度n不能确定,t仍是0.05/2d未知的,解决的办法是先以u代替t,用迭代法求得n。0.05/20.05/2ua/2s22首先根据公式n=(),n=(1.96×0.5/0.1)=96.04≈96(人)d由n=96,得自由度n=96-1=95,用n=95查t界值表得t0.05/2,95=1.9854,再依据公式ta/2s22n=()=(1.9854×0.5/0.1)=98.55≈96(人)d147\n因此认为,调查样本含量为96人。3.用直接标准化计算标准化率见表14-5。表14-5直接标准化法计算移民男性的理论发病人数英格兰和威尔士移民年龄分组人口数发病率(1/10万)理论发病数0~4190000080.815355~1431000006.720815~44940000021.3200245~644900000168.0823265~2000000960.019200合计2130000031177åNipi31177p¢==´100000=146.4/10万N21300000用间接标准化计算标准化率见表14-6。表14-6间接标准化法计算移民男性的理论发病人数英格兰和威尔士移民年龄分组发病率(1/10万)人口数理论发病数0~474.02600019.25~146.0300001.815~4419.012700024.145~64150.02500037.565~870.0500043.5合计126.1r140p¢=P=132.1´=146.5/10万åniPi126.14.OR的计算110´225OR==7.0725´1402OR的Mantel-Haenszelc检验H:缺铁性贫血与儿童智力损伤无关联,即OR的总体参数等于1;0H:OR的总体参数不等于1;122(ad-bc)(n-1)cMH==73.17,n=1n1n0m1m0148\n273.17>c0.05,1=7.88,P<0.05,接受H。1故可认为缺铁性贫血与儿童智力损伤有关联。智力低下儿童患有缺铁性贫血的危险是正常同龄儿童的7倍。(颜虹姜建辉)149\n第十五章医学人口统计与疾病统计常用指标一、教学大纲要求(一)掌握内容1.医学人口统计常用统计指标的意义及用途(1)人口数与人口构成常用指标:人口总数、性别比、老年人口系数、少年儿童人口系数;(2)人口金字塔;(3)生育与计划生育常用指标:粗出生率、总生育率、终生生育率、总和生育率、自然增长率;(4)死亡统计常用指标:粗死亡率、年龄别死亡率、新生儿死亡率、婴儿死亡率、5岁以下儿童死亡率、标准化死亡率、死因别死亡率、死因顺位。2.疾病统计常用统计指标的意义及用途发病率、患病率、病死率、治愈率、生存率。(二)熟悉内容医学人口统计和疾病统计的其它指标。(三)了解内容医学人口统计和疾病统计的含义及其资料来源。二、教学内容精要(一)医学人口统计常用指标的意义及其用途1.人口数与人口构成常用指标(1)人口数:人口数(population)又称人口总数,一般指一个国家或地区某一特定时间点的人口数。通过一次人口普查,可得较好的人口数统计。根据我国的户籍登记,也可获得户籍人口数。在人口流动较多的情况下,还可按居住地来统计人口数。(2)性别比:以女性人口为100,计算男女性人口数之比,称为性别比或性比例。男性人数性别比=×100(15-1)女性人数(3)老年人口系数:指老年人口在总人口中所占的比重,是说明人口老龄程度的指标,可作为划分人口类型的尺度。65岁及以上人口数老年人口系数=×100%(15-2)人口总数(4)少年儿童人口系数:指少年儿童人口在总人口中所占的比重,是划分人口类型的指标之一。150\n14岁及以下人口数少年儿童人口系数=×100%(15-3)人口总数2.人口金字塔(1)人口金字塔:人口金字塔(pyramid)是一种用几何图形来形象的表示人口性别年龄构成的方法。将人口的性别、年龄分组数据,以年龄(或出生年份)为纵轴,以人口数或年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图,其型如金字塔,称为人口金字塔。人口金字塔更形象直观地反映了人口的年龄性别构成,便于说明和分析人口的现状、类型。(2)人口金字塔的类型:人口金字塔可分为三种类型:年轻型、成年型和年老型。它们的形状各不相同。年轻型:塔顶尖、塔底宽。成年型:塔顶、塔底宽度基本一致,在塔尖处才逐渐收缩。年老型:塔顶宽,塔底窄。从人口年龄结构对今后人口增长速度影响的角度,又可将人口金字塔分为增长型、静止型和缩减型,分别与年轻型、成年型和年老型相对应。3.生育与计划生育常用指标(1)粗出生率:粗出生率(crudebirthrate,CBR)又称出生率,指某地某年平均每千人口中的出生数(活产数),人口的出生率明显受人口的性别年龄结构的影响。其算式为:某年活产总数粗出生率=×1000‰(15-4)同年平均人口数(2)总生育率:总生育率(generalfertilityrate,GFR)又称生育率,指某地某年平均每千名育龄妇女的活产数,是测量人群生育水平的指标。其算式为:某年活产总数生育率=×1000‰(15-5)同年15~49岁妇女平均人口数(3)终生生育率:终生生育率(life-timefertilityrate,LTFR)说明一批经历过整个育龄期的妇女一生的生育水平。终生生育率由于观察时间很长,一般很难观察到。某批妇女生育的活产子女数终生生育率=×1000‰(15-6)经历过整个育龄期的该批妇女数(4)总和生育率:总和生育率(totalfertilityrate,TFR)假定一批妇女按某一套年龄别生育率计算,平均在整个育龄期会有几个活产。该指标反映的是调查年时间横断面上的生育水平。因其消除了年龄构成不同对生育水平的影响,故不同地区、不同年度的总和生育率可以直接比较,因而应用较广,是较好的测量生育水平的指标。总和生育率=S()年龄组组距´各年龄组生育率(15-7)(5)自然增长率:自然增长率(naturalincreaserate,NIR)为粗出生率与粗死亡率之差,是测量人口再生育的指标。易受人口性别、年龄的影响,只能粗略的估计人口的一般增长趋势,不能用来估计未来人口的发展速度。人口自然增长率=粗出生率―粗死亡率(15-8)4.死亡统计常用指标151\n(1)粗死亡率:粗死亡率(crudedeathrate,CDR)又称死亡率(deathrate),是某时期(一般是1年)死亡总数除以该时期的平均人口数或期中人口数所得的商。如果用一年的资料计算年死亡率,分子是一年内的死亡数,分母就是该年的平均人口数或年中人口数。粗死亡率说明人群中总的死亡水平,易受人口性别、年龄的影响。某年死亡数粗死亡率=×1000‰(15-9)同年平均人口数(2)年龄别死亡率:年龄别死亡率(age-specificdeathrate,ASDR)指某年某年龄别平均每千人口中的死亡数。某年某年龄组死亡人数年龄别死亡率=×1000‰(15-10)同年该年龄组平均人口数(3)标准化死亡率:一群人的死亡率高低受该人群年龄构成的影响,所以不同人群或同一人群不同时间的死亡率比较时,应该考虑用某种方法消除年龄构成的影响。标准化死亡率(standardizedmortalityrate,SMR)就是这样的一个指标。直接法计算的标准化死亡率,就是用同一套标准的年龄构成比与各自的年龄组死亡率乘积的总和。(4)婴儿死亡率:婴儿死亡率(infantmortalityrate,IMR)指某地某年不满一周岁婴儿的死亡数与同期活产总数的比值。婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指标,也是死亡统计指标中较为敏感的指标。某年不满周岁婴儿死亡数婴儿死亡率=×1000‰(15-11)同期活产数(5)新生儿死亡率:新生儿死亡率(neonatalmortalityrate,NMR)指某地某年未满28天的新生儿的死亡数与同期活产总数的比值。与婴儿死亡率同样是反映妇幼卫生工作的重要指标。新生儿死亡数在婴儿死亡数中占很大的比重(约占50%),因此,降低新生儿死亡率是降低婴儿死亡率的关键。但是,新生儿死亡漏报现象非常严重。在我国,有的边远地区新生儿死亡漏报率高达100%。新生儿死亡漏报直接影响到该指标的准确性。某年不满28天新生儿死亡数新生儿死亡率=×1000‰(15-12)同期活产数(6)5岁以下儿童死亡率由于儿童死亡率比较高,且不易获得完整的统计资料,在卫生事业不发达或统计制度不健全的国家和地区,婴儿和新生儿死亡数往往有漏报。故也常用5岁以下儿童死亡率来反映婴幼儿的死亡水平。某年不满5岁儿童死亡数5岁以下儿童死亡率=×1000‰(15-13)同年活产数(7)死因别死亡率:死因别死亡率(cause-specificdeathrate,CSDR)指因某种原因(疾病)所致的死亡率,是死因分析的重要指标,反映各类病伤死亡对居民生命的危害程152\n度。某年内某种原因的死亡人数某死因死亡率=×100000/10万(15-14)同年平均人口数(8)死因顺位:指按各类死因构成比的大小或死因别死亡率的高低顺序,由高到低排列的位次,说明各类死因的相对重要性。死因顺位可以反映各种死因所致死亡的相对重要性。(二)疾病统计常用统计指标1.发病率:发病率(incidencerate)表示在观察期内,可能发生某种疾病的一定人群中新发该病的频率。观察期内新发生某病的例数某病发病率=×1000‰(15-15)同期平均人口数2.患病率:一般所说的患病率(prevalencerate),又称现患率,指时点患病率(pointprevalencerate),是某一时间横断面上某病患者数占受检人数的比例,它是一种静态指标,虽然名称是率,但它的性质是比例。通常用于描述病程较长的慢性病或发病时间不易明确的疾病的患病情况。现患人数患病率=×1000‰(15-16)受检人数在某些场合,也使用时期患病率(periodprevalencerate),时期患病率的分子实际上是该时期起始点的患病例数与整个时期的新病例数之和,分母是同期平均人口数。3.某病病死率:某病病死率(fatalityrate)表示在规定的观察期内,某病患者中因该病而死亡的频率。观察期内因某病死亡的人数某病病死率=×1000‰(15-17)同期该病患者数4.某病死亡率:某病死亡率(mortalityrate)表示在规定的观察期内,人群中因某病而死亡的频率。它可以反映不同地区或年代某种疾病的死亡水平。观察期内因某病死亡的人数某病死亡率=×1000‰(15-18)同期平均人口数5.治愈率:治愈率(curerate)指受治病人中治愈的频率。主要适用于一些急性病的疗效统计。治愈人数治愈率=×100%(15-19)受治人数6.生存率:生存率(survivalrate)是指观察对象能存活到某一时点的概率。常用的是一年生存率、五年生存率和十年生存率等。临床上,一些慢性病的病人经过某种治疗后的治疗效果,常用n年生存率来表示。对恶性肿瘤等疾病,难说“治愈”,用n年生存率来表示治疗效果或凶险程度是比较合适的。活满n年的例数n年生存率=×100%(15-20)观察例数153\n生存率一般要用寿命表法(即Kaplan-Meier法)计算。不宜按照对上述公式的直观理解,用“直接法”进行计算。(三)医学人口统计的含义及其资料来源1.医学人口统计:是应用人口统计学的理论与方法,从人类健康和卫生保健的角度研究人口的数量、结构、变动及其与卫生事业发展的相互关系,是人口统计学在居民健康和卫生保健领域中的应用,是卫生统计学的重要组成部分。2.资料来源:主要来源于人口统计收集的资料,有以下几个方面:(1)人口普查;(2)人口抽样调查;(3)人口登记,包括生命事件登记(出生、死亡、胎儿死亡、结婚、离婚、收养、生育、认领、离弃等)、人口迁移变动登记和户口登记。(四)疾病统计的意义及其资料来源4.疾病统计:是居民健康统计的重要内容之一,它的任务是研究疾病在人群中发生、发展及其流行的规律,为病因学研究、疾病防治和评价疾病防治效果提供科学依据。5.资料来源:主要来源于以下三个方面:(1)疾病报告和报表资料;(2)医疗卫生工作记录;(3)疾病调查资料。三、典型试题分析(一)名词解释婴儿死亡率。答案:婴儿死亡率(infantmortalityrate,IMR)指某地某年不满一周岁婴儿的死亡数与同年活产总数的比值。婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指标,也是死亡统计指标中较为敏感的指标。其计算式为:某年不满周岁婴儿死亡数婴儿死亡率=×1000‰同年活产总数婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指标,也是死亡统计指标中较为敏感的指标。[评析]本题考点:婴儿死亡率概念的理解。(二)单项选择题1.在死因统计分析中,死因顺位是按()的高低顺序,由高到低排列的位次。A.发病率B.死因百分构成比或死因别死亡率C.死因别病死率D.患病率答案:B。[评析]本题考点:对死因顺位含义的理解。死因顺位是指按各类死因构成比的大小或死因别死亡率的高低顺序,由高到低排列的位次。死因顺位可以反映各种死因所致死亡的相对重要性。154\n2.反映疾病发生频度的指标有()。A.患病率、感染率B.发病率、病死率C.感染率、发病率D.发病率、患病率答案:D。[评析]本题考点:反映疾病发生频度的指标。发病率与患病率同为疾病发生频度的指标。发病率表示一定时期内,在特定人群中新发生的某病病例数,反映某病新发病例的发生频度。患病率是指某时点上受检人数中现患某种疾病的人数,通常用于描述病程较长的慢性病或发病时间不易明确的疾病的患病情况。3.总和生育率是指()。A.一批妇女一生平均生育的子女数B.一批妇女按某年的年龄别生育水平计算,一生平均生育的子女数C.一批妇女某年的平均活产数D.某年龄段的育龄妇女某年的平均活产数答案:B。[评析]本题考点:总和生育率概念的理解。总和生育率(totalfertilityrate,TFR):假定一批妇女按某一套年龄别生育率计算,平均在整个育龄期会有几个活产。计算公式为:总和生育率=å()年龄组组距´各年龄组生育率该指标反映的是调查年时间横断面上的生育水平。因其消除了年龄构成不同对生育水平的影响,故不同地区、不同年度的总和生育率可以直接比较,因而应用较广,是较好的测量生育水平的指标。4.人口金字塔可以用来反映()。A.人口出生情况B.人口死亡情况C.人口的年龄性别构成情况D.人口迁入迁出情况答案:C。[评析]本题考点:人口金字塔的意义及用途。人口金字塔是将人口的性别、年龄分组数据,以年龄(或出生年份)为纵轴,以人口数或年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图,其型如金字塔,故称为人口金字塔。人口金字塔更形象直观的反映了人口的年龄性别构成,便于说明和分析人口的现状和类型。5.老年人口比重增大,可使()。A.粗死亡率增高B.粗死亡率下降C.婴儿死亡率下降D.出生率迅速下降答案:A。[评析]本题考点:粗死亡率的概念及其影响因素。粗死亡率又称死亡率,是某时期(一般是1年)死亡总数除以该时期的平均人口数或期中人口数所得的商。如果用一年的资料计算年死亡率,分子是一年内的死亡数,分母就是该年的平均人口数或年中人口数。粗死亡率说明人群中总的死亡水平,易受人口性别、年龄的影响。一般情况下,老人和婴儿的死亡率较高,男性死亡率高于女性。计算公式为:155\n某年死亡人数粗死亡率=×1000‰同年平均人口数(三)简答题何谓人口老龄化?请简述其影响因素。答案:人口老龄化是指老年人口在人口中所占的比重升高的现象。在没有迁移的情况下,人口老龄化的进程主要受生育率和死亡率两种因素的影响。死亡率(主要是中老年人口的死亡率)降低,使寿命延长,老年人口比重增加。生育率下降,使低年龄人口的比重降低,高年龄人口的比重相应增加。一般来说,人口老龄化的速度和程度主要取决于生育率的下降速度。当生育率水平下降达到很低的水平且很难再有较大程度的降低时,中老年人口死亡率的降低对人口老龄化的影响才比较明显。(四)计算题表15-1是某地区的人口学调查资料,请就此资料作如下分析:1.计算全人口的性别比;2.计算育龄期妇女(15-49岁)占总人口的百分比;6.计算负担系数;7.计算老龄人口的比重。表15-1某地男、女性人口占总人口的百分比年龄组(岁)男女年龄组(岁)男女0~4.24.045~2.42.75~3.23.150~2.12.410~4.44.255~1.22.215~5.55.360~1.32.420~5.15.265~1.11.425~6.06.170~0.81.230~4.34.575~0.50.935~3.23.380~0.20.540~2.32.585~0.10.2解:1.计算全人口的性别比男性人口数全人口的性别比=×100女性人口数男性人口占全人口的百分比=×100女性人口占全人口的百分比=49.9/52.1×100=91.942.计算育龄妇女占总人口的百分比156\n育龄期妇女人数育龄妇女占总人口的百分比=×100%总人口数=(5.3+5.2+6.1+4.5+3.3+2.5+2.7)×100%=29.6%3.计算负担系数负担系数又称抚养比和抚养系数,是指人口中非劳动年龄人数与劳动年龄人数之比。14岁及以下人口数+65岁及以上人口数总负担系数=×100%15~64岁人口数=30.0/70.0×100%=42.86%4.计算老年人口系数65岁及以上人口数老年人口系数=×100%人口总数65岁及以上各年龄组人口百分比之和老年人口系数==6.9%100[评析]本题考点:人口调查资料的统计分析。人口普查或抽样调查获得的人口资料分析,往往是从人口的基本特征、人口年龄构成、性别比及人口金字塔等诸方面进行描述,计算其相应的统计指标,以反映人口的数量、结构及变动情况。四、习题(七)名词解释1.老年人口系数2.负担系数3.人口金字塔4.出生率5.总和生育率6.标准化死亡率7.计划生育率8.死因别死亡率9.孕产妇死亡率10.生存率(八)单项选择题1.出生率下降,可使()。A.婴儿死亡率下降B.老年人口比重增加C.总死亡数增加D.老年人口数下降2.计算某年婴儿死亡率的分母为()。A.年活产总数B.年初0岁组人口数C.年中0岁组人口数D.年末0岁组人口数3.自然增长率是估计一般人口增长趋势的指标,它的计算是()。A.出生数—死亡数B.粗出生率—粗死亡率C.标化出生率—标化死亡率D.年末人数—年初人数4.计算某年围产儿死亡率的分母是()。A.同年妊娠28周以上的妇女数B.同年妊娠28周以上出生的活产数C.同年死胎数+死产数+活产数157\nD.同年出生后7天内的新生儿数5.终生生育率是指()。A.一批经历过整个育龄期的妇女一生平均生育的子女数B.一批妇女按某时的生育水平,一生可能生育子女数C.一批经历过整个育龄期的妇女某年的平均活产数D.某年龄段的妇女某年的平均活产数6.年龄别生育率是指()。A.每1000名妇女一生平均生育的子女数B.每1000名妇女按某时的生育水平,一生可能生育子女数C.每1000名妇女某年的平均活产数D.每1000名某年龄段的育龄妇女某年的活产数7.婴儿死亡率是指()。A.0岁死亡率B.活产婴儿在生活一年内的死亡概率C.某年不满1岁婴儿死亡数与同年活产总数之比D.某年不满1岁婴儿死亡数与同年婴儿总数之比8.某病病死率和某病死亡率均为反映疾病严重程度的指标,两者的关系为()。A.病死率高,死亡率一定高B.病死率高,死亡率不一定高C.青年人口中,病死率高,死亡率也高D.女性人口中,病死率高,死亡率也高9.总和生育率下降,可使老年人口百分比()。A.上升B.下降C.毫无关系D.以上答案均不对10.观察某种疫苗的预防效果,若第一季度初接种了400人,第二季度初接种了300人,第三季度初接种了100人,第四季度初接种了200人,到年终总结,这1000人中发病者20人,计算发病率的分母应该是()。A.1000人B.(400+200)/2人C.(400+300+100+200)/4人D.400+300×3/4+100×1/2+200×1/4人11.随访观察某种慢性病1000人的治疗结果,第一年死了100人,第二年死了180人,第三年死了144人,则该慢性病的3年生存率的算法为()。A.(0.9+0.8+0.8)/3B.1–0.10×0.20×0.20)C.1–0.10–0.20–0.20D.0.90×0.80×0.8012.老年人口一般是指()。A.50岁及以上的人口B.55岁及以上的人口C.60岁及以上的人口D.65岁及以上的人口(三)简答题1.发病率、时点患病率、时期患病率的区别。2.疾病统计的观察单位“病人”和“病例”的区别。3.病死率和死亡率的区别。158\n五、习题答题要点(一)名词解释1.老年人口系数:老年人口系数指老年人口在总人口中所占的比重,是说明人口老年化程度的指标,可作为划分人口类型的尺度。一般把65岁及以上的人口称为老年人口,而发展中国家倾向于以60岁作为老年年龄界限。老年人口系数的算式为:65岁及以上的人口数老年人口系数=×100%人口总数2.负担系数:负担系数又称抚养比或抚养系数,是指人口中非劳动年龄人数与劳动年龄人数之比。一般以14~64岁为劳动年龄,14岁及以下和65岁及以上为非劳动年龄或抚养年龄。负担系数包括三个指标:总负担系数、少年儿童负担系数和老年负担系数。各国由于人口年龄构成不同,负担系数也有所不同。3.人口金字塔:将人口的性别、年龄分组数据,以年龄(或出生年份)为纵轴,以人口数或年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图,其型如金字塔,称为人口金字塔(pyramid)。人口金字塔更形象直观的反映了人口的性别年龄构成,便于说明和分析人口的现状和类型。4.出生率:出生率(birthrate,BR)又称粗出生率,指某地某年平均每千人口中的出生数(活产数),人口的出生率明显受人口的性别、年龄结构和婚姻状况的影响,因此,它只能粗略的反应生育水平。其算式为:某年活产总数出生率=×1000‰同年平均人口数5.总和生育率:总和生育率(totalfertilityrate,TFR)假定一批妇女按某一套年龄别生育率计算,平均在整个育龄期会有几个活产。该指标反映的是调查年时间横断面上的生育水平。因其消除了年龄构成不同对生育水平的影响,故不同地区、不同年度的总和生育率可以直接比较,因而应用较广,是较好的测量生育水平的指标。总和生育率=å(年龄组组距×各年龄组生育率)6.标准化死亡率:一群人的死亡率高低受该人群年龄构成的影响,所以不同人群或同一人群不同时间的死亡率比较时,应该考虑用某种方法消除年龄构成的影响。标准化死亡率(standardizedmortalityrate,SMR)就是这样的一个指标。直接法计算的标准化死亡率,就是用同一套标准的年龄构成比与各自的年龄组死亡率乘积的总和。7.计划生育率:计划生育率是指每1000名活产中符合计划生育要求者的例数。他综合说明计划生育的质量,可与反映计划生育工作的其他指标联合,用于评价计划生育工作。某年符合计划生育的活产数计划生育率=×100%同年活产总数159\n8.死因别死亡率:死因别死亡率(cause-specificdeathrate)指因某种原因(疾病)所致的死亡率。其算式为:某年某死因死亡人数某死因死亡率=×100000/10万同年平均人口数死因别死亡率是死因分析的重要指标,它反映各类病伤死亡对居民生命健康的危害程度。9.孕产妇死亡率:孕产妇死亡率(maternalmortalityrate)指某年中由于怀孕和分娩及其并发症造成的孕产妇死亡人数与同年活产数之比,以万分率或十万分率表示,其算式为:某年孕产妇死亡人数孕产妇死亡率=×100000/10万同年活产总数孕产妇死亡率不仅可以评价妇女保健工作,而且间接反映一个国家的卫生文化水平。10.生存率:生存率(survivalrate)是指观察对象能存活到某一时点的概率。常用的是一年生存率、五年生存率和十年生存率等。临床上,一些慢性病的病人经过某种治疗后的治疗效果,常用n年生存率来表示。对恶性肿瘤等疾病,难说“治愈”,用n年生存率来表示治疗效果或凶险程度是比较合适的。活满n年的例数n年生存率=×100%观察例数生存率一般要用寿命表法(即Kaplan-Meier法)计算。不宜按照对上述公式的直观理解,用“直接法”进行计算。(二)单项选择题1.B2.A3.B4.C5.A6.D7.C8.B9.A10.D11.D12.D(三)简答题1.发病率、时点患病率、时期患病率的区别。(1)发病率是指观察期内,可能发生某病的人群中新发病例的频率,其观察期多为年、月、日等,急性常见病多计算发病率。(2)时点患病率反映在检查或调查时点一定人群中某病的现患情况(包括该病的新旧病例数)。观察时点在理论上是无长度的,但实际上观察时间不宜过长,一般不超过个月。(3)时期患病率反映在观察期间一定人群中存在或流行某病的频度,包括观察期间的新发病例和现患病例数,常为慢性病的统计指标,但收集资料很困难。2.疾病统计的观察单位“病人”和“病例”的区别。(1)一个人每次患病都可作为一个病例。以病例为单位的疾病统计,可研究居民各种疾病的频度、疾病的种类及疾病的变动,以获得居民患病的基本规律。(2)病人是指一个有病的人。在观察期间内,观察对象患有疾病即算作一个病人,不管其患病的种类及患病次数的多少。以病人为单位的疾病统计,在一定程度上反映居民的患病频度,可找出具体的患病人群,便于开展对病人个人的防治工作。3.病死率和死亡率的区别。(1)某病病死率表示在规定的观察期内,某病患者中因该病而死亡的频率。它是反160\n映疾病的严重程度的指标。在用病死率进行比较时应注意内部构成不同的影响。计算公式为:观察期内因某病死亡的人数某病病死率=×1000‰同期该病患者数(2)某病死亡率表示在规定的观察期内,人群中因某病而死亡的频率。它可以反映不同地区或年代某种疾病的死亡水平。计算公式为:观察期内因某病死亡的人数某病死亡率=×1000‰同期平均人口数(詹绍康王霞)161\n第十六章寿命表一、教学大纲要求(一)掌握内容1.寿命表的概念。2.寿命表的分类:现时寿命表、定群寿命表;完全寿命表、简略寿命表等。3.寿命中的各项指标:年龄、年龄组死亡概率、尚存人数与死亡人数、生存人年数、平均预期寿命。4.寿命表的编制:简略寿命表的编制、去死因寿命表的编制。5.寿命表的分析:寿命表的指标分析;寿命表的应用。(二)熟悉内容全死因寿命表、定群寿命表的编制方法。(三)了解内容寿命表在生存及死亡分析中的应用。二、教学内容精要(一)寿命表的概念寿命表(lifetable)是根据特定人群的年龄组死亡率编制出来的一种统计表。寿命表的指标可以用来评价居民的健康状况。寿命表的编制需要完整的人口资料与死亡资料。寿命表的分类:现时寿命表(currentlifetable)和定群寿命表(cohortlifetable)。现时寿命表是指从一个断面看问题,假定有同时出生的一代人,按照某种人群现时人口实际年龄组死亡率陆续死去,计算出这一代人按年龄的一系列指标。依据年龄分组不同,现时寿命表可分为完全寿命表(年龄分组的组距是1岁)和简略寿命表(年龄分组的组距一般是5岁)。其中简略寿命表更常用。定群寿命表是指对某特定的人群中的每一个人,从进入该特定人群直到最后一个人死亡,记录的实际死亡过程。因为人的生命周期很长,这种方法实现起来难度很大,因此一般来说应用于涉及事物寿命现象的问题,不一定是人群从出生到死亡的过程。(二)寿命表的编制原理与方法1.年龄寿命表中的年龄是指“刚满年龄”(exactage)2.年龄组死亡概率(agespecificprobabilityofdying)是指X岁尚存者在今后一年或n年内死亡的可能性。它和年龄组死亡率不是一个概念。在编制寿命表时,这是一个很关键的指标。dXndXqX=或nqX=(16-1)lXlX其中q表示X岁尚存者在今后一年内的死亡概率;q表示X岁尚存者在今后n年的死XnX162\n亡概率;d表示寿命表死亡人数;d表示在X~(X+n)岁期间的寿命表死亡人数。XnX3.尚存人数与死亡人数(numberofsurvivalperson-years)尚存人数l表示同时出生X的一代人中活满X岁的人数。尚存人数l,死亡人数d(d)及死亡概率q(q)关系如下:XXnXXnXd=l×q或d=l×q(16-2)XXXnXXnXl=l-d或l=l-d(16-3)X+1XXX+nXnX4.生存人年数(numberofsurvivalperson-years)及生存总人年数(totalnumberofsurvivalperson-years)X岁尚存者在今后一年(n年)内的生存人年数L(L),即l曲线下,X~XnXX(X+n)间的面积。这个面积近似梯形面积。但婴儿组的人年数及最后一组的人年数用下面公式计算:婴儿组L=l+a´d(16-4)0100其中a是指0岁组死亡者的平均存活年数。0lw最后一个年龄组Lw=(16-5)mw其中L是最后一个年龄组的生存人年数;l是指尚存人数;m是指死亡统计中的最后一组www死亡率。5.平均预期寿命(lifeexpectancy)表示X岁尚存者预期平均尚能存活的人年数。Te=x(16-6)xlx(三)简略寿命表简略寿命表(abridgedlifetable)一般以日历年度的人口资料为依据,统计数字的准确与否,直接影响寿命表指标的准确性与可靠性,因此必须要求准确的数据资料。简略寿命表习惯上组距是5岁,但零岁作为一个独立的组。由于简略寿命表年龄分组少,每个年龄组人口数较多,年龄组死亡率较稳定,卫生统计中比较常用。(四)去死因寿命表去死因寿命表(causeeliminatedlifetable)是用来分析某种疾病或某类疾病对平均预期寿命等指标的影响,可以综合说明某类死因对人群生命的影响程度,它不受人口年龄结构的影响,而且它既能说明某类死因对全人口的综合作用,又能表达对某年龄组人口的作用。去死因寿命表的编制方法去死因寿命表中各项指标的意义与全死因寿命表相同。编制-i-i去某死因寿命表的关键是求去某死因后各年龄组生存率(p),有了p,就可以仿照nXnX编制全死因寿命表的方法,编制去某死因寿命表,其中rx-ip-i=()pn(16-7)nXnX(五)寿命表的分析与应用1.寿命表的分析寿命的各项指标lX、ndX、nqX、eX都用来评价居民的健康水平。其中最主要的指标是平均预期寿命。寿命表尚存人数:反映在一定年龄组死亡率基础上,一代人口的生存过程,一般用线图表示。尚存人数随年龄增加而减少。寿命表死亡人数:反映在一定年龄组死亡基础上,一代人口的死亡过程。一般用直方图表示。横坐标为年龄,纵坐标为死亡人数。163\n寿命表死亡概率:取决于各年龄组死亡率,一般用半对数线图表示。预期寿命:预期寿命是评价居民健康状况的主要指标。一般用线图表示。2.寿命表的应用寿命表主要应用于:(1)评价国家或地区居民健康水平。(2)利用寿命表研究人口再生产情况。(3)利用寿命表指标进行人口预测。(4)利用寿命表方法研究人群的生育、发育及疾病的发展规律。三、典型试题分析(一)名词解释平均预期寿命。平均预期寿命(lifeexpectancy):寿命表平均预期寿命是指X岁尚存者预期平均尚能存活的年数。平均预期寿命是评价居民健康状况的主要指标。刚满X岁者的平均预期寿命受X岁以后各年龄组死亡率的综合影响。(二)单项选择题某地某年女性简略寿命表中0岁组的预期寿命是65.5岁,则1岁组的预期寿命为()。G.等于65.5岁H.小于65.5岁I.大于65.5岁D.不一定答案:D[评析]本题考点:0岁组的预期寿命与1岁组预期寿命的关系。0岁组的预期寿命简称平均寿命,它是各年龄组死亡率的综合反映,任何一个年龄组的死亡水平发生变化,都会引起平均寿命的改变,但婴儿死亡率对平均寿命的影响更为明显。一般来说,随着年龄的增长,预期寿命应逐渐下降,0岁组的预期寿命应高于1岁组预期寿命,但是当婴儿死亡率较高时,就会出现0岁组的预期寿命应低于1岁组预期寿命的现象。四、习题(十六)名词解释1.寿命表2.现时寿命表3.完全寿命表4.简略寿命表5.定群寿命表6.年龄组死亡概率7.尚存人数(十七)单项选择题1.在寿命表中,若X岁到X+1岁的死亡概率为1qx,X+1到X+2的死亡概率1qx+1,则X到X+2的死亡概率为()。A.1qx×1qx+1B.1-1qx×1qx+1C.(1-1qx)×(1-1qx+1)D.1-(1-1qx)×(1-1qx+1)2.卫生统计学中目前常用的计算某年婴儿死亡率的分母是()。164\nA.年初0岁组人口数B.年中0岁组人口数C.年末0岁组人口数D.年出生数(十八)简答题1.年龄组死亡率与寿命表死亡概率有什么区别和联系?2.平均寿命与平均死亡年龄的区别?3.简略说明寿命表中的m85(+)与e85的关系。(四)计算题1.下表为某市1998年男性居民的按年龄分组的生存资料,试编制简略寿命表。表16-1某市1998年男性居民的按年龄分组的生存资料年龄组(岁)平均人口数实际死亡人数年龄组(岁)平均人口数实际死亡人数0~1875324640~568061341~543256045~658632395~640634650~5424334610~946836455~4335552815~1143329060~3200476320~12694112365~2444597225~11893012770~1281889730~9192210475~581364735~622909280~2685517注:a0=0.145五、习题答题要点(十七)名词解释1.寿命表:寿命表(lifetable)亦称生命表,是根据特定人群的年龄组死亡率编制出来的一种统计表。寿命表中各项指标不受人口年龄构成的影响,不同人群的寿命表指标具有良好的可比性。2.现时寿命表:现时寿命表(currentlifetable)指从一个断面看问题,假定有同时出生的一代人,按照某种人群现时人口实际年龄组死亡率陆续死去,计算出这一代人按年龄的一系列指标。3.完全寿命表:在编制寿命表时,如果年龄分组的组距是一岁,则称为完全寿命表(completelifetable),编制完全寿命表时观察人数要足够多。4.简略寿命表:如果年龄分组的组距不是一岁时,刚称为简略寿命表(abridgedlifetable),简略寿命表的组距一般是5岁,但零岁作为一个独立组。5.定群寿命表:定群寿命表(cohortlifetable)亦称队列寿命表,它是对某特定的人群中的每一个人,从进入该特定人群直到最后一个人死亡,记录的实际死亡过程。6.年龄组死亡概率:年龄组死亡概率(agespecificprobabilityofdying)是指X岁尚存者在今后一年或n年内死亡的可能性。它和年龄组死亡率不是一个概念。165\n7.尚存人数:寿命表尚存人数(numberofsurvivors)是指同时出生的一代人中活满X岁的人数。(二)单项选择题1.D2.D(三)简答题1.二者的区别:年龄组死亡率是说明某年龄组人口在一年内实际的死亡水平,是根据各年龄组的平均人口数及相应的死亡数计算出来的,m=D/p。而寿命表中的死亡概nXnXnX率是按某特定人群的年龄别死亡水平,在同时出生的一代人中,X岁尚存者在今后n年内死亡的可能性。二者的联系:当年龄组分得较细时,两指标呈下列函数关系:nqX=(2nnmX)/(2+nnmX)或q=m/[1+(1-a)m]XXXX其中a为X~X+1岁间死亡者的平均存活年数。0~岁组死亡概率也可以用婴儿死亡率X或校正婴儿死亡率来代替。2.平均年龄是指死者死亡时年龄的算术均数,它取决于年龄别人口构成,两地的平均死亡年龄不能直接进行比较。平均寿命是指0岁组预期寿命,是同时出生的一代人按照某年某地的年龄别死亡率水平死亡可预期生存年数。它是各年龄组死亡率的综合反映,不受人口年龄构成的影响,可直接进行比较。3.在简略寿命表中,m85(+)表示85岁及以上组的年龄组死亡率,即85岁及以上组人口在一年内的平均死亡率,它是根据各年龄组的平均人口数计算出来的。而e是指85岁的预期85寿命。表示85岁尚存者预期平均尚能存活的年数(即岁数)。(四)计算题1.解:nDX(1)求年龄组死亡率(nmX=),计算结果列入表16-2第四栏。nPX(2)求死亡概率q。计算结果列入第五栏。nX246其中q用婴儿组死亡率代q==0.0131180018753最后一个组死亡概率为1.000000。(3)尚存人数lX与死亡人数ndX。首先给定l0=100000,再按前面的计算公式16-2及公式16-3交替计算。结果列入第六栏和第七栏。d=lq=100000´0.013118=1311000l=l-d=100000-1311=98689100d1=l1q1=98689´0.004406=434l=l-d=98689-434=98255211(4)求生存人年数L,结果列入第八栏。nX本例a=0.1450L=l+a´d=98698+0.1450´1311=988790100l8024212L80(+)===125743m0.19255180(+)166\n(5)求生存总人年数TX=ånLX。列入第九栏。对L自下而上进行累加nXT80=L80(+)=125743T=L+T=293473757580TX(6)求预期寿命(eX=)。结果列入第十栏。lXT06994553e0===69.95l0100000T68956741e===69.871l986891至此,寿命表编制完成,见表16-2。表16-21998年某市男性居民简略寿命表平均人实际死年龄组死亡死亡生存年龄组尚存生存总平均预口数亡人数死亡率概率人数人年数(岁)人数人年数期寿命X~nPXnDXnmXnqXlXndXnLXTXeX(1)(6)(9)(10)(2)(3)(4)(5)(7)(8)0~187532460.0131180.013118100000131298878699455369.951~54325600.0011040.00440698689434393888689567469.875~64063460.0007180.00358498255352490395650178666.1710~94683640.0006760.00337497903330488690601139161.4015~114332900.0007870.00392897573383486907552270156.6020~1269411230.0009690.00483397190469484777503579451.8125~1189301270.0010680.00532596721515482317455101747.0530~919221040.0011310.00564196206542479675406870042.2935~62290920.0014770.00735895664703476562358902537.5240~568061340.0023590.011725949611113472022311246332.7845~658632390.0036290.017981938481687465022264044128.1450~542433460.0063790.031393921612893453572217541923.6055~433555280.0121790.059093892685275433152172184719.2960~320047630.0238410.112499839939449396342128869515.3465~244459720.0397630.180837745441348033902089235311.9770~128188970.0699800.29779961064181842598605533339.0675~58136470.1113020.43536842880186681677302934736.8480~26855170.1925511.00000024212242121257431257435.19(王仁安张玉海)167\n第十七章随访资料的生存分析一、教学大纲要求(一)掌握内容1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。2.估计生存率的方法:Kaplan-Meier法、寿命表法。(二)熟悉内容1.生存曲线、半数生存期。2.生存资料的基本要求。3.两生存曲线的比较的对数秩检验。(三)了解内容Cox回归模型。二、教学内容精要(一)生存分析中的基本概念1.生存时间(survialtime)指观察到的存活时间,如表11-1中t分别为360,990,1400,1800天。生存时间有两种类型:(1)完全数据(completedata)指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。(2)截尾数据(censoreddata)由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。从起点至截尾所经历的时间,称为截+尾数据,如表11-1中1400天,习惯上记为1400天。表11-14例鼻咽癌随访记录性别结局患者序号处理组号开始日期终止日期存活天数(男=1)(死=1)10111/29/8011/04/85136021106/13/8206/08/831990+31003/02/8312/31/860140040008/04/8304/10/86118002.死亡概率与生存概率(1)死亡概率(mortalityprobability)指死于某时段内的可能性大小,记为q。年死亡概某年内死亡数率的计算公式为q=,若年内有截尾,则分母用校正人口数(校正人口数=年某年年初观察例数168\n1初人口数-截尾例数)。2这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。(2)生存概率(survivalprobability)与死亡概率相对应,记为p,表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小。年生存概率的计算公式为某年活满一年人数p=1-q=,若年内有截尾,也要用校正人口数。某年年初人口数(二)生存率的Kaplan-Meier法与寿命表法估计1.生存率(1)生存率(survivalrate)指病人经历t个单位时间后仍存活的概率,记为S(t)。若kk无截尾数据,则tk时刻仍存活的例数S(t)=P(T³t)=(11-1)kk观察总例数其中T为病人的存活时间。如果含有截尾数据,分母就必须分时段校正,故此式一般不能直接应用。(2)生存率估计的概率乘法原理假定病人在各个时段生存的事件独立,生存概率为p1,p2,L,pk,则应用概率乘法得生存率估计的应用公式为S(t)=P(T³t)=ppLp(11-2)kk12k若式中p,p,L,p用校正人数估计,便可处理截尾数据。12k生存概率与生存率在意义上差别很大,前者是单个时段的概率,后者是从0至t多个时段k的累积结果。(3)生存曲线(survivalcurve)指将各个时点的生存率连接在一起的曲线图。(4)半数生存期(mediansurvivaltime)表示恰好有50%的个体可活这么长时间。2.生存率的估计方法(1)乘积极限法(product-limitmethod)直接用概率乘法原理估计生存率(不分组),由Kaplan-Meier于1958年提出,因而又称Kaplan-Meier法。这是一种非参数法,主要用于小样本,也适用于大样本。其生存曲线是左连续的阶梯形曲线。(2)寿命表法(life-tablemethod)当样本例数足够多时,乘积极限法可按时间分组计算,这就是寿命表法,实际上是乘积极限法的一种近似。其生存曲线呈折线形。(三)两样本生存曲线的比较——对数秩检验对数秩检验(log-ranktest)用于两样本生存曲线的比较,其零假设为两总体生存曲线相同,基本思想是如果零假设成立,根据不同日期两种处理的期初人数和死亡人数,计算各种处理在各个时期的理论死亡数。若零假设成立,则实际死亡数与理论死亡数不会相差太大,否则应认为零假设不可能成立,两条生存率曲线差异有统计学意义。对数秩检验统计量(近似法)为:m22(Ak-Tk)c=å,u=m-1(11-3)k=1Tk2其中A和T分别是第k组死亡的实际数和理论期望数。在H成立的条件下,统计量c服从kk022自由度为m-1的c分布,m为组数,据c作出是否拒绝H的决定。0(四)Cox回归模型Cox回归是生存分析中最重要的方法之一,其优点是适用范围很广和便于做多因素分析。169\nCox回归假定病人的风险函数为h(t)=h0(t)exp(b1X1+b2X2+L+bpXp)(11-4)其中h(t)为风险函数,又称风险率或瞬间死亡率,h(t)为基准风险函数,是与时间有关的任0意函数,X,b分别是观察变量及其回归系数。英国统计学家CoxDR提出了参数b的估计和i检验方法,故称为Cox回归。三、典型试题分析(一)单项选择题1.生存分析的效应变量是()。A.正态的和方差齐性的B.生存时间和结局变量C.生存时间D.结局变量答案:B[评析]本题考点:生存分析的概念生存分析是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,所以它的应变量有两个,即生存时间和结局。2.随访资料做生存分析的条件为()。A.有一定的例数B.有一定的死亡数C.死亡比例不能过小D.自变量取值不随时间变化答案:B[评析]本题考点:生存资料的基本要求生存资料的基本要求为:①样本由随机抽样方法获得,并有足够数量;②死亡例数不能太少(≧30);③截尾比例不能太大;④生存时间尽可能精确到天数;⑤缺项要尽量补齐。所以最佳答案应选B。3.Cox回归风险率()。A.等于一个常数B.服从某种分布规律C.等于基准函数乘上一个比例因子D.适用于任意肿瘤资料答案:C[评析]本题考点:Cox回归模型的特点及应用首先,用于Cox回归模型分析的资料必须满足生存资料的基本要求,因此任意肿瘤资料不一定满足此要求,排除D。Cox回归风险函数中因h(t)未定义,所以不知道风险在病人与0病人之间的差别和风险随时间变化的具体分布,排除A,B。所以正确答案为C,从风险回归函数的定义式也可看出。4.采用log-rank检验分析肺癌发病资料,其中吸烟、慢性支气管炎2个因素都有统计学意义,由此可认为():A.吸烟与肺癌有因果联系B.慢性支气管炎与肺癌有因果联系C.2个因素与肺癌有因果联系D.以上都不对答案:D[评析]本题考点:模型中的变量如何选择取舍选入模型的变量是统计学上的有关变量,不一定都与肺癌有因果关系,其中某些可能只170\n有伴随关系而已;未选入模型的变量不一定全是无关变量,要考虑是否模型内的某些变量代替了它的作用,或因例数不够,或实验中对该因素进行了控制而引起的。所以正确答案选D。5.根据表11-1中的存活时间,试用Kaplan-Meier法估计生存曲线。[评析]本题是考察对乘积极限法的应用情况,此法应用普遍,应熟练掌握。具体解法见表11-2。表11-2乘积极限法估计生存率计算表序存活t时刻t时刻死亡生存k年生存率号时间期初死亡数概率概率生存率标准误k(天)例数tndq=dnp=1-qS(tk)SE(S(tk))⑴⑵⑶⑷⑸⑹⑺⑻1360411434(34)=0.750.21652990311323(34)(23)=0.500.250031800111101(34)(23)(01)=0.000参照表11-2,计算步骤为:1.列出序号:k=1,2,...(第1列);2.死亡时间排队:将存活时间t(完全数据)从小到大顺序排列,重复数据只列一次,+截尾数据(如1400)不列入(第2列);3.求出t时刻期初例数n:即存活时间大于或等于t的例数(含死者)(第3列);4.列出t时刻的死亡数d:即死亡时间为t的例数(第4列);5.求出t时刻的死亡概率:(第5列);6.求出t时刻的生存概率:(第6列);7.分别计算生存率及其标准误;(第7、8列);8.绘制生存曲线。1.0.8.6S(t).4.2SurvivalFunction0.0Censored060012001800t/d图11.1乘积极限法生存曲线及其半数生存期171\n四、习题(一)名词解释1.生存分析2.生存时间3.完全数据4.截尾数据5.死亡率6.死亡概率7.生存概率8.生存率(二)单项选择题1.Cox回归的自变量()。A.必须服从正态分布和方差齐性B.必须是计量资料C.可以是计量资料或分类资料D.无任何条件2.生存分析中的生存时间为()。A.出院至失访的时间B.手术至失访的时间C.观察开始至终止的时间D.观察开始至失访的时间3.关于膀胱癌化疗的随访资料做生存分析,可当作截尾值处理的是():A.死于膀胱癌B.死于意外死亡C.死于其它肿瘤D.b,c都是(三)简答题1.在肿瘤预后分析中,死于非肿瘤患者的数据怎样处理?2.生存分析可用于发病资料的分析吗?请举例说明。3.生存时间能计算平均数、标准差吗?4.Cox回归可估计参数,故属于参数方法?(四)计算题1.表11-3第2-4列是296例肝癌患者的生存数据,试作生存分析并绘图示之。2.某院用甲、乙两疗法组治疗急性黄疸性肝炎,随访十年得资料如下:++++++甲疗法组12,25,50,68,70,79,83,91,114,114,+乙疗法组1,1,9,17,21,25,37,38,58,72,73比较两疗法的生存期(月)有无差别。五、习题答题要点(一)名词解释1.生存分析:生存分析(survivalanalysis)是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,它不仅可以从事件结局的好坏,如疾病的治愈(成功)和死亡(失败),而且可以从事件的持续时间,如某病经治疗后存活的时间长短进行分析比较,因而能够更全面、更精确地反映该治疗的效果。2.生存时间:生存时间(survivaltime)指观察到的存活时间。3.完全数据:完全数据(completedata)指从起点至死亡所经历的时间,即死者的存活时间。172\n4.截尾数据:由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。从起点至截尾所经历的时间,称为截尾数据(censoreddata)。5.死亡率:某年内死亡例数与年中观察例数之比称为死亡率(mortalityrate)。6.死亡概率:死亡概率(mortalityprobability)是指某年内死亡例数与年初观察例数之比,若年内有截尾,分母用校正人口数。7.生存率:生存率(survivalrate)指病人经历tk个单位时间后仍存活的概率,即tk时刻仍存活的例数与观察总例数之比。8.生存概率:生存概率(survivalprobability)表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小,它是某年活满一年人数与年初观察例数之比,若年内有截尾,分母用校正人口数。(二)单项选择题1.C2.C3.D(三)简答题1.当作截尾数据处理。2.可用于慢性病的发病资料分析。3.如果此资料所包含的数据都是完全数据,可以计算均数和标准差(但可能因资料非正态而没有实际意义),若数据中包含截尾数据,则不可以计算均数和标准差。4.属于半参数模型(因ht()未定义)。0(四)计算题1.参照表11-3,列表计算。表11-3寿命表法估计296例肝癌患者生存率计算表序存活期内期内期初校正死亡生存k年生存率号时间死亡截尾观察年初概率概率生存率标准误k(月)人数人数人数人数p=1-qS(tk)SE(S(tk))tdcn0nc=n0q=dn-c2⑴⑵⑶(4)(5)(6)(7)(8)(9)(10)10~9410296291.00.32300.67700.67700.027421~7415192184.50.40110.59890.40550.029432~221010398.00.22450.77550.31440.028543~2267168.00.32350.67650.21270.026354~554340.50.12350.87650.18640.025565~663330.00.20000.80000.14920.024576~412120.50.19510.80490.12010.023787~211615.50.12900.87100.10460.023098~321312.00.25000.75000.07840.0217109~2088.00.25000.75000.05880.0202173\n1110~2265.00.40000.60000.03530.01771211~2222.01.00000.00000.00000.0000计算方法和步骤为:(1)列出序号:k=1,2,...(第1列);(2)求校正期初人数:nc=n0-c2(第6列);(3)计算死亡概率:q=dn(第7列);(4)计算生存概率:p=1-q(第8列);(5)计算生存率及其标准误:(第9、10列)。(6)绘制生存曲线。1.0.8.6S(t).4.20.00123456789101112ta图11-2寿命表法生存曲线2.该题用log-rank检验,其计算步骤为:(1)检验假设:H:两总体生存率曲线相同;H:两总体生存率曲线不同;a=0.05。01(2)计算出A=4,A=10,T=8.6694,T=5.3306.0101(3)计算检验统计量m2222(Ak-Tk)(4-8.6694)(10-5.3306)c=å=+=6.6052k=1Tk8.66945.33062(4)确定P值作结论:据自由度为1的c分布查表得P<0.05,按a=0.05水准拒绝H,0接受H,故可认为两总体生存率曲线不同,甲组疗法生存期长。1(骆福添杜晓晗)174\n第二章常用综合评价方法一、教学大纲要求(一)掌握内容综合评价的意义及一般步骤。(二)熟悉内容评价指标的筛选及权重的估计。(三)了解内容1.综合评分法。2.综合指数法。3.层次分析法。4.Topsis法。二、教学内容精要(一)评价与综合评价评价:通过对照某些标准来判断观测结果,并赋予这些结果以一定的意义和价值的过程称为评价(evaluation)。综合评价:根据一个复杂系统同时受到多种因素影响的特点,在综合考察多个有关因素时,依据多个有关指标对复杂系统进行总评价的方法称为综合评价(syntheticalevaluation)。(二)综合评价的几种分类1.根据评价手段:定量评价(quantitativeevaluation)、定性评价(qualitiveevaluation)。2.根据评价领域:临床评价(clinicalevaluation)、卫生评价(healthevaluation)和管理评价(administrativeevaluation)。临床评价包括诊断性试验和方法评价、疗效评价和预后及转归评价。卫生评价包括环境评价、营养评价、生长发育评价和疾病防治效果评价。管理评价包括宏观管理评价和微观管理评价。3.根据评价方式:预评价(pre-eventevaluation)、中期评价(medialevaluation)和终结评价(after-eventevaluation)。(三)综合评价的一般步骤1.根据评价目的选择恰当的评价指标(index);2.根据评价目的,确定诸评价指标在对某事物评价中的相对重要性,或各指标的权重(weight);3.合理确定各单个指标的评级等级(evaluationgrade)及其界限;4.根据评价目的,数据特征,选择适当的综合评价方法,并根据已掌握的历史资料,建立综合评价模型(evaluationmodel);175\n5.确定多指标综合评价的等级数量界限,在对同类事物综合评价的应用实践中,对选用的评价模型进行考察,并不断修改补充,使之具有一定的科学性、实用性与先进性,然后推广应用。(四)评价指标的筛选筛选评价指标主要依据专业知识,即根据有关的专业理论和实践,来分析各评价指标对结果的影响,挑选那些代表性、确定性好,有一定区别能力又互相独立的指标组成评价指标体系。系统分析法(system’sanalysismethod)和文献资料分析优选法是常用的评价指标筛选法。为保证筛选指标的客观性,对于指标的初选可采用假设检验、多元回归、逐步回归和指标聚类等方法辅助筛选。在实际工作中,往往综合使用多种方法进行指标筛选,在获得较为满意的专业解释的基础上,优先考虑那些被多种方法同时选入的指标。(五)评价指标的权重估计用于确定指标权重的方法主要有主观定权法和客观定权法。其中,主观定权法包括专家评分法(specialist-scoredmethod)、成对比较法、Satty权重法;客观定权法包括模糊定权法、秩和比法、熵权法和相关系数法。(六)几种综合评价方法1.综合评分法(syntheticalscoredmethod):建立在专家评价法基础上,根据评价目的及评价对象的特征选定必要的评价指标,逐个指标订出等级,每个等级的标准用分值表示,然后以恰当的方式确定各评价指标的权数,并选定累积总分的方案以及综合评价等级的总分值范围,以此为准则,对评级对象进行分析和评价,以决定优劣取舍的综合评价方法。2.综合指数法(syntheticalindexmethod):利用综合指数的计算形式,定量的对某现象进行综合评价的方法。3.层次分析法(analytichierarchyprocess):用系统分析的方法,对评价对象依评价目的所确定的总评价目标进行连续性分解,得到各级(各层)评价目标,并以最下层作为衡量目标达到程度的评价指标。然后依据这些指标计算出一综合评分指数对评价对象的总评价目标进行评价,依其大小来确定评价对象的优劣等级。4.Topsis法:系统工程中有限方案多目标决策分析的一种常用方法。是基于归一化后的原始数据矩阵,找出有限方案中的最优方案和最劣方案(分别用最优向量和最劣向量表示),然后分别计算诸评价对象与最优方案和最劣方案的距离,获得各评价对象与最优方案的相对接近程度,以此作为评价优劣的依据。三、典型试题分析某医院1998年11项指标资料见表18-1和表18-2,试采用综合指数法计算各月综合指数。表18-111项指标分类指标类型序号指标名称176\n动态指标1出院病人数(人)医疗质量2治疗有效率(%)3病死率(%)4无菌手术感染数(人)床位利用5平均住院日(天)6床位周转率(%)7病床工作日(天)8病床使用率(%)诊断水平9门诊住院诊断符合率(%)10出入院诊断符合率(%)护理服务质量11陪住率(%)表18-2某医院1998年各月11项指标实际值各指标实际值月1234567891011165090.83.083.0020.61.4128.792.699.310018.0256091.13.044.0021.61.2428.792.798.610017.6360991.71.974.0020.51.3327.397.698.09917.0458792.72.393.0025.61.2530.096.998.39617.1565188.04.304.0023.31.3028.394.597.39718.0660189.72.5010.0019.81.3029.394.697.99617.0758490.02.915.0026.31.3028.093.296.99718.0862090.72.902.0022.01.3728.792.597.99619.0962690.22.244.0022.01.3729.294.398.39818.01060491.92.965.0020.61.3427.993.199.19918.51165390.53.372.0019.51.4429.494.899.59921.01259990.83.645.0023.51.2928.795.889.19918.8平均值61290.72.944.2522.11.3328.794.497.59818.2[评析]11项指标中3、4、5、11号指标为反向指标,其它均为正向指标。由公式(18-1)和公式(18-2)可计算出各指标的个体指数,计算结果见表18-3。Xy=(高优指标或正指标)(18-1)MMy=(低优指标或负指标)(18-2)X如公式(18-1)和公式(18-2)所示,个体指数是某指标观测值和标准值的比值。式中X为某指标的观测值;M为某指标的标准值、参考值、平均值、期望值等。177\n表18-3某医院1998年各月11项指标的个体指数各指标的个体指数月123456789101111.061.000.961.421.071.061.000.981.021.021.0120.911.000.971.061.020.931.000.981.011.021.0331.001.011.491.061.081.000.951.031.001.011.0740.961.021.231.420.860.941.051.031.010.981.0651.060.970.681.060.950.980.991.001.000.991.0160.980.991.180.421.120.981.021.001.000.981.0770.950.991.010.850.840.980.980.990.990.991.0181.011.001.012.131.001.031.000.981.000.980.9591.020.991.311.061.001.031.021.001.011.001.01100.991.010.990.851.071.010.970.991.021.010.98111.071.000.872.121.131.081.021.001.021.010.87120.981.000.810.850.940.971.001.010.911.010.97按同类指数相乘,异类相加的方法进行指数综合。由公式(18-3)计算综合指数。mnI=åÕyij(18-3)i=1j=1例如计算1、2月份的综合指数为:I=1.06+1.00´0.96´1.42+1.07´1.06´1.00´0.98+1.02´1.02+1.011=5.5851I=0.91+1.00´0.97´1.06+1.02´0.93´1.00´0.98+1.01´1.02+1.032=4.9509其余各月计算以次类推,计算结果见表18-4。表18-4某医院1998年各月综合指数月123456789101112份指5.58514.95095.74625.66424.68334.64764.59296.12515.48244.89346.07954.4838数四、习题(一)单项选择题:1.下列那项评价方法属于按评价手段的分类A.定性评价B.卫生评价C.管理评价D.中期评价2.使用专家评分法进行评价指标的估计时,常用哪两种指标来估计权重分配的相对合理性178\nA.擅长系数和确定系数B.擅长系数和一致性系数C.相关系数和确定系数D.相关系数和一致性系数3.医院工作质量指标通常由三层子指标构成,以知第一层的权重为0.6370,第二层权重为0.2970,第三层权重为1.0。由Saaty法提供的评价指标组合权重方法可知第三层的组合权重为A.1.9340B.0.9340C.1.7636D.0.18924.以下哪一种综合评价方法是建立在专家评价法的基础上A.综合指数法B.层次分析法C.综合评分法D.Topsis法5.在利用综合指数法评价时,综合指数能定量地反映几个指标的综合平均变动程度,m1表达式为:I=åy,其中n1A.m为分组数B.n为指标数C.y为个体指标D.以上均正确(二)计算题试根据表18-5数据,采用Topsis法对某市人民医院1995~1997年的医疗质量进行综合评价。表18-5某市人民医院1995~1997年的医疗质量出入院手术前危重病床位三日治愈院内床位周平均诊断符后诊断病死率人抢救年度周转率确诊率好转率感染率转次数住院日合率符合率(%)成功率(%)(%)(%)(%)(%)(%)(%)199520.97113.8118.7399.4299.8097.2896.082.5794.534.60199621.41116.1218.3999.3299.1497.0095.652.7295.325.99199719.13102.8517.4499.4999.1196.2096.502.0296.224.79五、习题答题要点(一)单项选择题1.A2.B3.D4.C5.C(二)计算题对原指标中的平均住院日、病死率、院内感染率三个低优指标进行转化,其中平均住院日采用倒数转化,病死率、院内感染率采用差值转化。转化后数据见表18-6。表18-6转化指标值出入院手术前危重病床位三日治愈院内床位周平均诊断符后诊断病死率人抢救年度周转率确诊率好转率感染率转次数住院日合率符合率(%)成功率(%)(%)(%)(%)(%)(%)(%)199520.97113.815.3499.4299.8097.2896.0897.4394.5395.40199621.41116.125.4499.3299.1497.0095.6597.2895.3294.01199719.13102.855.7399.4999.1196.2096.5097.9896.2295.21179\n根据表18-6数据,利用公式(18-4)进行归一化处理,得归一化矩阵值,如表18-7。XijZij=(18-4)nå()2Xiji=1例如计算1995年床位周转次数归一化值,由公式(18-4)得:20.97Z11==0.50922220.97+21.41+19.13其余归一化数值以此类推。表18-7归一化矩阵值出入院手术前危重病床位周床位平均三日治愈院内年度诊断符后诊断病死率人抢救转次数周转率住院日确诊率好转率感染率合率符合率成功率19950.5900.5920.5600.5770.5800.5800.5770.5770.5720.58119960.6020.6040.5700.5770.5760.5780.5750.5760.5770.57219970.5380.5350.6010.5780.5760.5740.5800.5800.5830.579由公式(18-5)和公式(18-6)得最优和最劣方案+最优方案Z=(a,a,L,a)(18-5)i1maxi2maximmax-最劣方案Z=(a,a,L,a)(18-6)i1mini2minimmin+()Z=0.602,0.604,0.601,0.578,0.580,0.580,0.580,0.580,0.583,0.581-()Z=0.538,0.535,0.560,0.577,0.576,0.574,0.575,0.576,0.572,0.572+-由公式(18-7)和公式(18-8)计算各年度D和D,见表18–8。m+å()2Di=aijmax-aij(18-7)i=1m-å()2Di=aijmin-aij(18-8)i=1+-例如计算1997年D和D:+()2()2()2D=0.602-0.538+0.604-0.535+L+0.581-0.579=0.094-()2()2()2D=0.538-0.538+0.535-0.535+L+0.572-0.579=0.044其余各年以次类推。由公式(18-9)计算各年度Ci,见表18-8。-DiCi=(18-9)+-Di+Di例如计算1997年C:i0.044C==0.319,其余各年以次类推。i0.094+0.044表18-8不同年度指标值与最优值的相对接近程度及排序结果180\n年份D+D-排序结果Ci19950.0450.0780.634219960.0340.0950.736119970.0940.0440.3193由表18-8的排序结果可知1996年医疗质量最好。(孙振球潘峰)181

相关文档