3医学统计学复习指导 107页

  • 1.07 MB
  • 2022-09-01 发布

3医学统计学复习指导

  • 107页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
中医药统计学复习指导及摸拟试题广东省中医住院医师规范化培训中医药统计学复习指导及摸拟试题中医药统计学复习指导及摸拟试题中医药统计学复习指导及摸拟试题中医药统计学复习指导及摸拟试题广州中医药大学医学统计学教研室广州中医药大学继续教育学院\n2目录第一节绪论.....................................................................................................................................3第二章计量资料的统计描述........................................................................................................8第三章正态分布.............................................................................................................................14第四章总体均数的估计和假设检验............................................................................................20第五章方差分析.............................................................................................................................29第六章分类资料的统计描述......................................................................................................41第七章χχχχ2222检验...............................................................................................................................54第八章秩和检验.............................................................................................................................63第九章直线相关与回归.................................................................................................................72第十章统计表与统计图...............................................................................................................78第十一章实验设计.......................................................................................................................82第十二章调查设计资料分析........................................................................................................87第十三章医学人口统计与疾病统计常用指标............................................................................96第十四章中医药统计学摸拟试题...............................................................................................105\n中医药统计学复习指导及摸拟试题第3页共107页第一节绪论一、内容((((一))))统计学、医学统计学、卫生统计学统计学是研究数据的收集、整理、分析与推断的科学。医学统计学是用统计学的原理和方法研究生物医学现象的一门学科。卫生统计学则是把统计理论、方法应用于居民健康状况研究、医疗卫生实践、卫生事业管理和医学科研的一门应用学科。((((二))))统计学中的几个基本概念1.随机变量随机变量(randomvariable)指取值不能事先确定的观察结果,通常简称为变量。随机变量有一个共同的特点是不能用一个常数来表示,而且理论上讲,每个变量的取值服从特定的概率分布。随机变量可分为两种类型:离散型变量和连续型变量。2.误差误差(error)指实际观察值与观察真值之差、样本指标与总体指标之差。误差可分为系统误差和随机误差,两种误差的区别见表1-1。表1-1系统误差与随机误差的区别3.资料类型观察单位的某项特征的测量结果按其性质可分为三种类型:(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurementdata)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。(2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(countdata)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O四种血型的人数等。(3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata)。等级资料又称有序变量。如患者的治疗结果可分为误差分类产生原因对观察值的影响处理方法系统误差仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等。使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。通过实验设计的完善和技术措施的改进来消除或减少。随机误差排除系统误差后,其他多种不确定因素。使观察值不按方向性、系统性而随机的变化,误差变量一般服从正态分布。可通过统计处理估计随机误差。\n2011年5月6日4治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。4.总体与样本总体(population)指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。5.概率与频率概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A)。0<P(A)<1。在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(frequency)。当试验重复很多次时P(A)=m/n。(三)统计工作的步骤1.设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研究中最关键的一环,是今后工作应遵循的依据。2.收集资料:应采取措施使能取得准确可靠的原始数据。3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分析资料包括统计描述和统计推断。(四)医学研究中统计方法的应用医学统计方法在医学研究中的应用主要有三个方面:1.以正确的方式收集数据;2.描述数据的统计特征;3.统计分析得出正确结论。(五)医学统计历史发展最初的统计主要是数据汇总。统计发展到今天,已经成为一种对客观现象数量方面进行的调查研究活动,是收集、整理、分析、判断等认识活动的总称,数据汇总仅仅是统计工作的一小部分。医学统计的发展起源于生物统计、遗传统计,经过了描述统计、大样本统计、小样本统计推断、临床统计和多变量统计几个发展阶段。二、试题分析(一)名词解释抽样误差。答案:抽样误差(samplingerror)是指样本统计量与总体参数的差别。在总体确定的情况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。[[[[评析]]]]本题考点:抽样误差的概念。抽样误差是统计学中的重要概念。在抽样研究中是不可避免的。产生抽样误差的根本原因是生物个体间存在的变异性。(二)单项选择题1.统计学中所说的样本是指()。\n中医药统计学复习指导及摸拟试题第5页共107页A.随意抽取的总体中任意部分B.有意识的选择总体中的典型部分C.依照研究者要求选取总体中有意义的一部分D.依照随机原则抽取总体中有代表性的一部分答案:D[[[[评析]]]]本题考点:统计学中样本概念的理解。统计学中的样本是指从总体中随机抽取的部分观察单位测量值的集合。这里的“随机抽取”并非通常所说的“随意抽取”,而是保证总体中每个观察单位等概率被抽取的科学方法。随机抽样是样本具有代表性的保证。2.下列资料属等级资料的是()。A.白细胞计数B.住院天数C.门急诊就诊人数D.病人的病情分级答案:D[评析]本题考点:统计资料的分类。统计资料按其性质可分为三种类型:计量资料、计数资料和等级资料。计量资料变量值是定量的,表现为数值大小,一般有度量衡单位,如本例中白细胞计数(109/L),住院天数(天)。计数资料其观察值是定性的,表现为互不相容的类别或属性的观察单位数,如门急诊就诊人数可按门诊、急诊分类清点各组人数。等级资料的属性分组有程度差别,各组按大小顺序排列,如病人的病情分级为轻、中、重。(三)简答题一位研究人员欲做一项实验研究,研究设计应包括那几方面的内容?答案:一般来讲,研究设计应包括两方面的设计:专业设计和统计设计。专业设计是针对专业问题进行的研究设计,如选题、形成假说、干预措施、实验对象、实验方法等;统计设计是针对统计数据收集进行的设计,如样本来源、样本量、干预措施的分配、统计设计类型测量指标的选择等。统计设计是统计分析的基础,任何设计上的缺陷,都不可能在统计分析阶段弥补和纠正。[评析]本题考点:研究设计包含的内容。研究设计是整个研究中最关键的一环,是整个研究过程中始终遵循的依据。正确、严谨、周密的设计是研究工作顺利进行、研究结果真实可靠的保证。因此,应深刻理解并掌握研究设计的内容及其意义。(四)是非题描述不确定现象,通过重复观察,发现生物医学领域的不确定现象背后隐藏的统计规律是医学统计的显著特征。()答案:正确。[评析]本题考点:统计方法的特征。在生物医学研究领域,由于存在较大的生物变异性,并受诸多因素的影响,使实验或观察结果往往成为不确定现象。在大量的重复试验中,这种不确定现象却呈现出明显的统计规律性。统计方法能够帮助人们分析数据,达到去伪存真、去粗存精,透过偶然现象认识其内在的规律性。这正是统计方法的显著特征。三、习题\n2011年5月6日6(一)名词解释1.总体与样本2.随机抽样3.变异4.等级资料5.概率与频率6.随机误差7.系统误差8.随机变量9.参数10.统计量(二)单项选择题1.观察单位为研究中的()。A.样本B.全部对象C.影响因素D.个体2.总体是由()。A.个体组成B.研究对象组成C.同质个体组成D.研究指标组成3.抽样的目的是()。A.研究样本统计量B.由样本统计量推断总体参数C.研究典型案例研究误差D.研究总体统计量4.参数是指()。A.参与个体数B.总体的统计指标C.样本的统计指标D.样本的总和5.关于随机抽样,下列那一项说法是正确的()。A.抽样时应使得总体中的每一个个体都有同等的机会被抽取B.研究者在抽样时应精心挑选个体,以使样本更能代表总体C.随机抽样即随意抽取个体D.为确保样本具有更好的代表性,样本量应越大越好(三)是非题1.研究人员测量了100例患者外周血的红细胞数,所得资料为计数资料。2.统计分析包括统计描述和统计推断。3.计量资料、计数资料和等级资料可根据分析需要相互转化。(四)简答题某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什麽?四、习题答题(一)名词解释1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。2.随机抽样:随机抽样(randomsampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。3.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。\n中医药统计学复习指导及摸拟试题第7页共107页4.等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata)。等级资料又称有序资料。如患者的治疗结果可分为治愈、好转、有效、无效、死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量。5.概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。频率:在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。当试验重复很多次时P(A)=m/n。6.随机误差:随机误差(randomerror)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。7.系统误差:系统误差(systematicerror)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。8.随机变量:随机变量(randomvariable)是指取指不能事先确定的观察结果。随机变量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。9.参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。10.统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。(二)单项选择题1.D2.C3.B4.B5.A(三)是非题1.错。外周血的红细胞数是对血液中红细胞含量的测量值,其测量单位为(109/L),属计量资料。2.正确。3.正确。(四)简答题答案:不能。因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。既使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。\n2011年5月6日8第二章计量资料的统计描述一、内容计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。(一)频数分布表的编制频数表(frequencytable)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下:1.求数据的极差(range)。(2-1)minmaxXXR−=2.根据极差选定适当“组段”数(通常8—10个)。确定组段和组距。每个组段都有下限L和上限U,数据χ归组统一定为L≤χ=−≤=−≤=−≤=−=>=−≤=−≤=−≤=−=>=−≤=−≤=−≤=−=>=−≤=−≤=−≤=−=③(14.623.9)(23.9)(14.6)PXPXPX≤≤=≤−≤=19.523.919.519.514.619.5()()2.32.32.32.3XXPP−−−−≤−≤(1.91)(2.13)PuPu=≤−≤−=1(1.91)(2.13)−Φ−−Φ−=0.97190.01660.9553−=−=−=−=(2)设最重的5%,10%,2.5%男童体重的下限分别为kg,kg,kg1x2x3x05.0)(1=>xXP119.5()0.952.3xPu−≤=又∵∴(kg)95.0)645.1(=≤uP119.51.6452.3x−=123.3x=因为正态分布关于均数对称,所以2()0.10PXx>=>=>=>=222219.519.519.519.519.519.5()()()()0.102.32.32.32.32.32.3XxXxxxPPPu−−−−−−>=<−=<−=Φ−=查标准正态曲线下面积表故(kg)219.51.2822.3x−−=−222.4x=同理(kg)324.0x=2.解:脉搏数的95%正常值范围为:=76.101.96(9.32)=57.83~94.37SX96.1±±脉搏数的99%正常值范围为:=76.102.58(9.32)=52.05~100.37SX58.2±±3.解:(238+1)0.95=227.05,则95%上限即为第227个数据与第228个数据之间。×因为第227个和第228个数据均为2.6,故95%正常值范围的上限应为2.6。(/)ggµ\n2011年5月6日20第四章总体均数的估计和假设检验一、内容(一)基本概念1.抽样误差抽样研究中,样本统计量与总体参数间的差别称为抽样误差(samplingerror)。统计上用标准误(standarderror,SE)来衡量抽样误差的大小。不同的统计量,标准误的表示方法不同,如均数的标准误用表示,率的标准误用SP表示,回归系数的标准误用Sb表示等XS等。均数的标准误与标准差的区别见表4-1。表4-1均数的标准误与标准差的区别2.可信区间(1)定义、涵义:即按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidenceinterval,CI)。它的确切含义是:CI是随机的,总体参数是固定的,所以,CI包含总体参数的可能性是1-。不能理解为CI是固定随机的,总α体参数是随机固定的,总体参数落在CI范围内可能性为1-。当时,称为95%可α0.05α=信区间,记作95%CI。当时,称为99%可信区间,记作99%CI。0.01α=(2)可信区间估计的优劣:一定要同时从可信度(即1-的大小)与区间的宽度两方α面来衡量。((((二))))tttt分布与正态分布t分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t分布峰值较低,而尾部较高;③随自由度增大,t分布趋近与标准正态分布;当时,t分布的极限分ν→∞布是标准正态分布。((((三))))总体均数的估计参数估计有点估计和区间估计两种方式。总体均数的估计,见表4-2。均数的标准误标准差意义反映的抽样误差大小X反映一组数据的离散情况记法(样本估计值)XσXS(样本估计值S)σ计算=Xσnσ=XSnS=σnX2)(∑−µS=1)(2−−∑nXX控制方法增大样本含量可减小标准误。个体差异或自然变异,不能通过统计方法来控制。\n中医药统计学复习指导及摸拟试题第21页共107页表4-2总体均数的估计((((四))))两均数差别的比较1.样本均数和总体均数比较的t检验前提:服从正态分布:;:0H0µµ=1H0µµ≠,(4-1)XSXt0µ−=1−=nν2.配对设计的t检验前提:差值服从正态分布:;:0H0=dµ1H0≠dµ,(4-2)ddSdtµ−=1−=nν3.成组设计的两样本均数比较的t检验前提:两组数据均服从正态分布;两组总体方差相等:;:0H21µµ=1H21µµ≠,(4-3)2121XXSXXt−−=221−+=nnν其中,=,(4-4)21XXS−⎟⎟⎠⎞⎜⎜⎝⎛+21211nnSc()()211212222112−+−+−=nnSnSnSc表示两样本均数差值的标准误。21XXS−4.单样本u检验前提:当样本较大(如n>50)或总体已知时0σ(n较大时)(4-5)nSXu/0µ−=(已知时)(4-6)nXu/00σµ−=0σ5.大样本均数比较的u检验前提:样本足够大成组设计的两样本均数比较可用:点估计区间估计意义直接用样本统计量代替总体参数。用统计量和确定一个有概率意义的区间,以XxS该区间具有较大的可信度包含总体均数。估计方法以作为估计值X①小样本(,)xStXνα,2/−xStXνα,2/+②大样本(,)xSuX2/α−xSuX2/α+③两总体均数差值的可信区间(,)21,2/21xxStXX−−−να21,2/21xxStXX−+−να\n2011年5月6日22(4-7)222121xxSSXXu+−=6.要推断组间没有差别或差别很小,应采用等效检验(squivalencetest)。(五)假设检验的步骤及有关概念1.基本思想:把握“小概率事件在一次抽样试验中是几乎不可能发生”的原理。2.步骤:①建立假设、选用单侧或双侧检验、确定检验水准;②选用适当检验方法,计算统计量;③确定P值并作出推断结论。3.I类错误:为真(实际无差别),假设检验结果拒绝,接受(推论有差0H0H1H别)所犯的错误称为I类错误(typeIerror),I类错误的概率记作。αII类错误:为真(实际有差别),假设检验结果拒绝,接受(推论无差别)1H1H0H所犯的错误称为II类错误(typeIIerror),II类错误的概率记作。β4.1-称为检验效能,过去称把握度(poweroftest),即两总体确有差别,按水准βα能发现该差别的能力。二、试题分析(一)单项选择题1.当样本含量增大时,以下说法正确的是()A.标准差会变小B.样均数标准误会变小C.均数标准误会变大D.标准差会变大答案:B[[[[评析]]]]本题考点:这道题是考察均数标准误的概念。从均数标准误的定义讲,它反映的是均数抽样误差的大小,那么样本含量越大,抽样误差应该越小。从均数标准误的计算公式来看,也应是n越大,越小。nSSx/=xS2.区间±2.58的含义是()XxSA.99%的总体均数在此范围内B.样本均数的99%可信区间C.99%的样本均数在此范围内D.总体均数的99%可信区间答案:D[评析]本题考点:可信区间的含义。可信区间的确切含义指的是:总体参数是固定的,可信区间包含了总体参数的可能性是,而不是总体参数落在CI范围的可能性为。本题B、D均指样本均数,首先α−1α−1排除。A说总体均数在此范围内,显然与可信区间的含义相悖。因此答案为D。(二)是非题1.进行两均数差别的假设检验时,当P≤0.05时,则拒绝;当P>0.05时,则接受0H,认为两总体均数无差别。0H[评析]答案:错误。当P≤0.05,拒绝时,我们是依据这一小概率来下结论的。0Hα而当P>0.05时,我们对两总体均数无差别这一结论无任何概率保证,因此不能贸然下无差\n中医药统计学复习指导及摸拟试题第23页共107页别的结论。正确的说法是,按所取检验水准,接受的统计证据不足。α1H2.通常单侧检验较双侧检验更为灵敏,更易检验出差别,应此宜广泛使用。[评析]答案:错误。根据专业知识推断两个总体是否有差别时,是甲高于乙,还是乙高于甲,当两种可能都存在时,一般选双侧;若根据专业知识,如果甲不会低于乙,或者研究者仅关心其中一种可能时,可选用单侧。一般来讲,双侧检验较为稳妥。单侧检验,应以专业知识为依据,它充分利用了另一侧的不可能性,故检出率高,但应慎用。3.只要增加样本含量到足够大,就可以避免I和II型错误。[评析]答案:错误。因为通过假设检验推断出的结论具有概率性,因此出现错误判断的可能性就一定存在,无论用任何方法也不能消除这一可能。但是,我们可以使错误判断的可能性尽量地小,比如样本含量越大,犯I和II类错误的可能性越小。(三)简答题1.简述可信区间在假设检验问题中的作用。[评析]可信区间不仅能回答差别有无统计学意义,而且还能提示差别有无实际意义。可信区间只能在预先规定的概率即检验水准的前提下进行计算,而假设检验能够获得一较为α确切的概率P值。故将二者结合起来,才是对假设检验问题的完整分析。2.某医生就4-3资料,对比用胎盘浸液钩端螺旋体菌苗对328名农民接种前、后血清抗体的变化。表4-3328名农民血清抗体滴度及统计量t=(411.91-76.10)/=12.6,按查t界值表P<0.01,说明接2217.690.25+14ν=种后血清抗体有增长。问该医生在整理资料和分析资料过程中有何不妥?答:①资料整理不当,未整理成配对资料;②统计描述指标使用不当,对于滴度的倒数不宜用算术均数、标准差,有“0”出现,也不宜算几何均数。比较免疫前后抗体滴度的倒数,应计算中位数和四分位数间距;③不宜用t检验。可将抗体滴度的倒数经对数或平方根转换后,做配对t检验(ν=327)。(四)计算题1.某医院用新药与常规药物治疗婴幼儿贫血,将20名贫血患儿随机等分两组,分别接受两种药物治疗,测得血红蛋白增加量(g/L)见表4-4。问新药与常规药的疗效有无差别?表4-4两种药物治疗婴幼儿贫血结果解:本题属成组设计资料。210:µµ=H211:µµ≠H05.0=α抗体滴度的倒数XSxs02040801603206401280免疫前人数21127192425193076.1111.76.17免疫后人数216577675542523411.9470.525.90治疗药物血红蛋白增加量(g/L)新药组24362514263423201519常规药组14182015222421252723\n2011年5月6日24,2121xxSXXt−−=221−+=nnνt=,019.16485.27.2=18=νP>0.05因此,根据现有资料尚不能认为新药与常规药的疗效有差别。2.将20名某病患者随机分为两组,分别用甲、乙两药治疗,测得治疗前后的血沉(mm/h)见表4-5。问:(1)甲、乙两药是否均有效?(2)甲、乙两药疗效是否有别?表4-5甲、乙两药治疗某病情况(1)解:对甲、乙两药治疗数据分别采用配对t检验,得甲药:t=3.2/0.611=5.237=dSd/乙药:t=5.0/0.9428=5.303=dSd/v=9,P<0.001,按=0.05水准,拒绝H0,接受H1,故可认为甲乙两药治疗前后均有差别。α(2)解:由表中资料分别求得治疗前后差值,再做两组比较。t==-1.602,v=18,得0.2>P>0.1,按=0.05水准,不拒绝H0,尚不能认为2121ddSdd−−α甲、乙两药疗效有差别。3.测得某地90名正常成年女性红细胞数(104/mm3)的均值418、标准差为29。试求:(1)该地95%的正常成年女性红细胞数所在的范围;(2)该地正常成年女性红细胞数总体均数的95%可信区间。解:(1)用正态分布法估计正常值范围。因红细胞过多或过少均为异常,故此参考值范围应是双侧范围。上限:+1.96S=418+1.9629=474.84(104/mm3)X×下限:-1.96S=418-1.9629=361.16(104/mm3)。X×即(361.16,474.84)(104/mm3)。(2)由于n=90>50,故可近似为正态分布。上限:+1.96=418+1.9629/=423.99(104/mm3)XXS×90下限:-1.96=418-1.9629/=412.01(104/mm3)。XXS×90即(412.01,423.99)(104/mm3)。三、习题(一)单项选择题序号12345678910甲药治疗前30332631302728282529治疗后26292330302422252323序号11121314151617181920乙药治疗前29302933282630313030治疗后26232523232528222724\n中医药统计学复习指导及摸拟试题第25页共107页6.标准误的英文缩写为:A.SB.SEC.D.SDXS7.通常可采用以下那种方法来减小抽样误差:A.减小样本标准差B.减小样本含量C.扩大样本含量D.以上都不对8.配对设计的目的:A.提高测量精度B.操作方便C.为了可以使用t检验D.提高组间可比性9.以下关于参数估计的说法正确的是:A.区间估计优于点估计B.样本含量越大,参数估计准确的可能性越大C.样本含量越大,参数估计越精确D.对于一个参数只能有一个估计值10.关于假设检验,下列那一项说法是正确的A.单侧检验优于双侧检验B.采用配对t检验还是成组t检验是由实验设计方法决定的C.检验结果若P值大于0.05,则接受H0犯错误的可能性很小D.用u检验进行两样本总体均数比较时,要求方差齐性6.两样本比较时,分别取以下检验水准,下列何者所取第二类错误最小A.=0.05B.=0.01C.=0.10D.=0.20αααα7.统计推断的内容是A.用样本指标推断总体指标B.检验统计上的“假设”C.A、B均不是D.A、B均是8.当两总体方差不齐时,以下哪种方法不适用于两样本总体均数比较A.t检验B.t’检验C.u检验(假设是大样本时)D.F检验9.甲、乙两人分别从随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得,,,,则理论上1X21S2X22SA.=,=1X2X21S22SB.作两样本t检验,必然得出无差别的结论C.作两方差齐性的F检验,必然方差齐D.分别由甲、乙两样本求出的总体均数的95%可信区间,很可能有重叠10.以下关于参数点估计的说法正确的是A.CV越小,表示用该样本估计总体均数越可靠B.越小,表示用该样本估计总体均数越准确XσC.越大,表示用该样本估计总体均数的可靠性越差XσD.S越小,表示用该样本估计总体均数越可靠(二)名词解释1.统计推断2.抽样误差\n2011年5月6日263.标准误及Xσ4.可信区间5.参数估计6.假设检验中P的含义7.I型和II型错误8.检验效能9.检验水准(三)是非题1.若两样本均数比较的假设检验结果P值远远小于0.01,则说明差异非常大。2.对同一参数的估计,99%可信区间比90%可信区间好。3.均数的标准误越小,则对总体均数的估计越准确。(四)简答题1.假设检验时,当P0.05,则拒绝H0,理论依据是什么?≤2.假设检验中与P的区别何在?α(五)计算题1.治疗10名高血压病人,对每一种病人治疗前、后的舒张压(mmHg)进行了测量,结果见(表4-6),问治疗前后有无差异?表4-610名高血压病人治疗前后的舒张压(mmHg)2.某医院病理科研究人体两肾的重量,20例男性尸解时的左、右肾的称重记录见表4-7,问左、右肾重量有无不同?表4-720例男性尸解时左、右肾的称重记录病例编号12345678910治疗前117127141107110114115138127122治疗后12310812010710098102152104107编号左肾(克)右肾(克)11701502155145314010541151005235222612511571301208145105910512510145135111551501211012513140150141451401512090\n中医药统计学复习指导及摸拟试题第27页共107页3.有13例健康人,11例克山病人的血磷测定值(mg%)如表4-8所示,问克山病人的血磷是否高于健康人?表4-8健康人与克山病人的血磷测定值(mg%)2.某生化实验室测定了几组人的血清甘油三酯含量(mg%)见表4-9,试分析比较工人与干部,男与女的该项血酯水平。表4-9正常成人按不同职业、性别分类的的血清甘油三酯含量(mg%)四、习题答题(四)单项选择题1.B2.C3.D4.B5.B6.D7.D8.A9.D10.C(五)名词解释1.统计推断:通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断(statisticalinference)。2.抽样误差:由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差(samplingerror)。3.标准误及:通常将样本统计量的标准差称为标准误。许多样本均数的标准差Xσ称为均数的标准误(standarderrorofmean,SEM),它反映了样本均数间的离散程度,Xσ也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。4.可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidenceinterval,CI)。它的确切含义是:可信区间包含总体参数的可能性是1-,而不是总体参数落在该范围的可能性为1-。αα5.参数估计:指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区间估计。6.假设检验中P的含义:指从H0规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。16130120171051001895100191009020105125健康人170155140115235125130145105145患者1501251501409012010010090125人数平均数标准差工人112106.4929.09干部10695.9326.63男116103.9127.96女10297.9328.71\n2011年5月6日287.I型和II型错误:I型错误(typeIerror),指拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用表示;II型错误(typeIIerror),指接受了实际上不成α立的H0,这类“存伪”的误称为II型错误,其概率大小用表示。β8.检验效能:1-称为检验效能(poweroftest),它是指当两总体确有差别,按规定β的检验水准所能发现该差异的能力。α9.检验水准:,是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准(levelofatest),记为。α(六)是非题1.错。P值的大小只能说明差异是否有统计学意义,同样的差异,例数越多,P值越小。2.错。可信区间的优劣要通过两点衡量:区间的可信度;区间的宽度。因此不能笼统的通过区间可信度的大小来评价优劣。3.正确。标准误越小,可信区间越窄,对总体均数估计的准确程度越高。(七)简答题1.答:P值系由H0所规定的总体做随机抽样,获得等于及大于(或等于及小于)依据现有样本信息所计算得的检验统计量的概率。当P0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于,因为小概≤α率事件几乎不可能在一次试验中发生,所以拒绝H0。同时,下“有差别”的结论的同时,我们能够知道可能犯错误的概率不会大于,也就是说,有了概率保证。α2.答:以t检验为例,与P都可用t分布尾部面积大小表示,所不同的是:值是αα指在统计推断时预先设定的一个小概率值,就是说如果H0是真的,允许它错误的被拒绝的概率。P值是由实际样本获得的,是指在H0成立的前提下,出现等于或大于现有检验统计量的概率。(八)计算题1.解:本题属配对设计资料,故应用配对t检验方法计算。t=2.484,v=9,P<0.05,按=0.05水准拒绝H0,认为治疗前后有差别(注:此类研究是非随机的自身前后对比研究,α要确认疗效,应设立平行对照)。2.解:本题属配对设计资料,故应用配对t检验方法计算。t=2.157,v=19,P<0.05,按=0.05水准拒绝H0,认为左、右肾重量差别有统计学意义,右较左肾轻。α3.解:本题属成组设计资料,故应用成组t检验方法计算。t=2.539,v=22,P<0.05,按=0.05水准拒绝H0,认为二者血磷含量差别有统计学意义,克山病人的血磷高于健康人。α(注:此类研究是非随机化的对比研究,如果病人与健康人不具可比性,如居住地不同、性别不同、年龄不同,则不能保证结论正确。4.解:本题可通过计算两均数差值的95%或99%可信区间来判断两总体均数的差别。工人与干部均数差值的95%和99%可信区间分别为:(3.10,18.02),(0.73,20.39),均不包含0在内,故可认为工人与干部血清甘油三酯含量的总体均属有差别。男性与女性均数差值的95%和99%可信区间分别为:(-1.60,13.56),(-4.01,15.97),均包含0在内,故尚不能认为男性与女性血清甘油三酯含量的总体均属有差别。\n中医药统计学复习指导及摸拟试题第29页共107页第五章方差分析一、教学内容((((一))))方差分析的基本思想1.基本思想方差分析(analysisofvariance,ANOVA)的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(sumofsquaresofdeviationsfrommean,SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F分布作出统计推断,判断各因素对各组均数有无影响。2.分析三种变异(1)组间变异:各处理组均数之间不尽相同,这种变异叫做组间变异(variationamonggroups),组间变异反映了处理因素的作用(处理确有作用时),也包括了随机误差(包括个体差异及测定误差),其大小可用组间均方(MS组间)表示,即MS组间=组间组间ν/SS,其中,SS组间=,=k-1为组间自由度。k表示处理组数。21)(xxnkiii−∑=组间ν(2)组内变异:各处理组内部观察值之间不尽相同,这种变异叫做组内变异(variationwithingroups),组内变异反映了随机误差的作用,其大小可用组内均方()表示,组内MS,其中,,为组内均方自由组内组内组内ν/SSMS=∑∑==⎥⎦⎤⎢⎣⎡−=kinjiijixxSS112)(组内kN−=组内ν度。(3)总变异:所有观察值之间的变异(不分组),这种变异叫做总变异(totalvariation)。其大小可用全体数据的方差表示,也称总均方(MS总)。按方差的计算方法,MS总=,其中SS总=,k为处理组数,为第i组例数,=N-1为总的总总ν/SS211)(∑∑==−kinjijixxin总ν自由度,N表示总例数。(二)方差分析的应用条件(1)各样本是相互独立的随机样本,且来自正态分布总体。(2)各样本的总体方差相等,即方差齐性(homoscedasticity)。(三)不同设计资料的方差分析1.完全随机设计的单因素方差分析(1)资料类型:完全随机设计(completelyrandomdesign)是将受试对象完全随机地分配到各个处理组。设计因素中只考虑一个处理因素,目的是比较各组平均值之间的差别是否由处理因素造成。(2)方差分析表:见表5-1。FF时,拒绝H0:。≥α12kµµµ===⋯⋯表5-1完全随机设计方差分析计算表来源SSνMSF值组间SS组间1−=k组间νMS组间=组间组间νSSF=组内组间MSMS\n2011年5月6日302.随机区组设计的两因素方差分析(1)资料类型:随机区组设计(randomizedblockdesign)是将受试对象按自然属性(如实验动物的窝别、体重,病人的性别、年龄及病情等)相同或相近者组成单位组(区组),然后把每个组中的受试对象随机地分配给不同处理。设计中有两个因素,一个是处理因素,另一个是按自然属性形成的单位组。单位组的选择原则是“单位组间差别越大越好,单位组内差别越小越好”。(2)方差分析表:见表5-2。F处理F时,拒绝H0:。≥α12kµµµ===⋯⋯表5-2随机区组设计方差分析计算表3.多个样本均数的多重比较如果方差分析结果表明各组间有显著差别,则需要进一步进行两两比较,也称均数间的多重比较(multiplecomparison)。进行两两比较的方法主要有:(1)LSD-t检验:称为最小显著差异t检验。适用于k组中某一对或某几对在专业上有特殊意义的均数间差异的比较。检验统计量为t值,自由度为方差分析表中的误差自由度,查t界值表。其中(5-1)ABdBASXXt−=)(11BAABnndMSS+=误差(2)Dunnett-t检验:它适用于k-1个试验组与一个对照组均数差别的多重比较,检验统计量为t值,自由度为方差分析表中的误差自由度,查Dunnet-t界值表。,其中=(5-2)00xxiiSxxt−−=0xxiS−)11(0nnMSi+误差(3)SNK-q检验:在方差分析结果拒绝H0时采用。适用于所有组均数的两两比较。检验统计量为q,自由度为比较组数a和方差分析表中的误差自由度,查q界值表。其中,(5-3)()ABdXXSq−=11()2ABnndMSS=+误差组内(误差)SS组内=SS总-SS组间=-=N-k组内ν总ν组内νMS组内=组内组内νSS总计SS总=N-1总ν变异来源SSνMSF值处理组间SS处理=k-1处理νMS处理=处理处理νSSF处理=误差处理MSMS单位组间SS单位=b-1单位νMS单位=单位单位νSSF单位=误差单位MSMS误差SS误差=SS总-SS处理-SS单位=--误差ν总ν处理ν单位ν=N-k-n+1MS误差=误差误差νSS总计SS总=N-1总ν\n中医药统计学复习指导及摸拟试题第31页共107页4.多组资料方差起行检验当各组标准差相差较大(如1.5倍)时,需检验资料是否满足方差齐性的条件。5.变量变换当资料不能满足方差分析的条件时,如果进行方差分析,可能造成错误的判断。因此对于明显偏离上述应用条件的资料,可以通过变量变换的方法来加以改善。常用的变量变换方法有:(1)对数变换对数变换不仅可以将对数正态分布的数据正态化,还能使数据方差达到齐性,特别是各样本的标准差与均数成比例或变异系数接近于一个常数时。变换公式为:(5-4)XXlg=′当原始数据中有小值或零时,可用)1lg(+=′XX(2)平方根变换常用于使服从Possion分布的计数资料或轻度偏态的资料正态化;当各样本的方差与均数呈正相关时,可使资料达到方差齐性。变换公式为:(5-5)XX=′当原始数据中有小值或零时,可用5.0+=′XX(3)倒数变换常用于数据两端波动较大的资料,可使极端值的影响减小。变换公式为:(5-6)XX/1=′(4)平方根反正弦变换常用于服从二项分布的率或百分比资料。一般地,当总体率较小(<30%)或较大(>70%)时,通过平方根反正弦变换,可使资料接近正态,且达到方差齐性的要求。变换公式为:(5-7)XX1sin−=′(5)秩转换后,采用秩和检验比较组间差别(祥见第九章)。6.两因素析因设计方差分析处理含有两因素两水平的全面组合。例如治疗肿瘤术后病人,可采用4种方法:既不放疗也不化疗(a0b0);放疗不化疗(a1b0);不放疗化疗(a0b1);既放疗又化疗(a1b1)。设放疗为A因素(两水平),化疗为B因素(两水平),则构成22析因设计,目的是分析A×的主效应,B的主效应及AB的交互作用。7.重复测量资料的方差分析受试对象随机分组后,多次测量某一观察指标,以比较处理效应在不同时间点有无变化。如试验组和对照组的轻度高血压病人入院前、治疗后1天、2天、3天、4天的血压变化。设处理分组为A因素,重复测量的时间点为B因素,目的是分析A的主效应和AB的交互作用。二、试题分析\n2011年5月6日321.完全随机设计资料的方差分析中,必然有()A.SS组内0.05,按α=0.05水准,不拒绝H0,即不能认为春与夏、秋与冬季湖水中氯化物含量有差别。而其它4组均有P<0.01,按α=0.05水准,拒绝H0,接受H1,即认为春夏两季湖水中氯化物含量高于秋冬两季。2.完全随机设计单因素芳差分析H0:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数相等.H1:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等.α=0.058.276430/288/)(22===∑∑nXCij2.1598.276429242=−=−=∑∑CXSSij总2222[()/](9284112)/102764.841.6ijiSSXnC=−=++−=∑∑组间6.1176.412.159=−=−=组间总组内SSSSSS变异来源SSνMSF总变异组间变异组内变异281.635141.170140.4653132847.0575.0179.380组别春夏秋冬iX位次20.99119.91216.49316.164对比组两均数之差组数q值P值1,41,31,22,42,33,44.834.501.083.303.420.334323226.0995.6821.3644.7354.3190.417<0.01<0.01>0.05<0.01<0.01>0.05\n2011年5月6日38表5-11方差分析表查F界值表,。因F〉得P<0.05,按α=0.05水准,拒绝H0,35.327,2,05.0=F27,2,05.0F接受H1,认为大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗对生存日数有影响.用Dunnet-t检验方法进行均数间多重比较:H0:任一组与对照组总体均数相同H1:任一组与对照组总体均数不同α=0.05由Dunnett-t检验公式,伤寒与对照组比较:1012(1/1/)(9.2-11.2)/4.36(1/101/10)2/0.932.14XXtMSnn−=+=+=−=−误差=27,查Dunnett-t检验界值表,得P<0.05。按α=0.05水准,拒绝H0,接受H1,故可认ν为接种伤寒菌苗组较对照组生存日数减少。百日咳与对照组比较:99.2)10/110/1(36.4/)2.114.8(−=+−=百对t=27,查Dunnett-t检验界值表,得P<0.05,按α=0.05水准,拒绝H0,接受H1,认为接ν种百日咳菌苗组较对照组生存日数减少。3.完全随机设计资料方差分析H0:三种抗凝剂所作血沉值之间没有差别H1:三种抗凝剂所作血沉值之间存在差别α=0.05表5-12方差分析表查F界值表,所以P>0.05,按α=0.05水准,不能拒绝H0。即尚不能认,88.312,2,05.0=F为三种抗凝剂所作血沉值之间有差别。4.首先计算误差均方3086.1266.0)19(75.0)18(66.0)15(68.0)15(43.0)18()1(222222=×−+×−+×−+×−+×−=−=∑iisnSS误差305-35k-N===误差ν变异来源SSνMSF总变异组间变异组内变异159.241.6117.62922720.804.364.77变异来源SSνMSF总变异4014组间变异组内变异103021252.52\n中医药统计学复习指导及摸拟试题第39页共107页/12.3086/300.4103MSSSν===误差误差误差(1)损伤后0.5小时与对照组比H0:损伤后0.5小时与对照组组织含水量相等H1:损伤后0.5小时与对照组组织含水量不等α=0.0516.2)5181(4103.086.7865.79=+−=t以,处理数=4查Dunnett-t界值表,得界值2.25,因t=2.16<2.25,所以P>0.05。30=误差ν在α=0.05水准上,不拒绝H0,尚不能认为损伤后0.5小时与对照组组织含水量有差别。(2)损伤后3小时与对照组比H0:损伤后3小时与对照组组织含水量相等H1:损伤后3小时与对照组组织含水量不等α=0.0579.7778.862.49110.4103()85t−==+因t>2.25(界值),故P<0.05。在α=0.05水准上,拒绝H0,认为损伤后3小时与对照组的组织含水量有差别。(3)损伤后6小时与对照组比H0:损伤后6小时与对照组组织含水量相等H1:损伤后6小时与对照组组织含水量不等α=0.0580.9478.866.49110.4103()88t−==+因t>2.25(界值),故P<0.05。在α=0.05水准上,拒绝H0,认为损伤后6小时与对照组的组织含水量有差别。(4)治疗组与对照组比H0:治疗组与对照组组的织含水量相等H1:治疗组与对照组的组织含水量不等α=0.0579.6178.862.41110.4103()89t−==+因t>2.25(界值),故P<0.05。在α=0.05水准上,拒绝H0,认为治疗组与对照组的组织含水量有差别。5.随机去组设计方差分析,总例数N=36,处量组数k=3,区组数n=12。计算:441108162=−−=−−=误差饲料总区组SSSSSSSS351361=−=−=Nv总2131=−=−=kv饲料111121=−=−=nv区组221123361=+−−=+−−=nkNv误差根据计算结果填写方差分析表,见表5-11。\n2011年5月6日40表5-13方差分析表6.解:这两组资料用随机区组的方差分析为宜。(1)处理组间比较H0:不同治疗组血小板升高值相同H1:不同治疗组血小板升高值不全相同α=0.05(2)年龄组间比较H0:不同年龄组血小板升高值相同H1:不同年龄组血小板升高值不全相同α=0.05(3)计算,列方差分析表表5-14方差分析表查F界值表,因此,组间及区组间均为P<0.05。按α=0.050.05,2,104.10,F=0.05,4,103.48,F=水准,拒绝H0,可认为不同治疗组间血小板升高值不相同,不同年龄组患者血小板升高值也不相同。变异来源SSνMSFP处理间8240.8>0.05区组间441140.8>0.05误差110225总变异16235变异来源SSνMSF总变异组间区组间误差187.265129.00350.1328.1317251064.50210.0260.81379.33812.333\n中医药统计学复习指导及摸拟试题第41页共107页第六章分类资料的统计描述一、教学内容((((一))))绝对数绝对数是各分类结果的合计频数,反映总量和规模。如某地的人口数、发病人数、死亡人数等。绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。(二)常用相对数的意义及计算相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。常用相对数的意义及计算见表6-1。表6-1常用相对数的意义及计算((((三))))应用相对数时应注意的问题1.计算相对数的分母一般不宜过小。2.分析时不能以构成比代替率容易产生的错误有(1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率;(2)若用构成指标下频率指标的结论将导致错误结论,如某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。3.不能用构成比的动态分析代替率的动态分析。4.对观察单位数不等的几个率,不能直接相加求其总率。5.在比较相对数时应注意可比性通常应注意:(1)观察对象,研究方法、观察时间、地区和民族等因素应相同或相近;(2)其它影响因素在各组的内部构成是否相同。6.对样本率(或样本构成比)的比较应随机抽样,并做假设检验。常用相对数概念表示方式计算公式举例率(rate)又称频率指标,说明一定时期内某现象发生的频率或强度百分率(%)、千分率(‰)等单位时间内的发病率、患病率,如年(季)发病率、时点患病率等构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分布百分数疾病或死亡的顺位、位次或所占比重比(ratio)又称相对比,是A、B两个有关指标之比,说明A是B的若干倍或百分之几倍数或分数①对比指标,如男:女=106.04:100②关系指标,如医护人员:病床数=1.64③计划完成指标,如完成计划的130.5%%100×=单位总数可能发生某现象的观察数发生某现象的观察单位率%100×=观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比BA=比\n2011年5月6日42(四)标准化法1.标准化法(standardizationmethod)的意义和基本思想常用于内部构成不同的两个或多个率的比较。标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。2.标准化率的计算标准化率(standardizedrate)亦称调整率(adjustedrate)。常用的计算方法按已知条件有直接法和间接法。3.标准化法使用注意事项,如只用于组间比较,不能替代实际率等。(五)动态数列及其分析指标1.动态数列(dynamicseries)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。2.动态数列依据时间上的特点可分为⑴时点动态数列;⑵时期动态数列。3.动态数列常用的分析指标主要有⑴绝对增长量;⑵发展速度和增长速度,可计算1)定基比,即统一用某个时间的指标作基数,其它各时间的指标都与之相比;2)环比,即以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。⑶平均发展速度和平均增长速度。二、试题分析(一)单项选择题1.某医院某年住院病人中胃癌患者占4%,则()。A.4%是强度百分数B.4%是构成比C.4%是相对比D.4%是绝对数答案:B[[[[评析]]]]本题考点:对相对数概念的理解。常用的相对数有率、构成比、比等。构成比又称构成指标,说明某是一事物内部各组成部分所占的比重或分布。胃癌患者是该年全部住院病人的一组成部分,占住院病人的4%,则4%是构成比。特别注意率与构成比的区别与联系,两者经常容易混淆。2.欲比较两地死亡率,计算标准化率可以()。A.消除两地总人口数不同的影响B.消除两地各年龄组死亡人数不同的影响C.消除两地各年龄组人口数不同的影响D.消除两地抽样误差不同的影响。答案:C[评析]本题考点:标准化法的意义及应用。标准化法常用于内部构成不同的两个或多个率的比较。标准化法的目的,就是为了消除由于内部构成不同对总率比较带来的影响,使调整以后的总率具有可比性。故欲比较两地死亡率,计算标准化率可以消除两地年龄别人口数不同对死亡率的影响。10−==平均发展速度平均增长速度平均发展速度nnaa\n中医药统计学复习指导及摸拟试题第43页共107页3.计算麻疹疫苗接种后血清检查的阳转率,分母为()。A.麻疹易感人群B.麻疹患者数C.麻疹疫苗接种人数D.麻疹疫苗接种后的阳转人数答案:C[评析]本题考点:对相对数中率的概念的理解。率又称频率指标,说明某现象发生的频率或强度。其公式为:,计算麻疹疫苗接种后血清检查的阳转率,分母为可能发生血清阳转的人数,即为麻疹疫苗接种人数。(二)是非题1.某医院收治某病患者10人,其中8人会吸烟,占80%,则结论为“吸烟是发生该病的原因”。答案:错。[评析]本题考点:对相对数概念的理解。某医院收治某病患者10人,其中8人会吸烟,占80%,则80%为构成比或结构相对数。如果要探讨吸烟是否为发生该病的原因,应该比较吸烟人群与不吸烟人群该病的患病率。分析时不能以构成比代替率,若用构成指标下频率指标的结论将导致错误结论。2.某化工厂某病连续4年患病率分别为6.0%、9.7%、11.0%、15.4%,则该病4年总患病率为:(6.0+9.7+11.0+15.4)/4=10.53(%)。答案:错。[评析]本题考点:对应用相对数时应注意的问题的理解。应用相对数时对观察单位数不等的几个率,不能直接相加求其总率,而应该用总患病人数计算。因此该化工厂某病4年总患病率为10.53%是错误的。三、习题(七)单项选择题11.某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为()。A.该病男性易得B.该病女性易得C.该病男性、女性易患率相等D.尚不能得出结论12.甲县恶性肿瘤粗死亡率比乙县高,经标准化后甲县恶性肿瘤标化死亡率比乙县低,其原因最有可能是()。A.甲县的诊断水平高B.甲县的肿瘤防治工作比乙县好C.甲县的老年人口在总人口中所占比例比乙县小D.甲县的老年人口在总人口中所占比例比乙县大13.已知男性的钩虫感染率高于女性。今欲比较甲乙两乡居民的钩虫感染率,但甲乡人口女多于男,而乙乡男多于女,适当的比较方法是()。A.分别进行比较B.两个率比较的χ2检验C.不具备可比性,不能比较D.对性别进行标准化后再比较14.经调查得知甲乙两地的冠心病粗死亡率为40/10万,按年龄构成标化后,甲地冠心%100×=单位总数可能发生某现象的观察数发生某现象的观察单位率\n2011年5月6日44病标化死亡率为45/10万;乙地为38/10万,因此可以认为()。A.甲地年龄别人口构成较乙地年轻B.乙地年龄别人口构成较甲地年轻C.甲地冠心病的诊断较乙地准确D.甲地年轻人患冠心病较乙地多15.某地区某种疾病在某年的发病人数为a0,以后历年为a1,a2,……,an,则该疾病发病人数的年平均增长速度为()。A.B.C.D.16.某部队夏季拉练,发生中暑21例,其中北方籍战士为南方籍战士的2.5倍,则结论为()。A.北方籍战士容易发生中暑B.南方籍战士容易发生中暑C.北方、南方籍战士都容易发生中暑D.尚不能得出结论17.某地区某种疾病在某年的发病人数为a0,以后历年为a1,a2,……,an,则该疾病发病人数的年平均发展速度为()。A.B.C.D.18.相对比包括的指标有()。A.对比指标B.计划完成指标C.关系指标D.以上都是(八)名词解释1.相对数2.率3.构成比4.比5.标准化法6.动态数列7.时点动态数列8.定基比9.环比10.平均增长速度(九)简答题1.常用的相对数指标有哪些?它们的意义和计算上有何不同?2.为什么不能以构成比代率?请联系实际加以说明。3.应用相对数时应注意哪些问题?(十)计算题1.某医院现有工作人员900人,其中男性760人,女性140人,在一次流感中发病者有108人,其中男性患者79人,而女性患者29人。试计算:⑴该院总流感发病率?⑵男、女流感发病率?⑶男、女患者占总发病人数的百分比?2.下表为一抽样研究资料,试:填补空白处数据并根据最后三栏结果作简要分析。表6-2某地各年龄组恶性肿瘤死亡情况年龄(岁)⑴人口数⑵死亡总数⑶其中恶性肿瘤死亡数⑷恶性肿瘤死亡占总死亡的%⑸恶性肿瘤死亡率(1/10万)⑹年龄别死亡率(‰)⑺1...10++++naaannnaaa110+××nnaa010−nnaannaaa110+××nnaa010−nnaa1...10++++naaan\n中医药统计学复习指导及摸拟试题第45页共107页3.某城市1971~1981年乙脑发病率如下,试作动态分析。表6-3某城市1971~1981年乙脑发病率(1/10万)4.试就下表资料分析比较甲、乙两医院乳腺癌手术后的五年生存率。表6-4甲、乙两医院乳腺癌手术后的五年生存率(%)四、习题答题(一)单项选择题1.D2.D3.D4.B5.D6.D7.C8.D(二)名词解释1.相对数(relativenumber)是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、构成比、比等。2.率(rate)又称频率指标,说明一定时期内某现象发生的频率或强度。计算公式为:,表示方式有:百分率(%)、千分率(‰)等。3.构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分布。计算公式为:,表示方式有:百分数等。4.比(ratio)又称相对比,是A、B两个有关指标之比,说明A是B的若干倍或百分之几。计算公式为:,表示方式有:倍数或分数等。5.标准化法(standardizationmethod)是常用于内部构成不同的两个或多个率比较的一种方法。标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。6.动态数列(dynamicseries)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。7.时点动态数列是依据指标在时间方面的特点划分的一种动态数列,各个指标是在时点上的数据,如历年人口数、性别比例、现场调查中的患病人数、时点患病率等。0~8292042.9020~6319.0525.7340~281611724260及以上32合计1670907159012.59年份19711972197319741975197619771978197919801981发病率20.526.311.873.071.081.382.292.312.472.762.94腋下淋巴结转移甲医院乙医院病例数生存数生存率病例数生存数生存率无453577.7730021571.67有71045068.38834250.60合计75548564.2438325767.10%100×=单位总数可能发生某现象的观察数发生某现象的观察单位率%100×=观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比BA=比\n2011年5月6日468.定基比即统一用某个时间的指标作基数,其它各时间的指标与之相比。9.环比即以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。10.平均增长速度是用于概括某一时期的平均速度变化,即该时期环比的几何均数减1,其计算公式为:(三)简答题1.常用的相对数指标有:率、构成比和相对比。意义和计算公式如下:率又称频率指标,说明某现象发生的频率或强度,常以100%、1000‰等表示。构成比又称构成指标,说明某一事物内部各组成部分所占的比重或分布。常以百分数表示。比又称相对比,是A、B两个有关指标之比,说明两者的对比水平,常以倍数或百分数表示,其公式为:相对比=甲指标/乙指标(或100%)甲乙两个指标可以是绝对数、相对数或平均数等。2.率和构成比所说明的问题不同,绝不能以构成比代率。构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。例如:以男性各年龄组高血压分布为例,50~60岁年龄组的高血压病例占52.24%,所占比重最大,60~岁组则只占到6.74%。这是因为60~岁以上受检人数少,造成患病数低于50~60岁组,因而构成比相对较低。但不能认为年龄在50~60岁组的高血压患病率最严重,而60岁以上反而有所减轻。若要比较高血压的患病率,应该计算患病率指标。3.应用相对数时应注意的问题有:⑴计算相对数的分母一般不宜过小。⑵分析时不能以构成比代替率。⑶不能用构成比的动态分析代替率的动态分析。⑷对观察单位数不等的几个率,不能直接相加求其总率。⑸在比较相对数时应注意可比性。⑹对样本率(或构成比)的比较应随机抽样,并做假设检验。(四)计算题:1.⑴该院总流感发病率为:(108/900)×100%=12%⑵男性流感发病率为:(79/760)×100%=10.39%;女性流感发病率为:(29/140)×100%=20.71%⑶男性患者占总发病人数的百分比为:(79/108)×100%=73.15%;女性患者占总发病人数的百分比为:(29/108)×100%=26.85%2.填补空白处数据,见下表()内。表6-5某地各年龄组恶性肿瘤死亡情况年龄(岁)⑴人口数⑵死亡总数⑶其中恶性肿瘤死亡数⑷恶性肿瘤死亡占总死亡的%⑸=⑷/⑶恶性肿瘤死亡率(1/10万)⑹=⑷/⑵年龄别死亡率(‰)⑺0~82920(138)42.90(4.82)(1.66)20~(46638)63(12)19.0525.73(1.35)40~2816117242(24.42)(149.14)(6.11)60~(9371)(342)32(9.36)(341.48)(36.50)%100×=单位总数可能发生某现象的观察数发生某现象的观察单位率%100×=观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比110−=−=nnaa平均发展速度平均增长速度\n中医药统计学复习指导及摸拟试题第47页共107页根据最后三栏结果作简要分析。由表中第⑸栏可知:40~岁组恶性肿瘤死亡占总死亡比重最高,近1/4;20~岁组次之,占19.05%;60~岁组恶性肿瘤死亡人数虽多,但仅占总死亡的9.36%;0~岁组恶性肿瘤死亡占总死亡比重最低,仅占2.90%。由表中第⑹栏可知:恶性肿瘤的年龄别死亡率随年龄的增大而增加,以60~岁组为最高,为341.50/10万。故可认为随年龄增大,患恶性肿瘤的危险增加,应引起足够的重视。由表中第⑺栏可知:年龄别死亡率以20至40岁最低,以后随年龄的增加而增加,60岁以后高达36.50‰。3.计算结果见表6-6。表6-6某市1971~1981年乙脑发病率动态分析4.两医院乳腺癌患者的病情构成不同,比较两医院的标准化率,计算过程见表6-7。表6-7甲、乙两医院乳腺癌手术后的五年生存率标化(甲乙两医院合计为标准)甲医院乳腺癌手术后的五年生存率标化生存率:乙医院乳腺癌手术后的五年生存率标化生存率:因为甲、乙两医院有无腋下淋巴结转移的病情构成不同,故标化后,甲医院乳腺癌手术后的五年生存率高于乙医院,校正了标化前甲医院低于乙医院的情况。合计1670907159012.59(53.86)(4.28)年份发病率(1/10万)绝对增长量发展速度(%)增长速度(%)累计逐年定基比环比定基比环比197120.52——100100——19726.31-14.21-14.2130.7530.75-69.25-69.2519731.87-18.56-4.449.1129.64-90.89-70.3619743.07-17.451.2014.96164.17-85.0464.1719751.08-19.44-1.995.2635.18-94.74-64.8219761.38-19.140.306.73127.78-93.2727.7819772.29-18.230.9111.16165.94-88.8465.9419782.31-18.210.0211.26100.87-88.740.8719792.47-18.050.1612.04106.93-87.966.9319802.76-17.760.2913.45111.74-86.5511.7419812.94-17.580.1814.33106.52-85.676.52腋下淋巴结转移⑴标准病例数Ni⑵甲医院乙医院原生存率Pi⑶预期生存人数NiPi⑷=⑵⑶原生存率Pi⑸预期生存人数NiPi⑹=⑵⑸无34577.7726871.67247有合计79368.3850350.604011138(∑Ni)64.24771(∑NiPi)67.10648(∑NiPi)%75.67%1001138771%100'=×=×=∑NPNpii%94.56%1001138648%100'=×=×=∑NPNpii\n2011年5月6日48第七章二项分布与PoissonPoissonPoissonPoisson分布及其应用一、内容(一)基本概念1.概率分布二项分布(binomialdistribution)和Poisson分布是统计学中很重要的两种分布。二项分布:若一个随机变量X,它的可能取值是0,1,…,n,且相应的取值概率为(7-1)knknkkXP−−==)1()()(ππ则称此随机变量X服从以n、π为参数的二项分布,记为X~B(n,π)。Poisson分布:若离散型随机变量X的取值为0,1,…,n,且相应的取值概率为(μ>0)(7-2)µµ−==ekkXPk!)(则称随机变量X服从以μ为参数的Poisson分布(PoissonDistribution),记为X~P(μ)。2.两种分布成立的条件(1)二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。(2)Poisson分布成立的条件:①平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关;②独立增量性:在某个观察单位上X的取值与前面各观察单位上X的取值无关;③普通性:在充分小的观察单位上X的取值最多为1。(二)分布参数1.二项分布,X~B(n,π)X的均数μX=nπ(7-3)X的方差=nπ(1-π)(7-4)2XσX的标准差=(7-5)Xσ)1(ππ−n2.Poisson分布,X~P(μ)X的均数μX=μ(7-6)X的方差=μ(7-7)2XσX的标准差σX=(7-8)µ(三)分布特性1.可加性二项分布和Poisson分布都具有可加性。如果X1,X2,…Xk相互独立,且它们分别服从以ni,p(i=1,2,…,k)为参数的二项分布,则X=X1+X2+…+Xk服从以n,p(n=n1+n2+…+nk)为参数的二项分布。如果X1,X2,…,Xk相互独立,且它们分别服从以μi(i=1,2,…,k)为参数的Poisson分布,则X=X1+X2+…+Xk服从以μ(μ=μ1+μ2+…+μk)为参数的Poisson分布。2.近似分布特定条件下,二项分布、Poisson分布可近似于某种其它的分布,这一特性拓宽了它们的应用范围。\n中医药统计学复习指导及摸拟试题第49页共107页二项分布的正态近似:当n较大,π不接近0也不接近1时,二项分布B(n,π)近似正态分布N(nπ,)。)1(ππ−n二项分布的Poisson分布近似:当n很大,π很小,为一常数时,二项分布近nπλ=似于Poisson分布。Poisson分布的正态近似:Poisson分布P(μ),当μ相当大时(≥20),其分布近似于正态分布。(四)应用1.二项分布的应用(1)总体率的区间估计有查表法和正态近似法两种方法。当n≤50时可以通过查表求总体率的95%和99%可信区间。当二项分布满足近似正态分布的条件时(n较大,样本率p不接近0也不接近1),可用正态近似法求总体率的1-α可信区间:(p-uαSp,p+uαSp)(7-9)Sp=(7-10)npp)1(−(2)样本率与总体率比较应用二项分布的概率计算公式计算事件(一般指X取某给定值一侧的所有值)发生的概率,再比较其与检验水准α大小,推断样本所在的总体率与给定总体率的关系。(3)两样本率的比较根据独立的两个正态变量的差也服从正态分布的性质和二项分布在一定条件下的近似正态分布特性,当两个样本的含量n1和n2较大,且p1、(1-p1)、p2、(1-p2)均不太小,可用u检验方法对两样本率对应的总体率作统计推断。(7-11)2121ppSppu−−=(7-12))11)(1(212121212121nnnnXXnnXXSpp+++−++=−2.Poisson分布的应用(1)总体均数的区间估计有查表法和正态近似法两种方法。当样本计数X≤50时,可用查表法求得总体均数的95%或99%可信区间。当样本计数X>50时,可利用Poisson分布的正态近似性,计算其总体均数(1-α)可信区间如下:(,)(7-13)XuXα−XuXα+(2)样本均数与总体均数的比较有直接计算概率法和正态近似法两种方法。样本均数与总体均数比较的目的是推断此样本所代表的未知总体均数μ是否等于已知总体均数μ0。当总体均数较小时,可采用直接计算概率法进行比较。X取某一值的概率以Poisson分布的概率密度函数来计算,即\n2011年5月6日50(k=0,1,2,…)µµ−==ekkXPk!)(注意:样本均数与总体均数比较时,应以X取大于等于(样本均数大于总体均数时)或小于等于(样本均数小于总体均数时)样本均数的所有值的概率总和同检验界值α进行比较,切不可仅以X取样本均数的概率同检验界值进行比较。当总体均数较大时,可用正态近似法进行统计推断。此时Poisson分布近似正态分布,故可计算标准正态统计量u,(7-14)00uuXu−=通过u值得出相应的概率,推断样本均数与总体均数的关系。(3)两个样本均数的比较:两个样本计数均较大时,可根据Poisson分布的正态近似性对其进行u检验。两个样本观察单位相同时,用下式计算u值。(7-15)2121XXXXu+−=两个样本观察单位不同时,用下式计算u值。(7-16)2222112211//nXnXnXnXu+−=二、试题分析((((一))))单项选择题1.某地人群中高血压的患病率为π,由该地区随机抽查n人,则()A.样本患病率p=X/n服从B(n,π)B.n人中患高血压的人数X服从B(n,π)C.患病人数与样本患病率均不服从B(n,π)D.患病人数与样本患病率均服从B(n,π)答案:B[[[[评析]]]]本题考点:二项分布概念的理解。二项分布中所指的随机变量X代表n次试验中出现某种结果的次数,具体到本题目就是指抽查的n个人中患高血压的人数,因此答案为B。2.二项分布近似正态分布的条件是()A.n较大且π接近0B.n较大且π接近1C.n较大且π接近0或1D.n较大且π接近0.5答案:D[评析]本题考点:二项分布的正态近似特性。从对二项分布特性的描述中可知:当n较大,π不接近0也不接近1时,二项分布\n中医药统计学复习指导及摸拟试题第51页共107页B(n,π)近似正态分布N(nπ,)。π不接近0也不接近1,等同于π接近0.5,)1(ππ−n因而此题目答案为D。3.以下分布中,其均数和方差总是相等的是()A.正态分布B.对称分布C.Poisson分布D.二项分布答案:C[评析]本题考点:Poisson分布的特性。Poisson分布P(μ)的参数只有一个,即μ。它的均数和方差均等于μ,这一点大家需要牢记。4.测得某地区井水中细菌含量为10000/L,据此估计该地区每毫升井水中细菌平均含量的95%可信区间为()A.B.1000096.110000±1096.110±C.D.10001000096.110±1000096.110±答案:C[评析]本题考点:Poisson分布的正态近似性。当X较大(一般大于50)时,Poisson分布近似正态分布,按照正态分布资料的计算公式计算该地区井水中平均每升细菌含量的95%可信区间,再除以1000即得平均每毫升井水中细菌的平均含量(设,有1000XY=)。1000100001000==XYSS(二)是非题从装有红、绿、蓝三种颜色的乒乓球各500、300、200只的暗箱中随机取出10个球,以X代表所取出球中的红色球数,则X服从二项分布B(10,0.5)。()答案:正确。[评析]本题考点:二项分布的定义。二项分布成立的条件是:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。此题目所述情况完全满足后两个条件,关键在于第一个条件的判断,从表面上看,每次试验的结果有三种,但本题目所关心的试验结果是“红色与否”,因而该试验结果仍为两种互斥的情况—“红色”和“非红色”。所以,此题目所述情况满足以上三个条件,X服从二项分布B(10,0.5)。(三)计算题炮击命中目标的概率为0.2,共发射了14发炮弹。已知至少要两发炮弹命中目标才能摧毁之,试求摧毁目标的概率。答案:0.802[评析]本题的考点:二项分布概率函数的理解和应用能力。摧毁目标的概率即有两发或两发以上炮弹命中目标的概率,此概率又等于1减去只有一发命中或无一命中的概率之差。根据二项分布的概率函数计算如下:[][]802.0154.0044.01)2.01(2.0)()2.01(111311411412=+−=−××+−−=−=≤≥XXPP\n2011年5月6日52三、习题(一)名词解释1.二项分布2.Poisson分布3.Bernoulli试验(二)单项选择题:1.X1、X2分别服从二项分布B(n1,p1)、B(n2,p2),且X1、X2相互独立,若要X=X1+X2也服从二项分布,则需满足下列条件()。A.X1=X2B.n1=n2C.p1=p2D.n1p1=n2p22.二项分布B(n,p)的概率分布图在下列哪种条件下为对称分布()。A.n=50B.p=0.5C.np=1D.p=13.Poisson分布P()满足下列何种条件时近似正态分布N(,)()。µµµA.相当大B.=1µµC.=0D.=0.5µµ4.已知某高校学生近视眼的患病率为50%,从该高校随机挑选3名学生,其中2人患近视眼的概率为()。A.0.125B.0.375C.0.25D.0.55.某自然保护区狮子的平均密度为每平方公里100只,随机抽查其中一平方公里范围内狮子的数量,若进行100次这样的抽查,其中的95次所得数据应在以下范围内()。A.5~195B.80.4~119.6C.95~105D.74.2~125.8(三)简答题1.服从二项分布及Poisson分布的条件分别是什么?2.二项分布、Poisson分布分别在何种条件下近似正态分布?3.在何种情况下,可以用率的标准误Sp描述率的抽样误差?四、习题答题要点(一)名词解释1.二项分布:若一个随机变量X,它的可能取值是0,1,…,n,且相应的取值概率为knknkkXP−−==)1()()(ππ则称此随机变量X服从以n、π为参数的二项分布(BinomialDistribution),记为X~B(n,π)。2.Poisson分布:若离散型随机变量X的取值为0,1,…,n,且相应的取值概率为(μ>0)µµ−==ekkXPk!)(\n中医药统计学复习指导及摸拟试题第53页共107页则称随机变量X服从以μ为参数的Poisson分布(PoissonDistribution),记为X~P(μ)。3.Bernoulli试验:将感兴趣的事件A出现的试验结果称为“成功”,事件A不出现的试验结果称为“失败”,这类试验就称为Bernoulli试验(BernoulliTest)。(二)单项选择题1.C2.B3.A4.B5.B(三)问答题1.二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。Poisson分布成立的条件:①平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关;②独立增量性:在某个观察单位上X的取值与前面各观察单位上X的取值无关;③普通性:在充分小的观察单位上X的取值最多为1。2.二项分布的正态近似:当n较大,π不接近0也不接近1时,二项分布B(n,π)近似正态分布N(nπ,)。)1(ππ−nPoisson分布的正态近似:Poisson分布P(μ),当μ相当大时(≥20),其分布近似于正态分布。3.当率P所来自的样本近似服从正态分布时,即n较大,P不接近0也不接近1时,可以用率的标准误Sp描述率的抽样误差。\n2011年5月6日54第七章χχχχ2222检验一、内容((((一))))检验的用途2χ检验(Chi-squaretest)用途较广,主要用途如下:2χ1.推断两个率及多个总体率或总体构成比之间有无差别2.两种属性或两个变量之间有无关联性3.频数分布的拟合优度检验((((二))))检验的基本思想2χ1.检验的基本思想是以值的大小来反映理论频数与实际频数的吻合程度。在零2χ2χ假设(比如:)成立的条件下,实际频数与理论频数相差不应该很大,即0H0H21ππ=值不应该很大,若实际计算出的值较大,超过了设定的检验水准所对应的界值,则2χ2χ有理由怀疑的真实性,从而拒绝,接受H1(比如:)。0H0H1H21ππ≠2.基本公式:,A为实际频数(ActualFrequency),T为理论频数()∑−=TTA22χ(TheoreticalFrequency)。四格表检验的专用公式正是由此公式推导出来的,用专用公2χ式与用基本公式计算出的值是一致的。2χ((((三))))率的抽样误差与可信区间1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:,为总体率,或(8-1)np)1(ππσ−=π,为样本率;(8-2)nppSp)1(−=p2.总体率的可信区间当n足够大,且p和1-p均不太小,p的抽样分布逼近正态分布。总体率的可信区间:()。(8-3)ppSupSup×+×−2/2/,αα((((四))))检验的基本计算2χ见表8-1。表8-1检验的用途、假设的设立及基本计算公式2χ资料形式用途、的设立与计算公式0H1H自由度四格表①独立资料两样本率的比较②配对资料两样本率的比较:两总体率相等:两总体率不等0H1H①专用公式))()()(()(22dbcadcbanbcad++++−=χ②当n40但1T<5时,校正公式≥≤))()()(()2/(22dbcadcbannbcad++++−−=χ③配对设计cbcb+−−=22)1(χ1\n中医药统计学复习指导及摸拟试题第55页共107页(五)四格表的确切概率法当四格表有理论数小于1或n<40时,宜用四格表的确切概率法。(六)检验的应用条件及注意事项2χ1.分析四格表资料时,应注意连续性校正的问题,当140时,用连续性校正检验;T1,或n40时,用Fisher精确概率法。2χ≤≤2.对于RC表资料应注意以下两点:×(1)理论频数不宜太小,一般要求:理论频数<5的格子数不应超过全部格子的1/5;(2)注意考察是否有有序变量存在。对于单向有序RC表资料,当指标分组变量是有×序的时,宜用秩和检验;对于双向有序且属性不同的RC表资料,若希望弄清两有序变量×之间是否存在线性相关关系或存在线性变化趋势,应选用定性资料的相关分析或线性趋势检验;对于双向有序且属性相同的RC表资料,为考察两种方法检测的一致性,应选用Kappa×检验。二、试题分析(一)单项选择题1.下列哪项检验不适用检验()2χA.两样本均数的比较B.两样本率的比较C.多个样本构成比的比较D.拟合优度检验答案:A[[[[评析]]]]本题考点:检验的主要用途。检验不能用于均数差别的比较。2χ2χ2.分析四格表时,通常在什么情况下需用Fisher精确概率法()A.140B.T<5C.T或nD.T或n1≤40≤1≤100≤答案:C[评析]本题考点:对于四格表,当T或n时,不宜用检验,应用Fisher1≤40≤2χ精确概率法。3.值的取值范围为2χA.<0.05,尚不能认为静脉曲张与肥胖有关。2χ21,05.0χ2.某卫生防疫站在中小学观察三种矫正近视眼措施的效果,近期疗效数据见表8-3。试对这三种措施的疗效作出评价。表8-3三种措施的近期有效率比较[评析]:三种措施有效率相等0H:三种措施有效率不相等或不全相等1H05.0=α正常体重肥胖合计发生未发生发生19524未发生128698合计3191122矫治方法有效人数无效人数合计有效率(%)夏天无眼药水518413537.78新医疗法6263218.75眼保健操5131827.78合计6212318533.51\n中医药统计学复习指导及摸拟试题第57页共107页=185)1(22−=∑crnnAnχ×⎟⎟⎠⎞⎜⎜⎝⎛−×+×+×+×+×+×1181231318625321232632626135123841356251222222=4.498,=(2-1)(3-1)=2ν查表得0.25>P>0.10,按水准不拒绝,尚不能认为三种措施有效率有差别。0.05α=0H3.某医院以400例自愿接受妇科门诊手术的未产妇为观察对象,将其分为4组,每组100例,分别给予不同的镇痛处理,观察的镇痛效果见表8-4,问4种镇痛方法的效果有无差异?表8-44种镇痛方法的效果比较[评析]为了应用检验,首先应计算出有效和无效的实际频数,列出计算表,见表8-2χ5。表8-54种镇痛方法的效果比较:4种镇痛方法的效果相同0H:4种镇痛方法的效果不全相同1H05.0=α=400=146.175,)1(22−=∑crnnAnχ⎟⎟⎠⎞⎜⎜⎝⎛−×++×+××110014973...1001495910025141222=(4-1)(2-1)=3ν查表得P<0.05,按水准拒绝,接受,即4种镇痛方法的效果不全相同。0.05α=0H1H三、习题(一)单项选择题1.关于样本率p的分布正确的说法是:A.服从正态分布B.服从分布2χC.当n足够大,且p和1-p均不太小,p的抽样分布逼近正态分布D.服从t分布2.以下说法正确的是:A.两样本率比较可用u检验B.两样本率比较可用t检验C.两样本率比较时,有2χ=uD.两样本率比较时,有22χ=t镇痛方法例数有效率(%)颈麻10041注药10094置栓10089对照10027镇痛方法有效例数无效例数合计颈麻4159100注药946100置栓8911100对照2773100合计251149400\n2011年5月6日583.率的标准误的计算公式是:A.B.C.D.)1(pp−npp)1(−1−npnpp)1(−4.以下关于检验的自由度的说法,正确的是:2χA.拟合优度检验时,(n为观察频数的个数)2−=nνB.对一个表进行检验时,43×11=νC.对四格表检验时,=4νD.若,则2,05.02,05.0ηνχχ>ην>5.用两种方法检查某疾病患者120名,甲法检出率为60%,乙法检出率为50%,甲、乙法一致的检出率为35%,问两种方法何者为优?A.不能确定B.甲、乙法一样C.甲法优于乙法D.乙法优于甲法6.已知男性的钩虫感染率高于女性。今欲比较甲乙两乡居民的钩虫感染率,适当的方法是:A.分性别比较B.两个率比较的检验2χC.不具可比性,不能比较D.对性别进行标准化后再做比较7.以下说法正确的是A.两个样本率的比较可用u检验也可用检验2χB.两个样本均数的比较可用u检验也可用检验2χC.对于多个率或构成比的比较,u检验可以替代检验2χD.对于两个样本率的比较,检验比u检验可靠2χ(二)名词解释1.实际频数与理论频数2.界值表2χ3.拟合优度4.配对四格表5.双向有序分类资料6.率的标准误7.多个率的两两比较8.Fisher精确概率9.McNemar检验10.Yates校正(三)是非题四个样本率做比较,,可认为各总体率均不相等。2)3(05.02χχ>(四)计算题1.121名前列腺癌患者中,82名接受电切术治疗,术后有合并症者11人;39名接受开放手术治疗,术后有合并症1人。试分析两种手术的合并症发生率有无差异?2.某厂在冠心病普查中研究冠心病与眼底动脉硬化的关系,资料见表8-6。问两者是否存在一定的关系?表8-6冠心病诊断结果与眼底动脉硬化级别的关系眼底动脉硬化级别冠心病诊断结果合计正常可疑冠心病0340116357\n中医药统计学复习指导及摸拟试题第59页共107页3.表8-7是用两种方法检查已确诊的乳腺癌患者120名的检查结果,问:两种方法何者为优?表8-7两种方法检查结果比较4.用噬菌体治疗小儿细菌性痢疾结果见表8-8,问两组阴转率有无显著差异?表8-8两种方法检查结果比较5.某医院用冠心2号方治疗心绞痛患者,经三个月疗程后,疗效见表8-9,问三个疗程组的有效率之间有无显著差异?表8-9冠心2号方治疗心绞痛的有效率6.某医院比较急性黄疸型肝炎与正常人在超声波波型上的表现,见表8-10。问两组肝波型的差异有无显著性?表8-10急性黄疸型肝炎与正常人的超声波波形7.有人研究惯用手与惯用眼之间是否存在一定关系,得资料如表8-11,试作统计分析。表8-11冠心2号方治疗心绞痛的有效率I7313692II971818133III3216合计5134431588乙法甲法合计+-+421860-303060合计7248120组别观察人数粪见检阴性人数阴转率(%)试验组292586.2对照组281760.7合计574273.7疗程例数有效例数有效率(%)一疗程1108274.5二疗程15013086.7三疗程635688.9合计32326883.0组别波型合计正常可疑较密黄疸型肝炎组1243232287正常人组2773911327合计28982243614惯用左眼两眼并用惯用右眼合计\n2011年5月6日608.苏格兰西南部两个地区献血人员的血型记录如下表(表8-12),问两地的血型分布是否相同?表8-12两个地区献血人员的血型分布四、习题答题(一)单项选择题1.C2.A3.D4.D5.A6.D7.A(二)名词解释1.实际频数:actualfrequency,即实际观察值。理论频数:theoreticalfrequency,在假设多个率或构成比相等的前提下,由合计率(构成比)推算出来的频数。2.界值表:将分布右侧尾部面积等于时所对应的值称为分布的临界值,2χ2χα2χ2χ对于不同的自由度及有不同的临界值,由这些临界值构成的表即界值表。α2χ3.拟合优度:goodnessoffit,指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。4.配对四格表:为了控制随机误差而采用配对设计方案,将条件相似的两个受试对象配成一对,然后随机地让其中一个接受A处理,另一个接受B处理,每种处理的反应都按二项分类。全部n对实验结果的资料以表8-12表示,这样的表称为配对四格表。表8-12配对四格表的形式5.双向有序分类资料:对于RC表资料,当两个定性变量都有序时,这样的资料称×为双向有序分类资料,如“急性放射病分度与放射烧伤面积占不同体表面积的百分比”,这里的两个变量均为有序的。6.率的标准误:用以衡量由于抽样引起的样本率与总体率之间的误差的统计量,记为。,为总体率,n为样本容量;当总体率未知时,以样本率P作Pσnp)1(ππσ−=ππ为的估计值,率的标准误为。πnppSp)1(−=7.多个率的两两比较:指当假设检验确定了多个率之间存在差别后,检验哪两个两个样本率之间的差别具有统计学意义的方法。惯用左手346228124两手并用27282075惯用右手5710552214合计118195100413地区血型合计ABOABEskdale336565100Annandale5414525125合计872010810225A处理B处理+-+ab-cd\n中医药统计学复习指导及摸拟试题第61页共107页8.Fisher精确概率:指当四格表中出现理论数小于1或n<40时,用R.A.Fisher(1934)提出的方法直接计算出的有利于拒绝H0的概率。9.McNemar检验:McNemar’stestforcorrelatedproportions,是分析配对四格表资料的方法,其计算公式为,v=1。cbcb+−−=22)1(χ10.Yates校正:英国统计学家YatesF认为,由于分布理论上是一连续性分布,而2χ分类资料是间断性的,由此计算出的值不连续,尤其是自由度为1的四格表,求出的概2χ率P值可能偏小,此时需对值作连续性校正(correctionofcontinuity),这一校正即所谓2χ的Yates校正(Yates’correction)。(三)是非题错。多个样本率做比较时,H1为各总体率不全相等,所以当接受H1时,并不能说明各总体率均不相等。(四)计算题:1.将资料整理成四格表用四格表校正公式算得,P>0.05,尚不能认为两种手术的合并症发生率有差37.22=χ异。2.该资料属双向有序分类资料,用检验解决。2χH0:冠心病诊断结果与眼底动脉硬化级别无关联H1:冠心病诊断结果与眼底动脉硬化级别有关联05.0=α=61.59,<,P<0.05,2χ2χ26,01.0χ按水准拒绝H0接受H1,故可认为冠心病与眼底动脉硬化有关联。05.0=α3.采用配对检验。2χH0:两法不分优劣H1:两法能分优劣05.0=α=3.00,按水准不拒绝H0,尚不能认为检出率有差别。2χ05.0=α4.可用u检验或检验。用检验时,首先将资料整理成四格表形式,然后再代入2χ2χ公式。算得=4.774,按水准拒绝H0接受H1,认为两组阴转率差别有统计学意义。2χ05.0=α5.用RC表检验公式算得=8.539,v=2,P<0.05,,按水准拒绝H0接×2χ2χ05.0=α受H1,三个疗程有效率的差异有统计学意义。手术方法合并症+-电切术117182开放手术1383912109121\n2011年5月6日626.用RC表检验公式算得=443.456,v=2,P<0.05,,按水准拒绝H0×2χ2χ05.0=α接受H1,两组肝波型的差异有统计学意义。7.由检验公式算得=4.020,v=4,P>0.05,,按水准不拒绝H0,尚不能2χ2χ05.0=α认为惯用手与惯用眼之间存在关系。8.本例只有一个格子的理论频数小于5,故仍可用检验。=5.710,v=3,P>0.05,,2χ2χ按水准不拒绝H0,尚不能认为两地的血型分布不同。05.0=α\n中医药统计学复习指导及摸拟试题第63页共107页第八章秩和检验一、教学内容(一)参数统计与非参数统计1.参数统计样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。2.非参数统计样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametricstatistics),或称为不拘分布(distribution-freestatistics)的统计分析方法,又称为无分布型式假定(assumptionfreestatistics)的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。(二)非参数统计的特点和适用范围1.特点(1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。(2)收集资料方便,可用“等级”或“符号”来评定观察结果。(3)多数非参数方法比较简便,易于理解和掌握。(4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。2.适用范围(1)等级资料。(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。(三)配对设计差值的符号秩检验(Wilcoxon(Wilcoxon(Wilcoxon(Wilcoxon配对法))))1.检验步骤(1)假设:H0:差值总体中位数Md=0H1:Md≠00.05α=(2)求差值(3)编秩:依差值的绝对值从小到大编秩。编秩时遇差数等于0,舍去不计,同时样本例数减1;遇绝对值相等差数,符号相同顺次编秩,符号相反取平均秩次,且符号相反。(4)求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值以T-表示。T+及T-之和应等于n(n+1)/2,任取T+(或T-)作检验统计量T。\n2011年5月6日64(5)确定P值和作出推断结论:当n≤50时,查T界值表,得出P值。若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上若范围外,其P值小于表上方相应概率水平。2.正态近似法若n>50时,可用u检验,按如下公式计算u值:(9-1)24/)12)(1(5.0|4/)1(|++−+−=nnnnnTu当相同差值数多时,应改用校正式:(9-2)48)(24)12)(1(5.0|4/)1(|3∑−−++−+−=jjttnnnnnTu(四)成组设计两样本比较的秩和检验(Wilcoxon(Wilcoxon(Wilcoxon(Wilcoxon两样本比较法))))1.检验步骤:(1)假设:H0:两总体分布相同H1:两总体分布不同0.05α=(2)编秩:将两组原始数据分别由小到大排队,再将原始数据从小到大统一编秩。编秩时遇同组相同数据,顺次编秩,遇不同组相同数据取平均秩次。(3)求秩和并确定检验统计量:当两样本例数不等时,以样本例数小者为n1,其秩和为T。相等时,可任取一组的秩和为T。(4)确定P值和作出推断结论:查T界值表,得出P值。若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上若范围外,其P值小于表上方相应概率水平。2.正态近似法若n1或n2-n1较大时,可用u检验,按如下公式计算u值:(9-3)12/)1(5.0|2/)1(|211+−+−=NnnNnTu当相同差值数多时,应改用校正式:(9-4)Cuuc=其中:tj为第j个相同秩次的个数。)()(133NNttCjj−−−=∑(五)成组设计多个样本比较的秩和检验(Kruskal-Wallis(Kruskal-Wallis(Kruskal-Wallis(Kruskal-Wallis法))))检验步骤:1.假设:H0:各总体分布相同H1:各总体分布不同0.05α=2.编秩:将两组原始数据分别由小到大排队,再将原始数据从小到大统一编秩。编秩时遇同组相同数据,顺次编秩,遇不同组相同数据取平均秩次。3.求秩和并确定检验统计量:将各组秩次相加。4.计算检验统计量H值:\n中医药统计学复习指导及摸拟试题第65页共107页(9-5)∑+−+=)1(3)()1(122NnRNNHii若各样本相同秩次较多时,应用校正公式Hc:(9-6)CHHc/=其中:tj为第j个相同秩次的个数。)()(133NNttCjj−−−=∑5.确定P值和作出推断结论:查H界值表,得出P值。若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上若范围外,其P值小于表上方相应概率水平。(六)多个样本两两比较的秩和检验(Nemenyi(Nemenyi(Nemenyi(Nemenyi法))))检验步骤:1.假设:H0:各总体分布相同H1:任意两总体的位置不同0.05α=2.求秩和的差值:计算各组中所有可能两两对比组秩和差数的绝对值D=|RA-RB|3.确定P值和作出推断结论:(1)当各样本例数相等时,查D界值表或计算界值,得出P值。(2)当各样本例数不等或不全等时,将各对比组平均秩次之差与界值比较,界值计算公式如下:(9-7)]11][12/)1([||2BABAnnNNCRR++−=χ其中:相同秩次校正数tj为第j个相同秩次的个数;)()(133NNttCjj−−−=∑查χ2界值表;N为各处理组的总例数。2)1(,−kαχ(七)随机区组设计资料的秩和检验1.查表法检验步骤:(1)将每个区组的数据由小到大分别编秩,遇相同数值取平均秩;(2)计算各处理组的秩和Ri;(3)求平均秩:R=b(k+1)/2式中,b:区组数k:处理组数;(4)计算各处理组的(Ri-R);(5)求M=∑(Ri-R)2(6)查M界值表,M大于或等于表中数值则差别有统计意义。2.Friedman检验检验步骤:(1)将各区组内数据由小到大分别编秩,遇相同数值取平均秩次(2)计算各处理组的秩和Ri;若各区组内无相同秩次,可用:\n2011年5月6日66(9-8))1(3)1(12122+−+=∑=kbRkbkkjjχ(3)查界值,确定P值,作出推断。2)1(,−kαχ(八)随机区组设计资料的两两比较检验步骤:(1)计算各处理组的秩和Ri;(2)计算各对比组秩和的差:BARR−(9-9)6/)1(||+−=kbkRRuBA查u界值,确定P值,若共进行c次比较,则用α/c作检验水平,作出推断。二、试题分析(一)单项选择题1.以下对非参数检验的描述哪一项是错误的是()。A.非参数检验方法不依赖于总体的分布类型B.应用非参数检验时不考虑被研究对象的分布类型C.非参数的检验效能低于参数检验D.一般情况下非参数检验犯第二类错误的概率小于参数检验答案:D[[[[评析]]]]本题考点:非参数检验的特点。非参数检验优点是应用范围广、简便、易掌握、不依赖于总体分布;缺点是若资料符合参数检验条件而用非参数检验,则检验效率低于参数检验。2.多样本计量资料比较,当分布类型不清时选择()。A.t检验B.u检验C.秩和检验D.χ2检验答案:C[[[[评析]]]]本题考点:非参数检验的适用范围。分布类型不明时,差别检验应首先考虑非参数统计方法。3.符合t检验条件的数值变量资料如果采用秩和检验,不拒绝H0时()。A.第一类错误增大B.第二类错误增大C.第一类错误减少D.第二类错误减少\n中医药统计学复习指导及摸拟试题第67页共107页答案:B[[[[评析]]]]本题考点:非参数检验与非参数检验的区别。当资料符合参数检验条件时,非参数检验检验效能要比参数检验低,发现总体差异的能力不如参数检验高,容易把一些本来有差别的总体检验成同一总体。4.按等级分组的资料作秩和检验时,如果用H值而不用校正后的Hc值,则会()。A.提高检验的灵敏度B.会把一些无差别的总体推断成有差别C.会把一些有差别的总体推断成无差别D.第一、二类错误概率不变答案:C[[[[评析]]]]本题考点:Kruskal-wallis秩和检验校正公式的应用。当各样本相同秩次较多时,应用校正公式Hc:其中:CHHc/=tj为第j个相同秩次的个数。由于C<1,因此HC>H,所求得相应)()(133NNttCjj−−−=∑概率P要大一些,那么就会把一些有差别的总体推断成无差别。(二)简答题“对某资料进行统计分析时,应尽量采用参数检验方法,一般不易采用非参数检验方法”,试评价这种说法正确否?答案:应根据设计的方案、资料性质和分析过程中所遇到的实际情况等来确定采用何种统计检验方法。当资料满足参数检验方法时,必须使用参数检验方法。反之,当资料不满足参数检验方法时,如资料分布不明、呈偏态分布、方差不齐、等级资料时,必须采用非参数检验方法。在实际工作中,许多资料不满足参数检验的条件,非参数检验并不比参数检验应用的场合少。所以,以上说法不正确。三、习题(二)名词解释1.非参数统计2.参数统计3.秩次4.秩和(二)单项选择题1.以下检验方法之中,不属于非参数检验法的是()。A.t检验B.符号检验C.Kruskal-Wallis检验D.Wilcoxon检验2.以下对非参数检验的描述哪一项是错误的()。A.参数检验方法不依赖于总体的分布类型B.应用非参数检验时不考虑被研究对象的分布类型C.非参数的检验效能低于参数检验D.一般情况下非参数检验犯第二类错误的概率小于参数检验\n2011年5月6日683.符合方差分析检验条件的成组设计资料如果采用秩和检验,则()。A.一类错误增大B.第二类错误增大C.第一类错误减小D.第二类错误减小4.等级资料的比较宜用()。A.t检验B.秩和检验C.F检验D.四格表X2检验5.在进行成组设计两样本秩和检验时,以下检验假设正确的是()。A.H0:两样本对应的总体均数相同B.H0:两样本均数相同C.H0:两样本对应的总体分布相同D.H0:两样本的中位数相同6.在进行Wilcoxon配对法秩和检验时,以下检验假设正确的是()。A.H0:两样本对应的总体均数相同B.H0:两样本的中位数相同C.H0:两样本对应的总体分布相同D.以上都不正确7.两个小样本比较的假设检验,应首先考虑()。A.t检验B.秩和检验C.任选一种检验方法D.资料符合哪种检验的条件8.对于配对比较的秩和检验,其检验假设为()。A.样本的差数应来自均数为0的正态总体B.样本的差数应来自均数为0的非正态总体C.样本的差数来自中位数为0的总体D.样本的差数来自方差齐性和正态分布的总体9.在配对比较的差数秩和检验中,如果有两个差数为0,则()。A.对正秩和有0.5和1,对负秩和有-0.5和-1B.对正秩和有2,对负秩和有-2C.对正秩和有3,对负秩和有-3D.不予考虑10.在成组资料的秩和检验中,设样本为n个秩号:1,2,...,n,如果有相同秩号,比如:i和i+1变成两个i+0.5,则对样本所有秩号的均数和标准差的影响有()。A.均数不变,标准差不变B.均数不变,标准差加大C.均数加大,标准差减小D.均数不变,标准差减小11.若随机化成组设计资料来自于正态总体,分别采用秩和检验与t检验、u检验,则它们检验效率关系正确的是()。A.t检验>u检验>秩和检验B.u检验>秩和检验>t检验C.t检验>秩和检验>u检验D.t检验,u检验>秩和检验12.配对比较的秩和检验的基本思想是:如果检验假设成立,则对样本来说()。A.正秩和的绝对值小于负秩和的绝对值B.正秩和的绝对值大于负秩和的绝对值C.正秩和的绝对值与负秩和的绝对值不会相差很大D.正秩和的绝对值与负秩和的绝对值相等13.按等级分组资料的秩和检验中,各等级平均秩次为()。A.该等级的秩次范围的上界\n中医药统计学复习指导及摸拟试题第69页共107页B.该等级的秩次范围的下界C.该等级的秩次范围的上界、下界的均数D.该等级的秩次范围的上界、下界的之和14.成组设计多组资料比较的秩和检验,确定P值时,可利用查表法的情况正确的是()。A.组数<3,每组例数<5B.组数<3,每组例数≤5C.组数≤3,每组例数<5D.组数≤3,每组例数≤515.配对设计资料的秩和检验,确定P值时,可利用查表法的样本例数n的范围为()。A.50≥n≥5B.30≥n≥5C.30≥n≥3D.50≥n≥316.成组设计两样本资料的秩和检验,样本例数分别为n1、n2,按检验水准为0.05(双侧),可利用查表法确定显著性水平的情况正确的是()。A.n1=4,n2=4B.n1=2,n2=4C.n1=9,n2=20D.n1=11,n2=1117.非参数统计应用条件是()。A.总体是正态分布B.若两组比较,要求两组的总体方差相等C.不依赖于总体分布D.要求样本例数很大18.下述哪些不是非参数统计的特点()。A.不受总体分布的限定B.多数非参数统计方法简单,易于掌握C.适用于等级资料D.检验效能总是低于参数检验19.设配对设计资料的变量值为X1和X2,则配对资料的秩和检验()。A.把X1与X2的差数绝对值从小到大编秩B.把X1和X2综合从小到大编秩C.把X1和X2综合按绝对值从小到大编秩D.把X1与X2的差数从小到大编秩20.秩和检验和t检验相比,其优点是()。A.计算简便,不受分布限制B.公式更为合理C.检验效能高D.抽样误差小21.配对设计差值的符号秩检验,对差值编秩时,遇有差值绝对值相等时()。A.符号相同,则取平均秩次B.符号相同,仍按顺序编秩C.符号不同,仍按顺序编秩D.不考虑符号,按顺序编秩22.配对设计的秩和检验中,其H0假设为()。A.差值的总体均数为0B.差值的总体中位数为0C.μd≠0D.Md≠023.一组n1和一组n2(n2>n1)的两个样本资料比较,用秩和检验,有()。A.n1个秩次1,2,...,n1B.n2个秩次1,2,...,n2C.n1+n2个秩次1,2,...,n1+n2D.n1-n2个秩次1,2,...,n1-n224.成组设计两样本比较的秩和检验中,描述不正确的是()。A.将两组数据统一由小到大编秩\n2011年5月6日70B.遇有相同数据,若在同一组,按顺序编秩C.遇有相同数据,若不在同一组,按顺序编秩D.遇有相同数据,若不在同一组,取其平均秩次25.成组设计的两小样本均数比较的假设检验()。A.t检验B.成组设计两样本比较的秩和检验C.t检验或成组设计两样本比较的秩和检验D.资料符合t检验条件还是成组设计两样本比较的秩和检验条件26.对两样本均数作比较时,已知n1、n2均小于30,总体方差不齐且分布呈偏态,宜用()。A.t检验B.u检验C.秩和检验D.F检验27.等级资料两样本比较的秩和检验中,如相同秩次过多,应计算校正uc值,校正的结果使()。A.u值增加,P值减小B.u值增加,P值增加C.u值减小,P值增加D.u值减小,P值减小28.符号秩检验(Wilcoxon配对法)中,秩和T和P值的关系描述正确的是()。A.T落在界值范围内,则P值大于相应概率B.T落在界值范围上界外,则P值大于相应概率C.T落在界值范围下界外,则P值大于相应概率D.T落在界值范围上,则P值大于相应概率29.配对设计资料的符号秩检验中,如相同秩次过多,未计算校正uc值,而计算u值,不拒绝H0时()。A.第一类错误增加B.第一类错误减少C.第二类错误增加D.第二类错误减小(三)是非题1.统计资料符合参数检验应用条件,但数据量很大,可以采用非参数方法进行初步分析。2.对同一资料和同一研究目的,应用参数检验方法,所得出的结论更为可靠。3.等级资料差别的假设检验只能采用秩和检验,而不能采用列联表χ2检验等检验方法。4.非参数统计方法是用于检验总体中位数、极差等总体参数的方法。四、习题答题((((一))))名词解释1.非参数统计:针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametricstatistics),或称为不拘分布(distribution-freestatistics)的统计分析方法,又称为无分布型式假定(assumptionfreestatistics)的统计分析方法。2.参数统计:通常要求样本来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数统计(parametricstatistics)\n中医药统计学复习指导及摸拟试题第71页共107页3.秩次:变量值按照从小到大顺序所编的秩序号称为秩次(rank)。4.秩和:各组秩次的合计称为秩和(ranksum),是非参数检验的基本统计量。(二)单项选择题1.A2.D3.B4.B5.C6.D7.D8.C9.D10.D11.D12.C13.C14.D15.A16.A17.C18.D19.A20.A21.B22.B23.C24.C25.D26.C27.A28.A29.C((((三))))是非题1.正确。2.错误。应视资料的特性而定,若资料符合参数检验方法的条件,就运用参数检验方法;若符合非参数检验方法的条件,就运用非参数检验方法。3.错误。应根据研究目的和资料性质而定,例如当资料的实验分组变量有序,而指标分组变量无序时,可以采用列联表χ2检验。4.错误。非参数检验是检验总体分布,而非总体参数。\n2011年5月6日72第九章直线相关与回归一、内容((((一))))直线回归1.基本概念直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。直线回归方程中,a、b是决定直线的两个系数,见表10-1。bXaY+=ˆ表10-1直线回归方程a、b两系数对比2.样本回归系数b的假设检验(1)方差分析;(2)t检验。3.直线回归方程的应用(1)描述两变量的依存关系;(2)用回归方程进行预测;(3)用回归方程进行统计控制;(4)用直线回归应注意的问题。((((二))))直线相关1.基本概念直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态ab含义回归直线在Y轴上的截距(intercept)。表示X为零时,Y的平均水平的估计值。回归系数(regressioncoefficient),即直线的斜率。表示X每变化一个单位时,Y的平均变化量的估计值。系数>0a>0表示直线与纵轴的交点在原点的上方b>0,表示直线从左下方走向右上方,即Y随X增大而增大系数<0a<0表示直线与纵轴的交点在原点的下方b<0,表示直线从左上方走向右下方,即Y随X增大而减小系数=0a=0表示回归直线通过原点b=0,表示直线与X轴平行,即Y不随X的变化而变化计算公式XbYa−=XXXYllXXYYXXb=−−−=∑∑2)())((\n中医药统计学复习指导及摸拟试题第73页共107页分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。2.计算公式YYXXXYlllYYXXYYXXr=−−−−=∑∑22)()())((相关系数r没有单位,其值为-1≤r≤1。其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。r值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r的绝对值等于1为完全相关。3.样本相关系数r的假设检验(1)r界值表法;(2)t检验法。(三)直线回归与相关的区别与联系1.区别(1)资料要求:直线回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;直线相关要求两个变量X、Y服从双变量正态分布。这种资料若进行回归分析称为Ⅱ型回归。(2)应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。(3)意义:b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向。(4)计算:b=lxy/lxx;r=lxy/。yyxxll(5)取值范围:—∞<b<+∞;-1≤r≤1。(6)单位:b有单位;r没有单位。2.联系(1)方向一致:对一组数据若能同时计算b和r,它们的符号一致。(2)假设检验等价:对同一样本,r和b的假设检验得到的t值相等,即tb=tr。(3)用回归解释相关:决定系数,回归平方和越接近总平方和,总回SSSSlllryyxxxy==22则r2越接近1,说明引入相关的效果越好。(四)秩相关秩相关,又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:⒈不服从双变量正态分布而不宜作积差相关分析;⒉总体分布型未知;⒊用等级表示的原始数据。二、试题分析1.回归系数的假设检验()\n2011年5月6日74A.只能用r的检验代替B.只能用t检验C.只能用F检验D.三者均可答案:D[[[[评析]]]]本题考点:回归系数假设检验方法的理解。回归系数的假设检验常用的方法有:①方差分析;②t检验。对同一样本,r和b的假设检验等价,r和b的假设检验得到的t值相等,即tb=tr。故回归系数的假设检验用三者均可。2.已知r1=r2,那么()A.b1=b2B.tb1=tb2C.tr1=tr2D.两样本决定系数相等答案:D[评析]本题考点:直线相关系数与回归系数关系的理解。因为相关系数r和回归系数b的计算公式不同,不能推导出b1=b2;r和b的假设检验等价,即tr1=tb1,tr2=tb2,而不是tb1=tb2,tr1=tr2;样本决定系数为r2,已知r1=r2,则两样本决定系数相等,即r12=r22。3.|r|>r0.05(n-2)时,可认为两变量X与Y间()A.有一定关系B.有正相关关系C.一定有直线关系D.有直线关系答案:D[评析]本题考点:直线相关系数假设检验的理解。因为直线相关系数r是样本的相关系数,它是相应总体相关系数ρ的估计值。由于抽样误差的影响,必须进行显著性检验。r的假设检验是检验两变量是否有直线相关关系。|r|>r0.05(n-2)时,P<0.05,拒绝H0,接受H1,认为总体相关系数ρ≠0,因此可认为两变量X与Y间有直线关系。4.相关系数检验的无效假设H0是()A.ρ=0B.ρ≠0C.ρ>0D.ρ<0答案:A[评析]本题考点:直线相关系数显著性检验中检验假设的理解。因为r是样本相关系数,它是总体相关系数ρ的估计值。要判两变量间是否有相关关系,就要检验r是否来自总体相关系数ρ为零的总体。因为即使从ρ=0的总体作随机抽样,由于抽样误差的影响,所得r值也常不等于零。5.同一双变量资料,进行直线相关与回归分析,有()。A.r>0,b<0B.r>0,b>0C.r<0,b>0D.r与b的符号毫无关系答案:B[评析]本题考点:直线相关与回归的区别与联系的理解。因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b和r,它们的符号一致。因此,同一双变量资料,进行直线相关与回归分析,有r>0,b>0。三、习题(三)单项选择题19.下列()式可出现负值。\n中医药统计学复习指导及摸拟试题第75页共107页A.∑(X—)2B.∑Y2—(∑Y)2/nXC.∑(Y—)2D.∑(X—)(Y—)YXY20.Y=14+4X是1~7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg,则此方程()。A.截距改变B.回归系数改变C.两者都改变D.两者都不改变21.已知r=1,则一定有()。A.b=1B.a=1C.SY.X=0D.SY.X=SY22.用最小二乘法确定直线回归方程的原则是各观察点()。A.距直线的纵向距离相等B.距直线的纵向距离的平方和最小C.与直线的垂直距离相等D.与直线的垂直距离的平方和最小23.直线回归分析中,X的影响被扣除后,Y方面的变异可用指标()表示。A.B.�,2()(2)xyXXSn−∑=−̂2()(1)rYYSn−∑=−C.D.̂,2()(2)yxYYSn−∑=−�()2bxyXXSS−∑=24.直线回归系数假设检验,其自由度为()。A.nB.n-1C.n-2D.2n-125.应变量Y的离均差平方和划分,可出现()。A.SS剩=SS回B.SS总=SS剩C.SS总=SS回D.以上均可26.下列计算SS剩的公式不正确的是()。A.B.YYXYllb−YYXXlbl−C.D.2YYXYXXlll−2(1)YYrl−27.直线相关系数可用()计算。A.B.YYXXXYlllYYXXYXllbC.D.以上均可XYYXbb28.当r=0时,回归方程中有()。bXaY+=ˆA.a必大于零B.a必等于XC.a必等于零D.a必等于Y(四)名词解释1.直线回归2.回归系数3.剩余平方和4.回归平方和5.直线相关6.零相关7.相关系数8.决定系数9.曲线直线化10.秩相关(五)是非题\n2011年5月6日761.剩余平方和SS剩1=SS剩2,则r1必然等于r2。2.直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。3.两变量关系越密切r值越大。(四)简答题1.用什么方法考察回归直线图示是否正确?2.剩余标准差的意义和用途?3.某资料n=100,X与Y的相关系数为r=0.1,可否认为X与Y有较密切的相关关系?4.r与rs的应用条件有何不同?5.应用直线回归和相关分析时应注意哪些问题?6.举例说明如何用直线回归方程进行预测和控制?7.直线回归分析时怎样确定因变量与自变量?四、习题答题(五)单项选择题1.D2.C3.C4.B5.C6.C7.D8.B9.D10.D(六)名词解释1.直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。2.回归系数(regressioncoefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。3.剩余平方和(residualsumofsquares),SS剩即,它反映X对Y的线性()∑−2ˆYY影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。在散点图中,各实测点离回归直线越近,也就越小,说明直线回归的估计误差越小。()∑−2ˆYY4.回归平方和(regressionsumofsquares),SS回即,它反映由于X与Y()∑−2ˆYY的直线关系而使Y的总变异所减小的部分,也就是在总平方和中可以用X解释的部分。回归平方和越大,说明回归效果越好。5.直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。6.零相关(zerrocorrelation)是指两变量间没有直线相关关系。29.相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。30.决定系数(coefficientofdetermination)即r的平方,,说明当SS总固定不变时,回归平方和的大小决定了r平方总回SSSSllllllrYYXXXYYYXXXY===222的大小。回归平方和越接近总平方和,则r平方值越接近1。31.曲线直线化(rectification)是曲线拟合的重要手段之一。对于某些非线性的资料可以通过简单的变量变换使之直线化,用直线回归分析方法来分析。14.秩相关又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适\n中医药统计学复习指导及摸拟试题第77页共107页用于下列资料:⑴不服从双变量正态分布而不宜作积差相关分析;⑵总体分布型未知;⑶用等级表示的原始数据。(三)是非题1.错。两样本剩余平方和SS剩1=SS剩2,但两样本总平方和SS总及回归平方和SS回不一定相等,故两样本相关系数r1与r2不一定相等。2.正确。3.错。相关系数r有正负之分,其值为-1≤r≤1,在总体相关系数不为零,即两变量确有直线关系前提下,r绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。(四)简答题1.用以下三种方法判定:⑴直线必须通过点()。YX,⑵若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距a。⑶直线是否在自变量X的实测范围内。2.剩余标准差用sY.X表示:()()()2ˆ22.−−=−=∑nYYnSSsXY剩其意义是指当X对Y的影响被扣除后,Y方面仍有变异。这部分变异与X无关,纯属抽样变异。故sY.X是用来反映Y的剩余变异的,即不考虑X以后Y本身的随机变异。剩余标准差可用于:⑴估计回归系数b的标准误,,进行回归系数的区间估计和假设检验。XXXYblss.=⑵估计总体中当X为某一定值时,估计值的标准误。Yˆ∑−−+=22.ˆ)()(1XXXXnssXYY并可计算的可信区间,sY.X可作为预报精度的指标。Yˆ3.n=100,r=0.1时,对相关系数进行t检验,按检验水准α=0.05,拒绝H0(ρ=0),接受H1(ρ≠0),认为两变量有相关关系,但决定系数r2=0.12=0.01,表示回归平方和在总平方和中仅占1%,说明两变量间的相关关系实际意义不大。4.积差相关系数r用于描述双变量正态分布资料的相关关系。等级相关系数rs适用于下列资料:⑴不服从双变量正态分布而不宜作积差相关分析的资料;⑵总体分布型未知的资料;⑶原始资料是用等级表示的资料。5.注意以下五个问题⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。⑵在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。⑶直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避免外延。⑷双变量的小样本经t检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。\n2011年5月6日78\n中医药统计学复习指导及摸拟试题第79页共107页第十章统计表与统计图一、内容(一)统计表与统计图的概念将统计资料及其指标以表格形式列出,称为统计表(statisticaltable)。狭义的统计表只表示统计指标。统计图(statisticalgraph)是将统计指标以点的位置、线段的升降、直条的长短或面积的大小等几何图形直观的表示事物间的数量关系。(二)统计表中应注意的几个问题1.列表的原则(1)重点突出,简单明了。(2)主次分明,层次清楚,符合逻辑。2.统计表的结构与编制要求统计表由标题、标目、线条和数字所构成。如下表所示:顶线表号标题底线(1)标题位于表的上方,概括表的主要内容,一般需注明时间与地点。(2)标目有横、纵标目之分,分别说明横行和纵行数字的含义,应做到文字简明,层次清楚。(3)线条多采用三条半线,即顶线、底线、纵标目下的横隔线及合计上的半线。忌斜线和竖线。(4)数字表内数据一律采用阿拉伯数字。同一指标小数点位数要一致,位次要对齐。表内不应有空项,无数字用“—”表示,数字若为零则填“0”,暂缺项或未记录用“…”表示。(5)备注不为表的必备内容,如有必要,可在表内用“*”号标记,然后在表的下方加以说明。3.统计表的种类统计表可分为简单表(simpletable)和复合表(combinativetable)两种类型。简单表:只按单一特征或标志分组。复合表:按两个或两个以上主要标志分组,如年龄和性别结合起来分组。横标目名称纵标目名称合计横标目合计数字\n2011年5月6日80(三)统计图中应注意的几个问题1.统计图的结构统计图通常由标题、标目、刻度和图例四部分组成。如下所示:标题1101201301401501607891011121314151617标目标目男女2.常用统计图的分类医学统计学中常用的统计图有:条图(bargraph)、线图(linegraph)、圆图(piegraph)、直方图(histogram)、散点图(scatterdiagram)和统计地图(statisticalmap)等。3.制图的基本要求(1)根据资料的性质和分析目的,选择合适的图形。(2)标题扼要说明图的主要内容,位于图的下方,必要时注明时间和地点。(3)建立在直角坐标系上的统计图,其纵轴尺度自下而上,横轴尺度从左到右,数字一律由小到大,某些图还要求纵轴尺度从0开始(如直条图、直方图)。纵横两轴一般应有标目,注明单位。(4)图的长宽比例(圆图除外)一般以7:5或5:7为宜。(5)可用不同的线条或颜色表示不同的事物,但需用图例说明,一般放在图的右上角或图的下方。4.常用统计图的定义和制图要求,见表12-1。表12-1常用统计图的定义和制图要求名称定义制图要求条图用等宽直条的长短来表示相互独立的各统计指标的数值大小起点为0的等宽直条,条间距相等,按高低顺序排列。普通线图适用于连续性资料。用线段的升降来表示一事物随另一事物变化的趋势。纵横两轴均为算术尺度,相邻两点应以折线相连。图内线条不宜超过3条。半对数线图用线段的升降来表示一事物随另一事物变化的速度。横轴为算术尺度,纵轴为对数尺度。余同普通线图。图例刻度\n中医药统计学复习指导及摸拟试题第81页共107页二、习题(一)名词解释1.统计表2.统计图(二)简答题1.统计表和统计图在表达资料中各有何特殊意义?2.统计表有哪些要素构成?制表的注意事项有哪些?3.统计图有哪些要素构成?绘制统计图的注意事项有哪些?4.为什么半对数线图可以描述发展速度的变化?(三)是非题1.一个绘制合理的统计图可直观的反映事物间的正确数量关系。2.在一个统计表中,如果某处数字为“0”,就填“0”,如果数字暂缺则填“…”,如果该处没有数字,则不填。3.备注不是统计表的必要组成部分,不必设专栏,必要时,可在表的下方加以说明。4.散点图是描写原始观察值在各个对比组分布情况的图形,常用于例数不是很多的间断性分组资料的比较。5.百分条图表示事物各组成部分在总体中所占比重,以长条的全长为100%,按资料的原始顺序依次进行绘制,其他置于最后。三、习题答题(一)名词解释1.统计表:将统计资料及其指标以表格形式列出,称为统计表(statisticaltable)。狭义的统计表只表示统计指标。2.统计图:统计图(statisticalgraph)是将统计指标用几何图形表达,即以点的位置、线段的升降、直条的长短或面积的大小等形式直观的表示事物间的数量关系。(二)简答题1.统计表可以代替冗长的文字叙述,便于指标的计算、分析和对比,其制作合理与否,对统计分析质量有着重要的影响。统计图可用点的位置、线段的升降、直条的长短和面积的大小直观地反映分析事物间的数量关系。因统计如对数量表达较粗略,故最好附上相应的统计表。圆图以圆面积表示事物的全部,用扇形面积表示各部分的比重以圆面积为100%,将各构成比分别乘以3.6度得圆心角度数后再绘扇形面积。通常以12点为始边依次绘图。直方图用矩形的面积来表示某个连续型变量的频数分布常以横轴表示连续型变量的组段(要求等距),纵轴表示频数或频率,其尺度从“0”开始,各直条间不留空隙。散点图以点的密集程度和趋势表示两种事物间的相关关系绘制方法同线图,只是点与点之间不连接。\n2011年5月6日822.一般说来,统计表由标题、标目、线条、数字四部分构成(有时附有备注)。编制统计表的注意事项:(1)标题概括表的内容,写于表的上方,通常需注明时间与地点。(2)标目以横、纵标目分别说明主语与谓语,文字简明,层次清楚。(3)线条不宜过多,通常采用三条半线表示,即顶线、底线、纵标目下的横隔线及合计上的半条线。(4)表内一律采用阿拉伯数字。同一指标小数点位数要一致,数次要对齐。表内不留空格。(5)备注不要列于表内,如有必要,可在表内用“*”号标记,并在表外加以说明。3.统计图通常由标题、标目、刻度和图例四部分组成。绘制统计图的注意事项:(1)根据资料的性质和分析目的,选择合适的图形。(2)标题应扼要的说明图的内容、地点、时间,位于图的下方,一般需注明时间、地点。(3)统计图有纵轴和横轴,两轴应有标目,标目应注明单位。纵轴尺度自下而上,横轴尺度从左到右。数字一律由小到大,某些图要求纵轴尺度从0开始(4)图的长宽比例(除圆图外)一般以7:5或5:7左右较美观。(5)比较不同事物时,可用不同的线条或颜色表示,但需用图例说明,一般放在图的右上角或图下方的适当位置。半对数线图是以横轴为算术尺度,纵轴为对数尺度绘制而成。它表明数量间比例的动态变化趋势,如速率比A/B,设X=A/B,利用对数运算法则,lgX=lgA–lgB,即将纵轴上尺度的倍比关系用对数值之差表示,所以它反映的是A,B两事物现象间相互对比发展速度的变化。(三)判断正误并简述理由:1.正确。2.错。在一个统计表中,如果某处数据为“0”,就填“0”,如果数据暂缺则填“…”,若该处无数据,则填“—”。3.正确。4.正确。5.错。百分条图表示事物各组成部分在总体中所占的比重,以长条的全长为100%,然后按各构成比由大到小或由小到大排列绘图。\n中医药统计学复习指导及摸拟试题第83页共107页第十一章实验设计一、内容(一)实验设计的特点和分类实验研究(experimentalstudy)是指研究者根据研究目的(或研究假设),主动加以干预措施,并观察总结其结果,回答假设研究所提出的问题的一种研究方法。实验研究可根据研究对象的不同分为两类:以动物或标本为研究对象的实验研究(experiment)和以人为研究对象的临床试验(clinicaltrial)。(二)实验设计的基本原则1.随机化原则总体中的每一个观察单位都有同等的机会被选入实验组和对照组或进入样本,保证了非处理因素在各组间均衡一致而使样本具有代表性。2.对照原则正确的设立对照可可控制实验过程中非实验因素的影响和偏倚,从而使处理因素的效应充分的显露出来。设立对照组的常见方法有:空白对照、安慰剂(placebo)对照、实验对照、标准对照及自身对照。3.重复的原则保证每一个处理都有足够的重复数(样本量),避免把偶然性或巧合的现象当作必然的规律性现象,并能正确的估计实验误差。(三)实验设计的基本内容和步骤1.建立研究假设在选题时应当考虑题目的科学性、新颖性、可行性以及所选课题是否是当前社会需要解决的主要问题。根据研究目的确定本研究需要解决的主要问题(primaryquestion)及相应的辅助问题(secondaryquestion)。2.明确研究范围审慎考虑规定适当的纳入标准(inclusioncriteria)和排除标准(exclusioncriteria),选择适宜本次实验的受试对象。3.确立处理因素分清处理因素和非处理因素,并注意处理因素的标准化。4.明确观察指标选用客观性较强,易于量化,灵敏性和特异性均较高的指标。5.控制误差和偏倚采取各种有效措施控制误差(error)和偏倚(bias),使处理措施的效果能够真正的体现出来,是实验设计的重要任务之一。(1)误差:泛指实测值与真值之差。随机误差:随机误差(randomerror)它是一类不恒定的、随机、变化的误差,是不可避免的,但随机误差服从正态分布,可以用医学统计学的方法进行分析和推断。系统误差:系统误差(systematicerror)是指实验过程中产生的一些误差,它们的值是恒定不变或者是遵循着一定的规律变化。这两种误差都是人为因素产生的,可控制的。(2)偏倚:属于系统误差,它是指在实验中由于某些非实验因素的干扰所形成的,歪\n2011年5月6日84曲了处理因素的真实效应。选择性偏倚:选择性偏倚(selectionbias)是由于纳入观察对象的方法不正确而产生的偏倚。它产生于实验研究的开始阶段,即研究对象的选择时产生。测量性偏倚:测量性偏倚(measurementbias)是在实验过程中对研究对象进行观察或测量而造成的偏倚。它产生于实验进行的过程中。在实验研究中,特别是在社区实验研究中,产生测量性偏倚的常见因素有:沾染(contamination)、干扰(intervention)、依从(compliance)和非依从(noncompliance)、失访(lostoffollow-up)、检查和诊断结果的不一致(disagreement)、观察记录的失误、心理因素的干扰。防止测量性偏倚的主要方法:盲法(blindmethod)、签订实验合同、检查实验对象的依从情况、注意医德、注意医德、定期检查研究记录、对每一种实验方法、诊断标准,重复判断的一致性应在实验前作出估计。混杂性偏倚:混杂性偏倚(confoundingbias)由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,造成混杂性偏倚。它产生于总结分析阶段。可通过对资料进行分层分析或采取配比法控制混杂性偏倚。(四)常用的实验设计方法1.随机对照试验随机对照实验(randomizedcontroltrial)由于采取了随机化的分配原则,增强了各比较组间的可比性,避免了某些非实验因素的干扰,使实验因素能充分的显露出来,由于随机化,满足了统计学假设检验的要求,使检验结果更能反映它们之间存在的真实差异;设立对照组,更好的控制非实验因素对实验因素的影响,有效的控制了偏倚和误差,有利于反映所比较组间所存在的真实差异。随机双盲对照实验,是目前国际上认为值得提倡的实验设计方案,特别适用于临床治疗效果、疾病的预后和诊断实验的研究。2.配对设计配对设计(paireddesign)可增强处理组间的均衡性,提高实验效率。3.配伍组设计又称随机单位区组设计(randomizedblockdesign)是配对设计的扩大(处理数大于2)。(五)确定样本含量1.确定样本含量的意义确定适当的样本含量,可节约资源,并防止因为样本含量过少引起的检验效能偏低,出现了非真实的阴性结果,这是当前医学研究中值得注意的问题。2.确定样本含量时应当具备的条件建立检验假设;确立检验水准α;提出在特定检验水准的条件下,所期望的检验效能1-β;总体参数间的差值δ;估计的总体标准差σ及估计的总体率。π3.确定样本含量的用途保证科研设计有适当的样本含量,而且可考察当前的样本含量是否能够保证足够大的检验效能。二、试题分析(一)名词解释实验效应。答:实验效应(experimentaleffect)主要指处理因素作用于实验对象的反应,这种效应将通过实验中观察指标显示出来。\n中医药统计学复习指导及摸拟试题第85页共107页(二)填空题实验研究与调查研究的区别在于。答:前者主动施加干预措施而后者不。[[[[评析]]]]实验研究是指研究者根据研究目的,主动加以干预措施,并观察总结其结果,回答研究假设所提出的问题。而调查研究旨在客观的描述总体,未加任何干预措施。(三)是非题1.实验效应选择特异性高的指标可减少假阳性率()。答:正确。[[[[评析]]]]实验效应选择特异性高的指标减少假阳性率,而敏感度高的指标减少假阴性率。2.随机对照实验中所谓随机化就由受试对象随便选择进入实验组或对照组()。答:错。[[[[评析]]]]随机不等于随便,所谓随机是指总体中的每一个观察单位都有同等的机会被选入样本或进入实验研究的各处理组中。(四)简答题在选取实验效应时应考虑那几方面的问题?答:应考虑选用客观性较强,易于量化,灵敏度高精确性较强的指标。三、习题(一)名词解释1.安慰剂对照2.随机化3.混杂因素4.系统误差5.偏倚6.实验研究7.沾染8.干扰9.失访10.随机对照试验(二)填空题1.实验设计的基本原则是,,。2.决定样本含量的条件有,,,。(三)选择题1.在下面各种实验设计中,在相同条件下最节约样本含量的是。()A.完全随机设计B.配对设计C.配伍组设计D.交叉设计2.为研究新药“胃灵丹”治疗胃病(胃炎,胃溃疡)疗效,在某医院选择50例胃炎和胃溃疡病人,随机分成实验组和对照组,实验组服用胃灵丹治疗,对照组用公认有效的“胃苏冲剂”。这种对照在实验设计中称为()。A.实验对照B.空白对照C.安慰剂对照D.标准对照3.某医师研究丹参预防冠心病的作用,实验组用丹参,对照组用无任何作用的糖丸,这属于()。A.实验对照B.空白对照C.安慰剂对照D.标准对照4.某医师研究七叶一枝花治疗胃溃疡疗效时,实验组服用七叶一枝花与淀粉的合剂,对照组仅服用淀粉,这属于()。A.实验对照B.空白对照C.安慰剂对照D.标准对照5.实验设计的三个基本要素是()。A.受试对象、实验效应、观察指标B.随机化、重复、设置对照C.齐同对比、均衡性、随机化D.处理因素、受试对象、实验效应6.实验设计的基本原则()。\n2011年5月6日86A.随机化、盲法、设置对照B.重复、随机化、配对C.随机化、盲法、配对D.随机化、重复、设置对照7.实验设计和调查设计的根本区别是()。A.实验设计以动物为对象B.调查设计以人为对象C.实验设计可随机分组D.实验设计可人为设置处理因素8.在()中,研究者可以人为设置各种处理因素;而在()中则不能人为设置处理因素。A.调查研究B.社区干预试验C.临床试验D.实验研究(四)是非题1.用元参钩藤汤治疗80名高血压患者,服用半月后比服用前血压下降了2.8kPa,故认为该药有效()。2.在实验设计中,样本含量越大,越符合其重复原则,越能降低实验误差()。(五)简答题1.随机化的作用是什么?2.某医师欲观察保健品“海兰兰”纠正小学生贫血的效果,您认为应采用何种类型的研究?在进行研究设计时应考虑那些主要问题,请简述之。3.某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中的维生素A的含量有无差别。请问:(1)此实验属于那种实验设计()。A.完全随机设计B.配对设计C.配伍组设计D.拉丁方设计(2)此实验结果应使用那种统计方法进行分析()。A.配对资料t检验B.回归分析C.成组资料t检验D.成组设计方差分析(3)以下假设检验那种是正确的()。A.两种饲料喂养的大白鼠总体的肝中维生素A含量不等0H两种饲料喂养的大白鼠总体的肝中维生素A含量相等1HB.两种饲料喂养的大白鼠总体的肝中维生素A含量不等0H两种饲料喂养的大白鼠总体的肝中维生素A含量相等1HC.两种饲料喂养的大白鼠总体的肝中维生素A含量不等0H两种饲料喂养的大白鼠总体的肝中维生素A含量不等1HD.两种饲料喂养的大白鼠总体的肝中维生素A含量相等0H两种饲料喂养的大白鼠总体的肝中维生素A含量不等1H(4)结果如何解释()。A.P﹤0.05时,两组饲料喂养的大白鼠样本的肝中维生素A含量差别无意义B.P﹤0.05时,两组饲料喂养的大白鼠样本的肝中维生素A含量差别有意义C.P﹤0.05时,两组饲料喂养的大白鼠总体的的肝中维生素A含量差别无意义D.P﹤0.05时,两组饲料喂养的大白鼠总体的的肝中维生素A含量差别有意义四、习题答案\n中医药统计学复习指导及摸拟试题第87页共107页(一)名词解释1.安慰剂对照(placebocontrol)指在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。2.随机化(randomization)指研究对象中或总体中每一个观察单位都有同等的机会被选入样本或实验研究的各处理组中。3.混杂因素(confoundingfactor)指实验研究中由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,这种非实验因素称为混杂因素。4.系统误差(systematicerror)指实验过程中产生的一些误差,它们的值是恒定不变或者是遵循着一定的规律变化。5.偏倚(bias)是指在实验中由于某些非实验因素的干扰所形成的系统误差,歪曲了处理因素的真实效应。6.实验研究(experimentalstudy)是指研究者根据研究目的(或研究假设),主动加以干预措施,并观察总结其结果,回答假设研究所提出的问题的一种研究方法。7.沾染(contamination)是指对照组的实验对象接受实验组的处理措施,提高了对照组的有效率,其结果是造成了实验组和对照组之间差异缩小的假象。8.干扰(intervention)是实验组从实验外接受了对实验因素有效的药物或措施(非处理措施),提高了实验组的有效率,其结果是扩大了实验组和对照组之间的差异。9.失访(lostoffollow-up)指受试者在实验过程中由于各种原因退出实验称为失访。10.随机对照实验(randomizedcontroltrial)首先将受试对象随机分配到实验组和对照组,通过比较分析回答研究假设的问题。(二)填空题1.重复、对照、随机化。2.检验水准α、检验效能1-β、总体参数间的差值δ、估计的总体标准差σ。(三)单项选择题1.D2.D3.C4.A5.D6.D7.D8.BC,A(四)是非题1.错。没有设立对照不能说明问题。2.错。样本含量过大,实验过程不易控制,反而增加系统误差,且成经济损失,故样本含量适当时,效能最高,重复性原则并非指样本含量越大约好。(五)简答题1.随机化保证了各比较组间的均衡可比性,也是资料统计分析时进行统计推断的前提。2.宜采用配对设计,将实验对象按照年龄,性别,营养状况,贫血轻、中、重的程度配对,随机分配每对中两个对象接受不同的处理方式。实验组给予“海兰兰”对照组给予安慰剂,最好采用双盲法。3.(1)B(2)A(3)D(4)D\n2011年5月6日88第十二章调查设计资料分析一、内容((((一))))调查的概念及其特点调查(survey)是指在没有任何干预措施的条件下客观地观察和记录研究对象的现状及其相关特征。在调查中,欲研究的对象及其相关特征(包括研究因素和非研究因素)是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,这是调查研究区别于实验研究的最重要特征。当然对非研究因素的控制可以在调查分析阶段通过标准化法、分层分析以及多因素统计分析等方法得以实现,而不是在调查阶段。((((二))))调查设计的基本原则与内容1.明确调查目的每一项调查,必须有明确的调查目的。调查目的一般可分为调查的总目的和具体目的。调查目的是选定调查指标的依据。2.确定调查对象和观察单位根据调查目的确定调查对象,即明确调查总体的同质范围。在确定的总体范围内,组成调查对象的每个个体即为观察单位。观察单位可以是一个人、一个家庭或一个群体。3.确定调查方法根据研究问题的性质、客观条件和研究目的选择合适的调查方法。按调查的涉及面,一般可分为普查(overallsurvey)和抽样调查(samplingsurvey)。普查也称全面调查(completesurvey),是对调查范围内的全部观察对象(总体)进行调查,一般用于了解总体在某一特定“时点”的情况。抽样调查是一种非全面调查,是从总体中抽取一定数量的观察单位组成样本,然后根据样本信息来推断总体特征。抽样调查是医学科研中最为常用的方法。调查方法还可按调查的内容发生的时间,分为横断面调查(cross-sectionalstudy)和纵向调查(longitudinalstudy);按资料的来源,可分为现场调查和利用现有资料两种;按调查方式,可分为面对面调查和非面对面调查(信访、电话采访等)两种。4.确定调查指标和变量调查目的是选定调查指标的依据,调查指标是调查目的的具体体现。设计时,应将调查目的转化为具体的调查指标。调查指标可分为客观指标和主观指标,还可分为定性指标和定量指标。一个指标可以是一个或几个变量,也可以是几个指标构成一个变量。指标的设立应注意灵敏性、特异性和客观性,并紧扣研究目的,做到少而精。5.调查工具和调查表(1)调查工具:调查工具(instruments)可分为两类,一类是“硬”工具,一类是“软”工具。如尺、秤、温度计等是“硬”工具;调查表和问卷等是“软”工具。调查工具必须标准化,要防止系统误差。工具的使用和调查结果的记录也必须标准化。(2)调查表和问卷的一般结构:调查表和问卷(questionnaire)一般可划分为4个部分,分别为:“说明部分”、“填写说明”、“核查项目”、“调查项目”。“说明部分”主要说明调查目的,以取得调查对象的合作;“填写说明”是为了保证所有调查员和调查对象均能对调查项目及填写方法正确理解、统一认识而编写的;“核查项目”这一部分是与调查目的无关、不向调查对象询问的质量控制项目,如调查员姓名、调查日期、复核\n中医药统计学复习指导及摸拟试题第89页共107页结果、未调查原因等;“调查项目”部分是调查对象填写的部分,是调查的核心内容。(3)问题的形式:根据问题答案的形式,问题可分为开放型和封闭型两类。开放型问题对问题答案不加任何限制,由调查对象对问题自由回答,适于调查者不清楚答案如何以及答案很多的情况,或事先不能确定回答的范围以及预调查;封闭型问题是根据问题可能的答案,提出两个或多个固定答案共调查对象选填,常用“是与否”或多项选择的形式。封闭型问题只能得到分类资料或等级资料,而开放型问题有时可得到数值变量资料。可根据具体情况加以选择。(4)问题设计应注意的问题:尽量避免术语;避免含糊的提问用词;避免双重问题;避免诱导或强制;敏感问题的调查要有专门技巧。6.确定样本含量为什么要确定样本含量或者说其意义有哪些?(1)可以控制统计量的抽样误差,样本含量越大,标准误越小;(2)提高估计的精度,增大样本含量是控制可信区间的宽度的有效办法;(3)增大样本含量是控制统计分析中Ⅱ型错误的概率大小的有效措施;(4)表示抽样误差的指标(各种标准误)的抽样误差也与样本含量有关(如样本方差的方差)。在现场调查中,最常用的是估计总体均数及估计总体率时要求的样本含量。7.调查员调查员应该经过选择和培训,培训分理论培训和实践培训。调查员的工作量要合理,对调查员应有监督机制和质量控制措施。8.伦理道德伦理道德问题可以来自于某些调查的问题本身,也可以来自于为获得有效而可靠的资料所用的方法。调查时要注意知情同意(informedconsent)和隐私的保护。知情同意是指在研究对象暴露于某种危险之中或丧失某种个人权益时,要征得研究对象同意。((((三))))抽样方法1.概率抽样所谓概率抽样(probabilitysampling),就是在抽样中必须使该总体中的每一个个体都有已知的或可计算的和非零的概率被抽样抽中。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样和整群抽样。各种抽样方法的抽样误差一般是:整群抽样≥简单随机抽样≥系统抽样≥分层抽样。在应用大多数的概率抽样方法时,确切的抽样框架非常重要。抽样框架(Samplingframe),简单地说就是一份完整的可以用来抽样的名单。如果没有抽样框架,也就是说目标人群(总体)不明确,那么所得的调查结论很难说适用于什么人群。(1)简单随机抽样:所谓简单随机抽样(simplerandomsampling)是在某个总体中以完全随机的方法抽取一部分个体组成样本。一般,在抽样前,需要先对抽样总体中的全部个体进行编号即确定抽样框架,然后用抽签或随机数字表的方法抽取一部分个体。这种抽样方法简单,计算抽样误差方便。但是,在大规模的调查中,由于对总体中的所有个体进行编号很困难,而且当样本量不大时抽取的个体可能很分散,因此,抽样和现场调查都会相当困难。(2)系统抽样:所谓系统抽样(systematicsampling)是指随机地在抽样框架内每间隔若干个个体抽取一个个体的抽样方法。在一般情况下,系统抽样的抽样误差是和简单随机抽样相仿甚至比简单随机抽样的抽样误差更小。系统抽样的抽样误差一般按简单随机抽样方法估计。\n2011年5月6日90(3)分层抽样:所谓分层抽样(stratifiedsampling)是先按对观察指标影响较大的某种特征,将总体分为若干类别(统计上称之为“层”,strata),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。分层的原则是层间差别越大越好,层内差别越小越好。在样本总含量n确定后,有两种比较常用的方法来分配各层的观察单位数ni。按比例分配(proportionalallocation):按各层观察单位数Ni占总体观察单位数N比例抽取样本,使各层样本含量ni与样本总含量n之比等于各层观察单位数Ni与总体观察单位数N之比。采用按比例分层随机抽样时,所得均数或比例是自动加权的。样本量分配可按下式计算:或(14-NNnnii=NnNnii=5)最优分配(optimumallocation):即同时按总体各层观察单位数Ni的多少和标准差σi的大小分配,按下面两式分配各层的样本量,使抽样误差最小。(4)整群抽样:所谓整群抽样(clustersampling)是先将总体按照某种与研究指标无关的特征化分为个群组,每个群包括若干观察单位,然后在随机抽取个群,将抽取的Kk各个群的全部观察单位组成样本。整群抽样的特点是抽样和调查都很方便,可能省时、省力和省钱。缺点是可能抽样误差较大,特别是群间差别较大时。2.非概率抽样所谓非概率抽样(non-probabilitysampling),是指各个个体被抽样抽中的概率是未知的和无法计算的。然而,一些非概率抽样方法,尽管不能按常规的理论来计算抽样误差和推断总体,在特定条件下,还是有用的。但在应用中,不能忘了它们的局限性,特别要注意结论的合适性。(1)配额抽样:所谓配额抽样(quotasampling)是一种的实用的非概率抽样方法。就是要求样本中个体的构成在指定的几个特征方面的(分配额度)比例完全与总体一样,例如,由于全人口中男女各半,所以要求调查对象中也是男女各半,由于该地有苗族居民30%,要求在调查对象中苗族居民占30%。配额抽样可以使样本有宏观上的代表性。(2)“滚雪球”样本和识别(判断)样本:在有些情况下,缺少目标总体中全部个体的名单,无法构成抽样框架,此时可用另外一些非概率抽样的方法,即“滚雪球”(snowballing)抽样和识别(judgement)抽样的方法。比如调查太极拳爱好者,由于正式参加太极拳运动的人数太少,因此难以获得抽样框架。但是每一位太极拳运动爱好者都会有一些相同兴趣的好友,所以可以通过这种关系滚雪球似地把样本扩大。所谓识别抽样,是指研究者尽可能找到和识别需调查的个体。这两种调查方法,都未能明确规定抽样框架,甚至难以说出要推断的总体是什么,然而,作为一项探索性的调查,仍可能获得有价值的信息。((((四))))病例对照研究和队列研究病例对照研究(casecontrolstudy)是一种“由果推因”的回顾性观察性研究,根据有无研究疾病或其它结局,将研究人群分为病例组(cases)和对照组(controls),追溯过去某些暴露情况,比较两组暴露水平有无差异,从而得出结局与暴露有无关联的推断。队列研究(cohortstudy)是一种“由因寻果”的纵向前瞻性观察研究。根据观察开始时有无暴露(exposure)史,研究者将没有出现研究疾病或其它结局(outcome)的研究人群分为暴露人群和非暴露人群,并随访观察一定时期,旨在比较两组人群的疾病“发病”率有无差异,从而得出暴露与结局有无关联的推断。两者关系可简要见下表:\n中医药统计学复习指导及摸拟试题第91页共107页表14-1病例对照研究与队列研究的比较((((五))))标准化率调查资料在进行对比分析时,要注意组间的可比性。当两组(或多组)资料的内部各小组的率明显不同,而且各小组观察单位的构成比明显不同时,则不能直接比较两组的总率。这时可采用一个“统一的标准”将两组(或多组)资料的内部构成比例调整一致后,分别计算出调整后的总率再作比较,这种方法叫做率的标准化(standardization)。率的标准化有以下两种方法:1.直接标准化直接标准化(directstandardization)是以有代表性的、人群数量大的组作为标准人群,用标准人群各小组观察单位数分别乘以被标化人群的各小组的阳性率(如发病率),得到被标化人群的理论阳性数。理论阳性数除以标准人群总人口数,得到被标化人群的标准化阳性率。2.间接标准化间接标准化(indirectstandardization)是以标准人群各小组阳性率乘以被标化人群的各小组观察单位数,得到被标化人群的理论阳性人数。被标化人群的实际阳性人数除以理论阳性总人数,得标准化阳性率比值(如标准化发病率比值standardizedincidenceratio,SIR或标准化死亡率比值standardizedmortalityratio,SMR)。SIR(SMR)乘以标准人群实际阳性率,得到被标化人群的间接标准化阳性率。二、试题分析比较项目病例对照研究队列研究观察方向“由果推因”的回顾性观察研究“由因寻果”的纵向前瞻性观察研究可获得指标比数比(oddsratio,OR),当发病率很低时,OR被认为与RR很接近;用OR替代RR估计归因危险度百分比(attributableriskproportion,AR%)累积发病率(cumulativeincidence,CI);发病密度(incidencedensity,ID);相对危险度(relativerisk,RR);归因危险度(attributablerisk,AR);归因危险度百分比(attributableriskproportion,AR%)优点省时、省人力、省经费,易组织实施;适于结局为罕见事件的病因研究;一次调查可探索疾病的多个可疑病因,常用于初步验证某病因假说或探测某些病因;当发病率很低时,OR与RR相当近似因结局发生在后,故对暴露资料的收集是无偏倚的;可收集已知混杂因素的信息;可直接计算发病率、相对危险度等疾病与病因关联的指标;病因在前结果在后,可证实病因假说;可获得多种结局资料缺点不适于研究人群中暴露比例很低的因素;不能直接计算发病率;有时难以判断暴露与疾病之间的时间先后关系;易发生选择偏倚、回忆偏倚、混杂偏倚耗费时间、人力、经费;当结局为罕见事件时,需样本量大;易产生以下偏倚:研究对象依从性偏倚、信息偏倚、对暴露与结局的评价偏倚\n2011年5月6日92(一)名词解释调查。答案:调查(survey)是指在没有任何干预措施的条件下客观地观察和记录研究对象的现状及其相关特征。在调查中,欲研究的对象及其相关特征(包括研究因素和非研究因素)是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,这是调查研究区别于实验研究的最重要特征。[[[[评析]]]]本题考点:调查的概念及其特点,调查研究与实验研究的区别。实验研究可以人为地设置干预措施,而调查研究是在没有任何干预措施的条件下观察和记录研究对象的现状及其相关特征。(二)单项选择题1.随机抽样是指()。A.每个个体必须有同样的概率被抽样抽中B.抽样中不要按主观意愿挑选C.概率抽样和非概率抽样D.哪一个个体被抽样抽中完全是由于碰巧答案:A[[[[评析]]]]本题考点:统计学中随机抽样概念的理解。有限总体在获得抽样框架后,可以实现随机抽样,即总体中的每个观察单位都有同样的机会被选作样本,而不是按主观意愿挑选或哪一个个体被抽样抽中完全是由于碰巧。2.概率抽样是指()。A.每个个体被抽样抽中的概率是已知非零的B.每个个体被抽样抽中的概率是可计算的C.每个个体被抽样抽中的概率是非零的D.每个个体被抽样抽中的概率是非零的,已知或可计算的答案:D[[[[评析]]]]本题考点:统计学中概率抽样概念的理解。概率抽样就是在抽样中必须使该总体中的每一个个体都有已知的或可计算的和非零的概率被抽样抽中。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样和整群抽样。在应用大多数的概率抽样方法时,确切的抽样框架非常重要。概率抽样可以估计其抽样误差的大小。而非概率抽样是指各个个体被抽样抽中的概率是未知的和无法计算的。3.在常用的几种抽样调查中,其抽样误差的大小关系一般是()。A.整群抽样小于分层抽样B.系统抽样大于简单随机抽样C.整群抽样大于简单随机抽样D.简单随机抽样小于最优分配分层随机抽样答案:C[[[[评析]]]]本题考点:常用的几种随机抽样调查方法的抽样误差的估计。常用的几种随机抽样调查方法有统计的理论依据,可估计抽样误差,能客观地评价调查结果的精度。各种抽样方法的抽样误差一般是:整群抽样简单随机抽样系统抽样≥≥分层抽样。在保证同样精度的条件下,所用抽样方法的抽样误差越大,则所需样本含量≥相对越多。4.最优分配分层抽样,()。A.可以使抽样误差最小B.可以使调查费用最小C.样本均数是无偏的D.要求的样本含量最小\n中医药统计学复习指导及摸拟试题第93页共107页答案:A[[[[评析]]]]本题考点:分层抽样调查抽样误差的估计。分层抽样中,在样本总含量确定后,有两种比较常用的方法来分配各层的观察单位数。一种是按比例分配,另外一种是最优分配。按比例分配是按各层观察单位数占总体观察单位数比例抽取样本,使各层样本含量与样本总含量之比等于各层观察单位数与总体观察单位数之比;而最优分配是同时按总体各层观察单位数的多少和标准差的大小分配,使抽样误差最小。5.调查设计和实验设计的根本区别是()。A.实验设计以动物为对象B.调查设计以人为对象C.实验设计可随机分组D.实验设计可人为设置处理因素答案:D[[[[评析]]]]本题考点:调查研究和实验研究的概念的理解。调查是指在没有任何干预措施的条件下客观地观察和记录研究对象的现状及其相关特征。在调查中,欲研究的对象及其相关特征是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,而实验研究可人为设置处理因素,这是调查研究区别于实验研究的最重要特征。(三)简答题四种基本抽样方法是如何体现随机性的?各自的优缺点和适用的场合是什么?答案:简单随机抽样:将调查总体的全部观察单位编号,再用随机数字标或抽签等方法随机抽取部分观察单位组成样本。优点:均数或率及标准误的计算简便。缺点:总体例数较多时,一一编号比较麻烦,实际工作中难以办到。适用场合:一些比较单纯的现象,如观察单位在总体中分布比较均匀时采用这种方法。系统抽样:将总体的观察单位按某一顺序等分成个部分,在从第一部分随机抽第nk号观察单位,依次用相等间隔机械地从每一部分各抽一个观察单位组成样本。优点:易于理解,简便易行;容易得到一个按比例分配的样本。缺点:当总体的观察单位按顺序有周期趋势或单调增(减)趋势,则系统抽样产生明显偏性;没有自己的估计抽样误差的方法。适用场合:观察单位分布十分均匀,可以保证样本对总体有较好的代表性。整群抽样:先将总体划分为个群,每个群包含若干观察单位,再随机抽取个群,Kk并将被抽取的各个群的全部观察单位组成样本。优点:便于组织,节省经费。缺点:例数一定时,抽样误差较大。适用:群间差异较小的对象。分层抽样:按影响观察值变异较大的某种特征,将总体化分为若干类型或组别(即层),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。优点:减少抽样误差;便于对不同的层采用不同的抽样方法;可以对不同层独立进行分析。适用:各层间差异较大。[[[[评析]]]]本题考点:常用的几种概率抽样调查方法的比较。根据研究问题的性质、客观条件和研究目的选择合适的抽样调查方法。不同的抽样方法有不同的使用场合。三、习题(六)名词解释1.抽样调查2.简单随机抽样3.系统抽样4.分层抽样5.整群抽样6.概率抽样7.非概率抽样8.相对危险度\n2011年5月6日949.病例对照研究10.队列研究(二)单项选择题1.在抽样调查中,理论上样本含量大小与()大小有关。A.样本极差B.样本变异系数C.样本方差D.样本四分位间距2.在计算简单随机抽样中估计总体均数所需样本例数时,至少需要确定()。nA.允许误差,总体标准差,第二类错误δσβB.第一类错误,总体标准差,总体均数ασµC.允许误差,总体标准差,第一类错误δσαD.允许误差,总体标准差,总体均数δσµ3.拟用放射免疫法检测某人群(5000人)血液中流脑特异免疫球蛋白含量,根据文献报道,其标准差约为0.5mg/L,容许误差为0.1mg/L,则按单纯随机抽样,需抽出的样本例数为()人。A.97B.95C.96D.944.在抽样调查中,理论上样本含量大小会影响()。A.样本标准差的大小B.总体均数的稳定性C.样本标准差的稳定性D.样本中位数的大小5.表示()抽样时均数的抽样误差。nSxS/=A.整群B.系统C.分层D.简单随机6.我们工作中常采用的几种抽样方法中,最基本的方法为();7.操作起来最方便的为();8.在相同条件下抽样误差最大的为();9.所得到的样本量最小的为()。A.简单随机抽样B.系统抽样C.整群抽样D.分层随机抽样10.调查用的问卷中,下面的四个问题中,()是较好的一个问题。A.你和你的妈妈认为女孩几岁结婚比较好____。B.如果只生1个孩子,你希望孩子的性别是:1.女;2.男;3.随便C.你1个月工资多少_____。D.你一个月吃盐____克。11.原计划调查1000名对象,由于种种非主观和非选择的原因,只调查到600名,这样的调查结果()。A.可能有偏性,因为失访者太多,可能这些失访有偏性B.不会有偏性,因为这种失访是自然的C.不会有偏性,因为这400名失访者不一定是某一种特征的人D.可能有偏性,因为600名对象不算多(三)简答题1.调查设计包含哪些内容?2.调查表或问卷的一般结构是什么?\n中医药统计学复习指导及摸拟试题第95页共107页四、习题答案(一)名词解释1.抽样调查:抽样调查(samplingsurvey)是一种非全面调查,是从总体中抽取一定数量的观察单位组成样本,然后根据样本信息来推断总体特征。抽样调查是医学科研中最为常用的方法。2.简单随机抽样:所谓简单随机抽样(simplerandomsampling)是在某个总体中以完全随机的方法抽取一部分个体组成样本。一般,在抽样前,需要先对抽样总体中的全部个体进行编号,然后用抽签或随机数字表的方法抽取一部分个体。3.系统抽样:所谓系统抽样(systematicsampling)是指随机地在抽样框架内每间隔若干个个体抽取一个个体的抽样方法。在一般情况下,系统抽样的抽样误差是和简单随机抽样相仿甚至比简单随机抽样的抽样误差更小。系统抽样的抽样误差一般按简单随机抽样方法估计。4.分层抽样:所谓分层抽样(stratifiedsampling)是先按对观察指标影响较大的某种特征,将总体分为若干类别(统计上称之为“层”,strata),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。分层的原则是层间差别越大越好,层内差别越小越好。5.整群抽样:所谓整群抽样(clustersampling)是先将总体按照某种与研究指标无关的特征化分为个群组,每个群包括若干观察单位,然后在随机抽取个群,将抽取的各个群的Kk全部观察单位组成样本。6.概率抽样:所谓概率抽样(probabilitysampling)就是在抽样中必须使该总体中的每一个个体都有已知的或可计算的和非零的概率被抽样抽中。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样和整群抽样。7.非概率抽样:所谓非概率抽样(non-probabilitysampling)是指各个个体被抽样抽中的概率是未知的和无法计算的。然而,一些非概率抽样方法,尽管不能按常规的理论来计算抽样误差和推断总体,在特定条件下,还是有用的。8.相对危险度:相对危险度(relativerisk,RR)为暴露组发病(或死亡)率与非暴露组发病(或死亡)率之比,是队列研究中用于描述某因素与疾病发生之间的关联的主要统计学指标。9.病例对照研究:病例对照研究(casecontrolstudy)是一种“由果推因”的回顾性观察性研究,根据有无研究疾病或其它结局,将研究人群分为病例组和对照组,追溯过去某些暴露情况,比较两组暴露水平有无差异,从而得出结局与暴露有无关联的推断。10.队列研究:队列研究(cohortstudy)是一种“由因寻果”的纵向前瞻性观察研究。根据观察开始时有无暴露(exposure)史,研究者将没有出现研究疾病或其它结局(outcome)的研究人群分为暴露人群和非暴露人群,并随访观察一定时期,旨在比较两组人群的疾病“发病”率有无差异,从而得出暴露与结局有无关联的推断。(二)单项选择题1.C2.C3.C4.B5.D6.A7.B8.C9.D10.B11.A(三)简答题1.一个完整的调查设计应包括以下内容:确定明确的调查目的;确定调查对象和观察单位;确定调查方法;确定调查指标和变量;确定调查工具和设计调查表;确定样本含量;调查员的选择和培训;调查的组织计划;涉及伦理道德方面问题的处理。2.调查表或问卷的结构一般可划分为4个部分,分别为:“说明部分”、“填写说明”、“核查项目”、“调查项目”。“说明部分”主要说明调查目的,以取得调查对象的合作;“填写说\n2011年5月6日96明”是为了保证所有调查员和调查对象均能对调查项目及填写方法正确理解、统一认识而编写的;“核查项目”这一部分是与调查目的无关、不向调查对象询问的质量控制项目,如调查员姓名、调查日期、复核结果、未调查原因等;“调查项目”部分是调查对象填写的部分,是调查的核心内容。\n中医药统计学复习指导及摸拟试题第97页共107页第十三章医学人口统计与疾病统计常用指标一、内容((((一))))医学人口统计常用指标的意义及其用途1.人口数与人口构成常用指标(1)人口数:人口数(population)又称人口总数,一般指一个国家或地区某一特定时间点的人口数。通过一次人口普查,可得较好的人口数统计。根据我国的户籍登记,也可获得户籍人口数。在人口流动较多的情况下,还可按居住地来统计人口数。(2)性别比:以女性人口为100,计算男女性人口数之比,称为性别比或性比例。(3)老年人口系数:指老年人口在总人口中所占的比重,是说明人口老龄程度的指标,可作为划分人口类型的尺度。(4)少年儿童人口系数:指少年儿童人口在总人口中所占的比重,是划分人口类型的指标之一。2.人口金字塔(1)人口金字塔:人口金字塔(pyramid)是一种用几何图形来形象的表示人口性别年龄构成的方法。将人口的性别、年龄分组数据,以年龄(或出生年份)为纵轴,以人口数或年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图,其型如金字塔,称为人口金字塔。人口金字塔更形象直观地反映了人口的年龄性别构成,便于说明和分析人口的现状、类型。(2)人口金字塔的类型:人口金字塔可分为三种类型:年轻型、成年型和年老型。它们的形状各不相同。年轻型:塔顶尖、塔底宽。成年型:塔顶、塔底宽度基本一致,在塔尖处才逐渐收缩。年老型:塔顶宽,塔底窄。从人口年龄结构对今后人口增长速度影响的角度,又可将人口金字塔分为增长型、静止型和缩减型,分别与年轻型、成年型和年老型相对应。3.生育与计划生育常用指标(1)粗出生率:粗出生率(crudebirthrate,CBR)又称出生率,指某地某年平均每千人口中的出生数(活产数),人口的出生率明显受人口的性别年龄结构的影响。其算式为:(2)总生育率:总生育率(generalfertilityrate,GFR)又称生育率,指某地某年平均每千名育龄妇女的活产数,是测量人群生育水平的指标。其算式为:性别比=男性人数×100(15-1)女性人数老年人口系数=65岁及以上人口数×100%(15-2)人口总数少年儿童人口系数=14岁及以下人口数×100%(15-3)人口总数粗出生率=某年活产总数×1000‰(15-4)同年平均人口数生育率=某年活产总数×1000‰(15-5)同年15~49岁妇女平均人口数\n2011年5月6日98(3)终生生育率:终生生育率(life-timefertilityrate,LTFR)说明一批经历过整个育龄期的妇女一生的生育水平。终生生育率由于观察时间很长,一般很难观察到。(4)总和生育率:总和生育率(totalfertilityrate,TFR)假定一批妇女按某一套年龄别生育率计算,平均在整个育龄期会有几个活产。该指标反映的是调查年时间横断面上的生育水平。因其消除了年龄构成不同对生育水平的影响,故不同地区、不同年度的总和生育率可以直接比较,因而应用较广,是较好的测量生育水平的指标。(5)自然增长率:自然增长率(naturalincreaserate,NIR)为粗出生率与粗死亡率之差,是测量人口再生育的指标。易受人口性别、年龄的影响,只能粗略的估计人口的一般增长趋势,不能用来估计未来人口的发展速度。4.死亡统计常用指标(1)粗死亡率:粗死亡率(crudedeathrate,CDR)又称死亡率(deathrate),是某时期(一般是1年)死亡总数除以该时期的平均人口数或期中人口数所得的商。如果用一年的资料计算年死亡率,分子是一年内的死亡数,分母就是该年的平均人口数或年中人口数。粗死亡率说明人群中总的死亡水平,易受人口性别、年龄的影响。(2)年龄别死亡率:年龄别死亡率(age-specificdeathrate,ASDR)指某年某年龄别平均每千人口中的死亡数。(3)标准化死亡率:一群人的死亡率高低受该人群年龄构成的影响,所以不同人群或同一人群不同时间的死亡率比较时,应该考虑用某种方法消除年龄构成的影响。标准化死亡率(standardizedmortalityrate,SMR)就是这样的一个指标。直接法计算的标准化死亡率,就是用同一套标准的年龄构成比与各自的年龄组死亡率乘积的总和。(4)婴儿死亡率:婴儿死亡率(infantmortalityrate,IMR)指某地某年不满一周岁婴儿的死亡数与同期活产总数的比值。婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指标,也是死亡统计指标中较为敏感的指标。(5)新生儿死亡率:新生儿死亡率(neonatalmortalityrate,NMR)指某地某年未满28天的新生儿的死亡数与同期活产总数的比值。与婴儿死亡率同样是反映妇幼卫生工作终生生育率=某批妇女生育的活产子女数×1000‰(15-6)经历过整个育龄期的该批妇女数总和生育率=()×Σ年龄组组距各年龄组生育率(15-7)人口自然增长率=粗出生率―粗死亡率(15-8)粗死亡率=某年死亡数×1000‰(15-9)同年平均人口数年龄别死亡率=某年某年龄组死亡人数×1000‰(15-10)同年该年龄组平均人口数婴儿死亡率=某年不满周岁婴儿死亡数×1000‰(15-11)同期活产数\n中医药统计学复习指导及摸拟试题第99页共107页的重要指标。新生儿死亡数在婴儿死亡数中占很大的比重(约占50%),因此,降低新生儿死亡率是降低婴儿死亡率的关键。但是,新生儿死亡漏报现象非常严重。在我国,有的边远地区新生儿死亡漏报率高达100%。新生儿死亡漏报直接影响到该指标的准确性。(6)5岁以下儿童死亡率由于儿童死亡率比较高,且不易获得完整的统计资料,在卫生事业不发达或统计制度不健全的国家和地区,婴儿和新生儿死亡数往往有漏报。故也常用5岁以下儿童死亡率来反映婴幼儿的死亡水平。(7)死因别死亡率:死因别死亡率(cause-specificdeathrate,CSDR)指因某种原因(疾病)所致的死亡率,是死因分析的重要指标,反映各类病伤死亡对居民生命的危害程度。(8)死因顺位:指按各类死因构成比的大小或死因别死亡率的高低顺序,由高到低排列的位次,说明各类死因的相对重要性。死因顺位可以反映各种死因所致死亡的相对重要性。((((二))))疾病统计常用统计指标1.发病率:发病率(incidencerate)表示在观察期内,可能发生某种疾病的一定人群中新发该病的频率。2.患病率:一般所说的患病率(prevalencerate),又称现患率,指时点患病率(pointprevalencerate),是某一时间横断面上某病患者数占受检人数的比例,它是一种静态指标,虽然名称是率,但它的性质是比例。通常用于描述病程较长的慢性病或发病时间不易明确的疾病的患病情况。在某些场合,也使用时期患病率(periodprevalencerate),时期患病率的分子实际上是该时期起始点的患病例数与整个时期的新病例数之和,分母是同期平均人口数。3.某病病死率:某病病死率(fatalityrate)表示在规定的观察期内,某病患者中因该病而死亡的频率。4.某病死亡率:某病死亡率(mortalityrate)表示在规定的观察期内,人群中因某病而死亡的频率。它可以反映不同地区或年代某种疾病的死亡水平。5岁以下儿童死亡率=某年不满5岁儿童死亡数×1000‰(15-13)同年活产数某死因死亡率=某年内某种原因的死亡人数×100000/10万(15-14)同年平均人口数某病发病率=观察期内新发生某病的例数×1000‰(15-15)同期平均人口数患病率=现患人数×1000‰(15-16)受检人数某病病死率=观察期内因某病死亡的人数×1000‰(15-17)同期该病患者数某病死亡率=观察期内因某病死亡的人数×1000‰(15-18)新生儿死亡率=某年不满28天新生儿死亡数×1000‰(15-12)同期活产数\n2011年5月6日1005.治愈率:治愈率(curerate)指受治病人中治愈的频率。主要适用于一些急性病的疗效统计。6.生存率:生存率(survivalrate)是指观察对象能存活到某一时点的概率。常用的是一年生存率、五年生存率和十年生存率等。临床上,一些慢性病的病人经过某种治疗后的治疗效果,常用年生存率来表示。对恶性肿瘤等疾病,难说“治愈”,用年生存率来nn表示治疗效果或凶险程度是比较合适的。生存率一般要用寿命表法(即Kaplan-Meier法)计算。不宜按照对上述公式的直观理解,用“直接法”进行计算。(三)医学人口统计的含义及其资料来源1.医学人口统计:是应用人口统计学的理论与方法,从人类健康和卫生保健的角度研究人口的数量、结构、变动及其与卫生事业发展的相互关系,是人口统计学在居民健康和卫生保健领域中的应用,是卫生统计学的重要组成部分。2.资料来源:主要来源于人口统计收集的资料,有以下几个方面:(1)人口普查;(2)人口抽样调查;(3)人口登记,包括生命事件登记(出生、死亡、胎儿死亡、结婚、离婚、收养、生育、认领、离弃等)、人口迁移变动登记和户口登记。(四)疾病统计的意义及其资料来源4.疾病统计:是居民健康统计的重要内容之一,它的任务是研究疾病在人群中发生、发展及其流行的规律,为病因学研究、疾病防治和评价疾病防治效果提供科学依据。5.资料来源:主要来源于以下三个方面:(1)疾病报告和报表资料;(2)医疗卫生工作记录;(3)疾病调查资料。二、试题分析(一)名词解释婴儿死亡率。答案:婴儿死亡率(infantmortalityrate,IMR)指某地某年不满一周岁婴儿的死亡数与同年活产总数的比值。婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指标,也是死亡统计指标中较为敏感的指标。其计算式为:婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指标,也是死亡统计指标中较为敏感的指标。[[[[评析]]]]本题考点:婴儿死亡率概念的理解。(二)单项选择题同期平均人口数治愈率=治愈人数×100%(15-19)受治人数年生存率=n活满年的例数n×100%(15-20)观察例数婴儿死亡率=某年不满周岁婴儿死亡数×1000‰同年活产总数\n中医药统计学复习指导及摸拟试题第101页共107页1.在死因统计分析中,死因顺位是按()的高低顺序,由高到低排列的位次。A.发病率B.死因百分构成比或死因别死亡率C.死因别病死率D.患病率答案:B。[[[[评析]]]]本题考点:对死因顺位含义的理解。死因顺位是指按各类死因构成比的大小或死因别死亡率的高低顺序,由高到低排列的位次。死因顺位可以反映各种死因所致死亡的相对重要性。2.反映疾病发生频度的指标有()。A.患病率、感染率B.发病率、病死率C.感染率、发病率D.发病率、患病率答案:D。[评析]本题考点:反映疾病发生频度的指标。发病率与患病率同为疾病发生频度的指标。发病率表示一定时期内,在特定人群中新发生的某病病例数,反映某病新发病例的发生频度。患病率是指某时点上受检人数中现患某种疾病的人数,通常用于描述病程较长的慢性病或发病时间不易明确的疾病的患病情况。3.总和生育率是指()。A.一批妇女一生平均生育的子女数B.一批妇女按某年的年龄别生育水平计算,一生平均生育的子女数C.一批妇女某年的平均活产数D.某年龄段的育龄妇女某年的平均活产数答案:B。[评析]本题考点:总和生育率概念的理解。总和生育率(totalfertilityrate,TFR):假定一批妇女按某一套年龄别生育率计算,平均在整个育龄期会有几个活产。计算公式为:该指标反映的是调查年时间横断面上的生育水平。因其消除了年龄构成不同对生育水平的影响,故不同地区、不同年度的总和生育率可以直接比较,因而应用较广,是较好的测量生育水平的指标。4.人口金字塔可以用来反映()。A.人口出生情况B.人口死亡情况C.人口的年龄性别构成情况D.人口迁入迁出情况答案:C。[评析]本题考点:人口金字塔的意义及用途。人口金字塔是将人口的性别、年龄分组数据,以年龄(或出生年份)为纵轴,以人口数或年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图,其型如金字塔,故称为人口金字塔。人口金字塔更形象直观的反映了人口的年龄性别构成,便于说明和分析人口的现状和类型。5.老年人口比重增大,可使()。A.粗死亡率增高B.粗死亡率下降C.婴儿死亡率下降D.出生率迅速下降总和生育率=()×∑年龄组组距各年龄组生育率\n2011年5月6日102答案:A。[评析]本题考点:粗死亡率的概念及其影响因素。粗死亡率又称死亡率,是某时期(一般是1年)死亡总数除以该时期的平均人口数或期中人口数所得的商。如果用一年的资料计算年死亡率,分子是一年内的死亡数,分母就是该年的平均人口数或年中人口数。粗死亡率说明人群中总的死亡水平,易受人口性别、年龄的影响。一般情况下,老人和婴儿的死亡率较高,男性死亡率高于女性。计算公式为:(三)简答题何谓人口老龄化?请简述其影响因素。答案:人口老龄化是指老年人口在人口中所占的比重升高的现象。在没有迁移的情况下,人口老龄化的进程主要受生育率和死亡率两种因素的影响。死亡率(主要是中老年人口的死亡率)降低,使寿命延长,老年人口比重增加。生育率下降,使低年龄人口的比重降低,高年龄人口的比重相应增加。一般来说,人口老龄化的速度和程度主要取决于生育率的下降速度。当生育率水平下降达到很低的水平且很难再有较大程度的降低时,中老年人口死亡率的降低对人口老龄化的影响才比较明显。三、习题(一)名词解释1.老年人口系数2.负担系数3.人口金字塔4.出生率5.总和生育率6.标准化死亡率7.计划生育率8.死因别死亡率9.孕产妇死亡率10.生存率(二)单项选择题1.出生率下降,可使()。A.婴儿死亡率下降B.老年人口比重增加C.总死亡数增加D.老年人口数下降2.计算某年婴儿死亡率的分母为()。A.年活产总数B.年初0岁组人口数C.年中0岁组人口数D.年末0岁组人口数3.自然增长率是估计一般人口增长趋势的指标,它的计算是()。A.出生数—死亡数B.粗出生率—粗死亡率C.标化出生率—标化死亡率D.年末人数—年初人数4.计算某年围产儿死亡率的分母是()。A.同年妊娠28周以上的妇女数B.同年妊娠28周以上出生的活产数C.同年死胎数+死产数+活产数D.同年出生后7天内的新生儿数5.终生生育率是指()。A.一批经历过整个育龄期的妇女一生平均生育的子女数B.一批妇女按某时的生育水平,一生可能生育子女数C.一批经历过整个育龄期的妇女某年的平均活产数D.某年龄段的妇女某年的平均活产数6.年龄别生育率是指()。A.每1000名妇女一生平均生育的子女数粗死亡率=某年死亡人数×1000‰同年平均人口数\n中医药统计学复习指导及摸拟试题第103页共107页B.每1000名妇女按某时的生育水平,一生可能生育子女数C.每1000名妇女某年的平均活产数D.每1000名某年龄段的育龄妇女某年的活产数7.婴儿死亡率是指()。A.0岁死亡率B.活产婴儿在生活一年内的死亡概率C.某年不满1岁婴儿死亡数与同年活产总数之比D.某年不满1岁婴儿死亡数与同年婴儿总数之比8.某病病死率和某病死亡率均为反映疾病严重程度的指标,两者的关系为()。A.病死率高,死亡率一定高B.病死率高,死亡率不一定高C.青年人口中,病死率高,死亡率也高D.女性人口中,病死率高,死亡率也高9.总和生育率下降,可使老年人口百分比()。A.上升B.下降C.毫无关系D.以上答案均不对10.观察某种疫苗的预防效果,若第一季度初接种了400人,第二季度初接种了300人,第三季度初接种了100人,第四季度初接种了200人,到年终总结,这1000人中发病者20人,计算发病率的分母应该是()。A.1000人B.(400+200)/2人C.(400+300+100+200)/4人D.400+300×3/4+100×1/2+200×1/4人11.随访观察某种慢性病1000人的治疗结果,第一年死了100人,第二年死了180人,第三年死了144人,则该慢性病的3年生存率的算法为()。A.(0.9+0.8+0.8)/3B.1–0.10×0.20×0.20)C.1–0.10–0.20–0.20D.0.90×0.80×0.8012.老年人口一般是指()。A.50岁及以上的人口B.55岁及以上的人口C.60岁及以上的人口D.65岁及以上的人口(三)简答题1.发病率、时点患病率、时期患病率的区别。2.疾病统计的观察单位“病人”和“病例”的区别。3.病死率和死亡率的区别。四、习题答题(一)名词解释1.老年人口系数:老年人口系数指老年人口在总人口中所占的比重,是说明人口老年化程度的指标,可作为划分人口类型的尺度。一般把65岁及以上的人口称为老年人口,而发展中国家倾向于以60岁作为老年年龄界限。老年人口系数的算式为:2.负担系数:负担系数又称抚养比或抚养系数,是指人口中非劳动年龄人数与劳动年龄老年人口系数=65岁及以上的人口数×100%人口总数\n2011年5月6日104人数之比。一般以14~64岁为劳动年龄,14岁及以下和65岁及以上为非劳动年龄或抚养年龄。负担系数包括三个指标:总负担系数、少年儿童负担系数和老年负担系数。各国由于人口年龄构成不同,负担系数也有所不同。3.人口金字塔:将人口的性别、年龄分组数据,以年龄(或出生年份)为纵轴,以人口数或年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图,其型如金字塔,称为人口金字塔(pyramid)。人口金字塔更形象直观的反映了人口的性别年龄构成,便于说明和分析人口的现状和类型。4.出生率:出生率(birthrate,BR)又称粗出生率,指某地某年平均每千人口中的出生数(活产数),人口的出生率明显受人口的性别、年龄结构和婚姻状况的影响,因此,它只能粗略的反应生育水平。其算式为:5.总和生育率:总和生育率(totalfertilityrate,TFR)假定一批妇女按某一套年龄别生育率计算,平均在整个育龄期会有几个活产。该指标反映的是调查年时间横断面上的生育水平。因其消除了年龄构成不同对生育水平的影响,故不同地区、不同年度的总和生育率可以直接比较,因而应用较广,是较好的测量生育水平的指标。6.标准化死亡率:一群人的死亡率高低受该人群年龄构成的影响,所以不同人群或同一人群不同时间的死亡率比较时,应该考虑用某种方法消除年龄构成的影响。标准化死亡率(standardizedmortalityrate,SMR)就是这样的一个指标。直接法计算的标准化死亡率,就是用同一套标准的年龄构成比与各自的年龄组死亡率乘积的总和。7.计划生育率:计划生育率是指每1000名活产中符合计划生育要求者的例数。他综合说明计划生育的质量,可与反映计划生育工作的其他指标联合,用于评价计划生育工作。8.死因别死亡率:死因别死亡率(cause-specificdeathrate)指因某种原因(疾病)所致的死亡率。其算式为:死因别死亡率是死因分析的重要指标,它反映各类病伤死亡对居民生命健康的危害程度。9.孕产妇死亡率:孕产妇死亡率(maternalmortalityrate)指某年中由于怀孕和分娩及其并发症造成的孕产妇死亡人数与同年活产数之比,以万分率或十万分率表示,其算式为:孕产妇死亡率不仅可以评价妇女保健工作,而且间接反映一个国家的卫生文化水平。10.生存率:生存率(survivalrate)是指观察对象能存活到某一时点的概率。常用的是一年生存率、五年生存率和十年生存率等。临床上,一些慢性病的病人经过某种治疗后的治疗效果,常用年生存率来表示。对恶性肿瘤等疾病,难说“治愈”,用年生存率来nn表示治疗效果或凶险程度是比较合适的。出生率=某年活产总数×1000‰同年平均人口数总和生育率=(年龄组组距×各年龄组生育率)∑计划生育率=某年符合计划生育的活产数×100%同年活产总数某死因死亡率=某年某死因死亡人数×100000/10万同年平均人口数孕产妇死亡率=某年孕产妇死亡人数×100000/10万同年活产总数\n中医药统计学复习指导及摸拟试题第105页共107页生存率一般要用寿命表法(即Kaplan-Meier法)计算。不宜按照对上述公式的直观理解,用“直接法”进行计算。(二)单项选择题1.B2.A3.B4.C5.A6.D7.C8.B9.A10.D11.D12.D(三)简答题1.发病率、时点患病率、时期患病率的区别。(1)发病率是指观察期内,可能发生某病的人群中新发病例的频率,其观察期多为年、月、日等,急性常见病多计算发病率。(2)时点患病率反映在检查或调查时点一定人群中某病的现患情况(包括该病的新旧病例数)。观察时点在理论上是无长度的,但实际上观察时间不宜过长,一般不超过个月。(3)时期患病率反映在观察期间一定人群中存在或流行某病的频度,包括观察期间的新发病例和现患病例数,常为慢性病的统计指标,但收集资料很困难。2.疾病统计的观察单位“病人”和“病例”的区别。(1)一个人每次患病都可作为一个病例。以病例为单位的疾病统计,可研究居民各种疾病的频度、疾病的种类及疾病的变动,以获得居民患病的基本规律。(2)病人是指一个有病的人。在观察期间内,观察对象患有疾病即算作一个病人,不管其患病的种类及患病次数的多少。以病人为单位的疾病统计,在一定程度上反映居民的患病频度,可找出具体的患病人群,便于开展对病人个人的防治工作。3.病死率和死亡率的区别。(1)某病病死率表示在规定的观察期内,某病患者中因该病而死亡的频率。它是反映疾病的严重程度的指标。在用病死率进行比较时应注意内部构成不同的影响。计算公式为:(2)某病死亡率表示在规定的观察期内,人群中因某病而死亡的频率。它可以反映不同地区或年代某种疾病的死亡水平。计算公式为:年生存率=n活满年的例数n×100%观察例数某病病死率=观察期内因某病死亡的人数×1000‰同期该病患者数某病死亡率=观察期内因某病死亡的人数×1000‰同期平均人口数\n2011年5月6日106第十四章中医药统计学摸拟试题[[[[说明:2011201120112011年度规范化培训中医药统计学试题考试题型,单选题80808080题,多选题20202020题]]]]规范化培训中医药统计学摸拟试题(样题)一、单项选择题1.统计工作的前提与基础是:A.设计B.收集资料C.整理资料D.校对资料E.分析资料2.统计工作四个基本步骤是:A.设计,收集资料,整理资料和分析资料B.收集日常生活资料,报告卡片,分析资料,总结C.收集统计报表,日常医疗工作资料,分析资料,描述资料D.收集专门内容报告卡片,进行整理,分析资料,核对资料E.收集病历,日常医疗工作资料,分析资料,归组3.统计中所说的样本是指:A.随意从总体中抽取出的部分个体B.依照研究者要求从总体中抽取出有意义的部分个体C.按照随机原则抽取总体中有代表性的部分个体D.依照研究者要求从总体中抽取的部分个体E.按分布的顺序抽取部分个体4.统计中所说的总体是指:A.随意想象的研究对象的全体B.根据研究目的确定的研究对象的全体C.根据时间来划分的研究对象的全体D.根据地区来划分的研究对象的全体E.根据人群来划分的研究对象的全体5.总体的要求是:A.大量的B.同质的C.随机的D.固定的E.对称的6.对观察单位按某项指标的等级顺序分组,再清点各组观察单位的个数所得的资料称作:A.计量资料B.计数资料C.配对资料D.相关资料E.等级资料7.对观察单位用定量的方法测量某项指标所获得的资料是:A.计量资料B.计数资料C.配对资料D.相关资料E.等级资料8.样本指标值与总体指标值之差主要是指:A.随机测量误差B.关系误差C.容许误差D.抽样误差E.系统误差9.由于各种偶然的因素影响,造成同一对象多次测定的结果不完全一致,往往是有的稍高,有的稍低,这种差异是:A.系统误差B.随机测量误差C.抽样误差D.偏倚误差E.标准误差10.统计学上说的系统误差、测量误差和抽样误差三种误差,在实际工作中有:A.三种误差都不可避免B.系统误差和抽样误差不可避免C.系统误差和测量误差不可避免D.测量误差和抽样误差不可避免E.三种误差都可避免\n中医药统计学复习指导及摸拟试题第107页共107页单选题参考答案(仅供参考)1.B2.A3.C4.B5.B6.B7.A8.D9.B10.D二、多项选择题多项选择题(下列每小题A、B、C、D、E五个备选答案中,有两个或两个以上符合题意的正确答案。多选、少选、错选、不选均不正确。)1.标准误主要用于A.估计正常值范围B.估计样本均数与总体均数的接近程度C.决定正态分布曲线形状D.表示样本均数间的离散程度E.决定分布曲线的位置答案:BD2.显著性检验的一般步骤是A.建立无效假设B.选择和计算统计量C.确定概率D.判断结果E.画出图形答案:ABCD3.对于计量资料的分析,常用A.均数和标准差B.相对数C.秩和检验D.χ2检验E.t检验答案:AC4.均数的显著性检验可用于A.样本均数与总体均数的比较B.配对资料的比较C.两个小样本均数的比较D.两个大样本均数的比较E.两个率的比较答案:ABCD5.进行四格表卡方检验时,用矫正公式的是A.总观察例数小于40B.总观察例数大于40C.有任何一个格子理论数小于1D.有任何一个格子理论数小于5但是大于1E.总观察例数大于100答案:BD

相关文档