0.05,,按a=0.05水准不拒绝H0,尚不能认为惯用手与惯用眼之间存在关系。228.本例只有一个格子的理论频数小于5,故仍可用c检验。c=5.710,v=3,P>0.05,,按a=0.05水准不拒绝H0,尚不能认为两地的血型分布不同。(徐勇勇马跃渊)74\n第九章秩和检验一、教学大纲要求(一)掌握内容1.非参数统计基本概念和特点。2.配对设计差值的符号秩检验。3.成组设计资料两样本比较的秩和检验。(二)熟悉内容1.成组设计多样本比较的秩和检验步骤。2.随机区组设计资料的秩和检验。(三)了解内容1.成组设计多样本两两比较的秩和检验。2.随机区组设计资料两两比较的秩和检验。二、教学内容精要(一)参数统计与非参数统计1.参数统计样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。2.非参数统计样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametricstatistics),或称为不拘分布(distribution-freestatistics)的统计分析方法,又称为无分布型式假定(assumptionfreestatistics)的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。(二)非参数统计的特点和适用范围1.特点(1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。(2)收集资料方便,可用“等级”或“符号”来评定观察结果。(3)多数非参数方法比较简便,易于理解和掌握。(4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。2.适用范围(1)等级资料。(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。75\n(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。(三)配对设计差值的符号秩检验(Wilcoxon配对法)1.检验步骤(1)假设:H0:差值总体中位数Md=0H1:Md≠0a=0.05(2)求差值(3)编秩:依差值的绝对值从小到大编秩。编秩时遇差数等于0,舍去不计,同时样本例数减1;遇绝对值相等差数,符号相同顺次编秩,符号相反取平均秩次,且符号相反。(4)求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值以T-表示。T+及T-之和应等于n(n+1)/2,任取T+(或T-)作检验统计量T。(5)确定P值和作出推断结论:当n≤50时,查T界值表,得出P值。若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上若范围外,其P值小于表上方相应概率水平。2.正态近似法若n>50时,可用u检验,按如下公式计算u值:|T-n(n+1)/4|-0.5u=(9-1)n(n+1)(2n+1)/24当相同差值数多时,应改用校正式:|T-n(n+1)/4|-0.5u=(9-2)3n(n+1)(2n+1)å(tj-tj)-2448(四)成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)1.检验步骤:(1)假设:H0:两总体分布相同H1:两总体分布不同a=0.05(2)编秩:将两组原始数据分别由小到大排队,再将原始数据从小到大统一编秩。编秩时遇同组相同数据,顺次编秩,遇不同组相同数据取平均秩次。(3)求秩和并确定检验统计量:当两样本例数不等时,以样本例数小者为n1,其秩和为T。相等时,可任取一组的秩和为T。(4)确定P值和作出推断结论:查T界值表,得出P值。若检验统计量T值在上、下界76\n值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上若范围外,其P值小于表上方相应概率水平。2.正态近似法若n1或n2-n1较大时,可用u检验,按如下公式计算u值:|T-n(N+1)/2|-0.51u=(9-3)n1n2(N+1)/12当相同差值数多时,应改用校正式:u=u(9-4)cC33其中:C=1-å(tj-tj)(N-N)tj为第j个相同秩次的个数。(五)成组设计多个样本比较的秩和检验(Kruskal-Wallis法)检验步骤:1.假设:H0:各总体分布相同H1:各总体分布不同a=0.052.编秩:将两组原始数据分别由小到大排队,再将原始数据从小到大统一编秩。编秩时遇同组相同数据,顺次编秩,遇不同组相同数据取平均秩次。3.求秩和并确定检验统计量:将各组秩次相加。4.计算检验统计量H值:212RiH=(å)-3(N+1)(9-5)N(N+1)ni若各样本相同秩次较多时,应用校正公式Hc:H=H/C(9-6)c33其中:C=1-å(tj-tj)(N-N)tj为第j个相同秩次的个数。5.确定P值和作出推断结论:查H界值表,得出P值。若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上若范围外,其P值小于表上方相应概率水平。(六)多个样本两两比较的秩和检验(Nemenyi法)检验步骤:1.假设:H0:各总体分布相同H1:任意两总体的位置不同a=0.052.求秩和的差值:计算各组中所有可能两两对比组秩和差数的绝对值D=|RA-RB|3.确定P值和作出推断结论:(1)当各样本例数相等时,查D界值表或计算界值,得出P值。(2)当各样本例数不等或不全等时,将各对比组平均秩次之差与界值比较,界值计77\n算公式如下:2|RA-RB|c=(9-7)C[N(N+1)/12][1nA+1nB]332其中:相同秩次校正数C=1-å(tj-tj)(N-N)tj为第j个相同秩次的个数;ca,(k-1)2查χ界值表;N为各处理组的总例数。(七)随机区组设计资料的秩和检验1.查表法检验步骤:(1)将每个区组的数据由小到大分别编秩,遇相同数值取平均秩;(2)计算各处理组的秩和Ri;(3)求平均秩:R=b(k+1)/2式中,b:区组数k:处理组数;(4)计算各处理组的(Ri-R);2(5)求M=∑(Ri-R)(6)查M界值表,M大于或等于表中数值则差别有统计意义。2.Friedman检验检验步骤:(1)将各区组内数据由小到大分别编秩,遇相同数值取平均秩次(2)计算各处理组的秩和Ri;若各区组内无相同秩次,可用:k2122c=åRj-3b(k+1)(9-8)bk(k+1)j=12(3)查ca,(k-1)界值,确定P值,作出推断。(八)随机区组设计资料的两两比较检验步骤:(1)计算各处理组的秩和Ri;(2)计算各对比组秩和的差:R-RAB|R-R|ABu=(9-9)bk(k+1)/6查u界值,确定P值,若共进行c次比较,则用α/c作检验水平,作出推断。78\n三、典型试题分析(一)单项选择题1.以下对非参数检验的描述哪一项是错误的是()。A.非参数检验方法不依赖于总体的分布类型B.应用非参数检验时不考虑被研究对象的分布类型C.非参数的检验效能低于参数检验D.一般情况下非参数检验犯第二类错误的概率小于参数检验答案:D[评析]本题考点:非参数检验的特点。非参数检验优点是应用范围广、简便、易掌握、不依赖于总体分布;缺点是若资料符合参数检验条件而用非参数检验,则检验效率低于参数检验。2.多样本计量资料比较,当分布类型不清时选择()。A.t检验B.u检验2C.秩和检验D.?检验答案:C[评析]本题考点:非参数检验的适用范围。分布类型不明时,差别检验应首先考虑非参数统计方法。3.符合t检验条件的数值变量资料如果采用秩和检验,不拒绝H0时()。A.第一类错误增大B.第二类错误增大C.第一类错误减少D.第二类错误减少答案:B[评析]本题考点:非参数检验与非参数检验的区别。当资料符合参数检验条件时,非参数检验检验效能要比参数检验低,发现总体差异的能力不如参数检验高,容易把一些本来有差别的总体检验成同一总体。4.按等级分组的资料作秩和检验时,如果用H值而不用校正后的Hc值,则会()。A.提高检验的灵敏度B.会把一些无差别的总体推断成有差别C.会把一些有差别的总体推断成无差别D.第一、二类错误概率不变答案:C79\n[评析]本题考点:Kruskal-wallis秩和检验校正公式的应用。当各样本相同秩次较多时,应用校正公式Hc:33H=H/C其中:C=1-(t-t)(N-N)cåjjtj为第j个相同秩次的个数。由于C<1,因此HC>H,所求得相应概率P要大一些,那么就会把一些有差别的总体推断成无差别。(二)简答题“对某资料进行统计分析时,应尽量采用参数检验方法,一般不易采用非参数检验方法”,试评价这种说法正确否?答案:应根据设计的方案、资料性质和分析过程中所遇到的实际情况等来确定采用何种统计检验方法。当资料满足参数检验方法时,必须使用参数检验方法。反之,当资料不满足参数检验方法时,如资料分布不明、呈偏态分布、方差不齐、等级资料时,必须采用非参数检验方法。在实际工作中,许多资料不满足参数检验的条件,非参数检验并不比参数检验应用的场合少。所以,以上说法不正确。四、习题(二)名词解释1.非参数统计2.参数统计3.秩次4.秩和(二)单项选择题1.以下检验方法之中,不属于非参数检验法的是()。A.t检验B.符号检验C.Kruskal-Wallis检验D.Wilcoxon检验2.以下对非参数检验的描述哪一项是错误的()。A.参数检验方法不依赖于总体的分布类型B.应用非参数检验时不考虑被研究对象的分布类型C.非参数的检验效能低于参数检验D.一般情况下非参数检验犯第二类错误的概率小于参数检验3.符合方差分析检验条件的成组设计资料如果采用秩和检验,则()。A.一类错误增大B.第二类错误增大C.第一类错误减小D.第二类错误减小4.等级资料的比较宜用()。A.t检验B.秩和检验2C.F检验D.四格表X检验5.在进行成组设计两样本秩和检验时,以下检验假设正确的是()。A.H0:两样本对应的总体均数相同B.H0:两样本均数相同80\nC.H0:两样本对应的总体分布相同D.H0:两样本的中位数相同6.在进行Wilcoxon配对法秩和检验时,以下检验假设正确的是()。A.H0:两样本对应的总体均数相同B.H0:两样本的中位数相同C.H0:两样本对应的总体分布相同D.以上都不正确7.两个小样本比较的假设检验,应首先考虑()。A.t检验B.秩和检验C.任选一种检验方法D.资料符合哪种检验的条件8.对于配对比较的秩和检验,其检验假设为()。A.样本的差数应来自均数为0的正态总体B.样本的差数应来自均数为0的非正态总体C.样本的差数来自中位数为0的总体D.样本的差数来自方差齐性和正态分布的总体9.在配对比较的差数秩和检验中,如果有两个差数为0,则()。A.对正秩和有0.5和1,对负秩和有-0.5和-1B.对正秩和有2,对负秩和有-2C.对正秩和有3,对负秩和有-3D.不予考虑10.在成组资料的秩和检验中,设样本为n个秩号:1,2,...,n,如果有相同秩号,比如:i和i+1变成两个i+0.5,则对样本所有秩号的均数和标准差的影响有()。A.均数不变,标准差不变B.均数不变,标准差加大C.均数加大,标准差减小D.均数不变,标准差减小11.若随机化成组设计资料来自于正态总体,分别采用秩和检验与t检验、u检验,则它们检验效率关系正确的是()。A.t检验>u检验>秩和检验B.u检验>秩和检验>t检验C.t检验>秩和检验>u检验D.t检验,u检验>秩和检验12.配对比较的秩和检验的基本思想是:如果检验假设成立,则对样本来说()。A.正秩和的绝对值小于负秩和的绝对值B.正秩和的绝对值大于负秩和的绝对值C.正秩和的绝对值与负秩和的绝对值不会相差很大D.正秩和的绝对值与负秩和的绝对值相等13.按等级分组资料的秩和检验中,各等级平均秩次为()。A.该等级的秩次范围的上界B.该等级的秩次范围的下界C.该等级的秩次范围的上界、下界的均数D.该等级的秩次范围的上界、下界的之和14.成组设计多组资料比较的秩和检验,确定P值时,可利用查表法的情况正确的是()。81\nA.组数<3,每组例数<5B.组数<3,每组例数≤5C.组数≤3,每组例数<5D.组数≤3,每组例数≤515.配对设计资料的秩和检验,确定P值时,可利用查表法的样本例数n的范围为()。A.50≥n≥5B.30≥n≥5C.30≥n≥3D.50≥n≥316.成组设计两样本资料的秩和检验,样本例数分别为n1、n2,按检验水准为0.05(双侧),可利用查表法确定显著性水平的情况正确的是()。A.n1=4,n2=4B.n1=2,n2=4C.n1=9,n2=20D.n1=11,n2=1117.非参数统计应用条件是()。A.总体是正态分布B.若两组比较,要求两组的总体方差相等C.不依赖于总体分布D.要求样本例数很大18.下述哪些不是非参数统计的特点()。A.不受总体分布的限定B.多数非参数统计方法简单,易于掌握C.适用于等级资料D.检验效能总是低于参数检验19.设配对设计资料的变量值为X1和X2,则配对资料的秩和检验()。A.把X1与X2的差数绝对值从小到大编秩B.把X1和X2综合从小到大编秩C.把X1和X2综合按绝对值从小到大编秩D.把X1与X2的差数从小到大编秩20.秩和检验和t检验相比,其优点是()。A.计算简便,不受分布限制B.公式更为合理C.检验效能高D.抽样误差小21.配对设计差值的符号秩检验,对差值编秩时,遇有差值绝对值相等时()。A.符号相同,则取平均秩次B.符号相同,仍按顺序编秩C.符号不同,仍按顺序编秩D.不考虑符号,按顺序编秩22.配对设计的秩和检验中,其H0假设为()。A.差值的总体均数为0B.差值的总体中位数为0C.µd?0D.Md?023.一组n1和一组n2(n2>n1)的两个样本资料比较,用秩和检验,有()。A.n1个秩次1,2,...,n1B.n2个秩次1,2,...,n2C.n1+n2个秩次1,2,...,n1+n2D.n1-n2个秩次1,2,...,n1-n224.成组设计两样本比较的秩和检验中,描述不正确的是()。A.将两组数据统一由小到大编秩B.遇有相同数据,若在同一组,按顺序编秩C.遇有相同数据,若不在同一组,按顺序编秩82\nD.遇有相同数据,若不在同一组,取其平均秩次25.成组设计的两小样本均数比较的假设检验()。A.t检验B.成组设计两样本比较的秩和检验C.t检验或成组设计两样本比较的秩和检验D.资料符合t检验条件还是成组设计两样本比较的秩和检验条件26.对两样本均数作比较时,已知n1、n2均小于30,总体方差不齐且分布呈偏态,宜用()。A.t检验B.u检验C.秩和检验D.F检验27.等级资料两样本比较的秩和检验中,如相同秩次过多,应计算校正uc值,校正的结果使()。A.u值增加,P值减小B.u值增加,P值增加C.u值减小,P值增加D.u值减小,P值减小28.符号秩检验(Wilcoxon配对法)中,秩和T和P值的关系描述正确的是()。A.T落在界值范围内,则P值大于相应概率B.T落在界值范围上界外,则P值大于相应概率C.T落在界值范围下界外,则P值大于相应概率D.T落在界值范围上,则P值大于相应概率29.配对设计资料的符号秩检验中,如相同秩次过多,未计算校正uc值,而计算u值,不拒绝H0时()。A.第一类错误增加B.第一类错误减少C.第二类错误增加D.第二类错误减小(三)是非题1.统计资料符合参数检验应用条件,但数据量很大,可以采用非参数方法进行初步分析。2.对同一资料和同一研究目的,应用参数检验方法,所得出的结论更为可靠。23.等级资料差别的假设检验只能采用秩和检验,而不能采用列联表?检验等检验方法。4.非参数统计方法是用于检验总体中位数、极差等总体参数的方法。(四)计算题1.下表资料是8名健康成年男子服用肠溶醋酸棉酚片前后的精液检查结果,服用时间为1~3个月,问服药后精液中精子浓度有无下降?表9-1服药前后精子浓度(万/ml)编号12345678服药前6000220005900440060006500260005800服药后66056003700500063001200180022002.某营养实验室随机抽取24只小鼠随机分为两组,一组饲用未强化玉米,一组饲用已83\n强化玉米,观察玉米强化前后干物质可消化系数的差别有无显著意义。表9-2玉米干物质可消化系数已强化组未强化组可消化系数(%)秩次可消化系数秩次34.3<1038.115.842.818.245.921.948.223.451.724.652.426.152.827.254.529.354.830.755.334.465.434.7秩和T1=T2=3.配对设计的两组鼠肝中维生素A含量(IU/g)有无显著差异,用秩和检验和t检验分别作检验,试比较两法的检验结果并加以说明。表9-3不同饲料组鼠肝维生素A含量肝中维生素A含量差数大鼠配偶组正常饲料组维生素E缺乏组d1355024501100220002400-4003300018001200439503200750538003950-15063750270010507345025009508305017501300925002550-501036503750-1004.以下是测得的铅作业与非铅作业工人的血铅值(μmol/L),请问两组工人的血铅值有无差别?84\n表9-4两组工人血铅测定值(μmol/L)患者0.820.870.971.211.642.082.13健康人0.240.240.290.330.440.580.630.720.871.015.在研究人参镇静作用的实验中,曾有人以5%人参浸液对某批小白鼠20只作腹腔注射,而以等量蒸馏水对同批12只小白鼠作同样注射为对照,问能否说人参有显著的镇静作用?表9-5人参镇静作用的实验结果例数镇静等级人参组对照组-411±1...+21++1...+++12...五、习题答题要点(一)名词解释1.非参数统计:针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametricstatistics),或称为不拘分布(distribution-freestatistics)的统计分析方法,又称为无分布型式假定(assumptionfreestatistics)的统计分析方法。2.参数统计:通常要求样本来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数统计(parametricstatistics)3.秩次:变量值按照从小到大顺序所编的秩序号称为秩次(rank)。4.秩和:各组秩次的合计称为秩和(ranksum),是非参数检验的基本统计量。(二)单项选择题1.A2.D3.B4.B5.C6.D7.D8.C9.D10.D11.D12.C13.C14.D15.A16.A17.C18.D19.A20.A21.B22.B23.C24.C25.D26.C27.A28.A29.C(三)是非题1.正确。2.错误。应视资料的特性而定,若资料符合参数检验方法的条件,就运用参数检验方法;若符合非参数检验方法的条件,就运用非参数检验方法。3.错误。应根据研究目的和资料性质而定,例如当资料的实验分组变量有序,而指标85\n2分组变量无序时,可以采用列联表?检验。4.错误。非参数检验是检验总体分布,而非总体参数。(四)计算题1.答案:由于本资料数据离散程度相当大,分布不明,故宜用配对设计差值的符号秩检验(Wilcoxon配对法)。负秩和T-=4.5,正秩和T+=61.5,P<0.05。2.答案:由于本资料中存在截尾数据,故宜用成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)。第一组n1=12,秩和T1=220,第二组n2=12,秩和T2=80,P<0.01。3.答案:本资料应用配对设计差值的符号秩检验(Wilcoxon配对法)。负秩和T-=10,正秩和T+=45,P>0.05。若使用配对设计的t检验,则t=2.711,P<0.05。由此可见,按检验水准为0.05时,二者检验结果不一致,此时,应对样本作正态性检验,若样本所来自的总体服从正态分布,则t检验结果更可取,否则,秩和检验的结果更加可靠。在本例中,经检验样本所来自的总体服从正态分布,故可以说不同饲料组鼠肝维生素A含量不同。4.答案:由于本资料为成组设计,两组血铅方差不齐,故宜用成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)。第一组n1=7,秩和T1=93.5,第二组n2=10,秩和T2=59.5,0.010a>0表示直线与纵轴的交点在原点的b>0,表示直线从左下方走向右上方,即Y上方随X增大而增大系数<0a<0表示直线与纵轴的交点在原点的b<0,表示直线从左上方走向右下方,即Y下方随X增大而减小系数=0a=0表示回归直线通过原点b=0,表示直线与X轴平行,即Y不随X的变化而变化计算公式å(X-X)(Y-Y)lXYb==2a=Y-bXå(X-X)lXX87\n2.样本回归系数b的假设检验(1)方差分析;(2)t检验。3.直线回归方程的应用(1)描述两变量的依存关系;(2)用回归方程进行预测;(3)用回归方程进行统计控制;(4)用直线回归应注意的问题。(二)直线相关1.基本概念直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。2.计算公式å(X-X)(Y-Y)lXYr==22llå(X-X)(Y-Y)XXYY相关系数r没有单位,其值为-1≤r≤1。其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。r值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r的绝对值等于1为完全相关。3.样本相关系数r的假设检验(1)r界值表法;(2)t检验法。(三)直线回归与相关的区别与联系1.区别(1)资料要求:直线回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;直线相关要求两个变量X、Y服从双变量正态分布。这种资料若进行回归分析称为Ⅱ型回归。(2)应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。(3)意义:b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向。(4)计算:b=lxy/lxx;r=lxy/lxxlyy。(5)取值范围:—∞<b<+∞;-1≤r≤1。(6)单位:b有单位;r没有单位。2.联系88\n(1)方向一致:对一组数据若能同时计算b和r,它们的符号一致。(2)假设检验等价:对同一样本,r和b的假设检验得到的t值相等,即tb=tr。2l(3)用回归解释相关:决定系数2xy,回归平方和越接近总平方和,r==SSSS回总llxxyy2则r越接近1,说明引入相关的效果越好。(四)秩相关秩相关,又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:⒈不服从双变量正态分布而不宜作积差相关分析;⒉总体分布型未知;⒊用等级表示的原始数据。三、典型试题分析1.回归系数的假设检验()A.只能用r的检验代替B.只能用t检验C.只能用F检验D.三者均可答案:D[评析]本题考点:回归系数假设检验方法的理解。回归系数的假设检验常用的方法有:①方差分析;②t检验。对同一样本,r和b的假设检验等价,r和b的假设检验得到的t值相等,即tb=tr。故回归系数的假设检验用三者均可。2.已知r1=r2,那么()A.b1=b2B.tb1=tb2C.tr1=tr2D.两样本决定系数相等答案:D[评析]本题考点:直线相关系数与回归系数关系的理解。因为相关系数r和回归系数b的计算公式不同,不能推导出b1=b2;r和b的假设检验2等价,即tr1=tb1,tr2=tb2,而不是tb1=tb2,tr1=tr2;样本决定系数为r,已知r1=r2,则两样本22决定系数相等,即r1=r2。3.|r|>r0.05(n-2)时,可认为两变量X与Y间()A.有一定关系B.有正相关关系C.一定有直线关系D.有直线关系答案:D[评析]本题考点:直线相关系数假设检验的理解。因为直线相关系数r是样本的相关系数,它是相应总体相关系数ρ的估计值。由于抽样误差的影响,必须进行显著性检验。r的假设检验是检验两变量是否有直线相关关系。|r|>r0.05(n-2)时,P<0.05,拒绝H0,接受H1,认为总体相关系数ρ≠0,因此可认为两变量X与Y间有直线关系。4.相关系数检验的无效假设H0是()A.ρ=0B.ρ≠089\nC.ρ>0D.ρ<0答案:A[评析]本题考点:直线相关系数显著性检验中检验假设的理解。因为r是样本相关系数,它是总体相关系数ρ的估计值。要判两变量间是否有相关关系,就要检验r是否来自总体相关系数ρ为零的总体。因为即使从ρ=0的总体作随机抽样,由于抽样误差的影响,所得r值也常不等于零。5.同一双变量资料,进行直线相关与回归分析,有()。A.r>0,b<0B.r>0,b>0C.r<0,b>0D.r与b的符号毫无关系答案:B[评析]本题考点:直线相关与回归的区别与联系的理解。因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b和r,它们的符号一致。因此,同一双变量资料,进行直线相关与回归分析,有r>0,b>0。四、习题(三)单项选择题19.下列()式可出现负值。222A.∑(X—X)B.∑Y—(∑Y)/n2C.∑(Y—Y)D.∑(X—X)(Y—Y)20.Y=14+4X是1~7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg,则此方程()。A.截距改变B.回归系数改变C.两者都改变D.两者都不改变21.已知r=1,则一定有()。A.b=1B.a=1C.SY.X=0D.SY.X=SY22.用最小二乘法确定直线回归方程的原则是各观察点()。A.距直线的纵向距离相等B.距直线的纵向距离的平方和最小C.与直线的垂直距离相等D.与直线的垂直距离的平方和最小23.直线回归分析中,X的影响被扣除后,Y方面的变异可用指标()表示。A.Sn=-å()X-µX2(2)B.Sn=-å()YY-$2(1)xy,r2Sn=-å()YY-$2(2)D.µC.yx,SSb=xyå(XX-)24.直线回归系数假设检验,其自由度为()。A.nB.n-190\nC.n-2D.2n-125.应变量Y的离均差平方和划分,可出现()。A.SS剩=SS回B.SS总=SS剩C.SS总=SS回D.以上均可26.下列计算SS剩的公式不正确的是()。A.l-lbB.l-blYYXYYYXXl-ll2D.2C.YYXYXX(1)-rlYY27.直线相关系数可用()计算。A.lllB.bllXYXXYYYXXXYYC.bbD.以上均可YXXY28.当r=0时,Yˆ=a+bX回归方程中有()。A.a必大于零B.a必等于XC.a必等于零D.a必等于Y(四)名词解释1.直线回归2.回归系数3.剩余平方和4.回归平方和5.直线相关6.零相关7.相关系数8.决定系数9.曲线直线化10.秩相关(五)是非题1.剩余平方和SS剩1=SS剩2,则r1必然等于r2。2.直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。3.两变量关系越密切r值越大。(四)简答题1.用什么方法考察回归直线图示是否正确?2.剩余标准差的意义和用途?3.某资料n=100,X与Y的相关系数为r=0.1,可否认为X与Y有较密切的相关关系?4.r与rs的应用条件有何不同?5.应用直线回归和相关分析时应注意哪些问题?6.举例说明如何用直线回归方程进行预测和控制?7.直线回归分析时怎样确定因变量与自变量?(五)计算题1.10名20岁男青年身高与前臂长的数据见表10-2。⑴计算相关系数并对ρ=0进行假设检验;⑵计算总体ρ的95%可信区间。表10-210名20岁男青年身高与前臂长身高170173160155173188178183180165(cm)前臂长45424441475047464943(cm)2.某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3。91\n⑴此资料有无可疑的异常点?⑵求直线回归方程并对回归系数作假设检验。⑶试估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。⑷求进食量为900g时,个体Y值的95%容许区间,并解释其意义。表10-3八只大白鼠的进食量和体重增加量鼠号12345678进食量(g)800780720867690787934750增量(g)1851581301801341671861333.某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下,试检验两者有无相关?表10-4八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度城市编号12345678肺癌标化死亡率(1/10万)5.6018.5016.2311.4013.808.1318.0012.103苯并(a)芘(μg/100m)0.051.171.050.100.750.500.651.204.就下表资料分析血小板和出血症的关系。表10-512例病人的血小板浓度和出血症的关系病例号123456789101112血小板数120130160310420540740106012601230144020009(10/L)出血症状+++++±-++----++-五、习题答题要点(十五)单项选择题1.D2.C3.C4.B5.C6.C7.D8.B9.D10.D(十六)名词解释1.直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。2.回归系数(regressioncoefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。23.剩余平方和(residualsumofsquares),SS剩即å(Y-Yˆ),它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。在散点图中,92\n2各实测点离回归直线越近,å(Y-Yˆ)也就越小,说明直线回归的估计误差越小。24.回归平方和(regressionsumofsquares),SS回即å(Yˆ-Y),它反映由于X与Y的直线关系而使Y的总变异所减小的部分,也就是在总平方和中可以用X解释的部分。回归平方和越大,说明回归效果越好。5.直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。6.零相关(zerrocorrelation)是指两变量间没有直线相关关系。29.相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。30.决定系数(coefficientofdetermination)即r的平方,222lXYlXYlXXSS回r===,说明当SS总固定不变时,回归平方和的大小决定了r平方的lXXlYYlYYSS总大小。回归平方和越接近总平方和,则r平方值越接近1。31.曲线直线化(rectification)是曲线拟合的重要手段之一。对于某些非线性的资料可以通过简单的变量变换使之直线化,用直线回归分析方法来分析。14.秩相关又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:⑴不服从双变量正态分布而不宜作积差相关分析;⑵总体分布型未知;⑶用等级表示的原始数据。(三)是非题1.错。两样本剩余平方和SS剩1=SS剩2,但两样本总平方和SS总及回归平方和SS回不一定相等,故两样本相关系数r1与r2不一定相等。2.正确。3.错。相关系数r有正负之分,其值为-1≤r≤1,在总体相关系数不为零,即两变量确有直线关系前提下,r绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。(四)简答题1.用以下三种方法判定:⑴直线必须通过点(X,Y)。⑵若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距a。⑶直线是否在自变量X的实测范围内。22.剩余标准差用sY.X表示:sY.X=SS剩(n-2)=å(Y-Yˆ)(n-2)其意义是指当X对Y的影响被扣除后,Y方面仍有变异。这部分变异与X无关,纯属抽样变批注:考虑b=0时,y估计异。故sY.X是用来反映Y的剩余变异的,即不考虑X以后Y本身的随机变异。剩余标准差可值是相等的,但此时仍然有用于:剩余平方和存在;y的估计⑴估计回归系数b的标准误,s=sl,进行回归系数的区间估计和假设检验。值不相等,讲的恰好是回归bY.XXX⑵估计总体中当X为某一定值时,估计值Yˆ的标准误。s=s1n+(X-X)2å(X-X)2平方和,因为此时估计值与YˆY.Xy的均数存在离差。并可计算Yˆ的可信区间,sY.X可作为预报精度的指标。⑶估计总体中当X为某一定值时,个体Y值的标准差。93\n22sYˆ=sY.X1n+(X-X)å(X-X),并计算个体Y值的容许区间。3.n=100,r=0.1时,对相关系数进行t检验,按检验水准α=0.05,拒绝H0(ρ=0),接22受H1(ρ≠0),认为两变量有相关关系,但决定系数r=0.1=0.01,表示回归平方和在总平方和中仅占1%,说明两变量间的相关关系实际意义不大。4.积差相关系数r用于描述双变量正态分布资料的相关关系。等级相关系数rs适用于下列资料:⑴不服从双变量正态分布而不宜作积差相关分析的资料;⑵总体分布型未知的资料;⑶原始资料是用等级表示的资料。5.注意以下五个问题⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。⑵在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。⑶直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避免外延。⑷双变量的小样本经t检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。6.用直线回归方程进行预测和控制的步骤⑴根据研究目的确定预报因子(X)和预报量(Y),由X估计Y值,收集资料。⑵建立预报方程Yˆ=a+bX,并进行回归系数假设检验。若P小于临界值,则回归方程成立。⑶根据回归方程在X实测范围内对Y进行预测,并计算X为某定值时,个体Y值波动范围(容许区间)。例如,1~7岁儿童,X为年龄,Y为体重,可根据年龄预测(估计)体重。统计控制是利用回归方程进行逆估计,如要求因变量Y值在一定范围内波动,可以通过控制自变量X的取值来实现。步骤同前。例如,针刺哑门穴,进针深度Y与颈围X间存在直线关系,可根据X取值达到控制Y的目的。7.Ⅰ型回归中,X为精密测量和严格控制的变量,Y为正态变量。Ⅱ型回归中,X、Y均为服从正态分布的随机变量,可计算两个回归方程。何者为X,何者为Y,根据研究目的确定。例如,测得某一人群的身高和体重两变量,若目的只是由身高估计体重,则确定X为身高,Y为体重。(五)计算题1.由原始数据及散点图的初步分析(图10-1),估计本资料有直线趋势。94\n514947)45cm(43前臂长41393735150160170180190身高(cm)图10-110名20岁男青年身高与前臂长散点图(1)计算相关系数2åX=1725,åX=298525,X=172.52åY=454,åY=20690,Y=45.4,åXY=785412()22lXX=åX-åXn=298525-172510=962.52()22lYY=åY-åYn=20690-45410=78.4lXY=åXY-(åX)(åY)n=78541-1725´45410=226lXY226r===0.8227lXXlYY962.5´78.4与ρ=0进行假设检验。H0:ρ=0,即身高与前臂长间无直线相关关系H1:ρ≠0,即身高与前臂长间有直线相关关系r-0r0.8227´10-2t====4.09s(1-r2)(n-2)1-0.82272rα=0.05n=n-2=10-2=8,查t界值表,得0.002
P>0.05,按α=0.05水准,拒绝H0,接受H1,结论同上。本题F=16.147=4.018=t故可用直线回归方程Yˆ=a+bX=-47.326+0.261X来描述大白鼠的进食量与增加体重的关系。异常点即对应于残差(Y-Yˆ)绝对值特大的观测数据见表10-7。表10-7残差的计算序号XYYˆY-Yˆ1800185161.47423.5262780158156.2541.7463720130140.594-10.5944867180178.9611.0395690134132.7641.2366787167158.0818.9197934186196.448-10.4488750133148.424-15.424由散点图及残差分析,第一号点(X=800,Y=185)为可疑的异常点。⑵根据以上的计算结果,进一步求其总体回归系数的95%可信区间。绘制回归直线并图示回归系数的95%可信区间。97\n总体回归系数β的95%可信区间:(b-t0.05(n-2)Sb,b+t0.05(n-2)Sb)=(0.261-2.447×13.5107∕43366,0.261+2.447×13.5107∕43366)=(0.1022,0.4198)取X1=690,代入回归方程Yˆ=-47.326+0.261X,得Y1=132.76;X2=934,Y2=196.45。在图上确定(690,132.76)和(934,196.45)两个点,以直线连接即得回归直线的图形见图10-2。按回归系数的95%可信区间下限和上限分别代入a=Y-bX,得a=78.285,a=-12172.937。回归系数的95%可信区间上、下限对应的两条直线,即图10-2中两条回归直线,回归方程为:Yˆ=78.285+0.1022X,Yˆ=-172.937+0.4198X⑶估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。22sY=sY.X1n+(X-X)(X-X)2=13.527618+(900-791)43366=8.5446当X=900时,m的95%可信区间:Yˆ(Yˆ-t0.05(6)sYˆ,Yˆ+t0.05(6)sYˆ)=(187.574-2.447×8.5446,187.574+2.447×8.5446)=(166.67,208.48)即总体中,进食量为900g时,大白鼠的体重平均增加187.574g,其95%的可信区间为166.67~208.48g。其含义为:当进食量为900g时,相应的平均增重服从一个正态分布(此正态分布的样本均数估计值为187.574g),如果从此正态分布中重复抽样100次,这100个可信区间中理论上将有95个区间包含真正的总体均数(虽然这个总体均数真值是未知的)。⑷求进食量为900g时,个体Y值的95%容许区间,并解释其意义。22sY=sY.X1+1n+(X-X)(X-X)2=13.52761+18+(900-791)43366=16.0002当X=900时,Yˆ=-47.326+0.261X=187.574,个体Y值的95%容许区间:(Yˆ-t0.05(6)SY,Yˆ+t0.05(6)SY)=(187.574-2.447×16.0002,187.574+2.447×16.0002)=(148.42,226.73)即估计总体中,进食量为900g时,有95%的大白鼠增加体重在148.42~226.73g范围内。3.本题资料不服从双变量正态分布,宜计算等级相关系数。计算过程见表10-8表10-8八个城市的肺癌标化死亡率和大气中苯并(a)芘的相关分析肺癌标化死亡率(1/10万)苯并(a)芘2城市编号X等级Y等级dd⑴⑵⑶⑷⑸⑹=⑶-⑸⑺15.6010.05100218.5081.17711316.2361.05600411.4030.1021198\n513.8050.7550068.1320.503-11718.0070.65439812.1041.2084162∑d=28H0:ρs=0,即肺癌标化死亡率和大气中苯并(a)芘无相关关系H1:ρs≠0,即肺癌标化死亡率和大气中苯并(a)芘有相关关系α=0.05222由上计算表,rs=1-6∑d/[n(n-1)]=1-6×28/[8×(8-1)]=0.6667查rs界值表,得0.10>P>0.05,按α=0.05水准,不拒绝H0,尚不能认为肺癌标化死亡率和大气中的苯并(a)芘有相关关系。4.本题资料不服从双变量正态分布,宜计算等级相关系数。计算过程见表10-9。表10-9血小板数与出血症状的等级相关分析9血小板数(×10/L)出血症状2病例号X等级Y等级dd⑴⑵⑶⑷⑸⑹=⑶-⑸⑺11201++10.5-9.590.2521302+++12.5-10.0100.0031603±7.0-4.016.0043104-3.50.50.2554205+8.5-3.512.2565406+8.5-2.56.2577407-3.53.512.25810608-3.54.520.259126010-3.56.542.251012309-3.55.530.2511144011++10.50.50.2512200012-3.58.572.252∑d=402.5H0:ρs=0,即血小板数与出血症状无相关关系H1:ρs≠0,即血小板数与出血症状有相关关系α=0.05因出血症状Y中,相同秩次较多,需计算校正rs值rs¢。TX=03333TY=∑(t-t)/12=[(6-6)+(2-2)+(2-2)]/12=18.599\n[(3)]()2n-n6-TX+TY-ådr¢=s[(3)][(3)]n-n6-2Tn-n6-2TXY[(3)]()12-126-0+18.5-402.5=[(3)][(3)]12-126-012-126-2´18.5=-0.5095查rs界值表,得0.10>P>0.05,按α=0.05水准,不拒绝H0,尚不能认为血小板数与出血症状有相关关系。(王彤万毅)100\n第十一章多元线性回归与logistic回归一、教学大纲要求(一)掌握内容1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。4.logistic回归模型结构:模型结构、发病概率比数、比数比。5.logistic回归参数估计方法。6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。(二)熟悉内容常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。(三)了解内容标准化偏回归系数的解释意义。二、教学内容精要(一)多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiplelinearregression),简称多元回归(multipleregression)基本形式:Ybˆ=++bXbX+×××+bX01122kk式中Yˆ为各自变量取某定值条件下应变量均数的估计值,X1,X2,…,Xk为自变量,k为自变量个数,b为回归方程常数项,也称为截距,其意义同直线回归,b,b,…,b称为012k偏回归系数(partialregressioncoefficient),b表示在除X以外的自变量固定条件下,X每改jjj变一个单位后Y的平均改变量。(二)多元线性回归的分析步骤Yˆ是与一组自变量X1,X2,…,Xk相对应的变量Y的平均估计值。多元回归方程中的回归系数b,b,…,b可用最小二乘法求得,也就是求出能使估计12k22值Yˆ和实际观察值Y的残差平方和åei=å(Y-Yˆ)为最小值的一组回归系数b1,b2,…,bk值。根据以上要求,用数学方法可以得出求回归系数b1,b2,…,bk的下列正规方程组(normalequation):101\nìbl+bl+L+bl=l111212k1k1yïïb1l21+b2l22+L+bkl2k=l2yíïïîb1lk1+b2lk2+L+bklkk=lky式中(ååXXij)()lij=lji=-åå(XXXiij)()-Xj=-XXijn(åXi)(åY)liy=å(Xi-Xi)(Y-Y)=åXiY-n常数项b可用下式求出:0b=Y-bX-bX-L-bX01122kk(三)多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X,X,…,X是否与Y真有线性依存关系,也就是检验无效假设H12k0(bb=====bbL0),备选假设H为各b值不全等于0或全不等于0。123k1j检验时常用统计量FMS回归l回归kF==MS误差l误差(n-k-1)式中n为个体数,k为自变量的个数。式中l=bl+bl+L+bl回归11y22ykkyl=l-l误差总回归å()2l=Y-Y=lyy总(四)logistic回归模型结构设X,X,L,X为一组自变量,Y为应变量。当Y是阳性反应时,记为Y=1;当Y是12k阴性反应时,记为Y=0。用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1。Logistic回归模型为:b+bX+bX+L+bXe01122kkP=b+bX+bX+L+bX1+e01122kk同时可以写成:1Q=1+eb0+b1X1+b2X2+L+bkXk式中b0是常数项;bj(jk=1,2),,L是与研究因素Xj有关的参数,称为偏回归系数。事件发生的概率P与bx之间呈曲线关系,当bx在(-¥,¥)之间变化时,P或Q在(0,1)之间变化。若有n例观察对象,第i名观察对象在自变量X,X,L,X作用下的应变量为Y,阳性i1i2iki102\n反应记为Y=1,否则Y=0。相应地用P表示其发生阳性反应的概率;用Q表示其发生阴性反iiii应的概率,仍然有P+Q=1。P和Q的计算如下:iiiieb01122++bXibbXXi++LkikPi=b01122++bXiibbXX++Lkik1+e1Qi=b01122++bXiibbXX++Lkik1+e这样,第i个观察对象的发病概率比数(odds)为PQ,第l个观察对象的发病概率比数ii为PQ,而这两个观察对象的发病概率比数之比值便称为比数比OR(oddsratio)。对比数ll比取自然对数得到关系式:æPQöiilnçç÷÷=b1(Xi1-Xl1)+b2(Xi2-Xl2)+L+bk(Xik-Xlk)èPlQlø等式左边是比数比的自然对数,等式右边的(X-X)(j=1,2,L,k)是同一因素X的不同ijlji暴露水平X与X之差。b的流行病学意义是在其它自变量固定不变的情况下,自变量X的ijljjj暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固bj定不变的情况下,当自变量X的水平每增加一个测量单位时所引起的比数比为增加前的ej倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。(五)logistic回归参数估计由于logistic回归是一种概率模型,通常用最大似然估计法(maximumlikelihoodestimate)求解模型中参数b的估计值b(jk=1,2),,L。jjY为在X1,X2,L,Xk作用下的阳性事件(或疾病)发生的指示变量。其赋值为:ì1,第i个观察对象出现阳性反应Yi=íî0,第i个观察对象出现阴性反应第i个观察对象对似然函数的贡献量为:YY1-l=PQiiiii当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似然函数贡献量的乘积,即nnL=Õl=ÕPYiQ1-Yiiiii=1i=1式中∏为i从1到n的连乘积。依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求103\n解参数估计值b(j=1,2,L,k)。j(六)logistic回归筛选自变量在logistic回归中,筛选自变量的方法有似然比检验(likelihoodratiotest)、计分检验(scoretest)、Wald检验(Waldtest)三种。其中似然比检验较为常用,用Λ表示似然比检验统计量,计算公式为:(')'L=2lnLL=2(lnL-lnL)'式中ln为自然对数的符号,L为方程中包含m(mFModel33.367321.1224413.410.0001Error161.338930.08368CorrectedTotal194.70626ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-4.675531.32051-3.540.0027X110.060360.020822.900.0105X210.035080.015442.270.0372X310.050100.028881.730.1020[评析]本题考点:统计软件关于多元线性回归的分析方法及主要输出结果。根据SPSS或SAS的输出结果,可进行以下分析:1.检验H0:bbb123===0的方差分析表。F=13.413,P=0.0001,拒绝H0,肺活量至少与一个自变量存在线性关系。2.估计偏回归系数b1,b2,b3,给出多元线性回归方程µ2=0.715,R2Y=4.68+++0.06XXX0.040.05,Ra=0.662。1233.偏回归系数检验,见表11-2。表11-2偏回归系数估计值及其检验偏回归系数估计值SEtPb0-4.6751.321-3.540.00b10.0600.0212.900.01b20.0350.0152.270.04b30.0500.0291.730.10四、习题(十五)单项选择题32.可用来进行多元线性回归方程的配合适度检验是:2A.c检验B.F检验C.U检验D.Ridit检验33.在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数:A.不变B.增加相同的常数C.减少相同的常数D.增加但数值不定107\n34.在多元回归中,若对某个自变量的值都乘以一个相同的常数k,则:B.该偏回归系数不变C.该偏回归系数变为原来的1/k倍D.所有偏回归系数均发生改变E.该偏回归系数改变,但数值不定35.作多元回归分析时,若降低进入的F界值,则进入方程的变量一般会:A.增多B.减少C.不变D.可增多也可减少(二)名词解释1.多元线性回归2.偏回归系数3.复相关系数4.确定系数5.比数6.比数比(三)简答题logistic回归模型中,偏回归系数b的解释意义是什么?i(四)计算题某学者研究在某种营养缺乏状态下儿童的体重(Y,kg)与身高(X,cm)、年龄(X,12岁)的关系获得了12名观察对象的观测资料,计算得到如下基本数据:22åX1=1611,åX1=219631,åX2=106,åX2=976,åY=341,2åY=9883,åX1X2=14454,åX1Y=46439,åX2Y=3079。(1)请写出求解Yˆ=b+bX+bX二元线性回归方程的正规方程组。01122(2)设方程组的解为b=2.114,b=0.135,b=0.923,请写出回归方程。012(3)完成下列方差分析表。表11-312名儿童体重与身高、年龄回归分析方差分析表变异来源vSSMSF回归残差总和五、习题答案要点(一)单项选择题1.B2.A3.B4.A(二)名词解释1.用回归方程定量地刻画一个应变量Y与多个自变量X间的线性依存关系,称为多元线性回归(multiplelinearregression),简称多元回归(multipleregression)。2.多元线性回归的基本形式为:Ybˆ=++bXbX+×××+bXb,b,…,b称01122kk12k为偏回归系数(partialregressioncoefficient),bj表示在除Xj以外的自变量固定条件下,Xj每改变一个单位后Y的平均改变量。3.复相关系数R(coefficientofmultiplecorrelation),R的大小表示所有自变量与应变量之间线性关系的密切程度。108\n24.确定系数(coefficientofdetermination)简记为R,表示回归平方和SS回归占总离均22差平方和SS总的比例,即R=SS回归/SS总。用R可定量评价在y的总变异中,由x变量组建立的线性回归方程所能解释的比例。5.logistic回归模型为:eb0+b1X1+b2X2+L+bkXkP=b+bX+bX+L+bX1+e01122kk同时可以写成:1Q=1+eb0+b1X1+b2X2+L+bkXk第i个观察对象的发病概率比数(odds)为PQ,即同一暴露水平下,阳性概率与阴性ii概率之比值称为比数(odds)。6.logistic回归模型中,两个观察对象的发病概率比数之比值称为比数比OR(oddsratio)。其大小反映了不同暴露水平下,个体发病的相对危险程度。(三)简答题答:bj的流行病学意义是在其它自变量固定不变的情况下,自变量Xj的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况bj下,当自变量Xj的水平每增加一个测量单位时所引起的比数比为增加前的e倍。(四)计算题1.求解Yˆ=b+bX+bX二元线性回归方程的正规方程组为:01122ìïb1l11+b2l12=l1yíïîbl+bl=l1212222y2.当方程组的解为b=2.114,b=0.135,b=0.923,回归方程为:012Yˆ=2.114+0.135X1+0.923X23.列方差分析表。表11-412名儿童体重与身高、年龄回归分析方差分析表变异来源vSSMSF回归2151.3575.67516.380残差941.574.62总和11192.92(尹平白玉祥)109\n第十二章统计表与统计图一、教学大纲要求(一)掌握内容1.统计表(1)统计表的结构。(2)统计表的种类。(3)编制统计表的注意事项。2.统计图(1)统计图的结构。(2)统计图的种类。(3)统计图的编制要求。(二)熟悉内容常用统计图的绘制方法和注意事项。(三)了解内容半对数线图、箱式图、误差线图等的绘制方法和注意事项。二、教学内容精要(一)统计表与统计图的概念将统计资料及其指标以表格形式列出,称为统计表(statisticaltable)。狭义的统计表只表示统计指标。统计图(statisticalgraph)是将统计指标以点的位置、线段的升降、直条的长短或面积的大小等几何图形直观的表示事物间的数量关系。(二)统计表中应注意的几个问题1.列表的原则(1)重点突出,简单明了。(2)主次分明,层次清楚,符合逻辑。2.统计表的结构与编制要求统计表由标题、标目、线条和数字所构成。如下表所示:顶线表号标题横标目名称纵标目名称合计横标目数字合计底线110\n(1)标题位于表的上方,概括表的主要内容,一般需注明时间与地点。(2)标目有横、纵标目之分,分别说明横行和纵行数字的含义,应做到文字简明,层次清楚。(3)线条多采用三条半线,即顶线、底线、纵标目下的横隔线及合计上的半线。忌斜线和竖线。(4)数字表内数据一律采用阿拉伯数字。同一指标小数点位数要一致,位次要对齐。表内不应有空项,无数字用“—”表示,数字若为零则填“0”,暂缺项或未记录用“⋯”表示。(5)备注不为表的必备内容,如有必要,可在表内用“*”号标记,然后在表的下方加以说明。3.统计表的种类统计表可分为简单表(simpletable)和复合表(combinativetable)两种类型。简单表:只按单一特征或标志分组。复合表:按两个或两个以上主要标志分组,如年龄和性别结合起来分组。(三)统计图中应注意的几个问题1.统计图的结构统计图通常由标题、标目、刻度和图例四部分组成。如下所示:图例男160女150140目标1301201107891011121314151617标目标题刻度2.常用统计图的分类医学统计学中常用的统计图有:条图(bargraph)、线图(linegraph)、圆图(piegraph)、直方图(histogram)、散点图(scatterdiagram)和统计地图(statisticalmap)等。3.制图的基本要求(1)根据资料的性质和分析目的,选择合适的图形。(2)标题扼要说明图的主要内容,位于图的下方,必要时注明时间和地点。(3)建立在直角坐标系上的统计图,其纵轴尺度自下而上,横轴尺度从左到右,数字一律由小到大,某些图还要求纵轴尺度从0开始(如直条图、直方图)。纵横两轴一般应有标目,注明单位。111\n(4)图的长宽比例(圆图除外)一般以7:5或5:7为宜。(5)可用不同的线条或颜色表示不同的事物,但需用图例说明,一般放在图的右上角或图的下方。4.常用统计图的定义和制图要求,见表12-1。表12-1常用统计图的定义和制图要求名称定义制图要求条图用等宽直条的长短来表示相互独起点为0的等宽直条,条间距相等,按高立的各统计指标的数值大小低顺序排列。普通线图适用于连续性资料。用线段的升纵横两轴均为算术尺度,相邻两点应以折降来表示一事物随另一事物变化线相连。图内线条不宜超过3条。的趋势。半对数线图用线段的升降来表示一事物随另横轴为算术尺度,纵轴为对数尺度。余同一事物变化的速度。普通线图。圆图以圆面积表示事物的全部,用扇以圆面积为100%,将各构成比分别乘以形面积表示各部分的比重3.6度得圆心角度数后再绘扇形面积。通常以12点为始边依次绘图。直方图用矩形的面积来表示某个连续型常以横轴表示连续型变量的组段(要求等变量的频数分布距),纵轴表示频数或频率,其尺度从“0”开始,各直条间不留空隙。以点的密集程度和趋势表示两种绘制方法同线图,只是点与点之间不连接。散点图事物间的相关关系三、典型试题分析1.指出表12-2的缺陷并作改进。表12-2119例宫颈糜烂冷冻治疗结果(原表)轻度糜烂中度糜烂重度糜烂总计例数%例数%例数%例数%治愈3932.77119.2421.685243.70好转21.681915.971411.763529.41无效86.7275.881714.293226.89合计493733119112\n[评析]本题考点:对列表的原则和统计表的结构与编制要求的掌握。表12-2的主要目的在于考察冷冻治疗宫颈糜烂的近期疗效。存在的问题是:标题未突出“近期疗效”这一主要内容;主谓语安排不当且标目重复,如例数和%多处出现;总计意义不明确;线条过多,以致数据隔离,不便比较。改正后见表12-3。表12-3冷冻治疗宫颈糜烂患者的近期疗效(修改表)疗效疗效构成比(%)糜烂程度例数治愈好转无效治愈好转无效轻度49392879.64.116.3中度371119729.751.418.9重度33214176.142.451.5合计11952353243.729.426.9修改表12-3很容易看清楚冷冻治疗宫颈糜烂中治愈、好转、无效在各级糜烂程度中的例数和所占的百分比,同时也可以看出疗效因宫颈糜烂程度不同而异,轻度糜烂者疗效较好,中、重度次之。2.将下表资料绘成合适的图形。表12-4亚洲国家成人HIV感染情况国家成人感染率(%)柬埔寨2.40泰国2.23缅甸1.79印度0.82中国0.06[评析]本题考点:对各种统计图适用情况的掌握。分析表12-4的资料,得出此资料适合做单式条图,见图12-1。113\n3.根据表12-5的资料,作图并作简要分析。表12-5某市某年男女学生不同年龄的身高均数(cm)年龄组(岁)男女17~115.41115.5118~118.33117.5319~122.16121.6610~129.48125.9411~129.64131.7612~135.50138.2613~138.36141.1714~145.14147.2115~150.84150.0316~154.70153.0617~18161.90156.63[评析]本题考点:对统计图的做法与分析知识点的掌握。绘线图,见图12-2。男160女150)cm(140130身高均数1201107891011121314151617年龄(岁)图12-2某市某年男女学生不同年龄身高均数由表12-5和图12-2可见,随着年龄的增加,男女生身高均数均逐渐增高。在7~10岁间,男生身高均数略高于女生;而10~15岁间,男生身高均数略低于女生;15岁以上,男生身高均数又超过女生,表现出不同性别儿童生长发育曲线的两交叉现象。4.根据表12-6的资料,做合适的图形并作简述作图步骤。表12-6我国1998年性病传播途径分布情况传播途径病例数构成比(%)非婚姻性接触41330372.1配偶传播10306418.0其他传播571749.9114\n[评析]本题考点:圆图的应用。圆图是用圆的总面积表示事物的全部,用各个扇形的面积表示各个部分的比重,根据资料的性质,此题适用于作圆图。o(1)先计算各部分的角度根据公式圆心角(度)=各部分百分比×360。(2)绘制图形先画出圆形,再借助量角器画出各圆心角。以第一个圆心角从时钟9点或12点处开始,顺时针方向排列。如下图12-3。其他传播10%配偶传播18%非婚姻性接触72%图12-3我国1998年性病传播途径构成比5.将表12-7资料中两种疾病发病率的历年变动情况绘制成普通线图及半对数线图,并说明两种图形的不同意义。表12-7某地结核病和白喉的死亡率(‰)年份结核病死亡率白喉死亡率1949150.220.11950148.016.61951141.014.01952130.011.81953110.410.7195498.26.5195572.63.9195668.02.4195754.81.3[评析]本题考点:半对数线图的应用。半对数线图是线图的一种特殊形式,在事物数量间相差较大的情况下,通常普通线图难于表达或相互比较两种或两种以上事物的变化速度,此时可采用半对数图来表示。(1)普通线图:115\n图12-4某市1949-1957年15岁以下儿童结核、白喉死亡率由纵横两轴均为算术尺度的普通线图12-4可见,结核病和白喉死亡率1949-1957年均呈下降趋势,给人们的直观感觉是结核病的死亡率下降较快,而白喉死亡率下降较平缓。(2)半对数线图2.5结核2.0白喉1.51.0死亡率之对数值0.50.0194919501951195219531954195519561957年份图12-5某市1949-1957年15岁以下儿童结核、白喉死亡率由半对数线图可见,结核病的死亡率下降速度始终比较平缓,而白喉死亡率下降速度开始几年和结核病持平,1954年后下降速度明显加快。四、习题(一)名词解释1.统计表2.统计图(二)简答题1.统计表和统计图在表达资料中各有何特殊意义?2.统计表有哪些要素构成?制表的注意事项有哪些?116\n3.统计图有哪些要素构成?绘制统计图的注意事项有哪些?4.为什么半对数线图可以描述发展速度的变化?(三)列表、制图与分析题1.某医院对麦芽根糖浆治疗急慢性肝炎161例的疗效列表,试作改进。表12-8麦芽根糖浆治疗急慢性肝炎疗效观察效果有效小计近期痊愈好转无效总例数例%例%例%例%16110867.17043.53823.65332.92.某地1952年和1972年三种死因别死亡率下表,试将该资料绘制成统计图并作分析。表12-9某地1952年和1972年三种死因别死亡率(1/10万)死因1952年1972年肺结核165.227.4心脏病72.583.6恶性肿瘤57.2178.23.据下例统计资料试作统计图。表12-10某地居民两次粪便蠕虫卵检查结果第一次阳性率(%)第二次阳性率(%)蛔虫91.4386.39钩虫61.2231.36鞭虫17.1416.51表12-11某部队1997年各月传染病发病人数月份123456789101112合计传染病人数3471491417104581252249表12-12224例胸膜炎病人的年龄分布年龄(岁)各组人数占全部病人的百分比11~4.116~13.521~44.631~27.141~8.951~1.8合计100.0117\n4.某县防疫站1972年开始在城关镇建立“预防接种卡”,使计划免疫得到加强。为说明效果,1975年5月观察了482人的锡克试验反应,其中:幼儿园儿童101人,阳性21人;小学生145人,阳性22人;中学生236人,阳性15人。相比起来,1947年为:幼儿园儿童144人,阳性37人;小学生1417人,阳性323人;中学生359人,阳性41人。试用适当的统计表和统计图描述上述结果,并作简要分析。(四)是非题1.一个绘制合理的统计图可直观的反映事物间的正确数量关系。2.在一个统计表中,如果某处数字为“0”,就填“0”,如果数字暂缺则填“⋯”,如果该处没有数字,则不填。3.备注不是统计表的必要组成部分,不必设专栏,必要时,可在表的下方加以说明。4.散点图是描写原始观察值在各个对比组分布情况的图形,常用于例数不是很多的间断性分组资料的比较。5.百分条图表示事物各组成部分在总体中所占比重,以长条的全长为100%,按资料的原始顺序依次进行绘制,其他置于最后。五、习题答题要点(一)名词解释1.统计表:将统计资料及其指标以表格形式列出,称为统计表(statisticaltable)。狭义的统计表只表示统计指标。2.统计图:统计图(statisticalgraph)是将统计指标用几何图形表达,即以点的位置、线段的升降、直条的长短或面积的大小等形式直观的表示事物间的数量关系。(二)简答题1.统计表可以代替冗长的文字叙述,便于指标的计算、分析和对比,其制作合理与否,对统计分析质量有着重要的影响。统计图可用点的位置、线段的升降、直条的长短和面积的大小直观地反映分析事物间的数量关系。因统计如对数量表达较粗略,故最好附上相应的统计表。2.一般说来,统计表由标题、标目、线条、数字四部分构成(有时附有备注)。编制统计表的注意事项:(1)标题概括表的内容,写于表的上方,通常需注明时间与地点。(2)标目以横、纵标目分别说明主语与谓语,文字简明,层次清楚。(3)线条不宜过多,通常采用三条半线表示,即顶线、底线、纵标目下的横隔线及合计上的半条线。(4)表内一律采用阿拉伯数字。同一指标小数点位数要一致,数次要对齐。表内不留空格。(5)备注不要列于表内,如有必要,可在表内用“*”号标记,并在表外加以说明。3.统计图通常由标题、标目、刻度和图例四部分组成。绘制统计图的注意事项:(1)根据资料的性质和分析目的,选择合适的图形。118\n(2)标题应扼要的说明图的内容、地点、时间,位于图的下方,一般需注明时间、地点。(3)统计图有纵轴和横轴,两轴应有标目,标目应注明单位。纵轴尺度自下而上,横轴尺度从左到右。数字一律由小到大,某些图要求纵轴尺度从0开始(4)图的长宽比例(除圆图外)一般以7:5或5:7左右较美观。(5)比较不同事物时,可用不同的线条或颜色表示,但需用图例说明,一般放在图的右上角或图下方的适当位置。半对数线图是以横轴为算术尺度,纵轴为对数尺度绘制而成。它表明数量间比例的动态变化趋势,如速率比A/B,设X=A/B,利用对数运算法则,lgX=lgA–lgB,即将纵轴上尺度的倍比关系用对数值之差表示,所以它反映的是A,B两事物现象间相互对比发展速度的变化。(三)列表、制图与分析题1.对表12-8进行改进后,见表12-13。表12-13某医院麦芽根糖浆治疗急慢性肝炎疗效分析疗效例数疗效构成比(%)无效5332.92好转3823.60近期痊愈7043.48161100.00合计2.根据资料性质,将资料绘成复式条图,见图12-6。18019721501952)万12010/1(9060死亡率300肺结核心脏病恶性肿瘤图12-6某地两年三种死因别死亡率(1/10万)比较由图可见,1972年与1952年相比肺结核死亡率明显下降;心脏病死亡率两年相比轻微增高;恶性肿瘤死亡率急剧上升,提示不同时期死因别死亡率的变化情况,反映出不同时期疾病防治的重点。3.表12-10绘成直条图,见图12-7。表12-11绘成线图,见图12-8。表12-12将组段改为等距后(见表12-14),绘成直方图,见图12-9。119\n(2)根据资料特点,计算每年龄组的患者人数及每5岁患者人数(见表12-8),再绘制直方图。表12-14224例胸膜炎患者的年龄分布年龄(岁)患者人数每5岁患者人数11~9916~303021~1005031~6130.541~201051~6142合计224224120\n图12-9224例胸膜炎患者年龄分布4.根据题意,可列统计表12-15和统计图12-10。表12-15某县两年不同人群锡克试验反应结果分析1947年1975年调查人数阳性人数阳性率(%)调查人数阳性人数阳性率(%)幼儿园1443725.691012120.79小学生141732322.791452215.17中学生3594111.422361516.3619743019752520(%)15阳性率1050幼儿园小学生中学生图12-10某县两年不同人群锡克试验阳性率(%)不同人群锡克试验反应阳性率均以1974年较高。121\n(四)判断正误并简述理由:1.正确。2.错。在一个统计表中,如果某处数据为“0”,就填“0”,如果数据暂缺则填“⋯”,若该处无数据,则填“—”。3.正确。4.正确。5.错。百分条图表示事物各组成部分在总体中所占的比重,以长条的全长为100%,然后按各构成比由大到小或由小到大排列绘图。(颜艳杨鹏)122\n第十三章实验设计一、教学大纲要求(一)掌握内容1.实验设计的基本原则随机化原则、对照的原则(对照的类型,对照的设置)、重复的原则。2.实验设计的基本内容和步骤3.常用的实验设计方法(1)随机化分组方法;(2)完全随机分组设计;(3)配对设计;(4)配伍组设计及随机分组方法。4.确定样本含量确定样本含量应当具备的条件:α、1-β、δ、σp。(二)熟悉内容1.常用的估计样本含量的计算方法及估计该试验的检验效能的方法。(1)两样本均数比较。(2)配对试验。(3)样本均数与总体均数的比较。(4)两样本率的比较。(5)配对资料进行卡方检验时的样本含量估计。(6)抽样调查估计总体均数的样本含量。(7)抽样调查估计总体率的样本含量。2.一致性检验:Kappa值的意义及计算。(三)了解内容1实验设计的特点和分类。2.临床设计书的主要内容。3.Kappa值的抽样误差和假设检验。二、教学内容精要(一)实验设计的特点和分类实验研究(experimentalstudy)是指研究者根据研究目的(或研究假设),主动加以干预措施,并观察总结其结果,回答假设研究所提出的问题的一种研究方法。实验研究可根据研究对象的不同分为两类:以动物或标本为研究对象的实验研究(experiment)和以人为研究对象的临床试验(clinicaltrial)。(二)实验设计的基本原则1.随机化原则总体中的每一个观察单位都有同等的机会被选入实验组和对照组或进入样本,保证了非123\n处理因素在各组间均衡一致而使样本具有代表性。2.对照原则正确的设立对照可可控制实验过程中非实验因素的影响和偏倚,从而使处理因素的效应充分的显露出来。设立对照组的常见方法有:空白对照、安慰剂(placebo)对照、实验对照、标准对照及自身对照。3.重复的原则保证每一个处理都有足够的重复数(样本量),避免把偶然性或巧合的现象当作必然的规律性现象,并能正确的估计实验误差。(三)实验设计的基本内容和步骤1.建立研究假设在选题时应当考虑题目的科学性、新颖性、可行性以及所选课题是否是当前社会需要解决的主要问题。根据研究目的确定本研究需要解决的主要问题(primaryquestion)及相应的辅助问题(secondaryquestion)。2.明确研究范围审慎考虑规定适当的纳入标准(inclusioncriteria)和排除标准(exclusioncriteria),选择适宜本次实验的受试对象。3.确立处理因素分清处理因素和非处理因素,并注意处理因素的标准化。4.明确观察指标选用客观性较强,易于量化,灵敏性和特异性均较高的指标。5.控制误差和偏倚采取各种有效措施控制误差(error)和偏倚(bias),使处理措施的效果能够真正的体现出来,是实验设计的重要任务之一。(1)误差:泛指实测值与真值之差。随机误差:随机误差(randomerror)它是一类不恒定的、随机、变化的误差,是不可避免的,但随机误差服从正态分布,可以用医学统计学的方法进行分析和推断。系统误差:系统误差(systematicerror)是指实验过程中产生的一些误差,它们的值是恒定不变或者是遵循着一定的规律变化。这两种误差都是人为因素产生的,可控制的。(2)偏倚:属于系统误差,它是指在实验中由于某些非实验因素的干扰所形成的,歪曲了处理因素的真实效应。选择性偏倚:选择性偏倚(selectionbias)是由于纳入观察对象的方法不正确而产生的偏倚。它产生于实验研究的开始阶段,即研究对象的选择时产生。测量性偏倚:测量性偏倚(measurementbias)是在实验过程中对研究对象进行观察或测量而造成的偏倚。它产生于实验进行的过程中。在实验研究中,特别是在社区实验研究中,产生测量性偏倚的常见因素有:沾染(contamination)、干扰(intervention)、依从(compliance)和非依从(noncompliance)、失访(lostoffollow-up)、检查和诊断结果的不一致(disagreement)、观察记录的失误、心理因素的干扰。防止测量性偏倚的主要方法:盲法(blindmethod)、签订实验合同、检查实验对124\n象的依从情况、注意医德、注意医德、定期检查研究记录、对每一种实验方法、诊断标准,重复判断的一致性应在实验前作出估计。混杂性偏倚:混杂性偏倚(confoundingbias)由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,造成混杂性偏倚。它产生于总结分析阶段。可通过对资料进行分层分析或采取配比法控制混杂性偏倚。(四)常用的实验设计方法1.随机对照试验随机对照实验(randomizedcontroltrial)由于采取了随机化的分配原则,增强了各比较组间的可比性,避免了某些非实验因素的干扰,使实验因素能充分的显露出来,由于随机化,满足了统计学假设检验的要求,使检验结果更能反映它们之间存在的真实差异;设立对照组,更好的控制非实验因素对实验因素的影响,有效的控制了偏倚和误差,有利于反映所比较组间所存在的真实差异。随机双盲对照实验,是目前国际上认为值得提倡的实验设计方案,特别适用于临床治疗效果、疾病的预后和诊断实验的研究。2.配对设计配对设计(paireddesign)可增强处理组间的均衡性,提高实验效率。3.配伍组设计又称随机单位区组设计(randomizedblockdesign)是配对设计的扩大(处理数大于2)。(五)确定样本含量1.确定样本含量的意义确定适当的样本含量,可节约资源,并防止因为样本含量过少引起的检验效能偏低,出现了非真实的阴性结果,这是当前医学研究中值得注意的问题。2.确定样本含量时应当具备的条件建立检验假设;确立检验水准α;提出在特定检验水准的条件下,所期望的检验效能1-β;总体参数间的差值δ;估计的总体标准差σ及估计的总体率p。3.确定样本含量的用途保证科研设计有适当的样本含量,而且可考察当前的样本含量是否能够保证足够大的检验效能。4.常用的估计样本含量的方法(1)两样本均数比较()2é2ua+ubsùN=êú(13-1)ëdû注意:上式中N为两组合计的样本含量,α有单双侧之分,β只取单侧。dNub=-ua(13-2)2s上式是已知样本含量时(试验结束后),估计其检验效能是否足够大。方法是根据u查正态b分布表得b,得到检验效能1-b。(2)配对试验125\n()2éua+ubsdùN=êú(13-3)ëdûN为观察的对子数。估计检验效能:Nub=d-ua(13-4)sd(3)样本均数与总体均数的比较()2éua+ubsùN=êú(13-5)ëdûNu=d-u(13-6)bas(4)两样本率比较,当例数相等时()2u+u4p(1-p)abccN=(13-7)()2p1-p2Np1-p2ub=-ua(13-8)2pc(1-pc)式中p、p分别代表两组的总体率,p代表两组的合并率。N为两组合计之样本含量。12c2(5)配对分类资料多用c检验进行处理的资料的样本含量估计éu2p+u2pppùacb-++-cN=êú(13-9)êëp-+-p+-úûbcp+p+--+p=p=p=+--+ca+ba+c2Np-+-p+--ua2pcu=(13-10)b2p-+p+-pc(6)抽样调查估计总体均数的样本含量2æusöaN=ç÷(13-11)èdø(7)抽样调查估计总体率的样本含量2()uap1-pN=(13-12)2d5.一致性检验Kappa值是判断一致性和信度评价的常用的重要指标。P-PAeKappa=(13-13)1-PeKappa值愈大,一致程度愈好,一般来说,Kappa值≥0.75,说明已取得相当满意的一致程度,若小于0.4,说明一致程度不够理想。126\n三、典型试题分析(一)名词解释实验效应。答:实验效应(experimentaleffect)主要指处理因素作用于实验对象的反应,这种效应将通过实验中观察指标显示出来。(二)填空题实验研究与调查研究的区别在于。答:前者主动施加干预措施而后者不。[评析]实验研究是指研究者根据研究目的,主动加以干预措施,并观察总结其结果,回答研究假设所提出的问题。而调查研究旨在客观的描述总体,未加任何干预措施。(三)是非题1.实验效应选择特异性高的指标可减少假阳性率()。答:正确。[评析]实验效应选择特异性高的指标减少假阳性率,而敏感度高的指标减少假阴性率。2.随机对照实验中所谓随机化就由受试对象随便选择进入实验组或对照组()。答:错。[评析]随机不等于随便,所谓随机是指总体中的每一个观察单位都有同等的机会被选入样本或进入实验研究的各处理组中。(四)简答题在选取实验效应时应考虑那几方面的问题?答:应考虑选用客观性较强,易于量化,灵敏度高精确性较强的指标。(五)计算题1.为考虑某疫苗的疗效,拟进行一场实验,该传染病的发病率一般为10%,接种组降低发病率5%以上才有推广价值,问两组各需多少人?(a=0.05,检验效能90%)。答:由原题可知接种疫苗后只会降低发病率,a=0.05(单侧),u=1.64,b=0.10,0.05u=1.28,p=0.1,p=0.05,d=0.05,p=0.0750.1012c代公式:(uu+)4´-pp(1)(1.64+1.28)4´´´0.0750.925abccN===946人2()pp12-0.05两组共需946,即每组473人。2.新生儿的出生体重其均数为3200g,标准差为467g。欲研究妇女在怀孕期间服用某药物是否会影响新生儿体重,假设服用该药后出生的新生儿将比一般的新生儿平均增重220g,假设单侧检验,a=0.05。问:(1)如果取1-b=0.08,两组样本含量相等时需要多大的样本含量才能发现其差异?(2)如果1-b为0.90,取两组相等时,需要多大的样本含量?(3)如果每组各有120人进入研究,仍采用单侧检验a=0.05,检验效能为多大?127\n答:22éù2(mab+ms)éù2(1.64+0.84)467(1)代入公式N=êú=êú=111êúëûdëû220两组样本含量相等时,需要112例样本才能发现其差异。22éù2(mab+ms)éù2(1.64+1.28)467(2)代入公式N=êú=êú=154êúëûdëû220取两组相等时,需要154例样本。dN220240(3)代入公式u=-u=-1.64=2.00ba2s2´467解得:mb=2.00,查表得:b=0.02,power=1-0.02=0.98。3.欲研究小剂量阿司匹林预防男性冠心病的效果,拟进行为期5年的随机双盲试验。若40~64岁男服用安慰剂后,冠心病5年发病率为2.5%,同一年龄男性服用阿司匹林后冠心病5年发病率为2.0%,问:(1)取a=0.05,用双侧检验,要有80%的机会发现其差异,每组需要多少人进入研究?(2)如检验效能取0.90,其余的条件不变,各组又需多少人?(3)若单侧检验,检验效能仍为为0.80,各组又需多少人?(4)如每个组有5000人进入研究,a=0.05,双侧检验时期检验效能为多大?答:(1)a=0.05,ua=1.96,b=0.20,ub=0.84,p1=0.025,p2=0.02,pc=0.0225()2()2ua+ub4pc1-pc(1.96+0.84)4´0.0225´(1-0.0225)N===27588人()2()2p1-p20.025-0.02取a=0.05,用双侧检验,要有80%的机会发现其差异,每组需要13794进入研究。(2)a=0.05,ua=1.96,b=0.10,ub=1.28()2()2ua+ub4pc1-pc(1.96+1.28)4´0.0225´(1-0.0225)N===36942()2()2p1-p20.025-0.02如检验效能取0.90,其余的条件不变,每组需18471少人。(3)a=0.05,单侧u=1.64,b=0.20,u=0.84ab()2()2ua+ub4pc1-pc(1.64+0.84)4´0.0225´(1-0.0225)N===21644()2()2p1-p20.025-0.02若单侧检验,检验效能仍为0.80,各组需10821人。(4)a=0.05,双侧u=1.96aNp1-p2100000.025-0.02ub=-ua=-1.96=0.16862pc(1-pc)20.0225(1-0.0225)查表得b=0.4325,则双侧检验时其检验效能为1-0.4325=0.5675。4.根据既往观察,人群接种某预防制剂后,体温高于37.5℃的反应率为10%,今欲推广使用,拟再次证实真实反映率是否为10%,要求容许误差在真实反应率的20%以内,a=0.05,b=0.10,问按单纯随机抽样需观察多少人?答:取a=0.05(双侧),u=1.96,p=0.1,d=10%×20%=0.02,0.050128\n2ua21.96N=pp00(1-)()=0.1´(1-=0.1)2864人d0.02需观察864人。5.已知藏族中HbsAg阳性感染为14.78%,现欲抽样检查了解拉萨地区藏族人的HbsAg阳感染率,要求误差不超过1%,a=0.05,b=0.10,问需调查多少人?答:已知a=0.05(双侧),u=1.96,p=0.1478,d=0.01,代入公式可得:0.05022æöuaæö1.96N=pp00(1-)ç÷=0.1478(1-=0.1478)ç÷4838人èødèø0.01需调查4838人。四、习题(一)名词解释1.安慰剂对照2.随机化3.混杂因素4.系统误差5.偏倚6.实验研究7.沾染8.干扰9.失访10.随机对照试验(二)填空题1.实验设计的基本原则是,,。2.决定样本含量的条件有,,,。(三)选择题1.在下面各种实验设计中,在相同条件下最节约样本含量的是。()A.完全随机设计B.配对设计C.配伍组设计D.交叉设计2.为研究新药“胃灵丹”治疗胃病(胃炎,胃溃疡)疗效,在某医院选择50例胃炎和胃溃疡病人,随机分成实验组和对照组,实验组服用胃灵丹治疗,对照组用公认有效的“胃苏冲剂”。这种对照在实验设计中称为()。A.实验对照B.空白对照C.安慰剂对照D.标准对照3.某医师研究丹参预防冠心病的作用,实验组用丹参,对照组用无任何作用的糖丸,这属于()。A.实验对照B.空白对照C.安慰剂对照D.标准对照4.某医师研究七叶一枝花治疗胃溃疡疗效时,实验组服用七叶一枝花与淀粉的合剂,对照组仅服用淀粉,这属于()。A.实验对照B.空白对照C.安慰剂对照D.标准对照5.实验设计的三个基本要素是()。A.受试对象、实验效应、观察指标B.随机化、重复、设置对照C.齐同对比、均衡性、随机化D.处理因素、受试对象、实验效应6.实验设计的基本原则()。A.随机化、盲法、设置对照B.重复、随机化、配对C.随机化、盲法、配对D.随机化、重复、设置对照129\n7.实验设计和调查设计的根本区别是()。A.实验设计以动物为对象B.调查设计以人为对象C.实验设计可随机分组D.实验设计可人为设置处理因素8.在()中,研究者可以人为设置各种处理因素;而在()中则不能人为设置处理因素。A.调查研究B.社区干预试验C.临床试验D.实验研究(四)是非题1.用元参钩藤汤治疗80名高血压患者,服用半月后比服用前血压下降了2.8kPa,故认为该药有效()。2.在实验设计中,样本含量越大,越符合其重复原则,越能降低实验误差()。(五)简答题1.随机化的作用是什么?2.某医师欲观察保健品“海兰兰”纠正小学生贫血的效果,您认为应采用何种类型的研究?在进行研究设计时应考虑那些主要问题,请简述之。3.某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中的维生素A的含量有无差别。请问:(1)此实验属于那种实验设计()。A.完全随机设计B.配对设计C.配伍组设计D.拉丁方设计(2)此实验结果应使用那种统计方法进行分析()。A.配对资料t检验B.回归分析C.成组资料t检验D.成组设计方差分析(3)以下假设检验那种是正确的()。A.H两种饲料喂养的大白鼠总体的肝中维生素A含量不等0H两种饲料喂养的大白鼠总体的肝中维生素A含量相等1B.H两种饲料喂养的大白鼠总体的肝中维生素A含量不等0H两种饲料喂养的大白鼠总体的肝中维生素A含量相等1C.H两种饲料喂养的大白鼠总体的肝中维生素A含量不等0H两种饲料喂养的大白鼠总体的肝中维生素A含量不等1D.H0两种饲料喂养的大白鼠总体的肝中维生素A含量相等H两种饲料喂养的大白鼠总体的肝中维生素A含量不等1(4)结果如何解释()。A.P﹤0.05时,两组饲料喂养的大白鼠样本的肝中维生素A含量差别无意义B.P﹤0.05时,两组饲料喂养的大白鼠样本的肝中维生素A含量差别有意义C.P﹤0.05时,两组饲料喂养的大白鼠总体的的肝中维生素A含量差别无意义D.P﹤0.05时,两组饲料喂养的大白鼠总体的的肝中维生素A含量差别有意义(六)计算题130\n1.在进行有两种处理的动物冠状静脉窦的血流实验时,A处理使平均血流量增加1.8ml/min,B处理使平均血流量增加2.4ml/min。设两处理的标准差相等,均为1.0ml/min,α=0.05,β=0.10,若要得出两处理有差别的结论,成组设计时需要多少实验动物?2.据说某民族正常人平均体温高于37℃,为核实这一点,拟进行抽样调查。如果就总体而言平均高出0.1℃便不可忽略,已知正常人的体温标准差约为0.2℃,那么,为了将第I,II类错误的概率a和b均控制在0.05,试计算单纯随机抽样样本量应该是多大?3.某药厂在大量筛选降压药物时规定平均降压效果超过2kPa者才作为候选药物进入下一轮研究。现对某药作了10个动物的预试验,血压下降值的标准差为5kPa,问正式试验时样本量多大为宜?4.为了比较两类片剂的溶解速率,决定各随机抽取10片,测定5分钟溶解量,然后作a=0.05水平的检验。据预试验,两类片剂的变异性相同,标准差约为6个单位,均数之差也约为6个单位,问欲使检验效能达到95%,样本量应当多大?5.甲乙两医院的内科分别随机调查了30名住院病人,甲医院中对医疗服务表示满意者有20名,乙医院中表示满意者有23名。经统计检验,尚不能认为两医院内科住院病人的满意率不等。如欲考察两医院内科住院病人的满意率是否相差10%以上,至少应当各调查多少病人?6.按120名患者就诊顺序,完全随机将其分为A,B,C三组。试列出随机分组表。试验结束后统计,发现其中有56个重症患者,就诊序号分别为:1~9,15~24,70~89,100~116。问A,B,C三组重症患者比例是否均衡?五、习题答案要点(一)名词解释1.安慰剂对照(placebocontrol)指在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。2.随机化(randomization)指研究对象中或总体中每一个观察单位都有同等的机会被选入样本或实验研究的各处理组中。3.混杂因素(confoundingfactor)指实验研究中由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,这种非实验因素称为混杂因素。4.系统误差(systematicerror)指实验过程中产生的一些误差,它们的值是恒定不变或者是遵循着一定的规律变化。5.偏倚(bias)是指在实验中由于某些非实验因素的干扰所形成的系统误差,歪曲了处理因素的真实效应。6.实验研究(experimentalstudy)是指研究者根据研究目的(或研究假设),主动加以干预措施,并观察总结其结果,回答假设研究所提出的问题的一种研究方法。7.沾染(contamination)是指对照组的实验对象接受实验组的处理措施,提高了对照组的有效率,其结果是造成了实验组和对照组之间差异缩小的假象。8.干扰(intervention)是实验组从实验外接受了对实验因素有效的药物或措施(非处理措施),提高了实验组的有效率,其结果是扩大了实验组和对照组之间的差异。131\n9.失访(lostoffollow-up)指受试者在实验过程中由于各种原因退出实验称为失访。10.随机对照实验(randomizedcontroltrial)首先将受试对象随机分配到实验组和对照组,通过比较分析回答研究假设的问题。(二)填空题1.重复、对照、随机化。2.检验水准α、检验效能1-β、总体参数间的差值δ、估计的总体标准差σ。(三)单项选择题1.D2.D3.C4.A5.D6.D7.D8.BC,A(四)是非题1.错。没有设立对照不能说明问题。2.错。样本含量过大,实验过程不易控制,反而增加系统误差,且成经济损失,故样本含量适当时,效能最高,重复性原则并非指样本含量越大约好。(五)简答题1.随机化保证了各比较组间的均衡可比性,也是资料统计分析时进行统计推断的前提。2.宜采用配对设计,将实验对象按照年龄,性别,营养状况,贫血轻、中、重的程度配对,随机分配每对中两个对象接受不同的处理方式。实验组给予“海兰兰”对照组给予安慰剂,最好采用双盲法。3.(1)B(2)A(3)D(4)D(六)计算题1.本题δ=2.4-1.8=0.6ml/min,σ=1,双侧α=0.05,β=0.1。查表得u=1.96,0.05u=1.282,按两组均数t检验估计样本含量:0.01()22é2ua+ubsùé2(1.96+1.282)´1ùN=êú=êú=120只ëdûë0.6û共需120只,每组60只。2.由原题可知a=0.05(单侧),u=1.64,b=0.05,u=1.64,d0.050.0500=0.1C,s=0.2C,按样本均数与总体均数比较t检验估计样本含量:22éù()uu+séù(1.64+´1.64)0.2abN=êú==43êúëûdëû0.1可取43个人参加试验。3.由原题可取a=0.05(单侧),u=1.64,b=0.01,u=2.33,d=2kPa,s=0.050.015kPa,因为s未知,所以用S代替σ,按配对t检验估计样本含量:22éù()uu+séù(1.64+´2.33)5abN=êú==98êúëûdëû2可取98只动物。4.由原题可知a=0.05(双侧),u=1.96,b=1-0.95=0.05,u=1.64,d=6,s=0.050.056,按两组均数t检验估计样本含量:22éù2()uuab+séù2´+´(1.961.64)6N=êú==51êúëûdëû6总片数只需52片,每类26片。132\n2235.由原题可取a=0.05(双侧),u=1.96,b=0.10,u=1.28,p=,p=,0.050.101233043p=,代入公式得:c60243432(1.96+1.28)´4´´-(1)(uuab+-)4ppcc(1)6060N===852()2223pp12-()-2330每个医院各调查426人。6.用计算器给每个患者产生一个3位数的随机数,规定随机数区间,000~332分到A组,333~665分到B组,666~998分到C组。随机分组表见表13-1。表13-1120例患者随机分组结果患者随机分组患者随机分组患者随机分组患者随机分组编号数字结果编号数字结果编号数字结果编号数字结果1﹡628B31747C61647B91994C2﹡673C32791C62474B92507B3﹡833C33503B63685C93542B4﹡915C34568B64414B94309A5﹡776C35442B65878C95871C6﹡713C36002A66790C96375B7﹡366B37735C67201A97701C8﹡663B38598B68690C98141A9﹡830C39400B69703C99305A10842C40157A70﹡723C100﹡018A11123A41531B71﹡437B101﹡341B12318A42820C72﹡126A102﹡769C13168A43801C73﹡222A103﹡334B14461B44125A74﹡010A104﹡125A15﹡449B45503B75﹡109A105﹡292A16﹡658B46692C76﹡479B106﹡314A17﹡123A47112A77﹡648B107﹡957C18﹡532B48370B78﹡947C108﹡322A19﹡993C49443B79﹡875C109﹡842C20﹡661B50465B80﹡120A110﹡445B21﹡394B51911C81﹡236A111﹡412B22﹡571B52601B82﹡873C112﹡874C23﹡931C53265A83﹡010A113﹡523B24﹡174A54520B84﹡923C114﹡499B25785C55502B85﹡391B115﹡421B26329A56129A86﹡436B116﹡748C27321A57484B87﹡786C117945C28700C58560B88﹡562B118797C29443B59294A89﹡919C119485B30690C60948C90536B120508B备注:﹡为重症患者。133\n从表13-1中可统计出A组、B组、C组中重症患者数分别为14、22、20个,A、B、C三组重症患者分布的均衡性检验结果见表13-2。13-2A、B、C三组重症患者分布的均衡性检验人数分组合计重症患者轻度患者A组141630B组222648C组202242合计566412022计算得c=0.028,c0.05,2=5.99,不能认为A、B、C三组重症患者分布不均衡。(周燕荣陈平)134\n第十四章调查设计与资料分析一、教学大纲要求(一)掌握内容1.调查的概念及其特点,调查研究与实验研究的区别。2.调查设计的基本原则与内容(1)明确调查目的。(2)确定调查对象和观察单位。(3)确定调查方法。(4)确定调查指标和变量。(5)调查工具和调查表的种类、调查表和问卷的一般结构、调查问题的形式、调查问题设计应注意的问题。(6)确定样本含量的意义及方法。(7)对调查员的要求。(8)有关伦理道德的问题。3.常用的抽样方法(1)概率抽样的概念。(2)常用的概率抽样方法:简单随机抽样、系统抽样、分层抽样、整群抽样。(3)(二)熟悉内容(1)非概率抽样的概念,配额抽样、“滚雪球”样本、识别(判断)样本的概念。(2)标准化率的概念及计算方法。(三)了解内容病例对照研究和队列研究的概念及数据的处理和分析。二、教学内容精要(一)调查的概念及其特点调查(survey)是指在没有任何干预措施的条件下客观地观察和记录研究对象的现状及其相关特征。在调查中,欲研究的对象及其相关特征(包括研究因素和非研究因素)是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,这是调查研究区别于实验研究的最重要特征。当然对非研究因素的控制可以在调查分析阶段通过标准化法、分层分析以及多因素统计分析等方法得以实现,而不是在调查阶段。(二)调查设计的基本原则与内容1.明确调查目的每一项调查,必须有明确的调查目的。调查目的一般可分为调查的总目的和具体目的。调查135\n目的是选定调查指标的依据。2.确定调查对象和观察单位根据调查目的确定调查对象,即明确调查总体的同质范围。在确定的总体范围内,组成调查对象的每个个体即为观察单位。观察单位可以是一个人、一个家庭或一个群体。3.确定调查方法根据研究问题的性质、客观条件和研究目的选择合适的调查方法。按调查的涉及面,一般可分为普查(overallsurvey)和抽样调查(samplingsurvey)。普查也称全面调查(completesurvey),是对调查范围内的全部观察对象(总体)进行调查,一般用于了解总体在某一特定“时点”的情况。抽样调查是一种非全面调查,是从总体中抽取一定数量的观察单位组成样本,然后根据样本信息来推断总体特征。抽样调查是医学科研中最为常用的方法。调查方法还可按调查的内容发生的时间,分为横断面调查(cross-sectionalstudy)和纵向调查(longitudinalstudy);按资料的来源,可分为现场调查和利用现有资料两种;按调查方式,可分为面对面调查和非面对面调查(信访、电话采访等)两种。4.确定调查指标和变量调查目的是选定调查指标的依据,调查指标是调查目的的具体体现。设计时,应将调查目的转化为具体的调查指标。调查指标可分为客观指标和主观指标,还可分为定性指标和定量指标。一个指标可以是一个或几个变量,也可以是几个指标构成一个变量。指标的设立应注意灵敏性、特异性和客观性,并紧扣研究目的,做到少而精。5.调查工具和调查表(1)调查工具:调查工具(instruments)可分为两类,一类是“硬”工具,一类是“软”工具。如尺、秤、温度计等是“硬”工具;调查表和问卷等是“软”工具。调查工具必须标准化,要防止系统误差。工具的使用和调查结果的记录也必须标准化。(2)调查表和问卷的一般结构:调查表和问卷(questionnaire)一般可划分为4个部分,分别为:“说明部分”、“填写说明”、“核查项目”、“调查项目”。“说明部分”主要说明调查目的,以取得调查对象的合作;“填写说明”是为了保证所有调查员和调查对象均能对调查项目及填写方法正确理解、统一认识而编写的;“核查项目”这一部分是与调查目的无关、不向调查对象询问的质量控制项目,如调查员姓名、调查日期、复核结果、未调查原因等;“调查项目”部分是调查对象填写的部分,是调查的核心内容。(3)问题的形式:根据问题答案的形式,问题可分为开放型和封闭型两类。开放型问题对问题答案不加任何限制,由调查对象对问题自由回答,适于调查者不清楚答案如何以及答案很多的情况,或事先不能确定回答的范围以及预调查;封闭型问题是根据问题可能的答案,提出两个或多个固定答案共调查对象选填,常用“是与否”或多项选择的形式。封闭型问题只能得到分类资料或等级资料,而开放型问题有时可得到数值变量资料。可根据具体情况加以选择。(4)问题设计应注意的问题:尽量避免术语;避免含糊的提问用词;避免双重问题;避免诱导或强制;敏感问题的调查要有专门技巧。6.确定样本含量为什么要确定样本含量或者说其意义有哪些?(1)可以控制统计量的抽样误差,样本含量越大,标准误越小;(2)提高估计的精度,增大样本含量是控制可信区间的宽度的有效办法;136\n(3)增大样本含量是控制统计分析中Ⅱ型错误的概率大小的有效措施;(4)表示抽样误差的指标(各种标准误)的抽样误差也与样本含量有关(如样本方差的方差)。在现场调查中,最常用的是估计总体均数及估计总体率时要求的样本含量。估计总体均数的样本含量的计算公式:ta/2s2n=()(14-1)d式中d为允许误差。s为估计的标准差,一般都是从以前的研究资料中获得。在算得n之前,自由度n不能确定,t仍是未知的,解决的办法是先以u代替t,用迭代0.05/20.05/20.05/2法求得n。估计总体率的样本含量的计算公式:2ua/2p(1-p)n=(14-2)2d式中d为允许误差。如果估计的p是一个范围,那就应该取其中最靠近50%的值。假定估计的p约在10%到30%之间,则取p=0.30;假定估计的p约在40%到80%之间,则取p=0.50;如果对p一无所知,则取p=0.50。7.调查员调查员应该经过选择和培训,培训分理论培训和实践培训。调查员的工作量要合理,对调查员应有监督机制和质量控制措施。8.伦理道德伦理道德问题可以来自于某些调查的问题本身,也可以来自于为获得有效而可靠的资料所用的方法。调查时要注意知情同意(informedconsent)和隐私的保护。知情同意是指在研究对象暴露于某种危险之中或丧失某种个人权益时,要征得研究对象同意。(三)抽样方法1.概率抽样所谓概率抽样(probabilitysampling),就是在抽样中必须使该总体中的每一个个体都有已知的或可计算的和非零的概率被抽样抽中。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样和整群抽样。各种抽样方法的抽样误差一般是:整群抽样≥简单随机抽样≥系统抽样≥分层抽样。在应用大多数的概率抽样方法时,确切的抽样框架非常重要。抽样框架(Samplingframe),简单地说就是一份完整的可以用来抽样的名单。如果没有抽样框架,也就是说目标人群(总体)不明确,那么所得的调查结论很难说适用于什么人群。(1)简单随机抽样:所谓简单随机抽样(simplerandomsampling)是在某个总体中以完全随机的方法抽取一部分个体组成样本。一般,在抽样前,需要先对抽样总体中的全部个体进行编号即确定抽样框架,然后用抽签或随机数字表的方法抽取一部分个体。这种抽样方法简单,计算抽样误差方便。但是,在大规模的调查中,由于对总体中的所有个体进行编号很困难,而且当样本量不大时抽取的个体可能很分散,因此,抽样和现场调查都会相当困难。简单随机抽样的均数和率的标准误的计算公式如下:137\n2nSS=(1-)(14-3)XNnnp(1-p)S=(1-)pNn-1(14-4)期中,n/N称为抽样比(samplingfraction),(1-n/N)为“有限总体校正数”(finitepopulationcorrection)。去掉“有限总体校正数”即可用于无限总体抽样误差的计算。(2)系统抽样:所谓系统抽样(systematicsampling)是指随机地在抽样框架内每间隔若干个个体抽取一个个体的抽样方法。在一般情况下,系统抽样的抽样误差是和简单随机抽样相仿甚至比简单随机抽样的抽样误差更小。系统抽样的抽样误差一般按简单随机抽样方法估计。(3)分层抽样:所谓分层抽样(stratifiedsampling)是先按对观察指标影响较大的某种特征,将总体分为若干类别(统计上称之为“层”,strata),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。分层的原则是层间差别越大越好,层内差别越小越好。在样本总含量n确定后,有两种比较常用的方法来分配各层的观察单位数ni。按比例分配(proportionalallocation):按各层观察单位数Ni占总体观察单位数N比例抽取样本,使各层样本含量ni与样本总含量n之比等于各层观察单位数Ni与总体观察单位数N之比。采用按比例分层随机抽样时,所得均数或比例是自动加权的。样本量分配可按下式计算:niNin=或n=N(14-5)iinNN最优分配(optimumallocation):即同时按总体各层观察单位数Ni的多少和标准差σi的大小分配,按下面两式分配各层的样本量,使抽样误差最小。均数的抽样公式:Nisini=n(14-6)åNisi率的抽样公式:Np(1-p)iiini=n(14-7)åNipi(1-pi)分层抽样中,若令W=N/N,样本均数X和率p及其标准误的计算公式如下:ii样本均数:X=åWiXi(14-8)ni22样本均数的标准误:SX=å(1-)WiSXi(14-9)Ni样本率:p=åWipi(14-10)ni22样本率的标准误:Sp=å(1-)WiSpi(14-11)Ni(4)整群抽样:所谓整群抽样(clustersampling)是先将总体按照某种与研究指标无关的特征化分为K个群组,每个群包括若干观察单位,然后在随机抽取k个群,将抽取的各个群的全部观察单位组成样本。整群抽样的特点是抽样和调查都很方便,可能省时、省力和省钱。缺点是可能抽样误差较大,特别是群间差别较大时。138\n整群抽样样本均数X和率p及其标准误的计算公式如下:K样本均数:X=åmiXi(14-12)NkkKk12均数的标准误:SX=(1-)()å(Ti-T)(14-13)NKk(k-1)i=1式中Ti为样本第i群内观察值之和,T为各Ti的均数,T=åTi/k。K样本率:p=åai(14-14)NkkKk12率的标准误:Sp=(1-)()å(ai-a)(14-15)NKk(k-1)i=1式中åai为样本中各群阳性数之和,a为样本各群的平均阳性数。2.非概率抽样所谓非概率抽样(non-probabilitysampling),是指各个个体被抽样抽中的概率是未知的和无法计算的。然而,一些非概率抽样方法,尽管不能按常规的理论来计算抽样误差和推断总体,在特定条件下,还是有用的。但在应用中,不能忘了它们的局限性,特别要注意结论的合适性。(1)配额抽样:所谓配额抽样(quotasampling)是一种的实用的非概率抽样方法。就是要求样本中个体的构成在指定的几个特征方面的(分配额度)比例完全与总体一样,例如,由于全人口中男女各半,所以要求调查对象中也是男女各半,由于该地有苗族居民30%,要求在调查对象中苗族居民占30%。配额抽样可以使样本有宏观上的代表性。(2)“滚雪球”样本和识别(判断)样本:在有些情况下,缺少目标总体中全部个体的名单,无法构成抽样框架,此时可用另外一些非概率抽样的方法,即“滚雪球”(snowballing)抽样和识别(judgement)抽样的方法。比如调查太极拳爱好者,由于正式参加太极拳运动的人数太少,因此难以获得抽样框架。但是每一位太极拳运动爱好者都会有一些相同兴趣的好友,所以可以通过这种关系滚雪球似地把样本扩大。所谓识别抽样,是指研究者尽可能找到和识别需调查的个体。这两种调查方法,都未能明确规定抽样框架,甚至难以说出要推断的总体是什么,然而,作为一项探索性的调查,仍可能获得有价值的信息。(四)病例对照研究和队列研究病例对照研究(casecontrolstudy)是一种“由果推因”的回顾性观察性研究,根据有无研究疾病或其它结局,将研究人群分为病例组(cases)和对照组(controls),追溯过去某些暴露情况,比较两组暴露水平有无差异,从而得出结局与暴露有无关联的推断。队列研究(cohortstudy)是一种“由因寻果”的纵向前瞻性观察研究。根据观察开始时有无暴露(exposure)史,研究者将没有出现研究疾病或其它结局(outcome)的研究人群分为暴露人群和非暴露人群,并随访观察一定时期,旨在比较两组人群的疾病“发病”率有无差异,从而得出暴露与结局有无关联的推断。两者关系可简要见下表:139\n表14-1病例对照研究与队列研究的比较比较项目病例对照研究队列研究观察方向“由果推因”的回顾性观察研究“由因寻果”的纵向前瞻性观察研究可获得比数比(oddsratio,OR),当发病率很低累积发病率(cumulativeincidence,CI);指标时,OR被认为与RR很接近;发病密度(incidencedensity,ID);用OR替代RR估计归因危险度百分比相对危险度(relativerisk,RR);(attributableriskproportion,AR%)归因危险度(attributablerisk,AR);归因危险度百分比(attributableriskproportion,AR%)优点省时、省人力、省经费,易组织实施;因结局发生在后,故对暴露资料的收集适于结局为罕见事件的病因研究;是无偏倚的;一次调查可探索疾病的多个可疑病因,可收集已知混杂因素的信息;常用于初步验证某病因假说或探测某可直接计算发病率、相对危险度等疾病些病因;与病因关联的指标;当发病率很低时,OR与RR相当近似病因在前结果在后,可证实病因假说;可获得多种结局资料缺点不适于研究人群中暴露比例很低的因耗费时间、人力、经费;素;当结局为罕见事件时,需样本量大;不能直接计算发病率;易产生以下偏倚:研究对象依从性偏倚、有时难以判断暴露与疾病之间的时间信息偏倚、对暴露与结局的评价偏倚先后关系;易发生选择偏倚、回忆偏倚、混杂偏倚(五)标准化率调查资料在进行对比分析时,要注意组间的可比性。当两组(或多组)资料的内部各小组的率明显不同,而且各小组观察单位的构成比明显不同时,则不能直接比较两组的总率。这时可采用一个“统一的标准”将两组(或多组)资料的内部构成比例调整一致后,分别计算出调整后的总率再作比较,这种方法叫做率的标准化(standardization)。率的标准化有以下两种方法:1.直接标准化直接标准化(directstandardization)是以有代表性的、人群数量大的组作为标准人群,用标准人群各小组观察单位数分别乘以被标化人群的各小组的阳性率(如发病率),得到被标化人群的理论阳性数。理论阳性数除以标准人群总人口数,得到被标化人群的标准化阳性率。2.间接标准化间接标准化(indirectstandardization)是以标准人群各小组阳性率乘以被标化人群的各小组观察单位数,得到被标化人群的理论阳性人数。被标化人群的实际阳性人数除以理论阳性总人数,得标准化阳性率比值(如标准化发病率比值standardizedincidenceratio,SIR或标准化死亡率比值standardizedmortalityratio,SMR)。SIR(SMR)乘以标准人群实际阳性率,得到140\n被标化人群的间接标准化阳性率。3.计算符号及公式表14-2计算用数据符号被标化组标准组组别观察单位数阳性数率观察单位数阳性数率1n1r1p1N1R1P12n2r2p2N2R2P23n3r3p3N3R3P3…………………iniripiNiRiPi…………………knkrkpkNkRkPk合计nrpNRPNpåii直接法计算公式:p¢=(14-16)Nr间接法计算公式:p¢=P(14-17)åniPirSMR=(14-18)åniPi三、典型试题分析(一)名词解释调查。答案:调查(survey)是指在没有任何干预措施的条件下客观地观察和记录研究对象的现状及其相关特征。在调查中,欲研究的对象及其相关特征(包括研究因素和非研究因素)是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,这是调查研究区别于实验研究的最重要特征。[评析]本题考点:调查的概念及其特点,调查研究与实验研究的区别。实验研究可以人为地设置干预措施,而调查研究是在没有任何干预措施的条件下观察和记录研究对象的现状及其相关特征。(二)单项选择题1.随机抽样是指()。A.每个个体必须有同样的概率被抽样抽中B.抽样中不要按主观意愿挑选C.概率抽样和非概率抽样D.哪一个个体被抽样抽中完全是由于碰巧141\n答案:A[评析]本题考点:统计学中随机抽样概念的理解。有限总体在获得抽样框架后,可以实现随机抽样,即总体中的每个观察单位都有同样的机会被选作样本,而不是按主观意愿挑选或哪一个个体被抽样抽中完全是由于碰巧。2.概率抽样是指()。A.每个个体被抽样抽中的概率是已知非零的B.每个个体被抽样抽中的概率是可计算的C.每个个体被抽样抽中的概率是非零的D.每个个体被抽样抽中的概率是非零的,已知或可计算的答案:D[评析]本题考点:统计学中概率抽样概念的理解。概率抽样就是在抽样中必须使该总体中的每一个个体都有已知的或可计算的和非零的概率被抽样抽中。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样和整群抽样。在应用大多数的概率抽样方法时,确切的抽样框架非常重要。概率抽样可以估计其抽样误差的大小。而非概率抽样是指各个个体被抽样抽中的概率是未知的和无法计算的。3.在常用的几种抽样调查中,其抽样误差的大小关系一般是()。A.整群抽样小于分层抽样B.系统抽样大于简单随机抽样C.整群抽样大于简单随机抽样D.简单随机抽样小于最优分配分层随机抽样答案:C[评析]本题考点:常用的几种随机抽样调查方法的抽样误差的估计。常用的几种随机抽样调查方法有统计的理论依据,可估计抽样误差,能客观地评价调查结果的精度。各种抽样方法的抽样误差一般是:整群抽样³简单随机抽样³系统抽样³分层抽样。在保证同样精度的条件下,所用抽样方法的抽样误差越大,则所需样本含量相对越多。4.最优分配分层抽样,()。A.可以使抽样误差最小B.可以使调查费用最小C.样本均数是无偏的D.要求的样本含量最小答案:A[评析]本题考点:分层抽样调查抽样误差的估计。分层抽样中,在样本总含量确定后,有两种比较常用的方法来分配各层的观察单位数。一种是按比例分配,另外一种是最优分配。按比例分配是按各层观察单位数占总体观察单位数比例抽取样本,使各层样本含量与样本总含量之比等于各层观察单位数与总体观察单位数之比;而最优分配是同时按总体各层观察单位数的多少和标准差的大小分配,使抽样误差最小。5.调查设计和实验设计的根本区别是()。A.实验设计以动物为对象B.调查设计以人为对象C.实验设计可随机分组142\nD.实验设计可人为设置处理因素答案:D[评析]本题考点:调查研究和实验研究的概念的理解。调查是指在没有任何干预措施的条件下客观地观察和记录研究对象的现状及其相关特征。在调查中,欲研究的对象及其相关特征是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,而实验研究可人为设置处理因素,这是调查研究区别于实验研究的最重要特征。(三)简答题四种基本抽样方法是如何体现随机性的?各自的优缺点和适用的场合是什么?答案:简单随机抽样:将调查总体的全部观察单位编号,再用随机数字标或抽签等方法随机抽取部分观察单位组成样本。优点:均数或率及标准误的计算简便。缺点:总体例数较多时,一一编号比较麻烦,实际工作中难以办到。适用场合:一些比较单纯的现象,如观察单位在总体中分布比较均匀时采用这种方法。系统抽样:将总体的观察单位按某一顺序等分成n个部分,在从第一部分随机抽第k号观察单位,依次用相等间隔机械地从每一部分各抽一个观察单位组成样本。优点:易于理解,简便易行;容易得到一个按比例分配的样本。缺点:当总体的观察单位按顺序有周期趋势或单调增(减)趋势,则系统抽样产生明显偏性;没有自己的估计抽样误差的方法。适用场合:观察单位分布十分均匀,可以保证样本对总体有较好的代表性。整群抽样:先将总体划分为K个群,每个群包含若干观察单位,再随机抽取k个群,并将被抽取的各个群的全部观察单位组成样本。优点:便于组织,节省经费。缺点:例数一定时,抽样误差较大。适用:群间差异较小的对象。分层抽样:按影响观察值变异较大的某种特征,将总体化分为若干类型或组别(即层),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。优点:减少抽样误差;便于对不同的层采用不同的抽样方法;可以对不同层独立进行分析。适用:各层间差异较大。[评析]本题考点:常用的几种概率抽样调查方法的比较。根据研究问题的性质、客观条件和研究目的选择合适的抽样调查方法。不同的抽样方法有不同的使用场合。(四)计算题某医师打算研究正常女大学生的收缩期血压(kPa),要求本次调查所得样本均数与未知的总体均数相差不大于0.5的概率是95%,以前的调查资料显示,标准差在2.2(kPa)左右,若作简单随机抽样,需调查多少对象?答案:本题为调查总体均数的样本含量估计。已知:s=2.2,d=0.5,双侧u=1.960.05ta/2s2根据公式n=()计算样本含量,但在算得n之前,自由度n不能确定,t0.05/2仍是d未知的,解决的办法是先以u代替t,用迭代法求得n。0.05/20.05/2ua/2s22首先根据公式n=(),n=(1.96×2.2/0.5)=74.37≈74(人)d由n=74,得自由度n=74-1=73,用n=73查t界值表得t0.05/2,73=1.993,再依据公式143\nta/2s22n=()=(1.993×2.2/0.5)=76.90≈77(人)d由n=76,得自由度n=76-1=75,用n=75查t界值表得t0.05/2,75=1.992,再依据公式ta/2s22n=()=(1.992×2.2/0.5)=76.82≈77(人)d因此认为,调查样本含量为77人。[评析]本题考点:调查总体均数的样本含量估计。ta/2s2在估计调查总体均数的样本含量时可用公式n=()采用迭代法求得,当然也可直接dua/2s2利用公式n=()求得。d四、习题(六)名词解释1.抽样调查2.简单随机抽样3.系统抽样4.分层抽样5.整群抽样6.概率抽样7.非概率抽样8.相对危险度9.病例对照研究10.队列研究(二)单项选择题1.在抽样调查中,理论上样本含量大小与()大小有关。A.样本极差B.样本变异系数C.样本方差D.样本四分位间距2.在计算简单随机抽样中估计总体均数所需样本例数n时,至少需要确定()。A.允许误差d,总体标准差s,第二类错误bB.第一类错误a,总体标准差s,总体均数mC.允许误差d,总体标准差s,第一类错误aD.允许误差d,总体标准差s,总体均数m3.拟用放射免疫法检测某人群(5000人)血液中流脑特异免疫球蛋白含量,根据文献报道,其标准差约为0.5mg/L,容许误差为0.1mg/L,则按单纯随机抽样,需抽出的样本例数为()人。A.97B.95C.96D.944.在抽样调查中,理论上样本含量大小会影响()。A.样本标准差的大小B.总体均数的稳定性C.样本标准差的稳定性D.样本中位数的大小5.S=S/n表示()抽样时均数的抽样误差。xA.整群B.系统C.分层D.简单随机6.我们工作中常采用的几种抽样方法中,最基本的方法为();144\n7.操作起来最方便的为();8.在相同条件下抽样误差最大的为();9.所得到的样本量最小的为()。A.简单随机抽样B.系统抽样C.整群抽样D.分层随机抽样10.调查用的问卷中,下面的四个问题中,()是较好的一个问题。A.你和你的妈妈认为女孩几岁结婚比较好____。B.如果只生1个孩子,你希望孩子的性别是:1.女;2.男;3.随便C.你1个月工资多少_____。D.你一个月吃盐____克。11.原计划调查1000名对象,由于种种非主观和非选择的原因,只调查到600名,这样的调查结果()。A.可能有偏性,因为失访者太多,可能这些失访有偏性B.不会有偏性,因为这种失访是自然的C.不会有偏性,因为这400名失访者不一定是某一种特征的人D.可能有偏性,因为600名对象不算多(三)简答题1.调查设计包含哪些内容?2.调查表或问卷的一般结构是什么?(四)计算题1.根据既往观察,人群接种某预防制剂后,体温高于37.5℃的反应率为10%。今欲推广使用,拟再次证实,要求容许误差在真实反应率的20%以内,a=0.05,问按简单随机抽样需观察多少人?2.拟用放射免疫法检测某人群血液中流行性脑脊髓膜炎特异免疫球蛋白含量,根据文献报告,其标准差约为0.5mg/L,容许误差为0.1mg/L,试按简单随机抽样估计样本例数。3.表14-3为英格兰和威尔士男性与移民男性发病率的比较,试用直接标准化和间接标准化两种方法分别计算标准化发病率。表14-3英格兰和威尔士男性与移民男性的发病率(1/10万)英格兰和威尔士移民年龄分组人口(千人)发病数发病率人口(千人)发病数发病率0~41900140674.0262180.85~1431001866.03026.715~449400178619.01272721.345~6449007350150.02542168.065~200017400870.0548960.0145\n合计2130028128132.121314065.74.欲检验缺铁性贫血是否是儿童智力损伤的危险因素,从“特殊”儿童日托中心选250名智力低下儿童,从正常学前教育中心选取同年龄250名儿童,测量了他们的血红蛋白等。结果见表14-4,试做OR分析。表14-4缺铁性贫血与儿童智力损伤关系的病例对照研究资料智力低下缺铁性贫血合计有无是110(a)25(b)135(m1)否140(c)225(d)365(m)0合计250(n1)500(n)250(n)0五、习题答案要点(一)名词解释1.抽样调查:抽样调查(samplingsurvey)是一种非全面调查,是从总体中抽取一定数量的观察单位组成样本,然后根据样本信息来推断总体特征。抽样调查是医学科研中最为常用的方法。2.简单随机抽样:所谓简单随机抽样(simplerandomsampling)是在某个总体中以完全随机的方法抽取一部分个体组成样本。一般,在抽样前,需要先对抽样总体中的全部个体进行编号,然后用抽签或随机数字表的方法抽取一部分个体。3.系统抽样:所谓系统抽样(systematicsampling)是指随机地在抽样框架内每间隔若干个个体抽取一个个体的抽样方法。在一般情况下,系统抽样的抽样误差是和简单随机抽样相仿甚至比简单随机抽样的抽样误差更小。系统抽样的抽样误差一般按简单随机抽样方法估计。4.分层抽样:所谓分层抽样(stratifiedsampling)是先按对观察指标影响较大的某种特征,将总体分为若干类别(统计上称之为“层”,strata),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。分层的原则是层间差别越大越好,层内差别越小越好。5.整群抽样:所谓整群抽样(clustersampling)是先将总体按照某种与研究指标无关的特征化分为K个群组,每个群包括若干观察单位,然后在随机抽取k个群,将抽取的各个群的全部观察单位组成样本。6.概率抽样:所谓概率抽样(probabilitysampling)就是在抽样中必须使该总体中的每一个个体都有已知的或可计算的和非零的概率被抽样抽中。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样和整群抽样。7.非概率抽样:所谓非概率抽样(non-probabilitysampling)是指各个个体被抽样抽中的146\n概率是未知的和无法计算的。然而,一些非概率抽样方法,尽管不能按常规的理论来计算抽样误差和推断总体,在特定条件下,还是有用的。8.相对危险度:相对危险度(relativerisk,RR)为暴露组发病(或死亡)率与非暴露组发病(或死亡)率之比,是队列研究中用于描述某因素与疾病发生之间的关联的主要统计学指标。9.病例对照研究:病例对照研究(casecontrolstudy)是一种“由果推因”的回顾性观察性研究,根据有无研究疾病或其它结局,将研究人群分为病例组和对照组,追溯过去某些暴露情况,比较两组暴露水平有无差异,从而得出结局与暴露有无关联的推断。10.队列研究:队列研究(cohortstudy)是一种“由因寻果”的纵向前瞻性观察研究。根据观察开始时有无暴露(exposure)史,研究者将没有出现研究疾病或其它结局(outcome)的研究人群分为暴露人群和非暴露人群,并随访观察一定时期,旨在比较两组人群的疾病“发病”率有无差异,从而得出暴露与结局有无关联的推断。(二)单项选择题1.C2.C3.C4.B5.D6.A7.B8.C9.D10.B11.A(三)简答题1.一个完整的调查设计应包括以下内容:确定明确的调查目的;确定调查对象和观察单位;确定调查方法;确定调查指标和变量;确定调查工具和设计调查表;确定样本含量;调查员的选择和培训;调查的组织计划;涉及伦理道德方面问题的处理。2.调查表或问卷的结构一般可划分为4个部分,分别为:“说明部分”、“填写说明”、“核查项目”、“调查项目”。“说明部分”主要说明调查目的,以取得调查对象的合作;“填写说明”是为了保证所有调查员和调查对象均能对调查项目及填写方法正确理解、统一认识而编写的;“核查项目”这一部分是与调查目的无关、不向调查对象询问的质量控制项目,如调查员姓名、调查日期、复核结果、未调查原因等;“调查项目”部分是调查对象填写的部分,是调查的核心内容。(四)计算题1.本题为调查总体率的样本含量估计。已知:p=0.1,d=0.2×p=0.2×0.1=0.02,双侧u0.05=1.962ua/2p(1-p)22n==1.96×0.1×0.9/(0.2×0.1)≈865(人)2d2.本题为调查总体均数的样本含量估计。已知:s=0.5,d=0.1,双侧u=1.960.05ta/2s2根据公式n=()计算样本含量,但在算得n之前,自由度n不能确定,t仍是0.05/2d未知的,解决的办法是先以u代替t,用迭代法求得n。0.05/20.05/2ua/2s22首先根据公式n=(),n=(1.96×0.5/0.1)=96.04≈96(人)d由n=96,得自由度n=96-1=95,用n=95查t界值表得t0.05/2,95=1.9854,再依据公式ta/2s22n=()=(1.9854×0.5/0.1)=98.55≈96(人)d147\n因此认为,调查样本含量为96人。3.用直接标准化计算标准化率见表14-5。表14-5直接标准化法计算移民男性的理论发病人数英格兰和威尔士移民年龄分组人口数发病率(1/10万)理论发病数0~4190000080.815355~1431000006.720815~44940000021.3200245~644900000168.0823265~2000000960.019200合计2130000031177åNipi31177p¢==´100000=146.4/10万N21300000用间接标准化计算标准化率见表14-6。表14-6间接标准化法计算移民男性的理论发病人数英格兰和威尔士移民年龄分组发病率(1/10万)人口数理论发病数0~474.02600019.25~146.0300001.815~4419.012700024.145~64150.02500037.565~870.0500043.5合计126.1r140p¢=P=132.1´=146.5/10万åniPi126.14.OR的计算110´225OR==7.0725´1402OR的Mantel-Haenszelc检验H:缺铁性贫血与儿童智力损伤无关联,即OR的总体参数等于1;0H:OR的总体参数不等于1;122(ad-bc)(n-1)cMH==73.17,n=1n1n0m1m0148\n273.17>c0.05,1=7.88,P<0.05,接受H。1故可认为缺铁性贫血与儿童智力损伤有关联。智力低下儿童患有缺铁性贫血的危险是正常同龄儿童的7倍。(颜虹姜建辉)149\n第十五章医学人口统计与疾病统计常用指标一、教学大纲要求(一)掌握内容1.医学人口统计常用统计指标的意义及用途(1)人口数与人口构成常用指标:人口总数、性别比、老年人口系数、少年儿童人口系数;(2)人口金字塔;(3)生育与计划生育常用指标:粗出生率、总生育率、终生生育率、总和生育率、自然增长率;(4)死亡统计常用指标:粗死亡率、年龄别死亡率、新生儿死亡率、婴儿死亡率、5岁以下儿童死亡率、标准化死亡率、死因别死亡率、死因顺位。2.疾病统计常用统计指标的意义及用途发病率、患病率、病死率、治愈率、生存率。(二)熟悉内容医学人口统计和疾病统计的其它指标。(三)了解内容医学人口统计和疾病统计的含义及其资料来源。二、教学内容精要(一)医学人口统计常用指标的意义及其用途1.人口数与人口构成常用指标(1)人口数:人口数(population)又称人口总数,一般指一个国家或地区某一特定时间点的人口数。通过一次人口普查,可得较好的人口数统计。根据我国的户籍登记,也可获得户籍人口数。在人口流动较多的情况下,还可按居住地来统计人口数。(2)性别比:以女性人口为100,计算男女性人口数之比,称为性别比或性比例。男性人数性别比=×100(15-1)女性人数(3)老年人口系数:指老年人口在总人口中所占的比重,是说明人口老龄程度的指标,可作为划分人口类型的尺度。65岁及以上人口数老年人口系数=×100%(15-2)人口总数(4)少年儿童人口系数:指少年儿童人口在总人口中所占的比重,是划分人口类型的指标之一。150\n14岁及以下人口数少年儿童人口系数=×100%(15-3)人口总数2.人口金字塔(1)人口金字塔:人口金字塔(pyramid)是一种用几何图形来形象的表示人口性别年龄构成的方法。将人口的性别、年龄分组数据,以年龄(或出生年份)为纵轴,以人口数或年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图,其型如金字塔,称为人口金字塔。人口金字塔更形象直观地反映了人口的年龄性别构成,便于说明和分析人口的现状、类型。(2)人口金字塔的类型:人口金字塔可分为三种类型:年轻型、成年型和年老型。它们的形状各不相同。年轻型:塔顶尖、塔底宽。成年型:塔顶、塔底宽度基本一致,在塔尖处才逐渐收缩。年老型:塔顶宽,塔底窄。从人口年龄结构对今后人口增长速度影响的角度,又可将人口金字塔分为增长型、静止型和缩减型,分别与年轻型、成年型和年老型相对应。3.生育与计划生育常用指标(1)粗出生率:粗出生率(crudebirthrate,CBR)又称出生率,指某地某年平均每千人口中的出生数(活产数),人口的出生率明显受人口的性别年龄结构的影响。其算式为:某年活产总数粗出生率=×1000‰(15-4)同年平均人口数(2)总生育率:总生育率(generalfertilityrate,GFR)又称生育率,指某地某年平均每千名育龄妇女的活产数,是测量人群生育水平的指标。其算式为:某年活产总数生育率=×1000‰(15-5)同年15~49岁妇女平均人口数(3)终生生育率:终生生育率(life-timefertilityrate,LTFR)说明一批经历过整个育龄期的妇女一生的生育水平。终生生育率由于观察时间很长,一般很难观察到。某批妇女生育的活产子女数终生生育率=×1000‰(15-6)经历过整个育龄期的该批妇女数(4)总和生育率:总和生育率(totalfertilityrate,TFR)假定一批妇女按某一套年龄别生育率计算,平均在整个育龄期会有几个活产。该指标反映的是调查年时间横断面上的生育水平。因其消除了年龄构成不同对生育水平的影响,故不同地区、不同年度的总和生育率可以直接比较,因而应用较广,是较好的测量生育水平的指标。总和生育率=S()年龄组组距´各年龄组生育率(15-7)(5)自然增长率:自然增长率(naturalincreaserate,NIR)为粗出生率与粗死亡率之差,是测量人口再生育的指标。易受人口性别、年龄的影响,只能粗略的估计人口的一般增长趋势,不能用来估计未来人口的发展速度。人口自然增长率=粗出生率―粗死亡率(15-8)4.死亡统计常用指标151\n(1)粗死亡率:粗死亡率(crudedeathrate,CDR)又称死亡率(deathrate),是某时期(一般是1年)死亡总数除以该时期的平均人口数或期中人口数所得的商。如果用一年的资料计算年死亡率,分子是一年内的死亡数,分母就是该年的平均人口数或年中人口数。粗死亡率说明人群中总的死亡水平,易受人口性别、年龄的影响。某年死亡数粗死亡率=×1000‰(15-9)同年平均人口数(2)年龄别死亡率:年龄别死亡率(age-specificdeathrate,ASDR)指某年某年龄别平均每千人口中的死亡数。某年某年龄组死亡人数年龄别死亡率=×1000‰(15-10)同年该年龄组平均人口数(3)标准化死亡率:一群人的死亡率高低受该人群年龄构成的影响,所以不同人群或同一人群不同时间的死亡率比较时,应该考虑用某种方法消除年龄构成的影响。标准化死亡率(standardizedmortalityrate,SMR)就是这样的一个指标。直接法计算的标准化死亡率,就是用同一套标准的年龄构成比与各自的年龄组死亡率乘积的总和。(4)婴儿死亡率:婴儿死亡率(infantmortalityrate,IMR)指某地某年不满一周岁婴儿的死亡数与同期活产总数的比值。婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指标,也是死亡统计指标中较为敏感的指标。某年不满周岁婴儿死亡数婴儿死亡率=×1000‰(15-11)同期活产数(5)新生儿死亡率:新生儿死亡率(neonatalmortalityrate,NMR)指某地某年未满28天的新生儿的死亡数与同期活产总数的比值。与婴儿死亡率同样是反映妇幼卫生工作的重要指标。新生儿死亡数在婴儿死亡数中占很大的比重(约占50%),因此,降低新生儿死亡率是降低婴儿死亡率的关键。但是,新生儿死亡漏报现象非常严重。在我国,有的边远地区新生儿死亡漏报率高达100%。新生儿死亡漏报直接影响到该指标的准确性。某年不满28天新生儿死亡数新生儿死亡率=×1000‰(15-12)同期活产数(6)5岁以下儿童死亡率由于儿童死亡率比较高,且不易获得完整的统计资料,在卫生事业不发达或统计制度不健全的国家和地区,婴儿和新生儿死亡数往往有漏报。故也常用5岁以下儿童死亡率来反映婴幼儿的死亡水平。某年不满5岁儿童死亡数5岁以下儿童死亡率=×1000‰(15-13)同年活产数(7)死因别死亡率:死因别死亡率(cause-specificdeathrate,CSDR)指因某种原因(疾病)所致的死亡率,是死因分析的重要指标,反映各类病伤死亡对居民生命的危害程152\n度。某年内某种原因的死亡人数某死因死亡率=×100000/10万(15-14)同年平均人口数(8)死因顺位:指按各类死因构成比的大小或死因别死亡率的高低顺序,由高到低排列的位次,说明各类死因的相对重要性。死因顺位可以反映各种死因所致死亡的相对重要性。(二)疾病统计常用统计指标1.发病率:发病率(incidencerate)表示在观察期内,可能发生某种疾病的一定人群中新发该病的频率。观察期内新发生某病的例数某病发病率=×1000‰(15-15)同期平均人口数2.患病率:一般所说的患病率(prevalencerate),又称现患率,指时点患病率(pointprevalencerate),是某一时间横断面上某病患者数占受检人数的比例,它是一种静态指标,虽然名称是率,但它的性质是比例。通常用于描述病程较长的慢性病或发病时间不易明确的疾病的患病情况。现患人数患病率=×1000‰(15-16)受检人数在某些场合,也使用时期患病率(periodprevalencerate),时期患病率的分子实际上是该时期起始点的患病例数与整个时期的新病例数之和,分母是同期平均人口数。3.某病病死率:某病病死率(fatalityrate)表示在规定的观察期内,某病患者中因该病而死亡的频率。观察期内因某病死亡的人数某病病死率=×1000‰(15-17)同期该病患者数4.某病死亡率:某病死亡率(mortalityrate)表示在规定的观察期内,人群中因某病而死亡的频率。它可以反映不同地区或年代某种疾病的死亡水平。观察期内因某病死亡的人数某病死亡率=×1000‰(15-18)同期平均人口数5.治愈率:治愈率(curerate)指受治病人中治愈的频率。主要适用于一些急性病的疗效统计。治愈人数治愈率=×100%(15-19)受治人数6.生存率:生存率(survivalrate)是指观察对象能存活到某一时点的概率。常用的是一年生存率、五年生存率和十年生存率等。临床上,一些慢性病的病人经过某种治疗后的治疗效果,常用n年生存率来表示。对恶性肿瘤等疾病,难说“治愈”,用n年生存率来表示治疗效果或凶险程度是比较合适的。活满n年的例数n年生存率=×100%(15-20)观察例数153\n生存率一般要用寿命表法(即Kaplan-Meier法)计算。不宜按照对上述公式的直观理解,用“直接法”进行计算。(三)医学人口统计的含义及其资料来源1.医学人口统计:是应用人口统计学的理论与方法,从人类健康和卫生保健的角度研究人口的数量、结构、变动及其与卫生事业发展的相互关系,是人口统计学在居民健康和卫生保健领域中的应用,是卫生统计学的重要组成部分。2.资料来源:主要来源于人口统计收集的资料,有以下几个方面:(1)人口普查;(2)人口抽样调查;(3)人口登记,包括生命事件登记(出生、死亡、胎儿死亡、结婚、离婚、收养、生育、认领、离弃等)、人口迁移变动登记和户口登记。(四)疾病统计的意义及其资料来源4.疾病统计:是居民健康统计的重要内容之一,它的任务是研究疾病在人群中发生、发展及其流行的规律,为病因学研究、疾病防治和评价疾病防治效果提供科学依据。5.资料来源:主要来源于以下三个方面:(1)疾病报告和报表资料;(2)医疗卫生工作记录;(3)疾病调查资料。三、典型试题分析(一)名词解释婴儿死亡率。答案:婴儿死亡率(infantmortalityrate,IMR)指某地某年不满一周岁婴儿的死亡数与同年活产总数的比值。婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指标,也是死亡统计指标中较为敏感的指标。其计算式为:某年不满周岁婴儿死亡数婴儿死亡率=×1000‰同年活产总数婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指标,也是死亡统计指标中较为敏感的指标。[评析]本题考点:婴儿死亡率概念的理解。(二)单项选择题1.在死因统计分析中,死因顺位是按()的高低顺序,由高到低排列的位次。A.发病率B.死因百分构成比或死因别死亡率C.死因别病死率D.患病率答案:B。[评析]本题考点:对死因顺位含义的理解。死因顺位是指按各类死因构成比的大小或死因别死亡率的高低顺序,由高到低排列的位次。死因顺位可以反映各种死因所致死亡的相对重要性。154\n2.反映疾病发生频度的指标有()。A.患病率、感染率B.发病率、病死率C.感染率、发病率D.发病率、患病率答案:D。[评析]本题考点:反映疾病发生频度的指标。发病率与患病率同为疾病发生频度的指标。发病率表示一定时期内,在特定人群中新发生的某病病例数,反映某病新发病例的发生频度。患病率是指某时点上受检人数中现患某种疾病的人数,通常用于描述病程较长的慢性病或发病时间不易明确的疾病的患病情况。3.总和生育率是指()。A.一批妇女一生平均生育的子女数B.一批妇女按某年的年龄别生育水平计算,一生平均生育的子女数C.一批妇女某年的平均活产数D.某年龄段的育龄妇女某年的平均活产数答案:B。[评析]本题考点:总和生育率概念的理解。总和生育率(totalfertilityrate,TFR):假定一批妇女按某一套年龄别生育率计算,平均在整个育龄期会有几个活产。计算公式为:总和生育率=å()年龄组组距´各年龄组生育率该指标反映的是调查年时间横断面上的生育水平。因其消除了年龄构成不同对生育水平的影响,故不同地区、不同年度的总和生育率可以直接比较,因而应用较广,是较好的测量生育水平的指标。4.人口金字塔可以用来反映()。A.人口出生情况B.人口死亡情况C.人口的年龄性别构成情况D.人口迁入迁出情况答案:C。[评析]本题考点:人口金字塔的意义及用途。人口金字塔是将人口的性别、年龄分组数据,以年龄(或出生年份)为纵轴,以人口数或年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图,其型如金字塔,故称为人口金字塔。人口金字塔更形象直观的反映了人口的年龄性别构成,便于说明和分析人口的现状和类型。5.老年人口比重增大,可使()。A.粗死亡率增高B.粗死亡率下降C.婴儿死亡率下降D.出生率迅速下降答案:A。[评析]本题考点:粗死亡率的概念及其影响因素。粗死亡率又称死亡率,是某时期(一般是1年)死亡总数除以该时期的平均人口数或期中人口数所得的商。如果用一年的资料计算年死亡率,分子是一年内的死亡数,分母就是该年的平均人口数或年中人口数。粗死亡率说明人群中总的死亡水平,易受人口性别、年龄的影响。一般情况下,老人和婴儿的死亡率较高,男性死亡率高于女性。计算公式为:155\n某年死亡人数粗死亡率=×1000‰同年平均人口数(三)简答题何谓人口老龄化?请简述其影响因素。答案:人口老龄化是指老年人口在人口中所占的比重升高的现象。在没有迁移的情况下,人口老龄化的进程主要受生育率和死亡率两种因素的影响。死亡率(主要是中老年人口的死亡率)降低,使寿命延长,老年人口比重增加。生育率下降,使低年龄人口的比重降低,高年龄人口的比重相应增加。一般来说,人口老龄化的速度和程度主要取决于生育率的下降速度。当生育率水平下降达到很低的水平且很难再有较大程度的降低时,中老年人口死亡率的降低对人口老龄化的影响才比较明显。(四)计算题表15-1是某地区的人口学调查资料,请就此资料作如下分析:1.计算全人口的性别比;2.计算育龄期妇女(15-49岁)占总人口的百分比;6.计算负担系数;7.计算老龄人口的比重。表15-1某地男、女性人口占总人口的百分比年龄组(岁)男女年龄组(岁)男女0~4.24.045~2.42.75~3.23.150~2.12.410~4.44.255~1.22.215~5.55.360~1.32.420~5.15.265~1.11.425~6.06.170~0.81.230~4.34.575~0.50.935~3.23.380~0.20.540~2.32.585~0.10.2解:1.计算全人口的性别比男性人口数全人口的性别比=×100女性人口数男性人口占全人口的百分比=×100女性人口占全人口的百分比=49.9/52.1×100=91.942.计算育龄妇女占总人口的百分比156\n育龄期妇女人数育龄妇女占总人口的百分比=×100%总人口数=(5.3+5.2+6.1+4.5+3.3+2.5+2.7)×100%=29.6%3.计算负担系数负担系数又称抚养比和抚养系数,是指人口中非劳动年龄人数与劳动年龄人数之比。14岁及以下人口数+65岁及以上人口数总负担系数=×100%15~64岁人口数=30.0/70.0×100%=42.86%4.计算老年人口系数65岁及以上人口数老年人口系数=×100%人口总数65岁及以上各年龄组人口百分比之和老年人口系数==6.9%100[评析]本题考点:人口调查资料的统计分析。人口普查或抽样调查获得的人口资料分析,往往是从人口的基本特征、人口年龄构成、性别比及人口金字塔等诸方面进行描述,计算其相应的统计指标,以反映人口的数量、结构及变动情况。四、习题(七)名词解释1.老年人口系数2.负担系数3.人口金字塔4.出生率5.总和生育率6.标准化死亡率7.计划生育率8.死因别死亡率9.孕产妇死亡率10.生存率(八)单项选择题1.出生率下降,可使()。A.婴儿死亡率下降B.老年人口比重增加C.总死亡数增加D.老年人口数下降2.计算某年婴儿死亡率的分母为()。A.年活产总数B.年初0岁组人口数C.年中0岁组人口数D.年末0岁组人口数3.自然增长率是估计一般人口增长趋势的指标,它的计算是()。A.出生数—死亡数B.粗出生率—粗死亡率C.标化出生率—标化死亡率D.年末人数—年初人数4.计算某年围产儿死亡率的分母是()。A.同年妊娠28周以上的妇女数B.同年妊娠28周以上出生的活产数C.同年死胎数+死产数+活产数157\nD.同年出生后7天内的新生儿数5.终生生育率是指()。A.一批经历过整个育龄期的妇女一生平均生育的子女数B.一批妇女按某时的生育水平,一生可能生育子女数C.一批经历过整个育龄期的妇女某年的平均活产数D.某年龄段的妇女某年的平均活产数6.年龄别生育率是指()。A.每1000名妇女一生平均生育的子女数B.每1000名妇女按某时的生育水平,一生可能生育子女数C.每1000名妇女某年的平均活产数D.每1000名某年龄段的育龄妇女某年的活产数7.婴儿死亡率是指()。A.0岁死亡率B.活产婴儿在生活一年内的死亡概率C.某年不满1岁婴儿死亡数与同年活产总数之比D.某年不满1岁婴儿死亡数与同年婴儿总数之比8.某病病死率和某病死亡率均为反映疾病严重程度的指标,两者的关系为()。A.病死率高,死亡率一定高B.病死率高,死亡率不一定高C.青年人口中,病死率高,死亡率也高D.女性人口中,病死率高,死亡率也高9.总和生育率下降,可使老年人口百分比()。A.上升B.下降C.毫无关系D.以上答案均不对10.观察某种疫苗的预防效果,若第一季度初接种了400人,第二季度初接种了300人,第三季度初接种了100人,第四季度初接种了200人,到年终总结,这1000人中发病者20人,计算发病率的分母应该是()。A.1000人B.(400+200)/2人C.(400+300+100+200)/4人D.400+300×3/4+100×1/2+200×1/4人11.随访观察某种慢性病1000人的治疗结果,第一年死了100人,第二年死了180人,第三年死了144人,则该慢性病的3年生存率的算法为()。A.(0.9+0.8+0.8)/3B.1–0.10×0.20×0.20)C.1–0.10–0.20–0.20D.0.90×0.80×0.8012.老年人口一般是指()。A.50岁及以上的人口B.55岁及以上的人口C.60岁及以上的人口D.65岁及以上的人口(三)简答题1.发病率、时点患病率、时期患病率的区别。2.疾病统计的观察单位“病人”和“病例”的区别。3.病死率和死亡率的区别。158\n五、习题答题要点(一)名词解释1.老年人口系数:老年人口系数指老年人口在总人口中所占的比重,是说明人口老年化程度的指标,可作为划分人口类型的尺度。一般把65岁及以上的人口称为老年人口,而发展中国家倾向于以60岁作为老年年龄界限。老年人口系数的算式为:65岁及以上的人口数老年人口系数=×100%人口总数2.负担系数:负担系数又称抚养比或抚养系数,是指人口中非劳动年龄人数与劳动年龄人数之比。一般以14~64岁为劳动年龄,14岁及以下和65岁及以上为非劳动年龄或抚养年龄。负担系数包括三个指标:总负担系数、少年儿童负担系数和老年负担系数。各国由于人口年龄构成不同,负担系数也有所不同。3.人口金字塔:将人口的性别、年龄分组数据,以年龄(或出生年份)为纵轴,以人口数或年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图,其型如金字塔,称为人口金字塔(pyramid)。人口金字塔更形象直观的反映了人口的性别年龄构成,便于说明和分析人口的现状和类型。4.出生率:出生率(birthrate,BR)又称粗出生率,指某地某年平均每千人口中的出生数(活产数),人口的出生率明显受人口的性别、年龄结构和婚姻状况的影响,因此,它只能粗略的反应生育水平。其算式为:某年活产总数出生率=×1000‰同年平均人口数5.总和生育率:总和生育率(totalfertilityrate,TFR)假定一批妇女按某一套年龄别生育率计算,平均在整个育龄期会有几个活产。该指标反映的是调查年时间横断面上的生育水平。因其消除了年龄构成不同对生育水平的影响,故不同地区、不同年度的总和生育率可以直接比较,因而应用较广,是较好的测量生育水平的指标。总和生育率=å(年龄组组距×各年龄组生育率)6.标准化死亡率:一群人的死亡率高低受该人群年龄构成的影响,所以不同人群或同一人群不同时间的死亡率比较时,应该考虑用某种方法消除年龄构成的影响。标准化死亡率(standardizedmortalityrate,SMR)就是这样的一个指标。直接法计算的标准化死亡率,就是用同一套标准的年龄构成比与各自的年龄组死亡率乘积的总和。7.计划生育率:计划生育率是指每1000名活产中符合计划生育要求者的例数。他综合说明计划生育的质量,可与反映计划生育工作的其他指标联合,用于评价计划生育工作。某年符合计划生育的活产数计划生育率=×100%同年活产总数159\n8.死因别死亡率:死因别死亡率(cause-specificdeathrate)指因某种原因(疾病)所致的死亡率。其算式为:某年某死因死亡人数某死因死亡率=×100000/10万同年平均人口数死因别死亡率是死因分析的重要指标,它反映各类病伤死亡对居民生命健康的危害程度。9.孕产妇死亡率:孕产妇死亡率(maternalmortalityrate)指某年中由于怀孕和分娩及其并发症造成的孕产妇死亡人数与同年活产数之比,以万分率或十万分率表示,其算式为:某年孕产妇死亡人数孕产妇死亡率=×100000/10万同年活产总数孕产妇死亡率不仅可以评价妇女保健工作,而且间接反映一个国家的卫生文化水平。10.生存率:生存率(survivalrate)是指观察对象能存活到某一时点的概率。常用的是一年生存率、五年生存率和十年生存率等。临床上,一些慢性病的病人经过某种治疗后的治疗效果,常用n年生存率来表示。对恶性肿瘤等疾病,难说“治愈”,用n年生存率来表示治疗效果或凶险程度是比较合适的。活满n年的例数n年生存率=×100%观察例数生存率一般要用寿命表法(即Kaplan-Meier法)计算。不宜按照对上述公式的直观理解,用“直接法”进行计算。(二)单项选择题1.B2.A3.B4.C5.A6.D7.C8.B9.A10.D11.D12.D(三)简答题1.发病率、时点患病率、时期患病率的区别。(1)发病率是指观察期内,可能发生某病的人群中新发病例的频率,其观察期多为年、月、日等,急性常见病多计算发病率。(2)时点患病率反映在检查或调查时点一定人群中某病的现患情况(包括该病的新旧病例数)。观察时点在理论上是无长度的,但实际上观察时间不宜过长,一般不超过个月。(3)时期患病率反映在观察期间一定人群中存在或流行某病的频度,包括观察期间的新发病例和现患病例数,常为慢性病的统计指标,但收集资料很困难。2.疾病统计的观察单位“病人”和“病例”的区别。(1)一个人每次患病都可作为一个病例。以病例为单位的疾病统计,可研究居民各种疾病的频度、疾病的种类及疾病的变动,以获得居民患病的基本规律。(2)病人是指一个有病的人。在观察期间内,观察对象患有疾病即算作一个病人,不管其患病的种类及患病次数的多少。以病人为单位的疾病统计,在一定程度上反映居民的患病频度,可找出具体的患病人群,便于开展对病人个人的防治工作。3.病死率和死亡率的区别。(1)某病病死率表示在规定的观察期内,某病患者中因该病而死亡的频率。它是反160\n映疾病的严重程度的指标。在用病死率进行比较时应注意内部构成不同的影响。计算公式为:观察期内因某病死亡的人数某病病死率=×1000‰同期该病患者数(2)某病死亡率表示在规定的观察期内,人群中因某病而死亡的频率。它可以反映不同地区或年代某种疾病的死亡水平。计算公式为:观察期内因某病死亡的人数某病死亡率=×1000‰同期平均人口数(詹绍康王霞)161\n第十六章寿命表一、教学大纲要求(一)掌握内容1.寿命表的概念。2.寿命表的分类:现时寿命表、定群寿命表;完全寿命表、简略寿命表等。3.寿命中的各项指标:年龄、年龄组死亡概率、尚存人数与死亡人数、生存人年数、平均预期寿命。4.寿命表的编制:简略寿命表的编制、去死因寿命表的编制。5.寿命表的分析:寿命表的指标分析;寿命表的应用。(二)熟悉内容全死因寿命表、定群寿命表的编制方法。(三)了解内容寿命表在生存及死亡分析中的应用。二、教学内容精要(一)寿命表的概念寿命表(lifetable)是根据特定人群的年龄组死亡率编制出来的一种统计表。寿命表的指标可以用来评价居民的健康状况。寿命表的编制需要完整的人口资料与死亡资料。寿命表的分类:现时寿命表(currentlifetable)和定群寿命表(cohortlifetable)。现时寿命表是指从一个断面看问题,假定有同时出生的一代人,按照某种人群现时人口实际年龄组死亡率陆续死去,计算出这一代人按年龄的一系列指标。依据年龄分组不同,现时寿命表可分为完全寿命表(年龄分组的组距是1岁)和简略寿命表(年龄分组的组距一般是5岁)。其中简略寿命表更常用。定群寿命表是指对某特定的人群中的每一个人,从进入该特定人群直到最后一个人死亡,记录的实际死亡过程。因为人的生命周期很长,这种方法实现起来难度很大,因此一般来说应用于涉及事物寿命现象的问题,不一定是人群从出生到死亡的过程。(二)寿命表的编制原理与方法1.年龄寿命表中的年龄是指“刚满年龄”(exactage)2.年龄组死亡概率(agespecificprobabilityofdying)是指X岁尚存者在今后一年或n年内死亡的可能性。它和年龄组死亡率不是一个概念。在编制寿命表时,这是一个很关键的指标。dXndXqX=或nqX=(16-1)lXlX其中q表示X岁尚存者在今后一年内的死亡概率;q表示X岁尚存者在今后n年的死XnX162\n亡概率;d表示寿命表死亡人数;d表示在X~(X+n)岁期间的寿命表死亡人数。XnX3.尚存人数与死亡人数(numberofsurvivalperson-years)尚存人数l表示同时出生X的一代人中活满X岁的人数。尚存人数l,死亡人数d(d)及死亡概率q(q)关系如下:XXnXXnXd=l×q或d=l×q(16-2)XXXnXXnXl=l-d或l=l-d(16-3)X+1XXX+nXnX4.生存人年数(numberofsurvivalperson-years)及生存总人年数(totalnumberofsurvivalperson-years)X岁尚存者在今后一年(n年)内的生存人年数L(L),即l曲线下,X~XnXX(X+n)间的面积。这个面积近似梯形面积。但婴儿组的人年数及最后一组的人年数用下面公式计算:婴儿组L=l+a´d(16-4)0100其中a是指0岁组死亡者的平均存活年数。0lw最后一个年龄组Lw=(16-5)mw其中L是最后一个年龄组的生存人年数;l是指尚存人数;m是指死亡统计中的最后一组www死亡率。5.平均预期寿命(lifeexpectancy)表示X岁尚存者预期平均尚能存活的人年数。Te=x(16-6)xlx(三)简略寿命表简略寿命表(abridgedlifetable)一般以日历年度的人口资料为依据,统计数字的准确与否,直接影响寿命表指标的准确性与可靠性,因此必须要求准确的数据资料。简略寿命表习惯上组距是5岁,但零岁作为一个独立的组。由于简略寿命表年龄分组少,每个年龄组人口数较多,年龄组死亡率较稳定,卫生统计中比较常用。(四)去死因寿命表去死因寿命表(causeeliminatedlifetable)是用来分析某种疾病或某类疾病对平均预期寿命等指标的影响,可以综合说明某类死因对人群生命的影响程度,它不受人口年龄结构的影响,而且它既能说明某类死因对全人口的综合作用,又能表达对某年龄组人口的作用。去死因寿命表的编制方法去死因寿命表中各项指标的意义与全死因寿命表相同。编制-i-i去某死因寿命表的关键是求去某死因后各年龄组生存率(p),有了p,就可以仿照nXnX编制全死因寿命表的方法,编制去某死因寿命表,其中rx-ip-i=()pn(16-7)nXnX(五)寿命表的分析与应用1.寿命表的分析寿命的各项指标lX、ndX、nqX、eX都用来评价居民的健康水平。其中最主要的指标是平均预期寿命。寿命表尚存人数:反映在一定年龄组死亡率基础上,一代人口的生存过程,一般用线图表示。尚存人数随年龄增加而减少。寿命表死亡人数:反映在一定年龄组死亡基础上,一代人口的死亡过程。一般用直方图表示。横坐标为年龄,纵坐标为死亡人数。163\n寿命表死亡概率:取决于各年龄组死亡率,一般用半对数线图表示。预期寿命:预期寿命是评价居民健康状况的主要指标。一般用线图表示。2.寿命表的应用寿命表主要应用于:(1)评价国家或地区居民健康水平。(2)利用寿命表研究人口再生产情况。(3)利用寿命表指标进行人口预测。(4)利用寿命表方法研究人群的生育、发育及疾病的发展规律。三、典型试题分析(一)名词解释平均预期寿命。平均预期寿命(lifeexpectancy):寿命表平均预期寿命是指X岁尚存者预期平均尚能存活的年数。平均预期寿命是评价居民健康状况的主要指标。刚满X岁者的平均预期寿命受X岁以后各年龄组死亡率的综合影响。(二)单项选择题某地某年女性简略寿命表中0岁组的预期寿命是65.5岁,则1岁组的预期寿命为()。G.等于65.5岁H.小于65.5岁I.大于65.5岁D.不一定答案:D[评析]本题考点:0岁组的预期寿命与1岁组预期寿命的关系。0岁组的预期寿命简称平均寿命,它是各年龄组死亡率的综合反映,任何一个年龄组的死亡水平发生变化,都会引起平均寿命的改变,但婴儿死亡率对平均寿命的影响更为明显。一般来说,随着年龄的增长,预期寿命应逐渐下降,0岁组的预期寿命应高于1岁组预期寿命,但是当婴儿死亡率较高时,就会出现0岁组的预期寿命应低于1岁组预期寿命的现象。四、习题(十六)名词解释1.寿命表2.现时寿命表3.完全寿命表4.简略寿命表5.定群寿命表6.年龄组死亡概率7.尚存人数(十七)单项选择题1.在寿命表中,若X岁到X+1岁的死亡概率为1qx,X+1到X+2的死亡概率1qx+1,则X到X+2的死亡概率为()。A.1qx×1qx+1B.1-1qx×1qx+1C.(1-1qx)×(1-1qx+1)D.1-(1-1qx)×(1-1qx+1)2.卫生统计学中目前常用的计算某年婴儿死亡率的分母是()。164\nA.年初0岁组人口数B.年中0岁组人口数C.年末0岁组人口数D.年出生数(十八)简答题1.年龄组死亡率与寿命表死亡概率有什么区别和联系?2.平均寿命与平均死亡年龄的区别?3.简略说明寿命表中的m85(+)与e85的关系。(四)计算题1.下表为某市1998年男性居民的按年龄分组的生存资料,试编制简略寿命表。表16-1某市1998年男性居民的按年龄分组的生存资料年龄组(岁)平均人口数实际死亡人数年龄组(岁)平均人口数实际死亡人数0~1875324640~568061341~543256045~658632395~640634650~5424334610~946836455~4335552815~1143329060~3200476320~12694112365~2444597225~11893012770~1281889730~9192210475~581364735~622909280~2685517注:a0=0.145五、习题答题要点(十七)名词解释1.寿命表:寿命表(lifetable)亦称生命表,是根据特定人群的年龄组死亡率编制出来的一种统计表。寿命表中各项指标不受人口年龄构成的影响,不同人群的寿命表指标具有良好的可比性。2.现时寿命表:现时寿命表(currentlifetable)指从一个断面看问题,假定有同时出生的一代人,按照某种人群现时人口实际年龄组死亡率陆续死去,计算出这一代人按年龄的一系列指标。3.完全寿命表:在编制寿命表时,如果年龄分组的组距是一岁,则称为完全寿命表(completelifetable),编制完全寿命表时观察人数要足够多。4.简略寿命表:如果年龄分组的组距不是一岁时,刚称为简略寿命表(abridgedlifetable),简略寿命表的组距一般是5岁,但零岁作为一个独立组。5.定群寿命表:定群寿命表(cohortlifetable)亦称队列寿命表,它是对某特定的人群中的每一个人,从进入该特定人群直到最后一个人死亡,记录的实际死亡过程。6.年龄组死亡概率:年龄组死亡概率(agespecificprobabilityofdying)是指X岁尚存者在今后一年或n年内死亡的可能性。它和年龄组死亡率不是一个概念。165\n7.尚存人数:寿命表尚存人数(numberofsurvivors)是指同时出生的一代人中活满X岁的人数。(二)单项选择题1.D2.D(三)简答题1.二者的区别:年龄组死亡率是说明某年龄组人口在一年内实际的死亡水平,是根据各年龄组的平均人口数及相应的死亡数计算出来的,m=D/p。而寿命表中的死亡概nXnXnX率是按某特定人群的年龄别死亡水平,在同时出生的一代人中,X岁尚存者在今后n年内死亡的可能性。二者的联系:当年龄组分得较细时,两指标呈下列函数关系:nqX=(2nnmX)/(2+nnmX)或q=m/[1+(1-a)m]XXXX其中a为X~X+1岁间死亡者的平均存活年数。0~岁组死亡概率也可以用婴儿死亡率X或校正婴儿死亡率来代替。2.平均年龄是指死者死亡时年龄的算术均数,它取决于年龄别人口构成,两地的平均死亡年龄不能直接进行比较。平均寿命是指0岁组预期寿命,是同时出生的一代人按照某年某地的年龄别死亡率水平死亡可预期生存年数。它是各年龄组死亡率的综合反映,不受人口年龄构成的影响,可直接进行比较。3.在简略寿命表中,m85(+)表示85岁及以上组的年龄组死亡率,即85岁及以上组人口在一年内的平均死亡率,它是根据各年龄组的平均人口数计算出来的。而e是指85岁的预期85寿命。表示85岁尚存者预期平均尚能存活的年数(即岁数)。(四)计算题1.解:nDX(1)求年龄组死亡率(nmX=),计算结果列入表16-2第四栏。nPX(2)求死亡概率q。计算结果列入第五栏。nX246其中q用婴儿组死亡率代q==0.0131180018753最后一个组死亡概率为1.000000。(3)尚存人数lX与死亡人数ndX。首先给定l0=100000,再按前面的计算公式16-2及公式16-3交替计算。结果列入第六栏和第七栏。d=lq=100000´0.013118=1311000l=l-d=100000-1311=98689100d1=l1q1=98689´0.004406=434l=l-d=98689-434=98255211(4)求生存人年数L,结果列入第八栏。nX本例a=0.1450L=l+a´d=98698+0.1450´1311=988790100l8024212L80(+)===125743m0.19255180(+)166\n(5)求生存总人年数TX=ånLX。列入第九栏。对L自下而上进行累加nXT80=L80(+)=125743T=L+T=293473757580TX(6)求预期寿命(eX=)。结果列入第十栏。lXT06994553e0===69.95l0100000T68956741e===69.871l986891至此,寿命表编制完成,见表16-2。表16-21998年某市男性居民简略寿命表平均人实际死年龄组死亡死亡生存年龄组尚存生存总平均预口数亡人数死亡率概率人数人年数(岁)人数人年数期寿命X~nPXnDXnmXnqXlXndXnLXTXeX(1)(6)(9)(10)(2)(3)(4)(5)(7)(8)0~187532460.0131180.013118100000131298878699455369.951~54325600.0011040.00440698689434393888689567469.875~64063460.0007180.00358498255352490395650178666.1710~94683640.0006760.00337497903330488690601139161.4015~114332900.0007870.00392897573383486907552270156.6020~1269411230.0009690.00483397190469484777503579451.8125~1189301270.0010680.00532596721515482317455101747.0530~919221040.0011310.00564196206542479675406870042.2935~62290920.0014770.00735895664703476562358902537.5240~568061340.0023590.011725949611113472022311246332.7845~658632390.0036290.017981938481687465022264044128.1450~542433460.0063790.031393921612893453572217541923.6055~433555280.0121790.059093892685275433152172184719.2960~320047630.0238410.112499839939449396342128869515.3465~244459720.0397630.180837745441348033902089235311.9770~128188970.0699800.29779961064181842598605533339.0675~58136470.1113020.43536842880186681677302934736.8480~26855170.1925511.00000024212242121257431257435.19(王仁安张玉海)167\n第十七章随访资料的生存分析一、教学大纲要求(一)掌握内容1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。2.估计生存率的方法:Kaplan-Meier法、寿命表法。(二)熟悉内容1.生存曲线、半数生存期。2.生存资料的基本要求。3.两生存曲线的比较的对数秩检验。(三)了解内容Cox回归模型。二、教学内容精要(一)生存分析中的基本概念1.生存时间(survialtime)指观察到的存活时间,如表11-1中t分别为360,990,1400,1800天。生存时间有两种类型:(1)完全数据(completedata)指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。(2)截尾数据(censoreddata)由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。从起点至截尾所经历的时间,称为截+尾数据,如表11-1中1400天,习惯上记为1400天。表11-14例鼻咽癌随访记录性别结局患者序号处理组号开始日期终止日期存活天数(男=1)(死=1)10111/29/8011/04/85136021106/13/8206/08/831990+31003/02/8312/31/860140040008/04/8304/10/86118002.死亡概率与生存概率(1)死亡概率(mortalityprobability)指死于某时段内的可能性大小,记为q。年死亡概某年内死亡数率的计算公式为q=,若年内有截尾,则分母用校正人口数(校正人口数=年某年年初观察例数168\n1初人口数-截尾例数)。2这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。(2)生存概率(survivalprobability)与死亡概率相对应,记为p,表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小。年生存概率的计算公式为某年活满一年人数p=1-q=,若年内有截尾,也要用校正人口数。某年年初人口数(二)生存率的Kaplan-Meier法与寿命表法估计1.生存率(1)生存率(survivalrate)指病人经历t个单位时间后仍存活的概率,记为S(t)。若kk无截尾数据,则tk时刻仍存活的例数S(t)=P(T³t)=(11-1)kk观察总例数其中T为病人的存活时间。如果含有截尾数据,分母就必须分时段校正,故此式一般不能直接应用。(2)生存率估计的概率乘法原理假定病人在各个时段生存的事件独立,生存概率为p1,p2,L,pk,则应用概率乘法得生存率估计的应用公式为S(t)=P(T³t)=ppLp(11-2)kk12k若式中p,p,L,p用校正人数估计,便可处理截尾数据。12k生存概率与生存率在意义上差别很大,前者是单个时段的概率,后者是从0至t多个时段k的累积结果。(3)生存曲线(survivalcurve)指将各个时点的生存率连接在一起的曲线图。(4)半数生存期(mediansurvivaltime)表示恰好有50%的个体可活这么长时间。2.生存率的估计方法(1)乘积极限法(product-limitmethod)直接用概率乘法原理估计生存率(不分组),由Kaplan-Meier于1958年提出,因而又称Kaplan-Meier法。这是一种非参数法,主要用于小样本,也适用于大样本。其生存曲线是左连续的阶梯形曲线。(2)寿命表法(life-tablemethod)当样本例数足够多时,乘积极限法可按时间分组计算,这就是寿命表法,实际上是乘积极限法的一种近似。其生存曲线呈折线形。(三)两样本生存曲线的比较——对数秩检验对数秩检验(log-ranktest)用于两样本生存曲线的比较,其零假设为两总体生存曲线相同,基本思想是如果零假设成立,根据不同日期两种处理的期初人数和死亡人数,计算各种处理在各个时期的理论死亡数。若零假设成立,则实际死亡数与理论死亡数不会相差太大,否则应认为零假设不可能成立,两条生存率曲线差异有统计学意义。对数秩检验统计量(近似法)为:m22(Ak-Tk)c=å,u=m-1(11-3)k=1Tk2其中A和T分别是第k组死亡的实际数和理论期望数。在H成立的条件下,统计量c服从kk022自由度为m-1的c分布,m为组数,据c作出是否拒绝H的决定。0(四)Cox回归模型Cox回归是生存分析中最重要的方法之一,其优点是适用范围很广和便于做多因素分析。169\nCox回归假定病人的风险函数为h(t)=h0(t)exp(b1X1+b2X2+L+bpXp)(11-4)其中h(t)为风险函数,又称风险率或瞬间死亡率,h(t)为基准风险函数,是与时间有关的任0意函数,X,b分别是观察变量及其回归系数。英国统计学家CoxDR提出了参数b的估计和i检验方法,故称为Cox回归。三、典型试题分析(一)单项选择题1.生存分析的效应变量是()。A.正态的和方差齐性的B.生存时间和结局变量C.生存时间D.结局变量答案:B[评析]本题考点:生存分析的概念生存分析是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,所以它的应变量有两个,即生存时间和结局。2.随访资料做生存分析的条件为()。A.有一定的例数B.有一定的死亡数C.死亡比例不能过小D.自变量取值不随时间变化答案:B[评析]本题考点:生存资料的基本要求生存资料的基本要求为:①样本由随机抽样方法获得,并有足够数量;②死亡例数不能太少(≧30);③截尾比例不能太大;④生存时间尽可能精确到天数;⑤缺项要尽量补齐。所以最佳答案应选B。3.Cox回归风险率()。A.等于一个常数B.服从某种分布规律C.等于基准函数乘上一个比例因子D.适用于任意肿瘤资料答案:C[评析]本题考点:Cox回归模型的特点及应用首先,用于Cox回归模型分析的资料必须满足生存资料的基本要求,因此任意肿瘤资料不一定满足此要求,排除D。Cox回归风险函数中因h(t)未定义,所以不知道风险在病人与0病人之间的差别和风险随时间变化的具体分布,排除A,B。所以正确答案为C,从风险回归函数的定义式也可看出。4.采用log-rank检验分析肺癌发病资料,其中吸烟、慢性支气管炎2个因素都有统计学意义,由此可认为():A.吸烟与肺癌有因果联系B.慢性支气管炎与肺癌有因果联系C.2个因素与肺癌有因果联系D.以上都不对答案:D[评析]本题考点:模型中的变量如何选择取舍选入模型的变量是统计学上的有关变量,不一定都与肺癌有因果关系,其中某些可能只170\n有伴随关系而已;未选入模型的变量不一定全是无关变量,要考虑是否模型内的某些变量代替了它的作用,或因例数不够,或实验中对该因素进行了控制而引起的。所以正确答案选D。5.根据表11-1中的存活时间,试用Kaplan-Meier法估计生存曲线。[评析]本题是考察对乘积极限法的应用情况,此法应用普遍,应熟练掌握。具体解法见表11-2。表11-2乘积极限法估计生存率计算表序存活t时刻t时刻死亡生存k年生存率号时间期初死亡数概率概率生存率标准误k(天)例数tndq=dnp=1-qS(tk)SE(S(tk))⑴⑵⑶⑷⑸⑹⑺⑻1360411434(34)=0.750.21652990311323(34)(23)=0.500.250031800111101(34)(23)(01)=0.000参照表11-2,计算步骤为:1.列出序号:k=1,2,...(第1列);2.死亡时间排队:将存活时间t(完全数据)从小到大顺序排列,重复数据只列一次,+截尾数据(如1400)不列入(第2列);3.求出t时刻期初例数n:即存活时间大于或等于t的例数(含死者)(第3列);4.列出t时刻的死亡数d:即死亡时间为t的例数(第4列);5.求出t时刻的死亡概率:(第5列);6.求出t时刻的生存概率:(第6列);7.分别计算生存率及其标准误;(第7、8列);8.绘制生存曲线。1.0.8.6S(t).4.2SurvivalFunction0.0Censored060012001800t/d图11.1乘积极限法生存曲线及其半数生存期171\n四、习题(一)名词解释1.生存分析2.生存时间3.完全数据4.截尾数据5.死亡率6.死亡概率7.生存概率8.生存率(二)单项选择题1.Cox回归的自变量()。A.必须服从正态分布和方差齐性B.必须是计量资料C.可以是计量资料或分类资料D.无任何条件2.生存分析中的生存时间为()。A.出院至失访的时间B.手术至失访的时间C.观察开始至终止的时间D.观察开始至失访的时间3.关于膀胱癌化疗的随访资料做生存分析,可当作截尾值处理的是():A.死于膀胱癌B.死于意外死亡C.死于其它肿瘤D.b,c都是(三)简答题1.在肿瘤预后分析中,死于非肿瘤患者的数据怎样处理?2.生存分析可用于发病资料的分析吗?请举例说明。3.生存时间能计算平均数、标准差吗?4.Cox回归可估计参数,故属于参数方法?(四)计算题1.表11-3第2-4列是296例肝癌患者的生存数据,试作生存分析并绘图示之。2.某院用甲、乙两疗法组治疗急性黄疸性肝炎,随访十年得资料如下:++++++甲疗法组12,25,50,68,70,79,83,91,114,114,+乙疗法组1,1,9,17,21,25,37,38,58,72,73比较两疗法的生存期(月)有无差别。五、习题答题要点(一)名词解释1.生存分析:生存分析(survivalanalysis)是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,它不仅可以从事件结局的好坏,如疾病的治愈(成功)和死亡(失败),而且可以从事件的持续时间,如某病经治疗后存活的时间长短进行分析比较,因而能够更全面、更精确地反映该治疗的效果。2.生存时间:生存时间(survivaltime)指观察到的存活时间。3.完全数据:完全数据(completedata)指从起点至死亡所经历的时间,即死者的存活时间。172\n4.截尾数据:由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。从起点至截尾所经历的时间,称为截尾数据(censoreddata)。5.死亡率:某年内死亡例数与年中观察例数之比称为死亡率(mortalityrate)。6.死亡概率:死亡概率(mortalityprobability)是指某年内死亡例数与年初观察例数之比,若年内有截尾,分母用校正人口数。7.生存率:生存率(survivalrate)指病人经历tk个单位时间后仍存活的概率,即tk时刻仍存活的例数与观察总例数之比。8.生存概率:生存概率(survivalprobability)表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小,它是某年活满一年人数与年初观察例数之比,若年内有截尾,分母用校正人口数。(二)单项选择题1.C2.C3.D(三)简答题1.当作截尾数据处理。2.可用于慢性病的发病资料分析。3.如果此资料所包含的数据都是完全数据,可以计算均数和标准差(但可能因资料非正态而没有实际意义),若数据中包含截尾数据,则不可以计算均数和标准差。4.属于半参数模型(因ht()未定义)。0(四)计算题1.参照表11-3,列表计算。表11-3寿命表法估计296例肝癌患者生存率计算表序存活期内期内期初校正死亡生存k年生存率号时间死亡截尾观察年初概率概率生存率标准误k(月)人数人数人数人数p=1-qS(tk)SE(S(tk))tdcn0nc=n0q=dn-c2⑴⑵⑶(4)(5)(6)(7)(8)(9)(10)10~9410296291.00.32300.67700.67700.027421~7415192184.50.40110.59890.40550.029432~221010398.00.22450.77550.31440.028543~2267168.00.32350.67650.21270.026354~554340.50.12350.87650.18640.025565~663330.00.20000.80000.14920.024576~412120.50.19510.80490.12010.023787~211615.50.12900.87100.10460.023098~321312.00.25000.75000.07840.0217109~2088.00.25000.75000.05880.0202173\n1110~2265.00.40000.60000.03530.01771211~2222.01.00000.00000.00000.0000计算方法和步骤为:(1)列出序号:k=1,2,...(第1列);(2)求校正期初人数:nc=n0-c2(第6列);(3)计算死亡概率:q=dn(第7列);(4)计算生存概率:p=1-q(第8列);(5)计算生存率及其标准误:(第9、10列)。(6)绘制生存曲线。1.0.8.6S(t).4.20.00123456789101112ta图11-2寿命表法生存曲线2.该题用log-rank检验,其计算步骤为:(1)检验假设:H:两总体生存率曲线相同;H:两总体生存率曲线不同;a=0.05。01(2)计算出A=4,A=10,T=8.6694,T=5.3306.0101(3)计算检验统计量m2222(Ak-Tk)(4-8.6694)(10-5.3306)c=å=+=6.6052k=1Tk8.66945.33062(4)确定P值作结论:据自由度为1的c分布查表得P<0.05,按a=0.05水准拒绝H,0接受H,故可认为两总体生存率曲线不同,甲组疗法生存期长。1(骆福添杜晓晗)174\n第二章常用综合评价方法一、教学大纲要求(一)掌握内容综合评价的意义及一般步骤。(二)熟悉内容评价指标的筛选及权重的估计。(三)了解内容1.综合评分法。2.综合指数法。3.层次分析法。4.Topsis法。二、教学内容精要(一)评价与综合评价评价:通过对照某些标准来判断观测结果,并赋予这些结果以一定的意义和价值的过程称为评价(evaluation)。综合评价:根据一个复杂系统同时受到多种因素影响的特点,在综合考察多个有关因素时,依据多个有关指标对复杂系统进行总评价的方法称为综合评价(syntheticalevaluation)。(二)综合评价的几种分类1.根据评价手段:定量评价(quantitativeevaluation)、定性评价(qualitiveevaluation)。2.根据评价领域:临床评价(clinicalevaluation)、卫生评价(healthevaluation)和管理评价(administrativeevaluation)。临床评价包括诊断性试验和方法评价、疗效评价和预后及转归评价。卫生评价包括环境评价、营养评价、生长发育评价和疾病防治效果评价。管理评价包括宏观管理评价和微观管理评价。3.根据评价方式:预评价(pre-eventevaluation)、中期评价(medialevaluation)和终结评价(after-eventevaluation)。(三)综合评价的一般步骤1.根据评价目的选择恰当的评价指标(index);2.根据评价目的,确定诸评价指标在对某事物评价中的相对重要性,或各指标的权重(weight);3.合理确定各单个指标的评级等级(evaluationgrade)及其界限;4.根据评价目的,数据特征,选择适当的综合评价方法,并根据已掌握的历史资料,建立综合评价模型(evaluationmodel);175\n5.确定多指标综合评价的等级数量界限,在对同类事物综合评价的应用实践中,对选用的评价模型进行考察,并不断修改补充,使之具有一定的科学性、实用性与先进性,然后推广应用。(四)评价指标的筛选筛选评价指标主要依据专业知识,即根据有关的专业理论和实践,来分析各评价指标对结果的影响,挑选那些代表性、确定性好,有一定区别能力又互相独立的指标组成评价指标体系。系统分析法(system’sanalysismethod)和文献资料分析优选法是常用的评价指标筛选法。为保证筛选指标的客观性,对于指标的初选可采用假设检验、多元回归、逐步回归和指标聚类等方法辅助筛选。在实际工作中,往往综合使用多种方法进行指标筛选,在获得较为满意的专业解释的基础上,优先考虑那些被多种方法同时选入的指标。(五)评价指标的权重估计用于确定指标权重的方法主要有主观定权法和客观定权法。其中,主观定权法包括专家评分法(specialist-scoredmethod)、成对比较法、Satty权重法;客观定权法包括模糊定权法、秩和比法、熵权法和相关系数法。(六)几种综合评价方法1.综合评分法(syntheticalscoredmethod):建立在专家评价法基础上,根据评价目的及评价对象的特征选定必要的评价指标,逐个指标订出等级,每个等级的标准用分值表示,然后以恰当的方式确定各评价指标的权数,并选定累积总分的方案以及综合评价等级的总分值范围,以此为准则,对评级对象进行分析和评价,以决定优劣取舍的综合评价方法。2.综合指数法(syntheticalindexmethod):利用综合指数的计算形式,定量的对某现象进行综合评价的方法。3.层次分析法(analytichierarchyprocess):用系统分析的方法,对评价对象依评价目的所确定的总评价目标进行连续性分解,得到各级(各层)评价目标,并以最下层作为衡量目标达到程度的评价指标。然后依据这些指标计算出一综合评分指数对评价对象的总评价目标进行评价,依其大小来确定评价对象的优劣等级。4.Topsis法:系统工程中有限方案多目标决策分析的一种常用方法。是基于归一化后的原始数据矩阵,找出有限方案中的最优方案和最劣方案(分别用最优向量和最劣向量表示),然后分别计算诸评价对象与最优方案和最劣方案的距离,获得各评价对象与最优方案的相对接近程度,以此作为评价优劣的依据。三、典型试题分析某医院1998年11项指标资料见表18-1和表18-2,试采用综合指数法计算各月综合指数。表18-111项指标分类指标类型序号指标名称176\n动态指标1出院病人数(人)医疗质量2治疗有效率(%)3病死率(%)4无菌手术感染数(人)床位利用5平均住院日(天)6床位周转率(%)7病床工作日(天)8病床使用率(%)诊断水平9门诊住院诊断符合率(%)10出入院诊断符合率(%)护理服务质量11陪住率(%)表18-2某医院1998年各月11项指标实际值各指标实际值月1234567891011165090.83.083.0020.61.4128.792.699.310018.0256091.13.044.0021.61.2428.792.798.610017.6360991.71.974.0020.51.3327.397.698.09917.0458792.72.393.0025.61.2530.096.998.39617.1565188.04.304.0023.31.3028.394.597.39718.0660189.72.5010.0019.81.3029.394.697.99617.0758490.02.915.0026.31.3028.093.296.99718.0862090.72.902.0022.01.3728.792.597.99619.0962690.22.244.0022.01.3729.294.398.39818.01060491.92.965.0020.61.3427.993.199.19918.51165390.53.372.0019.51.4429.494.899.59921.01259990.83.645.0023.51.2928.795.889.19918.8平均值61290.72.944.2522.11.3328.794.497.59818.2[评析]11项指标中3、4、5、11号指标为反向指标,其它均为正向指标。由公式(18-1)和公式(18-2)可计算出各指标的个体指数,计算结果见表18-3。Xy=(高优指标或正指标)(18-1)MMy=(低优指标或负指标)(18-2)X如公式(18-1)和公式(18-2)所示,个体指数是某指标观测值和标准值的比值。式中X为某指标的观测值;M为某指标的标准值、参考值、平均值、期望值等。177\n表18-3某医院1998年各月11项指标的个体指数各指标的个体指数月123456789101111.061.000.961.421.071.061.000.981.021.021.0120.911.000.971.061.020.931.000.981.011.021.0331.001.011.491.061.081.000.951.031.001.011.0740.961.021.231.420.860.941.051.031.010.981.0651.060.970.681.060.950.980.991.001.000.991.0160.980.991.180.421.120.981.021.001.000.981.0770.950.991.010.850.840.980.980.990.990.991.0181.011.001.012.131.001.031.000.981.000.980.9591.020.991.311.061.001.031.021.001.011.001.01100.991.010.990.851.071.010.970.991.021.010.98111.071.000.872.121.131.081.021.001.021.010.87120.981.000.810.850.940.971.001.010.911.010.97按同类指数相乘,异类相加的方法进行指数综合。由公式(18-3)计算综合指数。mnI=åÕyij(18-3)i=1j=1例如计算1、2月份的综合指数为:I=1.06+1.00´0.96´1.42+1.07´1.06´1.00´0.98+1.02´1.02+1.011=5.5851I=0.91+1.00´0.97´1.06+1.02´0.93´1.00´0.98+1.01´1.02+1.032=4.9509其余各月计算以次类推,计算结果见表18-4。表18-4某医院1998年各月综合指数月123456789101112份指5.58514.95095.74625.66424.68334.64764.59296.12515.48244.89346.07954.4838数四、习题(一)单项选择题:1.下列那项评价方法属于按评价手段的分类A.定性评价B.卫生评价C.管理评价D.中期评价2.使用专家评分法进行评价指标的估计时,常用哪两种指标来估计权重分配的相对合理性178\nA.擅长系数和确定系数B.擅长系数和一致性系数C.相关系数和确定系数D.相关系数和一致性系数3.医院工作质量指标通常由三层子指标构成,以知第一层的权重为0.6370,第二层权重为0.2970,第三层权重为1.0。由Saaty法提供的评价指标组合权重方法可知第三层的组合权重为A.1.9340B.0.9340C.1.7636D.0.18924.以下哪一种综合评价方法是建立在专家评价法的基础上A.综合指数法B.层次分析法C.综合评分法D.Topsis法5.在利用综合指数法评价时,综合指数能定量地反映几个指标的综合平均变动程度,m1表达式为:I=åy,其中n1A.m为分组数B.n为指标数C.y为个体指标D.以上均正确(二)计算题试根据表18-5数据,采用Topsis法对某市人民医院1995~1997年的医疗质量进行综合评价。表18-5某市人民医院1995~1997年的医疗质量出入院手术前危重病床位三日治愈院内床位周平均诊断符后诊断病死率人抢救年度周转率确诊率好转率感染率转次数住院日合率符合率(%)成功率(%)(%)(%)(%)(%)(%)(%)199520.97113.8118.7399.4299.8097.2896.082.5794.534.60199621.41116.1218.3999.3299.1497.0095.652.7295.325.99199719.13102.8517.4499.4999.1196.2096.502.0296.224.79五、习题答题要点(一)单项选择题1.A2.B3.D4.C5.C(二)计算题对原指标中的平均住院日、病死率、院内感染率三个低优指标进行转化,其中平均住院日采用倒数转化,病死率、院内感染率采用差值转化。转化后数据见表18-6。表18-6转化指标值出入院手术前危重病床位三日治愈院内床位周平均诊断符后诊断病死率人抢救年度周转率确诊率好转率感染率转次数住院日合率符合率(%)成功率(%)(%)(%)(%)(%)(%)(%)199520.97113.815.3499.4299.8097.2896.0897.4394.5395.40199621.41116.125.4499.3299.1497.0095.6597.2895.3294.01199719.13102.855.7399.4999.1196.2096.5097.9896.2295.21179\n根据表18-6数据,利用公式(18-4)进行归一化处理,得归一化矩阵值,如表18-7。XijZij=(18-4)nå()2Xiji=1例如计算1995年床位周转次数归一化值,由公式(18-4)得:20.97Z11==0.50922220.97+21.41+19.13其余归一化数值以此类推。表18-7归一化矩阵值出入院手术前危重病床位周床位平均三日治愈院内年度诊断符后诊断病死率人抢救转次数周转率住院日确诊率好转率感染率合率符合率成功率19950.5900.5920.5600.5770.5800.5800.5770.5770.5720.58119960.6020.6040.5700.5770.5760.5780.5750.5760.5770.57219970.5380.5350.6010.5780.5760.5740.5800.5800.5830.579由公式(18-5)和公式(18-6)得最优和最劣方案+最优方案Z=(a,a,L,a)(18-5)i1maxi2maximmax-最劣方案Z=(a,a,L,a)(18-6)i1mini2minimmin+()Z=0.602,0.604,0.601,0.578,0.580,0.580,0.580,0.580,0.583,0.581-()Z=0.538,0.535,0.560,0.577,0.576,0.574,0.575,0.576,0.572,0.572+-由公式(18-7)和公式(18-8)计算各年度D和D,见表18–8。m+å()2Di=aijmax-aij(18-7)i=1m-å()2Di=aijmin-aij(18-8)i=1+-例如计算1997年D和D:+()2()2()2D=0.602-0.538+0.604-0.535+L+0.581-0.579=0.094-()2()2()2D=0.538-0.538+0.535-0.535+L+0.572-0.579=0.044其余各年以次类推。由公式(18-9)计算各年度Ci,见表18-8。-DiCi=(18-9)+-Di+Di例如计算1997年C:i0.044C==0.319,其余各年以次类推。i0.094+0.044表18-8不同年度指标值与最优值的相对接近程度及排序结果180\n年份D+D-排序结果Ci19950.0450.0780.634219960.0340.0950.736119970.0940.0440.3193由表18-8的排序结果可知1996年医疗质量最好。(孙振球潘峰)181