第一章第一节中医药统计学的意义和内容1中医药统计学:是将数理统计学的原理和方法应用于生物医药特别是中医药科研,收集、整理和分析资料,推断不确定现象(随机现象)客观数量规律的一门应用学科。2中医药统计学的主要内容:(1)统计学基本原理(2)统计分析方法(统计设计、统计描述和统计推断、因素间的关系、生存分析、多元分析)第二节统计学发展及有关问题1、20世纪20年代,英国统计学家R.A.Fisher爵士(1890-1962)创立了实验设计方法和统计分析技术,奠定现代生物统计的基础。1948年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验报告,第一次采用生物统计方法进行临床干预试验。生物统计学方法在我国医学界的传播与运用始于20世纪初。1948年,郭祖超教授(1912~1999)编著的《医学与生物统计方法》,是我国第一部医学统计方法的教科书。2、评价链霉素治疗肺结核疗效试验目标总体:15~30岁肺双侧进行性肺结核患者样本人群:目标总体中的107例患者试验方法:将107例患者随机(尽可能保证两组患者的病情相同,见下表1)分为两组,分到试验组的55例患者用链霉素治疗,分到对照组的52例患者用常规疗法(主要是卧床休息)试验结果:6个月后,试验组的生存率为93%,对照组的生存率为77%。两组的生存率有较大差别,并且P<0.05。应用统计学理论,可以得出链霉素对所有15~30岁肺双侧进行性肺结核患者都有效果的结论表1随机化分组后两组患者的病情比较表2两组疗效比较分组疗效合计生存率(%)分组身体状况血沉降/(mm.h-1)生存死亡好一般差0~11~21~>50试验组5145593试验组81730031636对照组40125277对照组820241220293、医学论文中的统计:医学论文的两个作用:(1)通过撰写和发表论文,报告自己观察或试验的研究结果。撰写论文,要求我们对自己研究结果的数据资料能够正确地表达和分析。(2)阅读别人的论文,吸取新知识,了解学术进展。阅读论文,要求我们能够理解和评价别人研究成果的可信程度。4、医学论文中的统计学问题:60年代到80年代,国外医学杂志调查结果:有统计错误的论文20%~72%。国内1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果,相对数误用为11.2%,抽样方法误用15.9%,统计图表误用11.7%。\n1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。5、伪造统计数据违反科学道德:1976年NewScience(新科学)杂志关于科研舞弊行为的调查:(1)74%的调查表反映有不正当修改数据的情况(2)17%拼凑实验结果;(3)7%凭空捏造数据;(4)2%故意曲解结果。第一节统计学基本概念:1、同质与变异:同质:性质相同个体的同质性是构成研究总体的必备条件;研究内容不同,对同质的要求不同。变异:指同质的个体之间的差异(1)一种或多种不可控因素作用下所产生的反应的综合表现。(2)结果是随即的(无法正确的预测)。(3)个体变异是普遍存在的。(4)个体变异是有规律的(5)没有个体变异就没有统计学。同质与变异的例子:例1调查2003年沈阳市7岁男童的身高和体重例2研究某降压药的疗效同质:2003年(年份)、沈阳市(地区)、7岁同质:高血压患者、病情相近、用(年龄)男(性别)童某药治疗变异:身高和体重各不相同变异:疗效各不相同2、总体与样本:总体:根据研究目的确定的同质研究对象(个体)的全体(集合)。分有限总体与无限总体。样本:从总体中随机抽取的部分观察单位。随机抽样:为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。3、参数与统计量:(1)参数:总体的统计指标,如总体均数μ、标准差σ,采用希腊字母分别记为μ、σ。固定的常数。(2)统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。4、抽样误差:抽样误差:由随机抽样造成的样本统计量和总体参数间的差异。原因:个体变异+抽样表现:(1)样本统计量与总体参数间的差别(2)不同样本统计量间的差别(3)抽样误差是有规律的5、随机变量:随机变量(变量):对某项变异进行观察或测量得到的指标(个体观察指标)\n变量值(观察值):变量的观察结果特征:不确定性、规律性6、变量的表示:变量(variable),统计上习惯用大写拉丁字母表示,如X、Y、Z、…。变量值习惯用小写拉丁字母表示,如性别x1=1(男)、x2=1(男)、x3=0(女)、…。7、医药统计中的变量类型(1)按取值结果分类:离散型——取值为有限个连续型:取值可充满某个区间(2)按观察指标的性质分类:定量变量:计量变量分类变量:二分类变量、多分类变量(无序分类变量(名义变量)、有序分变量(等级变量)8、医药统计中的资料类型定量资料:计量资料分类资料:二分类资料:计数资料多分类资料:无序分类资料:计数资料有序分类资料:等级资料9、概率与频率确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。10、频率与概率概率probability:描述随机事件发生的可能性大小的数值,用大写的P表示;取值[0,1]。频率frequency:样本的实际发生率。设在相同条件下,独立重复进行n次试验,事件A出现m次,则事件A出现的频率为m/n。(0≤m/n≤1)11、小概率事件必然事件P=1P≤0.05(5%)或P≤0.01(1%)称为小概不可能事件P=0率事件(习惯),统计学上认为小概率事随机事件0
中位数>众数负偏态分布时:均数<中位数<众数第三节描述离散趋势的指标描述离散趋势的指标:反映数据的离散度:,即个体观察值的变异程度。常用的指标有:(1)极差R:优点:简便。缺点:1)只利用了两个极端值2)n大,R也会大3)不稳定(2)四分位数间距:四分位间距:QR=P75-P25(3)百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。应用:确定医学参考值范围;如95%参考值范围P2.5~P97.5;表示有95%正常个体的测量值在此范围;中位数M与四分位数间距QR一起使用,描述偏态分布资料的特征(4)方差也称均方差,样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。(5)标准差:标准差即方差的正平方根;其单位与原变量X的单位相同。(6)变异系数CV,适用条件①观察指标单位不同如身高体重②同单位资料,但均数相差悬殊(7)小结:极差较粗,适合于任何分布;标准差与均数的单位相同,最常用,适合于近似正态分布;变异系数主要用于单位不同或均数相差悬殊资料;平均指标和变异指标分别反映资料的不同特征,常配套使用。如正态分布:均数、标准差;偏态分布:中位数、四分位数间距。第四节描述分布形态的指标1、偏度系数:描述分布的对称性。2、理论上总体偏度系数为0时,分布是对称的;取正值时,分布为负偏态;取负值时,分布为正偏态。3、峰度系数:反映分布是否有正态峰。理论上正态分布的总体峰度系数为0。第五节正态分布正态分布,也叫高斯分布是最常见、最重要的一种连续型分布。μ为总体均数,σ为总体标准差,f(X){表示正态曲线下X左侧面积}称为概率密度函数变量X服从正态分布记作X~N(μ,σ2)。以X为横轴,f(X)为纵轴绘制的曲线就是正态曲线。1、正态分布的特征:(1)高峰在均数处,均数两侧完全对称(2)正态分布有两个参数:位置参数(均数)和变异度参数(标准差)(3)正态曲线下的面积有一定的分布规律。\n2、标准正态分布μ=0,σ=1记为N(0,1)一般正态分布为一个分布族:N(μ,σ2);标准正态分布只有一个N(0,1)3、曲线下面积的分布规律:标准正态曲线下双侧尾部面积为α时对应的z值——双侧z界值;标准正态曲线下双侧尾部面积为α时对应的z值——双侧z界值。4、正态分布法:双侧100(1-α)%正常值范围:单侧100(1-α)%正常值范围:双侧95%正常值范围:单侧95%正常值范围:5、百分位数法:双侧95%正常值范围P2.5~P97.5。单侧95%正常值范围P5(下限),适用资料:偏态分布第四章第一节总体均数的估计1、抽样误差:由随机抽样造成的样本统计量和总体参数间的差异。原因:个体变异+抽样表现:样本统计量与总体参数间的差别;不同样本统计量间的差别;抽样误差是有规律的2、中心极限定理case1从正态总体N(μ,σ2)中随机抽样(每个样本的含量为n),可得无数个样本,每个样本计算样本均数,则样本均数也服从正态分布,样本均数的均数为μ;样本均数的标准差中心极限定理case2从非正态分布总体(均数为μ,方差为σ2)中随机抽样,可得无数个样本,每个样本计算样本均数,样本含量小时,样本均数不服从正态分布。但样本含量足够大(如n>50)时,样本均数也近似服从正态分布。样本均数的均数仍等于μ样本均数的标准差仍为:3、标准误;样本统计量的标准差称为标准误;样本均数的标准差称为均数的标准误;均数的标准误:衡量均数抽样误差大小的统计指标;当总体标准差未知时,用样本标准差代替;增大样本含量可以减小抽样误差4、t分布在实际工作中,总体方差未知,所以用样本方差代替总体方差。样本方差代替总体方差,此时不服从正态分布,而服从t分布t分布的特征:(1)单峰分布,曲线在t=0处最高,并以t=0为中心左右对称(2)t分布是一簇分布,与自由度有关(3)与标准正态分布相比,高峰位置较矮,两尾部翘得高,即相同尾部面积对应的界值比z界值大。例如:z0.05=1.645,t0.05,3=3.182(4)随自由度增大,曲线逐渐接近标准正态分布;t分布的极限为标准正态分布。5、总体均数的估计(1)总体均数的点估计与区间估计\n参数的估计:点估计:由样本统计量直接估计、总体参数区间估计:以一定概率1-α(可信度)估计出总体参数可能存在的范围。考虑抽样误差(2)可信区间的意义:95%可信区间的意义:该区间以95%的概率包含了待估计的总体参数。从总体中作随机抽样,每个样本可算得一个可信区间,若作100次抽样,可得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。(3)可信度:区间的可信度(如95%或99%):是重复抽样(如1000次)时,样本(如n=5)区间包含总体参数(μ)的百分数。常用100(1-α)%或(1-α)表示,α(称为显著水平)值一般取0.05或0.01。(4)可信区间的两要素:准确度(可靠性):由(1-α)的大小决定。精确度:由区间长度决定95%可信区间精确度高,准确度低;95%可信区间反之。(5)影响可信区间大小的因素:可信度越大,区间越宽;个体变异越大,区间越宽;样本含量越大,区间越窄第二节假设检验假设检验(也称显著性检验):是先对总体的参数或分布提出某种假设,如假设两总体均数相等、总体服从正态分布或两总体分布相同等,然后用适当的统计方法计算检验统计量,根据检验统计量大小推断假设是否成立。1、假设检验的分类:参数检验:非参数检验:2、假设检验的依据:小概率事件:P≤0.05(或P≤0.01)的事件称为小概率事件。小概率(事件)原理:统计学上认为小概率事件在一次试验中是不可能发生的。若小概率事件在一次试验中发生了,即认为不合理或出现矛盾,可推断原假设不成立。3、假设检验的一般步骤:(1)建立检验假设(包括原假设H0和备择假设H1),确定检验水准a(2)确定检验统计量及其分布,并根据样本值计算检验统计量的值;(3)确定概率P,做出推断结论:P≤α,拒绝原假设H0,接受备择假设H1;否则,就不拒绝原假设H0。4、假设检验的两类错误第一类错误(Ⅰ型错误):当假设检验得到P≤α时,做出“拒绝H0,可认为各总体间有差别”的结论时,这有可能将事实上没有差别的结果错误地判断为有差别,即这时可能犯第一类错误。其犯错误的概率用a表示,若α取0.05,此时犯Ⅰ型错误的概率小于或等于0.05第二类错误(Ⅱ型错误):当假设检验得到P>α时,做出“不拒绝H0,还不能认为各总体间有差别”的结论时,这有可能将事实上有差别的结果错误地判为没有差别,即这时可能犯第二类错误,其犯错误的概率用β表示,在通常情况下犯Ⅱ类错误的概率未知。5、两类错误与假设检验结论的关系:当假设检验得到P≤α时,可能犯第一类错误(α)。此时,P值比0.05越小,犯一类错误的概率越小,其结论的可靠程度也越好。当假设检验得到P>α时,可能犯第二类错误(β)。此时,虽然是个未知数,但假设检验的P值越大,犯二类错误的概率越小。其结论的可靠程度也越好。6、两类错误α、间的关系:增大α,可以减小β;减小α,可以增大β。常常增大α,如α=0.1或0.2,以减小β。减少(增加)I型错误,将会增加(减少)II型错误,增大n,同时降低α与β\n第四节t检验1、配对t检验:(三棱莪术)(1)配对设计:将受试对象按某些特征或条件配成对子(非随机),再将每对中的两个受试对象随机分配到实验组和对照组,给予不同的处理。(2)受试对象配对的特征或条件:可能影响实验结果的主要非处理因素。动物实验:将动物按种属、品系、性别、年龄、体重等配对;临床疗效观察:将患者按病种、病型、性别、年龄、生活习惯、工作环境等配对;病因研究:将患者按性别、年龄、职业、居住年限等与相同条件的健康人配对。异体配对设计:将两个条件相同或相近的受试对象配成对子,分别接受两种不同的处理。同期自身配对:对同一受试对象分别给予两种不同处理。自身前后配对:同一受试对象处理前后的比较2、配对数据检验注意的问题:r>0,则有,即差值的方差小于两组数据方差的和,此时采用配对检验可提高检验精度r<0,则有,即差值的方差反而大于两组数据方差的和,此时采用配对检验会降低检验精度3、单样本t检验:(人参)样本均数与总体均数的比较:目的:推断样本所代表的未知总体均数µ与已知总体均数µ0有无差别。条件:样本来自正态总体已知总体均数µ0一般为:理论值、标准值或经大量观察所得的稳定值。统计量t的计算公式:4、成组t检验适用于完全随机设计资料的两均数比较。假设检验目的:推断两总体均数是否相同。应用条件:样本来自正态总体,方差齐σ12=σ22完全随机设计也叫成组设计。是一种单因素k水平单效应变量的设计方法。分组方式:1)将受试对象完全随机分配到两处理组中2)分别从两个不同总体中进行随机抽样5、方差齐性检验(转铁蛋白测定)(1)适用条件:两总体方差的齐性检验原理:是看较大样本方差与较小样本方差的比值是否接近“1”。若接近“1”,则可认为两样本代表的总体方差齐,否则,两方差不齐。(2)Levene检验:适用条件:两总体或多总体方差的齐性检验(3)方差不齐两小样本均数的比较(补益法):1)用适当的变量变换,使达到方差齐性要求,再用t检验。2)采用非参数检验。3)采用t`检验。第五章第一节方差分析的基本思想\n1、将所研究的对象分为多个处理组,施加不同的干预,施加的干预称为处理因素,处理因素至少有两个水平。用这类资料的样本信息来推断各处理组间多个总体均数是否存在差别,常采用的统计分析方法为方差分析。2、方差分析的基本思想:根据变异的不同来源,将全部观察值总的离均差平方和及自由度分解为两个或多个部分,除随机误差外,其余每个变异可由某个因素加以解释。通过比较不同变异的均方(MS),借助F分布做出统计推断,从而了解该因素对观察指标有无影响。3、试验数据有三个不同的变异:总变异:全部测量值Xij与总均数间的差异组间变异:各组的均数与总均数间的差异组内变异:每组的ni个原始数据与该组均数的差异4、总变异:SS总反映了所有测量值之间总的变异程度,SS总=各测量值Xij与总均数差值的平方和5、组间变异:SS组间反映了各组均数间的变异程度;组间变异=随机误差+处理因素效应6、组内变异:在同一处理组内,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异。SS组内仅仅反映了随机误差的影响。也称SS误差:7、三种“变异”之间的关系:组间变异:处理因素+随机误差组内变异:随机误差8、均方MS:变异程度除与离均差平方和的大小有关外,还与其自由度有关,由于各部分自由度不相等,因此各部分离均差平方和不能直接比较,须将各部分离均差平方和除以相应自由度,其比值称为均方差,简称均方(MS)。9、均方之比F值接近于1,就没有理由拒绝H0;反之,F值越大,拒绝H0的理由越充分。数理统计的理论证明,当H0成立时,F统计量服从F分布。第二节完全随机设计的方差分析1、完全随机设计的方差分析完全随机设计也叫成组设计。单因素多水平(k>2)设计K=2时,用成组t检验;K>2时,采用单因素方差分析分组方式:1)将受试对象随机分配到各处理组中2)分别从不同总体中进行随机抽样样本含量:可以相等(平衡设计),也可不等(称非平衡设计)。平衡设计时检验效能较高。2、完全随机设计:(1)是最常用的一种设计方法,不受组数的限制(2)各组样本含量可以相等,也可以不等。但在总样本含量不变的情况下,各组样本含量相等时的设计效率较高(3)对照组可以不止一个,各组应达到均衡一致\n(4)对个体间同质性要求较高,在个体间同质性较差时,完全随机设计不是最佳设计3、方差分析的应用条件:1)独立性:各样本是相互独立的随机样本;2)正态性:各样本来自正态总体;3)方差齐性:各处理组总体方差相等。上述条件与两均数比较的t检验的应用条件相同。当组数为2时,方差分析与两均数比较的t检验是等价的,对同一资料,有4、方差分析的步骤:建立假设并确定检验水准,计算F值(方差分析表),下结论第三节随机区组设计的方差分析1、随机区组设计又称配伍组设计,采用双因素方差分析。是配对设计的扩展。2、随机分组方法(每个区组内随机):1)相同年龄组的病人为一个区组,并编号1~5;2)给同组中3个病人编号1~3;规定随机数小者分到甲组,中等分到乙组,大者分到丙组;3)给每个病人一个随机数;4)按规定分组3、变异来源从组内变异中分解出区组变异与误差变异。变异分解:1)总变异:所有观察值之间的变异2)处理间变异:处理因素+随机误差3)区组间变异:区组因素+随机误差4)误差变异:随机误差4、t检验与F检验的关系:当处理组数为2时,对于相同的资料,如果同时采用t检验与F检验,则有:随机区组设计ANOVA的处理组F值与配对设计的t值;完全随机设计ANOVA的F值与两样本均数比较的t值间均有:第五节析因设计的方差分析1、析因设计是一种多因素多水平交叉分组进行全面试验的设计方法2、析因设计所关心的问题:两个或两个以上处理因素的各处理水平间的均数有无差异?即主效应有无统计学意义?:两个或两个以上处理因素之间有无交互作用?3、交互作用A因素处于不同水平时,B因素的作用不同,反之亦然。4、变异分解:(1)总变异:(2)处理因素A的变异:A因素+随机误差(3)处理因素B的变异:B因素+随机误差(4)A与B交互作用的变异:(5)误差变异:随机误差5、交叉设计资料的方差分析将受试对象随机分为两组,分别接受两种不同的处理,经过一段时间后交换处理因素进行试验,分析两阶段的结果。三因素(处理、阶段、个体)设计。它可在同一病人身上观察两种或多种处理的效应。6、交叉设计的优缺点:优点:节约样本例数;可控制时间因素和个体差异对处理的影响;每一个实验对象同时接受实验因素和对照因素,每个患者利益均等(符合医德)。缺点:设计要求高,统计分析较复杂。注意:1)间歇期;2)病程长;3)盲法第六章第一节直线相关\n简单相关,用于双变量正态分布资料。相关分析的步骤:(1)绘制散点图(2)计算样本相关系数(3)检验总体相关系数是否等于01、散点图:散点呈椭圆形分布,X、Y同时增减---正相关X、Y此增彼减---负相关散点在一条直线上,X、Y变化趋势相同----完全正相关;反向变化----完全负相关。X、Y无直线变化关系----零相关2、相关系数:定量描述两变量间直线相关的密切程度和相关方向的指标。ρ—总体相关系数r—样本相关系数3、相关系数的意义:r无单位,-1≤r≤1。r的正负表示相关方向:r值为正,正相关;r值为负,负相关;(与回归系数b的符号相同)r的绝对值大小表示相关密切程度:|r|越接近1,相关越密切;|r|=0,零相关;|r|=1,完全相关第二节 等级相关适用资料:⑴不服从双变量正态分布⑵总体分布类型未知⑶原始数据用等级表示等级相关系数rs——反映两变量间相关的密切程度与方向。第三节直线回归1、直线回归:线性回归,要求Y为正态变量,X为可控变量。2、回归分析的步骤:(1)绘制散点图;(2)建立样本直线回归方程;(3)检验总体回归系数是否等于0(即检验回归方程有无统计学意义。3、直线回归方程:X每改变一个单位,Y平均改变b个单位:4、回归方程参数的计算:最小二乘法原则使各散点到直线的纵向距离的平方和最小。因为直线一定经过“均数”点5、回归参数a、b的解释:斜率(b):当X每改变1个单位时,Y平均改变b个单位Y的截距(a):X=0时Y的平均值为残差,即点到直线的纵向距离6、直线回归方程的检验:b≠0原因:①由于抽样误差引起,总体回归系数β=0②存在回归关系,总体回归系数β≠0决定系数:表示回归平方和SS回归在总平方和SS总中所占的比例。R2越接近1,回归方程的拟合越好。第四节直线回归与相关的区别与联系区别:1.资料:回归——Y正态随机变量,X为选定变量相关——X、Y服从双变量正态分布2.应用:回归——由一个变量值推算另一个变量值相关——只反映两变量间互依关系3.回归系数有单位,相关系数无单位联系:1)方向一致,r与b的正负号一致。2)假设检验等价tr=tb3)4)用回归解释相关第六节曲线回归\n直接进行曲线拟合-建立反映变量间曲线关系的曲线回归方程,步骤:(1)绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类)(2)选用适当的估计方法求得回归方(3)作假设检验,计算决定系数(4)比较决定系数选取“最佳”曲线方程。第七章1、率:频率指标,表示某现象发生的频率或强度2、构成比:又称构成指标,表示某一事物内部各组成部分所占的比重或分布。3、率或构成比的比较应注意可比性:1)研究对象是否同质(方法、时间、种族、地区、环境等)。(2)其它影响因素(年龄、性别)在各组的内部构成是否相同。3)同地区不同时期资料对比时,应注意客观条件是否一致。4、(贝努利试验)的特点:对立性、固定性、独立重复性