- 1.24 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
医学统计学闫世艳2011-4-18\n绪论\n为什么医学科研工作离不开统计学?\n什么是医学统计学?运用概率论、数理统计学的原理与方法,研究医学领域中随机现象有关数据的搜集、整理、分析与推断,进而阐明其客观规律性的一门应用科学。\n医学统计学的研究对象随机现象(事件)--变异必然现象(事件)“若无变异,无需统计”\n医学研究的基本流程研究设计:专业设计、统计设计研究实施—收集资料整理资料分析资料结论\n统计学在医学科研中的地位统计学是工具,是为医学科研服务的;需要与临床专家相互协作。没有好的研究设计,再好的统计方法都无济于事。统计学是在搜集、整理、分析和解释大量数据的过程中完成使命的。“研究结束之后,再找统计学家,相当于进行尸体解剖,他能告诉你的只能是试验失败的原因”—RA,Fisher\n统计学的基本概念同质与变异总体与样本概率与频率变量个体误差\n同质与变异同质:研究事物现象存在的共性,是统计学的基础。同质:观察单位间被研究指标的影响因素相同。变异:同质总体中,不同个体间的差异。\n总体与样本个体:观察单位,统计研究中的最基本单位。总体:根据研究目的确定的同质个体构成总体有限总体:有时间、空间、人群范围的限制无限总体:无时间、空间的限制样本:从总体中随机抽取的部分个体,构成样本。\n概率与频率频率:在相同条件下,重复n次试验,某随机事件A发生的次数X与n次试验的比值,即为该事件发生的频率。Buffon4040次硬币2048次正面频率:0.5069概率:某随机事件发生可能性大小的度量。用P表示。上述试验,当n逐渐增大时,频率始终在一个常数左右微小波动,这个常数就是概率。扔硬币的试验中,出现正面的概率为0.50.小概率事件,P≤0.05\n参数与统计量参数:反映总体的统计指标统计量:反映样本的统计指标\n变量(variable)与资料(data)观察或测量的个体(或观察单位)的某项特征,称为变量。如某地7岁儿童的身高、体重等。变量值构成资料。如,一组病人的血压值\n资料类型计量资料:表现为具体的数值、有度量衡单位,如血压、血糖等。百分率资料:减分率计数资料:观察指标是定性的,如阴性、阳性,有病、无病等。二分类、多分类等级资料:尿糖检测结果的++++++、治疗效果:痊愈、显效、有效、无效等不同的资料类型可以相互转化不同的资料类型有不同的统计分析方法\n描述性统计(一)\n统计处理统计描述:描述样本特征:列表、图示、数字统计推断:\n计量资料分布特征和描述指标集中趋势:平均水平算术均数、几何均数和中位数离散趋势:变异性极差、四分位数间距、方差、标准差、变异系数\n集中趋势指标-均数mean算术均数:简称均数,用以描述一组服从正态分布或近似正态分布资料的平均水平。总体均数,样本均数离均差总和离均差平方和\n几何均数G(geometricmean)用于对数正态分布的资料。即原变量值分布不对称,但经对数转换后,近似或服从正态分布的资料。血清学平均抗体效价\n中位数M(median)位置指标中位数:一组资料按大小顺序排列后,中间位置上的观测值。1234567123456----median=3.5\n百分位数(percentile,Px)位置指标一组资料从小到大排序后,x%的观测值比Px小,(100-x)%的观测值比Px大,则这个位置点的数值,即为第x百分位数Px。第5百分位数P5:有5%的观测值比P5小,有95%的观测值比P5大。中位数即第50百分位数。用于偏态分布的资料。\n离散趋势的指标-极差R极差或全距range:最大值与最小值之差。只考虑最大值和最小值,没有考虑所有的变量。\n四分位数间距Q第25百分位数P25,第50百分位数P50,第75百分位数P75,将所有的数据分为四份。P75-P25即为四分位数间距。考虑了较多的变量信息,但信息利用仍不充分。\n方差variance方差:总体方差,样本方差S2离均差平方和的平均值即为方差。\n标准差SD/STD(standarddeviation)方差开方即为标准差求方差后,量纲为原量纲的平方。为使量纲恢复到原量纲,将方差开方,即为标准差。总体标准差,样本标准差S\n变异系数CV用于比较不同量纲的变量的变异程度。无量纲\n小结上述指标都是用于计量资料的统计描述除变异系数外,均有量纲变异性指标中,指标值越大,说明数据变异越大分布类型不同,适用的描述指标不同。正态分布常用偏态分布常用中位数M和最小值、最大值或四分位数间距。如:年龄中位数为33.5岁,最小年龄3岁,最大年龄55岁。\n计数资料的统计描述绝对数:实际观察所得相对数:率、构成比、相对比\n例题:2005年某市五地区糖尿病患病情况地区编号调查人数患病人数患病率(%)构成比(%)患病率相对比(%)(1)(2)(3)(4)(5)(6)A97776857.0121.52--B114106325.5419.8679.03C121816985.7321.9281.74D103915415.2117.0074.32E105116275.9719.7085.16合计5427031835.87100.00--\n率(rate)说明在一定条件下,某现象发生的频率或强度。K:比例基数,常用百分率(%)、千分率、万分率、十万分率等。使结果中保留1-2位小数;根据习惯用法\n常用的率发病率、患病率、死亡率、病死率等;发病率(incidencerate):一定期间内、一定人群中,某病新病例出现的频率。描述疾病的发生频率。\n常用的率患病率(prevalencerate):现患率,某特定时间内总人口中,现患有某病的人(包括新和旧病例)所占的比例。常用于表示病程较长的慢性病的发生或流行情况。与发病率和病程有关。\n常用的率死亡率(mortalityrate):一定期间内,一定人群中,死于某病(或死于所有原因)的频率。是测量人群死亡危险最常用的指标。\n常用的率病死率(fatalityrate):表示一定时期内(通常为1年),患某病的全部病人中因该病死亡者的比例。用于表示确诊疾病的死亡概率,可表明疾病的严重程度,也可反映医疗水平和诊断能力。多用于急性传染病,较少用于慢性病。\n常用的率在临床实际中,要注意区分上述四种常用率指标的含义,不要混淆。\n构成比(proportion)说明某一事物的内部各组成部分所占的比重或分布。常用来表示疾病或死亡发生的分布情况,不能表示其发生频率或严重程度。\n比(ratio)又称相对比,表示两个有关的指标之比,可用倍数或百分数表示。甲乙两个指标可以是绝对数、相对数等;性质可以相同,也可以不同。如果计算时,分子大于分母,结果用倍数表示;反之,结果用百分数表示。\n注意事项分母不宜过小:正确区分率与构成比的意义:正确计算总率:即合计率或平均率。应将各组实际发生某现象的观察单位数之和,除以各组可能发生该现象的观察单位数之和,再乘以比例基数K。\n注意事项比较相对数指标时,注意资料的可比性:随机化:随机抽样原则;观察对象同质、研究方法相同、观察时间相等以及其他影响因素相同或接近;观察对象的内部构成是否相同:即与比较指标有关的影响因素在比较组间是否均衡。内部构成不同时,需分层分析或进行标化。\n注意事项样本率(或构成比)的比较,要做假设检验:样本率或构成比存在抽样误差,相互比较时需要进行假设检验。\n正态分布一种连续型随机变量常见而重要的分布。高斯分布:最初由德国数学家和天文学家德.莫阿弗尔于1733年提出。但高斯将其迅速应用到天文学中,并对其性质进行了进一步的研究,因此又称为高斯分布。\n正态分布是自然界中最常见、最重要的一种连续型分布,是许多统计分析方法的基础。医学中很多数据都近似服从正态分布。\n频数分布当样本量无限增大以及横轴上的组距无限减小时,直方图外缘就变成一条光滑的曲线,这条概率密度曲线所描述的分布就近似于正态分布。\n正态分布是两个常数,分别为圆周率(3.14159)和自然对数的底(近似于2.71828)是正态分布的两个参数,其中为x的总体均数,是x的总体方差。和可以完全决定一个正态分布的形状,因此,对于一个正态分布,可记为\n正态分布的特征1、单峰分布,以x=为中心,左右完全对称,正态曲线以x轴为渐近线,两端与x轴永不相交。2、在x=处有最大值,即此时曲线最高。3、有两个参数:位置参数,决定正态曲线在x轴上的位置;形状参数,决定正态曲线的分布形状。\n正态分布的特征在σ不变的情况下,函数曲线形状不变,若μ变大时,曲线位置向右移;若μ变小时,曲线位置向左移。在μ不变的情况下,函数曲线位置不变,若σ变大时,曲线形状变的越来越“胖”和“矮”;若σ变小时,曲线形状变的越来越“瘦”和“高”。\n正态分布的特征N(μ1,σ2)、N(μ2,σ2)N(μ,0.52)、N(μ,12)、N(μ,22)\n正态分布的特征\n正态分布的特征4、曲线下的总面积为1或100%。所有正态曲线,在左右的任意个标准差范围内面积相同\n曲线下面积\n正态分布曲线下的面积\n正态分布的应用许多医学现象服从正态分布或近似正态分布,可制定医学参考值范围;偏态分布的资料可转换为正态分布或近似正态分布,然后按照正态分布的规律进行处理;正态分布是许多统计分析方法的理论基础;\n标准正态分布对于任意一个正态分布,均可转换为均数为0,标准差为1的标准正态分布。标准化变换:u变换或Z变换u或Z叫标准化离差,实际就是用标准差作单位来度量离均差的大小。\n标准正态分布\n标准正态分布\n标准正态分布纵坐标从-∞移到u所对应区域的面积为上图红色区域面积的大小,这样一个区域的面积我们用Ф(u)表示,可通过查标准正态分布曲线面积分布表得到Ф(u)的大小。u值查表所对应的面积是区间(-∞,u)所对应的面积,即Ф(u)。若u=-1.96,那么Ф(-1.96)则表示从-∞移到-1.96所对应区域的面积,通过查标准正态分布曲线面积分布表得到Ф(-1.96)=0.025\n标准正态分布曲线下的面积\n医学参考值范围的确定正常值范围:按一定概率所确定的数据波动范围。计算方法:正态分布法、百分位数法\n医学参考值范围的确定选择足够数量的正常人作为参照样本对选定的参照样本进行准确地测定单双侧范围的确定选择适当的百分范围\n正态分布法正态性检验计算均数、标准差计算参考值范围双侧:单侧:或90%、95%、99%参考值范围95%参考值范围:单双侧的确定,要依据专业知识\n制定医学参考值范围的注意事项研究对象:“正常人”同质足够例数---有代表性控制误差:系统误差随机误差单双侧界值:专业知识适当的百分界值:假阳性(误诊)、假阴性(漏诊)\n医学参考值范围的含义95%的参考值范围:95%的变量值的波动范围;95%的变量值在这个范围内不可理解为:在参考值范围内的均为健康人,在参考值范围外的均不健康。\n统计推断\n基本概念总体:根据研究目的确定的同质个体构成总体。样本:从总体中随机抽取的部分个体,构成样本。抽样研究:从总体中随机抽取部分观察对象进行研究,通过样本信息来推断总体特征的研究方法。\n抽样误差由于抽样所导致的误差。某地区7岁男童的身高110cm样本1100例105cm样本2100例100cm样本3100例120cm由于随机抽样而引起的来自同一总体的样本均数之间以及样本均数与相应的总体均数之间的差异,称之为均数的抽样误差。\n标准误标准差:反映个体差异,反映变量值的变异程度。标准误:样本均数的标准差,用以反映抽样误差的大小。与总体标准差成正比,与样本含量的平方根成反比。一定时,n越大,标准误就越小,n越小,标准误就越大。影响抽样误差的主要因素是样本含量。\n标准误作为总体参数,通常是未知的,在实际工作中常用样本标准差S来估计。所以:作为标准误的估计值。\n中心极限定理样本均数的抽样分布特点:从正态总体中随机抽取例数为n的样本,其样本均数的分布服从正态分布;从非正态总体中抽样,当n足够大时,样本均数的抽样分布近似服从正态分布\n标准误的应用反映样本统计量变异程度的指标,常用来反映抽样误差的大小。用于计算总体均数的可信区间。进行假设检验所必需的重要统计量。\nt分布正态分布通过标准化转换可转换为标准正态分布。中心极限定理:样本均数的分布服从正态分布。u转换:\nt分布在实际工作中,是未知的,用来代替。因此,标准误估计值代替了理论标准误,因此,此时转化后的分布不再符合标准正态分布,而服从t分布。自由度t分布与自由度有关。不同的自由度对应不同的t分布曲线。\nt分布的特征以0为中心,左右对称的单峰分布。t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。当时,t分布即为u分布。t分布曲线的峰值较低,而尾部曲线较高,说明远侧t值的个数较多,自由度越小,这种情况越明显。\nt分布的特征t分布曲线下面积的分布规律由于t分布曲线是一组曲线,故t分布曲线下面积为95%和99%界值不是一个常量,随着自由度的变化,95%或99%面积的界值发生变化,当时,95%和99%面积对应的界值趋近于u值。\n总体均数的估计参数估计:点估计、区间估计点估计:样本统计量直接作为总体参数估计值区间估计:可信区间或置信区间CI。用已知的样本统计量和标准误确定一个有概率意义的区间,该区间有较大可信度包含总体参数。可信度:1-。95%、99%\n可信区间的含义如果能进行重复抽样试验,平均有1-的可信区间包含了总体参数。有1-的可能性包含了总体均数。\n假设检验的基本思想小概率反证法,即先建立一个关于样本所属总体的假设,考察在假设成立条件下随机样本的特征信息是否属小概率事件,若为小概率事件,则怀疑假设成立有悖于该样本所提供特征信息,因此拒绝假设。A疗效=B疗效A药65%B药80%?\n假设检验A有效率=B有效率A药65%B药80%抽样误差A有效率A药65%B药80%不同总体B有效率\n假设检验抽样误差不同总体μ0=72.1次/分74.3次/分μ74.3次/分μ0=72.1次/分=在μ=μ0的前提下,计算从这个总体中进行随机抽样,得到目前这样结果的概率有多大,然后与事先确定的检验水准0.05比较,得出结论。\n假设检验的步骤1建立检验假设和确定检验水准:无效假设H0:μ=μ0,即山区成年男子与一般成年男子的脉搏总体均数相同,或来自同一总体。备择假设H1:有单双侧之分。双侧H1:μ≠μ0单侧H1:μ>μ0或μ<μ0单双侧根据专业知识和研究目的而定。\n假设检验的步骤1单侧检验应特别注明。同一资料,单侧检验比双侧检验更易获得拒绝H0的结论。双侧检验更为稳妥和保守,多用双侧检验。如无特殊说明,一般均为双侧检验。\n假设检验的步骤1确定检验水准α是预先人为确定的概率,一般为0.05。表示拒绝实际上成立的H0时,推断错误的最大允许概率,即在拒绝H0做出“有差别”结论时可能犯错误的最大允许概率。就是一个标准。用于和P值比较,得出结论。P≤α时,拒绝H0,接受H1\n假设检验的步骤2计算检验统计量根据资料类型、试验设计方法、研究目的和各种统计检验方法的应用条件选择恰当的检验方法如t检验、方差分析等\n假设检验的步骤3确定P值,做出统计推断结论。根据计算出的检验统计量的抽样分布确定P值,与α比较,决定是否拒绝H0。\nt检验应用条件:1、样本含量较小时,理论上要求样本为来自正态分布总体的随机样本2、当两小样本均数比较时,要求两总体方差相等(方差齐性)\n单样本t检验用于样本均数与已知总体均数(一般为理论值,标准值或大量观察得到的稳定值)的比较。\n例建立假设和确定检验水准:H0:μ=μ0=9.3cmH1:μ>μ0=9.3cmα=0.05(单侧检验)计算检验统计量:\n例确定P值和做出推断结论:查附表2的t界值表,得单侧界值t0.05,11=1.796,因t=1.02570.05。按α=0.05水准,不拒绝H0,差别无统计学意义,还不能认为该山区正常产男婴双顶径大于一般男婴双顶径。\n配对设计两个同质受试对象分别接受两种不同处理同一受试对象分别接受两种不同处理同一受试对象治疗前后的比较(临床研究中最常见)配对的目的是使除研究因素以外的其他因素保持均衡,更具有可比性。\n配对t检验实质等同于单样本t检验。将每对数据转化为单个差值,进行差值的样本均数与已知总体均数μ0=0的比较。\n例建立假设和确定检验水准:H0:μd=0H1:μd>0α=0.05(单侧检验)计算检验统计量:\n例确定P值和做出推断结论:查附表2的t界值表,得单侧界值t0.05,7=1.895,因t=2.264>t0.05,7,故P<0.05。按α=0.05水准,拒绝H0,接受H1,差别有统计学意义,认为实验组大鼠血中胆碱酯酶活性高于对照组。\n完全随机设计两样本比较的t检验也叫成组设计的两样本均数比较的t检验。完全随机设计也叫成组设计。旨在推论两样本均数所代表的两总体均数是否不等。\n完全随机设计或成组设计预选对象受试对象B组纳入标准A组随机化数据来源于两个相互独立的样本常见的完全随机分组设计A组B组某种自然属性\n总体方差相等的t检验实质等同于单样本t检验。计算两组数据的差值,将差值作为新的变量,进行差值的样本均数与已知总体均数(μ1-μ2)=0的比较。\n例建立假设和确定检验水准:H0:μ1=μ2H1:μ1≠μ2α=0.05计算检验统计量:\n例确定P值和做出推断结论:查附表2的t界值表,得单侧界值t0.05/2,18=2.101,因|t|=4.22>t0.05/2,18,故P<0.05。按α=0.05水准,拒绝H0,接受H1,差别有统计学意义,可认为骨肌康治疗组小鼠琼脂肉芽肿平均重量低于乙醇对照组,即大剂量骨肌康搽剂对小鼠琼脂肉芽肿生长有抑制作用。\n方差齐性检验两组资料对应的总体方差相等,即方差齐性。由于抽样误差的存在,因此,也需进行假设检验。方差齐性检验(homogeneityofvariancetest)\n总体方差不等的近似t检验在两样本t检验时,若两总体方差不等,可考虑:1、变量变换2、秩和检验(基于秩的非参数检验)3、近似t检验(校正t检验或t’检验)Satterthwaite近似t检验:计算方法不变,只是对自由度进行校正。见例题4-9\n正态性检验两样本t检验:对应的两总体为正态总体,且方差齐单样本t检验:随机样本来自正态总体配对t检验:差值的总体为正态总体正态性检验的必要性。在两样本t检验比较之前,要进行正态性检验和方差齐性检验。\n推断结论P值与α进行比较,得出结论。P≤α,拒绝H0,接受H1,按α检验水准,得“差别有统计学意义”的结论。反之,P>α,不拒绝H0(表示没有充足的理由拒绝H0),按α检验水准,得“差别无统计学意义”的结论,但不能得“无差别”的结论,只能是“根据目前试验结果,尚不能认为有差别”。不拒绝H0不等于接受H0\n推断结论统计结论和专业结论专业结论:根据统计结论对实际问题中的总体特征是否不同以及差异的方向做出推断并给出合理的解释。\nP值与αP值:从H0所规定的总体中进行随机抽样,所观察到的比现有实验结果更为“极端”的样本检验统计量(小于等于或大于等于现有样本统计量)出现的概率。P值的大小不代表总体间差别的大小,不能认为P值越小,总体参数间的差别就越大。P值越小,说明H0成立的可能性越小,越有把握认为H0不成立。\nP值与αα:是预先人为确定的概率,一般为0.05。表示拒绝实际上成立的H0时,推断错误的最大允许概率,即在拒绝H0做出“有差别”结论时可能犯错误的最大允许概率。就是一个标准。用于和P值比较,得出结论。\n假设检验的两型错误-I型错误无论是拒绝H0,还是不拒绝H0,都有可能犯错误。I型错误(typeIerror):拒绝实际上成立的H0时,犯I型错误。大小为α。“弃真”I型错误的含义:在H0成立的条件下,重复100次试验,假设检验结果平均有5次拒绝H0。有单双侧。推断正确的可能性则为1-α。又称可信度。\nII型错误II型错误(typeIIerror):不拒绝实际上不成立的H0时(“存伪”),犯II型错误。大小为β。只取单侧,一般是未知的。只有在已知两总体参数差值δ(如μ1-μ2)、α和n时,才能估算。\n检验效能检验效能1-β:也叫把握度,其意义是:当两总体确有差别时,按现有的检验水准,假设检验能发现其差别的能力。单侧如1-β=0.90,其含义是若两总体确有差别,则理论上进行100次抽样,平均有90次能够得出差异有统计学意义的结论。\n检验效能进行样本量估计时,要用到检验效能,一般,定检验效能为0.80,或0.90.检验效能越大,样本量就越大。样本量小的时候,检验效能低,就容易得出假阴性的结论。即β较大。当出现阴性结果时,可能是确实没有差别,也可能是样本量小,检验效能太低,导致的假阴性。\nI型错误和II型错误真实情况假设检验结论拒绝H0不拒绝H0H0成立I型错误(α)推断正确(1-α)H1成立推断正确(1-β)II型错误(β)\nα和β不管拒绝H0还是不拒绝H0,都会犯错误。α和β的关系:α越小,β就越大;α越大,β就越小。要同时减小α和β,唯一的方法就是增加样本含量n。不可能同时犯I型错误和II型错误。拒绝H0时,只可能犯I型错误;不拒绝H0时,只可能犯II型错误。\n假设检验时应注意的问题假设检验结论的正确性是以概率为保证的:2.不能绝对化,在表述上避免使用“肯定”、“一定”、“必定”等词。3.统计结论和专业结论4.报告结论时,要列出检验统计量的值,并给出具体的P值或P值的范围。\n假设检验时应注意的问题假设检验的实际意义:统计意义与实际意义:有统计意义不代表有实际意义。统计意义只为临床研究提供依据,最后的结论还要结合专业知识来做出。当统计学有意义时,要结合专业知识判定是否有实际意义。当统计学无意义时,可能是确实没有差别或是假阴性。\n检验Chi-squaretest:卡方检验用于分类资料(计数资料)的统计推断,包括随机设计的两个或两个以上样本率的比较,两组或两组以上构成比的比较,配对设计的两样本率的比较等等。\n检验的基本思想例7-1:某神经科医师欲比较A、B两种药治疗脑血管栓塞病人的疗效,结果见下表。问两药治疗近期有效率是否有差别?\n检验的基本思想药物有效无效合计有效率(%)A73(65.7)9(16.3)8289.02B52(59.3)22(14.7)7470.27合计1253115680.13\n检验的基本思想四格表:有四个基本的数据,其余数据均可由这四个基本数据推出。四格表资料一般用于两组处理结果的比较。\n检验的基本思想在零假设成立的基础上,计算检验统计量\n检验的基本思想药物有效无效合计有效率(%)A73(65.7)9(16.3)8289.02B52(59.3)22(14.7)7470.27合计1253115680.13\n检验的基本思想在零假设成立时,计算得到每个格子的理论频数。若零假设成立,则实际频数与理论频数相差应该不大。因此,从卡方检验的公式可以看出,卡方检验实际是考察实际频数与理论频数的吻合程度。如果假设检验成立,出现大的卡方值的P值是很小的,若P≤α,就怀疑假设,因而拒绝它;若P>α,就无理由拒绝它。\n检验的基本思想卡方值的大小与格子数有关,格子数越多,卡方值越大,即卡方值的大小不仅与实际频数与理论频数的偏离程度有关,还与自由度有关。卡方检验的自由度为四格表的自由度为1.\n检验的基本步骤建立假设检验,确定检验水准H0:,即两组的总体有效率相同H1:,即两组的总体有效率不同α=0.05计算检验统计量确定P值,得出结论\n检验基本公式法专用公式:四格表专用公式连续性校正:n≥40,但1