医学统计学基础延安市人民医院消化内科左文革\n60年代到80年代,国外医学杂志调查表明:20%~72%的论文有统计错误。1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果为:相对数误用占11.2%,抽样方法误用占15.9%,统计图表误用占11.7%1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。2001年《中华预防医学杂志》:中华医学会系列杂志误用约54%(1995)。1996年,有机构对申报科技成果的4586篇科研论文分析,统计方法使用率为76%。医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。\n医学统计学基本名词医学统计学(medicalstatistics)---是以医学理论为指导,运用数理统计学的原理和方法研究医学资料的搜集、整理与分析,从而掌握事物内在客观规律的一门学科。统计学方法的特点:用数量反映质量\n医学统计学基本名词概率(probability):是描述随机事件发生可能性大小的量值。用英文大写字母P来表示。概率的取值范围在0~1之间。当P=0时,称为不可能事件;当P=1时,称为必然事件。小概率事件:统计学上一般把P≤0.05或P≤0.01的事件称为小概率事件。小概率原理:小概率事件在一次试验中几乎不可能发生。利用该原理可对科研资料进行假设检验。\n医学统计学基本名词总体(population):是根据研究目的确定的同质研究单位的全体。更确切地说是同质研究单位某种变量值的集合。样本(sample):是从总体中随机抽取的有代表性的部分观察单位变量值的集合。样本的例数称为样本含量(samplesize)。注意:1。总体是相对的,总体的大小是根据研究目的而确定的。2。样本应有代表性,即应该随机抽样并有足够的样本含量。\n图示:总体与样本populationsample2sample1sample3sample4sample5\n医学统计学基本名词参数(parameter):由总体计算或得到的统计指标称为参数。总体参数具有很重要的参考价值。如总体均数μ,总体标准差σ等。统计量(statistic):由样本计算的指标称为统计量。如样本均数,样本标准差s等。抽样误差(sampleerror):由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差别称为抽样误差。\n医学统计学基本名词计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurementdata)。其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(countdata)。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O四种血型的人数等。\n医学统计学基本名词等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata)。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。\n医学统计学基本名词正态分布:概率论中最重要的一种分布,也是自然界最常见的一种分布。该分布由两个参数——平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近。\n正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。高峰在均数处;均数两侧完全对称。正态曲线下的面积分布有一定的规律。\n——正态曲线下的面积分布规律μ±1σ占正态曲线下面积的68.27%μ±1.96σ占正态曲线下面积的95.00%μ±2.58σ占正态曲线下面积的99.00%若n>100,则μ可用X代替,σ用s代替。--2.58-1.96-1+1+1.96+2.582.5%1.0%\n医学统计学基本名词直线相关:又称线性相关,是指两列变量中的一列变量在增加(或减少)时,而另一列变量随之而增加(或减少),或这一列变量在增加时,而另一列变量则相应地减少。它们之间存在一种直线关系。直线相关可用直线拟合。\n\n医学统计学基本方法多元线性回归:在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。1.应变量Y为正态分布数值变量多重线性回归2.应变量Y为二分类(或多分类)定性变量或等级变量logistic回归3.应变量Y为二分类结局变量和生存时间Cox回归\n案例[抛硬币]:连续抛一枚硬币次,记录出现正面的次数.下表列出了历史上一些科学家试验的结果:实验者投掷次数发生正面向上的次数频率道蒙津204610610.5186蒲丰404020480.5069K.皮尔逊1200060190.5016K.皮尔逊24000120120.5005证实:当试验次数逐渐增大时,频率值越来越稳定地接近于某一固定值。\n医学统计学基本方法定量资料的描述集中趋势:算术均数几何均数中位数百分位数离散趋势:极差四分位数间距标准差、方差变异系数\n某地140名成年男子红细胞数(×1012/L)的频数分布表红细胞数组中值(X)频数(f)fX3.80~3.9027.84.00~4.10624.64.20~4.301147.34.40~4.5025112.54.60~4.7032150.44.80~4.9027132.35.00~5.101786.75.20~5.301368.95.40~5.50422.05.60~5.70211.45.80~6.005.9015.9合计—140(∑f)669.8(∑fx)X=∑fx∑f=669.8140=4.78(×1012/L)\n滴度例数(f)滴度倒数(x)lgxflgx1:403401.6024.811:8022801.90341.871:160171602.20437.471:32093202.50522.551:64006402.8060.001:1280112803.1073.11合计∑52——109.79麻疹患者恢复期血清麻疹病毒特异性荧光抗体滴度=129.21:129Lg–1=∑flgx∑f〔〕=Lg–1109.7952〔〕G=\n医学统计学基本方法百分位数描述观察序列在百分位置的水平,是分布的百分界值,可用于确定医学参考值范围,适用于任何分布。①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。\n∑X2-(∑X)2/nn-1√S=5人收缩血压测定结果(mmHg):162145178142186∑X=813∑X2=133317√=133317–(813)2/55–1=19.49mmHg\n某地140名成年男子红细胞数(×1012/L)的频数分布表红细胞数组中值(X)频数(f)fXfX23.80~3.9027.830.424.00~4.10624.6100.864.20~4.301147.3203.394.40~4.5025112.5506.254.60~4.7032150.4706.884.80~4.9027132.3648.275.00~5.101786.7442.175.20~5.301368.9365.175.40~5.50422.0121.005.60~5.70211.464.985.80~6.005.9015.95.90合计(∑)—140669.83224.20∑fX2-(∑fX)2/nn-1√S=√=3224.20–(669.8)2/n140-1=0.38\n标准差用途:1.表示同质变量值的离散程度,用于两组变量值比较时,要求其性质相同,均数相差不大.2.与均数结合,表示均数的代表性(x±s),同时描述正态分布特征3.与均数结合,计算变异系数4.与样本含量(n)结合,计算标准误\n例1:比较7岁男孩身高与体重的变异程度身高:X1=123.10cmS1=4.71cm体重:X2=22.29kgS2=2.26kgCV(%)=×100%SXCV1=4.71/123.10×100%=3.83%CV2=2.26/22.29×100%=10.14%■\n用频数表法计算L中位数所在组组段的下限iM中位数所在组组段的组距fM中位数所在组的频数fL中位数所在组前一组的累计频数M=L+(-fL)iMfMn2\n某地630名正常女性血清甘油三酯(㎎/dl)含量甘油三酯频数累积频数累计频率(%)10~27274.340~16919631.170~16736357.6100~9445772.5130~8153885.4160~4258092.1190~2860896.5220~1462298.7250~462699.4280~362999.8310~1630100.0合计630——M=L+(-fL)iMfMn2=70+30/167×(630/2-196)=91.4㎎/dl\nixPx=L+(n·x%-fL)fx附:百分位数Percentile,Px描述变量值序列在某百分位位置的水平,多个百分位数结合可更全面地描述变量值的分布特征。LPx所在组组段的下限ixPx所在组组段的组距fxPx所在组的频数fLPx所在组前一组的累计频数\n4.四分位数间距(Quartile,Q)﹡四分位数间距为特定的百分位数,可看作为中间1/2变量值的全距Q=Qu—QL,Qu=P75(上四分位数)QL=P25(下四分位数)﹡用途:用于表示偏态分布资料的变异程度,常与中位数配合使用P25P75ABM\n常用平均数的对比名称意 义应用场合均数平均数量水平 应用甚广,适用于对称分布,尤其是正态分布几何均数平均增(减)倍数等比资料;对数正态分布中位数位次居中的观察值水平 偏态分布;分布不明;分布末端无确定值。\n三、离散趋势(tendencyofdispersion)描述变量值的离散趋势用变异指标全距(极差)四分位数间距常用变异指标方差标准差变异系数百分位数法离均差法\n——常用变异指标2.方差(Variance)和标准差(Standarddeviation)﹡定义公式∑(X—μ)2∑(X—μ)2σ2=σ=NN∑(X—X)2∑(X—X)2S2=S=n—1n—1为总体标准差s为样本标准差\n3.标准误的计算公式σσχ=σχ:总体标准误√nSSχ=Sχ:样本标准误,√n为σχ的估计值4.标准误的意义1)表示抽样误差的大小2)与均数结合表示样本均数对总体均数的代表性(x±Sx)\n标准差与标准误的区别比较内容标准差标准误意义表示个体观察值间的变异程度表示样本均数间的变异程度或样本率与总体率分散程度的指标计算方法计算应用①表示一组观察值之间的变异程度②计算均数的标准误③计算参考值范围①表示抽样误差的大小,说明样本均数的可靠程度②估计总体参数的可信区间③进行总体参数的假设检验\nt检验的应用条件n较小时(如n>50),理论上要求样本取自正态总体两小样本均数比较时,要求两总体方差相等\n表4.4新药组与安慰剂组血清总胆固醇含量(mmol/L)配对号新药组安慰剂组差值d14.46.2-1.825.05.2-0.235.85.50.344.65.0-0.454.94.40.564.85.4-0.676.05.01.085.96.4-0.594.35.8-1.5105.16.2-1.1\n以|t|=|-1.542|=1.542,查附表2,t界值表的双尾概率0.10
50且n2>50)时,u值可按下式计算:两样本均数比较的u检验\n医学统计学基本方法标准化率(standardizedrate)亦称调整率(adjustedrate)。常用的计算方法按已知条件有:直接法:间接法:不讲。反推法:不讲。2。选择标准人口的方法:1)选择两地数据之一的人口数或构成比;2)选择两地数据之和的人口数或构成比;3)选择当地或全国的人口数或构成比;4)国际间比较选用世界通用标准。\n年龄组甲地乙地人口数死亡人数死亡率人口数死亡人数死亡率0~930053257.2480034972.95~12200443.66600304.620~190001015.3353002547.240~76009212.128003914.260~19007640.05002346.0合计5000084516.95000069513.90\n年龄组标准人口数甲地乙地(岁)(Ni)原死亡率pi预期死亡数Npi原死亡率pi预期死亡数Npi(1)(2)(3)(4)=(2)(3)(5)(6)=(2)(5)0~1410057.280772.910285~188003.6684.68620~543005.32887.239140~1040012.112614.214860~240040.09646.0110合计100000(N)16.191385(ΣNipi)13.901763(ΣNipi)\n医学统计学基本方法检验目的:推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率的多重比较两个分类变量之间有无关联性频数分布拟合优度的检验。检验统计量:应用:计数资料\n甲乙两种疗法治疗肺癌生存率比较的四格表疗法生存死亡合计nC生存率%ATAT甲22(25.21)24(20.79)4647.83乙35(31.79)23(26.21)5860.34合计nR5747104n54.81基本公式:(A-T)22=—————TnRnCTRC=nA实际值T理论值=(行-1)(列-1)=(R-1)(C-1)\n3.2检验的种类(1)四格表资料的2检验(2testforfourfoldtable)目的:用于两个样本率或构成比的比较,推断两个样本所代表的总体率(或总体构成比)是否相等。专用公式:(ad-bc)2n2=————————————(a+b)(c+d)(a+c)(b+d)基本公式:(A-T)22=—————T=1\n甲乙两种疗法治疗肺癌生存率比较的四格表疗法生存死亡合计生存率%甲22244647.83乙35235860.34合计574710454.81(a)(b)(c)(d)(a+b)(c+d)(a+c)(b+d)(n)(ad-bc)2n2=————————————(a+b)(c+d)(a+c)(b+d)2=(22×23-24×35)2×10446×58×57×47=1.62P>0.05\n医学统计学基本方法T<1,或n<40时,需用确切概率法计算。确切概率计算法(a+b)!(c+d)!(a+c)!(b+d)!P=————————————a!b!c!d!n!\n(3)配对资料的四格表2检验(2testofpairedcomparisionofenumerationdata)用于配对设计的计数资料。配对的方法:1)同源配对:是通过两种不同的处理方法对同一样品进行处理,从而推断两种处理方法的结果有无差别。\n2)异源配对:以一定的条件把观察对象配成对子,研究某种因素的作用或影响。肺癌的病例对照研究肺癌合计吸烟不吸烟吸烟aba+b对照不吸烟cdc+d合计a+cb+dn\na:甲+乙+b:甲+乙-C:甲-乙+d:甲-乙-甲法阳性率:35/50=70%乙法阳性率:30/50=60%公式:两种结核杆菌培养基的培养效果比较甲培养基乙培养基合计+-+231235-7815合计302050(a)(b)(c)(d)(|b-c|-1)22=——————,=1b+c\n医学统计学基本方法秩转换的非参数检验先将数值变量从小到大,或等级从弱到强转换成秩后,再计算检验统计量应用范围对于计量资料:1.不满足正态和方差齐性条件的小样本资料;2.分布不明的小样本资料;3.一端或二端是不确定数值(如<0.5、>5.0等)的资料(必选);对于等级资料:若选行×列表资料的检验,只能推断构成比差别,而选秩转换的非参数检验,可推断等级强度差别。\n医学统计学基本方法注意:如果已知其计量资料满足(或近似满足)检验或检验条件,当然选检验或检验,因为这时若选秩转换的非参数检验,会降低检验效能。\n\n医学统计学基本方法\n医学统计学基本方法单个样本中位数和总体中位数比较两个独立样本比较的Wilcoxon秩和检验\n\n表8-5肺癌病人和矽肺0期工人的RD值(cm)比较\n医学统计学基本方法频数表资料和等级资料的两样本比较例8-439名吸烟工人和40名不吸烟工人的碳氧血红蛋白HbCO(%)含量见表8-6。问吸烟工人的HbCO(%)含量是否高于不吸烟工人的HbCO(%)含量?\n表8-6吸烟工人和不吸烟工人的HbCO(%)含量比较\n\n③计算u值\n统计表统计图\n统计表统计图\n统计表统计图\n统计表统计图\n\n