- 606.02 KB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学基础知识\n一.医学统计学的意义1.统计学(statistics):应用数学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。2.医学统计学(statisticsofmedicine):应用统计学的原理与方法进行医学科研与实践。\n3.统计学方法的特点:(1)用数量反映质量1)体格检查(量血压、脉搏…)→个体健康质量2)考试分数→个体学习质量3)期望寿命→反映人群健康状况4)婴儿死亡率→反映卫生服务质量\n(2)用群体归纳个体2011年长沙市7岁男孩有多高?7岁男孩身高有高有矮,平均身高=119.5cm95%的长沙市7岁男孩的身高在110.20cm~129.20cm之间\n二、基本概念1、研究单位(观察单位、unit)、变量(variable)、变量值(valueofvariable)(1)研究单位(unit):研究中的个体。如:研究2011年长沙市7岁男孩身高的正常值范围1个人测得的身高值(120.2cm,118.6cm,121.8cm,…)\n2、同质(homogeneity)和变异(variation)研究长沙市2011年7岁男孩身高的正常值范围?同质:同长沙市、7岁、男孩、无影响身高的疾病。变异:长沙市2011年7岁男孩身高有高有矮\n3、总体(population)和样本(sample)(1)总体:是根据研究目的确定的同质研究单位的全体。更确切地说是同质研究单位某种变量值的集合。例如:调查某地2011年正常成年男子的红细胞数的正常值范围。总体:1)某地所有的正常成年男子2)某地所有的正常成年男子的红细胞数\n1)有限总体(finitepopulation):研究单位数是有限的。例如:调查某地2011年正常成年男子的红细胞数的正常值范围。2)无限总体(infinitepopulation):研究单位数是无限的。例如:高血压患者←无时间、空间限制。\n(2)样本(sample):是总体中抽取的有代表性的一部分。注意:随机抽样(无主观性)样本含量(samplesize):样本中包含的研究单位数。例如:某药治疗高血压患者30名样本含量(n)为30\n4、参数(parameter)和统计量(statistic)(1)参数:根据总体个体值统计计算出来的描述总体的特征量。一般用希腊字母表示(2)统计量:根据样本个体值统计计算出来的描述样本的特征量。一般用拉丁字母表示\n总体参数一般是不知道的统计学抽样研究的目的就是:样本统计量→总体参数5、抽样误差由于抽样原因所造成的样本统计量与总体参数之间的差别。特点:1)抽样误差是不可避免;2)有统计规律性。产生原因:个体差异(生物变异)\n6、频率(frequency)、概率(probability)、小概率事件(1)频率:一次随机试验出现各种可能结果的比例。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种,在重复多次后,出现“正面”或“反面”这个结果的比例称之为频率。\n(2)概率(probability)概率是度量随机事件发生可能性大小的一个数值。频率是就样本而言的,而概率从总体的意义上说的。\n0<P(A)<1随机事件P(A)=1必然事件P(A)=0不可能事件。\n(3)小概率事件:统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将称为小概率事件。\n湖南风采:中奖概率大约为:1/671万交通事故:发生概率为:1/20万\n三、统计资料的类型变量与统计资料的分类方法概述数值变量…………..构成计量资料分类变量无序分类变量………构成计数资料有序分类变量………构成等级资料\n2.数值变量与计量资料1)数值变量(numericalvariable):变量值是定量的,表现为数值大小,一般有度量衡单位。如:身高(cm)、体重(kg)。2)计量资料(measurementdata):由一群个体的数值变量值构成的资料,即一群变量值。如:长沙市2011年7岁男孩身高值(118.6cm,121.8cm…)\n3.无序分类变量与计数资料1)无序分类变量(unorderedcategoriesvariable):变量值是定性的,有类别。特点:类别是客观存在的,各类无秩序,可任意排列;类与类之间界限清楚,(理论上)不会错判。如:性别:男、女。血型:O、A、B、AB。2)计数资料(enumerationdata):一群个体按无序分类变量的类别清点每类有多少个个体,即分类个体数。如:某人群性别构成:男:6,女:7。某人群血型构成:O:20,A:35,B:30,AB:15\n4.有序分类变量与等级资料1)有序分类变量(ordinalcategoriesvariable):变量值是定性的、分等级。特点:等级是主观划分的,各级有秩序,从低到高或由高到低;级和级之间界限模糊,可能错判。如:疗效:无效、好转、显效、治愈。血清反应:–、+、++2)等级资料(rankeddata):一群个体按有序分类变量的级别清点每级有多少个个体,即分级个体数。如:某地某人群EB病毒抗体反应:–:65,+:5,++:6\n\n1.专业设计:选题、建立假说、确定研究对象和技术方法等2.统计设计:围绕专业设计确定统计设类型、样本大小、分组方法、统计分析指标及统计分析方法。四、医学统计工作的基本步骤设计\n统计设计的内容包括资料的搜集、整理和分析全过和的设想和安排。例如:研究目的和假说?研究对象和研究单位?研究因素(变量)?搜集哪些原始资料?用什么方式和方法取得这些原始资料?怎样整理汇总和计算统计指标?如何控制误差?预期会得到什么结果?需要多少经费?统\n(一)资料来源第一手资料①经常性:统计报表(死亡登记、疫情报告等),工作记录(病历、化验);②一时性:专题调查、实验或临床试验。第二手资料:已公布的资料,如数据银行、全国、全省卫生统计资料。收集资料\n分析资料1.统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行测定和描述。2.统计推断:用样本信息推断总体特征:①参数估计②假设检验。工具:1)foxbase数据库2)spss3)SAS\n五、数值变量资料的统计描述频数分布表(frequencytable):例从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇的测量结果如下,试编制频数分布表。\n\n频数表\n频数分布图\n统计图:指利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料。统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据。统计图\n统计图的结构标题:用于简明扼要地说明资料的内容,一般位于图的下方中央位置。图域:即制图空间,是整个统计图的视觉中心。除圆图外,一般都是存在于特定的坐标体系下。标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。图例:用于识别比较的统计图中各种图形所代表的含义。刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。\n常用的统计图直条图百分条图圆图线图半对数线图直方图散点图\n直条图/条图图12-1某省1979年四个地区脊髓灰质炎发病率\n图12-2某地1952年与1972年三种疾病死亡率比较\n图12-4复方猪胆囊治疗单纯型老年性气管炎疗效\n图12-520世纪70年代和80年代某地7常见恶性肿瘤发病构成比较\n图12-6某地1968-1974年结核病死亡率比较\n图12-7某地1949-1958年白喉、伤寒、副伤寒死亡率比较(普通线图)图12-8某地1949-1958年白喉、伤寒、副伤寒死亡率比较(半对数线图)请注意:在普通线图中,白喉死亡率线条的坡度比伤寒、副伤寒死亡率线条下降的陡峭,只能说明两种疾病的死亡率逐年变化幅度不同,不能错认为白喉死亡率的下降速度比伤寒、副伤寒死亡率的下降速度快。在半对数线图中就不会出现这种错觉。\n频数红细胞数(×1012/L)图12-9140名正常男子红细胞计数的直方图\n图12-101997年某地乙型病毒性脑膜炎病例的年龄分布12345678910~15~20~25~30~35~年龄(岁)\n散点图(scatterchart)散点图:使用点的密集程度和趋势来表示两种指标或变量间的相关关系。图10-1212名女大学生身高与体重散点图\n\n\n(一)平均指标1.算术均数(mean):可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征。适用范围:对称分布,尤其正态分布计量资料的描述指标\n计算方法\n例:从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇()的测量结果如下:\n\n2.中位数中位数(median):是将变量值从小到大按顺序排列,位置(位次)居于中间的那个变量值。1,3,7,5,>100中位数为多少?\nn为奇数时n为偶数时\n例7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。本例n=7,为奇数例8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。本例n=8,为偶数\n应用适用于:1、各种分布类型的资料2、特别是偏态分布资料和开口资料(一端或两端无确切数值的资料)。\n3、几何均数几何均数(geometricmean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。计算方法\n例某地5例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为,10,20,40,40,160,求几何均数。适用于成等比级数的资料,特别是对数正态分布资料。\n(二)变异指标例三组同龄男孩的身高值(cm)\n1.极差极差(R):即一组变量值最大值与最小值之差。\n2.方差(variance)也称均方差,即将离均差平方和用样本含量n取平均,可反映一组数据的平均离散水平。总体方差--,样本方差--。\n样本标准差用s表示公式:3.标准差\n计算三组资料的标准差甲组:\n4、百分位数百分位数(percentile)是一种位置指标。一个百分位数将全部变量值分为两部分,在不包含的全部变量值中有的变量值比它小,变量值比它大。\n变异系数(coefficientofvariation,CV),多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。5.变异系数\n例:某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.59kg,标准差为2.26kg,比较其变异度?\n第五章 计数资料的统计描述常用的相对数:一、率。二、构成比三、相对比\n第一节常用相对数一、率率:说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示,计算公式为:\n例5-1某医院1998年在某城区随机调查了8589例60岁及以上老人,体检发现高血压患者为2823例。高血压患病率为:2823/8589100%=32.87%。\n2、构成比构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。其计算公式为\n例7-22某正常人的白细胞分类计数\n三、相对比相对比简称比(ratio),是两个有关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,如医院的门诊人次与病床数之比。通常以倍数或百分数(%)表示。\n例5-3某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/358×100=103,说明该医院该年每出生100名女婴儿,就有103名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。\n第二节应用相对数的注意事项1、计算相对数应有足够数量即分母不宜太小。如果例数较少会使相对数波动较大。如某种疗法治疗5例病人5例全部治愈,则计算治愈率为5/5×100%=100%,若4例治愈,则治愈率为4/5×100%=80%,由100%至80%波动幅度较大,但实际上只有1例的变化。在临床试验或流行病调查中,各种偶然因素都可能导致计算结果的较大变化,因此例数很少的情况下最好用绝对数直接表示。\n2、不能以构成比代替率构成比是用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强度,在实际工作中经常会出现将构成比指标按率的概念去解释的错误例如表5-2研究已婚育龄妇女在不同情况下放置避孕环与失败率的关系。\n\n3.正确计算合计率对分组资料计算合计率或称平均率时,不能简单地由各组率相加或平均而得,而应用合计的有关实际数字进行计算。例如用某疗法治疗肝炎,甲医院治疗150人,治愈30人,治愈率为20%;乙医院治疗100人,治愈30人,治愈率为30%。两个医院合计治愈率应该是[(30+30)/(150+100)]×100%=24%。若算为20%+30%=50%或(20%+30%)/2=25%,则是错的。\n4.注意资料的可比性在比较相对数时,除了要对比的因素(如不同的药物),其余的影响因素应尽可能相同或相近。在临床研究和动物实验时,应遵循随机抽样原则进行分组。\n5.对比不同时期资料应注意客观条件是否相同例如,疾病报告制度完善和资料完整的地区或年份,发病率可以“升高”;居民因医疗普及,就诊机会增加,或诊断技术提高,也会引起发病率“升高”。因此在分析讨论时,应根据各方面情形全面考虑,慎重对待。6.样本率(或构成比)的比较应做样本率(或构成比)假设检验。\n假设检验过去称显著性检验。它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。七、统计推断\n例3-5某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?130.83g/L≠140g/L原因:1.可能是总体均数不同2.是抽样造成的\n\n假设检验应注意的问题(1)要有严密的研究设计这是假设检验的前提。组间应均衡,具有可比性,也就是除对比的主要因素(如临床试验用新药和对照药)外,其它可能影响结果的因素(如年龄、性别、病程、病情轻重等)在对比组间应相同或相近。保证均衡性的方法主要是从同质总体中随机抽取样本,或随机分配样本。\n(2)变量变换常用的变量变换有对数变换、平方根变换、倒数变换、平方根反正弦变换等。\n(3)合理选用检验方法应根据分析目的、资料类型以及分布、设计方案的种类、样本含量大小等选用适当的检验方法。\n(4)正确理解“显著性”一词的含义差别有或无统计学意义,过去称差别有或无“显著性”,是对样本统计量与总体参数或样本统计量之间的比较而言,相应推断为:可以认为或还不能认为两个或多个总体参数有差别。\n(5)结论不能绝对化因统计结论具有概率性质,故“肯定”、“一定”、“必定”等词不要使用。在报告结论时,最好列出检验统计量的值,尽量写出具体的P值或P值的确切范围,如写成P=0.040或0.02