- 5.12 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
医学统计学\n主要内容1234前言医学研究资料的统计处理统计表与统计图医学统计资料的统计描述\n统计是什么?WhatisStatistics?若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。FlorenceNightingale1820一1910一、前言\nFlorenceNightingale在她的时代,各医院的统计资料非常不准确。但是南丁格尔却有先知灼见,她认为医学上的统计资料,有助于改进医疗与护理的方法与措施,而最后可促进医学的进步。1858年《影响英国军队健康、效率以及医院行政的笔记》。这本书被称为“有史以来写得最好的一本统计图表书籍”。\nFlorenceNightingale在书中,有一个章节是她所做的统计图表;她是以图表陈述统计数据的先驱者,也是首位发明圆饼图(Polar-areaCharts,或称为PieCharts),用来呈现统计数据比率的人。1858年,她获选为英国统计学会的第一位女性会员,不久又成为美国统计学会的荣誉会员。\n6\n统计学是收集、分析、解释与呈现数据资料的一门科学。医学统计学--是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。什么是统计学?\n天气预报生活中的统计数据\n数据处理的工具和技能\n同质与变异变量与变量值参数与统计量总体和样本概率误差二、医学研究资料的统计处理(一)常用基本概念\n(一)常用基本概念同质与变异同质:被研究指标的影响因素相同。e.g.比较两种不同药物的降压效果。在医学研究中,对被观测指标有影响的可控制的非实验因素达到相同或基本相同就可认为是同质。同质性是构成研究总体的必备条件;研究内容不同,对同质性的要求不同;实验因素观测指标实验因素观测指标\n制定血红蛋白参考值范围时:\n制定白细胞参考值范围时:\n同质与变异变异(variation)是指在同质的基础上各观察单位(或个体)之间的差异。e.g.同为20岁健康男大学生,身高有高有矮、体重有重有轻,这种差异就是变异。不可控因素作用下所产生的一种综合表现。结果是随机的。个体变异是普遍存在的。个体变异是有规律的。没有个体变异,就没有统计学!(一)常用基本概念\n变量及变量值变量是指观察单位的某项特征或指标。e.g.人的年龄、性别、身高、体重等。变量值是变量的观察结果。e.g.定性结果:男、女;已婚、未婚……定量结果:厘米、千克……(一)常用基本概念\n(一)常用基本概念总体和样本总体是根据研究目的确定的同质观察单位某种变量值的集合。有限总体:调查某地成年女性红细胞数。无限总体:调查A厂30岁成年女性红细胞数。样本是指在研究总体中随机抽出一部分个体进行观察或测量,这些个体的测量值构成的集合。挪威统计学家凯尔(A.N.Kiaer),1895年提出抽样调查。\n参数与统计量描述总体特征的有关指标,称为参数。未知的,固有的,不变的!反映样本特性的有关指标,称为统计量。已知的,变化的,有误差的!(一)常用基本概念\n平均身高μ总体样本平均身高总体参数样本统计量\n概率又称机率。是描述事件发生可能性大小的一个度量,常用P来表示,取值范围为0≤P≤1。(一)常用基本概念1.不可能事件:P=02.必然事件:P=13.随机事件:0〈P〈1\n随机机会均等随机抽样有相同的机会被抽到随机分组有相同的机会被分到不同的组中实验顺序随机先后接受处理的机会相同(一)常用基本概念\n抛硬币试验在概率的统计学定义上的诠释试验者投掷次数出现“正面”次数频率XXX20120.6000Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.5005\n(一)常用基本概念\n当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数:随机事件A发生的概率。频率:用随机事件A发生表示观察到某个可能的结果,则在n次观察中,其中有m次随机事件A发生了,则称A发生的比例为频率。显然有。(一)常用基本概念\n小概率原理当某事件发生的概率P≤0.05或P≤0.01时,统计学上称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。小概率原理是进行统计推断的依据。(一)常用基本概念\n小概率原理小概率事件在一次试验中认为是不会发生的。\n误差指实际测量值与真实什之差。(一)常用基本概念1.系统误差:P=0—可避免2.随机测量误差:P=1—不可避免,可控3.抽样误差:0〈P〈1—不可避免,不可控1.系统误差:P=0—可避免2.随机测量误差:P=1—不可避免,可控3.抽样误差:0〈P〈1—不可避免,不可控\n(一)常用基本概念抽样误差指由抽样引起的样本统计量与总体参数间的差别。原因:个体差异+抽样表现:样本统计量与总体参数间的差别不同样本统计量间的差别抽样误差是有规律的!\n数值变量资料分类变量资料(二)医学统计资料的类型无序多分类有序多分类(等级资料)二分类多分类二分类多分类无序多分类有序多分类(等级资料)无序多分类有序多分类(等级资料)二分类多分类无序多分类有序多分类(等级资料)\n数值变量资料以定量方法表达每个观察单位的某项观察指标,又称定量资料或计量资料。①变量值是固定的,有度量衡单位:cm、kg、kPa特征②数据间有连续性:体重55kg~60kg③统计描述指标有④统计推断方法:t检验、u检验、方差分析、相关回归(二)医学统计资料的类型集中趋势:平均数离散趋势:标准差\n分类变量资料将观察单位按某种属性来分类计数的资料,亦称定性或计数资料。①数据为整数,无度量衡单位特征②统计描述指标常用相对数:率、构成比、相对比③统计推断方法:u检验、X2检验分类(二)医学统计资料的类型二分类:有效、无效;阴性、阳性多分类:血型:A、B、O、AB无序多分类有序多分类:(等级资料)治愈、好转、无效、死亡;+、++、+++、++++\n住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月20224662515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月观察单位observations个体individuals变量variablesQuantitativedata计量资料Qualitativedata计数资料Units;elements\n三类资料间关系例:一组2040岁成年人的血压以12kPa为界分为正常与异常两组,统计每组例数<8低血压8正常血压12轻度高血压15中度高血压17重度高血压计量资料等级资料计数资料\n资料的转化(变量类型的转化)数值变量等级资料等级资料积分制计量资料如测得5人的WBC(个/m3)数如下:300060005000800012000数值变量过低正常正常正常异常等级变量•若按正常3人,异常2人分组→二分类变量•若按过低1人,正常3人,过高1人分组→等级资料\n1.设计:根据研究目的制定计划。2.收集资料:根据设计要求获取准确完整的原始资料。来源3整理资料:条理化、系统化4.分析资料:按设计要求和资料类型对数据进行分析。(三)医学统计工作的基本步骤统计报表日常工作记录专题调查核查资料设计分组分类汇总质量分组数量分组统计描述:用指标或图表描述资料的数量特征分布规律。统计推断:用样本信息推断总体特征。参数估计假设检验\n(一)统计表的概念将统计分析的事物与指标用表格列出整理资料的整理表广义狭义统计表统计分析结果的描述表报表统计分析结果的描述表搜集资料的登记表与调查表二、医学研究资料的统计处理\n●代替冗长的文字叙述,简明、有条理地罗列数据与统计量,方便阅读、比较与计算;●展示数据的结构、分布和主要特征,便于在进一步分析中选择与计算统计量。(二)统计表的作用\ne.g.某外科医生统计了32例老年胆道感染死亡病例的死亡相关因素32例胆道感染死亡病例中,有顽固性休克的31例,占所有死亡病例的91.17%;有急性肺衰者30例,占所有死亡病例的88.23%;有急性肾衰者9例,占所有死亡病例的26.47%;有胆源性败血症者10例,占所有死亡病例的29.41%;有急性肝衰的3例,占所有死亡病例的8.82%;有低血钾者20例,占所有死亡病例的58.82%;有代谢性酸中毒者18例,占所有死亡患者的52.95%;多发性肝衰者1例,占所有死亡病例的2.94%。\n死亡相关因素例数占死亡人数百分比(%)顽固性休克3191.17急性肺衰3088.23低血钾2058.82代谢性酸中毒1852.94胆源性败血症1029.41急性肾衰926.47急性肝衰38.12多发性肝衰12.9432例老年胆道感染死亡病例死亡相关因素\n(三)统计表的结构⒈形式:标题:概括说明表的内容、地点与时间标目:横标目:说明横行数字涵义纵标目:说明纵列数字涵义总标目:横标目或纵标目的概括线条:数字:备注:对表或表内项目的说明2.内容:主语:被描述的事物宾语:被描述事物的指标\n表号标题(可包括时间、地点)宾语主语(三)统计表的结构\n(四)统计表的种类1.简单表(simpletable)主语只按一个主要标志分组某地1980年男、女HBsAg阳性率性别调查数阳性数阳性率(%)男女合计42343037.1645301814.0087644845.52\n2.复合表(combinativetable)主语按两个或两个以上主要标志分组复方猪胆胶囊治疗老年慢性气管炎的近期疗效类型例数病情疗效重中轻治愈显效好转无效单纯型喘息型合计13654316098511218293563323836511403229110648318111623(四)统计表的种类\n(五)编制统计表的原则●重点突出,一张表只表达一个中心内容。●主语在左,宾语在右,从左至右构成一句完整而通顺的话。●简单明了,文字、数字与线条尽量简洁。\n(六)编制统计表的要求1.标题概括说明表的内容,必要时注明时间和地点,字数一般不超过20个。常见缺点:过于简单;过于繁琐;题意不确切、具体。\n表×1992年某市机械工业生产性外伤分类(六)编制统计表的要求\n2.标目:简明确切,有单位的要注明单位。常见缺点:标目层次过多;含意不确切;有单位的标目没有注明单位。(六)编制统计表的要求\n中山市死亡率(1/10万)南澳县死亡率(1/10万)年龄(岁)男女合计男女合计10~0.470.150.21………20~2.641.351.991.031.851.4630~17.446.5412.047.101.064.3440~43.8817.2330.969.0313.2911.1850~64.8726.4645.4732.2025.7828.7660~76.8925.2349.1626.338.2716.2170~54.1712.2932.2853.1012.5723.1980~34.018.0414.147.5515.2710.19表×广东省两市县1970~1988年鼻咽癌死亡情况(六)编制统计表的要求\n3.线条:(六)编制统计表的要求\n4.数字:●一律用阿拉伯字表示;●准确;●整齐:同一指标的小数位数应一致;位次对齐。●表内不留空格:暂缺或未记录不应出现数字—数字为零0(六)编制统计表的要求\n5.备注:非表中必要的元素,一般不列入表内,必要时可用“”标出,写在表的下面。(六)编制统计表的要求\n(六)编制统计表的要求\n原表1.层次不清,结构混乱,难于理解。2.线条过多。(七)统计表绘制中常见的错误与改正\n修改后﹡包括癌437例,肉瘤101例,其他恶性肿瘤20例。(七)统计表绘制中常见的错误与改正\n表11不同溶液冲洗伤口效果比较1.横标目和纵标目倒置。2.比例基数未放置在标目中。3.多余的横竖线条。(七)统计表绘制中常见的错误与改正\n表11不同溶液冲洗伤口效果比较修改后(七)统计表绘制中常见的错误与改正\n1.标目设置不当,横纵标目未分,主宾不明。2.合计项设置不当。3.体重分组表示不规范。4.比例基数未放置在标目中。(七)统计表绘制中常见的错误与改正\n修改后(七)统计表绘制中常见的错误与改正\n原表(七)统计表绘制中常见的错误与改正\n修改后(七)统计表绘制中常见的错误与改正\n原表西药组中西药结合组结果结果并发症例数良好死亡例数良好死亡休克136710100表14两种疗法治疗急性心肌梗死并发休克的疗效比较(七)统计表绘制中常见的错误与改正\n修改后表14两种疗法治疗急性心肌梗死并发休克的疗效比较(七)统计表绘制中常见的错误与改正\n用点的位置、线段的升降、直条的长短及面积的大小等几何图形表达事物的统计指标大小、对比关系及变化趋势。(八)统计图的概念\n(九)统计图的作用●使统计数据形象化,便于读者领会统计资料的核心内容,且印象深刻。●结果的表达直观形象,便于分析比较。●使得医学文献生动活泼,具有吸引力。●不足:只能提供概略情况,不能获得确切数值。\n(十)统计图的结构标题:放在图的下方。标目:横标目—说明横轴的内容,通常为分组因素。纵标目—说明纵轴的指标和单位,通常为被描述事物的指标。刻度:坐标轴的刻度单位。图例:对统计图中的线条、颜色进行说明,位于右上角或下方中间位置。\n(十)统计图的结构\n条图(barchart)圆图(piechart)百分比条图(percentbarchart)线图(linegraph)直方图(histogram)散点图(scatterdiagram)统计地图(statisticalmap)数据分析中应用:箱式图、茎叶图、残差图等。(十)统计图的种类\n1.按资料的性质和分析目的选用适合的图形:间断性资料—条图、圆图、百分条图;连续性资料—线图、直方图。2.要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。3.条图、线图和直方图都有纵轴与横轴。纵横坐标长度的比例一般约5:7为宜。4.比较不同事物时,用不同的线条或颜色表示,要附图例说明。(十一)绘制统计图的基本要求\n5:71:33:1(十一)绘制统计图的基本要求\n1.条图(barchart)用等宽直条的长短来表示相互独立的各统计指标的数值大小。分为:①单式条图:具有一个统计指标,一个分组因素;②复式条图:具有一个统计指标,两个分组因素;③分段条图:具有两个有隶属关系的统计指标,一个分组因素。(十二)常用统计图形的选择和绘制\n0.70.8北非及中东西欧北美洲拉丁美洲南非及东南亚图2-81998年世界不同地区艾滋病流行情况地区00.10.20.30.40.50.6成人感染率/%单式条图\n\n图2-9某工厂职工1994年、1998年四项生理指标异常检出率0246810血压心率TTTGPT四项生理指标检出率/%1994年1998年复式条图\n\n分段条图\n\n绘制条图的注意事项(1)纵轴刻度必须从“0”开始,否则会改变各对比组之间比例关系;(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身自然顺序排列;(3)各直条的宽度要一致,间隔的宽度一般与直条的宽度相等或为直条宽度的一半。76543210甲乙\n2.圆图(piechart)●定义:用圆的总面积表示事物的全部,用各个扇形面积(圆心角大小)表示各部分比重,适用于各构成比相加为100%的资料。●绘制:(1)计算各部分的角度:圆心角(度)=各部分百分比360°(2)绘制图形:先画出圆形,再借助量角器画出各圆心角。(3)图例:各扇形内要注明简要的文字和百分比,还可绘入花纹或色彩。\n\n3.百分比条图(percenbarchart)定义:用一个矩形的面积表示事物的全部,而用其中各段表示各构成部分。绘制:用纵轴表示分组因素,用横轴表示累计百分比,最大刻度为100%。注意:(1)各条内部的百分构成排列顺序和图例应一致;(2)各个百分数值应在图内注明,其名称可用图例说明,也可标在图内。\n春夏秋冬27.9523.5219.8728.6624.1520.0224.5231.310%20%40%60%80%100%1990-1997年1974-1989年上海市某区居民脑血管病死亡季节分布\n4.线图线图(linechart)用线段的升降来表示一事物随另一事物变化的趋势,适用于连续性资料(如时间、年龄等)。半对数线图(semi-logarithmiclinearchart)是线图的一种特殊形式,其纵轴为对数尺度,横轴为算术尺度,使线图上的数量关系变为对数关系。特别适宜于作不同指标变化速度的比较。\n(1)绘制线图的方法横轴代表分组标志,纵轴为统计指标(相对数、绝对数或平均数均可)且均为算术刻度。两轴的刻度可以不从“0”开始,但每个点应描在组段的中间,相邻两点以直线连接。同一线图中可以用不同的线条表示不同的对比组,但不宜太多,应附图例说明。\n某市1949-1957年15岁以下儿童结核病和白喉死亡率(1/10万)194919501951195219531954195519561957年份结核病死亡率白喉死亡率150.2148.0141.0130.0110.498.272.668.054.820.116.614.011.810.76.53.92.41.3\n某市1949-1957年儿童结核病和白喉死亡率020406080100120140160194919501951195219531954195519561957年份死亡率(1/10万)结核病白喉线图\n(2)绘制半对数线图的方法可使用特制的半对数坐标纸,也可将统计指标取对数值后在方格坐标纸上作图。其具体绘制方法与线图相同。\n半对数线图某市1949-1957年儿童结核病和白喉死亡率00.51.01.5194919501951195219531954195519561957年份结核病白喉2.02.5死亡率之对数值\n原始值1000101001\n对数值lg1000=3lg10=1lg100=2lg1=0\n5.直方图(histogram)定义:即频数分布图,用矩形面积表示某个连续型变量的频数(频率)分布。绘制:通常根据频数分布表以横轴表示连续型变量的组段,以纵轴表示频数或频率。注意事项:(1)纵轴的刻度必须从“0”开始,而横轴刻度只需标出实际范围。(2)各矩形的高度为频数或频率,宽度为组距。若各组段组距不等,则应调整各矩形高度:矩形高度=组段频数/组距。\n101名正常人的血清肌红蛋白含量0510152025051015202530354045肌红蛋白含量(g/mL-1)人数\n\n\n用于比较两个或多个样本分布的中心位置和散布范围。P0P25P50P75P1006.箱式图(箱-髯图)box-whiskerplot\n\n7.误差图(error-bar)在用条图或线图表示均数或率的基础上,在图上附上标准差(误)的范围。\n\n0.41.21.40.61.00.8SOD(nmol/ml)×试验组均数对照组均数低剂量×高剂量×试验组与对照组大鼠不同染毒剂量下SOD含量()\n学习医学统计学的要求建立统计学思维学会从不确定性、机遇、风险和推断的角度去思考医学问题提高自身的科学素质和医学研究能力;学会设计结合专业作出严密的试验设计并获得可靠、准确、完整的资料;学会分析与表达学会运用统计方法充分挖掘资料中蕴含的信息,恰如其分地进行理性概括,写出具有科学认证的研究报告和学术论文。\n统计思维(1)生物体的变异是普遍存在的,这种变异是有规律的;抽样误差是不可避免的,抽样误差是有规律的;统计推断是有风险的,这种风险是可以控制的。\n统计学上得到的结论都具有概率性,它不能证明什么,但可以提供结论成立或不成立的概率,从而提高研究者的分辨能力,为科学决策提供依据。统计学不能创造原本不存在的结论。统计方法是一个中立性的工具。统计思维(2)\n统计分析统计描述统计推断参数估计假设检验均数、标准差总体均数的可信区间t检验、方差分析Example定量资料四、医学统计资料的统计描述\n统计分析统计描述统计推断参数估计假设检验Example分类资料率、比、构成比总体率的可信区间χ2检验、u检验四、医学统计资料的统计描述\n1、频数分布(表、图)2、集中趋势的描述3、离散趋势的描述4、正态分布5、均数的抽样误差与总体均数的估计6、均数的假设检验(一)、数值变量资料的统计描述\n例19.1测得120名健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。6374667269667257687172697273676973647458706460777764677675677880706379776670736766777575706873647576696965737373717572707280697870796473817465737061716177766570737164766279787270766580687682727971766672736673686482687660687072696778757976841、频数分布\n(1)找全距(range):即最大值与最小值之差,又称极差。R=84–57=27(次/分)(2)定组距:为相邻两组段最小值之差。为方便计,通常以全距的十分之一进行估计,再略加调整。一般分为10~15个组。组距=极差/组数27/10=2.7≈3(3)划分组段:每一组的起始值为该组段的下限值,终止值为该组段的上限。第一组组段就包括最小值,最后一个组段上限必须包含最大值。57~60~……81~84~87(4)划记:采用划记法或计算机汇总,将所有数据归纳到各组段,得到各组段的频数。频数表的编制步骤1、频数分布\n表19-2120名健康成年男子脉搏(次/分)的频数分布表N=∑f\n频数分布图\n频数表和频数分布图用途(1)描述频数分布的类型(对称分布、偏态分布)1).对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布1、频数分布\n是否为对称分布?\n是否为对称分布?\n表2-2115名正常成年女子血清转氨酶(mmol/L)含量分布1、频数分布\n2).偏态分布:a.右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。1、频数分布\n表2-3101名正常人的血清肌红蛋白含量分布1、频数分布\nb.左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。1、频数分布\n(2)描述频数分布的特征表19.1数据的频数分布特征:①数据变异(离散)的范围在57~84(次/分)②数据集中(平均)的组段在68~73(次/分)之间,尤以组段的人数71~(次/分)最多。且上下组段的频数分布基本对称。1、频数分布\n(4)便于进一步做统计分析和处理(3)便于发现一些特大或特小值1、频数分布1、频数分布\n2、集中趋势的描述统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有:算术均数(均数)(mean)几何均数(geometricmean)中位数(median)与百分位数(percentile)众数(mode)\n一、算术均数算术均数:简称均数(mean)可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。\n1、计算方法(1)直接计算法公式:举例:试计算4,4,4,6,6,8,8,8,10的均数?\n例2-1测得130健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876\n(2)加权法(利用频数表):公式:k:频数表的组段数,f:频数,X:组中值。\n表2-2130名健康成年男子脉搏(次/分)的频数分布表N=∑f∑fX∑fX2\n2、应用均数适用于对称分布,特别是正态分布资料。\n二、几何均数(geometricmean)可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。\n几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。其他对数(如自然对数)变换获得相同的几何均数\n例2-5有8份血清的抗体效价分别为1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,求平均抗体效价。平均抗体效价为:1:57\n(2)加权法公式:\n例2-669例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。\n2、应用:适用于成等比数列的资料,特别是服从对数正态分布资料。\n三、中位数与百分位数11个大鼠存活天数:4,10,7,50,3,15,2,9,13,>60,>60平均存活天数?(一)中位数(median)是将每个变量值从小到大排列,位置居于中间的那个变量值。\n计算公式:n为奇数时n为偶数时\n例2-39名中学生甲型肝炎的潜伏期分别为12,13,14,14,15,15,15,17,19天,求其中位数。\n频数表资料的中位数下限值L上限值Ui;fm中位数M\n例2-1频数表中位数的计算N=∑f中位数=71+3x[(130x50%-59)/26]=71.69\n应用1、各种分布类型的资料2、特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。\n百分位数示意图(二)百分位数(percentile)\n1.直接计算法设有n个原始数据从小到大排列,第X百分位数的计算公式为:当为带有小数位时:当为整数时:Trunc()取整函数\n例对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。患者:住院天数:(1)n=120,,为整数:\n(2),带有小数,故取整trunc(118.8)=118患者:住院天数:\n2.频数表法公式:\n当时,公式(2-9)即为中位数的计算公式\n例2-9试分别求例2-1频数表的第25、第75百分位数。P25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66\n众数(mode)众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。例2-7有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。\n众数(mode)众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。例2-7有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。\n正态分布时:均数=中位数=众数正偏态分布时:均数>中位数>众数负偏态分布时:均数<中位数<众数\n设有甲、乙、丙三名医生,分别对相同的5份血样进行红细胞计数(万/mm3),甲得出了560、540、500、460、440,乙得出了520、510、500、490、480,丙得出了510、505、500、495、490,见下图2,三名医生的计数结果得到的均数均为500,5个数值之和均为2500。第三节离散趋势的描述甲医生得出的5个观察值间的差异(离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。\n常用统计指标:极差、四分位数间距、方差、标准差和变异系数。一、极差(Range)极差,用R表示:即一组变量值最大值与最小值之差。对于书中例2-1数据,有简单,但仅利用了两端点值,稳定性差。\n二、四分位数间距(quartilerange)四分位数间距,用Q表示:Q=下四分位数:上四分位数:例2-1数据P25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66\n三、方差与标准差1.方差(variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。总体方差样本方差离均差平方和SS\n2、公式:样本标准差用表示,其度量单位与均数一致,所以最常用。公式:离均差平方和SS\n标准差的公式还可以写成:利用频数表计算标准差的公式为\n例2-11对例2-1的前10个数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。\n例2-12利用表2-2中的数据和频数表法计算标准差。N=∑f∑fX∑fX2\n标准差的意义和用途说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差;...。标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。用于计算变异系数用于计算标准误(见第四章)结合均值与正态分布的规律,估计参考值的范围(见第五节)。\n四、变异系数变异系数(coefficientofvariation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。\n某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?\n第四节正态分布\n正态曲线(normalcurve)的发现deMoivre(1667-1754),publishedin1733Laplace(1749-1827)Gauss(1777-1855)正态分布:又称高斯分布(Gaussiandistribution)\n一、正态分布的概念和特征1.正态分布曲线的数学表达式(概率密度函数,probabilitydensityfunction,pdf),\n2.正态分布的特征正态曲线下面积分布有一定的规律,总面积=1。\n\n累积面积可通过对概率密度函数f(X)积分求得(累积)分布函数:\n图2-7正态曲线面积分布示意图\n二、标准正态分布\n见P404~405,Z~N(0,1)2\n例2-1的130名健康成年男子脉搏资料的均数、标准差分别为:71.32与5.80(次/分);问在正态分布假定下,脉搏在65~75(次/分)之间有多少人?\n正态分布标准正态分布\n一、基本概念第五节医学参考值范围的制定\n1.意义:医学参考值(referencevalue)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准,但不是“金标准”。\n2.单、双侧问题,常依据医学专业知识而定双侧:如:血清总胆固醇、血液白细胞数无论过低或过高均属异常单侧上限:如:血清转氨酶、体内有毒物质过高异常(越低越好,P5)\n3.有90%、95%、99%等医学参考值范围,最常用的是95%。计算医学参考值范围的常用方法:1、正态分布法2、百分位数法\n二、正态分布法\n公式:单侧下限单侧上限ZZZZ\n\n单侧下限单侧上限\n例2-16测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的95%参考值范围。表2-7282名正常人尿汞值()测量结果\n单侧上限\n(一)数值变量资料的统计描述常用的相对数率构成比比相对数应用的注意事项率的标准化\n调查得知:甲地区的小学生中流脑发病63例,乙地区的小学生中流脑发病35例。是否甲地区较为严重?\n甲地区共有小学生50051人,乙地区共有小学生14338人,甲地区流脑发病率:乙地区流脑发病率:1000‰=2.44‰1000‰=1.26‰\n相对数两个作用第一,表示事物出现的频度。第二,便于比较。\n1常用相对数(1)1.1率(rate)、速率说明某现象发生的频率与强度:(1000‰,或10万/10万,等)\n1常用相对数(2)1.2构成比(proportion)说明某一事物内部各组成部分所占比例。\n\n1常用相对数(3)1.3比(ratio)说明A是B的多少倍,或百分之几。\n相对数的例子(1)年度(1)发病人数(2)病死人数(3)病死率(4)构成比(5)199358481.378.81994571101.7511.01995714121.6813.21996748162.1417.61997942212.2323.019981095242.1926.4合计4654911.96100.0表1993~1998年某地损伤与中毒病死率(%)与构成比(%)\n血型频数(%)O20540.43A11222.09B15029.59AB407.89合计507100.00相对数的例子(2)\n表 某市1980年和1990年5种传染病发病情况疾病1980年1990年病例数(%)病例数(%)痢 疾360449.39203237.92肝 炎120316.49114321.33流 脑6989.5654210.11麻 疹89012.2076714.31腮腺炎90212.3687516.33合 计7297100.005359100.00构成比构成比相对数的例子(3)\n性别比,性比例男性人数:女性人数×100出生时:10720岁:10050岁:9860岁:9570岁:8580岁:66相对数的例子(4)\n体质指数(BMI)体重/身高2(kg/m2)低体重<18.0正常18.0~超重24.0~肥胖28.0~相对数的例子(5)\n2相对数应用的注意事项计算相对数时,分母不宜太小对两个或多个相对数指标进行比较时,要考虑抽样误差,进行假设检验,并不能凭相对数的数值大小轻易做出结论。区分构成比和率\n\n合计率的计算不是直接求率的平均两合计率的比较需注意两者的内部构成是否相同\n3标准化率标准化法就是用统一的标准对内部构成不同的各组频率进行调整和对比的方法。\n甲疗法标准化治愈率乙疗法标准化治愈率\n不同的标准,所得标准化率不同;标准化率是相对的,其作用仅在于比较,而不表示实际水平;标准化率不代表总率,也不能完全代替分组比较。3标准化率\n总结常用的相对数率构成比比相对数应用的注意事项率的标准化\n\n\n\n例2.1某市110名7岁男童的身高(cm)资料如下,请作统计描述。114.4119.2124.7125.0115.0112.8120.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8\n表2.1110名7岁男童身高频数分布\n图2.1某市110名7岁男童身高的频数分布\n如例2.1,某市110名7岁男孩身高均数为:\n用加权法可求某市110名7岁男孩身高均数如下:\n表2.5某市大气中日平均浓度\n\n表2.440例麻疹易感儿童的血凝抑制抗体滴度\n\n第三章分类变量的描述性统计\n分类变量的整理(1)婚姻状况频数单身3已婚5离异2分居4合计1414名成人的婚姻状况编号性别身高婚姻状况1男175单身2女167单身3男187单身4女176已婚5男167已婚6女178已婚7男174已婚8女170已婚9男167离异10女186离异11男182分居12女159分居13男167分居14女182分居14名成人的原始数据\n分类变量的整理(2)婚姻状况性别男女单身21已婚23离异11分居22不同性别的婚姻状况编号性别身高婚姻状况1男175单身2女167单身3男187单身4女176已婚5男167已婚6女178已婚7男174已婚8女170已婚9男167离异10女186离异11男182分居12女159分居13男167分居14女182分居14名成人的原始数据\n一、率:速率(rate):与时间有关,如某年某病发病率、死亡率。比率(proportion):与时间无关,如某病治愈率。二、比:构成比(constituentratio):部分与全部之比相对比(relativeratio):两指标之比第一节常用的比例指标及其意义\n\n例3-1某医生研究了慢性阻塞性肺病(COPD)病人的吸烟情况,自1998~2000年收治COPD病人356人,其中231人有三十年及以上的经常吸烟史(日平均1支以上),在本院其它科室收治的同年龄组段的非COPD病人(无其它呼吸系统疾患)479人,其中有三十年及以上的经常吸烟史的183人,试计算并比较两组病人的吸烟率。\n\n\n\n一、相对危险度(relativerisk,RR):常用于流行病学的队列研究暴露组发病危险度与低暴露(或无暴露)组发病危险度之比。二、优势比(oddsratio,OR):常用于流行病学的病例对照研究病例组某危险因素的优势与非病例组某危险因素的优势之比。第二节相对危险度与优势比\n第三节率的标准化法目的:用统一的标准(如年龄别人口数、年龄别人口构成比、年龄别人死亡率),消除内部构成不同对平均率所产生的影响,使两组平均率具有可比性。\n\n一、方法的选择1.直接法:各小组率已知,各小组观察数或构成作为标准2.间接法:各小组观察数或构成,以及平均率已知,以各小组率作为标准\n二、标准的选取1.选一个具有代表性的、内部构成相对稳定的较大人群作为标准2.将要比较的两组资料内部各相应小组的观察单位数相加作为标准3.从要比较的两组中任选一组作为标准。\n直接法(各小组出院人数为标准)\n直接法(各小组出院人数构成为标准)\n间接法\n标准化注意事项标准化时,我们假定某一项指标(如年龄别人口构成)不可比,其他指标均可比。对不可比指标进行标准化。选用的标准不同,得到的标化准率结果可能不同。因此标准化率只是两组的相对水平,不再反映实际的情况,只能用于比较。比较的两组应选用同一标准。标准化率也应作统计学假设检验\n第四节动态数列动态数列(dynamicseries):一系列按时间顺序排列起来的统计指标,用以观察和比较该事物在时间上的变化和发展趋势。常用指标:发展速度,绝对增长量,增长速度;平均发展速度与平均增长速度。\n增长速度=发展速度-1a0a1a2a3a4\n平均发展速度与平均增长速度平均发展速度:各环比发展速度的几何平均数,表示逐期平均发展的速度平均增长速度:各环比增长速度的平均数,表示逐期平均增长的速度\n平均发展速度(平均每年相当于前一年的1.188倍)平均增长速度:平均增长速度=1.188-1=0.188根据平均发展速度进行预测如预测1995年的次均费用为:\n第五节比例指标应用时的注意事项5.样本的比或率的比较应做假设检验\n\n正态分布标准正态分布\n\n\n正态分布的特点:1.单峰,钟形2.以均数为中心,两侧对称3.尾端不与横轴相交4.均数—位置,标准差—形状5.曲线下面积分布有特殊规律\n\n表3.1110名7岁男童身高频数实际分布与理论分布的比较\n\n\n例3.3已得某地110名7岁男童身高,现欲估计该地身高界于116.5cm到119.0cm范围内的7岁男童比例及110名7岁男童中身高界于116.5~119.0cm范围的人数。\n\n\n\n临床参考值范围的制定\n1.选取适当数量的“正常”人2.控制测量误差3.确定单、双侧4.确定适当的范围大小5.确定正确的统计方法—正态分布法百分位数法\n总体和样本总体population样本sample有限总体无限总体随机抽取统计推断、外推统计描述\n\n抽样研究总体————样本\n在抽样研究中,抽样误差是不可避免的。\n\n\n\n数理统计推理和中心极限定理(centrallimittheorem)表明:从正态总体N(,)中,随机抽取例数为n的样本,样本均数也服从正态分布;即使从偏态总体随机抽样,当n足够大时(如n>50),也近似正态分布。\n不同自由度下t分布图\n\n例4.2现测得某地25名1岁婴儿血红蛋白的平均值为123.7(g/L),求其95%可信区间。本例n=25,S=11.9g/L,按式(4.2)算得样本均数的标准误为:(g/L)=n1=251=24,取双尾0.05,查附表2,t值表得。按式(4.4)得:即(118.79,128.61)g/L故该地1岁婴儿血红蛋白平均值95%的可信区间为(118.79,128.61)g/L。\n例4.4某地抽得正常成人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计该地正常成人血清胆固醇均数的95%可信区间。本例n=200>50,故采用正态近似的方法按式(4.7)计算可信区间。今=3.64,S=1.20,取双尾0.05得。即(3.47,3.81)mmolL故该地正常成人血清胆固醇均数的95%可信区间为(3.47,3.81)mmolL。\n谢谢!