统计学整理笔记 12页

  • 278.88 KB
  • 2022-08-13 发布

统计学整理笔记

  • 12页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
2011级硕士9班第二组荣誉出品第二节统计表与统计图一、统计表统计表的作用:代替冗长的文字叙述,便于计算、分析和对比。(一)列表原则1、重点突出,简单明了:一张表一般只包括一个中心内容2、主谓分明,层次分明:研究对象作横坐标,研究指标作纵坐标。(二)统计表的基本结构及要求1.标题2.标目:横标目(主语)纵标目(谓语)3.线条4.数字(宾语)5.备注主语和谓语连贯起来能读成一句完整而通顺的话。二、统计表的基本结构与要求1、标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上方。常见的错误:过于简略,甚至不写标题;或过于繁琐;或标题不确切。2、标目:有横标目和纵标目,分别说明表格每行和每列数据的含义。横标目在表头的左侧,代表研究的对象;纵标目位于表头的右侧,表达研究对象的指标。文字简明扼要,有单位的标目要注明单位。常见的错误:标目过多,层次不清3、线条:不宜过多,一般采用3条线:顶线,底线,纵标目下的横线。其余线条一般均省去。不能有竖线和斜线。4、数字:(1)数字一律用阿拉伯数字表示。(2)同一指标的小数位数应一致,位次对齐。(3)表内不宜留空格;暂缺或未记录,用“…”表示;无数字,用“—”表示;数字为0,填写0(4)绝对数太小而无法计算指标,则用“…”代替。5、备注:一般不列入表内,必要时可用“*”号标出,写在表的下面。三、统计图及其应用(一)统计图作用通过点、线、面等形式表达统计资料,直观地反映事物之间的数量关系。但需注意,由于统计图对数量的表达较粗糙,不便于作深入细致的分析,一般需附相应的统计表。(二)统计图的种类条图,百分条图,圆图,线图,半对数线图,直方图,散点图,统计地图(三)制图的基本要求1.按资料的性质和分析目的,选用适合的图形2.要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。3.横轴尺度从左到右,纵轴尺度从下而上,数量一律由小到大。横轴与纵轴坐标长度比例一般为5:74.比较不同事物,用不同线条或颜色表示,并附上图例说明。(四)常见统计图适用范围及其绘制要点1、条图(bargraph):(1)适用范围:相互独立的资料(病种、职业、民族等),常用形式:单式和复式(2)绘制要点:A.用等宽的直条的长短反映各指标的数量大小。B.纵轴的尺度必须从0开始。C.各直条之间的间隙应相等,一般将比较的指标按大小顺序排列。-12-\n2011级硕士9班第二组荣誉出品2、百分条图(percentbargraph)(1)适用范围:构成比资料(2)绘制要点:A.将长条全长为100%;B.将各百分构成比在长条上分割若干段;C.各段按大小顺序排列。3、圆图(piechart)(1)适用范围:构成比资料(2)绘制要点:A.将圆面积为100%,B.将各百分构成比乘以3.6度,变为圆心角度数,C.在圆上绘出各扇型面积D.各扇型面积按大小顺序排列。4、普通线图(linegraph)(1)适用范围:连续性资料(2)绘制要点:A.纵横轴均用算术尺度B.纵横轴尺度比一般为5:7C.相邻两点用直线连接。(3)意义:反映事物的变化趋势。5、半对数线图(semi-logarithmiclinegraph)(1)意义:反映连续性资料的变化速度或指标间相差悬殊的连续性资料的变化趋势。(2)绘制要点:A.横轴用算术尺度,纵轴用对数尺度B.纵横轴尺度比一般5:7C.相邻两点用直线连接。6.直方图(histogram)(1)适用范围:计量的频数表资料(2)绘制要点:A.横轴表示被观察事物,纵轴(必须从0开始)表示频数或频率,B.用等宽的矩形面积表示各组段的频数或频率7.散点图(scatterdiagram):(1)适用范围:双变量资料(2)分析目的:用点的密度程度和趋势表示两变量间的相关关系8、箱式图(boxplot):(1)适用范围:计量资料(2)分析目的:应用百分位数对计量数据作直观比较分析(3)图形绘制特点:箱子上端为P75,下端为P25,中间以横线表示P50,最大值和最小值分别为箱子上下两个柄。9、统计地图(statisticalmap)用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。绘制统计图的注意事项(小结)1.正确选择统计图类型。例如:独立资料用直条图;连续资料用线图或直方图;构成比资料用百分条图或圆图;双变量资料用散点图;地区性资料用统计地图等。2.统计图要有合适的标题。标题写在图的下方,其要求和统计表的标题的要求一样,要能够概括图的内容。3.直条图、线图、半对数线图和直方图的纵、横坐标上要有刻度和单位,刻度要均匀等距(半对数线图的纵坐标除外)。纵横周长度之比为5∶7较合适,比例太大或太小都是不合适的。4.直条图与直方图纵坐标要求从0开始。如果不从0开始,容易造成错觉。5.比较不同事物时用不同的线条和颜色来表示,并附上图例。实习三统计图表一、目的要求-12-\n2011级硕士9班第二组荣誉出品1、熟悉统计表的结构和要求。2、掌握条图、百分条图、圆图、线图、半对数线图、直方图、散点图等各种统计图绘制方法及其适用范围。第四章总体均数估计和假设检验重点掌握1、抽样误差、标准误、可信区间、假设检验、检验效能(把握度)、单侧检验、双侧检验、Ⅰ型错误与Ⅱ型错误的概念。2、标准差与标准误的区别和联系、t分布的特征、t分布和u分布的区别和联系。3、标准误、可信区间的计算方法和应用。4、假设检验的基本步骤,t检验和u检验的应用及其条件。5、应用假设检验注意事项。资料的统计分析方法统计描述(statisticaldescreptive):频数表、直方图、平均数指标、离散度指标。说明数据分布特征和分布类型。统计推断(statisticalinference):用样本信息来推断总体的特征(以小窥大)。(1)参数估计(总体均数估计,总体率估计)(2)假设检验均数的抽样误差在抽样研究中,由于总体中存在个体变异,而样本仅是总体的一部分,所以由抽样得到的样本均数与总体均数之间存在差异,这种差异称为抽样误差。抽样研究中,抽样误差是不可避免的,但其大小可以控制和估计的。二、中心极限定理1、在正态总体中,随机抽取例数为n的样本,样本均数服从正态分布;2、在偏态总体中随机抽样,当n足够大时(n≥30),样本均数也近似正态分布;3、从均数为μ,标准差为σ的正态或偏态总体中,抽取例数为n的样本,样本均数的均数仍为μ,标准差为。三、标准误意义及其计算方法1、标准误意义:均数的标准差就是标准误,它说明均数的抽样误差大小。均数的标准误用表示。2、标准误计算方法:........(理论值)........(估计值)均数的标准误与标准差成正比,与样本例数n的平方根成反比。随着nS稳定0因此,减少抽样误差最有效的办法:增加样本例数3、均数标准误的应用(1)反映均数抽样误差大小:标准误越大,抽样误差越大,反之,就越小;(2)反映均数的可靠性:标准误越大,样本均数的抽样误差就越大,用样本均数推断总体均数的可-12-\n2011级硕士9班第二组荣誉出品靠性差;反之,越小,均数抽样误差越小,用样本均数推断总体均数的可靠性好。(3)用于估计总体均数的可信区间和均数的假设检验(见下节)标准差和标准误的区别和联系标准差和标准误都是变异指标,它们之间有区别,也有联系。一、区别:1、概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,Sx越小,均数的可靠性越高;2、用途不同:标准差与均数结合估计参考值范围,计算变异系数,计算标准误等。标准误用于估计参数的可信区间,进行假设检验等。3、与样本含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。联系:标准差、标准误均为变异指标,当样本含量不变时,标准误与标准差成正比。第二节t分布(一)、t分布的概念对正态变量X进行标准化变换,即u变换,可以把一般的正态分布变成标准正态分布,即u分布,给应用带来很大方便。u~(0,1)样本均数X也服从正态分布,也可以将进行u变换:由于往往未知,常用代替,不再服从标准正态分布,而服从t分布。(二)、t分布特征:1、以0为中心,左右对称的单峰分布;2、t分布的形态与自由度ν有关,ν越小,t分布曲线越低平,尾部的面积较大;ν逐渐增大,t分布逼近标准正态分布;ν=∞,t分布=标准正态分布。t分布也是一簇曲线,有不同的自由度就有不同形态的t分布曲线。注:所有的t分布的曲线均比正态曲线低。说明在同样的曲线下面积,t值>u值。例如,中间95%面积,在横轴上的区间:|u|=1.96;而|t|>1.96t值的表示方法:tα/2,να为t界值以外(曲线尾部)的面积;ν为自由度。(三)、t界值表(附表2)对应于每一自由度取值,就有一条t分布曲线,每条曲线都有自身曲线下t值的分布规律,故相同的曲线下面积所对应的t界值不同,而计算t值较为繁杂。为此,统计学家已制成t值表,-12-\n2011级硕士9班第二组荣誉出品通过查表即获得t分布曲线下面积所对应的t界值。查表须注意:1、t值有正负值,由于t分布是以0为中心的对称分布,故表中只列正值,查表时,不管t值正负只用绝对值;2、t值表中插图阴影部分,表示tα,ν以外尾部面积占总面积的百分比,即概率P;第三节总体均数的估计一、参数估计的概念二、参数估计的估计方法1、点值估计:直接用样本均数来估计总体均数缺点:没有考虑抽样误差(可靠性差)2、区间估计:按一定的概率1-α估计总体均数所在范围,1-α称可信度。习惯上,常取1-α=0.95,即95%可信区间或取1-α=0.99,即99%可信区间若无特别说明,一般取双侧95%可信区间(一)单一总体均数可信区间估计方法:1、当σ未知,且n较小(n<100)时,按t分布原理估计,按1-α称可信度估计。2、当σ已知,或σ未知但样本例数足够大(n≥100)时,按u分布原理估计:σ已知σ未知(二)两总体均数之差的可信区间两总体均数之差的可信区间为:-12-\n2011级硕士9班第二组荣誉出品大样本时(n>100):可信区间的涵义:从总体中作随机抽样,根据每个样本可计算出一个可信区间,那么95%可信区间,意味着固定样本含量n作100次抽样,算得100个区间,有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是小概率事件,对一次试验而言出现的可能性小,因此在实际应用中可认为总体均数就在所算得的可信区间之内。可信区间的两个要素:准确度:反映在可信度(1-α)的大小。1-α越接近1,就越准确。如可信度99%比95%准确。精确度:反映在区间的长度。长度越小越好。在例数n确定的情况下,二者呈反比关系:准确度↑,精确度↓(范围变宽)。要兼顾准确度和精确度,一般取95%可信区间。可信度确定后,增加样本例数可以提高精确度三、可信区间与参考值范围区别(1)意义不同参考值范围是指绝大多数观察值在某个范围;可信区间是指按一定的可信度估计总体均数(参数)的所在范围;(2)计算公式不同可信区间参考值范围(3)应用不同可信区间:估计总体均数;参考值范围:判断某项指标是否正常。第四节假设检验的原理和基本步骤一、假设检验原理推断误差原因本研究目的是判断是否。由于存在抽样误差,来自某一总体的随机样本其样本均数与总体均数往往不等;或者,从同一总体中抽取的两个随机样本的样本均数和也往往不同。因此,在比较一个样本均数与一个已知的总体均数,或者,比较两个样本均数的差别时,需要判断这种差别的性质和意义,造成这种差别的原因有两种:1、总体均数不等(来自不同总体),有本质差别;2、总体均数相等(来自相同的总体),其差别由抽样误差所致,无本质差别。要判断差异属于那种可能,需要通过假设检验来进行。二、假设检验概念根据研究目的,对样本所属总体特征提出一个假设,然后用适当方法,根据样本提供的信息,推断此假设应当拒绝或不拒绝,以便研究者了解在假设条件下,差异由抽样误差引起的可能性大小。三、假设检验基本思想假设检验要推断样本(一个或多个)所来自的总体其总体参数(均数、率)是否有差别,可通过判断样本指标的差别是由抽样误差引起的,还是总体均数不同(来自不同总体)所致来达到,运用反证法。首先建立检验假设:如上述例子,先假设;-12-\n2011级硕士9班第二组荣誉出品如果假设成立,即来自,则两者相差不大或则根据样本资料计算所得t值或u值应较小(t值或u值称检验统计量),出现该t值或u值的概率P较大,如为大概率(如P>),就认为原假设成立(样本均数的差异是由于抽样误差引起)。如果计算所得的t值或u值较大,则出现该t值或u值的概率P较小,如P≤,就认为原假设不成立,而认为其对立面>成立。作出这种推断的理由:小概率事件在一次抽样中一般不会发生,如果发生了就怀疑原假设成立的可能性,就认为不成立。如何得到P值?可以通过u分布和t分布的原理,由t值或u值确定P值。四、假设检验的一般步骤1、建立假设和确定检验水准(一)两个假设无效假设:H0(检验假设)备择假设:H1(二)确定单侧或双侧检验根据专业知识和研究目的而定单侧检验:如在比较新旧两种药物的疗效时,如能根据专业知识认为新药疗效不会比旧药差,只关心新药是否比旧药好(疗效至少相同,绝对排除出现相反的可能性),可用单侧检验。双侧检验:在比较甲乙两种药物的疗效时,事先不能确定哪种药的疗效较好,只关心两药的疗效有无差别,要用双侧检验。双侧检验若有差别,单侧检验肯定有差别;反之,单侧检验若有差别,双侧检验不一定有差别。单侧检验更容易得到有统计学意义的结论两样本均数均数比较检验类型检验目的H0H1双侧检验是否单侧检验是否是否建立检验假设注意事项(1)检验假设是对总体特征的假设;(2)H1是与H0相互联系和相互对立的假设,两者缺一不可;(3)H0相假设的内容是两个总体参数相等,或其差值等于0,处理无效,无相关,资料服从某一分布等;(4)H1反映出单侧还是双侧检验。(三)确定检验水准:检验水准用α表示,是拒绝或不拒绝H0的概率标准,也就是小概率事件标准,是人为选定的概率值,一般取α=0.05(根据需要也可取0.2、0.15、0.1、0.01等)。2、选定检验方法和计算检验统计量根据研究设计方案、资料类型、样本含量大小及分析目的选用适当的检验方法,并根据样本资料计算相应的检验统计量;不同的检验方法要用不同的公式计算现有样本的检验统计量(t,u,F值)。检验统计量是在H0成立的前提下计算出来。3、确定P值和作出推断结论P值是指由所规定的总体作随机抽样,获得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。P也表示H0成立的概率大小。手工计算:一般是通过查界值表获得。统计软件:直接给出精确的P值4、作出推断结论(含统计结论和专业结论)将获得的事后概率P与事先规定的概率α进行比较,推断统计结论。-12-\n2011级硕士9班第二组荣誉出品当P≤α时:统计结论:拒绝H0,接受H1,差异有统计学意义)专业结论:可认为…不同或不等。当P>α时:统计结论:不拒绝H0,差异无统计学意义专业结论:还不能认为…不同或不等。注意:对于H0,只能说拒绝或不拒绝;对于H1只能说接受。假设检验的特点:1、统计检验的假设是关于总体特征的假设;2、用于检验的方法是以检验统计量(t,u)的抽样分布为理论根据;3、作出的结论是概率性的,不是绝对的肯定或否定。假设检验中α值与P值的区别1、假设检验中α值是检验水准,是拒绝或不拒绝H0的概率标准。α的大小是人为选定的,一般取0.05。2、P值是指从H0所规定的总体中作随机抽样,获得等于及大于(或等于及小于)现有样本统计量的概率。通过P值与α值的比较来确定拒绝或不拒绝H0。第五节t检验t检验用途:用于一个或两个样本均数的假设检验。t检验类型1、样本均数与总体均数比较的t检验2、配对设计t检验3、两小样本均数比较的t检验4、两样本几何均数比较的t检验t检验应用条件1、样本来自正态总体。2、两样本均数比较,还要求样本的总体方差相等。一、样本均数与总体均数比较(单样本t检验)目的:推断样本均数代表的未知总体均数μ和已知总体均数μ0是否有差别,即是否公式:ν=n-1条件:样本来自正态总体。(v一定时,t值越大,P值越小)查t值表时,先查P=0.05时的界值。当P<0.05时,需继续往P更小的一侧查,直到最小的P值为止。当P>0.05时,需继续往P更大的一侧查,直到最大的P值为止。如使用统计软件,会给出确切的概率值。二、配对t检验(pairedt-test)用于配对设计计量资料配对设计:将条件相同或相近的两个对象配成一对,然后将两个对象随机分到两个不同的处理组配对设计的情形:(1)配对的两个受试对象分别给予两种处理;(2)同一受试对象分别接受两种不同处理;(3)同一样品用两种方法检测;(4)同一受试对象处理前、后所得数据。配对资料t检验的目的:推断两种处理(或方法)的结果有无差别。检验公式:v=n-1应用条件:差值来自正态总体。三、成组设计两样本均数比较t检验(一)t检验应用条件:-12-\n2011级硕士9班第二组荣誉出品1、两样本均来自正态总体2、两样本的方差齐在正式的统计分析中,先要看方差是否齐,如果不齐,要选方差不齐的结果!一般的统计软件,都会同时给出方差齐性检验的结果及方差齐和不齐的检验结果。(二)成组设计和及其检验的目的1、成组设计(又称完全随机随机设计、单因素设计)含义:将受试对象按随机化的方法分配到各处理组中(或从两个或多个研究总体中抽取样本)。各处理组(样本)的例数可以相等也可以不等。2、检验的目的:检验两样本均数和所代表的两总体均数和是否有差别,或检验两样本几何均数G1和G2所代表的两总体几何均数是否有差别。(三)总体方差相等时两小样本均数的比较t检验v=n1+n2-2成组设计两个样本几何均数比较-12-\n2011级硕士9班第二组荣誉出品1、应用条件:(1)两样本的对数值均来自正态总体(2)两样本的对数值的方差齐2、检验公式与两样本均数的t检验和u检验公式相同,只是原始数据要作对数变换,用对数值的均数和标准差代公式。3、检验步骤与两样本均数的t检验相同在使用统计软件进行分析时,先将原始数据取对数,然后用对数值作一般的t检验。四、方差不齐时两小样本均数的比较(一)两样本方差齐性检验(F检验)=n1-1,=n2-1注意:1、两小样本均数比较,要求两总体方差相等(进行方差齐性检验),当一个样本的方差是另一个的3倍时,可以认为两总体方差不相等;若两样本含量均大于50时,可以不做方差齐性检验。(二)总体方差不等时两小样本均数的检验1、Cochran&Cox法校正临界值检验(Cochran&Cox法)=n1-1,=n2-1注意:当n1=n2=n时,可用v=n-1直接查t界值表确定P值。2、Satterthwaite法校正自由度(统计软件普遍使用的方法)3、Welch法校正自由度(三)、正态性检验检验资料是否服从正态分布。检验方法有:1、图示法;注意:2、统计检验方法H0:资料服从正态分布(1)W检验;H1:资料不服从正态分布(2)D检验(3)矩法第六节Ⅰ型错误与Ⅱ型错误和检验效能Ⅰ型错误:拒绝实际上成立的H0,这类“弃真”的错误称Ⅰ型错误或第一类错误。其概率大小用表示。Ⅱ型错误:不拒绝(接受)实际上是不成立的H0,这类“存伪”的错误称Ⅱ型错误或第二类错误。其概率大小用表示,但大小一般不知道。拒绝H0,犯Ⅰ型错误;不拒绝H0,犯Ⅱ型错误。两类错误的关系Ⅰ型错误的概率为α,Ⅱ型错误的概率为β,而β大小一般是不知道的。1-β:称为检验效能(又称把握度),即两总体确有差别,则按α检验水准能发现它们有差别的能力。α越大,β越小;α越小,β越大,两者呈反比关系。-12-\n2011级硕士9班第二组荣誉出品如何确定α和β的取值?1、若重点减少α(例如,为避免把疗效与常规药本无差别的新药当做有差别,致使无故废弃常规药,即严格要求),则取α=0.012、若重点减少β(例如,当欲用新方法取代旧方法时,为了慎重起见,宁可把无差别当成有差别,以提高把握度),则取α=0.1或α=0.2。3、若需兼顾α和β,则取α=0.05较为恰当。4、若要同时减少α和β,只能增加样本的含量。第七节假设检验应注意的问题1、要有严密的抽样研究设计,应考虑到被比较的样本的可比性,这是假设检验的前提。2、选用的假设检验方法应符合其应用条件。根据研究设计方案、资料类型、样本含量大小及分析目的选用适当的检验方法。3、正确理解差别有无显著性的统计意义。不要把统计结论中的“差异有显著性”理解为差异很大;“差异无显著性”理解为差异很小。假设检验不能判断总体参数间差异的大小。是否拒绝H0,取决于:1、被研究的事物有无本质的差异2、抽样误差大小:(1)个体差异大小(2)样本例数多少3、检验水准α的高低4、结论不能绝对化。无论是否拒绝H0,都可能犯错误!即拒绝H0,犯Ⅰ型错误;不拒绝H0,犯Ⅱ型错误。5、注意统计学意义和实际意义的区别有统计学意义,不一定有实际意义!无统计学意义,不一定无实际意义!(1)统计结论和专业结论一致,则最终结论两者一致;(2)统计结论和专业结论不一致时:A、统计结论有意义,而专业结论无意义,则最终结论无意义;B、有实际意义而无统计学意义,要增加样本含量,进一步验证。-12-\n2011级硕士9班第二组荣誉出品6、可信区间与假设检验的关系(1)可信区间亦可用于回答假设检验问题;若算得的可信区间包含了H0,则不拒绝H0;若不包含H0,则拒绝H0。(2)可信区间比假设检验还可提供更多的信息。除能说明有无统计学意义外,还能提示有无实际意义。但这并不意味着可以完全用可信区间代替假设检验。假设检验得到的P值可以较精确地说明结论的概率保证,而可信区间只能告诉我们在α水准上有无统计学意义,却不能象P值那样提供精确的概率。因此两者应结合使用。(未完待续)-12-

相关文档