- 1.82 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第四章差异量第一节全距、四分位距、百分位距第二节平均差第三节方差和标准差第四节相对差异量第五节偏态量及峰态量www.themegallery.com\n引言两组学生某科测验成绩:甲组:54、63、72、74、82、88、99乙组:67、71、73、76、79、82、84表示一组数据变异程度或离散程度的量称为差异量。差异量越大,表示数据分布的范围越广,越不整齐;差异量越小,表示数据分布的越集中,变动范围越小。常用的差异量指标有全距、四分位距、百分位距、平均差、方差、标准差、差异系数等。\n差异量数就是对一组数据的变异性(离中趋势)特点进行度量和描述的统计量。它反映了次数分布中数据彼此分散的程度。\n第一节全距、四分位距、百分位距一、全距全距是一组数据中最大值与最小值之差,又称极差。用R表示。如上例:两组学生某科测验成绩:甲组:54、63、72、74、82、88、99乙组:67、71、73、76、79、82、84甲组的全距为R=99-54=45乙组的全距为R=84-67=17说明甲组比乙组的离散程度大。频数分布表求全距的方法是:最大一组与最小一组组中值之差。\n全距的应用及优缺点概念清楚、意义明确,计算简单,但易受两极端数据的影响。不考虑中间值的差异,反应不灵敏。只能作为差异量的粗略指标,在编制频数分布表时常用到。\n二、四分位距1.四分位距的概念四分位距是指在一个频数分布中,中间50%的频数的全距之半,也就是第3四分位数Q3(第75百分位数)与第1四分位数Q1(第25百分位数)之差的一半。所谓第3四分位数是指在这一点的下端有占总频数75%的数据,在其上端有占总频数25%的数据;所谓第1四分位数中指在这一点的下端有占总频数25%的数据,在其上端有占总频数75%的数据。如图4-1。\n图4-1四分差与四分位数Q1、Q2、Q3之间的关系用公式可表示为\n2.四分位距的计算方法(1)原始数据计算法首先将一组数据按大小顺序排列,然后用数据个数n除以4,则第(n/4+1/2)位置对应的数据为第1四分位数Q1,第(3n/4+1/2)位置对应的数据为第3四分位数Q3。例6求下列18个数据的四分差:51,60,58,63,74,88,66,70,71,75,81,86,52,57,61,65,90,77。\n解:按从小到大排序:51,52,57,58,60,61,63,65,66,70,71,74,75,77,81,86,88,90。由于n=18,所以Q1=18/4+1/2=5,即第5个位置所对应的数据为60;Q3=18*3/4+1/2=14,即第14个位置所对应的数据为77。将Q1与Q3代入公式,得QD=(77-60)/2=8.5\n(2)频数分布表计算法(第三个四分位数)(第一个四分位数)例如下表为师大附小二年级80个学生身高的频数分布,求四分位距。\n身高组中值频数累积频数累积百分比115—116.5111.25118—119.5345.00121—122.581215.00124—125.5102227.50127—128.5204252.50130—131.5196176.25133—134.5127391.25136—137.547796.25139—140.527998.75142—143.5180100.00总和80表2.10师大附小二年级80个学生身高的频数分布\n\n3.四分位距的应用及优缺点优点:简明易懂,计算简便,不易受两极端数据的影响缺点:忽略了左右50%数据的差异,不适合代数运算当一组数据用中位数表示集中量时,就要用四分位数表示差异量,因为它们同属于百分体系。应用条件:有特大或特小两极端数值;有个别数值不确切、不清楚;用等级表示的数据\n三、百分位距百分位距是指两个百分位数之差。常用的百分位距有两种:第90与第10百分位数之差第93与第7百分位数之差例如,求下表中与。\n身高组中值频数累积频数累积百分比115—116.5111.25118—119.5345.00121—122.581215.00124—125.5102227.50127—128.5204252.50130—131.5196176.25133—134.5127391.25136—137.547796.25139—140.527998.75142—143.5180100.00总和80表2.10师大附小二年级80个学生身高的频数分布\n回忆百分位数计算方法\n第二节平均差一、平均差的概念每一个数据与该组数据中位数离差的绝对值的算术平均数即为该组数据的平均差,用MD表示。二、平均差的计算方法1.原始数据计算法——原始数据——中位数——总频数\n例如,求原始数据78、83、69、75、97、88、86的平均差。2.频数分布表计算法——各组频数——各组组中值——总频数\n分数频数累积频数45-1150-2355-0360-2565-3870-81675-72380-73085-73790-54295-648总和48表3-248个学生数学成绩频数分布表\n三、平均差的优缺点优点:意义明确,计算简单,每个数据都参加了运算,考虑到了全部的离差,反应灵敏缺点:计算用到绝对值,不适合代数运算,因此在统计分析中应用较少。\n第三节方差和标准差一、方差和标准差的概念方差是指离差平方的算术平均数,用表示,公式为:标准差是指方差的平方根,用表示,即:\n例如:6名女童的跳远成绩(cm)148.2、123.8、123.8、142.7、130.4、133.3,求方差和标准差。标准差的值越大,表明这组数据的离散程度越大,即数据越参差不齐,分布范围越广;标准差的值越小,表明这组数据的离散程度越小,即数据越集中、整齐,分布范围越小。在教育科研中,究竟是标准差大好还是小好,这要看所分析的问题而异。\n二、方差和标准差的计算方法1.原始数据法为了减少计算量,可将公式4.1进行转换,使公式中参与运算的变量皆为原始数据。公式为——原始数据——总频数\n2.频数分布表计算法——各组组中值——各组频数例如:\n分数频数累积频数45-1150-2355-0360-2565-3870-81675-72380-73085-73790-54295-648总和48表3-248个学生数学成绩频数分布表\n三、方差和标准差的应用及优缺点优点:反应灵敏;严密确定;计算简单;适合代数运算;用样本数据推断总体差异量时,是最好的估计量;在避免两极端数值影响方面大大超过全距;在考虑到全部离差方面,优于四分位距;在避免绝对值方面,优于平均差。缺点:不易理解;易受极端数值影响;有个别数据模糊不清时,无法计算。\n适用条件1、一组数据的一般水平适合用算术平均数描述时,其离散程度宜用方差和标准差描述。2、计算其它统计量时,如相关系数等,要用到标准差。3、在推断统计中,尤其是进行方差分析时,常用方差表示数据的离散程度。\n四、各种差异量的数值关系当总频数相当大,且频数分布呈正态时,全距、四分位距、平均差、标准差的数值存在如下关系:中位数上下各一个四分位距之间包括50%的总频数;算数平均数上下各一个平均差之间包括57.51%的总频数;算数平均数上下各一个标准差之间包括68.26%的总频数;\n第四节差异系数一、差异系数的概念差异系数是一组数据的标准差与算数平均数的比率,又称相对差异量,它是没有单位的相对数。用符号CV表示。公式为由上式可见,差异系数就是以平均数为单位,视标准差占平均数百分比的大小来衡量差异的程度。差异系数越大,表明离散程度越大;差异系数越小,表明离散程度越小。\n二、差异系数的用途1.比较不同单位资料的差异程度例如:1975年上海市区6岁男童体重与身高为:平均数标准差体重19.39kg2.16kg身高115.87cm4.86cm其差异系数为:体重身高可见,体重的差异大于身高的差异。\n2.比较单位相同而平均数相差较大的两组资料的差异程度例如:1975年上海市区两组女童的体重为:平均数标准差2个月组5.45kg0.62kg6岁组19.02kg2.12kg2个月组6岁组可见,两组女童体重的离散程度大体相同。\n3.可判断特殊差异情况根据经验,一般CV值常在5%——35%之间。如果CV>35%时,可怀疑所求得的平均数是否失去了意义;如果CV<5%时,可怀疑平均数与标准差是否计算有误;三、差异系数的应用条件由公式可看出,当平均数为零时,此时无意义。从测量的理论来说,只有等比量表的测量结果才使平均数等于零不可能。也就是说,用来测量的量尺,即具有等距单位,又具有绝对零点,这时所测量出的数据其平均数才不可能等于零,才可以计算差异系数。\n补充:优良差异量数具备的标准鉴定一个差异量数,是不是一个良好的统计指标,主要看是否具备以下标准:(1)应该是根据客观数据资料获得的,而不是人为的主观估计决定的;(2)应该是根据全部观测值计算得出来的,而不是个别数据计算的结果,否则就不能代表全部数据的分布特征;(3)应当简明,容易理解,不应过于带有数学抽象性质;(4)计算应该方便、容易、迅速;(5)应该最少受到抽样变动的影响(样本的稳定性),在反复取样的过程中具有相对恒常性;(6)应该能够采用代数方法计算。\n各种差异量数优缺点比较标准差计算最严密,它根据全部数据求得,考虑到每一个样本数据,测量具有代表性,适合代数法处理,受抽样变动的影响较小,反应灵敏。缺点是较难理解,运算较繁琐,易受极端值的影响。方差的描述作用不大,但由于它具有可加性,是对一组数据中造成各种变异的总和的测量,通常采用方差的可加性分解并确定属于不同来源的变异性,并进一步说明各种变异对总结果的影响。因此,方差是推论统计中最常用的统计量数。全距计算简便,容易理解,适合所有类型的数据,概念清楚,意义明确,,但它易受极值影响,测量也太粗造,只能反映分布两极端值的差值。不能显示全部数据的差异情况,仅作为辅助量数使用。\n平均差容易理解,容易计算,能说明分布中全部数值的差异情况,缺点是会受两极数值的影响,但当数据较多时,这种影响较小,因有绝对值也不适合代数方法处理。百分位距意义明确,易计算,不易受两极值影响,但不能反映出分布的中间数值的差异情况,也仅用作补助量数。四分位距意义明确,计算方便容易,对极端值不敏感,较不受极端值影响。当组距不确定,其他差异量都无法计算时,可以计算四分位距。但四分位距无法反映分布中所有数据的离散程度,不适合使用代数方法处理,受抽样变动影响较标准差大。通过比较,可以发现标准差、方差价值较大,它们的应用也比较广泛,因此,一般称标准差、方差为高效差异量。相比较,其它差异量缺点比较明显,应用也受到限制,故它们为低效差异量。\n第五节偏态量及峰态量偏态量和峰态量是用以描述数据分布特征的统计量。一、偏态量1.利用算术平均数与众数或中位数的距离来计算当次数分布呈正态时:当次数分布呈正偏态时:当次数分布呈负偏态时:偏态量计算公式为:\n偏态量计算公式为:SK=0,分布呈对称形;SK>0,分布为正偏态;SK<0,分布为负偏态;由于众数具有不稳定性、不确定性,常用算术平均数和中位数表示众数。于是偏态量又可表示为:\n2.根据动差来计算动差——表示频数分布的离散程度一级动差二级动差三级动差四级动差二级动差就是方差。\n偏态系数为:当时,表明频数分布呈对称形;当时,表明频数分布呈正偏态;当时,表明频数分布呈负偏态;当总频数n>200时,所计算出的偏态系数才比较可靠。例如课本表4.4,4.5\n二、峰态量1.用两个百分位距来计算一个频数分布,若平均数周围频数比例越大,分布形态越高狭;若平均数周围频数比例越小,分布形态越低阔;常用的峰态量为:当时,表明频数分布呈正态峰;当时,表明频数分布呈高狭峰;当时,表明频数分布呈低阔峰;例如课本表4.1\n2.根据动差来计算峰态系数为:当时,表明频数分布呈正态峰;当时,表明频数分布呈高狭峰;当时,表明频数分布呈低阔峰;n>1000时,计算的峰态系数才比较可靠。例子:课本表4.4,4.5