- 758.06 KB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
表示统计资料的特征数有哪些?几何平均数与调和平均数各适合于什么情况?计算样本方差与总体方差公式有何区别?\n统计资料的三类特征数表示集中位置的特征数表示变异(或分散)程度的特征数表示偏倚程度的特征数\n3.1表示集中位置的特征数3.1.1平均数算术平均数(Arithmeticaverage)几何平均数(GeometricMean)调和平均数(HarmonicMean)\n定义:一组n个观测值x1,x2,…,xn的算术平均数,定义为(1)算术平均数(Arithmeticaverage)\n如果资料已经分组,组数为k,用x1,x2,…,xk表示各组中点(平均值),f1,f2…,fk表示相应的频数,那么(1)算术平均数(Arithmeticaverage)\n表3-1某校125位大学一年级新生体重表体重(公斤)组中值(x)人数(f)46—4847449—51502052—54532555—57563858—60592161—63621264—66655(1)算术平均数(Arithmeticaverage)\n其平均体重:(1)算术平均数(Arithmeticaverage)\n当时最小性质(1)算术平均数(Arithmeticaverage)\n证明:(1)算术平均数(Arithmeticaverage)\n在数据为环比类型的问题中(例如,人口增长率或是金融投资利息率),算术平均数是不适用的。例如下表是天津市工业总产值在“十五”期间的逐年增长率,如求该期间平均增长率,算术平均数是不恰当的。几何平均数可以解决这个问题。(2)几何平均数(GeometricMean)\n表3-2天津市工业总产值年份比上年增长%(本年)2000200114.0(114.0)200219.6(119.6)200324.1(124.1)200431.0(131.0)200520.8(120.8)(天津市2005统计年鉴)(2)几何平均数(GeometricMean)\n定义:一组n个数据的几何平均数定义为在上式中,依次为114.0,119.6,124.1,十五期间天津市工业总产值年均增长率为21.8%。131.0,120.8,于是几何平均数:(2)几何平均数(GeometricMean)\n性质:设观测数据为(上例中为各年的工业总产值),令则由,得(2)几何平均数(GeometricMean)\n(2)几何平均数(GeometricMean)表黑龙江省粮食总产量年份产量(亿斤)2004627200572020067562007793200884520098702010100220111150\n(2)几何平均数(GeometricMean)由公式:可得:依次为11.48,10.5,10.4910.66,10.30,11.52,11.16.代入公式(n=7):得过去7年黑龙江省粮食总产值年均增长率为10.86%\n当数据是相对变化率(行程问题,相对价格),求平均数时,算术平均数也不恰当。例如:甲乙两地相距120公里,某人乘车往返甲乙两地之间,去时速度每小时20公里,回来时速度为每小时30公里,若求平均速度,这时用算术平均数是不对的,但调和平均数可解决此类问题。(3)调和平均数\n在上例中,(公里/小时)定义:一组n个数据的调和平均数H,由下式定义:(3)调和平均数\n(3)调和平均数例:设有三种水果,水果甲为1元/公斤,乙为1.5元/公斤,丙为2元/公斤,若各买一公斤,则水果的平均价格是多少?解:\n算术平均数表示了集中位置特征,它照顾到每一个值,但它不见得是出现次数最多的值(甚至也可能不是观测值中的一个)。所以有必要研究表示集中位置的其它的特征数。3.1.2众数(Mode)\n定义:对于有频数分布的变量,它的众数指频数最大的变量的值。表3-3频数分布表Xf3155273对于已分组且等组距的频数分布,根据最大频数,可求得众数所在组。根据众数定义,可知众数不唯一。3.1.2众数(Mode)\n算术平均数作为集中位置的特征还有一缺点,就是受观测值中极端值的影响很大,而一组观测值中的极端值常常没有代表性。中位数将避免这种影响。3.1.3中位数(Median)\n一组n个观测值按数值大小排列,处于中央位置的值称为中位数,用表示,,当n为奇数,当n为偶数定义:即3.1.3中位数(Median)\n(1)一组观测值中,小于和大约中位数的个数相等(无重复的情况下)。(2)绝对离差之和,即当时取最小值。性质:\n第25百分位数又称第一个四分位数(FirstQuartile),用Q1表示;第50百分位数又称第二个四分位数(SecondQuartile),用Q2表示;第75百分位数又称第三个四分位数(ThirdQuartile),用Q3表示。中位数是第50百分位数一组n个观测值按数值大小排列如x1,x2,x3,x4…处于p%位置的值称第p百分位数。定义:3.1.4百分位数(Percentile)第p百分位数是这样一个值,它使得至少有p%的数据项小于或者等于这个值,至少有(100-p)%的数据项大于或者等于这个值。\n计算第p百分数第1步:以递增顺序排列原数据(即从小到大排列)。第2步:计算指数第3步1.若i不是整数,将i向上取整。大于i的毗邻整数为第p百分位数的位置。2.若i是整数,则第P百分位数是第i项与第(i+l)项数据的平均值。如何计算百分位数\n3.1.5四分位数(Quartile)人们经常将数据划分为四个部分,每一个部分大约包含有四分之一,即25%的数据。这种划分的临界点即为四分位数,分别称为第一个四分位数,第二个四分位数和第三个四分位数。即四分位数分别定义为第25、第50、第75百分位数,因此,其计算方法和百分位数的计算相同。\n[算例]对12个月薪数据的样本,按照递增顺序排列如下:221022552350238023802390242024402450255026302825试计算Q1,Q2,Q3。以Q1为例,计算i=np%,其中n=12,p=25,则i=3,所以,Q1=1/2(2350+2380)=2365同样算得Q2=2405,Q3=2500\n数据的变异程度产品质量检查的结果说明生产是否稳定测量的结果说明测量方法或仪器是精密还是粗糙学生的成绩成绩是否整齐(而不是高低)3.2表示变异(分散)程度的特征数\n定义其中xmax和xmin分别为数据中的极大值和极小值。3.2.2四分位间距(Quartiledeviation)能够克服极端值影响的一种衡量变异程度的量度是四分位间距(IQR)。定义IQR=Q3-Q13.2.1极差(或称全距Range)R\n对于已分组的频数分布(组数为k)定义平均差M.D.是离差()的绝对值的平均数,即3.2.3平均差(MeanAbsoluteDeviation)\n3.2.3平均差(MeanAbsoluteDeviation)对已知分组频数的平均差(k组)其中\n3.2.3平均差(MeanAbsoluteDeviation)例:已知职工工资的分组数据如下表,计算平均差。职工工资(元)职工人数()组中值()250-270152603900-50750270-290252807000-30750290-3103530010500-10350310-330653202080010650330-3504034013600301200总计180----55800-----3700则\n方差样本对于已分组的频数分布(组数为k)总体样本总体3.2.4方差(Variance),标准差(StandardDeviation)\n标准差样本标准差总体标准差样本标准差总体标准差对于已分组的频数分布(组数为k)3.2.4方差(Variance),标准差(StandardDeviation)\n例:考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集的数据如下:根据该行业通用法则:如果一个样本中的14个数据项的方差大于0.005,则该机器必须关闭待修。问此时的机器是否必须关闭?解:根据已知数据,计算因此,该机器工作正常。3.2.4方差(Variance),标准差(StandardDeviation)3.433.453.433.483.523.503.393.483.413.383.493.453.513.50\n定义变异系数C是一个无量纲的量。它适于用在比较有不同算术平均数或有不同量纲的两组数据的情况。例如比较大学生身高与小学生身高,或比较130名大学生身高和体重哪个变化波动范围比较大时,都可用变异系数。3.2.5变异系数(CoefficientofVariation)\n例如:考虑某两个班的成绩变异情况A:平均成绩为80,标准差为10B:平均成绩为40,标准差为8初看起来,A班的标准差较大,较为不整齐,若把平均值考虑进去,则其实A班的成绩较为整齐。即,CA=10/80=1/8Me>Mo03.3.2定量地描述偏倚性,常用的两个公式\n(2)用标准化的三阶矩阵g表示3.3.2定量地描述偏倚性,常用的两个公式\n3.4五数概括法五数概括法(2)第1四分位数(Q1)。(3)中位数(Q2)。(4)第3四分位数(Q3)。(5)最大值。(1)最小值。\n首先将数据按递增顺序排列,然后很容易就能确定最小值、3个四分位数和最大值了。对12个月薪数据的样本,按照递增顺序排列如下:221022552350|238023802390|242024402450|255026302825Q1=2365Q2=2405Q3=2500上述起薪数据以五数概括为:2210,2365,2405,2500,2825。3.4五数概括法\n盒形图实际上是以图形来概括数据。关键是计算中位数和四分位数Q1和Q3。此外还将用到四分位数间距IQR=Q3-Q1。盒形图的画法步骤如下:(1)画一个方盒,其边界恰好是第1和第3四分位数。对于上述的起薪数据,Q1=2365,Q3=2500。这个方盒包含了中间的50%的数据。(2)在方盒上中位数的位置画一条垂线(对起薪数据,中位数为2405)。因此中位数将数据分为相等的两个部分。3.5盒形图\n(3)利用四分位数间距IQR=Q3-Q1,来设定界限。盒形图的界限定于低于Q1以下1.5个IQR和高于Q3以上1.5个IQR的位置。上、下限以外的数值作为异常值。即:Q1-1.5IQR=2162.5;Q3+1.5IQR=2702.5(4)在图3-2中的横线叫做须线(whisker),须线从方盒的边线出发,直至在上、下限之内的最大值和最小值。即:min=2210,max=2630(5)最后,任一异常值的位置以符号“*”标出。即:28253.5盒形图\n盒形图例图图3-23.5盒形图