- 2.25 MB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第3讲统计描述的数值方法\n案例----SMALLFRYDESIGN公司SmallFryDesign公司成立于1997年,是一家设计和进口婴儿用品的公司,主要经营玩具和附属用品。公司产品包括泰德熊、玩具汽车、音乐玩具等,公司特长是设计强调颜色、材质和声音高质量的柔软玩具。公司的产品在美国设计,而在中国生产。在这个公司的日常运营中,现金流量管理是最重要的经营活动之一。现金流量管理的一个关键因素是对应收账款的分析和控制。通过度量未付款发票的平均帐龄和价值,经理能够预测可用现金和监视应收账款状态的变化。公司设置的目标是:未付款发票的平均帐龄不应超过45天,超过60天的未付款发票的价值不应超过所有应收账款价值的5%。\n案例----SMALLFRYDESIGN公司在最近对应收账款的总结中,使用了下列描述性统计两来衡量未付款发票的帐龄:均值--------------------------40天中位数------------------------35天众数--------------------------31天对这些统计量的解释表明,一张发票的平均帐龄是40天;而中位数显示一半的发票已经超过35天没有付账;31天的众数表示最高频率的发票帐龄,即一张未付款发票的最普通时间长度是31天。统计汇总还显示出应收账款总价值中只有3%超过了60天。基于这些统计信息,管理者可以感到满意,因为应收账款和收入现金流都处于控制之下。未付款发票的平均帐龄不应超过45天,超过60天的未付款发票的价值不应超过所有应收账款价值的5%。\n一集中趋势的定量描述二离散程度的定量描述三偏态与峰度的测度统计描述的数值方法\n学习目标1.集中趋势各测度值的计算方法2.集中趋势不同测度值的特点和应用场合3.离散程度各测度值的计算方法4.离散程度不同测度值的特点和应用场合5.偏态与峰度测度方法6.用SPSS(或Excel)计算描述统计量并进行分析\n数据分布的特征集中趋势(位置)离散趋势(分散程度)偏态和峰度(形状)\n数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态\n第1节集中趋势的定量描述一.定类数据:众数二.定序数据:中位数和分位数三.定距和定比数据:均值四.众数、中位数和均值的比较\n集中趋势(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定\n众数(概念要点)集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据\n众数(Mode)(众数的不唯一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242\n定类数据的众数(算例)【例3.1】根据第2讲表2-1中的数据,计算众数表3-1某城市居民关注广告类型的频数分布广告类型人数(人)频率百分比(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即Mo=商品广告\n定序数据的众数(算例)【例3.2】根据第2讲表2-2中的数据,计算众数表3-2甲城市用户对冰箱使用状况评价的频数分布回答类别甲城市用户数(人)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0解:这里的数据为定序数据。变量为“回答类别”。甲城市中对该冰箱表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意\n数值型分组数据的众数(要点及计算公式)1.众数的值与相邻两组频数的分布有关MoMoLMof-1f+12.相邻两组的频数相等时,众数组的组中值即为众数3.相邻两组的频数不相等时,众数采用下列近似公式计算4.该公式假定众数组的频数在众数组内均匀分布L:频数最高所在组区间下限f:频数最高所在组的频数i:频数最高所在组的组距f-1:前一组的频数;f+1:后一组的频数\n数值型分组数据的众数(算例)【例3.3】根据第2讲中的数据,计算50名工人日加工零件数的众数表3-3某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~109110~114115~119120~124125~129130~134135~139358141064381630404650合计50—\n定序数据:中位数和分位数\n中位数(Median)(概念要点)1.集中趋势的测度值之一2.排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即\n中位数分组数据:未分组数据:\n定序数据的中位数(算例)【例3.4】根据第2讲表2-2中的数据,计算甲城市用户对冰箱使用满意状况评价的中位数表3-4甲城市用户对冰箱使用状况评价的频数分布回答类别甲城市用户数(人)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—解:中位数的位置为:300/2=150从累计频数看,中位数的在“一般”这一组别中。因此Me=一般\n数值型未分组数据的中位数(5个数据的算例)原始数据:2422212620排序:2021222426位置:12345中位数22\n数值型未分组数据的中位数(6个数据的算例)原始数据:10591268排序:56891012位置:123456中位数8+928.5\n数值型分组数据的中位数(要点及计算公式)根据位置公式确定中位数所在的组采用下列近似公式计算:N:数据总数L:中位数所在组区间下限Sm-1:中位数以前的累积频数i:中位数所在组的组距fm:中位数所在组的频数该公式假定中位数组的频数在该组内均匀分布\n数值型分组数据的中位数(算例)【例3.5】根据第2讲表2-5中的数据,计算50名工人日加工零件数的中位数表3-3某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~109110~114115~119120~124125~129130~134135~139358141064381630404650合计50—N:数据总数L:中位数所在组区间下限Sm-1:中位数以前的累积频数i:中位数所在组的组距fm:中位数所在组的频数\n四分位数(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值QLQMQU25%25%25%25%3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据\n四分位数(位置的确定)未分组数据:分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QU)位置=3N4\n定距和定比数据:均值\n均值(Mean)(概念要点)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据\n均值(计算公式)设一组数据为:X1,X2,…,XN简单均值的计算公式为设分组后的数据为:X1,X2,…,XK相应的频数为:F1,F2,…,FK加权均值的计算公式为\n调和平均数(概念要点)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定比数据5.不能用于定类数据和定序数据6.计算公式为原来只是计算时使用了不同的数据!\n调和平均数(算例)【例3.9】某蔬菜批发市场三种蔬菜的日成交数据如表3-9,计算三种蔬菜该日的平均批发价格表3-9某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)Xi成交额(元)XiFi成交量(公斤)Fi(非原始数据)甲乙丙1.200.500.801800012500640015000250008000合计—3690048000\n几何平均数(概念要点)1.集中趋势的测度值之一2.N个变量值乘积的N次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为6.可看作是均值的一种变形\n几何平均数(算例)【例3.10】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%\n众数、中位数和均值的比较\n众数、中位数和均值的关系对称分布均值=中位数=众数左偏分布均值中位数众数右偏分布众数中位数均值\n均值、中位数、众数哪个好?均值:(1)使用目标是描述一组数据的中心位置,通常是人们首选的统计量(2)数据类型:数值型数据(3)缺点是对异常观测值敏感中位数:(1)使用目标:描述一组数据的中心位置(2)数据类型:定序数据(3)不像均值那样对异常观测值敏感,有些情况下比均值更好:例:统计课考完后,你最想知道的信息有哪些?比较各班的成绩用均值和中位数哪个更好一些?众数:一般不用来描述数据组的中心位置\n数据类型与集中趋势测度值表3-10数据类型和所适用的集中趋势测度值数据类型定类数据定序数据定距数据定比数据适用的测度值※众数※中位数※均值※均值—四分位数众数调和平均数—众数中位数几何平均数——四分位数中位数———四分位数———众数\n第1节集中趋势的定量描述一.定类数据:众数二.定序数据:中位数和分位数三.定距和定比数据:均值四.众数、中位数和均值的比较\n第2节离散程度(变异性)的定量描述一.定类数据:异众比率二.定序数据:四分位差三.定距和定比数据:方差及标准差四.相对离散程度:离散系数\n离中趋势数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值\n数据的特征和测度(本节位置)数据的特征和测度分布的形状离散程度集中趋势众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态\n定序数据:四分位差\n四分位差(概念要点)1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差QD=QU-QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性\n四分位差(定序数据的算例)【例3.12】根据第2讲表2-2中的数据,计算甲城市家庭对住房满意状况评价的四分位差表3-12甲城市用户对该冰箱使用状况评价的频数分布回答类别甲城市用户数(人)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5已知QL=不满意=2,QU=一般=3四分位差:QD=QU=QL=3–2=1\n四分位差与箱线图(案例)在国外许多快餐店开设汽车窗口,为司机和乘客提供便利服务。为了研究测量这种服务的便利性,快餐店协会组织了一项研究,对5个快餐店分别抽取驾车顾客组成样本,并记录顾客花费的时间(秒),并利用箱线图作出分析说明。Smallest=190Q1=253.25Median=276.5Q3=297.5Largest=355IQR=44.25Outliers:快餐店A\n四分位差与箱线图(案例)Smallest=95Q1=133Median=143.5Q3=155Largest=201IQR=22Outliers:201,199,190,97,95,Smallest=121Q1=136Median=153Q3=177.5Largest=223IQR=41.5Outliers:快餐店B快餐店C\n四分位差与箱线图(案例)快餐店D如何解释?快餐店B的看起来最短而且最稳定,D的服务时间更具有变异性,A最慢,A和B对称性较强,C和D右偏Smallest=121Q1=141.25Median=163Q3=207.25Largest=338IQR=66Outliers:338,\n四分位差与箱线图(案例)快餐店D快餐店B的看起来最短而且最稳定,D的服务时间更具有变异性,A最慢,A和B对称性较强,C和D右偏\n如何绘制箱线图1.根据上下四分位数画一个方盒。2.在方盒中中位数位置画一条线。3.利用四分位间距设定上下界限,确定异常值。4.在方盒的两边分别画虚线,直至上下界限内的最大值和最小值。5.标注出异常值。根据以下数据画箱线图:5,15,18,10,8,12,16,10,6\n定距和定比数据:极差、方差和标准差\n极差(全距Range)(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布78910789105.计算公式为未分组数据R=max(Xi)-min(Xi).=组距分组数据R最高组上限-最低组下限\n方差(Variance)和标准差(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012X=8.3\n总体方差和标准差(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差标准差注意分组数据的计算\n总体标准差(Standarddeviation)计算过程及结果【例3.14】根据下表数据,计算工人日加工零件数的标准差表3-14某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计—50—3100.5\n样本方差和标准差(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!\n样本方差(案例)高尔夫装备制造商要研究改进后球棒对提高高尔夫球手的稳定性是否有作用?稳定性的测量:击球距离的标准差数据的收集:采用实验的方法,让一位高尔夫选手用改进前和改进后的球棒个击球75次,记录击球距离改进前改进后平均150.5467150.1467中位数151150标准差5.7921043.091808众数150149方差33.548479.559279峰度0.12674-0.88542偏度-0.429890.177338最小值134144最大值162156观测数7575\n相对离散程度:离散系数\n离散系数(变异系数)(概念要点和计算公式)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为\n离散系数(实例和计算过程)【例3.16】某管理局抽查了所属的8家企业,其产品销售数据如表3-16。试比较产品销售额与销售利润的离散程度表3-16某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0\n离散系数(计算结果)X1=536.25(万元)S1=309.19(万元)V1=536.25309.19=0.577S2=23.09(万元)V2=32.521523.09=0.710X2=32.5215(万元)结论:计算结果表明,V10为右偏分布4.偏态系数<0为左偏分布5.计算公式为\n偏态(实例)【例3.17】已知1997年我国农村居民家庭按纯收入分组的有关数据如表3-18。试计算偏态系数表3-181997年农村居民家庭纯收入数据按纯收入分组(元)户数比重(%)500以下500~10001000~15001500~20002000~25002500~30003000~35003500~40004000~45004500~50005000以上2.2812.4520.3519.5214.9310.356.564.132.681.814.94\n偏态与峰度(从直方图上观察到什么?)请与现在的情形对比户数比重(%)252015105农村居民家庭村收入数据的直方图按纯收入分组(元)1000500←15002000250030003500400045005000→结论:1.为右偏分布2.峰度适中\n偏态系数(计算过程)表3-19农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组(百元)组中值Xi户数比重(%)FiFiFi5以下5—1010—1515—2020—2525—3030—3535—4040—4545—5050以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.43250.72320.741481.812927.154686.511293.5346.520.20140.60985.492755.005282.948361.9846041.33合计—1001689257252125\n偏态系数(计算结果)根据上表数据计算得将计算结果代入公式得结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大\n峰度\n峰度(Kurtosis)(概念要点)1.数据分布扁平程度的测度2.峰度系数=3为扁平程度适中3.偏态系数<3为扁平分布4.偏态系数>3为尖峰分布5.计算公式为\n峰度系数系数(实例计算结果)代入公式得【例3.18】根据表4-10中的计算结果,计算农村居民家庭纯收入分布的峰度系数结论:由于=3.4>3,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重\n小结1.集中趋势各测度值的含义、计算方法、特点和应用场合2.离散程度各测度值的含义、计算方法、特点和应用场合3.偏态及峰度的测度方法4.用Excel计算描述统计量\n结束