- 1.04 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学中的基本术语平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有:算术平均数(arithmeticmean)中位数(median)众数(mode)几何平均数(geometricmean)调和平均数(harmonicmean)1.资料的代表数2.表示各种技术措施的效果3.表示生产性能4.进行变量间的相互比较其作用主要体现在:\n算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。(一)直接法主要用于样本含量n≤30、未经分组资料平均数的计算。一、算术平均数设某一资料包含n个观测值:x1、x2、…、xn,则样本平均数可通过下式计算:\n其中,Σ为总和符号;表示从第一个观测值x1累加到第n个观测值xn。当其在意义上已明确时,改写为:【例1】某工厂自动分装机器测得10件物品的重量分别为500、520、535、560、585、600、480、510、505、490(kg),求其平均数。由于Σx=500+520+535+560+58+600+480+510+505+49=5285,n=10得:即10件物品的平均重量为528.5kg。\n\n(二)加权法对于样本含量n≥30以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:式中:—第i组的组中值;—第i组的次数;—分组数。\n第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi称为是xi的“权”,加权法也由此而得名。【例2】测得生产车间一个月内抽查100件生产物品重量(单位:kg)资料整理成次数分布表如下,求其加权数平均数。组别组中值(x)次数(f)fx10—1534520—25615030—352691040—4530135050—5524132060—65852070—753225合计1004520表100件生产物品重量重次数分布表\n即:100件生产物品重量平均重量为45.2kg。计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算(以各样本的含量为权)。\n【例3】某牛群有黑白花奶牛1500头,其平均体重为750kg,而另一牛群有黑白花奶牛1200头,平均体重为725kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即即两个牛群混合后平均体重为738.89kg。\n\n(三)平均数的基本性质1、样本各观测值与平均数之差的和为零,即离均差之和等于零。可简写成:或2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。\n对于总体而言,通常用μ表示总体平均数,有限总体的平均数为:式中,N表示总体所包含的个体数。当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。统计学中常用样本平均数()作为总体平均数(μ)的估计量,并已证明样本平均数是总体平均数μ的无偏估计量。\n二、中位数将资料内所有观测值从小到大依次排列,位于中间的那个观测值称为中位数(median),记为Md。当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。中位数的计算方法因资料是否分组而有所不同,通常采用不分组的方法学习理解。\n1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数:不分组资料中位数的计算方法对于未分组资料,先将各观测值由小到大依次排列。2、当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即:\n【例4】观察得到9个工人制作同一种农具的天数为:144、145、147、149、150、151、153、156、157,求其中位数。此例n=9,为奇数,则:即9个工人制作同一种农具的天数的中位数为150天。(d)【例5】某猪场发生猪瘟,观察得10只小猎犬出现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。此例n=10,为偶数,则:(d)即10只小猎从出现症状到死亡天数的中位数为11.5天。\nMEDIAN(数据范围)功能:计算中位数\n三、几何平均数n个观测值相乘之积开n次方所得的方根,称为几何平均数(geometricmean),记为G。它主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析。如畜禽、水产养殖的增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下:n\n为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即【例7】某波尔山羊群1997—2000年各年度的存栏数见下表,试求其年平均增长率。年度存栏数(只)增长率(x)Lgx1997140——19982000.429-0.36819992800.400-0.39820003500.250-0.602Σlgx=-1.368表某波尔山羊群各年度存栏数与增长率\nGEOMEAN()函数用于返回正数数组或数据区域的几何平均值。函数语法语法形式。GEOMEAN(number1,number2,...)。其中,number1,number2,…表示需要计算其平均值的1~30个参数。\n四、众数资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数(mode),记为Mo。间断性资料由于样本中的各观测值容易集中于某一个数值,所以众数易于确定。连续性资料由于在两个相邻的观测值之间,可有各种数值存在,样本中的观测值不易集中于某一个数值,众数不易确定。在连续性资料的次数分布表中,分布次数最多一组的组中值即为该样本的概约众数。但在实际统计分析过程中,由于分组不同,概约众数亦不同。可用补差法计算众数,其准确性高于众数。公式如下:\n为次数最多组的下限,为组距,L为次数最多组上一组的累计次数,为次数最多组下一组的累计次数。\nMODE(数据范围)功能:计算众数\n五、调和平均数资料中各观测值倒数的算术平均数的倒数,称为调和平均数(harmonicmean),记为H。即调和平均数主要用于反映分析对象不同阶段的平均增长率或分析对象不同规模的平均规模。\n【例8】某保种牛群不同世代牛群保种的规模分别为:0世代200头,1世代220头,2世代210头;3世代190头,4世代210头,试求其平均规模。利用(3-9)式求平均规模:(头)即保种群平均规模为208.33头。\n一般,对于同一资料:算术平均数≥几何平均数≥调和平均数。上述五种平均数,最常用的是算术平均数。555553456713579三组数据平均数均为5,但代表性强弱不同。\nGEOMEAN()函数用于返回正数数组或数据区域的几何平均值。函数语法:GEOMEAN(number1,number2,...)其中,number1,number2,…表示需要计算其平均值的1~30个参数。\n平均数的意义平均数代表平均水平;中位数代表中等水平;众数代表多数水平。上述参数都代表数据的集中趋势。\n\n\n\n样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息.平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,需要一个统计数字刻画样本数据的离散程度.\n实际问题:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:甲:7 8 7 9 5 4 9 10 7 4乙:9 5 7 8 7 6 8 6 7 7如果你是教练,你应当如何对这次射击作出评价?如果是一次选拔考核,你应该如何做选择?计算可得两人射击的平均成绩是一样的.那么两个人的水平就没有什么差异吗?\n45678910环数频率0.10.20.3(甲)456789100.10.20.30.4环数频率(乙)甲成绩比较分散,乙成绩相对集中看来,平均数还难以概括样本的实际状态,因此,我们还需要从另外的角度来考察这两组数据.\n思考:什么样的指标可以反映一组数据变化范围的大小?可以用一组数据中的最大值减去最小值所得的差来反映这组数据的变化范围。用这种方法得到的差称为极差.极差(全距)=最大值-最小值\n甲的环数极差=10-4=6乙的环数极差=9-5=4.极差对极端值非常敏感,在一定程度上表明样本数据的的波动情况.但极差只能反映一组数据中两个极端值之间的差异情况,对其他数据的波动情况不敏感,到底是甲还是乙的数据更加稳定呢?有必要重新找一个对整组数据波动情况更敏感的指标因此应学习反应一组数据稳定程度的分析\n常用的几种标志变异指标概念计算特点数列中最大值与最小值之差1.极差(R)和内距R=最大值-最小值优点:容易理解,计算方便缺点:不能反映全部数据分布状况2.平均差(A、D)各标志值与均值离差绝对值的算术平均简单:加权:优点:反映全部数据分布状况缺点:取绝对值,数字上不尽合理数列中上下四分位数之差内距=上四分位数-下四分位数\n概念计算特点各标志值与均值离差平方的平均方差的平方根(取正根)3.总体方差(σ2)和标准差(σ)样本方差与标准差(n-1)优点:反映全部数据分布状况,数字上合理。缺点:受计量单位和平均水平影响,不便于比较4.标准差系数(Vσ)离散系数标准差与均值之商,是无量纲的系数简单:加权:优点:适宜不同数据集的比较缺点:对数据结构变化反应不灵敏方差(σ2)和标准差(σ)是应用最广的标志变异指标\n四分位数间距(inter-quartilerange)(1)四分位数(quartile,Q)下四分位数即第25百分位数,常用QL表示;上四分位数即第75百分位数,常用QU表示。(2)四分位数间距指上、下四分位数的间距,既QL与QU间的差距,它是从小到大排列后中间一半数据所在的范围。QLQMQU25%25%25%25%\n方差由于离均差的平方和与样本个数有关,只能反应相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将标准差求平均值,这就是我们所说的方差成了评价离散度的较好指标。\n\n标准差标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值,相对稳定,即:标准差越高,表示实验数据越离散,也就是说越不精确。总体标准差公式是根号内除以n样本标准差公式是根号内除以(n-1)\n考虑一个容量为2的样本:标准差的几何意义a显然,标准差越大,则a越大,数据的离散程度越大;标准差越小,数据的离散程度越小.标准差用来衡量一批数据的波动大小(即这批数据偏离平均数的大小).\nSTDEV(数据范围)功能:计算标准差\n标准差的取值范围是什么?标准差为0的样本数据有什么特点?标准差是怎样表现数据的离散程度的?标准差的取值范围:[0,+∞)标准差为0的样本数据都等于样本平均数.标准差表现为:标准差越大,表明数据的离散程度就越大;反之,标准差越小,表明各数据的离散程度就越小。它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。标准差的作用:\n例题分析画出下列四组样本数据的条形图,说明他们的异同点.(1)5,5,5,5,5,5,5,5,5;(2)4,4,4,5,5,5,6,6,6;O频率1.00.80.60.40.212345678(1)O频率1.00.80.60.40.212345678(2)\n(3)3,3,4,4,5,6,6,7,7;(4)2,2,2,2,5,8,8,8,8.频率1.00.80.60.40.212345678O(3)1.00.80.60.40.2(4)频率12345678O\n变异系数变异系数(coefficientofvariation,CV)变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。\n一般地,对于一个正态总体(,),数据落在区间()、()、()内的百分比分别为68.3%、95.4%、99.7%,这个原理在产品质量控制中有着广泛的应用。m-am+ax=μ正态分布\n在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差(±S)范围内;约有95.45%的观测值在平均数左右两倍标准差(±2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(±3S)范围内。也就是说全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。\n正态分布正态分布的概念和特征正态曲线下的面积分布规律标准正态分布及其转换正态分布的应用参考值范围的制定\n正态分布的概念和特征概念:指变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布。从理论上说,若随机变量x的概率密度函数为:则称x服从均数为μ,标准差为σ2的正态分布。\n正态分布的特征均数处最高以均数为中心,两端对称永远不与x轴相交的钟型曲线有两个参数:均数——位置参数,标准差——形状(变异度)参数。正态曲线下的面积分布有一定规律正态分布具有可加性\n正态分布的参数123标准差相同、均数不同的正态分布曲线\n正态分布的参数均数相同、标准差不同的正态分布曲线\n正态曲线下面积的分布规律正态曲线下面积的意义:正态曲线下一定区间内的面积代表变量值落在该区间的概率。整个曲线下的面积为1,代表总概率为1。曲线下面积的求法:定积分法和标准正态分布法\n标准正态分布与正态分布的转换标准正态分布:指均数为0,标准差为1的正态分布。常称z分布或u分布。标准正态分布与正态分布的转换公式:即若x服从正态分布N(μ,σ2),则z就服从均数为0,标准差为1的正态分布。\n标准正态分布uΦ(u)\n正态分布曲线下的面积μ±σ范围内的面积为68.27%μ±1.96σ范围内的面积为95%μ±2.58σ范围内的面积占99%\n正态分布的应用正态分布的判断和检验:经验法和正态性检验描述正态分布资料的频数(频率)分布范围参考值范围的制定质量控制:\n正态分布的应用例:从某地随机抽取100名一年级男大学生,测得平均身高为166.2cm,标准差为5.3cm,现欲估计该地身高界于低于160cm,身高高于180cm,以及身高在165cm~175cm范围内的一年级男大学生的比例和人数。\n查标准正态分布表得:Φ(u1)=Φ(-0.02)=0.4920Φ(u2)=Φ(1.66)=0.04851-[Φ(u2)+Φ(u1)]=0.4595\n参考值范围的制定正常值范围(或参考值范围):医学上常把绝大多数正常人的某指标值的波动范围称为该指标的正常值范围(或参考值范围)。注意:正常人并非指没有任何疾病的人,而指同质前提下排除了足以影响所测指标的因素的人。\n正常值范围的确定步骤选定正常人群,并抽取一定的样本含量(一般大样本)。根据专业知识确定用单侧或双侧范围。根据需要确定可信度。\n正常值范围的确定步骤4.按资料特点选定不同方法计算正常值范围上、下限。正态分布法:适于正态分布资料。对数正态分布的资料取对数后可用正态分布法估计。百分位数法:适于偏态分布资料或分布不明类型的资料。所需样本含量较大。\n表正常值范围的界值正态分布法百分位数法%双侧单侧双侧单侧下限上限下限上限909599P5~P95P2.5~P97.5P0.5~P99.5P10P90P5P95P1P99\n频率分布表【问题】我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.通过抽样调查,获得100位居民2007年的月均用水量如下表(单位:t):\n3.12.52.02.01.51.01.61.81.91.63.42.62.22.21.51.20.20.40.30.43.22.72.32.11.61.23.71.50.53.83.32.82.32.21.71.33.61.70.64.13.22.92.42.31.81.43.51.90.84.33.02.92.42.41.91.31.41.80.72.02.52.82.32.31.81.31.31.60.92.32.62.72.42.11.71.41.21.50.52.42.52.62.32.11.61.01.01.70.82.42.82.52.22.01.51.01.21.80.62.2(4.3-0.2)÷0.5=8.2思考2:样本数据中的最大值和最小值的差称为极差.如果将上述100个数据按组距为0.5进行分组,那么这些数据共分为多少组?思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么?\n思考3:以组距为0.5进行分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?思考4:如何统计上述100个数据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出来吗?[0,0.5),[0.5,1),[1,1.5),…,[4,4.5].\n分组频数累计频数频率[0,0.5)40.04[0.5,1)正80.08[1,1.5)正正正150.15[1.5,2)正正正正220.22[2,2.5)正正正正正250.25[2.5,3)正正140.14[3,3.5)正一60.06[3.5,4)40.04[4,4.5]20.02合计1001.00频率分布表\n思考5:上表称为样本数据的频率分布表,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?用样本的频率分布估计总体分布.\n分组频数累计频数频率[0,0.5)40.04[0.5,1)正80.08[1,1.5)正正正150.15[1.5,2)正正正正220.22[2,2.5)正正正正正250.25[2.5,3)正正140.14[3,3.5)正一60.06[3.5,4)40.04[4,4.5]20.02合计1001.00思考6:如果市政府希望85%左右的居民每月的用水量不超过标准,由此表,你对制定居民月用水量标准(即a的取值)有何建议?88%的居民月用水量在3t以下,可建议取a=3.思考7:在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?分组时,组距的大小可能会导致结论出现偏差,实践中,对统计结论是需要进行评价的.\n思考8:对样本数据进行分组,其组数是由哪些因素确定的?思考9:对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.当样本容量不超过100时,按照数据的多少,常分成5~12组.若以0.1或1.5为组距对上述100个样本数据分组合适吗?\n思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?第一步,求极差.(极差=样本数据中最大值与最小值的差)第二步,决定组距与组数.(设k=极差÷组距,若k为整数,则组数=k,否则,组数=[k]+1)第三步,确定分点,将数据分组.第四步,统计频数,计算频率,制成表格.(频数=样本数据落在各小组内的个数,频率=频数÷样本容量)\n知识探究(二):频率分布直方图思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O\n上图称为频率分布直方图,其中横轴表示月均用水量,纵轴表示频率/组距.频率分布直方图中各小长方形的和高度在数量上有何特点?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O宽度:组距高度:频率组距\n思考2:频率分布直方图中各小长方形的面积表示什么?各小长方形的面积之和为多少?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O各小长方形的面积=频率各小长方形的面积之和=1\n思考3:频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来.你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O\n(1)居民月均用水量的分布是“山峰”状的,而且是“单峰”的;月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O(2)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;(3)居民月均用水量的分布有一定的对称性等.\n思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?第一步,画平面直角坐标系.第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.\n思考5:对一组给定的样本数据,频率分布直方图的外观形状与哪些因素有关?在居民月均用水量样本中,你能以1为组距画频率分布直方图吗?与分组数(或组距)及坐标系的单位长度有关.月均用水量/t频率组距0.40.30.20.112345O\n直方图80作成直方图后、可以知道数据的分布状況直方图是将数据的偏差通过可视化,把握整体数据特征的手法。B農園直方图:草莓的含糖程度不同水果的甜分比较改良后、草莓变甜了土壤改良前土壤改良后数量数量\nCTRL+SHIFT+ENTER\n\nRANK排位函数该函数格式为:=RANK(Number,Ref,Order)功能是返回数字Number在相对于区域Ref其他数值的大小排位,Order表为1数字,指明排位的方式,如果为0或省略,表示降序,如果不为0表示升序。例如上述公式改为=RANK(A1,$A$1:$A$10,1),表示计算出来的名次是倒数第几名。\n