统计学上机实验指导 26页

  • 6.85 MB
  • 2022-08-29 发布

统计学上机实验指导

  • 26页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第一章数据的收集、整理与显示数据的收集、整理与显示统计数据的收集、整理与显示是统计分析的基础和初步,其中涉及到抽样方法的选择,数据的筛选、排序,数据的分类和分组以及频数分布的制作等。本章主要介绍如何使用Excel进行相应处理,其中第一节统计数据的收集,介绍“抽样”工具的使用;第二节数据的预处理,介绍“筛选”、“排位和百分比排位”工具的使用;第三节品质数据的整理与显示,介绍如何使用“直方图”工具制作品质型数据的频数分布;第四节数值型数据的整理与显示,介绍如何使用“直方图”工具制作数值型数据的频数分布以及多变量数据的雷达图制作。第一节统计数据的收集收集统计数据是统计研究的第一步。统计数据最初都来源于直接的调查或实验,其中抽样调查是实际中应用最广泛的一种调查方式,它是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方式。在Excel的“数据分析”工具中有一个“抽样”工具,可以较简单迅速地完成一些常规的抽样任务。Excel菜单栏“工具”选项中“数据分析”工具是统计分析时经常需要用到的,在初次使用时会发现在Excel相应位置中找不到这一选项,其原因在于在安装Office办公集成软件或MicrosoftExcel时,一般使用的是“自动”或“典型”安装。为此,需要使用者自己加载这一功能。如图1.1和图1.2所示,在“工具”菜单中单击“加载宏”选项,从其弹出的对话框列表中,单击“分析工具库”前面的标志复选框,然后点击“确定”。此时,MicrosoftExcel会弹出对话框询问是否要安装,点击“是”选项后,系统会提示使用者放入光盘或指定资源位置。按提示操作后,点击“确定”即可。图1.1在“工具”菜单中单击“加载宏”选项在加载成功“数据分析”选项后,下面说明如何使用数据分析工具中“抽样”工具抽取样本。首先需要编制总体单位编号表。总体单位编号,可按随机原则也可按照与调查目的有关或无关的标志排队编号。例如:某年级有100名学生,要调查四级英语考试情况,按学生的姓名笔画排队编号,是无关标志编号;按学生的英语成绩排队编号,属有关标志编号。输入编号的方法很简单,这里不在详述。把100名学生的编号输入Excel表格中,如表1-1所示。-26-\n第一章数据的收集、整理与显示图1.2在“加载宏”列表中选择“分析工具库”表1-1总体单位编号表在Excel表中输入总体编号后,可按以下步骤操作完成抽样工作第一步:在“工具”菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“抽样”,回车打开“抽样”对话框。(见图1.3~图1.5)图1.3在“工具”菜单中单击“数据分析”选项-26-\n第一章数据的收集、整理与显示图1.4从“分析工具”列表中选择“抽样”图1.5“抽样”工具对话框第二步:在“抽样”对话框中进行相应设置。本例在“输入区域(I)”(总体单位编号所在区域)输入A1:J10(在Excel执行过程中自动更换为绝对引用形式,即在字符和数字前加$号,使用者没有必要考虑这两种形式的不同)。Excel将从A列开始抽样,然后按顺序抽取B列至J列。如果“输入区域(I)”的第一行或第一列有标题,则需单击“标志(L)”前面的复选框(使其出现对钩,表示已被选定)。第三步:在“抽样方法”选择区域具体选择抽样模式:1、“周期(E)”模式,即等距抽样或机械抽样。采用此模式,需要将总体单位数除以所需样本数,求得取样的周期间隔。本例中如果在100名学生中抽取10名进行调查,100/10=10,可在“间隔框”中输入10(如果计算得到的周期间隔不是整数,取整即可)。2、“随机(R)”模式适用于纯随机抽样、分层抽样、整群抽样和多阶段抽样。如采用纯随机抽样,只需在“样本数”框中输入所需的样本单位数。本例,可在“样本数”框中输入10。对于分层抽样、整群抽样和多阶段抽样的具体含义,可参考有关教科书,这里不再详述,其具体做法与纯随机抽样的区别在于第二步“输入区域(I)”上的不同。如采用分层抽样,事先要计划好分几层,每层要抽取多少样本,每层的总体单位编号在何区域。在每一层中,分别采用纯随机抽样,步骤同上。第四步:指定“输出区域(O)”。“输出区域(O)”是指Excel结果输出的起始位置,输入单元格的行列号即可,本例输入“e6”。当然,也可以选择“新工作表组(P)”或“新工作薄(W)”作为放置抽样结果的位置。完成以上操作后,回车确认,即在指定的位置给出抽样结果。-26-\n第一章数据的收集、整理与显示第二节数据的预处理数据的预处理是数据整理的先前步骤,是在对数据分类或分组之前所做的必要处理,包括数据的审核、筛选、排序等。本节主要介绍Excel中筛选和排序功能的使用。一、数据筛选数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。下面举例说明Excel进行数据筛选的过程。表1-28名学生的考试成绩数据单位:分表1-2是八名学生四门课程的考试成绩数据,使用Excel“筛选”命令分别找出统计成绩等于75分的学生;英语成绩前三名的学生;数学成绩大于80小于90的学生;统计成绩和数学成绩大于80分,或者英语成绩大于90分的学生。Excel提供了两种筛选命令:“自动筛选”(适用于简单的条件)和“高级筛选”(适用于复杂的条件)。接下先来介绍“自动筛选”的使用。首先,将表格中的数据区域选定或者只需确保活动单元格处于数据区域既可(如表1-2所示,活动单元格为B3)。选择“数据”菜单,并选择“自动筛选”命令。如图1.6所示。图1.6从“数据”菜单中选择“筛选自动”这时会在第一行(列标题)出现下拉箭头,用鼠标点击箭头会出现如下结果,如图1.7所示。-26-\n第一章数据的收集、整理与显示图1.7“自动筛选”命令图1.8统计成绩75分的学生图1.9英语成绩前三名的学生图1.10数学成绩大于80小于90的学生-26-\n第一章数据的收集、整理与显示要筛选出统计学成绩为75分的学生,可选择75,得到图1.8的结果;要筛选出英语成绩最高的前三名学生,可在英语成绩下拉箭头选项中选择“前10个”,并在对话框中输入“3”,得到如图1.9所示结果。要筛选出数学成绩大于80小于90的学生,可在数学成绩下拉箭头的选项中选择“自定义”。在弹出的对话框中,进行相应的设置,如图1.10所示。上面介绍的筛选方法条件比较单一,要求较少,一般情况下选择“自动筛选”命令就可以完成。对于设定条件比较多的筛选,则需要使用“高级筛选”命令。“高级筛选”与“自动筛选”命令不同,它要求在一个工作表区域内单独指定条件区域(也称筛选区域)与数据区域区分开来。通常的做法是把条件区域放在数据区域的上面,一个筛选区域至少要包含两行。如果第一行是列标题,则筛选将从第二行及其下面的行开始执行,需要注意的是条件区域的标题应和数据区域的标题一致。下面用“高级筛选”命令筛选出“统计成绩和数学成绩大于80分,或者英语成绩大于90分”的学生。第一步:建立条件区域,即在工作表的顶端插入若干新行来放置条件。具体到本例至少需要插入四行来放置条件(注意:数据区域与条件区域必须有一行间隔)。如图1.11所示。图1.11条件区域的建立图1.12“高级筛选”命令的使用Excel将根据以下规则解释这一区域:◆同一行中的条件之间的关系是“与”。-26-\n第一章数据的收集、整理与显示◆不同行中的条件之间的关系是“或”。第二步:选择“高级筛选”命令,在弹出的对话框中进行相应的设置。如图1.12所示。在本例在“数据区域(L)”输入A5:E13,在“条件区域(C)”输入A1:C3,回车确定即可。结果见表1-3。需要说明的是“自动筛选”和“高级筛选”命令显示筛选出的数据时,Excel仅仅把不符合要求的行隐藏起来,并且为了提醒用户此区域是经过筛选的数据区域,Excel会用对比颜色来显示筛选出的行数。如果要取消“筛选”,可以单击“筛选”菜单上的“全部显示”命令,也可以单击下拉列表框并选择“全部”(此时使用的是“自动筛选”命令)。所以,为了保证筛选结果的正确与“安全”,通常需要把每一次筛选的结果复制到其它工作表中。表1-3筛选结果二、数据的排序数据排序是按一定的顺序将数据排列,以便研究者通过排序后数据的特征或趋势,找出解决问题的线索。对于数值型数据的排序,即递增和递减排序,在Excel“数据”菜单中的“排序”命令可以很方便的实现这一功能,由于篇幅所限这里不再介绍。下面介绍如何利用Excel的“排位和百分比排位”分析工具来进行分析,此工具可以产生次序排位和百分比排位。以表1-2为例,步骤如下:第一步:在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“排位和百分比排位”,回车打开其对话框(见图1.13,图1.14)。图1.13“排位和百分比排位”命令-26-\n第一章数据的收集、整理与显示图1.14“排位和百分比排位”命令对话框第二步:(以统计学成绩单列数据为例)对命令对话框进行相应设置。本例统计学成绩数据区域为“B1:B9”,“输入区域(I)”输入“B1:B9”。“分组方式”要求指出输入区域中的数据是按行还是按列排列,在本例中选择默认设置“列”。如果“输入区域(I)”的第一行包含了标志项,则需单击选中“标志位于第一行(L)”复选框,本例显然要选中此项。在输出选项中,按照需要相应选择,本例因输出结果比较多,所以选择“新工作表组(P)”。设置完毕,回车确定,结果见表1-4。表1-4排位和百分比排位结果显示结果包括四列:第一列“点”为数据原来的排列顺序;后三列依次为数据值、数据值排序和百分比排序。百分比排序的数值指的是“好于多少的”数据,如统计学成绩87分的百分比排序值为85.7%,指的是其成绩好于85.7%的其它数据。在本例中,使用“排位和百分比排位”分析工具分析了统计学单列数据。可以使用此工具分析全部四个成绩:统计学、数学、英语、经济学,在这种情况下应指定“B1:E9”为输入区域,工具将输出16列数据。第三节品质数据的整理与显示数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理与显示时,首先要弄清是什么类型的数据,不同类型的数据适用的处理方法不同。一般情况下,对品质数据主要是分类整理,对数值型数据主要是分组整理。本节以及下一节(数值型数据的整理与显示)主要介绍这两大类数据频数分布的制作,而对于一般图形的制作,如:条形图、饼行图、直方图、圆环图等属于Excel的基本内容,由于篇幅所限不在这里讲述。下面通过一个具体的例子来说明如何使用Excel来制作定类数据的频数分布。-26-\n第一章数据的收集、整理与显示表1-5是一家市场调查公司为研究不同品牌饮料的市场占有率,调查员某天对50名顾客购买饮料品牌记录的原始数据。具体做法是:如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌记录一次。表1-5顾客购买饮料品牌的记录因为Excel无法识别非数值型数据,所以为了用Excel建立饮料品牌的频数分布,首先需要将字符数字化。为此,通常的做法是将不同品牌的饮料用一个数字代码来表示。本例对各种品牌饮料指定的代码是:1.可口可乐2.旭日升冰茶3.百事可乐4.汇源果汁5.露露然后,将各品牌的代码输入到Excel工作表中。假定这里已将品牌代码输入到Excel工作表中的B2:B51,这样就将定类数据转化为数值型数据。为建立频数分布表和条形图,Excel还要求将每个品牌的代码作为分类标志单独输入到任何一列,这里将代码输入到工作表的C4:C8(见表1-6)。这样,Excel就可以对数值小于或等于每一品牌代码的数据进行计算,提供的合计数就是各品牌的频数分布。下面是用Excel产生频数分布表和图形的步骤:第一步:在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“直方图”,回车打开其对话框(如图1.15,图1.16所示)。图1.15从对话框“分析工具”列表中选择“直方图”-26-\n第一章数据的收集、整理与显示图1.16对话框的设置第二步:对命令对话框进行相应设置。本例“输入区域(I)”为B2:B51(请注意:是转换后代码的区域,而不是A2:A51字符的区域);“接受区域(B)”为C4:C8,即分类标志的区域(注意:“接受区域(B)”不能为空且内容必须正确,即为分类标志。只有这样Excel才能识别任务,程序可以统计出数字“1”、“2”等分类标志的个数,即每一类别的个数;还可以统计出小于等于数字“2”、“3”、“4”、“5”的个数,从而达到统计累积频率的目的)。在输出选项中可根据自己的需要确定,本例选择“输出区域(O)”并键入E1(意思是结果从本工作表E1位置开始输出结果)。选择“累积百分率(M)”(若不需要时,此项可不选)和“图表输出(C)”,然后回车确定,结果见表1-6。表1-6频数分布结果-26-\n第一章数据的收集、整理与显示为了把输出结果转化为易读的形式,应将结果进一步修改和修饰。这里可以将频数分布表中的“接收”用描述性标题“饮料品牌”来代替,将“频率”改为“频数”(输出结果的频率实际上频数),将品牌的代码1,2,3,4,5用相应品牌的名称可口可乐、旭日升冰茶、百事可乐、汇源果汁、露露来代替。并将“其他”行(Excel的一个固定输出形式)去掉,换以相应的“合计”内容,结果见表1-7(这里提醒读者的是,因为表1-6输出结果中,频数分布表和频数分布图为一个相关联的整体,所以当对频数分布表进行修改时,分布图也会相应的变化。如:将品牌的代码1,2,3,4,5用相应品牌的名称代替后,分布图中的分组标志也相应的变成品牌名称)。表1-7不同品牌饮料的频数分布对于频数分布图,读者可以自己设计,如图形的背景、颜色、字体、坐标的刻度等。Excel可以很容易地绘制出漂亮的图形。需要注意的是,初学者往往会在图形的修饰上花费太多的时间和精力,这样做得不偿失,也未必合理,或许会画蛇添足。图形的绘制应尽可能的简洁,以能够清晰地显示数据、合理地表达统计目的为依据。爱德华·R·塔夫特(EdwardR.Tufte)在其著作TheVisualDisplayofQuantitativeInformation(1983)中使用“图优性”(graphicalexcellent)来描述一个好图。图优性是指图能够在最短的时间内,用最少的笔墨,在最小的空间里给观众最多的思想。在他看来,一个好图能够把复杂的思想在图中清楚、准确、有效地表达出来(转摘自:贾俊平编著,《统计学》第62页,中国人民大学出版社,2003)。第四节数值型数据的整理与显示上一节介绍了品质数据频数分布的制作,本节将介绍一些统计中常用到的数值型数据的整理与显示方法。一、数值型数据的分组与图示数值型数据包括定距和定比数据,在整理时通常要进行数据分组,就是根据统计研究的需要,将数据按某种标准化分成不同的组别。分组后再计算出各组中出现的次数和频数,就形成了一张频数分布表。下面结合具体的例子来说明,表1-8是某生产车间50名工人日加工零件数(单位:个),采用等距分组的形式制作频数分布表和分布图。在使用Excel前,首先需要明确分几组,组距以及每组的上下组限。一般情况下,可以按Sturges公式来确定组数K:K=1+其中,n为数据的个数,对结果用四舍五入的办法取整即为组数。组距是一个组的上限和下限的差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值—最小值)÷组数。-26-\n第一章数据的收集、整理与显示本例假定根据上述方法分为五组,组距为10:100-110;110-120;120-130;130-140;140-150。表1-8生产车间50名工人加工零件数与品质数据一样,使用“数据分析”中的“直方图”工具来制作频数分布。首先,需要给定数据的“输入区域”和“接受区域”。这里的“接受区域”相应的变为分组标志,但是由于Excel不能识别非数值型字符,所以不能把100-110,110-120,120-130,130-140,140-150输入一列作为“接受区域”,程序规定只能把上组限值作为分组标志,即110,120,130,140,150。需要强调的是在制作频数分布的时候,由于相邻两组的上下组限重叠,为了避免重复,通常采用“上组限不在内”的原则。由于Excel无法识别这一原则,但为了与通常的做法相一致,需要将上组限都减去1,即分组标志变为:109,119,129,139,149(读者可以自己思考一下程序的运行原理)。假定已将样本数据和分组标志输入到相应的位置(如表1-9所示),步骤同第三节品质数据的频数分布制作相同(这里做简单介绍)。表1-9生产车间50名工人加工零件数和分组标志单位:个第一步:在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“直方图”,回车打开其对话框。第二步:在“直方图”对话框的“输入区域(I)”输入A1:A51,“接受区域(B)”输入C2:C7,这时还需要单击选定“标志(L)”复选框(请读者自己思考为什么?)。第三步:在输出选项中,本例在“输出区域(O)”中键入D1,同时单击“累积百分率(M)”和“图表输出(C)”复选框。回车确定即可,结果输出见表1-10。-26-\n第一章数据的收集、整理与显示表1-10频数分布输出结果同样,为了把输出结果转化为易读的形式,应进一步修改表格和修饰图形。如下表1-11所示,把分组标志转换为标准、易懂的形式。同时,如上节所述,分布图的标志随着频数分布表的修改相应变化(读者可自己验证)。表1-11日产零件的频数分布二、多变量数据的显示(雷达图)在本章的最后,介绍多变量数据的图示。当研究的变量只有2个时,可以在平面直角坐标中进行绘图;当有3个变量时,可以在三维坐标里绘图,但让人看起来很不方便,特别是当变量多于3个时,利用一般的点图方法就很难做到了。为此,人们研究了许多多变量的图示方法,其中有雷达图、脸谱图、星座图、连接向量图等。这里只介绍较为常见的雷达图。雷达图具体的做法是:先做一个圆,然后将圆P等分(要绘制P个变量的雷达图),得到P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图。-26-\n第一章数据的收集、整理与显示雷达图在显示或对比各变量的数值总和时十分有用。假定各变量的取值具有相同的正负号,则总的绝对值与图形围成的面积成正比。另外,利用雷达图可以研究样本之间的相似程度,两个样本形成的多边形图越相似其相似程度越高。下面以2000年我国城乡居民家庭人均各项生活消费支出比重数据为例,绘制雷达图。如表1-12所示。表1-122000年城乡居民家庭人均生活消费支出比重(%)第一步;选中数据所在的区域,本例为A1:C9。单击工具栏上的“图表向导”按钮,或者从“插入”菜单中选择“图表”选项。第二步:在弹出的对话框(图表向导—4步骤之1—图表类型)中,选择雷达图。如图1.17所示。第三步:点击下一步,在弹出的对话框(图表向导—4步骤之2—数据来源)中,按默认设置(因为在第一步中,我们已经选中数据区域)点击下一步,在弹出的对话框(图表向导—4步骤之3—图表选项)中进行相应设置。图表选项设置是我们制图过程中的关键步骤,可以在其中加图表标题,设置网格线、图例和数据标志。如图1.18所示(读者可自行体会)。第四步:点击下一步,在弹出的对话框(图表向导—4步骤之4—图表位置)中,点击完成即可。结果如图1.23所示。这里需要说明的是图1.23的输出结果是经过进一步修改得到的。在点击完成按钮后我们看到的图形很粗糙、模糊,甚至很难看,这时需要我们对图形(图表区和绘图区)进行拖拉,将其显示清楚,然后进行美观设置。通常情况下,初次输出的图表字体、数字字号比较大并且坐标轴的刻度稀疏,需要对坐标轴格式、分类标志格式进行修改,其方法很简单只需在修改处点击鼠标右键即可。另外,如果我们在作图过程中有些步骤的设置不合适,在图形输出后还可以返回进行修改。具体做法也很简单在图表区域点击鼠标右键,在弹出的菜单中选择图表类型、数据来源或图表选项即可(读者可自己体会)。-26-\n第一章数据的收集、整理与显示图1.18图表选项图1.17图表类型-26-\n第一章数据的收集、整理与显示图1.23雷达图输出上面介绍了雷达图的具体做法,其实在Excel中作图的步骤大体都相同,所以其他图形的制作,如品质数据图示经常用到的条形图、饼形图等,这里不再重复,读者可自行体会。最后需要强调的是:图形的绘制以简洁、清晰地显示数据、合理地表达统计思想为目的,不要在图形的修饰上花费太多的时间和精力。数据分布特征的测度对数据分布特征主要从三个方面进行测度和描述:一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏斜程度和峰度。本章主要介绍如何使用函数以及“数据分析”工具对数据分布特征进行测度和描述。第一节函数的介绍本节主要介绍在统计分析中需要用到的一些函数,其中包括我们本章(描述统计)中以及在概率分布、参数估计与假设检验、方差分析、相关与回归等分析中涉及到的函数,读者在后面章节的学习中可以参阅本节的内容。一、统计计算中经常用到的函数(函数列表)★本小节摘自:安维默主编,《统计电算化》第34~37页,中国统计出版社,2000Excel为用户提供了数学、三角函数、统计函数、数据库函数、财务函数、工程函数、逻辑函数、文本函数、时间和日期函数、信息函数、查找和引用函数等10类300多种,可以满足多方面的需要。其中,统计函数最多达78种;此外还有14种数据库函数,以及在统计中经常使用的数学函数20种,合计112种。下面将这些函数名称及功能列表显示。-26-\n第一章数据的收集、整理与显示表2-1可用于统计分析的函数函数名称函数功能介绍一、统计函数1、用于数据整理的函数FREQUENCY2、用于描述统计的函数MODEMEDIANAVERAGEAVERAGEAHARMEANGEOMEANTRIMMEANMAXMAXAMINMINALARGESMALLQUARTILEAVEDEVDEVSQSTDEVSTDEVASTDEVP求分组数据的频数求一组数据的众数求一组数据的中位数求一组数据的均值求数据清单中数据的均值求调和平均数求几何平均数求去掉最大值和最小值的平均数求一组数据中的最大值求数据清单中包含逻辑值和字符串的最大值求一组数据中的最小值求数据清单中包含逻辑值和字符串的最小值求一组数据中第K个最大值求一组数据中第K个最小值求一组数据中的四分位数求样本数据与其均值的平均离差求样本数据与其均值离差的平方和求样本标准差求包含逻辑值和字符串的样本标准差求总体标准差表2-1可用于统计分析的函数(续1)函数名称函数功能介绍STDEVPAVARVARAVARPVARPAKURTSKEW3、用于概率分布的函数BINOMDISTNEGBINOMDISTCRITBINOMPISSONNORMDISTNORMINVNORMSDISTNORMSINVSTANDARDIZE求包含逻辑值和字符串的总体标准差求样本方差求包含逻辑值和字符串的样本方差求总体方差求包含逻辑值和字符串的总体方差求一组数据的峰度求一组数据的偏度求二项分布的概率求负二项分布的函数值求累积二项分布大于或等于临界值的最小值求泊松分布的概率求非标准正态分布的累积函数求非标准正态分布累积函数的逆函数求标准正态分布的累积函数求标准正态分布累积函数的逆函数求Z分布的正态化数值-26-\n第一章数据的收集、整理与显示LOGNORMDISTLOGINVHYPGEOMDISTBETADISTBETAINVGAMMADISTGAMMAINVGAMMALNEXPONDISTWEIBULLPROBPERMUT1、用于区间估计的函数CONFIDENCE2、用于假设检验的函数CHIDISTCHIINVCHITESTZTESTTDISTTINVTTESTFDISTFINVFTEST求对数正态分布的累积函数求对数正态分布累积函数的逆函数求超几何分布的概率求分布的累积函数求分布累积函数的逆函数求分布的累积函数求分布累积函数的逆函数求分布累积函数的自然对数求指数分布求韦伯分布求指定区域内事件对应概率之和求从数据集合中选取若干对象的排列数求总体均值的置信区间求分布的单尾概率求分布单尾概率的逆函数求分布的统计量和相应的自由度求Z检验的双尾概率求t分布求t分布的逆函数求t检验的概率值求F分布求F分布的逆函数求F检验的单尾概率表2-1可用于统计分析的函数(续2)函数名称函数功能介绍3、用于方差分析的函数COVRB4、用于相关和回归的函数CORRELPEARSONRSQFISHERFISHERIVELINESTINTERCEPTSLOPEFORECASTTRENDSTEYXLOGESTGROWTH求协方差求相关系数求皮尔逊乘积矩相关系数求皮尔逊乘积矩相关系数的平方求费雪变换值(用于相关系数的假设检验)求费雪变换的逆函数建立直线方程求直线方程的截距求直线方程的斜率求线性趋势值(预测值)求线性趋势值(预测值)求趋势值的标准误差建立指数曲线方程求指数曲线趋势值(预测值)-26-\n第一章数据的收集、整理与显示1、其他统计函数COUNTCOUNTARANKPERCENTRANKPERCENTILE二、数据库函数DCOUNTDCOUNTADGETSUBTOTALDSUMDPRODUCTDAVERAGEDMAXDMINDSTDEVDSTDEVPDVARDVARPSOLREQUEST三、统计中常用的数学函数SUMSUMIFPRODUCTQUOTIENT求数组中数据的个数(只计算数字型数据)求数组中数据的个数(包含逻辑值、文本值等)求某一数值在一组数据中的排位求某一数值在一组数据中的百分比排位求数组的K百分比数值点计算数据库中符合指定条件并含有数字的单元格数计算数据库中符合指定条件的非空单元格数从数据库中抽取一个符合指定条件的记录将数据清单、数据序列和数据库中的数据分类汇总计算数据库中符合指定条件的记录字段数值之和计算数据库中符合指定条件的记录字段数值的乘积计算数据库中指定项目的平均数从数据库指定项目中求最大值从数据库指定项目中求最小值从数据库中指定项目求样本标准差从数据库中指定项目求总体标准差从数据库中指定项目求样本方差从数据库中指定项目求总体方差链接外部数据,从中查找数据,以数组形式求结果对一组数据求和将符合条件的数据求和参数相乘求两数相除的整数部分表2-1可用于统计分析的函数(续3)函数名称函数功能介绍MODPOWERSQRTRANDRANDBETWEENCOMBINCOUNTIFFACTLNLOGLOG10SUMPRODUCTSUMSQSUMXMY2SUMX2MYS求两数相除的余数求数值的乘幂求数值的平方根求0~1之间的随机数求指定两数之间的随机数求指定对象数目的组合数求符合指定条件区域的非空单元格数求某数的阶乘求某数的自然对数求某数以指定底数为底的对数求某数以10为底的对数求两组对应元素乘积之和求参数的平方和-26-\n第一章数据的收集、整理与显示SUMX2PY2求两数组对应值之差的平方和求两数组对应值平方差之和求两数组对应值平方和之和二、函数的使用1、函数的语法工作表函数包括两个部分:函数名和紧跟的一个或多个参数。函数名,例如SUM和AVERAGE,表明函数要执行的操作;参数则指定函数所使用的值或单元格。例如,在公式“=SUM(C3:C5)”中,SUM为函数名,C3:C5为参数。此函数计算单元格C3、C4和C5中值的总和。函数的参数可以为数值类型。例如,公式“=SUM(327,209,176)”中的SUM函数将数字327、209和176求和。不过通常的做法是,先在工作表的单元格中输入使用的数字,然后将这些单元格作为函数的参数使用。请注意函数参数两端的括号:开括号表示参数的开始,必须紧跟在函数名后。如果在函数名和括号之间输入了空格或其他字符,那么Excel会显示错误信息“MicrosoftExcel在公式中发现了错误。建议更正如下:是否接受建议的修改?”如果单击【是】按钮,则Excel会自动更新公式;如果单击【否】按钮,则单元格中将显示错误值﹟NAME?。如果在函数中使用多个参数,则要用逗号将参数隔开。例如,公式“=PRODUCT(C1,C2,C5)”告诉Excel将单元格C1,C2,和C5的数值相乘。函数中可使用的参数多达30个,但公式的长度不能超过1024个字符。参数可以是工作表中包括任意数目单元格的区域。例如,函数“=SUM(A1:A5,C2:C10,D3:D7)”只有3个参数,但对29个单元格的数据进行求和运算(第一个参数A1:A5,指从A1到A5的所有单元格,依此类推)。反过来,引用的单元格中也可以包括公式,这些公式引用更多的单元格或单元格区域。使用这些参数,就可以轻松地创建复杂的公式来执行功能强大的各种操作。2、函数的输入对一些单变量和比较简单的函数,可用键盘直接输入。其方法与在单元格中输入公式相同,首先输入一个“=”号,然后将函数的正确形式输入即可。例如:“=SUM(B2:B5)”等。对于一些复杂或参数较多的函数,其形式难以记忆,可用“粘贴函数”对话框。其步骤如下:第一步:选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击“常用”工具栏上的“粘贴函数”按钮,来显示对话框(见图2.1)。第二步:从对话框左侧的“函数分类”列表中选择所需要的函数类别(表中除前述10类函数外,还有“常用”和“全部”两项);从对话框右侧的“函数名”列表中选择所需要的函数,单击确定或回车确认,屏幕上出现该函数的对话框。本例从“统计”函数分类中,选择AVERAGE(平均数函数),如图2.2所示。-26-\n第一章数据的收集、整理与显示图2.1粘贴函数对话框图2.2AVERAGE函数对话框图2.2AVERAGE函数对话框包括两个参数,即等价于公式“=AVERAGE(A1:A5,C2:C5)”,对9个单元格的数据进行求平均数。在此对话框中,所选函数的每个参数均有相应的编辑框。如果函数参数较多,对话框会在输入可选参数时自动进行扩展。对话框底部会显示对编辑框中当前所包含插入符的参数描述。每个参数编辑框右边的显示区域将显示参数的当前值。对话框底部会显示函数的当前值,如本例计算结果为8。需要说明的是参数多少的选择要根据情况而定,本例使用了两个参数(A1:A5,C2:C5),原因是这两个数据区域不相连,如果将这两组数据放在一列,则只需一个参数。当然,由于不同的函数功能不同,所以在使用中参数的形式可能也不同,这里就不逐一列举。读者在具体的使用中也可以借助Excel的帮助功能。第二节数据分布特征测度函数的使用本节就描述统计中对数据分布特征的测度,所用到的函数做具体的说明。本节以某电脑公司2002年前4个月各天的销售量数据(单位:台)为例,见表2-2。表2-2某电脑公司2002年前4个月各天的销售量-26-\n第一章数据的收集、整理与显示一、集中趋势的测度集中趋势的测度值有:众数、中位数、简单均值、调和平均数与几何平均数。在Excel中用函数求这些测度值,可以打开函数的对话框操作,也可以直接输入包含函数的公式。1、众数众数是一组数据中出现次数最多的变量值,用M0表示。具体做法如前所述:选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击“常用”工具栏上的“粘贴函数”按钮,从弹出的对话框左侧“函数分类”列表中选择“统计”,从右侧“函数名”列表中选择MODE函数,回车进入MODE函数对话框(如图2.3所示)。图2.3MODE函数对话框在对话框的“Number1”框中输入原始数据所在的单元格区域,本例为A1:J12;完成以上操作后在对话框底部给出计算结果,本例为172(台);单击“确定”按钮,计算结果自动计入指定位置。如采取直接输入带函数的公式计算,可单击任一空单元格,输入“=MODE(A1:J12)”回车确认,可得出同样的结果。2、中位数中位数是一组数据排序后,处于中间位置上的变量值,用Me表示。采取直接输入带函数的公式计算,单击任一单元格,输入“=MEDIAN(A1:J12)”,回车确认,即得出结果182(台)。3、均值-26-\n第一章数据的收集、整理与显示(1)简单均值对于简单均值,单击任一空格,输入“=AVERAGE(A1:J12)”,回车确认,即可得出结果184.56。(2)调和平均数各变量值倒数的平均倒数,称为调和平均数,用Hm表示。在Excel中,调和平均数也可以用函数求得,但只适用于简单的计算。例如:有甲、乙、丙三种蔬菜,每种蔬菜的价格分别为每斤0.5、0.8和0.9元,现在各买1元钱的每种蔬菜,计算平均价格,就是一个求调和平均数的问题。用求调和平均数函数HARMEAN计算,单击任一单元格,输入“=HARMEAN(0.5,0.8,0.9)”,回车确认,结果为0.688(元)。(3)几何平均数n个变量值乘积的n次方根,称为几何平均数,用Gm表示。几何平均数的计算公式为:Gm=式中,∏为连乘符号。几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。当我们所掌握的变量值本身是比率的形式,这时就应采用几何平均数计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的年平均增长率。例:某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比为20%。求各年的平均增长率。在Excel中求几何平均数,非常简单,单击任一单元格,输入“=GEOMEAN(0.09,0.16,0.20)”,回车确认,其结果为14.2%。二、离散程度的测度离散程度的测度值主要有:异众比率、极值、四分位差、标准差、方差。这里就数值型数据离散程度的函数测度做简单介绍。1、极值在Excel中求极值可用MAX和MIN函数求最大值和最小值,然后求其差值。单击任一单元格,输入“=MAX(A1:J12)-MIN(A1:J12)”,即得出其值为96。2、四分位差上四分位数与下四分位数之差,称为四分位差,也称为内距或四分间距,用表示。四分位差的计算公式为:其中,表示上四分位数,表示下四分位数。四分位差反映了中间50%数据的离散程度,其值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响,一定程度反映了中位数对一组数据的代表程度。在Excel中求四分位差,可用QUARTILE函数。按前面所述的步骤,打开QUARTILE函数对话框,如图2.4所示。-26-\n第一章数据的收集、整理与显示图2.4QUARTILE函数对话框其中,“Array”框要求输入数据所在的区域,“Quart”框决定返回那一个四分位值。Quart的取值范围为[0,4],具体来讲:◆值为0,表示最小值;◆值为1,下四分位数;◆值为2,中位数;◆值为3,上四分位数;◆值为4,最大值◆值不为整数,将被截尾取整。所以,要计算四分位差,可分别在Quart对话框中输入3、1,然后将返回的上、下四分位数作差。本例也可以单击任一单元格,输入“=QUARTILE(A1:J12,3)-QUARTILE(A1:J12,1)”,即可得到结果为43.25(台)。3、标准差和方差方差和标准差是数值型数据测度离散程度的最主要测度值。各变量值与其均值离差平方和的平均数,称为方差。方差的平方根,称为标准差。通常情况下,总体方差用表示,函数形式为VARP;总体标准差用表示,其函数形式为STDEVP;样本方差用S2表示,函数形式为VAR;样本标准差用S表示,其函数形式为STDEV。本例如果要求样本方差和样本标准差,可单击单元格在其中输入“=VAR(A1:J12)”或输入“=STDEV(A1:J12)”,即可得到样本方差或样本标准差,分别为470.05,21.68(台)(注意标准差有量纲)。三、偏态与峰态的测度集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰态就是对分布形状的测度。“偏态”一词是由统计学家Pearson于1895年首次提出的,是对数据分布对称性的测度,其测度值称为偏态系数(SK),测度函数为SKEW。如果一组数据的分布是对称的,则偏态系数等于零;偏态系数大于零,为右偏分布;偏态系数小于零,为左偏分布。本例在任一单元格输入“=SKEW(A1:J12)”,可得到偏态系数为0.41,为右偏分布。“峰态”一词是由统计学家Pearson于1905年提出的,是对数据分布平峰和尖峰程度的测度,其测度值称为峰态系数(K),测度函数为KURT。峰态系数是通过与标准正态分布的峰态系数比较而言的。由于标准正态分布的峰态系数为0,当K>0时为尖峰分布;当K<0时为扁平分布。需要注意的是-26-\n第一章数据的收集、整理与显示,有的教课书中其峰态系数计算公式没有减3,所以把标准正态分布的峰态系数作为3,当K>3时为尖峰分布;K<3时为扁平分布。在Excel计算过程中,以零为比较对象。本例在任一单元格输入“=KURT(A1:J12)”可得到峰态系数为-0.22,为扁平分布。第三节描述统计工具的使用上面介绍了数据分布特征的各种函数测度值,其中多数可以通过Excel“数据分析”选项中的“描述统计”命令得出计算结果。仍以表2-2为例,其步骤如下:一、将数据输入到A1:A120区域中,在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“描述统计”,回车进入“描述统计”对话框。如图2.5所示。图2.5“描述统计”对话框二、在“输入区域(I)”框中输入“A1:A120”,如果需要指出输入区域的数据是按行或按列排列的,可在“分组方式”后面单击“逐行”或“逐列”选项。选择“逐列”后,如果第一行为标题行,则要单击“标志位于第一行(L)”的复选框。在输出选项中,本例选择“输出区域(O)”,输入“C2”;选择“汇总统计(S)”,可给出一系列描述统计测度值;选择“第K个大值(A)”或“第K个小值(M)”,其右侧框中将显示默认值“1”,即要求给出数据中第1个最大值或最小值。如输入“2”,则要求给出数据中2个最大值或最小值;选择“平均数置信度(N)”是指用样本平均数估计总体平均数的可信程度。如选择此复选框,则其右侧框中将显示默认值95%,如认为不合适,可自己调整。以上各项选定后,回车确认,即可在指定输出区域得到描述统计各测度值的结果,见表2-3。表2-3“描述统计”输出结果-26-\n第一章数据的收集、整理与显示最后对表2-3的输出结果做部分解释:◆“平均”指样本均值。◆“标准误差”指样本平均数的“抽样误差”,即样本标准差除以样本单位数的均方。◆“中值”即中位数。◆“模式”即众数。◆“标准偏差”即样本标准差。“区域”即极差,最大值减最小值-26-

相关文档