- 590.00 KB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
南京财经大学统计学系管于华中储粮培训Excel在数据处理与分析中的应用\n管于华联系方式手机:13851528207电话:57713643(Home)E-mail:gggyyyhhh@hotmail.com或:gyhstudent@126.com统计系主页:http://www.njcdtjx.com/\nExcel在统计分析中一、Excel的图表功能二、Excel的函数功能三、数据分析工具常用统计分析软件简介\n常用统计分析软件Office XP组件WordExcelPowerPointAccessOutlookFrontPage企业版本附:SharePointTeamServices著名的统计软件SASSPSS~StatisticsPackageforSocialScience~StatisticalProduct&ServiceSolutions~统计产品与服务解决方案STATISTICA/STATA/SYSTAT\n统计分析软件SAS研究所SASSPSS公司SPSSStatSoft公司STATISTICA\nSAS公司网址:http://www.sas.com/\nSPSS公司网址:http://www.spss.com/\nStatSoft公司网址:http://www.statsoft.com/\nSASSAS系统全称为StatisticsAnalysisSystem,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS的重要组成部分和核心功能是统计分析,同时也是用于决策支持的大型集成信息系统。SAS现在的版本为9.0版,大小约为1G。\nSASSAS被全世界120多个国家采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,堪称统计软件界的巨无霸。\nSASSAS系统是一个组合软件系统,其基本核心部分是BASESAS模块,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。SAS系统具有灵活的功能扩展接口和强大的功能模块,其他模块有:SAS/STAT(统计分析模块)SAS/GRAPH(绘图模块)SAS/QC(质量控制模块)SAS/ETS(经济计量学和时间序列分析模块)SAS/OR(运筹学模块)SAS/IML(交互式矩阵程序设计语言模块)\nSPSSSPSS是软件英文名称的首字母缩写。原意为StatisticalPackagefortheSocialSciences,即“社会科学统计软件包”。SPSS公司于2000年正式将英文全称更改为StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向的重大调整。\nSPSSSPSS一共由十个模块组成其中SPSSBase为基本模块。九个模块为:①AdvancedModels、②RegressionModels、③Tables、④Trends、⑤Categories、⑥Conjoint、⑦ExactTests、⑧MissingValueAnalysis、⑨Maps。\nSPSSSPSS最突出的特点就是操作界面极为友好,输出结果美观漂亮(从国外的角度看),使用窗口方式展示各种管理和分析数据方法的功能,使用对话框展示各种功能选项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。是非专业统计人员的首选统计软件。\nSPSS获奖情况《财富》杂志1999年度200家最佳小型公司第70名NASDAQ最佳赢利公司第22名RealWare1999世界智能商务解决方案奖DMReview1999最佳数据仓库第14名Soft·letter2000年100强第16名1999美国个人电脑软件100强第23名世界软件销售商500强第97名\nSTATISTICAStatSoft公司1984年成立于美国俄克拉荷马州的塔尔萨,是世界上最大的统计分析和统计制图软件制造商之一。1993年推出的Windows版本的STATISTICA得到使用者和评论家大量的史无前例的赞誉和好评。最新推出的STATISTICA6.0是统计分析软件的划时代产品。\nSTATISTICASTATISTICA通用数据分析统计应用系统基础统计、高级线性/非线性模型、多变量探索性分析技术、效能分析、神经网络STATISTICA工业统计及6西格玛工具质量控制图、进程分析、实验设计STATISTICA企业应用系统企业应用数据挖掘系统、企业应用数据分析系统、企业应用统计进程控制SPC系统\nExcel的图表功能用图的形式表示统计结果,比一大堆数据简洁、直观,适合向领导汇报和向群众作宣传。合并计算功能可以让报表汇总变得轻松简单;数据透视表功能可以让数据从不同的角度得以展现。\n图表功能举例图形功能举例:1.利用图表向导作图:①趋势线②饼图③柱型图2.在图形上添加曲线等附加信息。表格功能举例:1.公式复制时的相对地址与绝对地址2.报表汇总—分两种情况3.作数据透视表\nExcel的函数功能函数是Excel工作表的核心之一,对于函数只要我们输入相应的参数,就会自动地计算出所需要的函数值。Excel提供了435个内部函数进行数学、财务、统计等计算工作。函数的基本格式为:=SUM(A1:A5,C1:C3)\n函数功能举例1.有关描述统计的函数2.次数分布表3.矩阵运算—投入产出分析\n描述统计量描述统计量大致可以分为三类:集中趋势离中趋势分布趋势\n反映集中趋势的描述统计量常用的反映集中趋势的描述统计量有五个:算术平均数、调和平均数、几何平均数、中位数和众数。前三个平均数是根据所有标志值计算的,又被称为数值平均数,后两个平均数是根据与其所处位置有关的部分标志值计算的,又被称为位置平均数。\n算术平均数算术平均数是数据集中趋势的最主要的统计描述量。计算算术平均数使用AVERAGE函数,格式为:AVERAGE(NUMBER1,NUMBER2,……)NUMBER可以是具体的数值,也可以是单元地址或区域名称。\n调和平均数调和平均数(又称倒数平均数)是数值倒数算术平均值的倒数。在实际工作中,由于所获数据不能直接代入算术平均数的公式中计算,就需要有倒数平均数的形式。计算调和平均数使用HARMEAN函数,格式为:HARMEAN(NUMBER1,NUMBER2,……)\n几何平均数几何平均数是N个数值的连乘积,再开N次方根,它是计算平均比率和平均发展速度最适宜的一种方法,因为其数学性质与现象发展的平均速度形成的客观过程相一致。计算几何平均数使用GEOMEAN函数,格式为:GEOMEAN(NUMBER1,NUMBER2,……)\n中位数中位数是将全部数值按大小顺序排列后居于中间位置的数值。换句话说,中位数把所有的数值一分为二,有一半数值比它小,另一半数值比它大。计算中位数使用MEDIAN函数,格式为:MEDIAN(NUMBER1,NUMBER2,……)\n众数众数是在数列或数据区域中出现频率最多的数值。计算众数使用MODE函数,格式为:MODE(NUMBER1,NUMBER2,……)\n反映离中趋势的描述统计量常用的反映离中趋势的描述统计量(简称离中指标)有三个:全距、平均差和标准差(方差)。当对两组数据的差异程度进行相对比较时,往往要计算离散系数,包括全距系数、平均差系数和标准差系数,它等于相应的离中指标除以算术平均数,这样可以消除由于平均数的不同或单位的差异而造成的影响。\n全距全距(又称极差)是最大值与最小值之差,用“MAX(ARRAY)—MIN(ARRAY)”求得。ARRAY是指原始资料的存放区域,并且前后应该一致。全距最显著的特点是计算简便、含义清晰,实际工作中常用于产品质量的检验和控制,但全距容易受极端值的影响。\n平均差平均差是各个数据与其算术平均数离差绝对值的算术平均数。计算平均差使用AVEDEV函数,格式为:AVEDEV(NUMBER1,NUMBER2,……)NUMBER可以是具体的数值,也可以是单元地址或区域名称。例:AVEDEV(4,5,6,7,5,4,3)=1.020408\n标准差标准差用于反映相对于算术平均数的离散程度。计算标准差的函数有两个,一是STDEV函数,二是STDEVP函数。两者的参数是完全一致的,只是计算的公式略有一点不同。格式为:STDEV(NUMBER1,NUMBER2,……)STDEVP(NUMBER1,NUMBER2,……)\n方差方差是标准差的平方,它也是衡量离散程度的重要指标。计算方差有两个函数,前者是计算样本方差的,后者是计算总体方差的。格式为:VAR(NUMBER1,NUMBER2,……)VARP(NUMBER1,NUMBER2,……)。\n反映分布趋势的描述统计量常用的反映分布趋势的描述统计量有两个:偏斜度峰值\n偏斜度偏斜度反映以平均值为中心的分布的不对称程度。计算偏斜度使用SKEW函数,格式为:SKEW(NUMBER1,NUMBER2,……)NUMBER可以是具体的数值,也可以是单元地址或区域名称。正偏斜度表示不对称边的分布更趋向正值。负偏斜度表示不对称边的分布更趋向负值。\n峰度峰度反映与正态分布相比某一分布的尖锐度或平坦度。计算峰度使用KURT函数,格式为:KURT(NUMBER1,NUMBER2,……)NUMBER可以是具体的数值,也可以是单元地址或区域名称。峰值正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。\n次数分布例题江浦县苗圃对110株树苗的高度进行测量(单位:厘米)数据如下,要求编制次数分布表。\n次数分布编制次数分布表的步骤:①排序并求出全距(最大值—最小值);②确定组数和组距;③确定组限;④归组并计算出各组的次数;⑤显示或打印出次数分布表。\n次数分布最简单的次数分布表有两列:第一列是分组标志;第二列是各组的次数。较复杂的次数分布表还可以包含向上累计次数、向下累计次数、频率、累计频率。次数分布图就是根据次数分布表作出来的,洛伦兹曲线则是根据累计频率资料绘制的。\n次数分布编制次数分布表使用FREQENCY函数,格式为:=FREQUENCY(ARRAY,BINS)FREQENCY函数需要输入两项参数:ARRAY是指原始资料的存放区域,BINS是指统计分组的组上限构成的数值序列。在使用FREQENCY函数之前需要做细致分析,了解数据的性质,还要计算一些基础数据,如组数、组距和各个组限,\n次数分布特别注意FREQUENCY函数在统计次数时,将与对应上限值一样大的数也统计在内,即若规定的上限是90,而原始资料中恰有90时,则该“90”被计入这一组,这样和“上限不包括原则”相违背,因此上限必须是一个略小于90的数。Excel所认定的分组标志只是每组的上限,为了能表达清楚,我们还需另外加一列分组标志。\n矩阵运算、投入产出分析矩阵函数一、计算行列式的值(=MDETERM)二、矩阵相乘(=MMULT)三、矩阵转置(=TRANSPOSE)四、逆矩阵(=MINVERSE)投入产出系数一、直接消耗系数二、完全消耗系数三、影响力系数和感应度系数\n数据分析工具“数据分析”是一个外部宏(程序)模块,提供了19个数据分析的实用工具。—绘制反映数据分布的直方图;获得各种描述统计量;进行时间数列分析和回归分析,做各种假设检验等等。\n数据分析工具数据分析前打开“工具”菜单,查看有没有“数据分析”命令。如果没有,表明数据分析工具库尚未安装。这时需要选择菜单“工具”—“加载宏”,打开“加载宏”对话框,从其中的宏表中选定“分析工具库”和“分析工具库-VBA函数”宏。安装了数据分析工具库后,每次启动Excel时,“分析工具库”宏就被自动加载。\n数据分析举例1、描述统计分析2、假设检验3、方差分析4、回归分析—(含:时间序列分析)\n描述统计量反映集中趋势的描述统计量:数值平均数:算术平均数、调和平均数、几何平均数位置平均数:众数、中位数反映离中趋势的描述统计量:全距、平均差、标准差反映分布趋势的描述统计量:偏斜度、峰度\n假设检验概述假设检验是统计推断的一个重要方面。数理统计中的假设检验是先对研究总体作出某种假设,然后通过观察和试验来决定假设成立与否。\n统计假设就是关于“总体的某个声明”或“某事是真的之叙述”。·某航空公司的代表声称该公司民航客机的平均机龄不超过10年。·一位电视台的行政主管认为绝大多数的成年人不会受电视上的暴力所影响。·一位银行行长说顾客在该行排队时间不会超过3分钟。假设检验概述\n假设检验1.假设检验中的几个基本概念2.假设检验的步骤3.假设检验的方法4.例一~两独立样本的检验5.例二~两相关样本的检验\n方差分析的例子某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为桔黄色、粉色、绿色和无色透明。随机从五家超级市场上收集了前一期该种饮料的销售量。问:饮料的颜色是否对销售量产生影响。超市无色粉色桔黄色绿色126.531.227.930.8228.728.325.129.6325.130.828.532.4429.127.924.231.7527.229.626.532.8\n方差分析的原理要检验各个水平的均值是否相等,实现手段是通过方差的比较。观察值之间存在差异,其来源来自于:(1)系统性差异:是由因素中的不同水平造成的。例子中:饮料的不同颜色带来不同的销售量。该差异用水平之间的方差来表示,称为组间方差,记为MSA。(2)随机差异:是由抽选样本的随机性而产生的差异。例子中:相同颜色的饮料在不同的超市销量是不同的。该差异用水平内部的方差来表示,称为组内方差,记为MSE。\n方差分析表\n回归分析线性回归一元线性回归多元线性回归可化为线性回归的非线性回归时间序列—时间变量t相等于自变量x\n回归结果的标准表示方法m个估计参数的t统计量(有时给出估计参数的标准误)给出:表示拟合程度的可决系数和调整后的可决系数给出:表示回归方程总体显著性检验的F统计量给出:表示有无序列相关的检验统计量D-W值\n统计学网页