- 25.13 KB
- 2021-04-22 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
数据筛选实验总结
重庆科技学院
实 验 报 告
课程名称: 统计软件与应用 开课学期:xx-xx 学年第二学期 学 院:
法政与经贸学院 开课实验室: H414 学生姓名 : 专业班级 : 资环 13-2
学 号 : xx4
重庆科技学院学生实验报告
统计学实验报告与心得体会
班级: 姓名:学号:成绩:
一 实验报告成绩: 实验一 数据的搜集与
实验目的和要求
培养学生处理数据的基本能力,熟悉 Excelxx 的基本操作界面,
熟悉间接和直接数据的搜集方法, 掌握不同类型的数据处理方法, 以
及数据的编码、分类、筛选、排序等操作的方法。
实验步骤
1 、 数据的搜集:确定数据,主要由两种渠道,间接数据和直接
数据。间接数据一种方式是直接进入专业数据库网站查询, 另一种是
使用搜索引擎。 直接数据搜集步骤有: 调查方案设计、 调查问卷设计、
问卷发放、问卷收回、数据初步等。
2 、数据的编码:如果数据是由开放式的问题来获取的,那么,需
要对答案进行罗列、合并、设码三个过程来完成编码工作。
3 、数据的录入: Excel 的数据录入操作比较简单,一般只要在工
作表中,单击激活一个单元格就可以录入数据了。通过“格式 - 单元
格格式”( Ctrl+1 )菜单来实现数据的完整性。
4 、数据文件的导入:导入的方法有二,一是使用“文件 - 打开”
菜单,二是使用“数据 - 导入外部数据 - 导入数据”菜单,两者都是打
开导入向导,按向导一步步完成对数据文件的导入。
5 、数据的筛选: Excel 中提供了两种数据的筛选操作,即“自动
筛选”和“高级筛选”。
6 、数据的排序: 在选中需排序区域数据后, 点击 “升序排列” (“降
序排列”)工具按钮,数据将按升序(或降序)快速排列
7 、数据文件的保存:保存经过初步处理的 Excel 数据文件。可以
使用“保存”工具按钮,或者“文件 - 保存”菜单,还可以使用“文
件 - 另存为”菜单。
实验二 描述数据的图标方法
实验目的和要求
通过软件辅助, 将数据转换为直观的统计表和生动形象的统计图,
掌握 Excel 的制图和制表功能, 并能准确地很据不同对象的特点加以
运用。 实验步骤
利用 Frequency 函数获取频数频率: 1、将数据输入并激活分别符
合条件的单元格。 2、打开“插入函数”对话框,选择函数。 3、点击
“插入函数”对话框确定按钮进入“函数参数”对话框,选中符合条
件的对话框。 4、使用组合键“ Ctrl+Shift+Enter ”,得到频数,返
回结果。 5、对结果进行修饰,加入分组标志及其值,再加入频数具
体名称,并且计算频数。
利用直方图: 1、将数据输入到指定单元格。 2、使用“工具——
数据分析”菜单,选择“直方图”。 3、进入“直方图”分析工具库,
选中复选框。 4、单击确定按
钮,得到直方图分析工具扩展函数的返回结果。 5、对结果进行修
饰。
实验三 统计数据的描述
实验目的及要求
应用统计软件, 描述统计数据的集中趋势、 离散程度、 分布偏态。
掌握 Excel xx 中描述统计指标对应的函数,包括算数平均数、调和
平均数、几何平均数、众数、中位数、标准差、方差等。 . 熟练掌握
Excel xx “描述统计”工具进行描述统计。
实验步骤
掌握一些常用的使用函数。就 Average 函数进行举例,计算参数
的算术平均值,简单算术平均数: 1、直接将数据输入到符合条件的
单元格。 2、然后激活一个空白单元格,输入公式“ =AVERAGE( )”,
回车返回结果;加权算术平均数, Excel 没有提供专门的内置函数,
1、可先计算各组的组中值,作为该组一般代表 2、激活一空白单元
格,输入相关公式,回车返回结果。
“描述统计”分析工具扩展函数: 1、使用“工具——数据分析”
菜单, 打开“数据分析” 对话框, 从分析工具下框中选择 “描述统计” 。
2、点击数据分析对话框的确定按钮进入“描述统计”对话框,输入
区域点击右侧箭头,选择需要分析描述统计结果的数据。 3、点击描
述统计对话框确定按钮,得到描述统计结果。
实验四 参数估计
实验目的和要求
应用统计软件, 完成抽样的工作, 并且在抽样数据获取的基础上,
计算样本统计量, 对对应总体参数进行区间估计。 了解抽样组织形式
以及如何抽取样本数据, 掌握 Excelxx 中应用函数表单进行参数估计
的方法和步骤。
实验步骤
“抽样”分析工具将输入区域视为总体, 并使用总体来建立样本。
1、使用“工具——数据分析”菜单打开“数据分析”对话框,选择
“抽样”,并将其打开。 2、点击输入区域右侧的箭头,鼠标拖动选
择单元格。 3、点击“抽样”对话框的确定按钮,返回结果。
点估计是依据样本估计总体分布中所含的参数或参数的函数。通
常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估
计问题就是要构造一个只依赖于样本的量, 作为参数或参数的函数的
估计值
区间估计: 1、选中单元格, 使用“插入——名称——指定” 菜单,
打开“指定名称”,选择“首行”,点击确定。 2、构建函数表单框
架。3、输入框架下对应的数据和函数公式。
实验五 假设检验
实验目的与要求
了解不同假设检验内容要求的不同检验统计量和检验方法;掌握
利用函数表单进行假设检验的方法和步骤;掌握 Excel xx 中应用分
析工具库进行假设检验的方法和步骤。
实验步骤
1 、创建样本数据,确定需进行假设检验的总体参数 2、确定抽样
样本统计量及其服从的分布 3、进行假设设计(单侧,双侧) 4、确
定置信水平 5、计算检验统计量 6、计算置信水平下的检验区间(或
检验临界值) 7、比较检验统计量与检验区间(或检验临界值) ,得
出结论。
实验六 方差分析
实验目的与要求
应用统计软件, 对数据进行单因素饭方差分析和双因素方差分析。
了解方差分析的假设前提,掌握 Excel xx 中应用分析工具库进行方
差分析的方法和步骤。 实验步骤
单因素方差分
1 、使用“工具——数据分析”打开数据分析对话框,选择“方差
分析:单因素方差分析”分析工具,点击确定按钮打开“方差分析:
单因素方差分析”对话框。
2 、输入区域点击右侧箭头, 选择单元格。 3、分组方式选择 “列”
单选框。 4、点击“方差分析:单因素方差分析”对话框确定按钮,
返回结果。
双因素方差分析
1 、使用“工具——数据分析”打开数据分析对话框,选择“方差
分析:无重复双因素方差分析”分析工具,点击确定按钮打开“方差
分析: 无重复双因素方差分析” 对话框。 2、输入区域点击右侧箭头,
选择单元格。 3、分组方式选择 “标志” 复选框。 4、点击 “方差分析:
无重复双因素方差分析”对话框确定按钮,返回结果。
二 心得体会 成绩:
统计学实验心得体会
某生产车间 30 名工人的日产零件数如下(单位:个),试对其一
组距为 10 进
一个学期的实训不知不觉的就这样过去了,在这里不敢说自己学
到很多的东西,但我真的懂得了很多,也在其中明白了很多。在这学
期的统计学实验学习中, 我加深了对统计学原理的学习, 以及对数据
知识的理解和掌握, 同时也对 Excel 操作软件的应用有了更深刻的了
解,巩固了所学知识,拓展了知识面。结合以上的数据分析,以下是
我这几次实验的一些心得和体会。
在统计实验中,对数据的筛选和处理是比较重要的内容和要求。
同时对数据的分析也离不开相关软件的支持。比如,要求一个企业
30 名职工的日生产零件数,就要对数据进行导入、分析、筛选,最
后得出答案。因此, Excel 软件是实
数据分析与筛选
[1 ]
在预测与决策时,经常需要对所要研究的对象进行分析和收集数
据,从大量的统计数据中找规律, 而这些数据真实与否直接影响分析
结论的科学性。 在多数情况下会发现, 统计来的数据是按照某一规律
且起伏并不是很大,但其中都可能混有“异常数据”,这些异常数据
是由异常因素 (例异常时间、 干扰或误差等 ) 造成的与大多数观察值不
一致。 有些异常值可能是在统计时度量或执行错误所得到的, 在分析
过程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除,
否则可能导致重要的隐藏信息丢失 [2 ,特别有些异常数据非常有价值,
若剔除则可能影响到结论的科学性。 因此, 对于异常数据的挖掘及处
理( 利用 ) 是值得研究的问题。 ]
异常数据的挖掘方法
所谓数据挖掘就是按照既定的目标 , 对大量的统计数据进行探索 ,
揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。 对
异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值, 挖
掘过程实际上是识别过程,可以用以下几种方法进行挖掘 :
3 σ检测法 [2 ]
一般统计数据若没有明显的上升或下降趋势 ( 若是时间序列一般
为平稳的时间序列 ),都分布在其均值周围,标准差σ能反映其离散
程度。统计数据可以是某一总体的样本。如果是一般总体,可以由概
率统计中的切贝谢夫不等式知道,对于任意的 0ε>,有:
?2
P{|X?E(X)|??}?2 ?
?21 特别地有, P{|X?E(X)|?3?}? 即统计数据与其均值的偏差超
过?2(3?)9
3 σ 比例不超过 1/9 则由不等式
P{|X?E(x)|?3?}?2[1??(3)]?0.027 ,即在正态分布下统计数据与平
均值的离差大于 3?的概率仅为 0.27%,所以可将那 3σ 些有均值之
差的绝对值超过 3σ的统计数据视为异常数据。 根据概率论中的中
心极限定理,
因此 3σ检测法在实际中比较常用。当然它的局限性是只适用于
单维异常数据的挖掘。
2.3 利用聚类分析法对数据处理
聚类分析又称群分析,是研究分类问题的一种多元统计方法。在
聚类分析的过程中, 将样品或变量按相互之间距离的大小或由相似系
数反映出的相近性聚成若干类,常用的距离有欧氏距离、马氏距离、
兰氏距离等, 马氏距离可以排除指标之间相关性的干扰且不受量纲的
影响,最为实用。根据聚类的结果,距离较小
或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的
限制。如果存在几个样品, 聚合成哪一类都不合适,或与其它样品的
距离都比较远,那么就可断定这些样品数据为异常数据。
1 、数据在聚类分析之前要进行数据的变换,常用的方法有
a 中心化变换:
x*?xij?x(i?1,2,3,...m)
变换后的数据均值为 0,而协方差不变。
B. 标准变换:
xij?xjx*?(i?1,2,...n;j?1,2,...m) sj
其中 sj 是标准差;变换后的数据每个变量的样本均值为 0,而且
标准变换后的数据与变量的量纲无关;
2 、由聚类分析法的基本思想,即可得出
① 数据变换: 常用的数据变换方法在上面已经详细举出。 数据变
换的目的时为了便于计算和比较,或改变数据的结构;
② 计算 n 各样品两两间的距离, 得到样品间的距离 (常用欧式距
离)矩阵 D(0) ; ③ 初始(第一步: i=1 )n 个样品各自构成一类,
类的个数 k=n,第 i 类 Gi?{x(ij)}(i?1,2,...n), 此时类的间距就是
样品距离,然后对样品 X(i)(i?1,2,...,n) 执行并类过程④和⑤;
④ 对步骤 3 得到的距离矩阵 Di?1,合并类间距离最小的两类为
一新类,此时类的总个数 k 减少一类,即 k=n-i+1;
⑤ 计算新类与其他类的距离, 得到新的距离矩阵, 若合并后的总
个数 k 仍然大于 1,重复以上的过程,
⑥ 画谱系聚类图;
⑦ 觉定分类个数及各类的成员。
2.4. 典型例子——市场占有率问题
一个企业的销售量(或销售额)在市场同类产品中所占的比重。
直接反映企业所提供的商品和劳务对消费者和用户的满足程度, 表明
企业的商品在市场上所处的地位。市场份额越高,表明企业经营、竞
争能力越强。市场份额根据不同市场范围有 4 种测算方法:
(1). 总体市场份额。指一个企业的销售量(额)在整个行业中所
占的比重。
(2). 目标市场份额。指一个企业的销售量(额)在其目标市场,
即它所服务的市场中所占的比重。 一个企业的目标市场的范围小于或
等于整个行业的服务市场, 因而它的目标市场份额总是大于它在总体
市场中的份额 。
(3). 相对于 3 个最大竞争者的市场份额。指一个企业的销售量和
市场上最大的 3 个竞争者的销售总量之比。如:一个企业的市场份
额是 30%,而它的 3 个最大竞争者的市场份额分别为 20%,10%,
10%,则该企业的相对市场份额就是 30%÷40%=75%,如 4 个企
业各占 25%,则该企业的相对市场份额为 33%。一般地,一个企业
拥有 33%以上的相对市场份额, 就表明它在这一市场中有一定实力。
4. 相对于最大竞争者的市场份额。指一个企业的销售量与市场上
最大竞争者的销售量之比。若高于 100%,表明该企业是这一市场的
领袖。
三、数据筛选
数据的筛选在数学建模中占有很重要的地位,它是数学建模的第
一步,我们只有得到好的数据才能保证得出的结果的真实性与准确性。
而在实际的问题中我们遇到的数据量往往是巨大的。 为了保证我们所
用的方法能够在原始数据的支持下得以实现, 我们必须要对数据进行
筛选, 使得解决方法简单化。 但是我们又要保证筛选出来的数据具有
代表性,使得到的结果更加准确与真实。
数据筛选有很多种不同的方法
3.1 :随机抽样
从一个总体的样本 X中随机抽取出 n 个个体,这样称对总体 X进
行随机抽样,其中 n 叫做样本容量,这 n 个个体构成了样本。在随机
抽样过程中满足随机性和独立性两个特征, 即对于每一次的抽样在总
体中的每一个个体被抽到的概率都相同, 每次抽取的结果不会影响到
下一次的抽取。
这样的随机抽样适用于对总体的概率分析等统计方面的应用,比
如可以分析数据中的最大值、 均值、 众数等数据特征不能够对数据的
3.2 利用粗差法筛选数据
1 基本假设
利用粗差法筛选数据的方法是一种基于数理统计理论得出的一种
筛选数据的方法, 其主要的运用体现在矿井通风阻力测定数据前处理
的运用中, 以及其他相类似的数据处理。 以下我们就以矿井的通风阻
力为例介绍粗差筛选数据的方法。
在进行通风阻力测量时,要求选择合理的测量路线,在每条测量
路线上选择合理的测量点, 每个测量点至少要求 5 个数据。在测量期
间,如果巷道通风状况等条件保持稳定, 则某点的数据样本符合正态
分布,且其平均值近似为真值。
某测点测量数据的样本 x=(x1,x2,x3.....xn),n>5, 的方差为
1n2s?(x?xi)2 (1) ?n?1i?1
设允许的测量误差为 a(0