数据筛选实验总结 21页

  • 25.13 KB
  • 2021-04-22 发布

数据筛选实验总结

  • 21页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
数据筛选实验总结 重庆科技学院 实 验 报 告 课程名称: 统计软件与应用 开课学期:xx-xx 学年第二学期 学 院: 法政与经贸学院 开课实验室: H414 学生姓名 : 专业班级 : 资环 13-2 学 号 : xx4 重庆科技学院学生实验报告 统计学实验报告与心得体会 班级: 姓名:学号:成绩: 一 实验报告成绩: 实验一 数据的搜集与 实验目的和要求 培养学生处理数据的基本能力,熟悉 Excelxx 的基本操作界面, 熟悉间接和直接数据的搜集方法, 掌握不同类型的数据处理方法, 以 及数据的编码、分类、筛选、排序等操作的方法。 实验步骤 1 、 数据的搜集:确定数据,主要由两种渠道,间接数据和直接 数据。间接数据一种方式是直接进入专业数据库网站查询, 另一种是 使用搜索引擎。 直接数据搜集步骤有: 调查方案设计、 调查问卷设计、 问卷发放、问卷收回、数据初步等。 2 、数据的编码:如果数据是由开放式的问题来获取的,那么,需 要对答案进行罗列、合并、设码三个过程来完成编码工作。 3 、数据的录入: Excel 的数据录入操作比较简单,一般只要在工 作表中,单击激活一个单元格就可以录入数据了。通过“格式 - 单元 格格式”( Ctrl+1 )菜单来实现数据的完整性。 4 、数据文件的导入:导入的方法有二,一是使用“文件 - 打开” 菜单,二是使用“数据 - 导入外部数据 - 导入数据”菜单,两者都是打 开导入向导,按向导一步步完成对数据文件的导入。 5 、数据的筛选: Excel 中提供了两种数据的筛选操作,即“自动 筛选”和“高级筛选”。 6 、数据的排序: 在选中需排序区域数据后, 点击 “升序排列” (“降 序排列”)工具按钮,数据将按升序(或降序)快速排列 7 、数据文件的保存:保存经过初步处理的 Excel 数据文件。可以 使用“保存”工具按钮,或者“文件 - 保存”菜单,还可以使用“文 件 - 另存为”菜单。 实验二 描述数据的图标方法 实验目的和要求 通过软件辅助, 将数据转换为直观的统计表和生动形象的统计图, 掌握 Excel 的制图和制表功能, 并能准确地很据不同对象的特点加以 运用。 实验步骤 利用 Frequency 函数获取频数频率: 1、将数据输入并激活分别符 合条件的单元格。 2、打开“插入函数”对话框,选择函数。 3、点击 “插入函数”对话框确定按钮进入“函数参数”对话框,选中符合条 件的对话框。 4、使用组合键“ Ctrl+Shift+Enter ”,得到频数,返 回结果。 5、对结果进行修饰,加入分组标志及其值,再加入频数具 体名称,并且计算频数。 利用直方图: 1、将数据输入到指定单元格。 2、使用“工具—— 数据分析”菜单,选择“直方图”。 3、进入“直方图”分析工具库, 选中复选框。 4、单击确定按 钮,得到直方图分析工具扩展函数的返回结果。 5、对结果进行修 饰。 实验三 统计数据的描述 实验目的及要求 应用统计软件, 描述统计数据的集中趋势、 离散程度、 分布偏态。 掌握 Excel xx 中描述统计指标对应的函数,包括算数平均数、调和 平均数、几何平均数、众数、中位数、标准差、方差等。 . 熟练掌握 Excel xx “描述统计”工具进行描述统计。 实验步骤 掌握一些常用的使用函数。就 Average 函数进行举例,计算参数 的算术平均值,简单算术平均数: 1、直接将数据输入到符合条件的 单元格。 2、然后激活一个空白单元格,输入公式“ =AVERAGE( )”, 回车返回结果;加权算术平均数, Excel 没有提供专门的内置函数, 1、可先计算各组的组中值,作为该组一般代表 2、激活一空白单元 格,输入相关公式,回车返回结果。 “描述统计”分析工具扩展函数: 1、使用“工具——数据分析” 菜单, 打开“数据分析” 对话框, 从分析工具下框中选择 “描述统计” 。 2、点击数据分析对话框的确定按钮进入“描述统计”对话框,输入 区域点击右侧箭头,选择需要分析描述统计结果的数据。 3、点击描 述统计对话框确定按钮,得到描述统计结果。 实验四 参数估计 实验目的和要求 应用统计软件, 完成抽样的工作, 并且在抽样数据获取的基础上, 计算样本统计量, 对对应总体参数进行区间估计。 了解抽样组织形式 以及如何抽取样本数据, 掌握 Excelxx 中应用函数表单进行参数估计 的方法和步骤。 实验步骤 “抽样”分析工具将输入区域视为总体, 并使用总体来建立样本。 1、使用“工具——数据分析”菜单打开“数据分析”对话框,选择 “抽样”,并将其打开。 2、点击输入区域右侧的箭头,鼠标拖动选 择单元格。 3、点击“抽样”对话框的确定按钮,返回结果。 点估计是依据样本估计总体分布中所含的参数或参数的函数。通 常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估 计问题就是要构造一个只依赖于样本的量, 作为参数或参数的函数的 估计值 区间估计: 1、选中单元格, 使用“插入——名称——指定” 菜单, 打开“指定名称”,选择“首行”,点击确定。 2、构建函数表单框 架。3、输入框架下对应的数据和函数公式。 实验五 假设检验 实验目的与要求 了解不同假设检验内容要求的不同检验统计量和检验方法;掌握 利用函数表单进行假设检验的方法和步骤;掌握 Excel xx 中应用分 析工具库进行假设检验的方法和步骤。 实验步骤 1 、创建样本数据,确定需进行假设检验的总体参数 2、确定抽样 样本统计量及其服从的分布 3、进行假设设计(单侧,双侧) 4、确 定置信水平 5、计算检验统计量 6、计算置信水平下的检验区间(或 检验临界值) 7、比较检验统计量与检验区间(或检验临界值) ,得 出结论。 实验六 方差分析 实验目的与要求 应用统计软件, 对数据进行单因素饭方差分析和双因素方差分析。 了解方差分析的假设前提,掌握 Excel xx 中应用分析工具库进行方 差分析的方法和步骤。 实验步骤 单因素方差分 1 、使用“工具——数据分析”打开数据分析对话框,选择“方差 分析:单因素方差分析”分析工具,点击确定按钮打开“方差分析: 单因素方差分析”对话框。 2 、输入区域点击右侧箭头, 选择单元格。 3、分组方式选择 “列” 单选框。 4、点击“方差分析:单因素方差分析”对话框确定按钮, 返回结果。 双因素方差分析 1 、使用“工具——数据分析”打开数据分析对话框,选择“方差 分析:无重复双因素方差分析”分析工具,点击确定按钮打开“方差 分析: 无重复双因素方差分析” 对话框。 2、输入区域点击右侧箭头, 选择单元格。 3、分组方式选择 “标志” 复选框。 4、点击 “方差分析: 无重复双因素方差分析”对话框确定按钮,返回结果。 二 心得体会 成绩: 统计学实验心得体会 某生产车间 30 名工人的日产零件数如下(单位:个),试对其一 组距为 10 进 一个学期的实训不知不觉的就这样过去了,在这里不敢说自己学 到很多的东西,但我真的懂得了很多,也在其中明白了很多。在这学 期的统计学实验学习中, 我加深了对统计学原理的学习, 以及对数据 知识的理解和掌握, 同时也对 Excel 操作软件的应用有了更深刻的了 解,巩固了所学知识,拓展了知识面。结合以上的数据分析,以下是 我这几次实验的一些心得和体会。 在统计实验中,对数据的筛选和处理是比较重要的内容和要求。 同时对数据的分析也离不开相关软件的支持。比如,要求一个企业 30 名职工的日生产零件数,就要对数据进行导入、分析、筛选,最 后得出答案。因此, Excel 软件是实 数据分析与筛选 [1 ] 在预测与决策时,经常需要对所要研究的对象进行分析和收集数 据,从大量的统计数据中找规律, 而这些数据真实与否直接影响分析 结论的科学性。 在多数情况下会发现, 统计来的数据是按照某一规律 且起伏并不是很大,但其中都可能混有“异常数据”,这些异常数据 是由异常因素 (例异常时间、 干扰或误差等 ) 造成的与大多数观察值不 一致。 有些异常值可能是在统计时度量或执行错误所得到的, 在分析 过程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除, 否则可能导致重要的隐藏信息丢失 [2 ,特别有些异常数据非常有价值, 若剔除则可能影响到结论的科学性。 因此, 对于异常数据的挖掘及处 理( 利用 ) 是值得研究的问题。 ] 异常数据的挖掘方法 所谓数据挖掘就是按照既定的目标 , 对大量的统计数据进行探索 , 揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。 对 异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值, 挖 掘过程实际上是识别过程,可以用以下几种方法进行挖掘 : 3 σ检测法 [2 ] 一般统计数据若没有明显的上升或下降趋势 ( 若是时间序列一般 为平稳的时间序列 ),都分布在其均值周围,标准差σ能反映其离散 程度。统计数据可以是某一总体的样本。如果是一般总体,可以由概 率统计中的切贝谢夫不等式知道,对于任意的 0ε>,有: ?2 P{|X?E(X)|??}?2 ? ?21 特别地有, P{|X?E(X)|?3?}? 即统计数据与其均值的偏差超 过?2(3?)9 3 σ 比例不超过 1/9 则由不等式 P{|X?E(x)|?3?}?2[1??(3)]?0.027 ,即在正态分布下统计数据与平 均值的离差大于 3?的概率仅为 0.27%,所以可将那 3σ 些有均值之 差的绝对值超过 3σ的统计数据视为异常数据。 根据概率论中的中 心极限定理, 因此 3σ检测法在实际中比较常用。当然它的局限性是只适用于 单维异常数据的挖掘。 2.3 利用聚类分析法对数据处理 聚类分析又称群分析,是研究分类问题的一种多元统计方法。在 聚类分析的过程中, 将样品或变量按相互之间距离的大小或由相似系 数反映出的相近性聚成若干类,常用的距离有欧氏距离、马氏距离、 兰氏距离等, 马氏距离可以排除指标之间相关性的干扰且不受量纲的 影响,最为实用。根据聚类的结果,距离较小 或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的 限制。如果存在几个样品, 聚合成哪一类都不合适,或与其它样品的 距离都比较远,那么就可断定这些样品数据为异常数据。 1 、数据在聚类分析之前要进行数据的变换,常用的方法有 a 中心化变换: x*?xij?x(i?1,2,3,...m) 变换后的数据均值为 0,而协方差不变。 B. 标准变换: xij?xjx*?(i?1,2,...n;j?1,2,...m) sj 其中 sj 是标准差;变换后的数据每个变量的样本均值为 0,而且 标准变换后的数据与变量的量纲无关; 2 、由聚类分析法的基本思想,即可得出 ① 数据变换: 常用的数据变换方法在上面已经详细举出。 数据变 换的目的时为了便于计算和比较,或改变数据的结构; ② 计算 n 各样品两两间的距离, 得到样品间的距离 (常用欧式距 离)矩阵 D(0) ; ③ 初始(第一步: i=1 )n 个样品各自构成一类, 类的个数 k=n,第 i 类 Gi?{x(ij)}(i?1,2,...n), 此时类的间距就是 样品距离,然后对样品 X(i)(i?1,2,...,n) 执行并类过程④和⑤; ④ 对步骤 3 得到的距离矩阵 Di?1,合并类间距离最小的两类为 一新类,此时类的总个数 k 减少一类,即 k=n-i+1; ⑤ 计算新类与其他类的距离, 得到新的距离矩阵, 若合并后的总 个数 k 仍然大于 1,重复以上的过程, ⑥ 画谱系聚类图; ⑦ 觉定分类个数及各类的成员。 2.4. 典型例子——市场占有率问题 一个企业的销售量(或销售额)在市场同类产品中所占的比重。 直接反映企业所提供的商品和劳务对消费者和用户的满足程度, 表明 企业的商品在市场上所处的地位。市场份额越高,表明企业经营、竞 争能力越强。市场份额根据不同市场范围有 4 种测算方法: (1). 总体市场份额。指一个企业的销售量(额)在整个行业中所 占的比重。 (2). 目标市场份额。指一个企业的销售量(额)在其目标市场, 即它所服务的市场中所占的比重。 一个企业的目标市场的范围小于或 等于整个行业的服务市场, 因而它的目标市场份额总是大于它在总体 市场中的份额 。 (3). 相对于 3 个最大竞争者的市场份额。指一个企业的销售量和 市场上最大的 3 个竞争者的销售总量之比。如:一个企业的市场份 额是 30%,而它的 3 个最大竞争者的市场份额分别为 20%,10%, 10%,则该企业的相对市场份额就是 30%÷40%=75%,如 4 个企 业各占 25%,则该企业的相对市场份额为 33%。一般地,一个企业 拥有 33%以上的相对市场份额, 就表明它在这一市场中有一定实力。 4. 相对于最大竞争者的市场份额。指一个企业的销售量与市场上 最大竞争者的销售量之比。若高于 100%,表明该企业是这一市场的 领袖。 三、数据筛选 数据的筛选在数学建模中占有很重要的地位,它是数学建模的第 一步,我们只有得到好的数据才能保证得出的结果的真实性与准确性。 而在实际的问题中我们遇到的数据量往往是巨大的。 为了保证我们所 用的方法能够在原始数据的支持下得以实现, 我们必须要对数据进行 筛选, 使得解决方法简单化。 但是我们又要保证筛选出来的数据具有 代表性,使得到的结果更加准确与真实。 数据筛选有很多种不同的方法 3.1 :随机抽样 从一个总体的样本 X中随机抽取出 n 个个体,这样称对总体 X进 行随机抽样,其中 n 叫做样本容量,这 n 个个体构成了样本。在随机 抽样过程中满足随机性和独立性两个特征, 即对于每一次的抽样在总 体中的每一个个体被抽到的概率都相同, 每次抽取的结果不会影响到 下一次的抽取。 这样的随机抽样适用于对总体的概率分析等统计方面的应用,比 如可以分析数据中的最大值、 均值、 众数等数据特征不能够对数据的 3.2 利用粗差法筛选数据 1 基本假设 利用粗差法筛选数据的方法是一种基于数理统计理论得出的一种 筛选数据的方法, 其主要的运用体现在矿井通风阻力测定数据前处理 的运用中, 以及其他相类似的数据处理。 以下我们就以矿井的通风阻 力为例介绍粗差筛选数据的方法。 在进行通风阻力测量时,要求选择合理的测量路线,在每条测量 路线上选择合理的测量点, 每个测量点至少要求 5 个数据。在测量期 间,如果巷道通风状况等条件保持稳定, 则某点的数据样本符合正态 分布,且其平均值近似为真值。 某测点测量数据的样本 x=(x1,x2,x3.....xn),n>5, 的方差为 1n2s?(x?xi)2 (1) ?n?1i?1 设允许的测量误差为 a(0