统计学的基本概念 50页

  • 1.01 MB
  • 2022-08-29 发布

统计学的基本概念

  • 50页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
本资料来源\n(6σ导论)(GB103)6σ管理模式统计学基本概念\n主要内容1.波动(偏差)。2.连续变量和逻辑变量。3.均值,中位数,众数,极差,方差,标准偏差。4.正态曲线。5.带正值的标准化数据。6.中心极限定律。7.过程能力一用Z值作为恒量尺度。\n波动的型式与原因任何过程都包含随机波动(由于一般或普遍原因造成的)和非随机波动(由于特殊原因造成的)。时间不合格产品率特殊波动历史水平(0)最佳水平(1)在0(±30)范围内的随机波动在1(±31)范围内的随机波动\n普遍原因:过程波动随时间推移是稳定的,可预测的处于控制状态原因:固有的或是自然的例如:垂直向上空(先把硬币夹垂直)抛掷一枚硬币,统计硬币落地后每一面向上的次数。当抛掷次数很多时,每面向上的次数大约各占一半,只有微小差异。普遍原因:差异的原因:有风,每次抛掷动作有微小差异,地面不平整,等等。波动的型式与原因\n特殊原因:过程波动无法预测(按小时,按天或按周)处于失控状态原因:机器调整不当,原材料不合格,操作者本身目标:检测和消除特殊原因特殊原因:例如:同样是抛硬币,抛1000次,AB两面各自向上的次数却相差400多次。原因:操作者每次抛掷时,总时将硬币平放,且总是将正面朝上,然后抛出。波动的型式与原因\n数据的两种类型连续(可变)数据:使用一种度量单位,比如英寸或小时。连续(可变)数据的例子:电压、电流、功率、时间、距离、重量、速度。离散(逻辑)数据:是类别信息,比如“合格”或“不合格”。连续数据离散数据\n统计领域用下列方法处理波动(偏差):描述型统计-用图表或总结性的数字(均值,方差,标准偏差)来描述一系列数据。统计推断-当结果差异可能因为随机偏差或不能归属为随机偏差时所作的决定(假设检验)。试验设计-收集并分析数据估计过程改变效果。数理统计的作用\n总体和样本总体(母体):它是提供数据的原始集团,是所要研究分析的对象的全部。总体可以是一批产品(由于一批产品的数量是有限的,故称为有限总体),也可以是一道工序所生产的所有产品(由于其源源不断的运行,甚至也包含今后的产品,故称为无限总体)样本(子样,抽样,试样):从总体中抽出一部分个体,总体中的这一部分个体称之为样本。它是直接被检测并提供数据的诸个体。\n连续数据的测量如何描述数据的统计特性:measuresoflocation(centraltendency居中程度)measuresofdispersion(variation离散程度)\n描述数据的居中程度Mean均值Median中位数Mode众数Quartiles四分位数\n输出值聚集在某个中心值附近居中趋势平均值,中位数,众数,四分位数是所有居中趋势的测量\n均值(中心值)均值-总体或样本的平均值。-总体的中心值用表示。-样本的中心值用x表示。样本均值的计算公式如下:Themeanisthemostcommonmeasureoflocationorcenterofthedata.\n中位数中位数-反应样本数据中间50%的数值,一系列数据由低到高排列后所得到的中间数。偶数奇数\n众数----在一个数据集中最频繁出现的值。众数Themodeistheobservationthatoccursmostfrequentlyinthesample.Themodemaybeunique,ortheremaybemorethan1mode.Sometimes,themodemaynotexist.\nRange极差Variance方差StandardDeviation标准偏差InterQuartileRange内四分位极差描述数据的离散程度\n离散程度的测量用来判定一个数据集合离散程度或宽度的恒量尺度极差--在一个样本中最大值与最小值的差值。极差=最大值-最小值即:R=x(max)–x(min)方差-与中心值间距的平方和的平均值。总体的方差用表示样本的方差用s2表示标准偏差-是方差的平方根。总体标准偏差由表示样本标准偏差由s表示\nUnitsofMeasure直方图块的中点中心光滑连接形成曲线大多数(但不是所有)数据是正态分布或钟形曲线正态分布\n在许多实际问题中,我们遇到的随机变量都受到为数众多的相互独立的随机因素的影响,而每一个别因素的影响都是微小的,且这些影响是可以叠加的.例如,电灯在指定条件下的耐用时间受到原料,工艺,保管等条件的影响,而且每一种因素在正常情形下都是均匀地微小且可以叠加的.具有上述特点的随机变量一般都可以认为是具有正态分布的随机变量.在现实生产生活中,我们所遇到实际问题大多数都属于具有正态分布的随机变量,因此在此我们重点讨论研究此类分布.正态分布简介\n正态分布的特点:1.形态如钟;2.左右对称;3.于平均值处分布的频数最多。此外,越远离平均值,分布的频数也越少。正态分布的要素:1.平均值:决定正态分布曲线的中心位置;2.标准偏差:决定正态分布曲线的“宽窄”.为何要研究正态分布?1.它是自然界的一种最基本的最普遍的法则,反应了事物内在的变化规律;2.它使我们得以将许多复杂的事物简化处理;3.它使我们得以通过少量抽样来把握全体,从而节省大量人力,物力,财力和时间。正态分布简介\n正态检验为什么有用?许多统计检验(均值和方差的检验)都假定数据是正态分布的,正态检验用来判定该假定是否有效。何时用正态检验?当你分析数据并要计算基本统计值如Z值或假定正态性的统计检验如T-检验或方差分析(ANOVA)时。分布的正态性检验\n如何做正态性检验?采用Minitab公司的专业统计软件MINITAB:\n如何做正态性检验?方法1:从Minitab的菜单选项里,选择:Stat>BasicStatistics>NormalityTest打开数据文件:DOT-BOX-HISTOGRAM.MTV\n如何做正态性检验?从Minitab的菜单选项里,选择Stat>BasicStatistics>NormalityTest.我们可以看到下图的对话框。\n变量:选择一列数据用于X轴。正态检验:有3种类型,通常用Anderson-Darlingtest.标题:用你自拟的题目取代默认的。单击OK.图形输出如下图。正态概率图:如何做正态性检验?\n如何做正态性检验?方法2:从Minitab的菜单选项里,选择:Stat>BasicStatistics>DisplayDescriptiveStatistics打开数据文件:DOT-BOX-HISTOGRAM.MTV\n如何做正态性检验?从Minitab的菜单选项里,选择:Stat>BasicStatistics>DisplayDescriptiveStatistics我们可以看到下图的对话框。\n如何做正态性检验?结果显示:P-Value大于0.05,判定数据的分布为正态分布。(α冒险概率=0.05)\n如何做正态性检验?显示在图上的总结包括添加了分布曲线的直方图和AndersonDarling正态检验的P值(显示在右上角)。正态检验的通常规则当P值小于或等于0.05则认为样本数据的分布不同于标准的正态分布。相反,当P值大于0.05,则认为样本数据的分布与正态没有显著差异。进一步解释:正态性检验属于根据样本来检验关于总体分布的检验方法,属于数学中的非参数检验方法。对于正态检验,原假设为:H0:总体的分布与正态分布无显著差异;对立假设为:H1:总体的分布与正态分布有显著差异。其中P值代表判断总体数据分布和正态分布没有显著差异的可能性。上图表现了数据分布的直方图及分布曲线,从图中我们可以看出此图不是正态分布。结果说明:\nVisualinterpretationthedataset.Commongraphicaltoolstoillustrateadataset:DotPlot散点图BoxPlot盒子图Histogram直方图图形工具描述\n散点图(DotPlot)Thedotplotisusefulfordisplayingasmallbodyofdata.散点图更易分析样本容量较少的参数特性。Thelocationorcentraltendencyinthedatasetanditsspreadordispersionareeasilyidentified.散点图对单个样本数据的居中程度和离散程度都很容易看出来。Itcanalsobeusedincomparingtwoormoredatasets.散点图还可用于定性地比较两组样本或多组样本的数据之间有无显著差异。\n案例:某器件AM5003特性参数-电流增量(mA):批次A:4.5,7.3,4.8,6.2,8.7,5.1,3.5,5.4,4.6,3.8批次B:4.5,7.3,4.8,6.2,8.7,5.1,11,13,9.7,10.5Minitab:Graph>Dotplot散点图(DotPlot)打开数据文件:DOT-BOX-HISTOGRAM.MTV\n结论:散点图结果显示:批次A的电流增量比较集中,均值小,因此批次A的质量比较稳定;而批次B的电流增量比较分散,均值较大,性能较差。图形结果显示:散点图(DotPlot)批次A批次B\n盒子图(BoxPlot)Nottobeusedwhensamplesizeislessthan10units.注意:当样本容量小于10时请勿采用!盒子图是比较样本数据间的分布差异,中心位置和分散大小。和散点图相近,都是用来分析样本数据的居中程度和离散程度,但比散点图更直观,更有效。\n*异常点75%数(3/4分位)-Q3Q1-Max{Minimum,Q1-1.5IQR}Q3+Min{Maximum,Q3+1.5IQR}25%的数(1/4分位)-Q1中位数(1/2分位)-Q2注:盒子的高度---内四分位极差(IQR)=InterQuartileRange=Q3-Q1盒子图(BoxPlot)数据的中心50%(盒子的高度)\nMinitab:Graph>Boxplot:盒子图(BoxPlot)打开数据文件:DOT-BOX-HISTOGRAM.MTV单个样本数据分析:\n图形结果显示-单个样本数据分析:盒子图(BoxPlot)\n盒子图(BoxPlot)打开数据文件:DOT-BOX-HISTOGRAM.MTV多个样本数据比较分析:\n盒子图(BoxPlot)图形结果显示-多个样本数据比较分析:\n直方图(Histogram)Thehistogram,agraphicalpresentationofthefrequencydistribution,providesavisualimpressionoftheshapeofthedistributionofmeasurements.直方图--表征数据的概率分布,主要应用在了解数据分布的形状及形态。便于掌握数据的居中趋势,数据的分布等。X-axis:measurementscale--测量数据的区间划分,随着区间的调整,数据的形状分布略有不同。Y-axis:frequency(orrelativefrequency)scale--事件发生的频数。Nottobeusedwhensamplesizeislessthan50units.注意:当样本容量小于50时谨慎使用直方图!\nMinitab:Graph>Histogram直方图(Histogram)打开数据文件:DOT-BOX-HISTOGRAM.MTV\n图形结果显示:直方图(Histogram)\n中心极限定律概率论基本概念:1.随机变量--根据试验结果对随机试验取什么值的变量。2.随机事件的频率-设随机事件A在n次试验中出现了r次,则称比值r/n为这n次试验中事件A出现的频率,记作W(A)即:W(A)=r/n3.概率的统计定义-随着试验次数n的增大,事件出现的频率r/n在区间[0,1]上的某个数字p附近摆动,那么定义事件的概率为:P(A)=p根据贝努里大数定理,在实际应用中,当试验次数很大时,便可以用事件出现的频率来代替事件发生的概率。\n中心极限定律在实际问题中,有许多随机变量,它们是由大量的相互独立的随机因素的综合影响所形成的,即可以表示成独立随机变量之和,这种随机变量往往近似地服从正态分布,这就是中心极限定律地客观背景。1.独立同分布地中心极限定理指出:设独立随机变量序列X1,X2,…,Xn,…服从同一分布,并具有有限的数学期望和方差,则只要n充分大,不管Xi服从什么分布,近似地服从正态分布德莫佛-拉普拉斯定理指出:当n很大时,在n次独立重复试验中事件A发生地次数近似服从正态分布。从而服从二项分布的随机变量近似服从正态分布N(np,np(1-p))。(在次品率为p的一大批产品中任取n件产品,那么取得次品的件数服从二项分布)。\n例1“总销售量”是许多许多经销商销售的总和,一个销售商可能不是正态分布,但总的销售量大致是正态分布的。例2许多产品的堆积高度大致是正态分布,即使单一产品高度不是正态分布。注意:不是所有数据服从正态分布,如何检验正态性,及数据非正态时如何办?中心极限定律中心极限定律指出,对于大数值n即使单个的数据分布可能是非正态的,其样本平均值可以估计是正态的。\n个体分布平均值:每一个平均值来源于n个测量值。X总平均值)X在每个子群中有n个抽样数中心极限定律\n参数估计:1.点估计-对参数作定值估计,如用样本均值和样本方差作为总体的均值和方差的估计值。2.区间估计-点估计只是一种近似值,既没有反应这种近似值的精确度,又不知道它的误差范围。此时就引入了置信区间这个概念,它不仅能够反应点估计的误差范围,还能反应估计值落在该区间的概率即置信度。统计术语\n置信度置信度是指总体的均值与标准偏差有多大可能性落在以样本为基础计算出的置信区间中!工业行业一般采用95%的置信度,它意味着:总体的均值与标准偏差落在置信区间中的概率是95%!总体的均值与标准偏差落在置信区间之外的概率(风险)是5%!如果需要更高的置信度(99%置信度)…置信区间会怎样?“我现在有95%的信心投中所有的球。如果加宽球门,信心将更大!”\n注意:真实的总体均值和标准偏差或者不合格品率是确定的,只不过它们的数值是未知的。逻辑变量:确定置信度(95%)。用样本的不合格品率和样本尺寸计算置信限以确定置信区间。连续变量:确定置信度(95%)。用样本的平均值,标准偏差和样本尺寸计算置信限以确定置信区间。可用Minitab或手工方法计算置信限。置信度VS置信区间\n置信区间太宽怎么办?采用更大的样本....允许的误差越小或置信区间越窄,需要的样本容量越大!!!

相关文档