- 999.50 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
假设检验(hypothesis testing)
方法演变:t 检验、z 检验、F 检验、卡方检验,方差分析( ANOVA)
概述
假设检验是分析数据的一种方法。回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:
“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。
这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的
差别吗?”或”顾客对场地 A 的满意度是不是比其他场地高?”
最常用的检验是:z 检验、t 检验、F 检验、卡方(χ2)检验和方差分析。这些检验和其他的检验都是基
于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。最有名的分布就是正态分布,它是:
检验的基础。t 检验、F 检验和卡方(χ2)检验是基于 t 分布、F 分布和卡方分布。
适用场合
·想知道一组或更多组数据的平均值、比例、方差或其他特征时;
·当结论是基于更大总体中所取得的样本时。
例如:
·想确定一个过程的均值或方差有否改变;
·想确定很多数据集的均值或方差是否不同:
·想确定两组不同的数据集的比例是否不同;
·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。
实施步骤
假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤 1~3);数字计算通常由计算
机完成(步骤 4 和步骤 5);应用数值结果到实际问题中(步骤 6)。虽然计算机能处理数字,但理解假没检验
隐含的观念对第 1 部分和第 3 部分至关重要。
如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。这些定义解释了假设检验的慨
念,然后再回来看这个步骤。
本书不可能详细地涉及假设检验。这个步骤是个综述和快速参考。要得到更多的信息,查阅统计学参考
书或请教统计学家。
1 确定要从数据中获得的结论。选择适当的检验方法。用哪种检验取决于检验的目的和数据的种类。可
以用表 5.7 和表 5.8 概括的常用的假设检验,或者请教统计学家以得到帮助。
2 建立零假设和备择假设。确定问题是属于双尾检验、左尾检验还是右尾检验。
3 选择显著性水平。。
4 计算检验统计量,可借助计算机软件。
5 用统计分布的统计表或计算机程序等来确定检验统计量的 P 值。对于 z 检验可用表 A.1 正态曲线以下
的曲线。
6 把 P 值与左尾或右尾检验的α或者双尾检验的α/2 作比较,如果 P 值较小,那么拒绝零假设并会得到
备择假设可能正确的结论。否则,不能拒绝零假设,并得出没有足够证据支持备择假设的结论。
备择步骤
步骤 1~4 同上。然后:
5 用统计表或计算机程序确定如下所示的检验统计量的临界值和拒绝域。以 z 检验作为示例,对 t 检验、
F 检验或卡方检验,用统计量 f、F 或χ2 来替换 z。
6 比较检验统计量和拒绝域。如果检验统计量值落在拒绝域内,拒绝零假设,结论是备择假设可能止确。
否则,不拒绝零假设,结论是没有足够的证据支持备择假设。
示例:t 检验
一家食品杂货店从一供应商处购买几箱苹果,每箱质量为 50 磅(1lb=0.455kg),固定价格。
供应商保证每箱的平均质量确实是 50 磅。产品小组随机抽取 10 箱称量。质量分别为:
50.1 49.6 50.3 49.9 49.5 49.7 50.0 49.6 49.7 50.2
杂货店受骗没有?
统计上讲,产品小组的问题是:“我们接受的苹果箱的平均质量少于 50 磅吗?”零假设是“苹果箱的平
均质量等于 50 磅”,备择假设是“苹果箱的平均质量小于 50 磅”计划用 5%的显著性水平。
在表 5.7 中找均值与给定的值作比较的检验。σ未知,样本容量小于 30 个,假设箱子的质量服从正态分
布。因此用 t 检验。因为备择假设是“小于”,所以需要左尾检验。
向在线计算器中输入数据得到以下结果:
样本均值= 49.86 标准方差=0.28 t=-1.583 P=0.07
因为 P 值大于 0.05,所以不能拒绝零假设,没证据表明他们受骗。图表 5.99 显示了 t 分布,检验统计
量 t=-1.583,曲线下这个值以外的区域是 P=0.07。
用备择步骤,从 t 表中确定 a=0. 05,自由度为 9,临界值为 ta=-1. 833。因为是左尾检验,拒绝域
是任何小于-1. 833 的 z 值。检验统计量为-1.583,没有落在拒绝城,所以不拒绝零假设。
图表 5.100 显示了 t 分面、临界值、拒绝域和曲线下相等于 a=0. 05 的区域。两幅图的比较表明两个实
施步骤如何以不同方式得到相同结论的过程。对左尾情况,只要检验统计量 t 大于临界值 ta,曲线下 t 值左
边的区域即 P 值就比 a 大,a 就是曲线下 ta 左边的区域。
示例:卡方检验 1
一家服装零售商想了解其提议的生产线的变化是否会在不同地区被同样地接受。
他们随机挑选了 750 名顾客,描述了提议的新产品,然后让顾客估计购买的可能性。他
们按地理位置对数据分组,建立了五行、四列的关联表,见图表 5.17 的关联表。
从表 5.8 看出,卡方检验是最合适的,比较了各组的分布。这种检验总是有尾的。零假设可陈述为“五
个地区的顾客在购买可能性分布上没有差异”,备择假没是 “五组购买的可能性分布有差异”。
选择显著性水平为 5%,计算出自由度为 df=12。大多卡方表按备择步骤设计,可以查询 a 或 l-a,读
取临界值。对 a =0. 05 和 df=12 来说,χ2 临界值为 21.026。如果检验统计量大于它就拒绝零假设。
用电子制表软件计算每一单元的 E。E 代表着零假设为真时的期望值,也就是每个地区的购买可能性分布
和整体分布一样时的期望值。接着计算每单元的(O-E)2÷E,加起来得到检验统计量χ2=22. 53,比临界值
21. 026 大,所以拒绝零假设。购买可能性分布随区域而不同。
这个检验等同于检验两个变量是否独立。结果表明地理区域和购买可能性两个变量不独立。已知顾客所
在的地区就能预测他是否更有可能购买新生产线。
另一示例:卡方检验 2
相同的零售商计划改变产品目录的格式和风格并想了解新的格式是否会有效提高订单。作为测试,他们
随机挑选顾客送出去 200 000 本新春装目录册,另外 1 800 000 本目录册是传统版本。参考关联表例子,用
图表 5. 18 的 2×2 的关联表来组织数据。
卡方检验比较两者的比例。零假设是“顾客从测试目录和从标准目录购买的比例相同。”
选用 5%的显著性水平。比较比例,自由度就是 l。a=0. 05 和 df=1 时,χ2 临界值为 3. 841,检验统
计量χ2=278。因此拒绝零假设,结论是顾客从新格式目录和从旧目录购买的比例显著不同。
注意事项
·和许多学科一样,统计学有自己专门的语言表达常用的概念。以下是在实施步骤中常用的定义术语:
检验:一种统计检验,如 z 检验、t 检验、F 检验或卡方检验。要知道选用哪种检验是实施步骤中最难的
一部分,取决于数据的种类以及想从数据中得出结论的种类。
假设:陈述一事实,由检验证明或反驳。
零假设,H0:是想检验的假没,数据是随机的。称为“零”是因为通常(不总是)零假设意味着两组数
据中或从数据中计算的参数与给定的值之间没有差异。
备择假设,H。:如果零假设为假,备择假设肯定为真。通常备择假设暗含数据来自真实的影响而非随机
的。
统计量:表征样本数据某些方面的变量。平均数、均值、方差和比例都是统计量。
检验统计量:用来检验零假设的统计量。对每种检验都有一个公式表达适当的检验统计量。这样做如果
零假设是真(数据随机),统计量就来自一有名分布,如 z 检验的正态分布。
双尾、右尾、左尾:描述检验是否涉及频率分布的双侧(双尾)或只是单侧。如果备择假设表达式中包
合≠(不等于),需要双尾检验。如果包含<(小于)需要左尾检差验,包含>(大于),需要右尾检验。卡方
检验通常是双尾检验。
P 值:检验统计量在已知分布下随机发生的概率。P 值等于曲线下检验统计量以外的那个区域(见图表
5.99)。P 值越小,越能肯定结果是真的,不只是随机的。由于各种检验分布都很有名,这些概率能在表中或
计算机程序中得到。
显著性水平,a:能确定结果是真的以前反映我们能多大程度确信结果不是随机产生的数值。通常取 1%、
5%、10%( a =0.01、0.05、0.10)。例如:单侧检验 a =0.05,只要随机得到的结果小于 5%即 P<0.05 则可断
定结果为真。
临界值:概率正好等于 a 时的检验统计量的值。曲线尾部临界值以外的区域面积等于 a。对双尾检验来
说有两个临界值(见图表 5. 100),每一尾部一个,每个临界值以外的区域都等于 a/2。临界值由表或计算机
程序确定,记为±za 或±za/2。
拒绝域:如果检验统计量落在这个区域,零假设就被拒绝的频率分布区域。对左尾检验来说,这些值位
于小于临界值的分布曲线尾部。对右尾检验而言,则位于大于临界值的曲线尾部。双尾检验拒绝域包含两头。
置信水平,(1-a)。
置信区间:事件随机发生时以很大概率包含检验统计量的区间范围。拒绝域是置信区间以外的区域。显
著水平、置信水平、置信区间之间的关系为:a=0.05,置信水平等于 95%,则认为落在 95%置信区间的值是最
有可能单独地随机发生的,不能拒绝零假设。置信区间的定义讲究技巧。95%置信区间不是分布所有值的 95%
落在这一区间而是当一个值属于这个分布时,基于样本数据建立的所有区间 95%地包含这个值。
·假设检验中,观察检验分布曲线,计算位于图形水平轴某处的检验统计量。如果曲线下检验统计量以
外的区域 P 足够小(小于显著水平 a),则此统计检验量可能就不服从这个分布。
·因为曲线是频率分布,曲线任何部分以下的区域就是事件发生可能性的度量,标在水平轴上。这就是
在曲线下区域能找到 a 和 P 值的原因。
·由于假设检验涉及样本和概率,所以有可能得到错误的结论。第一类错误就是零假设为真而被拒绝(见
图表 5. 101)。第一类错误的概率是:显著性水平 a。在
第二个例子中,有 5%的可能性就是区域间分布差异确实是
随机的。第二类错误是零假设为假而没有被拒绝。如果食
品杂货店真的在苹果箱的重量上被欺骗则第二类错误发
生。第二类错误的概率β的计算更复杂,超出本书讨论范
围。不幸的是,“a 越小,β越大。但是给定 a,增加样本
容量,β将变小。
·因为第二类错误概率的存在,当零假设没被拒绝时,
不能得出备择假设是错的结论,只能说数据没有提供足够
的证据支持备择假设。
·很多网站上有计算器,可以计算检验统计量和检验
分布值。输人数据,计算器计算检验统计量、概率和临界值。但是要知道采用哪种检验以及如何解释结果,
这点很重要。
·成对样本就是两组样本集包含配对的有关联的观察值。例如:处理前、后相同样本的测量值或者同一
样本被不同仪器测量所得的值。检验假设通常是两组样本的均值相等,换句话说,两组间的均值差是零。称
这类检验为配对比较,是谢宁( Shainin)试验设计方法论中运用的工具之一(详见“试验设计”),这个检验
和第 5 章所述的成对比较不是一回事。
·卡方检验前参照关联表来组织数据。
·一些特殊情形下可以利用别的假设检验方法。例如当数据不服从正态分布时,有多种非参数检验方法
可用。总结所有的假设检验方法超出本书范围。如果表中条件和数据不符合,请教统计学家帮助选择适当的
检验方法。
相关文档
- 高中数学人教a版必修二 第四章 圆2021-06-165页
- 2020年高中数学新教材同步必修第二2021-06-1610页
- 高中数学人教a版必修五第一章解三2021-06-166页
- 北师大版高中数学选修1-1同步练习2021-06-164页
- 高中数学第三章指数函数和对数函数2021-06-164页
- 北师大版高中数学选修1-1同步练习2021-06-163页
- 高中数学人教a版必修四课时训练:1.2.2021-06-165页
- 高中数学(人教版a版选修2-1)配套课时2021-06-165页
- 高中数学人教a必修5学业分层测评92021-06-165页
- 高中数学人教a版必修4课时达标检测2021-06-163页