• 602.50 KB
  • 2021-07-01 发布

高中数学选修2-3教学课件:独立性检验的基本思想及其初步应用(1)

  • 19页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
3.2 独立性检验的基本思想 及初步应用 (1) 问题 : 数学家庞加莱每天都从一家面包店买一块 1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为 950g 。于是庞加莱推断这家面包店的面包分量不足。 假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于 1000g ; “这个平均值不大于 950g” 是一个与假设“面包分量足”矛盾的小概率事件; 这个小概率事件的发生使庞加莱得出推断结果。 一 : 假设检验问题的原理 假设检验问题由两个互斥的假设构成,其中一个 叫做原假设,用 H 0 表示;另一个叫做备择假设,用 H 1 表示。 例如,在前面的例子中, 原假设 为: H 0 :面包分量足, 备择假设 为 H 1 :面包分量不足。 这个假设检验问题可以表达为: H 0 :面包分量足 ←→ H 1 :面包分量不足 二 : 求解假设检验问题 考虑假设检验问题: H 0 :面包分量足 ←→ H 1 :面包分量不足 在 H 0 成立的条件下,构造与 H 0 矛盾的小概率事件; 如果样本使得这个小概率事件发生,就能以一定把握断言 H 1 成立;否则,断言没有发现样本数据与 H 0 相矛盾的证据。 求解思路: 三 : 二个概念 这种变量的不同取 “ 值 ” 表示个体所属的不同类别,这类变量称为 分类变量 1. 分类变量 对于性别变量,取值为:男、女 分类变量 在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。 利用随机变量 K 2 来确定在多大程度上可以认为 ” 两个分类变量有关系 ” 的方法称为 两个分类变量的独立性检验 .( 为假设检验的特例 ) 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸烟 2099 49 2148 总计 9874 91 9965 问题 : 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了 9965 人,得到如下结果(单位:人) 列联表 在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大 0.54% 2.28% 1) 通过图形直观判断两个分类变量是否相关: 三维柱状图 2) 通过图形直观判断两个分类变量是否相关: 二维条形图 3) 通过图形直观判断两个分类变量是否相关: 患肺癌 比例 不患肺癌 比例 独立性检验 H 0 : 吸烟 和 患肺癌 之间没有关系 ←→ H 1 : 吸烟 和 患肺癌 之间有关系 通过数据和图表分析,得到结论是: 吸烟与患肺癌有关 结论的可靠程度如何? 用 A 表示 “ 不吸烟 ” , B 表示 “ 不患肺癌 ” 则 H 0 : 吸烟 和 患肺癌 之间没有关系 “ 吸烟 ” 与 “ 患肺癌 ” 独立 , 即 A 与 B 独立 等价于 等价于 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d 独立性检验 引入一个随机变量 作为检验在多大程度上可以认为 “ 两个变量有关系 ” 的标准 。 1) 如果 P( m >10.828)= 0.001 表示有 99.9% 的把握认为 ” X 与 Y ” 有关系 ; 2) 如果 P(m>7.879)= 0.005 表示有 99.5% 的把握认为 ” X 与 Y ” 有关系 ; 3) 如果 P(m>6.635)= 0.01 表示有 99% 的把握认为 ” X 与 Y ” 有关系 ; 4) 如果 P(m>5.024)= 0.025 表示有 97.5% 的把握认为 ” X 与 Y ” 有关系 ; 5) 如果 P(m>3.841)= 0.05 表示有 95% 的把握认为 ” X 与 Y ” 有关系 ; 6) 如果 P(m>2.706)= 0.010 表示有 90% 的把握认为 ” X 与 Y ” 有关系 ; 7) 如果 m ≤ 2.706), 就认为没有充分的证据显示 ” X 与 Y ” 有关系 ; 设有两个分类变量 X 和 Y 它们的值域分别为 {x 1 ,x 2 } 和 {y 1 ,y 2 } 其样本频数列表 ( 称为 2×2 列联表 ) 为   y 1 y 2 总计 x 1 a b a+b x 2 c d c+d 总计 a+c b+d a+b+c+d 2×2 列联表 适用观测数据 a 、 b 、 c 、 d 不小于 5 独立性检验 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸烟 2099 49 2148 总计 9874 91 9965 通过公式计算 独立性检验 已知在 成立的情况下, 即在 成立的情况下, K 2 大于 6.635 概率非常小,近似为 0.01 现在的 K 2 =56.632 的观测值远大于 6.635 分类变量之间关系 条形图 柱形图 列联表 独立性检验 背景分析 例 1. 在某医院 , 因为患心脏病而住院的 665 名男性病人中 , 有 214 人秃顶 , 而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶 . 分别利用图形和独立性检验方法判断是否有关 ? 你所得的结论在什么范围内有效 ? 例 2 . 为考察高中生性别与是否喜欢数学课程之间的关系 , 在某城市的某校高中生中随机抽取 300 名学生 , 得到如下列联表 : 性别与喜欢数学课程列联表 喜欢数学课程 不喜欢数学课程 总计 男 37 85 122 女 35 143 178 总计 72 228 300 由表中数据计算得 , 高中生的性别与是否喜欢数学课程之间是否有关系 ? 为什么 ? a c d b 解 :P 111 独立性检验基本的思想类似 反证法 ( 1) 假设结论不成立 , 即 “ 两个分类变量没有关系 ” . (2) 在此假设下随机变量 K 2 应该很能小 , 如果由观测数据 计算得到 K 2 的观测值 k 很大 , 则在一定程度上说明假设 不合理 . (3) 根据随机变量 K 2 的含义 , 可以通过 评价该假设不合理的程度 , 由实际计算出的 , 说明假设合理的程度为 99.9%, 即 “ 两个分类变量有关系 ” 这一结论成立的可信度为约为 99.9%.

相关文档