- 352.50 KB
- 2021-06-15 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
3.2 独立性检验的基本思想及其初步应用
学习目标:1.了解分类变量、2×2列联表、随机变量K2的意义.2.通过对典型案例的分析,了解独立性检验的基本思想方法.(重点)3.通过对典型案例的分析,了解两个分类变量的独立性检验的应用.(难点)
[自 主 预 习·探 新 知]
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2.等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
3.独立性检验
定义
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验
公式
K2=,其中n=a+b+c+d
11
具体步骤
①确定α,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值Ka
②计算K2,利用公式计算随机变量K2的观测值K.
③下结论,如果K≥K0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”
思考:独立性检验的基本思想与反证法的思想有何相似之处?
[提示]
反证法
假设检验
要证明结论A
要确认“两个变量有关系”
在A不成立的前提下进行推理
假设该结论不成立,即假设结论“两个变量没有关系”成立,在该假设下计算K2
推出矛盾,意味着结论A成立
由观测数据计算得到的K2很大,则在一定可信程度上说明假设不合理
没有找到矛盾,不能对A下任何结论,即反证法不成功
根据随机变量K2的含义,可以通过K2的大小来判断“两个变量有关系”这一结论成立有多大把握
[基础自测]
1.判断(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念. ( )
(2)独立性检验的方法就是反证法. ( )
(3)独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小 ( )
[解析] (1)× 变量的不同“值”表示个体所属的不同类别,象这样的变量称为分类变量,有时可以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没
有其他含义,而函数中的变量分为自变量与因变量,都是数的集合,有它们各自的意义.
(2)× 独立性检验的思想类似于反证法,但不能说它就是反证法.
(3)√ 独立性检验是对两个分类变量有关系的可信度的判断,其结论是有多大的把握确认两个分类变量有关系,可以通过统计表从数据上进行运算,再进行判断.
11
[答案] (1)× (2)× (3)√
2.下面是2×2列联表
y1
y2
总计
x1
a
21
73
x2
7
20
27
总计
b
41
100
则表中a,b处的值为( )
A.94,96 B.52,40
C.52,59 D.59,52
C [a=73-21=52,b=a+7=52+7=59.]
3.调查男女学生购买食品时是否看出厂日期与性别有无关系时,最有说服力的是( )
【导学号:95032243】
A.期望 B.方差
C.正态分布 D.独立性检验
D [要判断两个事件是否相关时,用独立性检验.]
4.下面的等高条形图可以说明的问题是________(填序号).
图321
①“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的;
②“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同;
③此等高条形图看不出两种手术有什么不同的地方;
④“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握.
[答案] ④
[合 作 探 究·攻 重 难]
等高条形图的应用
为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
11
组别
阳性数
阴性数
总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
[解] 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
[规律方法]
1.利用等高条形图判断两个分类变量是否相关的步骤:
(1)统计:收集数据,统计结果.
(2)列表:列出2×2列联表,计算频率、粗略估计.
(3)绘图:绘制等高条形图,直观分析.
2.在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例.两个比例的值相差越大,X与Y有关系成立的可能性就越大.
[跟踪训练]
1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[解] 作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
在考前心情紧张的群体中,性格内向的约占61%,在考前心情不紧张的群体中,性格内向的约占20%.绘制相应的等高条形图如图所示:
11
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类别有关.
由K2进行独立性检验
某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则我们能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系?
物理优秀
化学优秀
总分优秀
数学优秀
228
225
267
数学非优秀
143
156
99
注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.
【导学号:95032244】
[思路探究] 首先分别列出数学成绩与物理、化学、总分的2×2列联表,再正确计算K2的观测值,然后由K2的值作出判断.
[解] (1)根据已知数据列出数学与物理优秀的2×2列联表如下:
物理优秀
物理非优秀
总计
数学优秀
228
b
360
数学非优秀
143
d
880
总计
371
b+d
1 240
∴b=360-228=132,d=880-143=737,b+d=132+737=869.
代入公式可得K2的观测值为k1≈270.114.
(2)按照上述方法列出数学与化学优秀的2×2列联表如下:
化学优秀
化学非优秀
总计
数学优秀
225
135
360
数学非优秀
156
724
880
总计
381
859
1 240
11
代入公式可得K2的观测值k2≈240.611.
综上,由于K2的观测值都大于10.828,因此说明都能在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系.
[规律方法]
1.利用K2进行独立性检验的步骤
(1)列表:列出2×2列联表.
(2)求值:求出K2的观测值k.
(3)判断:与临界值比较,得出事件有关的可能性大小作出判断.
2.独立性检验的必要性
列联表中的数据是样本数据,它只是总体的代表,它具有随机性,所以只能利用列联表的数据和等高条形图粗略判断两个分类变量是否有关系.而K2给出了不同样本容量的数据的统一评判标准.利用它能精确判断两个分类变量是否有关系的可靠程度.
[跟踪训练]
2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?
[解] 根据题目所给的数据得到如下列联表:
理科
文科
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
根据列联表中数据由公式计算得随机变量K2的观测值
k=≈1.871×10-4.
因为1.871×10-4<2.706,
所以在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.
独立性检验与统计的综合应用
[探究问题]
1.从容量为400人的中年人与容量为100人的老年人中抽出50人去体检某项健康指标,若采取分层抽样方法,应从中抽取老年人为多少人?
11
[提示] ×100=10(人).
2.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据:
总成绩好
总成绩不好
总计
数学成绩好
478
a
490
数学成绩不好
399
24
423
总计
b
c
913
你能求出a,b,c的值吗?该问题中有几个分类变量?它们的取值分别是什么?
[提示] a=12,b=877,c=36.该问题中有“总成绩”和“数学成绩”两个分类变量;“总成绩”的取值有“总成绩好”与“总成绩不好”两个值,“数学成绩”的取值也有“好”与“不好”两个值.
3.在探究2中,你认为文科学生总成绩不好与数学成绩不好有关系吗?
[提示] 由探究2计算随机变量K2的观测值:
k=≈6.233>5.024,
∵P(k≥5.024)≈0.025,
∴在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.
为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.
(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率.
(2)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85]
频数
10
25
20
30
15
完成下面2×2列联表
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
合计
注射药物A
a=
b=
注射药物B
c=
d=
合计
n=
11
[解] (1)甲、乙两只家兔分在不同组的概率为p==.
(2)2×2列联表如下.
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
合计
注射药物A
a=70
b=30
100
注射药物B
c=35
d=65
100
合计
105
95
n=200
母题探究:1.(改变问法)典例2中条件不变,改变问法:是否有99%的把握认为注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异?
[解] k=≈24.56.
由于K2>6.635,所以有99%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
2.(改变问法)在典例2(2)中完成如图322所示的频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小.
图322
[解] 如图所示
图Ⅰ 注射药物A后皮肤疱疹面积的频率分布直方图
11
图Ⅱ 注射药物B后皮肤疱疹面积的频率分布直方图
可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.
[规律方法]
1.独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.
2.近几年高考中较少单独考查独立性检验,经常与统计、概率等知识综合,频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出2×2列联表,计算K2的观测值,从而解决问题.
[跟踪训练]
3.某学生对其亲属30人的饮食进行了一次调查,并用如图323所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)
图323
(1)根据以上数据完成下列2×2列联表:
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(2)能否在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分析.
[解] (1)2×2列联表如下:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
11
(2)因为k2==10>6.635,
P(K2>6.635)=0.01,
所以可以在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关.
[当 堂 达 标·固 双 基]
1.与表格相比,能更直观地反映出相关数据总体状况的是( )
【导学号:95032245】
A.列联表 B.散点图
C.残差图 D.等高条形图
D [对于A,列联表需要计算K2的值,不是直观的分析;
对于B,散点图体现的是变量间相关性的强弱;
对于C,残差图体现预报变量与实际值之间的差距,
对于D,等高条形图能直观地反映两个分类变量是否有关系.]
2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
B [k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.]
3.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如下表所示:
死亡
存活
总计
第一种剂量
14
11
25
第二种剂量
6
19
25
总计
20
30
50
进行统计分析时的统计假设是________.
假设电离辐射的剂量与人体受损程度无关 [根据假设性检验的概念知,应“假设电离辐射的剂量与人体受损程度无关”.]
4.下列说法正确的有________(填序号).
【导学号:95032246】
①分类变量的取值仅表示个体所属的类别,它们的取值一定是离散的;
②分类变量的取值也可以用数字来表示,但这时的数字除了分类以外没有其他的含义;
③2×2列联表是两个分类变量的频数汇总统计表;
11
④2×2列联表和等高条形图都能反映出两个分类变量间是否相互影响.
①②③④ [由分类变量的定义可知①②正确;由2×2列联表的定义可知③正确;2×2列联表和等高条形图都能展示样本的频率特征,若在一个分类变量所取值的群体中,另一个分类变量所取值的频率相差较小,则说明这两个变量不相互影响,否则就相互影响.故④正确.]
5.在国家未实施西部开发战略前,一新闻单位在应届大学毕业生中随机抽取1 000人问卷,只有80人志愿加入西部建设.而国家公布实施西部开发战略后,随机抽取1 200名应届大学毕业生问卷,有400人志愿加入国家西部建设.
问:能否在犯错误的概率不超过0.001的前提下,认为实施西部开发战略的公布对应届大学毕业生的选择产生了影响?
[解] 根据题意,列出2×2列联表:
志愿者
非志愿者
总计
开发战略公布前
80
920
1 000
开发战略公布后
400
800
1 200
总计
480
1 720
2 200
由公式计算K2统计量得:
k=≈205.22.
因为205.22>10.828,因此在犯错误的概率不超过0.001的前提下认为实施西部开发战略的公布对应届大学毕业生的选择产生了影响.
11
相关文档
- 高中数学选修2-2课件1_3_3 函数的2021-06-1530页
- 吉林省长春市第十一高中2020届高三2021-06-1510页
- 高中数学:2_3《变量间的相关关系》2021-06-156页
- 2020年高中数学新教材同步必修第一2021-06-158页
- 高中数学导数知识点归纳总结及例题2021-06-1511页
- 高中数学必修3教案:1_2_2条件语句2021-06-154页
- 高中数学选修2-2课件定积分的应用2021-06-156页
- 2012高中数学人教A版必修3综合测试2021-06-155页
- 2020年高中数学 第二章 解三角形正2021-06-155页
- 高中数学:第1章《算法初步》单元测2021-06-157页