- 602.50 KB
- 2021-07-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
3.2
独立性检验的基本思想
及初步应用
(1)
问题
:
数学家庞加莱每天都从一家面包店买一块
1000g
的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为
950g
。于是庞加莱推断这家面包店的面包分量不足。
假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于
1000g
;
“这个平均值不大于
950g”
是一个与假设“面包分量足”矛盾的小概率事件;
这个小概率事件的发生使庞加莱得出推断结果。
一
:
假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中一个
叫做原假设,用
H
0
表示;另一个叫做备择假设,用
H
1
表示。
例如,在前面的例子中,
原假设
为:
H
0
:面包分量足,
备择假设
为
H
1
:面包分量不足。
这个假设检验问题可以表达为:
H
0
:面包分量足 ←→
H
1
:面包分量不足
二
:
求解假设检验问题
考虑假设检验问题:
H
0
:面包分量足 ←→
H
1
:面包分量不足
在
H
0
成立的条件下,构造与
H
0
矛盾的小概率事件;
如果样本使得这个小概率事件发生,就能以一定把握断言
H
1
成立;否则,断言没有发现样本数据与
H
0
相矛盾的证据。
求解思路:
三
:
二个概念
这种变量的不同取
“
值
”
表示个体所属的不同类别,这类变量称为
分类变量
1.
分类变量
对于性别变量,取值为:男、女
分类变量
在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。
利用随机变量
K
2
来确定在多大程度上可以认为
”
两个分类变量有关系
”
的方法称为
两个分类变量的独立性检验
.(
为假设检验的特例
)
吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
问题
:
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了
9965
人,得到如下结果(单位:人)
列联表
在不吸烟者中患肺癌的比重是
在吸烟者中患肺癌的比重是
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大
0.54%
2.28%
1)
通过图形直观判断两个分类变量是否相关:
三维柱状图
2)
通过图形直观判断两个分类变量是否相关:
二维条形图
3)
通过图形直观判断两个分类变量是否相关:
患肺癌
比例
不患肺癌
比例
独立性检验
H
0
:
吸烟
和
患肺癌
之间没有关系
←→
H
1
:
吸烟
和
患肺癌
之间有关系
通过数据和图表分析,得到结论是:
吸烟与患肺癌有关
结论的可靠程度如何?
用
A
表示
“
不吸烟
”
,
B
表示
“
不患肺癌
”
则
H
0
:
吸烟
和
患肺癌
之间没有关系
“
吸烟
”
与
“
患肺癌
”
独立
,
即
A
与
B
独立
等价于
等价于
吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
独立性检验
引入一个随机变量
作为检验在多大程度上可以认为
“
两个变量有关系
”
的标准 。
1)
如果
P(
m
>10.828)= 0.001
表示有
99.9%
的把握认为
”
X
与
Y
”
有关系
;
2)
如果
P(m>7.879)= 0.005
表示有
99.5%
的把握认为
”
X
与
Y
”
有关系
;
3)
如果
P(m>6.635)= 0.01
表示有
99%
的把握认为
”
X
与
Y
”
有关系
;
4)
如果
P(m>5.024)= 0.025
表示有
97.5%
的把握认为
”
X
与
Y
”
有关系
;
5)
如果
P(m>3.841)= 0.05
表示有
95%
的把握认为
”
X
与
Y
”
有关系
;
6)
如果
P(m>2.706)= 0.010
表示有
90%
的把握认为
”
X
与
Y
”
有关系
;
7)
如果
m
≤
2.706),
就认为没有充分的证据显示
”
X
与
Y
”
有关系
;
设有两个分类变量
X
和
Y
它们的值域分别为
{x
1
,x
2
}
和
{y
1
,y
2
}
其样本频数列表
(
称为
2×2
列联表
)
为
y
1
y
2
总计
x
1
a
b
a+b
x
2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2×2
列联表
适用观测数据
a
、
b
、
c
、
d
不小于
5
独立性检验
吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
通过公式计算
独立性检验
已知在 成立的情况下,
即在 成立的情况下,
K
2
大于
6.635
概率非常小,近似为
0.01
现在的
K
2
=56.632
的观测值远大于
6.635
分类变量之间关系
条形图
柱形图
列联表
独立性检验
背景分析
例
1.
在某医院
,
因为患心脏病而住院的
665
名男性病人中
,
有
214
人秃顶
,
而另外
772
名不是因为患心脏病而住院的男性病人中有
175
人秃顶
.
分别利用图形和独立性检验方法判断是否有关
?
你所得的结论在什么范围内有效
?
例
2
.
为考察高中生性别与是否喜欢数学课程之间的关系
,
在某城市的某校高中生中随机抽取
300
名学生
,
得到如下列联表
:
性别与喜欢数学课程列联表
喜欢数学课程
不喜欢数学课程
总计
男
37
85
122
女
35
143
178
总计
72
228
300
由表中数据计算得
,
高中生的性别与是否喜欢数学课程之间是否有关系
?
为什么
?
a
c
d
b
解
:P
111
独立性检验基本的思想类似
反证法
(
1)
假设结论不成立
,
即
“
两个分类变量没有关系
”
.
(2)
在此假设下随机变量
K
2
应该很能小
,
如果由观测数据
计算得到
K
2
的观测值
k
很大
,
则在一定程度上说明假设
不合理
.
(3)
根据随机变量
K
2
的含义
,
可以通过
评价该假设不合理的程度
,
由实际计算出的
,
说明假设合理的程度为
99.9%,
即
“
两个分类变量有关系
”
这一结论成立的可信度为约为
99.9%.