- 340.50 KB
- 2021-06-15 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
学案59 统计案例
导学目标: 1.了解回归分析的基本思想、方法及其简单应用.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.
自主梳理
1.回归分析
(1)回归直线
一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的截距和斜率的最小二乘估计分别为
=__________________________, =______________________________________,
其中=____________________,=_____________________________________,
________________称为样本点的中心.
(2)相关系数r
①r=;
②当r>0时,表明两个变量________;
当r<0时,表明两个变量________.
r的绝对值越接近于1,表明两个变量的线性__________;r的绝对值越接近于0时,表明两个变量之间________________________________.通常,当r的绝对值大于________时认为两个变量有很强的线性相关关系.
2.独立性检验
(1)列联表:列出的两个分类变量的________,称为列联表.
(2)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=________________________________,其中n=__________为样本容量.
(3)独立性检验
利用随机变量________来判断“两个分类变量________”的方法称为独立性检验.
自我检测
1.对有线性相关关系的两个变量建立的回归直线方程 = + x中,回归系数 ( )
A.可以小于0 B.小于0
C.能等于0 D.只能等于0
2.(2011·天津模拟)下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
3.如果有95%的把握说事件A和B有关系,那么具体计算出的数据( )
A.K2>3.841 B.K2<3.841
C.K2>6.635 D.K2<6.635
4.(2011·绍兴月考)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
专业
性别
非统计专业
统计专业
男
26
20
女
14
40
则可判断约有________的把握认为“主修统计专业与性别之间有关系”.
探究点一 独立性检验
例1 (2011·湛江模拟)利用统计变量K2的观测值来判断两个分类变量之间的关系的可信程度.
考察小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示
种子灭菌
种子未灭菌
合计
黑穗病
26
184
210
无黑穗病
50
200
250
合计
76
384
460
试按照原试验目的作统计分析推断.
变式迁移1 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.
探究点二 线性回归分析
例2 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
零件数x (个)
10
20
30
40
50
60
70
80
90
100
加工时间y(分)
62
68
75
81
89
95
102
108
115
122
(1)y与x是否具有线性相关关系?
(2)如果y与x具有线性相关关系,求回归直线方程;
(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少?
变式迁移2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
(1)对变量y与x进行相关性检验;
(2)如果y与x有线性相关关系,求回归直线方程.
探究点三 综合应用
例3 (2010·辽宁)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
频数
10
25
20
30
15
完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
表3:
疱疹面积
小于70 mm2
疱疹面积
不小于70 mm2
合计
注射药物A
a=
b=
注射药物B
c=
d=
合计
n=
附:K2=.
变式迁移3 某市对该市一重点中学2010年高考上线情况进行统计,随机抽查244名学生,得到如下表格:
语文
数学
英语
综合科目
上线
不上线
上线
不上线
上线
不上线
上线
不上线
总分上线201人
174
27
178
23
176
25
175
26
总分不上线43人
30
13
23
20
24
19
26
17
总计
204
40
201
43
200
44
201
43
试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大?
1.回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.
2.利用图形来判断两个变量之间是否有关系,可以画出二维条形图,但从图形上只可以粗略地估计两个分类变量的关系,还要结合所求的数值来进行比较.作图应注意单位统一、图形准确,但它不能给出我们两个分类变量有关或无关的精确的可信程度,若要作出精确的判断,可以作独立性检验的有关计算.
(满分:75分)
一、选择题(每小题5分,共25分)
1.对于独立性检验,下列说法中错误的是( )
A.K2的值越大,说明两事件相关程度越大
B.K2的值越小,说明两事件相关程度越小
C.K2≤3.841时,有95%的把握说事件A与B无关
D.K2>6.635时,有99%的把握说事件A与B有关
2.下列说法中正确的有:①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个点均在一条直线上( )
A.①② B.②③ C.①③ D.①②③
3.(2011·天津汉沽一中月考)甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
115
106
124
103
则哪位同学的试验结果体现A、B两变量更强的线性相关性?( )
A.甲 B.乙 C.丙 D.丁
4.下列命题中正确的个数为( )
①线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱;
②残差平方和越小的模型,模型拟合的效果越好;
③用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好.
A.1 B.2 C.3 D.0
5.(2010·济南模拟)有两个分类变量x,y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表如下:
y1
y2
总计
x1
132
18
150
x2
114
36
150
总计
246
54
300
则两个分类变量x和y有关系的可信度为( )
A.95% B.97.5%
C.99% D.99.5%
二、填空题(每小题4分,共12分)
6.为了判断高中三年级学生是否选修文科与性别有关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2=≈4.844.
则认为选修文科与性别有关系出错的可能性为______.
7.(2011·银川模拟)下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②设有一个回归方程 =3-5x,变量x增加一个单位时,y平均增加5个单位;
③线性回归方程 = x+ 必过点(,);
④曲线上的点与该点的坐标之间具有相关关系;
⑤在一个2×2列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是90%.
其中错误的命题是________.
8.若两个分类变量x和y的列联表为:
y1
y2
x1
5
15
x2
40
10
则x与y之间有关系的概率约为________.
三、解答题(共38分)
9.(12分)在一次飞机航程中调查男女乘客的晕机情况,其2×2列联表如下,试判断晕机与性别是否有关?
晕机
不晕机
合计
男
10
70
80
女
10
20
30
合计
20
90
110
10.(12分)(2011·武汉模拟)为了考察某种药物预防疾病的效果,进行动物实验,得到如下的列联表
患病
未患病
总计
服用药
10
45
55
没服用药
20
30
50
总计
30
75
105
请问能有多大把握认为药物有效?
11.(14分)(2010·全国)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例.
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.
K2=
学案59 统计案例
自主梳理
1.(1)- xi yi (,) (2)②正相关 负相关 相关性越强 几乎不存在线性相关关系 0.75 2.(1)频数表
(2) a+b+c+d (3)K2 有关系
自我检测
1.A [ =0时,得r=0,这时不具有线性相关关系,但 能大于0,也能小于0.]
2.C [∵a+21=73,∴a=52.又a+22=b,
∴b=74.]
3.A [比较K2的值和临界值的大小,有95%的把握则K2>3.841,K2>6.635约有99%的把握.]
4.99.5%
解析 因为K2=≈9.689>7.879,
所以有99.5%的把握认为“主修统计专业与性别之间有关系”.
课堂活动区
例1 解题导引 利用已知条件来判断两个分类变量是否具有关系,可以先假设两个变量之间有关系,再计算K2的值,K2的值越大说明两个变量间有关系的可能性越大,再参考临界值,从而判断两个变量有关系的可信程度.
解 由列联表知:a=26,b=184,c=50,d=200.
∴a+b=210,c+d=250,a+c=76,
b+d=384,n=a+b+c+d=460.
∴K2=
=≈4.804.
∵K2≈4.804>3.841.
∴有95%的把握认为种子灭菌与否与小麦发生黑穗病是有关系的.
变式迁移1 解 假设做过心脏搭桥手术与又发作心脏病没有关系.
由于a=39,b=157,c=29,d=167,a+b=196,
c+d=196,a+c=68,b+d=324,n=392,
由公式可得K2的观测值为
k=
=≈1.78,
因为k≈1.78<2.706,所以我们没有理由说心脏搭桥手术与又发作心脏病有关系.
例2 解题导引 这是一个回归分析问题,应先进行线性相关检验或作散点图来判断x与y是否线性相关,如果线性相关,才可以求解后面的问题,否则就使得求回归直线方程没有意义,要作相关性检验,应先利用r=求出样本相关系数r.利用当r>0时,两个变量正相关,当r<0时,两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强,r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常当|r|大于0.75时,认为两个变量有很强的线性相关关系,因而求回归直线方程才有意义.
解 (1)列出下表
i
1
2
3
4
5
6
7
8
9
10
xi
10
20
30
40
50
60
70
80
90
100
yi
62
68
75
81
89
95
102
108
115
122
xiyi
620
1360
2250
3240
4450
5700
7140
8640
10350
12200
=55,=91.7,
x=38 500,y=87 777,xiyi=55 950,
因此r=
=
≈0.999 8,
由于r=0.999 8>0.75,因此x与y之间有很强的线性相关关系.
(2)设所求的回归直线方程为=x+ 则有
==≈0.668.
=-=91.7-0.668×55=54.96.
因此,所求的回归直线方程为 =0.668x+54.96.
(3)当x=200时,y的估计值为
=0.668×200+54.96=188.56≈189,
因此,加工200个零件所用的工时约为189分.
变式迁移2 解 (1)=12.5,=8.25,
xiyi=438,4 =412.5,
x=660,y=291,
所以r=
=
=≈≈0.995 3.
因为r>0.75,
所以y与x有很强的线性相关关系.
(2)由(1)知:=
=≈0.7286, =-=-0.8575.
∴回归直线方程为=0.728 6x-0.857 5.
例3 解题导引 分类变量的独立性检验是建立在2×
2列联表基础之上的,因而根据题目提示的分类标准设计2×2列联表是独立性检验的关键所在.
解 列联表如下:
疱疹面积
小于70 mm2
疱疹面积
不小于70 mm2
合计
注射药物A
a=70
b=30
100
注射药物B
c=35
d=65
100
合计
105
95
n=200
K2=≈24.56.
由于K2>10.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
变式迁移3 解 对于上述四个科目,分别构造四个随机变量K,K,K,K.
由表中数据可以得到
语文:k1=
≈7.294>6.635,
数学:k2=
≈30.008>10.828,
英语:k3=
≈24.155>10.828,
综合科目:
k4=
≈17.264>10.828,
所以,有99%的把握认为语文上线与总分上线有关系,有99.9%的把握认为数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.
课后练习区
1.C [在独立性检验中,随机变量K2的取值大小可说明两个变量关系的程度.一般地随机变量K2的值越大,两变量的相关程度越大,反之就越小.K2>6.635说明有99%的把握认为二者有关系.]
2.C [若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确.r<0,表示两个变量负相关,x增大时,y相应减小,故②错误.|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.]
3.D [因为r>0且丁最接近1,残差平方和最小,所以丁相关性最高.]
4.A [①r有正负,应为|r|越大,相关性越强;
②正确;
③R2越大,拟合效果越好.]
5.C [由公式得K2=≈7.317,
因为7.317>6.635,所以我们有99%的把握认为两个分类变量x与y有关系.]
6.5%
解析 ∵K2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
7.②④⑤
解析 根据方差的计算公式,可知①正确;由线性回归方程的定义及最小二乘法的思想,知③正确,②④⑤不正确.
8.0.999
解析 K2=
≈18.822,查表知P(K2≥10.828)≈0.001,
∴x与y之间有关系的概率约为1-0.001=0.999.
9.解 K2=≈6.366>5.024,
(5分)
故有97.5%的把握认为“晕机与性别有关”.(12分)
10.解 a=10,b=45,c=20,d=30,
a+b=55,c+d=50,a+c=30,b+d=75,n=105,(2分)
K2=(4分)
=≈6.11,(8分)
因为K2=6.11>5.024,从而有97.5%的把握认为药物有效.(12分)
11.解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为×100%=14%.(4分)
(2)K2=≈9.967.
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(10分)
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.(14分)