- 314.00 KB
- 2021-05-14 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第10讲 独立性检验与回归分析[
学习目标
【目标分解一】回归分析
【目标分解二】独立性检验.
重点
回归分析
【课前自主复习区】
■核心知识储备
提炼1 变量的相关性
(1)正相关:在散点图中,点散布在从左下角到右上角的区域.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域.
(3)相关系数r:当r>0时,两变量正相关;当r<0时,两变量负相关;当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低.
提炼2 线性回归方程
方程=x+称为线性回归方程,其中= ,=-.回归直线恒过样本中心(,).
提炼3 独立性检验
(1)确定分类变量,获取样本频数,得到2×2列联表.
(2)求观测值:k=.
(3)根据临界值表,作出正确判断.如果k≥kα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”.
[高考真题回访]
1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
2.(2012·全国卷)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
3.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30
8
min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=
【课堂互动探究区】
【目标分解一】回归分析
8
题型分析:高考命题常以实际生活为背景,重在考查回归分析中散点图的作用、回归方程的求法和应用,难度中等.
【例1】 在一次抽样调查中测得样本的5组数据,得到一个变量y关于x的回归方程模型,其对应的数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
(1)试作出散点图,根据散点图判断,y=a+bx与y=+m哪一个适宜作为变量y关于x的回归方程模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立变量y关于x的回归方程;
(3)根据(2)中所求的变量y关于x的回归方程预测:当x=3时,对应的y值为多少?(保留四位有效数字)
【我会做】
二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y
8
(单位:万元/辆)进行整理,得到如
下数据:
使用年数x
2
3
4
5
6
7
售价y
20
12
8
6.4
4.4
3
z=ln y
3.00
2.48
2.08
1.86
1.48
1.10
右面是z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;
(2)求y关于x的回归方程,并预测某辆A型号二手车当使用年数为9年时售价约为多少;(,小数点后保留两位数字)
(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.
参考公式:==,=- ,
r=.
参考数据:
xiyi=187.4,xizi=47.64,x=139,=4.18,
=13.96,=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.
【目标分解二】独立性检验
题型分析:尽管全国卷Ⅰ在近几年未在该点命题,但其极易与分层抽样、古典概型等知识交汇,是潜在的命题点之一,需引起足够的重视.
8
【例2】全世界越来越关注环境保护问题,某监测站点n天监测空气质量指数(AQI),数据统计如下:
空气质量指数(μg/m3)
0﹣50
51﹣100
101﹣150
151﹣200
201﹣250
空气质量等级
空气优
空气良
轻度污染
中度污染
严重污染
天数
20
40
m
5
10
(1)根据所给统计表和频率分布直方图中的信息求出n,m的值,并完成頻率分布直方图:
(2)由頻率分布直方图,求该组数据的平均数与中位数;
(3)在空气质量指数分别为51﹣100和201﹣250的监测数据中,用分层抽样的方法抽取5天,从中任意选取2天,求事件A“两天空气都为良”发生的概率.
(4)记某企业每天因为空气污染造成的经济损失为S(单位:元),设AQI指数为x.当x在区间[0,100]上时,对企业没有造成经济损失;当x在区间(100,250]上时,对企业造成的经济损失与x成线线关系(当AQI指数为150时,造成的经济损失为1100元,当AQI为200时,造成的经济损失为1400元);试写出S(x)的表达式;
(5)试估计在本年内随机抽取1天,该企业当天的经济损失S大于1100元且不超过1700元的概率;
(6)若本次抽取的样本数据有30天是在供暖季,这30天中有8天为严重污染,完成下面的2×2列联表,并判断是否有99%以上的把握认为该市本年度空气严重污染与供暖有关.
8
【我会做】
8
(2017·兰州三模)随着手机的发展,“微信”逐渐成为人们交流的一种形式.某机构对“使用微信交流”的态度进行调查,随机抽取了50人,他们年龄的频数分布及对“使用微信交流”赞成人数如下表.
年龄
(单位:岁)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
频数
5
10
15
10
5
5
赞成人数
5
10
12
7
2
1
(1)若以“年龄45岁为分界点”,由以上统计数据完成下面2×2列联表,并判断是否有99%的把握认为“使用微信交流”的态度与人的年龄有关;
年龄不低于45岁的人数
年龄低于45岁的人数
合计
赞成
不赞成
合计
(2)若从年龄在[55,65)的被调查人中随机选取2人进行追踪调查,求2人中至少有1人不赞成“使用微信交流”的概率.
参考数据:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
★【我能做对】
8
(2017·长沙二模)某学校的特长班有50名学生,其中有体育生20名,艺术生30名,在学校组织的一次体检中,该班所有学生进行了心率测试,心率全部介于50次/分到75次/分之间,现将数据分成五组,第一组[50,55),第二组[55,60),……,第五组[70,75],按上述分组方法得到的频率分布直方图如图所示,已知图中从左到右的前三组的频率之比为a∶4∶10.
(1)求a的值,并求这50名学生心率的平均值;
(2)因为学习专业的原因,体育生常年进行系统的身体锻炼,艺术生则很少进行系统的身体锻炼,若从第一组和第二组的学生中随机抽取1名,该学生是体育生的概率为0.8,请将下面的列联表补充完整,并判断是否有99.5%的把握认为心率小于60次/分与常年进行系统的身体锻炼有关?说明你的理由.
心率小于60次/分
心率不小于60次/分
合计
体育生
20
艺术生
30
合计
50
参考数据:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
8