- 2.79 MB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第3节 变量间的相关关系与统计案例
[
考纲展示
]
1.
会作两个有关联变量的数据的散点图
,
并利用散点图认识变量间的相关关系
.
2.
了解最小二乘法的思想
,
能根据给出的线性回归方程系
数公式建立线性回归方程
(
线性回归方程系数公式不要求记忆
).
3.
了解回归分析的思想、方法及其简单应用
.
4.
了解独立性检验的思想、方法及其初步应用
.
知识链条完善
考点专项突破
知识链条完善
把散落的知识连起来
知识梳理
1.
变量间的相关关系
(1)
常见的两变量之间的关系有两类
:
一类是函数关系
,
另一类是相关关系
;
与函数关系不同
,
相关关系是一种非确定性关系
.
(2)
从散点图上看
,
点分布在从左下角到右上角的区域内
,
两个变量的这种相关关系称为正相关
,
点分布在左上角到右下角的区域内
,
两个变量的这种相关关系为负相关
.
2.回归方程与回归分析
(1)线性相关关系与回归直线
如果散点图中点的分布从整体上看大致在
附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程
①最小二乘法:使得样本数据的点到回归直线的
最小的方法叫做最小二乘法.
一条直线
距离的平方和
(3)
回归分析
①定义
:
对具有
的两个变量进行统计分析的一种常用方法
.
相关关系
负
越强
越弱
3.
独立性检验
(1)
独立性检验的有关概念
①分类变量
可用变量的不同
“
值
”
表示个体所属的
的变量称为分类变量
.
②2×2
列联表
假设有两个分类变量
X
和
Y,
它们的取值分别为
{x
1
,x
2
}
和
{y
1
,y
2
},
其样本频数列联表
(
称为
2×2
列联表
)
为
y
1
y
2
总计
X
1
a
b
a+b
x
2
c
d
c+d
总计
a+c
b+d
a+b+c+d
不同类别
P(K
2
≥k
0
)
0.50
0.40
0.25
0.15
0.10
k
0
0.455
0.708
1.323
2.072
2.706
P(K
2
≥k
0
)
0.05
0.025
0.010
0.005
0.001
k
0
3.841
5.024
6.635
7.879
10.828
②
如果
k≥k
0
,
就推断
“
X
与
Y
有关系
”
,
这种推断犯错误的概率不超过
P(K
2
≥k
0
);
否则
,
就认为在犯错误的概率不超过
P(K
2
≥k
0
)
的前提下不能推断
“
X
与
Y
有关系
”
.
【重要结论】
1.线性回归直线的斜率为正(负)时,两个变量正(负)相关.
2.
线性回归直线一定经过样本点的中心
.
对点自测
1.
下面四个散点图中点的分布状态
,
可以直观上判断两个变量之间具有线性相关关系的是
(
)
(A)①② (B)③ (C)②③ (D)②③④
B
解析:
散点图①中的点无规律分布,范围很广,表明两个变量之间的相关程度很小;②中所有的点都在同一条直线上,是函数关系;③中点的分布在一条带状区域上,即点分布在一条直线的附近,是线性相关关系;④中的点也分布在一条带状区域内,但不是线性的,而是一条曲线附近,所以不是线性相关关系.故选B.
C
解析:
变量x与y负相关,则AB选项错误,回归直线过样本点的中心,当x=2时,
-2x+5.5=-2×2+5.5=1.5符合题意,
-0.4x+3.3=-0.4×2+3.3=2.5≠1.5,不合题意.故选C.
3.
下面是
2×2
列联表
:
则表中
a,b
的值分别为
(
)
(A)94,72 (B)52,50
(C)52,74 (D)74,52
C
解析:
因为a+21=73,所以a=52,又a+22=b,所以b=74.故选C.
y
1
y
2
总计
x
1
a
21
73
x
2
22
25
47
总计
b
46
120
4.(
人教
A
版教材习题改编
)
为研究吸烟是否对患肺癌有影响
,
某肿瘤研究所随机地调查了
9 965
人
,
得出如下结果
(
单位
:
人
):
则患肺癌与吸烟
(
填“有关”或“无关”
)
不患肺癌
患肺癌
总计
不吸烟
7 775
42
7 817
吸烟
2 099
49
2 148
总计
9 874
91
9 965
答案
:
有关
5.
下列各命题正确的序号为
.
(1)
相关关系与函数关系都是一种确定性的关系
,
也是一种因果关系
.
(2)
“
名师出高徒
”
可以解释为教师的教学水平与学生的水平成正相关关系
.
(3)
只有两个变量有相关关系
,
所得到的回归模型才有预测价值
.
(4)
某同学研究卖出的热饮杯数
y
与气温
x(℃)
之间的关系
,
得回归方程
=-2.352x+ 147.767,
则气温为
2 ℃
时
,
一定可卖出
143
杯热饮
.
(5)
事件
X,Y
关系越密切
,
则由观测数据计算得到的
K
2
的观测值越大
.
(6)
由独立性检验可知
,
有
99%
的把握认为物理成绩优秀与数学成绩有关
,
某人数学成绩优秀
,
则他有
99%
的可能物理优秀
.
答案
:
(2)(3)(5)
考点专项突破
在讲练中理解知识
解析:
完全的线性关系,且为负相关,故其相关系数为-1.故选A.
两个具有相关关系的变量之间
,
可以从散点图直观看出是否具有较好的线性相关关系
,
定量的方法就是计算相关系数
,
相关系数的绝对值越接近
1,
其线性相关关系越强
.
反思归纳
【
跟踪训练
1】
已知变量
x
和
y
满足关系
y=-0.1x+1,
变量
y
与
z
正相关
.
下列结论中正确的是
(
)
(A)x
与
y
正相关
,x
与
z
负相关
(B)x
与
y
正相关
,x
与
z
正相关
(C)x
与
y
负相关
,x
与
z
负相关
(D)x
与
y
负相关
,x
与
z
正相关
解析:
由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C.
考点二 回归分析
(
多维探究
)
考查角度
1:
线性回归分析
【
例
2】
(
2017
·
全国
Ⅰ
卷
)
为了监控某种零件的一条生产线的生产过程
,
检验员每隔
30 min
从该生产线上随机抽取一个零件
,
并测量其尺寸
(
单位
:cm).
下面是检验员在一天内依次抽取的
16
个零件的尺寸
:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
反思归纳
(1)
在分析实际中两个变量的相关关系时
,
可根据样本数据作出散点图来确定两个变量之间是否具有相关关系
,
也可计算相关系数
r
进行判断
.
若具有线性相关关系
,
则可通过线性回归方程估计和预测变量的值
.
【
跟踪训练
2】
(
2016
·
全国
Ⅲ
卷
)
如图是我国
2008
年至
2014
年生活垃圾无害化处理量
(
单位
:
亿吨
)
的折线图
.
(1)
由折线图看出
,
可用线性回归模型拟合
y
与
t
的关系
,
请用相关系数加以说明
;
考查角度2:非线性回归分析
【例3】
噪声污染已经成为影响人们身体健康和生活质量的严重问题.为了了解声音强度D与声音能量I之间的关系,将测量得到的声音强度D
i
和声音能量I
i
(i=1,2,…,10)数据做初步处理,得到下面的散点图及一些统计量的值.
反思归纳
非线性回归分析问题的处理方法
(1)
描点
,
选模
.
画出已知数据的散点图
,
把它与已经学过的各种函数
(
幂函数、指数函数、对数函数等
)
图象作比较
,
挑选一种跟这些散点拟合最好的函数
.
(2)
解模
.
先对变量进行适当地变换
,
再利用线性回归模型来解模
.
(3)
比较检验
.
通过回归分析比较所建模型的优劣
.
考查角度
3:
与相关系数及相关指数
R
有关的问题
【
例
4】
某电视厂家准备在元旦举行促销活动
,
现根据近七年的广告费与销售量的数据确定此次广告费支出
.
广告费支出
x(
万元
)
和销售量
y(
万台
)
的数据如下
:
年份
2011
2012
2013
2014
2015
2016
2017
广告费
支出
x
1
2
4
6
11
13
19
销售
量
y
1.9
3.2
4.0
4.4
5.2
5.3
5.4
(1)
若用线性回归模型拟合
y
与
x
的关系
,
求出
y
关于
x
的线性回归方程
;
(2)
若用
y=c+d
模型拟合
y
与
x
的关系
,
可得回归方程
=1.63+0.99,
经计算线性回归模型和该模型的
R
2
分别约为
0.75
和
0.88,
请用
R
2
说明选择哪个回归模型更好
;
反思归纳
【
跟踪训练
3】
某基地蔬菜大棚采用无土栽培方式种植各类蔬菜
.
根据过去
50
周的资料显示
,
该基地周光照量
X(
小时
)
都在
30
小时以上
,
其中不足
50
小时的有
5
周
,
不低于
50
小时且不超过
70
小时的有
35
周
,
超过
70
小时的有
10
周
.
根据统计
,
该基地的西红柿增加量
y(
千克
)
与使用某种液体肥料的质量
x(
千克
)
之间的关系如图所示
.
(1)
依据图
,
是否可用线性回归模型拟合
y
与
x
的关系
?
请计算相关系数
r
并加以说明
(
精确到
0.01).(
若
|r|>0.75,
则线性相关程度很高
,
可用线性回归模型拟合
)
(2)
蔬菜大棚对光照要求较大
,
某光照控制仪商家为该基地提供了部分光照控制仪
,
但每周光照控制仪运行台数受周光照量
X
限制
,
并有如下关系
:
周光照量
X
(
单位
:
小时
)
3070
光照控制仪
运行台数
3
2
1
若某台光照控制仪运行
,
则该台光照控制仪周利润为
3 000
元
;
若某台光照控制仪未运行
,
则该台光照控制仪周亏损
1 000
元
.
以频率作为概率
,
商家欲使周总利润的均值达到最大
,
应安装光照控制仪多少台
?
Y
2 000
6 000
P
0.2
0.8
所以
E(Y)=2 000×0.2+6 000×0.8=5 200(
元
).
所以
E(Y)=1 000×0.2+5 000×0.7+9 000×0.1=4 600(
元
).
综上可知
,
为使商家周总利润的均值达到最大
,
应该安装
2
台光照控制仪
.
Y
1 000
5 000
9 000
P
0.2
0.7
0.1
考点三 独立性检验
【例5】
(
2018
·
全国Ⅲ卷
)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了茎叶图:
(1)
根据茎叶图判断哪种生产方式的效率更高
?
并说明理由
;
解
:
(1)
第二种生产方式的效率更高
.
理由如下
:
①
由题中茎叶图可知
:
用第一种生产方式的工人中
,
有
75%
的工人完成生产任务所需时间至少
80
分钟
,
用第二种生产方式的工人中
,
有
75%
的工人完成生产任务所需时间至多
79
分钟
.
因此第二种生产方式的效率更高
.
②由题中茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
③由题中茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
④由题中茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可)
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过
m
不超过
m
第一种生产方式
第二种生产方式
P(K
2
≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
反思归纳
(1)在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
①根据样本数据制成2×2列联表
③比较
k
与临界值的大小关系
,
作统计推断
.
【
跟踪训练
4】
(
2017
·
全国
Ⅱ
卷
)
海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比
,
收获时各随机抽取了
100
个网箱
,
测量各箱水产品的产量
(
单位
:kg),
其频率分布直方图如下
:
(1)
设两种养殖方法的箱产量相互独立
,
记
A
表示事件
“
旧养殖法的箱产量低于
50 kg,
新养殖法的箱产量不低于
50 kg
”
,
估计
A
的概率
;
解
:
(1)
记
B
表示事件
“
旧养殖法的箱产量低于
50 kg
”
,C
表示事件
“
新养殖法的箱产量不低于
50 kg
”
.
由题意知
P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于
50 kg
的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故
P(B)
的估计值为
0.62.
新养殖法的箱产量不低于
50 kg
的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故
P(C)
的估计值为
0.66.
因此
,
事件
A
的概率估计值为
0.62×0.66=0.409 2.
(2)
填写下面列联表
,
并根据列联表判断是否有
99%
的把握认为箱产量与养殖方法有关
:
箱产量
<50 kg
箱产量≥
50 kg
旧养殖法
新养殖法
解
:
(2)
根据箱产量的频率分布直方图得列联表
箱产量
<50 kg
箱产量≥
50 kg
旧养殖法
62
38
新养殖法
34
66
(3)
根据箱产量的频率分布直方图
,
求新养殖法箱产量的中位数的估计值
(
精确到
0.01).
附
:
,
P(K
2
≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
备选例题
【
例
1】
某公司为了准确地把握市场
,
做好产品生产计划
,
对过去四年的数据进行整理得到了第
x
年与年销量
y(
单位
:
万件
)
之间的关系如表
:
x
1
2
3
4
y
12
28
42
56
(1)
在图中画出表中数据的散点图
;
解
:
(1)
作出散点图如图
.
(2)
根据
(1)
中的散点图拟合
y
与
x
的回归模型
,
并用相关程度说明
;
(3)
建立
y
关于
x
的回归方程
,
预测第
5
年的销售量约为多少
?
附注
:
参考数据
:
(1)
若要调查该公司使用微信的员工经常使用微信与年龄的关系
,
列出
2×2
列联表
;
青年人
中年人
总计
经常使用微信
不经常使用微信
总计
相关文档
- 高考数学二轮复习课件:第二编 专题2021-06-1588页
- 高考数学二轮复习课件:第二编 专题2021-06-15105页
- 高考数学二轮复习课件:基础保分强化2021-06-1529页
- 高考数学二轮复习课件:第二编 专题2021-06-1584页
- 高考数学二轮复习课件:第二编 专题2021-06-1587页
- 高考数学二轮复习课件:第二编 专题2021-06-15115页
- 高考数学二轮复习课件:第二编 专题2021-06-1580页
- 高考数学二轮复习课件:仿真模拟卷二2021-06-1166页
- 高考数学二轮复习课件:仿真模拟卷三2021-06-1165页
- 高考数学二轮复习课件:第二编 专题2021-06-10104页