- 311.96 KB
- 2021-06-23 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
11.5
变量间的相关关系、统计案例
高考理数
考点一 变量间的相关关系
考点清单
考向基础
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.
与函数关系不同,
相关关系是一种非确定性关系.
(2)在散点图中,若点散布在从左下角到右上角的区域内,两个变量的这种
相关关系称为
正相关
;若点散布在左上角到右下角的区域内,两个变量的相
关关系称为
负相关
.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一
条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归直线方程
①最小二乘法:通过求
Q
=
(
y
i
-
bx
i
-
a
)
2
的最小值而得到回归直线的方法,即
使得样本数据的点到回归直线的距离的平方和最小的方法叫做
最小二乘
法
.
②回归方程:方程
=
x
+
是两个具有线性相关关系的变量的一组数据(
x
1
,
y
1
),(
x
2
,
y
2
),
…
,(
x
n
,
y
n
)的回归方程,其中
,
是待定参数.
其中
=
(3)相关系数
r
②当
r
>0时,表明两个变量
正相关
;
当
r
<0时,表明两个变量
负相关
.
r
的绝对值越接近于1,表明两个变量的线性相关性越强;
r
的绝对值越接近
于0,表明两个变量之间几乎不存在线性相关关系.当
r
的绝对值大于0.75时,
认为两个变量有很强的线性相关关系.
考向突破
考向 线性回归方程的求解与运用
例
(2019广东深圳一模,4)已知某产品的销售额
y
(万元)与广告费用
x
(万
元)之间的关系如下表:
若求得其线性回归方程为
=6.5
x
+
,则预计当广告费用为6万元时的
销售额为
( )
A.42万元 B.45万元 C.48万元 D.51万元
x
(万元)
0
1
2
3
4
y
(万元)
10
15
20
30
35
解析
由题意得
=
=2,
=
=22,∵
=6.5
x
+
,
∴
=22-6.5
×
2=9,则
=6.5
x
+9,当
x
=6时,
=6.5
×
6+9=48.故选C.
答案
C
考点二 独立性检验
考向基础
1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量
X
和
Y
,它们的可能取值分别为{
x
1
,
x
2
}和{
y
1
,
y
2
},其样本频数列联表(称为2
×
2列
联表)为:
可构造一个随机变量
K
2
=
,其中
n
=
a
+
b
+
c
+
d
为样本容量.
y
1
y
2
总计
x
1
a
b
a
+
b
x
2
c
d
c
+
d
总计
a
+
c
b
+
d
a
+
b
+
c
+
d
3.独立性检验
利用独立性假设、随机变量
K
2
来确定是否有一定把握认为“两个分类变
量有关系”的方法称为两个分类变量的独立性检验.
两个分类变量
X
和
Y
是否有关系的判断标准:
统计学研究表明:当
K
2
≤
3.841时,认为
X
与
Y
无关;
当
K
2
>3.841时,有95%的把握说
X
与
Y
有关;
当
K
2
>6.635时,有99%的把握说
X
与
Y
有关;
当
K
2
>10.828时,有99.9%的把握说
X
与
Y
有关.
考向突破
考向 独立性检验
例
(2019东北师大、重庆一中等3月联考,11)2018年,国际权威机构IDC发
布的全球手机销售报告显示:华为突破2亿台出货量,超越苹果的出货量,首
次成为全球第二,华为无愧于中国最强的高科技企业.华为业务CEO余承东
明确表示,华为的目标就是在2021年前,成为全球最大的手机厂商.为了解
华为手机和苹果手机使用的情况是否和消费者的性别有关,对100名华为
手机使用者和苹果手机使用者进行统计,统计结果如下表:
手机品牌
性别
华为
苹果
合计
男
30
15
45
女
45
10
55
合计
75
25
100
根据表格判断是否有95%的把握认为使用哪种品牌手机与性别有关
系,则下列结论正确的是
( )
附:
K
2
=
A.没有95%的把握认为使用哪款手机与性别有关
B.有95%的把握认为使用哪款手机与性别有关
C.有95%的把握认为使用哪款手机与性别无关
D.以上都不对
P
(
K
2
≥
k
)
0.10
0.05
0.010
0.001
k
2.706
3.841
6.635
10.828
解析
由表可知
a
=30,
b
=15,
c
=45,
d
=10,
n
=100,
则
K
2
=
≈
3.030<3.841,
故没有95%的把握认为使用哪款手机与性别有关,故选A.
答案
A
方法1
回归直线方程的求解与运用
1.求线性回归直线方程的步骤
2.(1)当已知回归直线方程(方程中无参数)进行预测时,把自变量代入回归
直线方程即可对因变量进行估计.
方法技巧
(2)若回归直线方程中有参数,则根据回归直线一定经过点(
,
)求出参数
值,得到回归直线方程,进而完成预测.
例1
(2019广东深圳第二次调研,18)某网店经销某商品,为了解该商品的
月销量
y
(单位:千件)与当月售价
x
(单位:元/件)之间的关系,收集了5组数据
进行了初步处理,得到下表:
(1)统计学中用相关系数
r
来衡量两个变量之间线性相关关系的强弱,若|
r
|∈
[0.75,1],则认为相关性很强;若|
r
|∈(0.25,0.75),则认为相关性一般;若|
r
|∈[0,
0.25],则认为相关性较弱.请计算相关系数
r
,并说明
y
与
x
之间的线性相关关系
的强弱(精确到0.01);
(2)求
y
关于
x
的线性回归方程;
(3)根据(2)中的线性回归方程,估计当售价
x
定为多少时,月销售额最大?(月
销售额=月销售量
×
当月售价)
x
5
6
7
8
9
y
8
6
4.5
3.5
3
参考数据:
≈
12.85.
参考公式:相关系数
r
=
,
线性回归方程
=
x
+
中,
=
,
=
-
.
解析
(1)由表中数据和附注中的参考数据得,
=7,
=5,
(1分)
(
x
i
-
)
2
=10,
(
y
i
-
)
2
=16.5.
(2分)
(
x
i
-
)(
y
i
-
)=-12.5,
r
=
≈
-0.97.
(3分)
因为|
r
|
≈
|-0.97|∈[0.75,1],
所以说明
y
与
x
的线性相关关系很强.
(5分)
(2)由(1)可知
=
=
=-1.25,
(7分)
∴
=
-
=5-(-1.25)
×
7=13.75,
(8分)
∴
=-1.25
x
+13.75.
(9分)
(3)由题意可知,月销售额的预估值
=1 000·
·
x
=-1 250
x
2
+13 750
x
(元)或者
=
·
x
=-1.25
x
2
+13.75
x
(千元).
(10分)
则当
x
=5.5时,
取到最大值,
即该店主将售价定为5.5元/件时,可使网店的月销售额最大.(12分)
方法2
独立性检验
独立性检验的具体步骤:
1.根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概
率的上界
α
,然后查临界值表确定临界值
k
0
.
2.利用公式
K
2
=
计算随机变量
K
2
的观测值
k
.
3.如果
k
≥
k
0
,就推断“
X
与
Y
有关系”,这种推断犯错误的概率不超过
α
;否
则,就认为在犯错误的概率不超过
α
的前提下不能推断“
X
与
Y
有关系”,或
者在样本数据中没有发现足够证据支持结论“
X
与
Y
有关系”.
例2
(命题标准样题,18)为了解某校学生参加社区服务的情况,采用按性
别分层抽样的方法进行调查.已知该校共有学生960人,其中男生560人,从
全校学生中抽取了容量为
n
的样本,得到一周参加社区服务时间的统计数
据如下:
(1)求
m
,
n
;
(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时
与性别有关?
(3)从该校学生中随机调查60名学生,一周参加社区服务时间超过1小时的
人数记为
X
,以样本中学生参加社区服务时间超过1小时的频率作为该事件
超过1小时
不超过1小时
男
20
8
女
12
m
发生的概率,求
X
的分布列和数学期望.
附:
K
2
=
.
P
(
K
2
≥
k
)
0.050
0.010
0.001
k
3.841
6.635
10.828
解析
(1)由已知,得该校有女生400人,故
=
,得
m
=8.
从而
n
=20+8+12+8=48.
(2)作出列联表如下:
K
2
=
=
≈
0.685 7<3.841.
所以不能有95%的把握认为该校学生一周参加社区服务时间是否超过1小
时与性别有关.
超过1小时的人数
不超过1小时的人数
合计
男
20
8
28
女
12
8
20
合计
32
16
48
故
X
~
B
,
X
的分布列为
P
(
X
=
k
)=
×
,
k
=0,1,2,
…
,60.
X
的数学期望
EX
=60
×
=40.
(3)根据以上数据,学生一周参加社区服务时间超过1小时的概率
P
=
=
,