- 640.00 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第3讲 变量间的相关关系、统计案例
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为=x+,其中=,=-.
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)K2统计量
K2=(其中n=a+b+c+d为样本容量).
判断正误(正确的打“√”,错误的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y的关系越密切,由观测数据计算得到的K2的观测值越大.( )
(5)通过回归方程=x+可以估计和观测变量的取值和变化趋势.( )
答案:(1)× (2)√ (3)√ (4)√ (5)√
某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是( )
A.=-10x+200 B.=10x+200
C.=-10x-200 D.=10x-200
解析:选A.因为商品销售量y(件)与销售价格x(元/件)负相关,所以<0,排除B,D.
又因为x=0时,y>0,所以应选A.
某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )
附:
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
A.0.1% B.1%
C.99% D.99.9%
解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.
下面是一个2×2列联表
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a、b处的值分别为________.
解析:因为a+21=73,所以a=52.
又因为a+2=b,所以b=54.
答案:52、54
已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
解析:由已知得=2,=4.5,因为回归方程经过点(,),所以=4.5-0.95×2=2.6.
答案:2.6
相关关系的判断
[典例引领]
已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
【解析】 因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
【答案】 C
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
[通关练习]
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
2.某公司在2017年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
解析:选C.月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系.
线性回归方程及其应用(高频考点)
线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下三个命题角度:
(1)由回归直线方程求参数值;
(2)求回归直线方程;
(3)利用回归方程进行预测.
[典例引领]
角度一 由回归直线方程求参数值
(2017·高考山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+.已知xi=225 y i=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
【解析】 由题意可知=4x+,又=22.5,=160,因此160=22.5×4+,所以=70,因此=4x+70.当x=24时,=4×24+70=96+70=166.
【答案】 C
角度二、三 求回归直线方程并进行预测
(2016·高考全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=
回归方程=+t中斜率和截距的最小二乘估计公式分别为:
【解】 (1)由折线图中数据和附注中参考数据得
2.89,
r=≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得==≈0.103,
=-t≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
求回归直线方程的步骤
[提醒] 利用回归直线方程进行预测是对总体的估计,此估计值不是准确值.
(2018·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表:
x
1
2
3
4
5
y
7.0
6.5
5.5
3.8
2.2
(1)求y关于x的线性回归方程=x+;
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
参考公式:==,
=-.
解:(1) =3,=5,xiyi=62.7,x=55,
解得=-1.23,=8.69,
所以=8.69-1.23x.
(2)年利润z=x(8.69-1.23x)-2x
=-1.23x2+6.69x,
所以当x≈2.72时,年利润z最大.
独立性检验
[典例引领]
(2017·高考全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg, 新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=.
【解】 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为
50+≈52.35(kg).
(1)独立性检验的一般步骤
①根据样本数据制成2×2列联表;
②根据公式K2=计算K2的值;
③查表比较K2与临界值的大小关系,作出统计判断.
(2)解独立性检验的应用问题的关注点
①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题.
②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K2.
(2018·惠州市第三次调研考试)在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.
(1)求a的值,并计算所抽取样本的平均值x(同一组中的数据用该组区间的中点值作代表);
(2)填写下面的2×2列联表,并判断能否有超过95%的把握认为“获奖与学生的文、理科有关”?
文科生
理科生
总计
获奖
5
不获奖
总计
200
附表及公式:K2=
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解:(1)a=[1-(0.01+0.015+0.03+0.015+0.005)×10]÷10=0.025,
=45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69.
(2)2×2列联表如下:
文科生
理科生
总计
获奖
5
35
40
不获奖
45
115
160
总计
50
150
200
因为K2==≈4.167>3.841,
所以有超过95%的把握认为“获奖与学生的文、理科有关”.
求回归方程,关键在于正确求出系数,,由于,的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.
回归分析是处理变量相关关系的一种数学方法.主要解决:
(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;
(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;
(3)求出线性回归方程.
易错防范
(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x,y)点,可能所有的样本数据点都不在直线上.
(2)利用回归方程分析问题时,所得的数据易误认为是准确值,而实质上是预测值(期望值).
(3)独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.
1.(2018·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,
为此进行了5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=150,由最小二乘法求得回归直线方程为=0.67x+54.9,则y1+y2+y3+y4+y5的值为( )
A.75 B.155.4
C.375 D.466.2
解析:选C.由x1+x2+x3+x4+x5=150,得=30,代入回归直线方程=0.67x+54.9,得=75,则y1+y2+y3+y4+y5=375.
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=,
算得K2=≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
解析:选C.根据独立性检验的定义,由K2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
3.(2018·赣州摸底考试)在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=11,yi=13,x=21,则实数b的值为________.
解析:令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时t==,y=
=,代入y=bt-,得=b×-,解得b=.
答案:
4.有甲、乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表:
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
利用列联表的独立性检验估计,则成绩与班级________.(填“有关”或“无关”)
解析:成绩与班级有无关系,就是看随机变量的值与临界值2.706的大小关系.
由公式得K2的观测值k=≈0.653<2.706,所以成绩与班级无关.
答案:无关
5.(2018·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为.
优秀
非优秀
总计
甲班
10
乙班
30
总计
110
(1)请完成上面的列联表;
(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”.
参考公式与临界值表:K2=.
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
解:(1)列联表如下:
优秀
非优秀
总计
甲班
10
50
60
乙班
20
30
50
总计
30
80
110
(2)根据列联表中的数据,得到
K2=≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.
6.(2018·成都市第二次诊断性检测)某项科研活动共进行了5次试验,其数据如下表所示:
次数
特征量
第1次
第2次
第3次
第4次
第5次
x
555
559
551
563
552
y
601
605
597
599
598
(1)从特征量y的5次试验数据中随机地抽取两个数据,求至少有一个大于600的概率;
(2)求特征量y关于x的线性回归方程=x+,并预测当特征量x为570时特征量y的值.
分别为=
解:(1)记“至少有一个大于600”为事件A,
则P(A)=1-=.
(2)由题中表格可知,==556,==600.所以===0.3,=-=600-0.3×556=433.2,
所以线性回归方程为=0.3x+433.2.
当x=570时,=0.3×570+433.2=604.2
故特征量x为570时,特征量y的估计值为604.2.
1.(2018·张掖市第一次诊断考试)中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65岁的人群中随机调查100人,
调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:
年龄
[15,25)
[25,35)
[35,45)
[45,55)
[55,65]
支持“延迟
退休”的人数
15
5
15
28
17
(1)由以上统计数据填2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;
45岁以下
45岁以上
总计
支持
不支持
总计
(2)若以45岁为分界点,从不支持“延迟退休”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人.
(ⅰ)抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率.
(ⅱ)记抽到45岁以上的人数为X,求随机变量X的分布列及数学期望.
参考数据:
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
K2=
解:(1)列联表如下:
45岁以下
45岁以上
总计
支持
35
45
80
不支持
15
5
20
总计
50
50
100
因为K2===6.25>3.841,
所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.
(2)(ⅰ)抽到1人是45岁以下的概率为=,
抽到1人是45岁以下且另一人是45岁以上的概率为=.
故所求概率为=.
(ⅱ)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁以上的应抽2人.
则X=0,1,2.
P(X=0)==,P(X=1)===,
P(X=2)==.
可得随机变量X的分布列为
X
0
1
2
P
故E(X)=1×+2×=.
2.(2018·广东汕头模拟)二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
使用年数x
2
3
4
5
6
7
售价y
20
12
8
6.4
4.4
3
z=ln y
3.00
2.48
2.08
1.86
1.48
1.10
下面是z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;
(2)求y关于x的回归方程,并预测某辆A型号二手车当使用年数为9年时售价约为多少;(、小数点后保留两位有效数字)
(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.
参考公式:==,=-,r=
参考数据:
xiyi=187.4,xizi=47.64,x=139,
≈4.18, ≈13.96,
≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.
解:(1)由题意,知=×(2+3+4+5+6+7)=4.5,
=×(3+2.48+2.08+1.86+1.48+1.10)=2,
又xizi=47.64,≈4.18,
≈1.53,
所以r==-≈-0.99,
所以z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.
(2)==-≈-0.36,
所以=-=2+0.36×4.5=3.62,
所以z与x的线性回归方程是=-0.36x+3.62,
又z=ln y,所以y关于x的回归方程是=e-0.36x+3.62.
令x=9,得=e-0.36×9+3.62=e0.38,因为ln 1.46≈0.38,所以=1.46,即预测某辆A型号二手车当使用年数为9年时售价约为1.46万元.
(3)当≥0.711 8,即e-0.36x+3.62≥0.711 8=eln 0.711 8=e-0.34时,则有-0.36x+3.62≥-0.34,解得x≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.