- 240.50 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第四节 变量间的相关关系与统计案例
☆☆☆2017考纲考题考情☆☆☆
考纲要求
真题举例
命题角度
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;
3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;
4.了解回归分析的基本思想、方法及其简单应用。
2016,全国卷Ⅲ,18,12分(线性回归分析)
2015,全国卷Ⅰ,19,12分(线性回归分析)
2015,福建卷,4,5分(线性回归分析)
2014,安徽卷,18,12分(独立性检验)
1.以选择题、填空题的形式考查求线性回归系数或利用线性回归方程进行预测,在给出临界值的情况下判断两个变量是否有关;
2.在解答题中与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用。
微知识 小题练
自|主|排|查
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关。
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
2.回归方程
(1)最小二乘法
使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn
,yn)的回归方程,其中 , 是待定参数。
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法。
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(,)称为样本点的中心。
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关。
r的绝对值越接近于1,表明两个变量的线性相关性越强。r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系。通常|r|大于0.75时,认为两个变量有很强的线性相关性。
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量。
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量。
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验。
微点提醒
1.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(,)点,可能所有的样本数据点都不在直线上。
2.利用回归方程分析问题时,所得的数据易误认为是准确值,而实质上是预测值(期望值)。
3.K2越大,“X与Y有关联”的把握程度越大。
小|题|快|练
一 、走进教材
1.(必修3P94A组T3改编)相关变量x,y的样本数据如下表:
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为=1.1x+a,则a=( )
A.0.1 B.0.2
C.0.3 D.0.4
【解析】 =3,=3.6,又回归直线经过样本中心点(,),所以3.6=1.1×3+a,解得a=0.3。故选C。
【答案】 C
2.(选修1-2P16习题1.2T1改编)为考察某种药物预防疾病的效果,对100只某种动物进行试验,得到如下的列联表:
患病
未患病
合计
服用药
10
40
50
没服用药
20
30
50
合计
30
70
100
经计算,统计量K2≈4.762,则有________把握认为药物有效(P(K2≥3.841)=0.05,P(K2≥5.024=0.025)( )
A.99.5% B.95%
C.99% D.97.5%
【解析】 由K2≈4.762>3.841,可知有95%的把握,认为药物有效。故选B。
【答案】 B
二、双基查验
1.观察下列各图:
其中两个变量x,y具有相关关系的图是( )
A.①② B.①④
C.③④ D.②③
【解析】 由散点图知③④具有相关关系。故选C。
【答案】 C
2.(2016·葫芦岛模拟)某商品销售量Y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是( )
A.=-10x+200 B.=10x+200
C.=-10x-200 D.=10x-200
【解析】 因为商品销售量Y(件)与销售价格x(元/件)负相关,所以<0,排除B、D。又因为x=0时,y>0,所以应选A。
【答案】 A
3.已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为=0.95x+a,则a=( )
x
0
1
3
4
y
2.2
4.3
4.8
6.7
A.3.25 B.2.6
C.2.2 D.0
【解析】 由已知得=2,=4.5,因为回归直线经过点(,),所以a
=4.5-0.95×2=2.6。故选B。
【答案】 B
4.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
D.以上三种说法都不正确
【解析】 根据独立性检验的思想知C项正确。
【答案】 C
微考点 大课堂
考点一
相关关系的判断
【典例1】 (1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
(2)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程=bx+a近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,b的值为1.25
B.线性相关关系较强,b的值为0.83
C.线性相关关系较强,b的值为-0.87
D.线性相关关系较弱,无研究价值
【解析】 (1)观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系。故选D。
(2)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B。
【答案】 (1)D (2)B
反思归纳 相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性。
【变式训练】 (2016·长沙模拟)某公司在2015年上半年的收入x(单位:万元)与月支出Y(单位:万元)的统计资料如表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出Y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与Y有正线性相关关系
B.月收入的中位数是17,x与Y有负线性相关关系
C.月收入的中位数是16,x与Y有正线性相关关系
D.月收入的中位数是16,x与Y有负线性相关关系
【解析】 月收入的中位数是=16,收入增加,支出增加,故x与Y有正线性相关关系。故选C。
【答案】 C
考点二
线性回归分析
【典例2】 (2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图。
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量。
附注:
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646。
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:=,=-。
【解析】 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,r≈≈0.99。
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系。
(2)由=≈1.331及(1)得==≈0.103,
=-≈1.331-0.103×4≈0.92。
所以,y关于t的回归方程为=0.92+0.10t。
将2016年对应的t=9代入回归方程得
=0.92+0.10×9=1.82。
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨。
【答案】 (1)见解析 (2)回归方程为=0.92+0.10t,生活垃圾无害化处理量约为1.82亿吨
反思归纳 1.正确理解计算,的公式和准确的计算是求线性回归方程的关键。
2.回归直线方程=x+必经过样本点中心(,)。
3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测。
【变式训练】 某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2006
2008
2010
2012
2014
需求量(万吨)
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程=x+;
(2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量。
【解析】 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,为此对数据预处理如下:
年份-2010
-4
-2
0
2
4
需求量-257
-21
-11
0
19
29
对预处理后的数据,容易算得,
=0,=3.2,
=
eq f((-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2,(-4)2+(-2)2+22+42-5×02)
==6.5,
=-=3.2。
由上述计算结果,知所求回归直线方程为
-257=(x-2010)+=6.5(x-2010)+3.2,
即=6.5(x-2010)+260.2。(*)
(2)利用回归直线方程(*),可预测2016年的粮食需求量为6.5(2016-2010)+260.2=6.5×6+260.2=299.2(万吨)。
【答案】 (1)=6.5(x-2010)+260.2 (2)299.2 万吨
考点三
独立性检验
【典例3】 (2017·九江模拟)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名。现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表。
分数段
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
[90,100)
男
3
9
18
15
6
9
女
6
4
5
10
13
2
(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;
(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”。
优分
非优分
总计
男生
女生
总计
100
附表及公式
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
K2=
【解析】 (1)男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,
女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,
从男、女生各自的平均分来看,并不能判断数学成绩与性别有关。
(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:
优分
非优分
总计
男生
15
45
60
女生
15
25
40
总计
30
70
100
可得K2=≈1.79,
因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”。
【答案】 (1)不能判断数学成绩与性别有关
(2)没有90%以上的把握认为“数学成绩与性别有关”
反思归纳 1.独立性检验的关键是正确列出2×2列联表,并计算出K2的值。
2.弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答。
【变式训练】 某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)。
(1)根据以上数据完成下列2×2列联表:
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析。
【解析】 (1)2×2列联表如下:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(2)因为K2==10>6.635,
所以有99%的把握认为其亲属的饮食习惯与年龄有关。
【答案】 (1)见解析 (2)有99%的把握认为其亲属的饮食习惯与年龄有关,分析见解析
微考场 新提升
1.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=x+,则( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
解析 根据题中表内数据画出散点图(图略),由散点图可知<0,>0,故选B。
答案 B
2.下列有关样本相关系数的说法不正确的是( )
A.相关系数用来衡量变量x与y之间的线性相关程度
B.|r|≤1,且|r|越接近于1,相关程度越大
C.|r|≤1,且|r|越接近0,相关程度越小
D.|r|≥1,且|r|越接近1,相关程度越小
答案 D
3.“十一”期间,邢台市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到了如下列联表,下列结论正确的是( )
做不到“光盘”行动
能做到“光盘”行动
男
45
10
女
30
15
A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’行动与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’行动与性别无关”
C.有90%以上的把握认为“该市居民能否做到‘光盘’行动与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’行动与性别无关”
解析 根据列联表中的数据得到K2=
≈3.03>2.706,∴有90%以上的把握认为“该市居民能否做到‘光盘’行动与性别有关”。故选C。
答案 C
4.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
合计
男
13
10
23
女
7
20
27
合计
20
30
50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025。
根据表中数据,得到K2的观测值
k=≈4.844,则认为选修文科与性别有关系出错的可能性约为________。
解析 由K2的观测值k≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%。
答案 5%
5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验。根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9。
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据模糊看不清,请你推断出该数据的值为________。
解析 由已知可计算求出=30,而线性回归直线必过点(,),则=0.67×30+54.9=75,设模糊数字为a,则=75,计算得a=68。
答案 68