- 404.19 KB
- 2021-06-30 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
2021届一轮复习人教A版 变量间的相关关系统计案例 学案
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关。
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
2.回归方程
(1)最小二乘法
使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数。
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法。
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(,)称为样本点的中心。
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关。
r的绝对值越接近于1,表明两个变量的线性相关性越强。r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系。通常|r|大于0.75时,认为两个变量有很强的线性相关性。
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量。
(2)列联表:列出两个分类变量的频数表,称为列联表。假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量。
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验。
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,)。
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大。
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值。
一、走进教材
1.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:
x
6
8
10
12
y
2
3
5
6
则y对x的线性回归直线方程为( )
A.=2.3x-0.7 B.=2.3x+0.7
C.=0.7x-2.3 D.=0.7x+2.3
解析 因为iyi=6×2+8×3+10×5+12×6=158,==9,==4。所以==0.7,=4-0.7×9=-2.3。故线性回归直线方程为=0.7x-2.3。故选C。
答案 C
2.(选修2-3P97练习T1改编)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025。
根据表中数据,得到K2的观测值
k=≈4.844。则认为选修文科与性别有关系出错的可能性为________。
解析 K2的观测值k≈4.844,这表明小概率事件发生。根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%。
答案 5%
二、走近高考
3.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+。已知i=225,i=1 600,=4。该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
解析 易知==22.5,==160。因为=4,所以160=4×22.5+,解得=70,所以回归直线方程为=4x+70,当x=24时,=96+70=166。故选C。
答案 C
三、走出误区
微提醒:①混淆相关关系与函数关系;②不知道回归直线必过样本点中心;③对独立性检验K2值的意义不清楚。
4.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②。
答案 D
5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和K2
统计量研究患肺病是否与吸烟有关。计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”。故选C。
答案 C
6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验。根据收集到的数据(如下表),由最小二乘法求得回归方程为=0.67x+54.9。
零件数x/个
10
20
30
40
50
加工时间y/min
62
75
81
89
现发现表中有一个数据模糊看不清,则该数据为________。
解析 设表中那个模糊看不清的数据为m。由表中数据得=30,=,所以样本点的中心为,因为样本点的中心在回归直线上,所以=0.67×30+54.9,解得m=68。
答案 68
考点一变量相关关系的判断
【例1】 (1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A B
C D
(2)
为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,的值为1.25
B.线性相关关系较强,的值为0.83
C.线性相关关系较强,的值为-0.87
D.线性相关关系较弱,无研究价值
解析 (1)观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系。故选D。
(2)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B。
答案 (1)D (2)B
相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性。
【变式训练】 (1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C.- D.1
(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关。下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析 (1)完全的线性关系,且为负相关,故其相关系数为-1。故选A。
(2)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z
正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C。
答案 (1)A (2)C
考点二线性回归分析
【例2】 改革开放40年来,全国居民人均可支配收入由171元增加到2.6万元,中等收入群体持续扩大。我国贫困人口累计减少7.4亿人,贫困发生率下降94.4个百分点,谱写了人类反贫困史上的辉煌篇章。
某地级市共有200 000名中学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元。经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难学生,特别困难的学生中有n%转为很困难学生。现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x取14时代表2014年,…依此类推,且x与y(单位:万元)近似满足关系式=x+,(2013年至2019年该市中学生人数大致保持不变)
(yi-)2
(xi-)(yi-)
0.8
3.1
1
(1)估计该市2018年人均可支配年收入为多少万元?
(2)试问该市2018年的“专项教育基金”的财政预算大约为多少万元?
附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程=u+的斜率和截距的最小二乘估计分别为=,=-。
解 (1)因为=(13+14+15+16+17)=15,
所以(xi-)2=(-2)2+(-1)2+12+22=10,
所以==0.1,
=-=0.8-0.1×15=-0.7,
所以=0.1x-0.7。
当x=18时,2018年人均可支配年收入y=0.1×18-0.7=1.1(万元)。
(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200 000×7%=14 000人。
一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配年收入比2017年增长=0.1=10%。
故2018年该市特别困难的中学生有2 800×(1-10%)=2 520人,
很困难的学生有4 200×(1-20%)+2 800×10%=3 640人,
一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人。
所以2018年的“专项教育基金”的财政预算大约为5 740×0.1+3 640×0.15+2 520×0.2=1 624(万元)。
1.对变量值的预测主要是由给出的变量的值预测与其有相关关系的变量的值,一般方法是:若已知回归直线方程,则直接将数值代入求得预测值。
2.回归模型的拟合效果主要有两种途径判断
(1)利用数据的散点图,观察数据对应的点与回归直线的位置关系进行分析;
(2)利用残差进行分析,最简单的作法是选择数据中的具有代表性的点进行预报,比较预报值与真实值的差距进行分析。
【变式训练】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图。
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型。根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t。
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由。
解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元)。
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元)。
(2)利用模型②得到的预测值更可靠。
理由如下:
a.从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势。2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠。
b.从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠。
以上2种理由,答出其中一种或其他合理理由均可。
考点三独立性检验
【例3】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式。为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人。第一组工人用第一种生产方式,第二组工人用第二种生产方式。根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
解 (1)第二种生产方式的效率更高。
理由如下:
①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min。因此第二种生产方式的效率更高。
②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min。因此第二种生产方式的效率更高。
③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80 min;用第二种生产方式的工人完成生产任务平均所需时间低于80 min,因此第二种生产方式的效率更高。
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布。又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高。
以上4种理由,答出其中一种或其他合理理由均可。
(2)由茎叶图知m==80。列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异。
1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0。|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强。
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论。独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=计算K2的观测值k;
(3)比较观测值k与临界值的大小关系,作统计推断。
【变式训练】 某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单
位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
赞成定价
者人数
1
2
3
5
3
4
认为价格偏
高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。
月收入不低于
55百元的人数
月收入低于
55百元的人数
总计
认为价格偏
高者
赞成定价者
总计
附:K2=。
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
解 (1)“赞成定价者”的月平均收入为
x1=≈50.56。
“认为价格偏高者”的月平均收入为
x2==38.75,
所以“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元)。
(2)根据条件可得2×2列联表如下:
月收入不低于
55百元的人数
月收入低于
55百元的人数
总计
认为价格偏
高者
3
29
32
赞成定价者
7
11
18
总计
10
40
50
K2=≈6.272<6.635,
所以没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。
1.(配合例2使用)如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图。
注:年份代码1~7分别对应年份2012~2018。
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2019年该企业的污水净化量;
(3)请用数据说明回归方程预报的效果。
参考数据:=54,(ti-)(yi-)=21,≈3.74,(yi-i)2=。
参考公式:相关系数r=,
线性回归方程=+t,=,
=-。
反映回归效果的公式为:R2=1-,其中R2越接近于1,表示回归的效果越好。
解 (1)由折线图中的数据得,
=4,(ti-)2=28,(yi-)2=18,
所以r=≈0.935。
因为y与t的相关系数近似为0.935,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系。
(2)因为=54,===,
所以=-=54-×4=51,
所以y关于t的线性回归方程为=t+=t+51。
将2019年对应的t=8代入得=×8+51=57,
所以预测2019年该企业污水净化量约为57吨。
(3)因为R2=1-=1-×=1-==0.875,
所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的。
2.(配合例3使用)龙虎山花语世界位于龙虎山主景区排衙峰下,是一座独具现代园艺风格的花卉公园,园内汇集了3 000余种花卉苗木,一年四季姹紫嫣红花香四溢。花园景观融合法、英、意、美、日、中六大经典园林风格,景观设计唯美新颖,玫瑰花园、香草花溪、台地花海、植物迷宫、儿童乐园等景点错落有致,交相呼应又自成一体,是世界园艺景观的大展示.该景区自2015年春建成,试运行以来,每天游人如织,郁金香、向日葵、虞美人等赏花旺季日入园人数最高达万人。
某学校社团为了了解进园旅客的具体情形以及采集旅客对园区的建议,特别在2018年4月1日赏花旺季对进园游客进行抽样调查,从当日12 000名游客中抽取100人进行统计分析,结果如下:
年龄(岁)
频数
频率
男
女
[0,10)
10
0.1
5
5
[10,20)
①
②
③
④
[20,30)
25
0.25
12
13
[30,40)
20
0.2
10
10
[40,50)
10
0.1
6
4
[50,60)
10
0.1
3
7
[60,70)
5
0.05
1
4
[70,80)
3
0.03
1
2
[80,90]
2
0.02
0
2
总计
100
1.00
45
55
(1)填写表中的空位①~④,补全如图所示的频率分布直方图,并估计2018年4月1日接待的游客中30岁以下的游客人数。
(2)完成下面2×2列联表,并判断能否有97.5%的把握认为在赏花游客中“年龄是否达到50岁以上(含50岁)”与“性别”有关。
50岁以上(含50岁)
50岁以下
总计
男
女
总计
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(3)按分层抽样(分50岁以上(含50岁)与50岁以下两层)抽取被调查的100位游客中的10人作为幸运游客免费领取龙虎山内部景区门票,再从这10人中选取2人接受电视台采访,设这2人中年龄在50岁以上(含50岁)的人数为ξ,求ξ的分布列。
解 (1)表中的空位①~④分别为15,0.15,7,8。
补全后的频率分布直方图如下:
年龄在30岁以下的频率为0.1+0.15+0.25=0.5,
以频率作为概率,估计2018年4月1日接待的游客中30岁以下的游客人数为12 000×0.5=6 000。
(2)完成2×2列联表如下:
50岁以上(含50岁)
50岁以下
总计
男
5
40
45
女
15
40
55
总计
20
80
100
K2的观测值k==≈4.040<5.024,
所以没有97.5%的把握认为在赏花游客中“年龄是否达到50岁以上(含50岁)”与“性别”有关。
(3)由分层抽样的特点知,这10人中年龄在50岁以上(含50岁)的人数为10×0.2=2,
年龄在50岁以下的人数为8,
故ξ的所有可能取值为0,1,2,则
P(ξ=0)==,
P(ξ=1)==,
P(ξ=2)==,
故ξ的分布列为
ξ
0
1
2
P