- 176.22 KB
- 2021-06-11 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
考点测试67 变量间的相关关系与统计案例
高考概览
考纲研读
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程
3.了解独立性检验的基本思想、方法及其简单应用
4.了解回归分析的基本思想、方法及其简单应用
一、基础小题
1.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )
A.=1.23x+4 B.=1.23x+5
C.=1.23x+0.08 D.=0.08x+1.23
答案 C
解析 选项D显然错误.因为回归方程必过样本中心点,把点(4,5)代入选项A,B,C检验,满足的只有选项C.故选C.
2.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
答案 D
解析 由题设知,这组样本数据完全正相关,故其相关系数为1.故选D.
3.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则试验结果体现A,B两变量有更强的线性相关性的是( )
A.甲 B.乙 C.丙 D.丁
答案 D
解析 r越大,m越小,线性相关性越强,丁同学的试验结果体现A,B两变量有更强的线性相关性.故选D.
4.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )
A.100个吸烟者中至少有99人患肺癌
B.1个人吸烟,那么这人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
答案 D
解析 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.故选D.
5.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
答案 D
解析 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本点的中心(,),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.
6.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=ln y,其变换后得到线性回归方程z=0.3x+4,则c=________.
答案 e4
解析 因为y=cekx,所以两边取对数,可得ln y=ln (cekx)=ln c+ln ekx=ln c+kx,令z=ln y,可得z=ln c+kx.因为z=0.3x+4,所以ln c=4,所以c=e4.
二、高考小题
7.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知i=225,i=1600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
答案 C
解析 ∵i=225,∴=i=22.5.
∵i=1600,∴=i=160.
又=4,∴=-=160-4×22.5=70.
∴回归直线方程为=4x+70.
将x=24代入上式得=4×24+70=166.
故选C.
8.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
答案 A
解析 对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.
三、模拟小题
9.(2018·合肥质检)某公司一种型号的产品近期销售情况如下表:
月份(x)
2
3
4
5
6
销售额y/万元
15.1
16.3
17.0
17.2
18.4
根据上表可得到回归直线方程=0.75x+,据此估计,该公司7月份这种型号产品的销售额约为( )
A.19.5万元 B.19.25万元
C.19.15万元 D.19.05万元
答案 D
解析 由表可知=×(2+3+4+5+6)=4,
=×(15.1+16.3+17+17.2+18.4)=16.8,则样本中心点(4,16.8)在线性回归直线上,故16.8=0.75×4+,得=13.8.故当x=7时,=0.75×7+13.8=19.05.故选D.
10.(2019·衡阳模拟)某城市收集并整理了该市2018年1月份至10月份每月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该市每月的最低气温与当月的最高气温两变量具有较好的线性关系,则根据该折线图,下列结论错误的是( )
A.每月的最低气温与当月的最高气温两变量为正相关
B.10月份的最高气温不低于5月份的最高气温
C.月温差(最高气温减最低气温)的最大值出现在1月份
D.最低气温低于0 ℃的月份有4个
答案 D
解析 由图观察可得,当最低气温较大时,最高气温也较大,故A正确;10月份的最高气温大于20 ℃,而5月份的最高气温不超过20 ℃,故B正确;从各月的温差看,1月份的温差最大,故C正确;而最低气温低于0 ℃的月份是1,2,4三个月份.故选D.
11.(2018·河北邯郸二模)观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是( )
答案 D
解析 在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,在四个选项中(等高的条形图)中,若x1,x2所占比例相差越大,则分类变量x,y的相关性越强.故选D.
12.(2018·河北武邑中学调研)为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2有交点(s,t)
B.l1与l2相交,但交点不一定是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
答案 A
解析 由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心.故选A.
13.(2018·大连双基测试)已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,a′ D.a′.选C.
解法二:根据所给数据画出散点图,如图所示,可直接判断:从l2旋转到l1,斜率变大,纵截距变小,即a′.选C.
一、高考大题
1.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009
年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 (1)第二种生产方式的效率更高.理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)
(2)由茎叶图知m==80.列联表如下:
超过m
不超过m
15
5
第一种生产方式
第二种生产方式
5
15
(3)由于K2的观测值k==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
3.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“
旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
,
K2=.
解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率的估计值为0.62×0.66=0.4092.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为
(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法产量的中位数的估计值为
50+≈52.35(kg).
二、模拟大题
4.(2018·太原二模)按照国家质量标准:某种工业产品的质量指标值落在[100,120)内,则为合格品,否则为不合格品.某企业有甲、乙两套设备生产这种产品,为了检测这两套设备的生产质量情况,随机从两套设备生产的大量产品中各抽取了50件产品作为样本,对规定的质量指标值进行检测.下表是甲套设备的样本频数分布表,下图是乙套设备的样本频率分布直方图.
表 甲套设备的样本频数分布表
质量
指标值
[95,
100)
[100,
105)
[105,
110)
[110,
115)
[115,
120)
[120,
125]
频数
1
4
19
20
5
1
图 乙套设备的样本频率分布直方图
(1)填写下面列联表,并根据列联表判断是否有90%的把握认为这种产品的质量指标值与甲、乙两套设备的选择有关?
甲套设备
乙套设备
合计
合格品
不合格品
合计
(2)根据上表和上图,对甲、乙两套设备的优劣进行比较;
(3)将频率视为概率,若从甲套设备生产的大量产品中,随机抽取3件产品,记抽到的不合格品的个数为X,求X的期望E(X).
附:
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
K2=,n=a+b+c+d.
解 (1)列联表为
甲套设备
乙套设备
合计
合格品
48
43
91
不合格品
2
7
9
合计
50
50
100
将列联表中的数据代入公式计算得
K2=
=≈3.053.
∵3.053>2.706,
∴有90%的把握认为产品的质量指标值与甲、乙两套设备的选择有关.
(2)根据题意可知,甲套设备生产的合格品的概率约为,乙套设备生产的合格品的概率约为,甲套设备生产的产品的质量指标值主要集中在[105,115)之间,乙套设备生产的产品的质量指标值与甲套设备相比较为分散.
因此,可以认为甲套设备生产的合格品的概率更高,且质量指标值更稳定,从而甲套设备优于乙套设备.
(3)由题知,X~B3,,∴E(X)=3×=.
5.(2018·湖北第二次联考)菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但蔬菜上市时仍存在少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的统计表:
x
1
2
3
4
5
y
58
54
39
29
10
(1)在右面的坐标系中,描出散点图,并判断变量x与y是正相关还是负相关;
(2)若用解析式=cx2+d作为蔬菜上农药残留量与用水量x的回归方程,令w=x2,计算平均值与,完成以下表格,求出与x的回归方程(c,d保留两位有效数字);
w
1
4
9
16
25
y
58
54
39
29
10
wi-
yi-
(3)对于某种残留在蔬菜上的农药,当它的残留量低于20微克时对人体无害,为了放心食用该蔬菜,请估计需要用多少千克的清水清洗一千克蔬菜?(精确到0.1,参考数据:≈2.236)
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
解 (1)
变量x与y是负相关.
(2)由题中表格易得=11,=38,
w
1
4
9
16
25
y
58
54
39
29
10
wi-
-10
-7
-2
5
14
yi-
20
16
1
-9
-28
c=
=-≈-2.0,
d=-c=38--×11≈60,
∴=-2.0w+60=-2.0x2+60.
(3)当<20时,-2.0x2+60<20,即x>2≈4.5,
∴为了放心食用该蔬菜,估计需要用4.5千克的清水清洗一千克蔬菜.