- 374.93 KB
- 2021-05-14 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
2020-2021学年高考数学(理)考点:变量间的相关关系、统计案例
1.相关关系与回归方程
(1)相关关系的分类
①正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
②负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(2)线性相关关系
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
②回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
(4)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
③相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
概念方法微思考
1.变量的相关关系与变量的函数关系有什么区别?
提示 相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?
提示
(1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
1.(2020•新课标Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据,,2,,得到下面的散点图:
由此散点图,在至之间,下面四个回归方程类型中最适宜作为发芽率和温度的回归方程类型的是
A. B. C. D.
【答案】D
【解析】由散点图可知,在至之间,发芽率和温度所对应的点在一段对数函数的曲线附近,
结合选项可知,可作为发芽率和温度的回归方程类型.
故选.
2.(2017•山东)为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24
,据此估计其身高为
A.160 B.163 C.166 D.170
【答案】C
【解析】由线性回归方程为,
则,,
则数据的样本中心点,
由回归直线方程样本中心点,则,
回归直线方程为,
当时,,
则估计其身高为166,
故选.
3.(2018•新课标Ⅱ)如图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为1,2,,建立模型①:;根据2010年至2016年的数据(时间变量的值依次为1,2,,建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【解析】(1)根据模型①:,
计算时,;
利用这个模型,求出该地区2018年的环境基础设施投资额的预测值是226.1亿元;
根据模型②:,
计算时,;
利用这个模型,求该地区2018年的环境基础设施投资额的预测值是256.5亿元;
(2)模型②得到的预测值更可靠;
因为从总体数据看,该地区从2000年到2016年的环境基础设施投资额是逐年上升的,
而从2000年到2009年间递增的幅度较小些,
从2010年到2016年间递增的幅度较大些,
所以,利用模型②的预测值更可靠些.
1.(2020•河南模拟)某公司的广告费支出x与销售额y(单位:万元)之间有下列对应数据:已知y对x呈线性相关关系,且回归方程为y^=6.5x+17.5,工作人员不慎将表格中y的第一个数据遗失,该数据为( )
x
2
4
5
6
8
y
40
60
50
70
A.28 B.30 C.32 D.35
【答案】B
【解析】设第一个数据遗失为y,
由表中数据,可得:x=15×(2+4+5+6+8)=5,
且回归方程y^=6.5x+17.5,过样本中心点(x,y),
即y=6.5×5+17.5=50,
所以y=15×(y+40+60+50+70)=50,
解得y=30.
故选B.
2.(2020•衡水模拟)某公司某型号无人机以其小巧轻便、高效机动、影像清晰、智能化、用途广等突出特点,得到广大用户的青睐,该型号无人机近5年销售量数据统计如表所示.
年份
2015
2016
2017
2018
2019
年份代码x
0
1
2
3
4
年销量y/万件
10
15
20
30
35
根据表中的数据用最小二乘法求得y关于x的线性回归方程为ŷ=6.5x+t,则可以预测2020年该型号无人机的销量大约为( )
A.40万件 B.41.5万件 C.45万件 D.48万件
【答案】B
【解析】x=0+1+2+3+45=2,y=10+15+20+30+355=22.
又因为直线ŷ=6.5x+t过点(2,22),
故6.5×2+t=22,解得t=9.
故预测2020年该型号无人机的销量大约为ŷ=6.5×5+9=41.5(万件),
故选B.
3.(2020•东湖区校级模拟)某产品的宣传费用x(万元)与销售额y(万元)的统计数据如表所示:
宣传费用x(万元)
4
2
3
5
销售额y(万元)
45
24
a
50
根据上表可得回归方程ŷ=9.6x+2.9,则宣传费用为3万元时,对应的销售额a为( )
A.36.5 B.30 C.33 D.27
【答案】D
【解析】由题意产品的宣传费用x(万元)与销售额y(万元)的统计数据满足回归方程ŷ=9.6x+2.9,
则x=4+2+3+54=3.5,y=45+24+a+504=119+a4,因为回归直线经过样本中心,
所以119+a4=9.6×3.5+2.9,
解得a=27,
宣传费用为3万元时,ŷ=27.
故选D.
4.(2020•桃城区校级模拟)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
m
65
70
根据表中提供的全部数据,用最小二乘法得出y关于x的线性回归方程为ŷ=7x+15,则表中m的值为( )
A.45 B.50 C.55 D.60
【答案】A
【解析】∵x=2+4+5+6+85=5,y=30+40+m+65+705=205+m5,
∴样本点的中心坐标为(5,205+m5),
代入ŷ=7x+15,得205+m5=50,解得m=45,
故选A.
5.(2020•吉林四模)若通过10组数据(xi,yi)(i=1,2,…,10)得到y关于x的线性回归方程为y^=3x+â,且i=110 xi=10,i=110 yi=90,则â=( )
A.4 B.5 C.6 D.7
【答案】C
【解析】∵x=110i=110 xi=10=1,y=110i=110 yi=90=9,
∴样本点的中心为(1,9),
代入ŷ=3x+â,得9=3×1+â,
即â=6.
故选C.
6.(2020•衡水模拟)某市2015年至2019年新能源汽车年销量y(单位:百台)与年份代号x之间的关系如表所示:
年份
2015
2016
2017
2018
2019
年份代号x
0
1
2
3
4
年销量y
10
15
20
m
35
若根据表中的数据用最小二乘法求得y关于x的回归直线方程为ŷ=6.5x+9,则表中m的值为( )
A.22 B.25.5 C.28.5 D.30
【答案】D
【解析】因为x=0+1+2+3+45=2,所以y=6.5×2+9=22,
因为回归直线方程过样本中心,所以10+15+20+m+35=22×5,
解得m=30.
故选D.
7.(2020•茂名二模)某市2015年至2019年新能源汽车年销量y(单位:百台)与年份代号x的数据如表:
年份
2015
2016
2017
2018
2019
年份代号x
0
1
2
3
4
年销量y
10
15
20
m
35
若根据表中的数据用最小二乘法求得y关于x的回归直线方程为y^=6.5x+9,则表中m的值为( )
A.22 B.25 C.30 D.无法确定
【答案】C
【解析】因为x=0+1+2+3+45=2,代入回归直线方程为y^=6.5x+9,所以,y=6.5×2+9=22,
于是得10+15+20+m+35=22×5,解得m=30.
故选C.
8.(2020•沈阳三模)已知x与y之间的几组数据如表:
x
1
2
3
4
y
1
m
n
4
如表数据中y的平均值为2.5,若某同学对m赋了三个值分别为1.5,2,2.5,得到三条线性回归直线方程分别为y=b1x+a1,y=b2x+a2,y=b3x+a3,对应的相关系数分别为r1,r2,r3,下列结论中错误的是( )
参考公式:线性回归方程y=b̂x+â中,其中b̂=i=1n (xi-x)(yi-y)i=1n (xi-x)2,â=y-b̂x.相关系数r=i=1n (xi-x)(yi-y)i=1n (xi-x)2i=1n (yi-y)2.
A.三条回归直线有共同交点
B.相关系数中,r2最大
C.b1>b2
D.a1>a2
【答案】D
【解析】由题意,1+m+n+4=10,即m+n=5.
若m=1.5,则n=3.5,此时x=1+2+3+44=2.5,y=2.5.
i=14 (xi-x)(yi-y)=(1﹣2.5)(1﹣2.5)+(2﹣2.5)(1.5﹣2.5)
+(3﹣2.5)(3.5﹣2.5)+(4﹣2.5)(4﹣2.5)=5.5,
i=14 (xi-x)2=(﹣1.5)2+(﹣0.5)2+0.52+1.52=5,
i=14 (yi-y)2=(﹣1.5)2+(﹣1)2+12+1.52=6.5.
则b1=5.55=1.1,a1=2.5﹣1.1×2.5=﹣0.25,r1=5.55×6.5≈0.93;
若m=2,则n=3,此时x=1+2+3+44=2.5,y=2.5.
i=14 (xi-x)(yi-y)=(1﹣2.5)(1﹣2.5)+(2﹣2.5)(2﹣2.5)+(3﹣2.5)(3﹣2.5)+(4﹣2.5)(4﹣2.5)=5,
i=14 (xi-x)2=5,i=14 (yi-y)2=(﹣1.5)2+(﹣0.5)2+0.52+1.52=5.
b2=55=1,a2=2.5﹣1×2.5=0,r2=55×5=1;
若m=2.5,则n=2.5,此时x=1+2+3+44=2.5,y=2.5.
i=14 (xi-x)(yi-y)=(1﹣2.5)(1﹣2.5)+(2﹣2.5)(2.5﹣2.5)
+(3﹣2.5)(2.5﹣2.5)+(4﹣2.5)(4﹣2.5)=4.5,
i=14 (xi-x)2=5,i=14 (yi-y)2=(﹣1.5)2+1.52=4.5,r3=4.55×4.5=0.9.
由样本点的中心相同,故A正确;
由以上计算可得,相关系数中,r2最大,b1>b2,a1<a2,故B,C正确,D错误.
故选D.
9.(2020•雅安模拟)一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下,根据如表可得回归方程ŷ=8x+11,则实数a的值为( )
零件数x(个)
2
3
4
5
加工时间y(分钟)
30
a
40
50
A.34 B.35 C.36 D.37
【答案】C
【解析】x=2+3+4+54=3.5,y=30+a+40+504=120+a4,
则样本点的中心坐标为(3.5,120+a4),
代入线性回归方程,得120+a4=8×3.5+11,
解得a=36.
故选C.
10.(2020•包头二模)对两个变量x与y进行线性相关性和回归效果分析,得到一组样本数据:(x1,y1),(x2,y2),……,(xn,yn),则下列说法不正确的是( )
A.残差平方和越小的模型,拟合的效果越好
B.由样本数据利用最小二乘法得到的回归方程表示的直线必过样本点的中心(x,y)
C.若变量x与y之间的相关系数r=0.80,则变量x与y之间具有很强的线性相关性
D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
【答案】D
【解析】对两个变量x与y进行线性相关性和回归效果分析,得到一组样本数据.
残差平方和越小的模型,拟合的效果越好,故A正确;
由样本数据利用最小二乘法得到的回归方程表示的直线必过样本点的中心(x,y),故B正确;
若变量x与y之间的相关系数r=0.80>0.75,则变量x与y之间具有很强的线性相关性,故C正确;
用相关指数R2来刻画回归效果,R2越大,说明模型的拟合效果,故D错误.
故选D.
11.(2020•南岗区校级模拟)某市为了解中学教师学习强国的情况,调查了高中、初中各5所学校,根据教师学习强国人数的统计数据(单位:人),画出如图茎叶图(其中一个数字被污损).并从学习强国的教师中随机抽取了4人,统计了其学习强国的周平均时间(单位:小时)与年龄(单位:岁),并绘制了如图:
年龄
20
30
40
50
周平均学校强国时间
2.5
3
4
4.5
(I)若所调查的5所初中与5所高中学习强国的平均人数相同,求茎叶图中被污损的数字a;
(II)根据表(2)中提供的数据,用最小二乘法求出周平均学习强国时间y关于年龄x的回归直线方程ŷ=b̂x+â,并根据求出的回归方程,预测年龄为52岁的教师周平均学习强国的时间.
参考公式:b^=i=1n (xi-x)(yi-y)i=1n (xi-x)2=i=1n xi⋅yi-nx⋅yi=1n xi2-nx2,â=y-b̂x.
【解析】(1)设被污损的数字为 a
则88+89+90+91+925=83+83+87+90+a+995
解得 a=8,
(2)由表中数据,计算得
x=20+30+40+504=35,y=2.5+3+4+4.54=3.5,
b̂=i=14 xiyi-4xyi=14 xi2-4x2=525-4×35×3.55400-4×352=0.07,
â=y-b̂x=3.5-0.07×35=1.05,
∴周平均学校强国时间 y 关于年龄 x 回归直线方程为
ŷ=0.07x+1.05,
当 x=52 时,ŷ=4.69,
即预测年龄为5 2岁的教师周均学习强国的时间为4.69小时.
12.(2020•衡阳三模)某新兴环保公司为了确定新开发的产品下一季度的营销计划,需了解月宣传费x(单位:千元)对月销售量y(单位:t)和月利润z(单位:千元)的影响,收集了2019年12月至2020年5月共6个月的月宣传费xi和月销售量yi(i=1,2,…,6)的数据如表:
月份
12
1
2
3
4
5
宣传费x
1
3
5
7
9
11
月销售量y
14.21
20.31
31.8
31.18
37.83
44.67
现分别用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:(注残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.)
x
y
i=16 xiyi
i=1 6xi2
6
30
1284.24
286
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除,剔除异常数据后求出(1)中所选模型的回归方程;
(3)已知该产品的月利润z与x,y的关系为z=23(5y-x2),根据(2)的结果回答下列问题:
(i)若月宜传费x=15时,该模型下月销售量y的预报值为多少?
(ii)当月宣传费x为何值时,月利润z的预报值最大?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线y^=b^x+a^的斜率和截距的最小二乘估计分别为b̂=i=1n (xi-x)(yi-y)i=1n (xi-x)2=i=1n xiyi-nxyi=1n xi2-nx2,â=y-b̂x.
【解析】(1)应该选择模型①,
因为模型①残差点一是整体上更接近y=0,
二是比较均匀地落在水平的带状区域中,
说明该模型拟合精度越高,回归方程的预报精度越高.
(2)剔除异常数据,即2020年2月的数据后,得
x=15(6×6-5)=6.2,y=15(30×6-31.8)=29.64,
i=15 xiyi=1284.24-5×31.8=1125.24,
i=15 (xi)2=286-52=261,
b^=i=15 xiyi-nxyi=15 xi2-nx2=1125.24-5×6.2×29.64261-5×6.22=206.468.8=3,
a^=y-b^x=29.64-3×6.2=11.04,
所以y关于x的线性回归方程为:y^=3x+11.04.
(3)(ⅰ)把x=15代入回归方程得:y^=3×15+8.04=53.04,
故预报值约为53.04(千元),
(ⅱ)z=23(5y-x2)=103(3x+11.04)-23x2=-23(x-152)2+74.3,
所以当x=152=7.5(千元)时,月利润预报值最大.
13.(2020•南岗区校级模拟)某高中数学建模兴趣小组的同学为了研究所在地区男高中生的身高与体重的关系,从若干个高中男学生中抽取了1000个样本,得到如下数据.
数据一:身高在[170,180)(单位:cm)的体重频数统计
体重(kg)
[50,55)
[55,60)
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
[85,90)
人数
20
60
100
100
80
20
10
10
数据二:身高所在的区间含样本的个数及部分数据
身高x(cm)
[140,150)
[150,160)
[160﹣170)
[170﹣180)
[180﹣190)
平均体重y(kg)
45
53.6
60
75
(Ⅰ)依据数据一将下面男高中生身高在[170﹣180)(单位:cm)体重的频率分布直方图补充完整,并利用频率分布直方图估计身高在[170﹣180)(单位:cm)的中学生的平均体重;(保留小数点后一位)
(Ⅱ)依据数据一、二,计算身高(取值为区间中点)和体重的相关系数约为0.99,能否用线性回归直线来刻画中学生身高与体重的相关关系,请说明理由;若能,求出该回归直线方程;
(Ⅲ)说明残差平方和或相关指数R2与线性回归模型拟合效果之间关系.(只需写出结论,不需要计算)
参考公式:b̂=i=1n (xi-x)(yi-y)i=1n (xi-x)2=i=1n xiyi-nx⋅yi=1n xi2-nx2,â=y-b̂x.
参考数据:(1)145×45+155×53.6+165×60+185×75=38608;
(2)1452+1552+1652+1752+1852﹣5×1652=1000.
(3)663×175=116025,664×175=116200,665×175=116375.
(4)728×165=120120.
【解析】(1)身高在[170,180)的总人数为:
20+60+100+100+80+20+10+10=400,
体重在[55﹣60)的频率为:
60400=0.15,
体重在[70﹣75)的 频率为:
80400=0.2,
平均体重为:
52.5×0.05+57.5×0.15+62.5×0.25+67.5×0.25+72.5×0.2
+77.5×0.05+82.5×0.025+87.5×0.025≈66.4,
(2)因为 r=0.99→1,线性相关很强,故可以用线性回归直线来
刻画中学生身高与体重的相关,
x=145+155+165+175+1855=165,y=45+75+60+53.6+66.45=60,
b̂=i=18 xiyi-8x⋅yi=18 xi2-8x2=38608+175×66.4-5×165×601000=0.728,
â=y-b̂x=60-0.728×165=-60.12,
所以回归直线方程为:ŷ=0.728x-60.12,
(3)残差平方和越小或相关指数 R2 越接近于1,线性回归模型拟合效果越好.
14.(2020•二模拟)在一定范围内,植物的生长受到空气、水、温度、光照和养分等因素的影响,某试验小组为了研究光照时长对某种植物增长高度的影响,在保证其他因素相同的条件下,对该植物进行不同时长的光照试验,经过试验,得到6组该植物每8的光照时间x(单位:h)和每日平均增长高度)(单位:mm)的数据.
x
5
6
7
8
9
10
y
0.4
3.5
5.2
7.0
8.6
10.7
(1)该小组分别用模型①ŷ=b̂x+â和模型②ŷ=em̂x+n̂对以上数据进行拟合,得到回归模型,并计算出模型的残差如表:(模型①和模型②的残差分别为的e1和e2,残差ei=yi-yi)
x
5
6
7
8
9
10
y
0.4
3.5
5.3
7.0
8.6
10.7
e1
﹣0.6
0.54
0.28
0.12
﹣0.24
﹣0.1
e2
﹣0.63
1.71
2.10
1.63
﹣0.7
﹣5.42
根据上表的残差数据,应选择哪个模型来刻画该植物每日的光照时间与每日平均增长高度的关系较为合适,简要说明理由;
(2)为了优化模型,将(1)中选择的模型残差绝对值最大所对应的一组数据(x.y)剔除,根据剩余的5组数据,求该模型的回归方程,并预测光照时间为11h时,该植物的平均增长高度.
(剔除数据前的参考数据:x=7.5,y=5.9,i=16 xiyi=299.8,i=16 xi2=355,z=lny.z≈-1.41,i=16 xizi=﹣73.10,ln10.7≈2.37,e4.034≈56.49.)
参考公式:b̂=i=1n (xi-x)i=1n (xi-x)2=i=1n xiyi-nxyi=1n xi2-nx-2,â=y-b̂x.
【解析】(1)应选择模型①,因为模型①每组数据对应的残差绝对值都比模型②的小,
残差波动小,残差点比较均匀地落在水平的带状区域内,说明拟合精度高;
(2)由(1)知,需剔除第一组数据,
则剔除后的x=7.5×6-55=8,y=5.9×6-0.45=7,
5xy=280,5x2=320,i=15 xiyi=299.8-5×0.4=297.8,i=15 xi2=355-25=330.
∴b̂=i=15 xiyi-5xyi=15 xi2-5x2=297.8-280330-320=1.78,â=y-b̂x=7-1.78×8=-7.24.
得①的回归方程为ŷ=1.78x-7.24.
则当x=11时,ŷ=1.78×11-7.24=12.34(mm).
故光照时间为11h时,该植物的平均增长高度为12.34mm.
15.(2020•龙凤区校级模拟)交通安全法有规定:机动车行经人行横道时,应当减速行驶,遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过马路,应当避让.我们将符合这条规定的称为“礼让斑马线”,不符合这条规定的称为“不礼让斑马线”.如表是大庆市某十字路口监控设备所抓拍的5个月内驾驶员“不礼让斑马线”行为的统计数据:
月份x
1
2
3
4
5
“不礼让斑马线”的驾驶员人数y
120
105
100
85
90
(1)根据表中所给的5个月的数据,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;
(2)求“不礼让斑马线”的驾驶员人数y关于月份x之间的线性回归方程;
(3)若从4,5月份“不礼让斑马线”的驾驶员中分别选取4人和2人,再从所选取的6人中任意抽取2人进行交规调查,求抽取的2人分别来自两个月份的概率;
参考公式,线性回归方程ŷ=b̂x+â,b^=i=1n (xi-x)(yi-y)i=1n (xi-x)2=i=1n xiyi-nxyi=1n xi2-nx2,a^=y-b^x,
相关系数r=i=1n (xi-x)(yi-y)i=1n (xi-x)2i=1n (yi-y)2.
【解析】(1)依题意x=3,y=100,i=15 xiyi=1420,i=15 xi2=55,
i=15 (xi-x)(yi-y)=-80,i=15 (xi-x)2i=15 (yi-y)2=7500,
计算r=i=1n (xi-x)(yi-y)i=1n (xi-x)2i=1n (yi-y)2=-807500≈-0.921,
∵|r|=0.921>0.75,∴y与x具有很强的线性相关关系;
(2)b̂=i=15 xiyi-5xyi=15 xi2-5x2=1420-5×3×10055-5×9=-8,â=y-b̂x=100-(-8)×3=124,
∴y关于月份x之间的线性回归方程为y=﹣8x+124;
(3)从4月份选取的4人分别记为a1,a2,a3,a4,从5月份选取的2人分别记为b1,b2.
从这6人中任意抽取2人进行交规调查包含的基本事件有:(a1,a2),(a1,a3),(a1,a4),(a1,b1),
(a1,b2),(a2,a3),(a2,a4),(a2,b1),(a2,b2),(a3,a4),(a3,b1),(a3,b2),
(a4,b1),(a4,b2),(b1,b2)共15个,
其中“抽取的2人分别来自两个月份”包含的基本事件为:(a1,b1),(a1,b2),(a2,b1),(a2,b2),
(a3,b1),(a3,b2),(a4,b1),(a4,b2)共8个,
设抽取的2人分别来自两个月份为事件A,则P(A)=815.
16.(2020•南岗区校级四模)H市某企业坚持以市场需求为导向,合理配置生产资源,不断改革、探索销售模式.下表是该企业每月生产的一种核心产品的产量x(吨)与相应的生产总成本y(万元)的五组对照数据.
产量x(件)
1
2
3
4
5
生产总成本y(万元)
3
7
8
10
12
(Ⅰ)根据上达数据,若用最小二乘法进行线性模拟,试求y关于x的线性回归直线方程y^=b^x+a^;
参考公式:b^=i=1n xiyi-nxyi=1n xi2-nx2,a^=y-b^x.
(Ⅱ)记第(Ⅰ)问中所求y与x的线性回归直线方程y^=b^x+a^为模型①,同时该企业科研人员利用计算机根据数据又建立了y与x的回归模型②:y^=12x2+1.其中模型②的残差图(残差=实际值﹣预报值)如图所示:
请完成模型①的残差表与残差图,并根据残差图,判断哪一个模型更适宜作为y关于x的回归方程?并说明理由;
(Ⅲ)根据模型①中y与x的线性回归方程,预测产量为6吨时生产总成本为多少万元?
【解析】(Ⅰ)计算x=15(1+2+3+4+5)=3,
y=15(3+7+8+10+12)=8,
i=15 xi2=12+22+32+42+52=55,
i=15 xiyi=1⋅3+2⋅7+3⋅8+4⋅10+5⋅12=141,
b^=i=15 xiyi-nxyi=15 xi2-nx2=141-5×3×855-5×9=2.1,
a^=y-b^x=8-2.1×3=1.7,
因此,回归直线方程为y^=2.1x+1.7.
(Ⅱ)模型①的残差表为:
x
1
2
3
4
5
y
3
7
8
10
12
y^
3.8
5.9
8
10.1
12.2
e^
﹣0.8
1.1
0
﹣0.1
﹣0.2
画出残差图,如图所示;
结论:模型①更适宜作为y关于x的回归方程,因为:
理由1:模型①的4个样本点的残差点落在的带状区域比模型②的带状区域更窄;
理由2:模型①的4个样本点的残差点比模型②的残差点更贴近进x轴..
(不列残差表不扣分,写出一个理由即可得分.)
(Ⅲ)根据模型①中y与x的线性回归直线程,
计算x=6时,y^=2.1×6+1.7=14.3,
所以预测产量为6吨时生产总成本为14.3万元.