- 1.84 MB
- 2021-06-23 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
11.3 相关性、最小二乘估计、回归分析与独立性检验
核心考点·精准研析
考点一 相关关系的判断
1.已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是 ( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是 ( )
A.r20时,正相关;b<0时,负相关.
考点二 独立性检验
- 13 -
【典例】(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图所示:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg, 新养殖法的箱产量不低于50 kg”,估计A的概率.
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
χ2=
【解题导思】
序号
联想解题
(1)
以频率代替概率,相互独立时交事件概率等于两事件概率的积
(2)
填入数据,代入χ2公式计算,与临界值比较
(3)
中位数把频率分布直方图分为面积相等的两部分
【解析】(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).
- 13 -
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
由表中数据及χ2的计算公式得,
χ2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为50+≈52.35(kg).
1.在2×2列联表中,|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算.
(3)比较χ2与临界值的大小关系,作统计推断.
- 13 -
(2020·合肥模拟)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否有95%的把握认为科学类的选择与性别有关?
选择自然
科学类
选择社会
科学类
合计
男生
女生
合计
附:χ2=,其中n=a+b+c+d.
【解析】(1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.
(2)根据统计数据,可得2×2列联表如表:
选择自然
科学类
选择社会
科学类
合计
男生
60
45
105
女生
30
45
75
合计
90
90
180
则χ2==≈5.142 9>3.841,
所以有95%的把握认为科学类的选择与性别有关.
考点三 回归分析
命
题
精
1.考什么:(1)考查线性回归方程的求法及运用回归方程进行预测.(2)考查散点图、相关系数等判断两个变量是否相关的方法.(3)考查数学运算、数据分析的核心素养及数形结合等思想方法.
2.怎么考:与频率分布表、频率分布直方图、折线图等结合考查回归分析的方法.
- 13 -
解
读
3.新趋势:以回归分析为载体,与频率分布、概率等交汇命题.
学
霸
好
方
法
1.回归分析方法:
(1)利用公式,求出回归系数.(2)利用回归方程进行预测.(3)确定模型是否合适,及时修正.
2.交汇问题: 与频率分布直方图、折线图等交汇时,分析图形提供的数据信息,获得计算相关系数、回归系数等需要的数据,最后计算比较.
线性回归方程及其应用
【典例】现代社会,“鼠标手”已成为常见病,一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率等指标.
(1)10 名实验对象实验前、后握力(单位:N)测试结果如下:
实验前:346,357,358,360,362,362,364,372,373,376
实验后:313,321,322,324,330,332,334,343,350,361
完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N?
(2)实验过程中测得时间t(分)与10名实验对象前臂表面肌电频率的中值频率y(Hz)的九组对应数据(t,y)为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立y关于时间t的线性回归方程;
(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?
参考数据:(ti-)(yi-)=-1 800;
参考公式:回归方程y=bx+a中斜率和截距的最小二乘估计公式分别为:
- 13 -
b=,a=-b.
【解析】(1)根据题意得到茎叶图如图所示:
由图中数据可得=×(346+357+358+360+362+362+364+372+373+376)=363,
=×(313+321+322+324+330+332+334+343+350+361)=333,
所以-=363-333=30(N),
所以实验后比实验前握力的平均值下降30N.
(2)由题意得=(0+20+40+60+80+100+120+140+160)=80,
=(87+84+86+79+78+78+76+77+75)=80,
(ti-)2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24 000,
又(ti-)(yi-)=-1 800,
所以b===-0.075,
- 13 -
所以a=-b=80-(-0.075)×80=86,
所以y关于时间t的线性回归方程为y=-0.075t+86.
(3)九组数据中40分钟到60分钟y的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了.
相关系数及其应用
【典例】科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如表:
x
(年龄/
岁)
26
27
39
41
49
53
56
58
60
61
y
(脂肪含
量/%)
14.5
17.8
21.2
25.9
26.3
29.6
31.4
33.5
35.2
34.6
根据表中的数据得到如图的散点图.
(1)根据表中的样本数据及其散点图.
(i)求;
(ii)计算样本相关系数(精确到0.01),并刻画它们的相关程度.
(2)若y关于x的线性回归方程为y=1.56+bx,求b的值(精确到0.01),并根据回归方程估计年龄为50岁时人体的脂肪含量.
附:参考数据:=27,xiyi=13 527.8,=23 638,=7 759.6,≈6.56,≈54.18,
- 13 -
参考公式:相关系数r==
回归方程y=a+bx中斜率和截距的最小二乘估计公式分别为b=,a=-b.
【解析】(1)根据表中的样本数据及其散点图:
(ⅰ)==47.
(ⅱ)r=
=
=
=
- 13 -
=.
因为≈6.56,≈54.18,
所以r≈0.98.
由样本相关系数r≈0.98,可以推断人体脂肪含量和年龄的相关程度很强.
(2)因为回归方程为y=1.56+bx,即a=1.56.
所以b==≈0.54.
【或利用b==
=≈0.54】
所以y关于x的线性回归方程为y=0.54x+1.56.
将x=50代入线性回归方程得y=0.54×50+1.56=28.56.
所以根据回归方程估计年龄为50岁时人体的脂肪含量为28.56%.
非线性回归分析
【典例】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到如图散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)
(wi-)
- 13 -
·(yi-)
·(yi-)
46.6
563
6.8
289.8
1.6
1.469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
【解析】(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由d===68.
得c=-d=563-68×6.8=100.6.
所以y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为y=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值y=100.6+68=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值z=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.
1.已知两个随机变量x,y之间的相关关系如表所示:
x
-4
-2
1
2
4
y
-5
-3
-1
-0.5
1
- 13 -
根据上述数据得到的回归方程为y=bx+a,则大致可以判断 ( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
【解析】选C.作出散点图,画出回归直线直观判定b>0,a<0.
2.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y=bx+a,已知xi=225,yi=1 600,b=4.该班某学生的脚长为24,据此估计其身高为 ( )
A.160 B.163 C.166 D.170
【解析】选C.由题意可知y=4x+a,
又=22.5,=160,
因此160=22.5×4+a,解得a=70所以y=4x+70.
当x=24时,y=4×24+70=166.
3.某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元)数据如表:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程.
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:y=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额.
参考数据:=8,=42,xiyi=2 794,=708.
参考公式:b=,a=-b.
- 13 -
【解析】(1)b===1.7.
所以a=-b=42-1.7×8=28.4,
故y关于x的线性回归方程是y=1.7x+28.4.
(2)因为0.75<0.93,所以二次函数回归模型更合适.
当x=3时,y=33.47.
故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.
近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付,某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),绘制了如图所示的散点图:
(1)根据散点图判断在推广期内,y=a+bx与y=c·dx(c,d为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果求y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.
参考数据:
xiyi
xivi
100.54
4
62
1.54
2 535
50.12
140
3.47
其中vi=lg yi,=vi
【解析】(1)根据散点图判断,y=c·dx适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型.
(2)因为y=c·dx,两边取常用对数得:
- 13 -
lg y=lg=lg c+lg d·x,
设lg y=v,所以v=lg c+lg d·x
因为=4,=1.54,=140,
所以lg d====
0.25,
把样本点的中心(4,1.54)代入v=lg c+lg d·x得:
lg c=0.54,所以v=0.54+0.25x,
则lg y=0.54+0.25x
所以y关于x的回归方程为y=100.54+0.25x,
把x=8代入上式得:y=100.54+0.25×8≈347,
故活动推出第8天使用扫码支付的人次约为3 470.
- 13 -
相关文档
- 高三数学(理数)总复习练习专题十八 2021-06-2344页
- 专题17+统计与统计案例(命题猜想)-202021-06-2314页
- 2020届高考数学一轮复习单元检测(理2021-06-239页
- 2019高三数学(人教A版 文)一轮重点强2021-06-2312页
- 2018届二轮复习统计与统计案例课件2021-06-2371页
- 专题18 统计与统计案例(第01期)-20182021-06-236页
- 高三数学(文数)总复习练习专题十五 2021-06-2355页
- 专题17+统计与统计案例(仿真押题)-202021-06-2213页
- 2019届二轮复习(理)专题七概率与统计2021-06-2242页
- 专题10-2 统计与统计案例(测)-2018年2021-06-227页