- 229.59 KB
- 2021-05-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
高考数学考点归纳之 变量间的相关关系与统计案例
一、基础知识
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关
系不同,相关关系是一种非确定性关系. 体现的不一定是因果关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称
为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,
称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为y^=b^x+a^,其中
(3)通过求错误!的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距
离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当 r>0 时,表明两个变量正相关;
当 r<0 时,表明两个变量负相关.
r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明
两个变量之间几乎不存在线性相关关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相
关性.
3.独立性检验
(1)2×2 列联表
设 X,Y 为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2
列联表)如下:
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
(2)独立性检验
利用随机变量 K2(也可表示为χ2)的观测值 k= nad-bc2
a+bc+da+cb+d(其中 n=a+b+c
+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
二、常用结论
(1)求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点 ( x ,
y ).
(2)根据 K2 的值可以判断两个分类变量有关的可信程度,若 K2 越大,则两分类变量有关
的把握越大.
(3)根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.
考点一 回归分析
考法(一) 求线性回归方程
[典例] (2019·湘东五校联考)已知具有相关关系的两个变量 x,y 的几组数据如下表所示:
x 2 4 6 8 10
y 3 6 7 10 12
(1)请根据上表数据在网格纸中绘制散点图;
(2)请根据上表数据,用最小二乘法求出 y 关于 x 的线性回归方程y^=b^x+a^,并估计当 x
=20 时 y 的值.
参考公式:b^=错误!,a^= y -b^ x .
[解] (1)散点图如图所示:
(2)依题意, x =1
5
×(2+4+6+8+10)=6,
y =1
5
×(3+6+7+10+12)=7.6,
错误!2i =4+16+36+64+100=220,错误!iyi=6+24+42+80+120=272,
∴b^=错误!=272-5×6×7.6
220-5×62
=44
40
=1.1,
∴a^=7.6-1.1×6=1,
∴线性回归方程为y^=1.1x+1,故当 x=20 时,y=23.
考法(二) 相关系数及应用
[典例] 如图是我国 2012 年至 2018 年生活垃圾无害化处理量(单位:亿吨)的折线图.
由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明.
参考数据:错误!i=9.32,错误!iyi=40.17, 错误!=0.55, 7≈2.646.
参考公式:相关系数 r=错误!.
[解] 由折线图中数据和参考数据及公式得 t =4,
错误!(ti- t )2=28, 错误!=0.55,
错误! (ti - t )(yi - y ) = 错误! iyi - t 错误! i = 40.17 - 4×9.32 = 2.89 ,
r≈ 2.89
0.55×2×2.646
≈0.99.
因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线
性回归模型拟合 y 与 t 的关系.
[解题技法]
1.线性回归分析问题的类型及解题方法
(1)求线性回归方程:
①利用公式,求出回归系数b^,a^.
②待定系数法:利用回归直线过样本点中心求系数.
(2)利用回归方程进行预测:
把回归直线方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b^.
2.模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数 R2 越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于 1 时,两变量的线性相
关性越强.
[题组训练]
1.(2019·惠州调研)某商场为了了解毛衣的月销售量 y(件)与月平均气温 x(℃)之间的关
系,随机统计了某 4 个月的月销售量与当月平均气温,其数据如下表:
月平均气温 x/℃ 17 13 8 2
月销售量 y/件 24 33 40 55
由表中数据算出线性回归方程y^=b^x+a^中的b^=-2,气象部门预测下个月的平均气温约
为 6 ℃,据此估计该商场下个月毛衣销售量约为( )
A.46 件 B.40 件
C.38 件 D.58 件
解析:选 A 由题中数据,得 x =10, y =38,回归直线y^=b^x+a^过点( x , y ),且
b^=-2,代入得a^=58,则回归方程y^=-2x+58,所以当 x=6 时,y=46,故选 A.
2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间
的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交
车队统计了活动刚推出一周内每天使用扫码支付的人次,用 x 表示活动推出的天数,y 表示
每天使用扫码支付的人次,统计数据如下表:
x 1 2 3 4 5 6 7
y 60 110 210 340 660 1 010 1 960
根据以上数据,绘制了散点图.
参考数据:
y v 错误!iyi 错误!ivi 100.54
621 2.54 25 350 78.12 3.47
其中 vi=lg yi, v =1
7
错误!i.
(1)根据散点图判断,在推广期内,y=a+bx 与 y=c·dx(c,d 均为大于零的常数)哪一个
适宜作为扫码支付的人次 y 关于活动推出天数 x 的回归方程类型(给出判断即可,不必说明
理由)?
(2)根据(1)的判断结果及上表中数据,建立 y 关于 x 的回归方程,并预测活动推出第 8
天使用扫码支付的人次.
参考公式:
对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v^=α^+β^μ的斜率和截距的最
小二乘估计公式分别为β=错误!,α^= v -β^ U .
解:(1)根据散点图可以判断,y=c·dx 适宜作为扫码支付的人次 y 关于活动推出天数 x
的回归方程类型.
(2)y=c·dx 两边同时取常用对数,得 lg y=lg(c·dx)=lg c+xlg d,
设 lg y=v,则 v=lg c+xlg d.
∵ x =4, v =2.54,错误!2i =140,
∴lg d=错误!≈78.12-7×4×2.54
140-7×42
=0.25,
把(4,2.54)代入 v=lg c+xlg d,得 lg c=1.54,
∴v^=1.54+0.25x,∴y^=101.54+0.25x=101.54·(100.25)x.
把 x=8 代入上式,得y^=101.54+0.25×8=103.54=103×100.54=3 470,
∴y 关于 x 的回归方程为y^=101.54·(100.25)x,活动推出第 8 天使用扫码支付的人次为 3 470.
考点二 独立性检验
[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完
成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他
们随机分成两组,每组 20 人.第一组工人用第一种生产方式,第二组工人用第二种生产方
式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过 m
和不超过 m 的工人数填入下面的列联表:
超过 m 不超过 m
第一种生产方式
第二种生产方式
(2)根据(1)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?
附:K2= nad-bc2
a+bc+da+cb+d
,
[解] (1)由茎叶图知 m=79+81
2
=80.
列联表如下:
超过 m 不超过 m
第一种生产方式 15 5
第二种生产方式 5 15
(2)因为 K2=4015×15-5×52
20×20×20×20
=10>6.635,所以有 99%的把握认为两种生产方式的效
率有差异.
[解题技法]
2 个明确
(1)明确两类主体;
(2)明确研究的两个问题
2 个关键
(1)准确画出 2×2 列联表;
(2)准确求解 K2
3 个步骤
(1)根据样本数据制成 2×2 列联表;
(2)根据公式 K2= nad-bc2
a+bc+da+cb+d
,计算 K2 的值;
(3)查表比较 K2 与临界值的大小关系,作统计判断
[题组训练]
1.(2019·沧州模拟)某班主任对全班 50 名学生进行了作业量的调查,数据如表:
认为作业量大 认为作业量不大 总计
男生 18 9 27
女生 8 15 23
总计 26 24 50
已知 P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025,P(K2≥6.635)≈0.010.
则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大
有关”.
解析:因为 K2=50×18×15-8×92
26×24×27×23
≈5.059>5.024,
所以有 97.5%的把握认为“学生的性别与认为作业量大有关”.
答案:有
2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:
未发病 发病 总计
未注射疫苗 20 x A
注射疫苗 30 y B
总计 50 50 100
现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为2
5.
(1)求 2×2 列联表中的数据 x,y,A,B 的值.
(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?
(3)能否在犯错误的概率不超过 0.001 的前提下认为疫苗有效?
附:K2= nad-bc2
a+bc+da+cb+d
,n=a+b+c+d.
临界值表:
P(K2≥k0) 0.05 0.01 0.005 0.001
k0 3.841 6.635 7.879 10.828
解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件 M,
由已知得 P(M)=y+30
100
=2
5
,
所以 y=10,则 B=40,x=40,A=60.
(2)未注射疫苗发病率为40
60
=2
3
≈0.67,
注射疫苗发病率为10
40
=1
4
=0.25.
发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.
(3)因为 K2=100×20×10-40×302
60×40×50×50
≈16.67>10.828.
所以能在犯错误的概率不超过 0.001 的前提下认为疫苗有效.
[课时跟踪检测]
A 级
1.对变量 x,y 有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量 u,v 有
观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量 x 与 y 正相关,u 与 v 正相关
B.变量 x 与 y 正相关,u 与 v 负相关
C.变量 x 与 y 负相关,u 与 v 正相关
D.变量 x 与 y 负相关,u 与 v 负相关
解析:选 C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图
②的线性回归方程斜率为正,则由散点图可判断变量 x 与 y 负相关,u 与 v 正相关.
2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支
出费用的关系,随机调查了该社区 5 户家庭,得到如下统计表:
购买食品的年支出
费用 x/万元 2.09 2.15 2.50 2.84 2.92
购买水果和牛奶的
年支出费用 y/万元 1.25 1.30 1.50 1.70 1.75
根据上表可得回归方程y^=b^x+a^,其中b^=0.59,a^= y -b^ x ,据此估计,该社区一
户购买食品的年支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为( )
A.1.795 万元 B.2.555 万元
C.1.915 万元 D.1.945 万元
解析:选 A x =1
5
×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y =1
5
×(1.25+1.30
+1.50+1.70+1.75)=1.50(万元),其中b^=0.59,则a^= y -b^ x =0.025,y^=0.59x+0.025,
故年支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为y^=0.59×3.00+0.025=
1.795(万元).
3.下面四个命题中,错误的是( )
A.从匀速传递的产品生产流水线上,质检员每 15 分钟从中抽取一件产品进行某项指
标检测,这样的抽样是系统抽样
B.对分类变量 X 与 Y 的随机变量 K2 的观测值 k 来说,k 越大,“X 与 Y 有关系”的把
握程度越大
C.两个随机变量相关性越强,则相关系数的绝对值越接近于 0
D.在回归直线方程y^=0.4x+12 中,当解释变量 x 每增加一个单位时,预报变量平均
增加 0.4 个单位
解析:选 C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于 1,故 C
错误.
4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问 100 名性别
不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘” 能做到“光盘”
男 45 10
女 30 15
则下面的正确结论是( )
附表及公式:
P(K2≥k0) 0.100 0.050 0.010 0.001
k0 2.706 3.841 6.635 10.828
K2= nad-bc2
a+bc+da+cb+d
,n=a+b+c+d.
A.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别无
关”
C.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别有
关”
D.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:选 A 由列联表得到 a=45,b=10,c=30,d=15,则 a+b=55,c+d=45,a
+c=75,b+d=25,ad=675,bc=300,n=100,计算得 K2 的观测值 k=
nad-bc2
a+bc+da+cb+d
=100×675-3002
55×45×75×25
≈3.030.因为 2.706<3.030<3.841,
所以有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了 100 名工人,且规
定日平均生产件数不少于 80 件者为“生产能手”,列出的 2×2 列联表如下:
生产能手 非生产能手 总计
25 周岁以上 25 35 60
25 周岁以下 10 30 40
总计 35 65 100
有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.
解析:由 2×2 列联表可知,K2=100×25×30-10×352
40×60×35×65
≈2.93,因为 2.93>2.706,所
以有 90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.
答案:90%
6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存
款(年底余额)如下表:
年份 2014 2015 2016 2017 2018
时间代号 t 1 2 3 4 5
储蓄存款 y
(千亿元)
5 6 7 8 10
则 y 关于 t 的回归方程是________________.
解析:由表中数据得 n=5, t =1
n
错误!i=15
5
=3, y =1
n
错误!i=36
5
=7.2.
又错误!2i -n t 2=55-5×32=10,
错误!iyi-n t y =120-5×3×7.2=12.
从而b^=错误!=12
10
=1.2,
a^= y -b^ t =7.2-1.2×3=3.6,
故所求回归方程为y^=1.2t+3.6.
答案:y^=1.2t+3.6
7.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定
此次广告费支出.广告费支出 x(万元)和销售量 y(万台)的数据如下:
年份 2012 2013 2014 2015 2016 2017 2018
广告费支
出 x
1 2 4 6 11 13 19
销售量 y 1.9 3.2 4.0 4.4 5.2 5.3 5.4
(1)若用线性回归模型拟合 y 与 x 的关系,求出 y 关于 x 的线性回归方程;
(2)若用 y=c+d x模型拟合 y 与 x 的关系,可得回归方程y^=1.63+0.99 x,经计算线
性回归模型和该模型的 R2 分别约为 0.75 和 0.88,请用 R2 说明选择哪个回归模型更好;
(3)已知利润 z 与 x,y 的关系为 z=200y-x.根据(2)的结果,求当广告费 x=20 时,销售
量及利润的预报值.
参考公式:回归直线y^=a^+b^x 的斜率和截距的最小二乘估计分别为
b^=错误!=错误!,a^= y -b^ x .
参考数据: 5≈2.24.
解:(1)∵ x =8, y =4.2,错误!iyi=279.4,错误!2i =708,
∴b^=错误!=279.4-7×8×4.2
708-7×82
=0.17,a^= y -b^ x =4.2-0.17×8=2.84,
∴y 关于 x 的线性回归方程为y^=0.17x+2.84.
(2)∵0.75<0.88 且 R2 越大,反映残差平方和越小,模型的拟合效果越好,
∴选用y^=1.63+0.99 x更好.
(3)由(2)知,当 x=20 时,销售量的预报值y^=1.63+0.99 20≈6.07(万台),利润的预报
值 z=200×(1.63+0.99 20)-20≈1 193.04(万元).
B 级
1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导
学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,
分别从两个班级各随机抽取 20 名学生的成绩进行统计,得到如下茎叶图.记成绩不低于 70
分者为“成绩优良”.
(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;
(2)构造一个教学方式与成绩优良的 2×2 列联表,并判断能否在犯错误的概率不超过
0.05 的前提下认为“成绩优良与教学方式有关”.
附:K2= nad-bc2
a+bc+da+cb+d
,其中 n=a+b+c+d.
临界值表:
P(K2≥k0) 0.10 0.05 0.025 0.010
k0 2.706 3.841 5.024 6.635
解:(1)“导学案”教学方式教学效果更佳.
理由 1:乙班样本数学成绩大多在 70 分以上,甲班样本数学成绩 70 分以下的明显更多.
理由 2:甲班样本数学成绩的平均分为 70.2;乙班样本数学成绩的平均分为 79.05.
理由 3:甲班样本数学成绩的中位数为68+72
2
=70,乙班样本数学成绩的中位数为
77+78
2
=77.5.
(2)2×2 列联表如下:
甲班 乙班 总计
成绩优良 10 16 26
成绩不优良 10 4 14
总计 20 20 40
由上表数据可得 K2=40×10×4-10×162
20×20×26×14
≈3.956>3.841,
所以能在犯错误的概率不超过 0.05 的前提下认为“成绩优良与教学方式有关”.
2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各
类蔬菜.过去 50 周的资料显示,该地周光照量 X(单位:小时)都
在 30 小时以上,其中不足 50 小时的有 5 周,不低于 50 小时且不超过 70 小时的有 35 周,
超过 70 小时的有 10 周.根据统计,该基地的西红柿增加量 y(千克)与使用某种液体肥料的
质量 x(千克)之间的对应数据为如图所示的折线图.
(1)依据折线图计算相关系数 r(精确到 0.01),并据此判断是否可用线性回归模型拟合 y
与 x 的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但
每周光照控制仪运行台数受周光照量 X 限制,并有如下关系:
周光照量 X/小时 30<X<50 50≤X≤70 X>70
光照控制仪运行台数 3 2 1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为 3 000 元;若
某台光照控制仪未运行,则该台光照控制仪周亏损 1 000 元.若商家安装了 3 台光照控制仪,
求商家在过去 50 周的周总利润的平均值.
相关系数公式:r=错误!,
参考数据: 0.3≈0.55, 0.9≈0.95.
解:(1)由已知数据可得 x =2+4+5+6+8
5
=5,
y =3+4+4+4+5
5
=4.
因为错误!(xi- x )(yi- y )=(-3)×(-1)+0+0+0+3×1=6,
错误!= -32+-12+02+12+32=2 5,
错误!= -12+02+02+02+12= 2,
所以相关系数 r=错误!= 6
2 5× 2
= 0.9≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合 y 与 x 的关系.
(2)由条件可得在过去 50 周里,
当 X>70 时,共有 10 周,此时只有 1 台光照控制仪运行,
每周的周总利润为 1×3 000-2×1 000=1 000(元).
当 50≤X≤70 时,共有 35 周,此时有 2 台光照控制仪运行,
每周的周总利润为 2×3 000-1×1 000=5 000(元).
当 30<X<50 时,共有 5 周,此时 3 台光照控制仪都运行,
每周的周总利润为 3×3 000=9 000(元).
所以过去 50 周的周总利润的平均值为
1 000×10+5 000×35+9 000×5
50
=4 600(元),
所以商家在过去 50 周的周总利润的平均值为 4 600 元.