- 1.13 MB
- 2021-06-11 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
考点52 变量间的相关关系与独立性检验
【考纲要求】
1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;
3.了解独立性检验,并能应用这些方法解决一些实际问题.
4.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.
【命题规律】
分析近几年的高考试题不难知一般对回归直线的考查主要考查数据处理能力与计算能力,考查回归直线方程的求法及样本中心点的应用;对于独立性检验问题,常常与概率、分布列、期望和方差进行综合考查,主要体现为根据数据能够得到其列联表,然后利用进行独立性检验.预计2018年高考对本部分的考查侧重于以下几个方面:(1)回归直线方程的求法和应用,常常会在小题中出现;(2)独立性检验思想的应用,可在小题中单独考查,也可能与概率统计知识在解答题中出现,总之估计高考对本部分的考查会有所增强.
【典型高考试题变式】
(一)变量相关关系的判断
例1 【2015年湖北卷】已知变量和满足关系,变量与正相关. 下列结论中正确的是( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与正相关,与负相关 D.与负相关,与正相关
【答案】A
【方法技巧与归纳】在散点图中,如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.画散点图时,两组数据中可以任选一组作为横坐标取值,另一组作为纵坐标取值且平面直角坐标系中两坐标轴的长度单位可以不同.
【变式1】【变为利用频率等高条形判断相关关系】观察下面频率等高条形图,其中两个分类变量
之间关系最强的是( )
A. B. C. D.
【答案】D
【变式2】【变为利用相关系数判断相关关系】若回归直线,则与之间的相关系数( )
A. B. C. D.
【答案】D
【解析】∵回归直线,∴两个变量,之间是一个负相关的关系,∴相关系数是一个负数,∴,故选D.
(二)回归方程的求法与回归分析
例2 【2016年新课标Ⅲ卷】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:,,,≈2.646.
参考公式:相关系数
回归方程 中斜率和截距的最小二乘估计公式分别为:
【答案】(Ⅰ),说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系;(Ⅱ)1.82亿吨
(Ⅱ)由及(Ⅰ)得,
.
所以,关于的回归方程为:.
将2016年对应的代入回归方程得:.
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
【方法技巧与归纳】判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数公式求出,然后根据的大小进行判断.求线性回归方程时再严格按照公式求解,一定要注意计算的准确性.
规律总结:(1)最小二乘法估计的一般步骤:①作出散点图,判断是否线性相关;②若是,则用公式求
,写出回归方程;③根据方程进行估计.(2)回归直线必过定点.
【变式1】【变折线图给出数据为表格给出数据,同时变为自己计算相关数据进行求解】某省的一个气象站观测点在连续4天里记录的指数与当天的空气水平可见度(单位: )的情况如表1:
该省某市2016年11月指数频数分布如表2:
频数
3
6
12
6
3
(1)设,根据表1的数据,求出关于的线性回归方程;
(附参考公式: ,其中, )
(2)小李在该市开了一家洗车店,经统计,洗车店平均每天的收入与指数由相关关系,如表3:
日均收入(元)
根据表3估计小李的洗车店该月份平均每天的收入.
【答案】(1) (2)2400元
【解析】(1), ,
,
,
∴, ,
所以关于的线性回归方程为.
(2)根据表3可知,该月30天中有3天每天亏损约2000元,有6天每天亏损约1000元,有12天每天
收入约2000元,有6天每天收入约6000元,有3天每天收入约8000元,估计小李的洗车店该月份平均每天的收入约为元.
【变式2】【变试题背景且须先画散点图判断相关性再求回归模型】某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第年与年销量 (单位:万件)之间的关系如表:
(Ⅰ)在图中画出表中数据的散点图;
(Ⅱ)根据(Ⅰ)中的散点图拟合与的回归模型,并用相关系数甲乙说明;
(Ⅲ)建立关于的回归方程,预测第5年的销售量约为多少?.
附注:参考数据: , , .
参考公式:相关系数,
回归方程中斜率和截距的最小二乘法估计公式分别为:
, .
【答案】(Ⅰ)散点图见解析;(Ⅱ)答案见解析;(Ⅲ) 71万件.
【解析】 (Ⅰ)作出散点图如图:
(Ⅲ)由(Ⅱ)知: , , , , ,
, ,
故关于的回归直线方程为,
当时, ,
所以第5年的销售量约为71万件.
(三)独立性检验
例3 【2017年全国Ⅱ卷】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg).其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件:“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
,
【答案】(1);(2)见解析;(3).
【解析】(1)记B表示事件“旧养殖法的箱产量低于”,表示事件“新养殖法的箱产量不低于”.
由题意知
旧养殖法的箱产量低于的频率为
故的估计值为0.62,
新养殖法的箱产量不低于的频率为
故的估计值为0.66
因此,事件A的概率估计值为
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于的直方图面积为
,
箱产量低于的直方图面积为
故新养殖法箱产量的中位数的估计值为.
【方法技巧与归纳】独立性检验的一般步骤:①根据样本数据制成列联表;②根据公式计算的值;③查表比较与临界值的大小关系,作统计判断.
【变式1】【变独立性检验与概率交汇为独立性检验与统计交汇】中国神舟十一号载人飞船在酒泉卫星发射中心成功发射,引起全国轰动.开学后,某校高二年级班主任对该班进行了一次调查,发现全班60名同学中,对此事关注的占,他们在本学期期末考试中的物理成绩(满分100分)如下面的频率分布直方图:
(1)求“对此事关注”的同学的物理期末平均分(以各区间的中点代表该区间的均值).
(2)若物理成绩不低于80分的为优秀,请以是否优秀为分类变量,
①补充下面的列联表:
物理成绩优秀
物理成绩不优秀
合计
对此事关注
对此事不关注
合计
②是否有以上的把握认为“对此事是否关注”与物理期末成绩是否优秀有关系?
参考公式: ,其中.
参考数据:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1);(2)列联表见解析,没有.
【解析】(1)对此事关注的同学的物理期末平均分为
(分).
(2)①补充的列联表如下:
物理成绩优秀
物理成绩不优秀
合计
对此事关注
8
12
20
对此事不关注
8
32
40
合计
16
44
60
②由①中的列联表可得
,
所以没有以上的把握认为“对此事是否关注”与物理期末成绩是否优秀有关系.
【变式2】【变为独立性检验与频率分布表交汇】2014年7月16日,中国互联网络信息中心发布《第三十四次中国互联网发展状况报告》,报告显示:我国网络购物用户已达亿.为了了解网购者一次性购物金额情况,某统计部门随机抽查了6月1日这一天100名网购者的网购情况,得到如下数据统计表.已知网购金额在2000元以上(不含2000元)的频率为.
(Ⅰ)确定, , , 的值;
(Ⅱ)为进一步了解网购金额的多少是否与网龄有关,对这100名网购者调查显示:购物金额在2000元以上的网购者中网龄3年以上的有35人,购物金额在2000元以下(含2000元)的网购者中网龄不足3年的有20人.
①请将列联表补充完整;
网龄3年以上
网龄不足3年
合计
购物金额在2000元以上
35
购物金额在2000元以下
20
合计
100
②并据此列联表判断,是否有%的把握认为网购金额超过2000元与网龄在三年以上有关?
参考数据:
(参考公式: ,其中)
【答案】(Ⅰ), , ;(Ⅱ)见解析.
【解析】(Ⅰ)因为网购金额在2000元以上的频率为,
所以网购金额在2000元以上的人数为100=40
所以,所以, ,
所以.
(Ⅱ)由题设列联表如下
网龄3年以上
网龄不足3年
合计
购物金额在2000元以上
35
5
40
购物金额在2000元以下
40
20
60
合计
75
25
100
所以=.
因为
所以据此列联表判断,有%的把握认为网购金额超过2000元与网龄在三年以上有关.
【数学思想】
1.函数与方程思想的应用:在线性回归方程求解问题可能会到利用方程思想来解决,其散点图及反映的变量间的变化本身就是借助于函数的思想来解决的;
2.数形结合思想的应用:利用散点图来判断两个变量是否具有线性相关性体现的就是数形结合思想的应用.
【典例试题演练】
1.【云南省昆明一中2018届高三第一次摸底测试】若对于变量的取值为3,4,5,6,7时,变量对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量的取值为1,2,3,4时,变量对应的值依次分别为2,3,4,6,则变量和,变量和的相关关系是( )
A. 变量和是正相关,变量和是正相关
B. 变量和是正相关,变量和是负相关
C. 变量和是负相关,变量和是负相关
D. 变量和是负相关,变量和是正相关
【答案】D
【解析】变量增加,变量减少,所以变量和是负相关;变量增加,变量增加,所以变量和是正相关,因此选D.
2.【安徽省宣城市三校(郎溪中学、宣城二中、广德中学)2017-2018学年高三上学期期中联考】四名同学根据各自的样本数据研究变量之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
( )
①与负相关且.②与负相关且
③与正相关且 ④与正相关且
其中正确的结论的序号是( )
A. ①② B. ②③ C. ①④ D. ③④
【答案】C
【解析】由回归直线方程可知, ①③与负相关, ②④与正相关, ①④正确,故选C.
3.【云南省红河州2017届高三毕业生复习统一检测】为研究语文成绩和英语成绩之间是否具有线性相关关系,统计两科成绩得到如图所示的散点图(两坐标轴单位长度相同),用回归直线近似的刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A. 线性相关关系较强, 的值为1.25 B. 线性相关关系较强, 的值为0.83
C. 线性相关关系较强, 的值为﹣0.87 D. 线性相关关系太弱,无研究价值
【答案】B
【解析】由图可知语文成绩与数学成绩成正相关,且倾斜角小于,故选:B
4.【2017届内蒙古省百校联盟高三3月教学质量监测】已知两个随机变量, 之间的相关关系如下表所示:
根据上述数据得到的回归方程为,则大致可以判断( )
A. , B. , C. , D. ,
【答案】C
【解析】根据随机变量 之间关系在表格中的数据可以看出, 随 的增大而增大,因此
,由于 , = ,故选C.
5.【2017届湖南省邵阳市高三下学期第二次联考】假设有两个分类变量和的列联表为:
总计
总计
对同一样本,以下数据能说明与有关系的可能性最大的一组为( )
A. B. C. D.
【答案】A
【解析】由题意可得,当与相差越大,X与Y有关系的可能性最大,分析四组选项,A中的a,c的值最符合题意,故选A.
6.【广西柳州市2018届高三毕业班上学期摸底联考】为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如图统计数据表:
收入(万元)
8.3
8.5
9.9
11.4
11.9
支出(万元)
6.3
7.4
8.1
8.5
9.7
据上表得回归直线方程,其中,据此估计,该社区一户收入为15万元家庭的年支出为( )
A. 11.4万元 B. 11.8万元 C. 12.0万元 D. 12.2万元
【答案】B
7.【2017届广西省高三上学期教育质量诊断性联合考试】2015年年岁史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在, , , , 的爱看比例分别为
, , , , .现用这5个年龄段的中间值代表年龄段,如12代表, 代表,根据前四个数据求得关于爱看比例的线性回归方程为,由此可推测的值为( )
A. B. C. D.
【答案】B
【解析】前4个数据对应的 , (把百分数转化为小数),而, , , ,当, ,故选B.
8.【湖北省荆州中学2018届高三第二次月考】已知、取值如下表:
0
1
4
5
6
8
1.3
1.8
5.6
6.1
7.4
9.3
从所得的散点图分析可知: 与线性相关,且,则________.
【答案】1.45
【解析】∵, ,因线性回归方程通过样本点中心,故有,∴.
9.【河南省豫北重点中学2017届高三4月联考】某互联网公司借助手机微信平台推广自己的产品,对今年前5个月的微信推广费用与利润额(单位:百万元)进于了初步统计,得到下列表格中的数据:
经计算,月微信推广费用与月利润额满足线性回归方程,则的值为__________.
【答案】
【解析】, ,代入回归直线方程 ,解得.
10.【湖南师大附中2018届高三上学期月考】在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取只小鼠进行试验,得到如下联表:
感染
未感染
总计
服用
未服用
总计
参考公式:
参照附表,在犯错误的概率最多不超过__________(填百分比)的前提下,可认为“该种疫苗由预防埃博拉病毒感染的效果”.
【答案】
【解析】由题意可得, ,参照附表,可得:在犯错误的概率不超过的前提下,认为“小动物是否被感染与有没有服用疫苗有关”,故答案为.
11.【湖北省重点高中联考协作体2017年秋季高三期中考试】在统计学中,偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某刻考试成绩与该科班平均分的差叫某科偏差,班主任为了了解个别学生的偏科情况,对学生数学偏差(单位:分)与物理偏差(单位:分)之间的关系进行偏差分析,决定从全班40位同学中随机抽取一个容量为8的样本进行分析,得到他们的两科成绩偏差数据如表:
(1)已知与之间具有线性相关关系,求关于的线性回归方程;
(2)若这次考试该班数学平均分为120分,物理平均分为92,试预测数学成绩126分的同学的物理成绩.
参考公式: ,
参考数据: ,
【答案】(1);(2)94
(2)由题意设该同学的物理成绩为,
则物理偏差为,而数学偏差为,
则(1)的结论可得,解得,
故可以预测这位同学的物理成绩为分.
12.【百校联盟2018届高三开学摸底联考】某工厂为了对新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组检测数据,如下表所示:
已知变量具有线性负相关关系,且, ,现有甲、乙、丙三位同学通过计算求得其回归直线方程分别为:甲;乙;丙,其中有且仅有一位同学的计算结果是正确的.
(1)试判断谁的计算结果正确?并求出的值;
(2)若由线性回归方程得到的估计数据与检测数据的误差不超过1,则该检测数据是“理想数据”,现从检测数据中随机抽取2个,求这两个检测数据均为“理想数据”的概率.
【答案】(1),(2).
【解析】(1)因为变量具有线性负相关关系,所以甲是错误的.
又易得,满足方程,故乙是正确的.由条件可得
(2)由计算可得“理想数据”有个,即.
从检测数据中随机抽取个,共有种不同的情形,
其中这两个检测数据均为“理想数据”有种情形.
故所求概率为.
13.【山西实验中学、南海桂城中学2018届高三上学期联考】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位: )和年利润(单位:千元)的影响.对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
表中.
(1)根据散点图判断与哪一个适宜作为年销售量关于年宣传费的回归类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)已知这种产品的利润与的的关系为.根据(2)的结果回答下列问题:
(ⅰ)年宣传费时,年销售量及年利润的预报值是多少?
(ⅱ)年宣传费为何值时,年利润的预报值最大?
附:对于一组数据,其回归直线的的斜率和截距的最小二乘估计为.
【答案】(1)适宜作为年销售量关于年宣传费的回归方程类型;(2);
(3)①年销售量的预报值,年利润的预报值.②年宣传费为46.24千元.
(3)①由(2)知,当时,年销售量的预报值,年利润的预报值.
②根据(2)的结果知,年利润的预报值.
所以当,即时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
14.【华大新高考联盟2018届11月教学质量测评】某地区2008年至2016年粮食产量的部分数据如下表:
(1)求该地区2008年至2016年的粮食年产量与年份之间的线性回归方程;
(2)利用(1)中的回归方程,分析2008年至2016年该地区粮食产量的变化情况,并预测该地区 2018年的粮食产量.
附:回归直线的斜率和截距的最小二乘估计公式分别为, .
【答案】(1);(2)测该地区2018 量为299. 2万吨.
【解析】(1)由所给数据可以看出,粮食年产量与年份之间是近似直线上升,下面来求线性回归方程,为此对数据预处理如下:
对预处理后的数据,容易算得
,
∴,
.
由上述计算结果,知所求线性回归方程为,
即.
(2)由(1)知, ,故2008年至2016年该地区粮食产量逐年增加,平均每两年增加6. 5 万吨.
将代入(1)中的线性回归方程,得,故预测该地区2018 量为299. 2万吨.
15.【湖南省衡阳市第八中学2018届高三上学期第三次月考】某市根据地理位置划分成了南北两区,为调查该市的一种经济作物(下简称 作物)的生长状况,用简单随机抽样方法从该市调查了 500 处 作物种植点,其生长状况如表:
其中生长指数的含义是:2 代表“生长良好”,1 代表“生长基本良好”,0 代表“不良好,但仍有收成”,﹣1代表“不良好,绝收”.
(1)估计该市空气质量差的作物种植点中,不绝收的种植点所占的比例;
(2)能否有 99%的把握认为“该市作物的种植点是否绝收与所在地域有关”?
(3)根据(2)的结论,能否提供更好的调查方法来估计该市作物的种植点中,绝收种植点的比例?请说明理由.
【答案】(1) (2) 有99%的把握认为“该市A作物的种植点是否绝收与所在地域有关,(3) 采用分层抽样比采用简单随机抽样方法好.
【解析】(1)调查的500处种植点中共有120处空气质量差,其中不绝收的共有110处,
∴空气质量差的A作物种植点中,不绝收的种植点所占的比例 .
(2)列联表如下:
收
绝收
合计
南区
160
40
200
北区
270
30
300
合计
430
70
500
∴K2=≈9.967.
∵9.967>6.635,
∴有99%的把握认为“该市A作物的种植点是否绝收与所在地域有关.
(3)由(2)的结论可知该市A作物的种植点是否绝收与所在地域有关,
因此在调查时,先确定该市南北种植比例,再把种植区分南北两层采用分层抽样比采用简单随机抽样方法好.