• 291.52 KB
  • 2021-05-13 发布

2018版高考文科数学(北师大版)一轮文档讲义:章10-3相关性

  • 24页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第3讲 相关性、最小二乘估计与统计案例 最新考纲 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.‎ 知 识 梳 理 ‎1.变量间的相关关系 ‎(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.‎ ‎(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.‎ ‎2.回归分析 对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.‎ ‎(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.‎ ‎(2)回归直线方程的求法——最小二乘法.‎ 设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y=a+bx的系数为:‎ 其中=i,=i,(,)称为样本点的中心.‎ ‎(3)相关系数 当r>0时,表明两个变量正相关;‎ 当r<0时,表明两个变量负相关.‎ r的绝对值越接近于1,表明两个变量的线性相关性越强.‎ r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.‎ ‎3.独立性检验 ‎(1)设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=1;变量B:B1,B2=1.‎ ‎2×2列联表 B ‎ A ‎ B1‎ B2‎ 总计 A1‎ a b a+b A2‎ c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量χ2=,其中n=a+b+c+d为样本容量.‎ ‎(2)独立性检验 利用随机变量来判断“两个变量有关联”的方法称为独立性检验.‎ ‎(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断 ‎①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;‎ ‎②当χ2>2.706时,有90%的把握判定变量A,B有关联;‎ ‎③当χ2>3.841时,有95%的把握判定变量A,B有关联;‎ ‎④当χ2>6.635时,有99%的把握判定变量A,B有关联.‎ 诊 断 自 测 ‎1.判断正误(在括号内打“√”或“×”) 精彩PPT展示 ‎(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(  )‎ ‎(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.(  )‎ ‎(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.(  )‎ ‎(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.(  )‎ 答案 (1)√ (2)√ (3)× (4)√                   ‎ ‎2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:‎ ‎①y与x负相关且y=2.347x-6.423;‎ ‎②y与x负相关且y=-3.476x+5.648;‎ ‎③y与x正相关且y=5.437x+8.493;‎ ‎④y与x正相关且y=-4.326x-4.578.‎ 其中一定不正确的结论的序号是(  )‎ A.①② B.②③ C.③④ D.①④‎ 解析 由正负相关性的定义知①④一定不正确.‎ 答案 D ‎3.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是(  )‎ A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关 解析 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.‎ 答案 D ‎4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是(  )‎ A.有99%的人认为该电视栏目优秀 B.有99%的人认为该电视栏目是否优秀与改革有关系 C.有99%的把握认为该电视栏目是否优秀与改革有关系 D.没有理由认为该电视栏目是否优秀与改革有关系 解析 只有χ2>6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而既使χ2>6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.‎ 答案 D ‎5.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.‎ 零件数x(个)‎ ‎10‎ ‎20‎ ‎30‎ ‎40‎ ‎50‎ 加工时间y(min)‎ ‎62‎ ‎75‎ ‎81‎ ‎89‎ 现发现表中有一个数据看不清,请你推断出该数据的值为________.‎ 解析 由=30,得=0.67×30+54.9=75.‎ 设表中的“模糊数字”为a,‎ 则62+a+75+81+89=75×5,∴a=68.‎ 答案 68‎ 考点一 相关关系的判断                   ‎ ‎【例1】 (1)(2015·湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是(  )‎ A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关 ‎(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:‎ 甲 乙 丙 丁 r ‎0.82‎ ‎0.78‎ ‎0.69‎ ‎0.85‎ m ‎106‎ ‎115‎ ‎124‎ ‎103‎ 则哪位同学的试验结果体现A,B两变量有更强的线性相关性(  )‎ A.甲 B.乙 C.丙 D.丁 解析 (1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C.‎ ‎(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.‎ 答案 (1)C (2)D 规律方法 (1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.‎ ‎(2)利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.‎ ‎【训练1】 x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.‎ ‎①x,y是负相关关系;‎ ‎②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R,用y=bx+a拟合时的相关指数为R,则R>R;‎ ‎③x,y之间不能建立线性回归方程.‎ 解析 在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用y=bx+a拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.‎ 答案 ①②‎ 考点二 线性回归方程及应用 ‎【例2】 (2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.‎ 注:年份代码1~7分别对应年份2008~2014.‎ ‎(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;‎ ‎(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.‎ 附注:‎ 参考数据:i=9.32,iyi=40.17,=0.55,≈2.646.‎ 参考公式:相关系数r=,‎ 回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为:‎ b=,a=-b .‎ 解 (1)由折线图中数据和附注中参考数据得 =4,(ti-)2=28,=0.55.‎ (ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,‎ r≈≈0.99.‎ 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.‎ ‎(2)由=≈1.331及(1)得b==≈0.103,‎ a=-b ≈1.331-0.103×4≈0.92.‎ 所以y关于t的回归方程为y=0.92+0.10t.‎ 将2016年对应的t=9代入回归方程得y=0.92+0.10×9=1.82.‎ 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.‎ 规律方法 (1)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.‎ ‎(2)正确运用计算b,a的公式和准确的计算,是求线性回归方程的关键,并充分利用回归直线y=bx+a必过样本点的中心(,)进行求值.‎ ‎【训练2】 (2017·合肥一中质检)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:‎ 年份 ‎2010‎ ‎2011‎ ‎2012‎ ‎2013‎ ‎2014‎ 时间代号t ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ 储蓄存款y(千亿元)‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ ‎10‎ ‎(1)求y关于t的回归方程y=bt+a;‎ ‎(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.‎ 附:回归方程y=bt+a中,b=,a=-b.‎ 解 (1)列表计算如下 i ti yi t tiyi ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ ‎10‎ ‎1‎ ‎4‎ ‎9‎ ‎16‎ ‎25‎ ‎5‎ ‎12‎ ‎21‎ ‎32‎ ‎50‎ ‎∑‎ ‎15‎ ‎36‎ ‎55‎ ‎120‎ 这里n=5,=i==3,=i==7.2.‎ 又-n2=55-5×32=10,iyi-n =120-5×3×7.2=12,‎ 从而b===1.2,a=-b=7.2-1.2×3=3.6,故所求回归方程为y=1.2t+3.6.‎ ‎(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y=1.2×6+3.6=10.8(千亿元).‎ 考点三 独立性检验 ‎【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).‎ ‎(1)应收集多少位女生的样本数据?‎ ‎(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;‎ ‎(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.‎ 解 (1)利用分层抽样,300×=90,所以应收集90位女生的样本数据.‎ ‎(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.‎ ‎(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.‎ 又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:‎ 男生 女生 总计 每周平均体育运动时间不超过4小时 ‎45‎ ‎30‎ ‎75‎ 每周平均体育运动时间超过4小时 ‎165‎ ‎60‎ ‎225‎ 总计 ‎210‎ ‎90‎ ‎300‎ 将2×2列联表中的数据代入公式计算,得 χ2==≈4.762>3.841.‎ 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.‎ 规律方法 (1)在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.‎ ‎(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.‎ ‎【训练3】 (2017·石家庄质检)‎ 微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中是青年人.‎ ‎(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表;‎ 青年人 中年人 总计 经常使用微信 不经常使用微信 总计 ‎(2)由列联表中所得数据判断,是否有99%的把握认为“经常使用微信与年龄有关”?‎ 解 (1)由已知可得,该公司员工中使用微信的有200×90%=180(人).‎ 经常使用微信的有180-60=120(人),‎ 其中青年人有120×=80(人),‎ 使用微信的人中青年人有180×75%=135(人),‎ 所以2×2列联表:‎ 青年人 中年人 总计 经常使用微信 ‎80‎ ‎40‎ ‎120‎ 不经常使用微信 ‎55‎ ‎5‎ ‎60‎ 总计 ‎135‎ ‎45‎ ‎180‎ ‎(2)将列联表中数据代入公式可得:‎ χ2=≈13.333,‎ 由于13.333>6.635,所以有99%的把握认为“经常使用微信与年龄有关”.‎ ‎[思想方法]‎ ‎1.求回归方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.‎ ‎2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.‎ ‎3.独立性检测是根据χ2的值判断两个分类变量有关的可信程度.‎ ‎[易错防范]‎ ‎1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.‎ ‎2.独立性检验中统计量χ2的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.‎ 基础巩固题组 ‎(建议用时:40分钟)                   ‎ 一、选择题 ‎1.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是(  )‎ A.模型1的相关指数R2为0.98‎ B.模型2的相关指数R2为0.80‎ C.模型3的相关指数R2为0.50‎ D.模型4的相关指数R2为0.25‎ 解析 相关指数R2越大,拟合效果越好,因此模型1拟合效果最好.‎ 答案 A ‎2.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是(  )‎ A.y=0.4x+2.3 B.y=2x-2.4‎ C.y=-2x+9.5 D.y=-0.3x+4.4‎ 解析 因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标代入检验,A满足.‎ 答案 A ‎3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是(  )‎ A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(,)‎ C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg 解析 ∵0.85>0,∴y与x正相关,∴A正确;‎ ‎∵回归直线经过样本点的中心(,),∴B正确;‎ ‎∵Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,‎ ‎∴C正确.‎ 答案 D ‎4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:‎ 男 女 总计 爱好 ‎40‎ ‎20‎ ‎60‎ 不爱好 ‎20‎ ‎30‎ ‎50‎ 总计 ‎60‎ ‎50‎ ‎110‎ 由χ2=算得,‎ χ2=≈7.8.‎ 则得到的正确结论是(  )‎ A.有99%的把握认为“爱好该项运动与性别有关”‎ B.有99%的把握认为“爱好该项运动与性别无关”‎ C.有90%的把握认为“爱好该项运动与性别有关”‎ D.有90%的把握认为“爱好该项运动与性别无关”‎ 解析 根据独立性检验的定义,由χ2≈7.8>6.635,可知有99%的把握认为“爱好该项运动与性别有关”.‎ 答案 A ‎5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:‎ 收入x(万元)‎ ‎8.2‎ ‎8.6‎ ‎10.0‎ ‎11.3‎ ‎11.9‎ 支出y(万元)‎ ‎6.2‎ ‎7.5‎ ‎8.0‎ ‎8.5‎ ‎9.8‎ 根据上表可得回归直线方程y=bx+a,其中b=0.76,a=-b ‎,据此估计,该社区一户年收入为15万元家庭的年支出为(  )‎ A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元 解析 由题意知,==10,‎ ==8,‎ ‎∴a=8-0.76×10=0.4,‎ ‎∴当x=15时,y=0.76×15+0.4=11.8(万元).‎ 答案 B 二、填空题 ‎6.若8名学生的身高和体重数据如下表:‎ 编号 ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ 身高/cm ‎165‎ ‎165‎ ‎157‎ ‎170‎ ‎175‎ ‎165‎ ‎155‎ ‎170‎ 体重/kg ‎48‎ ‎57‎ ‎54‎ ‎64‎ ‎61‎ ‎43‎ ‎59‎ 第3名学生的体重漏填,但线性回归方程是y=0.849x-85.712,则第3名学生的体重估计为________.‎ 解析 设第3名学生的体重为a,则 (48+57+a+54+64+61+43+59)=0.849×(165+165+157+170+175+165+155+170)-85.712.‎ 解之得a≈50.‎ 答案 50‎ ‎7.(2017·南昌模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:‎ 理科 文科 总计 男 ‎13‎ ‎10‎ ‎23‎ 女 ‎7‎ ‎20‎ ‎27‎ 总计 ‎20‎ ‎30‎ ‎50‎ 根据表中数据,得到χ2=≈4.844,则有________的把握认为选修文理科与性别有关系.‎ 解析 由χ2=4.844>3.841.故有95%的把握认为选修文理科与性别有关系.‎ 答案 95%‎ ‎8.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:‎ 气温(℃)‎ ‎18‎ ‎13‎ ‎10‎ ‎-1‎ 用电量(度)‎ ‎24‎ ‎34‎ ‎38‎ ‎64‎ 由表中数据得回归直线方程y=bx+a中的b=-2,预测当气温为-4 ℃时,用电量约为________度.‎ 解析 根据题意知==10,==40,因为回归直线过样本点的中心,所以a=40-(-2)×10=60,所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.‎ 答案 68‎ 三、解答题 ‎9.(2017·郑州调研)某地区2009年至2015年农村居民家庭人均纯收入y ‎(单位:千元)的数据如下表:‎ 年份 ‎2009‎ ‎2010‎ ‎2011‎ ‎2012‎ ‎2013‎ ‎2014‎ ‎2015‎ 年份代号t ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ 人均纯收入y ‎2.9‎ ‎3.3‎ ‎3.6‎ ‎4.4‎ ‎4.8‎ ‎5.2‎ ‎5.9‎ ‎(1)求y关于t的线性回归方程;‎ ‎(2)利用(1)中的回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2017年农村居民家庭人均纯收入.‎ 附:回归直线的斜率和截距的最小二乘估计公式分别为:‎ b=,a=-b.‎ 解 (1)由所给数据计算得=(1+2+3+4+5+6+7)=4,‎ =×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,‎ (ti-)2=9+4+1+0+1+4+9=28,‎ (ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+‎ ‎(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,‎ b===0.5,‎ a=-b=4.3-0.5×4=2.3,‎ 所求回归方程为y=0.5t+2.3.‎ ‎(2)由(1)知,b=0.5>0,故2009至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年约增加0.5千元.‎ 将2017年的年份代号t=9代入(1)中的回归方程,得y=0.5×9+2.3=6.8,故预测该地区2017年农村居民家庭人均纯收入为6.8千元.‎ ‎10.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:‎ 月收入(单 位:百元)‎ ‎[15,25)‎ ‎[25,35)‎ ‎[35,45)‎ ‎[45,55)‎ ‎[55,65)‎ ‎[65,75]‎ 赞成定价 者人数 ‎1‎ ‎2‎ ‎3‎ ‎5‎ ‎3‎ ‎4‎ 认为价格偏高者人数 ‎4‎ ‎8‎ ‎12‎ ‎5‎ ‎2‎ ‎1‎ ‎(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);‎ ‎(2)由以上统计数据填下面2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.‎ 月收入不低于 ‎55百元的人数 月收入低于 ‎55百元的人数 总计 认为价格偏高者 赞成定价者 总计 解 (1)“赞成定价者”的月平均收入为 x1=≈50.56.‎ ‎“认为价格偏高者”的月平均收入为 x2==38.75,‎ ‎∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).‎ ‎(2)根据条件可得2×2列联表如下:‎ 月收入不低于 ‎55百元的人数 月收入低于 ‎55百元的人数 总计 认为价格偏高者 ‎3‎ ‎29‎ ‎32‎ 赞成定价者 ‎7‎ ‎11‎ ‎18‎ 总计 ‎10‎ ‎40‎ ‎50‎ χ2=≈6.27<6.635,‎ ‎∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.‎ 能力提升题组 ‎(建议用时:20分钟)‎ ‎11.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x(单位:元)和销售量y(单位:件)之间的四组数据如下表:‎ 售价x ‎4‎ ‎4.5‎ ‎5.5‎ ‎6‎ 销售量y ‎12‎ ‎11‎ ‎10‎ ‎9‎ 为决策产品的市场指导价,用最小二乘法求得销售量y与售价x之间的线性回归方程为y=-1.4x+a,那么方程中的a值为(  )‎ A.17 B.17.5 C.18 D.18.5‎ 解析 ==5,‎ ==10.5,‎ ‎∵回归直线过样本点的中心,‎ ‎∴a=10.5+1.4×5=17.5.‎ 答案 B ‎12.根据如下样本数据 x ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ y ‎4.0‎ ‎2.5‎ ‎-0.5‎ ‎0.5‎ ‎-2.0‎ ‎-3.0‎ 得到的回归方程为y=bx+a,则(  )‎ A.a>0,b>0 B.a>0,b<0‎ C.a<0,b>0 D.a<0,b<0‎ 解析 作出散点图如下:‎ 观察图像可知,回归直线y=bx+a的斜率b<0,当x=0时,y=a>0.故a>0,b<0.‎ 答案 B ‎13.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)‎ 几何题 代数题 总计 男同学 ‎22‎ ‎8‎ ‎30‎ 女同学 ‎8‎ ‎12‎ ‎20‎ 总计 ‎30‎ ‎20‎ ‎50‎ 根据上述数据,有________的把握推断视觉和空间想象能力与性别有关系.‎ 解析 由列联表计算x2=≈5.556>3.814.‎ ‎∴有95%的把握推断视觉和空间想象能力与性别有关系.‎ 答案 95%‎ ‎14.(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…‎ ‎,8)数据作了初步处理,得到下面的散点图及一些统计量的值.‎ (xi-)2‎ (wi-)2‎ (xi-)·(yi-)‎ (wi-)·(yi-)‎ ‎46.6‎ ‎563‎ ‎6.8‎ ‎289.8‎ ‎1.6‎ ‎1 469‎ ‎108.8‎ 表中wi=,=wi.‎ ‎(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?‎ ‎(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;‎ ‎(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:‎ ‎①年宣传费x=49时,年销售量及年利润的预报值是多少?‎ ‎②年宣传费x为何值时,年利润的预报值最大?‎ 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:‎ β=,α=-β .‎ 解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.‎ ‎(2)令w=,先建立y关于w的线性回归方程,由于 d===68,‎ c=-d=563-68×6.8=100.6,‎ 所以y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为y=100.6+68.‎ ‎(3)①由(2)知,当x=49时,年销售量y的预报值 y=100.6+68=576.6,‎ 年利润z的预报值z=576.6×0.2-49=66.32.‎ ‎②根据(2)的结果知,年利润z的预报值 z=0.2(100.6+68)-x=-x+13.6+20.12.‎ 所以当==6.8,即x=46.24时,z取得最大值.‎ 故年宣传费为46.24千元时,年利润的预报值最大.‎ 特别提醒:教师配赠习题、课件、视频、图片、文档等各种电子资源见《创新设计·高考总复习》光盘中内容.‎

相关文档