• 351.36 KB
  • 2022-04-13 发布

高中数学第一章统计案例1.1回归分析的基本思想及其初步应用同步学案新人教a版

  • 19页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
§1.1 回归分析的基本思想及其初步应用学习目标 1.了解回归分析的必要性及其一般步骤.2.了解随机误差的概念.3.会作散点图,并会求线性回归方程.4.利用残差分析来判断线性回归模型的拟合效果.5.掌握建立回归模型的基本步骤,并通过实例进一步学习回归分析的基本思想及其初步应用.知识点一 回归分析的相关概念思考1 相关关系是确定性关系吗?函数关系呢?答案 相关关系是一种非确定性关系,而函数关系是一种确定性关系.思考2 请问产生随机误差的主要原因有哪些?答案 (1)所选用的模型不恰当;(2)忽略了某些因素的影响;(3)存在测量误差.梳理 (1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.若两个变量之间具有线性相关关系,则称相应的回归分析为线性回归分析.(2)线性回归方程为=x+,且=,=-,其中=i,=i,(,)称为样本点的中心,回归直线一定过样本点的中心.(3)样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,而是用线性回归模型y=bx+a+e来表示,其中a和b为模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.预报变量y的值由解释变量x和随机误差e共同确定,即解释变量x只能解释部分预报变量y的变化.知识点二 回归模型的模拟效果n思考 如何评价回归模型拟合效果的优劣?答案 计算相关指数R2的值,R2越接近于1,效果就越好.梳理 残差把随机误差的估计值i称为相应于点(xi,yi)的残差残差图作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的数值,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和残差平方和为(yi-i)2,残差平方和越小,模型的拟合效果越好相关指数R2R2=1-,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好1.回归方程=x+中的表示当x每增加一个单位时,的变化量.( √ )2.R2越大,残差平方和越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.( √ )3.散点图是判断两个变量是否有相关关系的工具之一.( √ )4.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为1.( √ )5.回归直线=x+不一定过点(,).( × )类型一 线性回归方程的求解n例1 现有某高新技术企业年研发费用投入x(百万元)与企业年利润y(百万元)之间具有线性相关关系,近5年的年科研费用和年利润具体数据如下表:年科研费用x(百万元)12345企业所获利润y(百万元)23447(1)画出散点图;(2)求y对x的线性回归方程.考点 回归分析题点 建立回归模型的基本步骤解 (1)散点图如下图所示:(2)由题意可知,==3,==4,iyi=1×2+2×3+3×4+4×4+5×7=71,=12+22+32+42+52=55,根据公式,可求得==1.1,=4-1.1×3=0.7,故所求线性回归方程为=1.1x+0.7.引申探究 在例1基础上,试估计当x=10时,企业所获利润为多少?解 依上例得=1.1x+0.7,n将x=10代入,得=11.7(百万元).故估计企业所获利润为11.7百万元.反思与感悟 (1)求线性回归方程的基本步骤①列出散点图,从直观上分析数据间是否存在线性相关关系.②计算:,,,iyi.③代入公式求出=x+中参数,的值.④写出线性回归方程并对实际问题作出估计.(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.跟踪训练1 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计数据:x23456y2.23.85.56.57.0由此资料可知y对x呈线性相关关系.(1)求线性回归方程;(2)求使用年限为10年时,该设备的维修费用为多少?考点 线性回归方程题点 求线性回归方程解 (1)由上表中的数据可得=4,=5,=90,iyi=112.3,∴===1.23,∴=-=5-1.23×4=0.08.∴线性回归方程为=1.23x+0.08.n(2)当x=10时,=1.23×10+0.08=12.38.即使用年限为10年时,该设备的维修费用为12.38万元.类型二 回归模型的效果例2 某运动员训练次数与运动员成绩之间的数据关系如下:编号12345678次数(x)3033353739444650成绩(y)3034373942464851(1)作出散点图;(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果;(4)计算R2,并说明其含义.考点 残差分析与相关指数题点 残差及相关指数的应用解 (1)该运动员训练次数(x)与成绩(y)之间的散点图如图所示.(2)可求得=39.25,=40.875,=12656,iyi=13180,∴==≈1.0415,=-=-0.003875,∴线性回归方程为=1.0415x-0.003875.(3)作残差图如图所示,n由图可知,残差点比较均匀地分布在水平的带状区域中,说明选用的模型比较合适.(4)R2=1-=0.9855,说明了该运动员成绩差异有98.55%是由训练次数引起的.反思与感悟 (1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.(2)刻画回归效果的三种方法①残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.②残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好.③相关指数法:R2=1-越接近1,表明回归的效果越好.跟踪训练2 (1)甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yi-i)2如下表:甲乙丙丁散点图残差平方和115106124103则________同学的试验结果体现拟合A,B两变量间关系的模型的拟合效果最好.n考点 残差分析与相关指数题点 残差及相关指数的应用答案 丁解析 残差平方和越小,模型的拟合效果越好,因丁对应的残差平方和最小,故丁所对应的模型拟合效果最好.(2)关于x与y有如下数据:x24568y3040605070现有两个线性模型:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好.考点 残差分析与相关指数题点 残差及相关指数的应用解 由(1)可得yi-i与yi-的关系如下表:yi-i-0.5-3.510-6.50.5yi--20-1010020∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,(yi-)2=(-20)2+(-10)2+102+02+202=1000.∴R=1-=1-=0.845.由(2)可得yi-i与yi-的关系如下表:yi-i-1-58-9-3yi--20-1010020n∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,(yi-)2=(-20)2+(-10)2+102+02+202=1000.∴R=1-=1-=0.82.由于R=0.845,R=0.82,0.845>0.82,∴R>R.∴(1)的拟合效果好于(2)的拟合效果.1.设回归方程为=7-3x,当变量x增加两个单位时(  )A.y平均增加3个单位B.y平均减少3个单位C.y平均增加6个单位D.y平均减少6个单位考点 线性回归分析题点 回归直线的概念答案 D解析 因为两个相关变量为负相关关系.2.已知x与y之间的一组数据:x0123y1357则y与x的线性回归方程=x+必过点(  )A.(2,2)B.(1,2)C.(1.5,0)D.(1.5,4)考点 线性回归方程题点 样本点中心的性质n答案 D解析 过样本点中心.3.在回归分析中,相关指数R2的值越大,说明残差平方和(  )A.越大B.越小C.可能大也可能小D.以上均不正确考点 残差分析与相关指数题点 残差及相关指数的概念答案 B解析 因为R2=1-,所以当R2越大时,(yi-i)2越小,即残差平方和越小,故选B.4.某学生课外活动兴趣小组对两个相关变量收集到5组数据如表:x1020304050y62■758189由最小二乘法求得回归方程为=0.67x+54.9,现发现表中有一个数据模糊不清,请推断该点数据的值为________.考点 线性回归方程题点 样本点中心的性质答案 68解析 由题意可得=(10+20+30+40+50)=30,设要求的数据为t,则有=(62+t+75+81+89)=,因为回归直线=0.67x+54.9过样本点的中心(,),n所以=0.67×30+54.9,解得t=68.5.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.考点 残差分析与相关指数题点 残差及相关指数的运算答案 -0.29解析 把x=160代入=0.85x-82.71,可得=0.85×160-82.71=53.29,所以残差=y-=53-53.29=-0.29.回归分析的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程=x+);(4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.一、选择题1.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:x(月份)12345y(万盒)55668n若x,y线性相关,线性回归方程为=0.7x+,估计该制药厂6月份生产甲胶囊产量为(  )A.8.0万盒B.8.1万盒C.8.9万盒D.8.6万盒考点 线性回归方程题点 样本点中心的性质答案 B解析 回归直线一定过样本点的中心.由已知数据可得=3,=6,代入线性回归方程,可得=-0.7=3.9,即线性回归方程为=0.7x+3.9.把x=6代入,可近似得=8.1,故选B.2.如图所示,由这两个散点图可以判断(  )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关考点 线性回归分析题点 回归直线的概念答案 C解析 图(1)中的数据随着x的增大y减小,因此变量x与变量y负相关;图(2)中的数据随着u的增大v增大,因此u与v正相关.3.已知变量x与y负相关,且由观测数据求得样本平均数=3,=3.5,则由该观测数据求得的线性回归方程可能是(  )A.=-2x+9.5B.=2x-2.4C.=-0.3x-4.4D.=0.4x+2.3考点 线性回归方程n题点 求线性回归方程答案 A解析 因为变量x与y负相关,所以排除B,D,将样本平均数=3,=3.5代入选项验证可知,选项A符合题意.4.对具有线性相关关系的变量x,y,有一组观测数据(xi,yi)(i=1,2,…,8),其线性回归方程是=x+,若x1+x2+x3+…+x8=3,y1+y2+y3+…+y8=6,则实数的值是(  )A.B.C.D.考点 线性回归方程题点 样本点中心的性质答案 D解析 由x1+x2+x3+…+x8=3,y1+y2+y3+…+y8=6可知样本点的中心为,将该点坐标代入回归方程=x+,得=.5.若对某地区人均工资x(万元)与该地区人均消费y(万元)进行调查统计得y与x具有线性相关关系,且线性回归方程为=0.7x+2.1,若该地区人均消费水平为10.5,则估计该地区人均消费额占人均工资收入的百分比约为(  )A.75%B.87.5%C.70%D.10.5%考点 线性回归方程题点 线性回归方程的应用答案 B解析 y=10.5时,由=0.7x+2.1得x==12,故得×100%=87.5%.6.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关试验用回归分析的方法分别求得相关系数r如下表:甲乙丙丁r0.820.780.690.85n则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是(  )A.甲B.乙C.丙D.丁考点 线性相关系数题点 线性相关系数的概念及计算答案 D解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知丁的线性相关性更强,故选D.7.某化工厂为预测某产品的回收率y,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得i=52,i=228,=478,iyi=1849,则y与x的线性回归方程是(  )A.=11.47+2.62xB.=-11.47+2.62xC.=2.62+11.47xD.=11.47-2.62x考点 线性回归方程题点 求线性回归方程答案 A解析 由题中数据得=6.5,=28.5,∴===≈2.62,=-≈28.5-2.62×6.5=11.47,∴y与x的线性回归方程是=2.62x+11.47,故选A.二、填空题n8.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R2为________.考点 残差分析与相关指数题点 残差及相关指数的运算答案 0.25解析 R2=1-=0.25.9.已知样本数据点(xi,yi)(i=1,2,3,…,n)在某一条直线上,则相关系数r的值为________.考点 线性相关系数题点 线性相关系数的概念及计算答案 ±1解析 由题意知r=±1.10.关于随机误差产生的原因分析正确的有________.(填序号)①用线性回归模型来近似真实模型所引起的误差;②忽略某些因素的影响所产生的误差;③对样本数据观测时产生的误差;④计算错误所产生的误差.考点 回归分析题点 回归分析的概念和意义答案 ①②③解析 理解线性回归模型y=bx+a+e中随机误差e的含义是解决此问题的关键,随机误差可能由于观测工具及技术产生,也可能因忽略某些因素而产生,也可以是回归模型产生,但不是计算错误.故随机误差产生的原因分析正确的是①②③.三、解答题11.已知x,y之间的一组数据如下表:x0123y1357(1)分别计算:,,x1y1+x2y2+x3y3+x4y4,x+x+x+x;(2)已知变量x与y线性相关,求出回归方程.考点 线性回归方程n题点 求线性回归方程解 (1)==1.5,==4,x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,x+x+x+x=02+12+22+32=14.(2)==2,=-=4-2×1.5=1,故=2x+1.12.某服装批发市场1-5月份的服装销售量x与利润y的统计数据如下表:月份12345销售量x(万件)36478利润y(万元)1934264146(1)从这五个月的利润中任选2个,分别记为m,n,求事件“m,n均不小于30”的概率;(2)已知销售量x与利润y大致满足线性相关关系,请根据前4个月的数据,求出y关于x的线性回归方程=x+;(3)若由线性回归方程得到的利润的估计数据与真实数据的误差不超过2万元,则认为得到的利润的估计数据是理想的.请用表格中第5个月的数据检验由(2)中回归方程所得的第5个月的利润的估计数据是否理想?参考公式:=,=-.考点 线性回归分析题点 回归直线的应用解 (1)所有的基本事件为(19,34),(19,26),(19,41),(19,46),(34,26),(34,41),(34,46),(26,41),(26,46),(41,46),共10个.记“m,n均不小于30”为事件A,则事件A包含的基本事件为(34,41),(34,46),(41,46),共3个.n所以P(A)=.(2)由前4个月的数据可得,=5,=30,iyi=652,=110.所以===5.2,=30-5.2×5=4,所以线性回归方程为=5.2x+4,(3)由题意得,当x=8时,=45.6,|45.6-46|=0.4<2;所以利用(2)中的回归方程所得的第5个月的利润估计数据是理想的.13.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:x1416182022y1210753求出y对x的线性回归方程,并说明拟合效果的程度.考点 残差分析与相关指数题点 残差及相关指数的应用解 =(14+16+18+20+22)=18,=(12+10+7+5+3)=7.4.=142+162+182+202+222=1660,iyi=14×12+16×10+18×7+20×5+22×3=620,n可得回归系数===-1.15,所以=7.4+1.15×18=28.1,所以线性回归方程为=-1.15x+28.1.列出残差表:yi-i00.3-0.4-0.10.2yi-4.62.6-0.4-2.4-4.4则(yi-i)2=0.3,(yi-)2=53.2.R2=1-≈0.994.所以回归模型的拟合效果很好.四、探究与拓展14.某公司的广告费支出x(万元)与销售额y(万元)之间有下表所示的对应数据,由资料显示y对x呈线性相关关系,根据下表提供的数据得到回归方程=x+中的=6.5,x24568y3040605070预测销售额为115万元时,约需________万元广告费.考点 线性回归分析题点 回归直线的应用答案 15解析 因为=×(2+4+5+6+8)=5,=×(30+40+60+50+70)=50,n所以50=6.5×5+,则=17.5,所以当y=115时,6.5x=115-17.5,得x=15,即约需广告费为15万元.15.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程=x+,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少时间?考点 线性回归方程题点 求线性回归方程解 (1)散点图如图.(2)由表中数据得iyi=52.5,n=3.5,=3.5,=54,所以===0.7,所以=-=3.5-0.7×3.5=1.05.所以=0.7x+1.05.回归直线如图中所示.(3)将x=10代入线性回归方程,得=0.7×10+1.05=8.05,所以预测加工10个零件需要8.05小时.

相关文档