• 610.00 KB
  • 2021-06-11 发布

2021高考数学一轮复习第11章概率第4节概率与统计统计案例的综合问题教学案文北师大版

  • 15页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第四节 概率与统计、统计案例的综合问题 ‎(对应学生用书第197页)‎ ‎⊙考点1 概率与统计的综合问题 ‎ 破解概率与统计图表综合问题的“三步曲”‎ ‎ 经过多年的努力,炎陵黄桃在国内乃至国际上逐渐打开了销路,成为炎陵部分农民脱贫致富的好产品.为了更好地销售,现从某村的黄桃树上随机摘下了100个黄桃进行测重,其质量分别在区间[200,500]内(单位:克),统计质量的数据作出其频率分布直方图如图所示:‎ ‎(1)按分层抽样的方法从质量落在[350,400),[400,450)的黄桃中随机抽取5个,再从这5个黄桃中随机抽2个,求这2个黄桃质量至少有一个不小于400克的概率;‎ ‎(2)以各组数据的中间数值代表这组数据的平均水平,以频率代表概率,已知该村的黄桃树上大约还有100 000个黄桃待出售,某电商提出两种收购方案:‎ A.所有黄桃均以20元/千克收购;‎ B.低于350克的黄桃以5元/个收购,高于或等于350克的以9元/个收购.‎ 请你通过计算为该村选择收益最好的方案.‎ ‎(参考数据:225×0.05+275×0.16+325×0.24+375×0.3+425×0.2+475×0.05=354.5)‎ ‎[解](1)由题得黄桃质量在[350,400)和[400,450)的比例为3∶2,‎ ‎∴应分别在质量为[350,400)和[400,450)的黄桃中各抽取3个和2个.‎ - 15 -‎ 记抽取质量在[350,400)的黄桃为A1,A2,A3,质量在[400,450)的黄桃为B1,B2,‎ 则从这5个黄桃中随机抽取2个的情况共有以下10种:‎ A1A2,A1A3,A2A3,A1B1,A2B1,A3B1,A1B2,A2B2,A3B2,B1B2.‎ 其中质量至少有一个不小于400克的有7种情况,故所求概率为.‎ ‎(2)方案B好,理由如下:‎ 由频率分布直方图可知,黄桃质量在[200,250)的频率为50×0.001=0.05,‎ 同理,黄桃质量在[250,300),[300,350),[350,400),[400,450),[450,500]的频率依次为0.16,0.24,0.3,0.2,0.05.‎ 若按方案B收购:‎ ‎∵黄桃质量低于350克的个数为(0.05+0.16+0.24)×100 000=45 000个,‎ 黄桃质量不低于350克的个数为55 000个.‎ ‎∴收益为45 000×5+55 000×9=720 000元.‎ 若按方案A收购:‎ 根据题意各段黄桃个数依次为5 000,16 000,24 000,30 000,20 000,5 000,于是总收益为(225×5 000+275×16 000+325×24 000+375×30 000+425×20 000+475×5 000)×20÷1 000=709 000(元).‎ ‎∴方案B的收益比方案A的收益高,应该选择方案B.‎ ‎ 解答本例第(2)问时,方案A需要算出黄桃的总质量,方案B需要求出黄桃质量低于350克和不低于350克的个数.‎ ‎[教师备选例题]‎ ‎ (2017·北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:‎ ‎(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;‎ ‎(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;‎ ‎(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.‎ ‎[解](1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,‎ - 15 -‎ 所以样本中分数小于70的频率为1-0.6=0.4,‎ 所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.‎ ‎(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,‎ 分数在区间[40,50)内的人数为100-100×0.9-5=5,‎ 所以总体中分数在区间[40,50)内的人数估计为400×=20.‎ ‎(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,‎ 所以样本中分数不小于70的男生人数为60×=30,‎ 所以样本中的男生人数为30×2=60,‎ 女生人数为100-60=40,‎ 所以样本中男生和女生人数的比例为60∶40=3∶2,‎ 所以根据分层抽样原理,估计总体中男生和女生人数的比例为3∶2.‎ ‎ (2019·泰安模拟)2018年的政府工作报告强调,要树立绿水青山就是金山银山理念,以前所未有的决心和力度加强生态环境保护.某地科技园积极检查督导园区内企业的环保落实情况,并计划采取激励措施引导企业主动落实环保措施,下图给出的是甲、乙两企业2012年至2017年在环保方面投入金额(单位:万元)的柱状图.‎ ‎(1)分别求出甲、乙两企业这六年在环保方面投入金额的平均数;(结果保留整数)‎ ‎(2)园区管委会为尽快落实环保措施,计划对企业进行一定的奖励,提出了如下方案:若企业一年的环保投入金额不超过200万元,则该年不奖励;若企业一年的环保投入金额超过200万元,不超过300万元,则该年奖励20万元;若企业一年的环保投入金额超过300万元,则该年奖励50万元.‎ ‎①分别求出甲、乙两企业这六年获得的奖励之和;‎ ‎②现从甲企业这六年中任取两年对其环保情况作进一步调查,求这两年获得的奖励之和不低于70万元的概率.‎ ‎[解](1)由柱状图可知,甲企业这六年在环保方面的投入金额分别为150,290,350,400,300,400,‎ - 15 -‎ 其平均数为×(150+290+350+400+300+400)=315(万元);‎ 乙企业这六年在环保方面的投入金额分别为100,200,300,230,500,300,‎ 其平均数为×(100+200+300+230+500+300)=≈272(万元),‎ ‎(2)①根据题意可知,企业每年所获得的环保奖励t(x)(单位:万元)是关于该年环保投入x(单位:万元)的分段函数,即t(x)= 所以甲企业这六年获得的奖励之和为:0+20+50+50+20+50=190(万元);‎ 乙企业这六年获得的奖励之和为:0+0+20+20+50+20=110(万元).‎ ‎②由①知甲企业这六年获得的奖励数如下表:‎ 年份 ‎2012年 ‎2013年 ‎2014年 ‎2015年 ‎2016年 ‎2017年 奖励(单位:万元)‎ ‎0‎ ‎20‎ ‎50‎ ‎50‎ ‎20‎ ‎50‎ 奖励共分三个等级,其中奖励0万元的只有2012年,记为A;‎ 奖励20万元的有2013年,2016年,记为B1,B2;‎ 奖励50万元的有2014年,2015年和2017年,记为C1,C2,C3,‎ 故从这六年中任意选取两年,所有的情况为:‎ ‎(A,B1),(A,B2),(A,C1),(A,C2),(A,C3),(B1,B2),(B1,C1),(B1,C2),(B1,C3),(B2,C1),(B2,C2),(B2,C3),(C1,C2),(C1,C3),(C2,C3),共15种.‎ 其中奖励之和不低于70万元的取法为:(B1,C1),(B1,C2),(B1,C3),(B2,C1),(B2,C2),(B2,C3),(C1,C2),(C1,C3),(C2,C3),共9种.‎ 故所求事件的概率为P==.‎ ‎⊙考点2 概率与线性回归分析的综合问题 ‎ 在求两变量相关系数和两变量的回归方程时,由于r和的计算公式比较复杂,求它们的值时计算量比较大,因此为了计算准确,可将它们分成几个部分分别计算,这样等同于分散难点,各个攻破,提高了计算的准确度.‎ ‎ (2019·黄山模拟)由于往届高三年级数学学科的学习方式大都是“刷题-讲题-再刷题”的模式效果不理想,某市一中的数学课堂教改采用了“记题型-刷题-检测效果”的模式,并记录了某学生的记题型时间t(单位:h)与检测效果y的数据如表所示:‎ 记题型时 间t/h ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ 检测效果 y ‎2.9‎ ‎3.3‎ ‎3.6‎ ‎4.4‎ ‎4.8‎ ‎5.2‎ ‎5.9‎ - 15 -‎ ‎(1)据统计表明,y与t之间具有线性相关关系,请用相关系数r加以说明(若|r|≥0.75,则认为y与t有很强的线性相关关系,否则认为没有很强的线性相关关系);‎ ‎(2)建立y关于t的回归方程,并预测该学生记题型8 h的检测效果;‎ ‎(3)在该学生检测效果不低于3.6的数据中任取2个,求检测效果均高于4.4的概率.‎ ‎ ‎ ‎[解](1)由题得==4,‎ (ti-)2=9+4+1+0+1+4+9=28,‎ (yi-)2=7.08, (ti-)(yi-)=14,‎ ‎∴r==≈0.99>0.75.‎ ‎∴y与t有很强的线性相关关系.‎ ‎(2)由(1)可得===0.5,‎ ‎∴=- =4.3-0.5×4=2.3.‎ ‎∴y关于x的线性回归方程=0.5t+2.3,‎ 当t=8时,=0.5×8+2.3=6.3.‎ ‎∴预测该学生记题型8 h的检测效果约为6.3.‎ ‎(3)由题意,该学生检测效果不低于3.6的数据有5个,任取2个数据有:‎ ‎(3.6,4.4),(3.6,4.8),(3.6,5.2),(3.6,5.9),(4.4,4.8),(4.4,5.2),(4.4,5.9),‎ - 15 -‎ ‎(4.8,5.2),(4.8,5.9),(5.2,5.9)共10种情况,‎ 其中检测效果均高于4.4的有:(4.8,5.2),(4.8,5.9),(5.2,5.9)共3种结果.故所求概率P=.‎ ‎ 在计算r或时,要充分利用题目中给出的数据,结合所给公式,分析哪些数据已知,哪些未知.‎ ‎ 某同学在生物研究性学习中,对春季昼夜温差大小与黄豆种子发芽多少之间的关系进行研究,于是他在4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天每100颗种子浸泡后的发芽数,得到如下资料:‎ 日期 ‎4月1日 ‎4月7日 ‎4月15日 ‎4月21日 ‎4月30日 温差x/℃‎ ‎10‎ ‎11‎ ‎13‎ ‎12‎ ‎8‎ 发芽数y/颗 ‎23‎ ‎25‎ ‎30‎ ‎26‎ ‎16‎ ‎(1)从这5天中任选2天,求这2天发芽的种子数均不小于25的概率;‎ ‎(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另外三天的数据,求出y关于x的线性回归方程=x+;‎ ‎(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?‎ 附:回归直线的斜率和截距的最小二乘估计公式分别为 ‎ ‎ ‎[解](1)由题意,设这两天发芽的种子数分别为m,n,m,n的所有取值有(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(26,16),共有10个,‎ 设“m,n均不小于25”为事件A,则事件A包含的基本事件有(25,30),(25,26),(30,26),共3个,‎ 所以P(A)=,‎ 故从这5天中任选2天,发芽的种子数均不小于25的概率为.‎ ‎(2)由数据得=12,=27,‎ ‎∴3 =972,32=432.‎ 又xiyi=977,x=434,‎ - 15 -‎ ‎∴==,‎ =27-×12=-3,‎ ‎∴y关于x的线性回归方程为=x-3.‎ ‎(3)当x=10时,=×10-3=22,|22-23|<2,‎ 当x=8时,=×8-3=17,|17-16|<2.‎ 故所得到的线性回归方程是可靠的.‎ ‎⊙考点3 概率与独立性检验的综合问题 ‎ 解决概率与统计案例综合问题的四步骤 ‎ (2019·大同模拟)“微信运动”是一个类似计步数据库的公众账号,现从“微信运动”的60个好友(男、女各30人)中,记录了他们某一天的走路步数,并将数据整理如表:‎ ‎0~‎ ‎2 000步 ‎2 001~‎ ‎5 000步 ‎5 001~‎ ‎8 000步 ‎8 001~‎ ‎10 000步 ‎>10 000步 男(人数)‎ ‎2‎ ‎4‎ ‎6‎ ‎10‎ ‎8‎ 女(人数)‎ ‎1‎ ‎7‎ ‎10‎ ‎9‎ ‎3‎ P(χ2≥k)‎ ‎0.10‎ ‎0.05‎ ‎0.010‎ ‎0.005‎ ‎0.001‎ k ‎2.706‎ ‎3.841‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ 附:χ2=.‎ ‎(1)若某人一天的走路步数超过8 000步被系统评定为“积极型”,否则评定为“懈怠型”.根据题意完成下面的2×2列联表,并据此判断能否有90%的把握认为“评定类型”与“性别”有关?‎ 积极型 懈怠型 总计 - 15 -‎ 男(人数)‎ 女(人数)‎ 总计 ‎(2)现从被系统评定为“积极型”好友中,按男女性别分层抽样,共抽出5人,再从这5人中,任意抽出3人发一等奖,求发到一等奖的3人中恰有一名女性的概率.‎ ‎[解](1)根据题意填写列联表如下:‎ 积极型 懈怠型 总计 男(人数)‎ ‎18‎ ‎12‎ ‎30‎ 女(人数)‎ ‎12‎ ‎18‎ ‎30‎ 总计 ‎30‎ ‎30‎ ‎60‎ 计算χ2==2.4<2.706,‎ 所以没有90%的把握认为“评定类型”与“性别”有关.‎ ‎(2)按男女性别分层抽样,抽出5人中3男2女,分别设为a,b,c,D,E,‎ 从这5人中任意抽出3人,所有结果为abc,abD,abE,acD,acE,aDE,bcD,bcE,bDE,cDE共10种,‎ 其中恰有1名女性的基本事件有abD,abE,acD,acE,bcD,bcE共6种,‎ 故所求的概率为P==.‎ ‎ 解答本例第(1)问的关键是正确列出2×2列联表.‎ ‎[教师备选例题]‎ 某研究型学习小组调查研究“中学生使用智能手机对学习的影响”,部分统计数据如下表:‎ 使用智能 手机人数 不使用智 能手机人数 总计 学习成绩优秀人数 ‎4‎ ‎8‎ ‎12‎ 学习成绩不优秀人数 ‎16‎ ‎2‎ ‎18‎ 总计 ‎20‎ ‎10‎ ‎30‎ 参考数据:‎ P(χ2≥k)‎ ‎0.15‎ ‎0.10‎ ‎0.05‎ ‎0.025‎ ‎0.010‎ ‎0.005‎ ‎0.001‎ k ‎2.072‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ 参考公式:χ2=,其中n=a+b+c+d.‎ - 15 -‎ ‎(1)试根据以上数据运用独立性检验思想,指出有多大把握认为中学生使用智能手机对学习有影响?‎ ‎(2)研究小组将该样本中使用智能手机且成绩优秀的4位同学记为A组,不使用智能手机且成绩优秀的8位同学记为B组,计划从A组推选的2人和B组推选的3人中,随机挑选2人在学校升旗仪式上作“国旗下讲话”分享学习经验.求挑选的2人恰好分别来自A,B两组的概率.‎ ‎[解](1)由题易求得K2=10,‎ 因为7.879<χ2<10.828,‎ 所以有99.5%的把握认为中学生使用智能手机对学习有影响.‎ ‎(2)记A组推选的2名同学为a1,a2,B组推选的3名同学为b1,b2,b3,‎ 则从中随机选出2名同学包含如下10个基本事件:‎ ‎(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2), (b1, b3), (b2, b3).‎ 记挑选的2人恰好分别来自A,B两组为事件Z,则事件Z包含如下6个基本事件:‎ ‎(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3).‎ 故P(Z)==,‎ 即挑选的2人恰好分别来自A,B两组的概率是.‎ ‎ (2019·洛阳模拟)某学校为调查高三年级学生的身高情况,按随机抽样的方法抽取100名学生,得到男生身高情况的频率分布直方图(图1)和女生身高情况的频率分布直方图(图2).已知图1中身高在170~175 cm的男生人数有16人.‎ 图1          图2‎ ‎(1)试问在抽取的学生中,男、女生各有多少人?‎ ‎(2)根据频率分布直方图,完成下列的2×2列联表,并判断能有多大(百分之几)的把握认为“身高与性别有关”?‎ ‎≥170 cm ‎<170 cm 总计 男生身高 女生身高 总计 ‎(3)在上述100名学生中,从身高在175~185 cm之间的男生和身高在170~175‎ - 15 -‎ ‎ cm之间的女生中间按男、女性别分层抽样的方法,抽出6人,从这6人中选派2人当旗手,求2人中恰好有一名女生的概率.‎ 参考公式:χ2= 参考数据:‎ P(χ2≥k)‎ ‎0.025‎ ‎0.010‎ ‎0.005‎ ‎0.001‎ k ‎5.024‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ ‎[解](1)直方图中,因为身高在170~175 cm的男生的频率为0.4,‎ 设男生数为n1,则0.4=,得n1=40.‎ 由男生的人数为40,得女生的人数为100-40=60.‎ ‎(2)男生身高≥170 cm的人数=(0.08+0.04+0.02+0.01)×5×40=30,女生身高≥170 cm的人数=0.02×5×60=6,所以可得到下列列联表:‎ ‎≥170 cm ‎<170 cm 总计 男生身高 ‎30‎ ‎10‎ ‎40‎ 女生身高 ‎6‎ ‎54‎ ‎60‎ 总计 ‎36‎ ‎64‎ ‎100‎ χ2=≈44.010>10.828,‎ 所以能有99.9%的把握认为身高与性别有关.‎ ‎(3)在175~185 cm之间的男生有12人,在170~175 cm之间的女生人数有6人.‎ 按分层抽样的方法抽出6人,则男生占4人,女生占2人.‎ 设男生为A1,A2,A3,A4,女生为B1,B2.‎ 从6人中任选2名有:(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2)共15种可能.‎ ‎2人中恰好有一名女生:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2)共8种可能,故所求概率为P=.‎ 课外素养提升⑩ 数据分析——统计图表中的信息提取及数据处理 ‎(对应学生用书第200页)‎ 概率统计综合问题是高考应用型问题,解决问题需要经历收集数据、整理数据、分析数据、处理数据、得出有用的结论几个复杂过程.如果这几个过程书写步骤缺失则会造成丢分;如果数据处理不当则会陷入庞大的数据运算中,因此解决这类问题首先需要根据题目条件提取有用数据,然后根据统计思想对数据进行相关处理、运算,并按照一定的书写步骤准确无 - 15 -‎ 误书写出来,做到步骤不缺失、表述准确无误,下面就如何从概率统计综合问题中迅速提取数据,并作出正确处理及模型构建提供典例展示.‎ 统计图中数据的提取、处理及运算 ‎【例1】 (2016·全国卷Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:‎ 记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.‎ ‎(1)若n=19,求y与x的函数解析式;‎ ‎(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;‎ ‎(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?‎ ‎[解](1)当x≤19时,y=3 800;‎ 当x>19时,y=3 800+500(x-19)=500x-5 700,‎ 所以y与x的函数解析式为 y=(x∈N).‎ ‎(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.‎ ‎(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为(3 800×70+4 300×20+4 800×10)=4 000.‎ 若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的 - 15 -‎ 平均数为(4 000×90+4 500×10)=4 050. ‎ 比较两个平均数可知,购买1台机器的同时应购买19个易损零件.‎ ‎[评析](1)根据题意写出分段函数的解析式.‎ ‎(2)根据柱状图结合频率的概念,求n的最小值.‎ ‎(3)分别计算两种情况下的平均数,并比较大小,作出决策.‎ ‎【素养提升练习】‎ ‎1.2019年的“国庆节”期间,高速公路车辆较多.某调查公司在一服务区从七座以下小型汽车中按进服务区的先后每间隔50辆就抽取一辆的抽样方法抽取40名驾驶员进行询问调查,将他们在某段高速公路的车速(km/h)分成六段:[60,65),[65,70),[70,75),[75,80),[80,85),[85,90)后得到如图的频率分布直方图.‎ ‎(1)求这40辆小型车辆车速的众数和中位数的估计值;(2)若从车速在[60,70)的车辆中任抽取2辆,求车速在[65,70)的车辆恰有一辆的概率.‎ ‎[解](1)众数的估计值为最高的矩形的中点,即众数的估计值等于77.5.‎ 设中位数的估计值为x,则0.01×5+0.02×5+0.04×5+0.06×(x-75)=0.5,解得x=77.5,即中位数的估计值为77.5‎ ‎(2)从图中可知,车速在[60,65)的车辆数为:m1=0.01×5×40=2,车速在[65,70)的车辆数为:m2=0.02×5×40=4.‎ 将车速在[60,65)的车辆设为a,b,车速在[65,70)的车辆设为c,d,e,f,则所有的基本事件有:(a,b),(a,c),(a,d),(a,e),(a,f),(b,c),(b,d),(b,e),(b,f),(c,d),(c,e),(c,f),(d,e),(d,f),(e,f),共15种,其中车速在[65,70)的车辆恰有一辆的事件有:(a,c),(a,d),(a,e),(a,f),(b,c),(b,d),(b,e),(b,f),共8种.‎ 所以,车速在[65,70)的车辆恰有一辆的概率为P=.‎ 统计数表中的信息提取与数据处理 ‎【例2】 (2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机 - 15 -‎ 抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:‎ 抽取次序 ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ 零件尺寸 ‎9.95‎ ‎10.12‎ ‎9.96‎ ‎9.96‎ ‎10.01‎ ‎9.92‎ ‎9.98‎ ‎10.04‎ 抽取次序 ‎9‎ ‎10‎ ‎11‎ ‎12‎ ‎13‎ ‎14‎ ‎15‎ ‎16‎ 零件尺寸 ‎10.26‎ ‎9.91‎ ‎10.13‎ ‎10.02‎ ‎9.22‎ ‎10.04‎ ‎10.05‎ ‎9.95‎ 经计算得=xi=9.97,s==≈0.212,≈18.439, (xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.‎ ‎(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).‎ ‎(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.‎ ‎(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?‎ ‎(ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)‎ 附:样本(xi,yi)(i=1,2,…,n)的相关系数r=,≈0.09.‎ ‎[解](1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数 r=≈≈-0.18.‎ 由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.‎ ‎(2)(i)由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.‎ ‎(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为 (16×9.97-9.22)=10.02,‎ 这条生产线当天生产的零件尺寸的均值的估计值为10.02.‎ x≈16×0.2122+16×9.972≈1 591.134,‎ 剔除第13个数据,剩下数据的样本方差为 (1 591.134-9.222-15×10.022)≈0.008,‎ - 15 -‎ 这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.‎ ‎[评析](1)利用相关系数r的公式求出r进行判断.‎ ‎(2)认真分析题目给出的信息,对照已知数据,找出异常值,剔除异常值,求出零件尺寸的均值与标准值.‎ ‎【素养提升练习】‎ ‎2.某项科研活动共进行了5次试验,其数据如下表:‎ 特征量 第1次 第2次 第3次 第4次 第5次 x ‎555‎ ‎559‎ ‎551‎ ‎563‎ ‎552‎ y ‎601‎ ‎605‎ ‎597‎ ‎599‎ ‎598‎ ‎ ‎ ‎(1)从5次特征量y的试验数据中随机地抽取两个数据,求至少有一个大于600的概率;‎ ‎(2)求特征量y关于x的线性回归方程=x+;并预测当特征量x为570时,特征量y的值.‎ ‎[解](1)记“从5次特征量y的试验数据中随机地抽取两个数据,至少有一个大于600”为事件A.‎ 从5次特征量y的试验数据中随机地抽取两个数据有{601,605},{601,597},{601,599},{601,598},{605,597},{605,599},{605,598},{597,599},{597,598},{599,598},共10种情况.其中至少有一个数据大于600的有{601,605},{601,597},{601,599},{601,598},{605,597},{605,599},{605,598},共7种情况.‎ ‎∴P(A)=.‎ ‎(2)∵==556,‎ ==600.‎ ‎∴= ‎==0.3.‎ =- =600-0.3×556=433.2,‎ ‎∴线性回归方程为=0.3x+433.2.‎ - 15 -‎ 当x=570时,=0.3×570+433.2=604.2.‎ ‎∴当x=570时,特征量y的估计值为604.2‎ - 15 -‎