• 1.11 MB
  • 2021-06-11 发布

2020届二轮复习统计与统计案例学案(全国通用)

  • 32页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第2讲 统计与统计案例 ‎[做真题]‎ 题型一 抽样方法与总体分布的估计 ‎1.(2019·高考全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是(  )‎ A.中位数        B.平均数 C.方差 D.极差 解析:选A.记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.‎ ‎2.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:‎ 则下面结论中不正确的是(  )‎ A.新农村建设后,种植收入减少 B.新农村建设后,其他收入增加了一倍以上 C.新农村建设后,养殖收入增加了一倍 D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半 解析:选A.法一:设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.‎ 法二:因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.故选A.‎ ‎3.(2019·高考全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:‎ 记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.‎ ‎(1)求乙离子残留百分比直方图中a,b的值;‎ ‎(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).‎ 解:(1)由已知得0.70=a+0.20+0.15,故a=0.35.‎ b=1-0.05-0.15-0.70=0.10.‎ ‎(2)甲离子残留百分比的平均值的估计值为 ‎2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.‎ 乙离子残留百分比的平均值的估计值为 ‎3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.‎ 题型二 变量间的相关关系、统计案例 ‎(2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:‎ ‎(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;‎ ‎(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:‎ 超过m 不超过m 第一种生产方式 第二种生产方式 ‎(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?‎ 附:K2=,‎ P(K2≥k)‎ ‎0.050‎ ‎0.010‎ ‎0.001‎ k ‎3.841‎ ‎6.635‎ ‎10.828‎ 解:(1)第二种生产方式的效率更高.‎ 理由如下:‎ ‎(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.‎ ‎(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.‎ ‎(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.‎ ‎(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.‎ ‎(2)由茎叶图知m==80.‎ 列联表如下:‎ 超过m 不超过m 第一种生产方式 ‎15‎ ‎5‎ 第二种生产方式 ‎5‎ ‎15‎ ‎(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.‎ ‎[明考情]‎ ‎1.统计与统计案例在选择或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在3~4题的位置.‎ ‎2.统计解答题多在第18题的位置,且多以频率分布直方图或茎叶图与线性回归分析或独立性检验相交汇的形式考查,难度中等.‎ 抽样方法 ‎[考法全练]‎ ‎1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为(  )‎ A.73          B.78‎ C.77 D.76‎ 解析:选B.样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.‎ ‎2.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:‎ 最喜爱 喜爱 一般 不喜欢 ‎4 800‎ ‎7 200‎ ‎6 400‎ ‎1 600‎ 电视台为了了解观众的具体想法和意见,打算从中抽选出100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为(  )‎ A.25,25,25,25 B.48,72,64,16‎ C.20,40,30,10 D.24,36,32,8‎ 解析:选D.法一:因为抽样比为=,‎ 所以每类人中应抽选出的人数分别为 ‎4 800×=24,7 200×=36,6 400×=32,1 600×=8.故选D.‎ 法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2,‎ 所以每类人中应抽选出的人数分别为×100=24,×100=36,×100=32,×100=8,故选D.‎ ‎3.(2019·广东省七校联考)假设要考察某公司生产的狂犬疫苗的剂量是否达标,‎ 现用随机数法从500支疫苗中抽取50支进行检验,利用随机数表抽取样本时,先将500支疫苗按000,001,…,499进行编号,若从随机数表第7行第8列的数开始向右读,则抽取的第3支疫苗的编号为________.(下面摘取了随机数表的第7行至第9行)‎ ‎84 42 17 53 31 57 24 55 06 88 77 04 74 47 67‎ ‎21 76 33 50 25 83 92 12 06 76 63 01 63 78 59‎ ‎16 95 55 67 19 98 10 50 71 75 12 86 73 58 07‎ ‎44 39 52 38 79 33 21 12 34 29 78 64 56 07 82‎ ‎52 42 07 44 38 15 51 00 13 42 99 66 02 79 54‎ 解析:由题意得,从随机数表第7行第8列的数开始向右读,符合条件的前三个编号依次是331,455,068,故抽取的第3支疫苗的编号是068.‎ 答案:068‎ ‎(1)系统抽样 总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).  ‎ 若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n-1).‎ ‎(2)分层抽样 按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.‎ 用样本估计总体 ‎[典型例题]‎ ‎ (2019·广东六校第一次联考)某市大力推广纯电动汽车,对购买用户依照车辆出厂续驶里程R(单位:千米)的行业标准,予以地方财政补贴,其补贴标准如下表:‎ 出厂续驶里程R/千米 补贴/(万元/辆)‎ ‎150≤R<250‎ ‎3‎ ‎250≤R<350‎ ‎4‎ R≥350‎ ‎4.5‎ ‎2017年底某部门随机调查该市1 000辆纯电动汽车,统计其出厂续驶里程R,得到频率分布直方图如上图所示,用样本估计总体,频率估计概率,解决如下问题:‎ ‎(1)求该市每辆纯电动汽车2017年地方财政补贴的均值;‎ ‎(2)某企业统计2017年其充电站100天中各天充电车辆数,得如下频数分布表:‎ 辆数 ‎[5 500,6 500)‎ ‎[6 500,7 500)‎ ‎[7 500,8 500)‎ ‎[8 500,9 500]‎ 天数 ‎20‎ ‎30‎ ‎40‎ ‎10‎ ‎(同一组中的数据用该组区间的中点值作代表)‎ ‎2018年2月,国家出台政策,将纯电动汽车财政补贴逐步转移到充电基础设施建设上来,该企业拟将转移补贴资金用于添置新型充电设备.现有直流、交流两种充电桩可供购置,直流充电桩5万元/台,每台每天最多可以充电30辆车,每天维护费用500元/台;交流充电桩1万元/台,每台每天最多可以充电4辆车,每天维护费用80元/台.‎ 该企业现有两种购置方案:‎ 方案一,购买100台直流充电桩和900台交流充电桩;‎ 方案二,购买200台直流充电桩和400台交流充电桩.‎ 假设车辆充电时优先使用新设备,且充电一辆车产生25元的收入,用2017年的统计数据,分别估计该企业在两种方案下新设备产生的日利润(日利润=日收入-日维护费用).‎ ‎【解】 (1)依题意可得纯电动汽车地方财政补贴的分布列为 补贴/(万元/辆)‎ ‎3‎ ‎4‎ ‎4.5‎ 概率 ‎0.2‎ ‎0.5‎ ‎0.3‎ 所以该市每辆纯电动汽车2017年地方财政补贴的均值为3×0.2+4×0.5+4.5×0.3=3.95(万元).‎ ‎(2)由频数分布表得每天需要充电车辆数的分布列为 辆数 ‎6 000‎ ‎7 000‎ ‎8 000‎ ‎9 000‎ 概率 ‎0.2‎ ‎0.3‎ ‎0.4‎ ‎0.1‎ 若采用方案一,100台直流充电桩和900台交流充电桩每天可充电车辆数为30×100+4×900=6 600,‎ 可得实际充电车辆数的分布列为 实际充电车辆数 ‎6 000‎ ‎6 600‎ 概率 ‎0.2‎ ‎0.8‎ 于是估计在方案一下新设备产生的日利润为 ‎25×(6 000×0.2+6 600×0.8)-500×100-80×900=40 000(元).‎ 若采用方案二,200台直流充电桩和400台交流充电桩每天可充电车辆数为30×200+4×400=7 600,‎ 可得实际充电车辆数的分布列为 实际充电车辆数 ‎6 000‎ ‎7 000‎ ‎7 600‎ 概率 ‎0.2‎ ‎0.3‎ ‎0.5‎ 于是估计在方案二下新设备产生的日利润为 ‎25×(6 000×0.2+7 000×0.3+7 600×0.5)-500×200-80×400=45 500(元).‎ ‎(1)统计中的5个数据特征 ‎①众数:在样本数据中,出现次数最多的那个数据.‎ ‎②中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. ‎ ‎③平均数:样本数据的算术平均数,即=(x1+x2+…+xn).‎ ‎④方差与标准差:‎ s2=[(x1-)2+(x2-)2+…+(xn-)2];‎ s=.‎ ‎(2)从频率分布直方图中得出有关数据的技巧 ‎①频率:频率分布直方图中横轴表示组数,纵轴表示,频率=组距×.‎ ‎②频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值.‎ ‎③众数:最高小长方形底边中点的横坐标.‎ ‎④中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.‎ ‎⑤平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.‎ ‎⑥性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1,列方程即可求得参数值.‎ ‎[对点训练]‎ ‎1.(2019·武昌区调研考试)对参加某次数学竞赛的1 000名选手的初赛成绩(满分:100分)作统计,得到如图所示的频率分布直方图.‎ ‎(1)根据直方图完成以下表格;‎ 成绩 ‎[50,60)‎ ‎[60,70)‎ ‎[70,80)‎ ‎[80,90)‎ ‎[90,100]‎ 频数 ‎(2)求参赛选手初赛成绩的平均数及方差(同一组中的数据用该组区间的中点值作代表);‎ ‎(3)如果从参加初赛的选手中选取380人参加复赛,那么如何确定进入复赛选手的成绩?‎ 解:(1)填表如下:‎ 成绩 ‎[50,60)‎ ‎[60,70)‎ ‎[70,80)‎ ‎[80,90)‎ ‎[90,100]‎ 频数 ‎50‎ ‎150‎ ‎350‎ ‎350‎ ‎100‎ ‎(2)平均数为55×0.05+65×0.15+75×0.35+85×0.35+95×0.1=78,方差s2=(-23)2×0.05+(-13)2×0.15+(-3)2×0.35+72×0.35+172×0.1=101.‎ ‎(3)进入复赛选手的成绩为80+×10=82(分),所以初赛成绩为82分及其以上的选手均可进入复赛.‎ ‎(说明:回答82分以上,或82分及其以上均可)‎ ‎2.(2019·昆明市诊断测试)《中国大能手》是央视推出的一档大型职业技能挑战赛类的节目,旨在通过该节目,在全社会传播和弘扬“劳动光劳、技能宝贵、创造伟大”的时代风尚.某公司准备派出选手代表公司参加《中国大能手》职业技能挑战赛.经过层层选拔,最后集中在甲、乙两位选手在一项关键技能的区分上,选手完成该项挑战的时间越少越好.已知这两位选手在15次挑战训练中,完成该项关键技能挑战所用的时间(单位:秒)及挑战失败(用“×”表示)的情况如表1:‎ 序号 ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ ‎9‎ ‎10‎ ‎11‎ ‎12‎ ‎13‎ ‎14‎ ‎15‎ 甲 ‎×‎ ‎96‎ ‎93‎ ‎×‎ ‎92‎ ‎×‎ ‎90‎ ‎86‎ ‎×‎ ‎×‎ ‎83‎ ‎80‎ ‎78‎ ‎77‎ ‎75‎ 乙 ‎×‎ ‎95‎ ‎×‎ ‎93‎ ‎×‎ ‎92‎ ‎×‎ ‎88‎ ‎83‎ ‎×‎ ‎82‎ ‎80‎ ‎80‎ ‎74‎ ‎73‎ 表1‎ 据表1中甲、乙两位选手完成该项关键技能挑战所用时间的数据,应用统计软件得表2:‎ 均值/秒 方差 甲 ‎85‎ ‎50.2‎ 乙 ‎84‎ ‎54‎ 表2‎ ‎(1)在表1中,从选手甲完成挑战用时低于90秒的成绩中,任取2个,求这2个成绩都低于80秒的概率;‎ ‎(2)若该公司只有一个参赛名额,以完成该项关键技能挑战所用时间为标准,根据以上信息,判断哪位选手代表公司参加职业技能挑战赛更合适?请说明你的理由.‎ 解:(1)选手甲完成挑战用时低于90秒的成绩共有6个,其中低于80秒的成绩有3个,分别记为A1,A2,A3,其余的3个分别记为B1,B2,B3,从6个成绩中任取2个的所有取法有:‎ A1A2,A1A3,A1B1,A1B2,A1B3,‎ A2A3,A2B1,A2B2,A2B3,‎ A3B1,A3B2,A3B3,‎ B1B2,B1B3,‎ B2B3,‎ 共5+4+3+2+1=15(种),其中2个成绩都低于80秒的有A1A2,A1A3,A2A3,共3种,所以所取的2个成绩都低于80秒的概率P==.‎ ‎(2)甲、乙两位选手完成关键技能挑战的次数都为10,挑战失败的次数都为5,所以只需要比较他们完成关键技能挑战的情况即可,‎ 其中甲=85(秒),乙=84(秒),‎ s=50.2,s=54.‎ 答案①:选手乙代表公司参加职业技能挑战赛比较合适,因为在相同次数的挑战中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,但甲>乙,乙选手平均用时更短.‎ 答案②:选手甲代表公司参加职业技能挑战赛比较合适,因为在相同次数的挑战中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,虽然甲>乙,但两者相差不大,水平相当,ss,说明乙选手进步幅度更大,成绩提升趋势更好.(答案不唯一,可酌情给分)‎ 回归分析 ‎[典型例题]‎ 命题角度一 线性回归分析 ‎ 某地1~10岁男童年龄xi(单位:岁)与身高的中位数yi(单位:cm)(i=1,2,…,10)如下表:‎ x/岁 ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ ‎9‎ ‎10‎ y/cm ‎76.5‎ ‎88.5‎ ‎96.8‎ ‎104.1‎ ‎111.3‎ ‎117.7‎ ‎124.0‎ ‎130.0‎ ‎135.4‎ ‎140.2‎ 对上表的数据作初步处理,得到下面的散点图及一些统计量的值.‎ (xi-)2‎ (yi-)2‎ (xi-)(yi-)‎ ‎5.5‎ ‎112.45‎ ‎82.50‎ ‎3 947.71‎ ‎566.85‎ ‎(1)求y关于x的线性回归方程(线性回归方程系数精确到0.01);‎ ‎(2)某同学认为y=px2+qx+r更适宜作为y关于x的回归方程类型,他求得的回归方程是=-0.30x2+10.17x+68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?‎ 附:回归方程=+x中的斜率和截距的最小二乘估计公式分别为:‎ =,=-.‎ ‎【解】 (1)==≈6.871≈6.87,‎ =-=112.45-6.871×5.5≈74.66,‎ 所以y关于x的线性回归方程为=6.87x+74.66.‎ ‎(2)若回归方程为=6.87x+74.66,当x=11时,=150.23.‎ 若回归方程为=-0.30x2+10.17x+68.07,当x=11时,y=143.64.‎ ‎|143.64-145.3|=1.66<|150.23-145.3|=4.93,‎ 所以回归方程=-0.30x2+10.17x+68.07对该地11岁男童身高中位数的拟合效果更好.‎ 求回归直线方程的关键及实际应用 ‎(1)关键:正确理解计算,的公式和准确地计算.‎ ‎(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.  ‎ 命题角度二 非线性回归分析 ‎ 某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.‎ (xi-)2‎ (xi-)·(yi-)‎ (ui-)2‎ (ui-)·(yi-)‎ ‎15.25‎ ‎3.63‎ ‎0.269‎ ‎2 085.5‎ ‎-230.3‎ ‎0.787‎ ‎7.049‎ 表中ui=,=ui.‎ ‎(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)‎ ‎(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01);‎ ‎(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)‎ 附:对于一组数据(w1,v1),(w2,v2),…,(wn,vn),其回归直线=+w 的斜率和截距的最小二乘估计分别为=,=-.‎ ‎【解】 (1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程.‎ ‎(2)令u=,先建立y关于u的线性回归方程,‎ 由于==≈8.957≈8.96,‎ 所以=-·=3.63-8.957×0.269≈1.22,‎ 所以y关于u的线性回归方程为=1.22+8.96u,‎ 所以y关于x的回归方程为=1.22+.‎ ‎(3)假设印刷x千册,依题意得10x-x≥78.840,‎ 解得x≥10,‎ 所以至少印刷10 000册才能使销售利润不低于78 840元.‎ 求非线性回归方程的步骤 ‎(1)确定变量,作出散点图.‎ ‎(2)根据散点图,选择恰当的拟合函数.‎ ‎(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.‎ ‎(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.‎ ‎(5)根据相应的变换,写出非线性回归方程.  ‎ 命题角度三 回归分析与正态分布的综合问题 ‎ 某地一商场记录了12月份某5天当中某商品的销售量y(单位:kg)与该地当日最高气温x(单位:℃)的相关数据,如下表:‎ x ‎11‎ ‎9‎ ‎8‎ ‎5‎ ‎2‎ y ‎7‎ ‎8‎ ‎8‎ ‎10‎ ‎12‎ ‎(1)试求y与x的回归方程=x+;‎ ‎(2)判断y与x之间是正相关还是负相关;若该地12月某日的最高气温是6 ℃,试用所求回归方程预测这天该商品的销售量;‎ ‎(3)假定该地12月份的日最高气温X~N(μ,σ2),其中μ近似取样本平均数,σ2近似取样本方差s2,试求P(3.86.635,‎ 所以有99%的把握认为对下“禁奥令”的态度与性别有关.‎ ‎(2)由题意,可知在这10人中,男、女生各5人,其中男生有4人、女生有2人认为不应下“禁奥令”,ξ的所有可能取值有1,2,3,4.‎ P(ξ=1)==;‎ P(ξ=2)==;‎ P(ξ=3)==;‎ P(ξ=4)==.‎ 所以ξ的分布列是 ξ ‎1‎ ‎2‎ ‎3‎ ‎4‎ P 所以E(ξ)==2.4.‎ 独立性检验的关键 ‎(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.‎ ‎(2)K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.  ‎ ‎[对点训练]‎ ‎(2019·武汉市调研测试)2019年,在庆祝中华人民共和国成立70周年之际,又迎来了以“创军人荣耀,筑世界和平”为口号的第七届世界军人运动会(以下简称“军运会”).据悉,这次军运会将于2019年10月18日至27日在美丽的江城武汉举行,届时将有来自100多个国家的近万名军人运动员参赛.相对于奥运会、亚运会等大型综合赛事,军运会或许对很多人来说还很陌生,所以武汉某高校为了在学生中更广泛地推介普及军运会相关知识内容,特在网络上组织了一次“我所知晓的武汉军运会”知识问答比赛.为便于对答卷进行对比研究,组委会抽取了1 000名男生和1 000名女生的答卷,他们的成绩(单位:分)频率分布直方图如图:‎ ‎(注:答卷满分100分,成绩≥80的答卷为“优秀”等级)‎ ‎(1)从现有1 000名男生和1 000名女生的答卷中各取一份,分别求答卷成绩为“优秀”等级的概率;‎ ‎(2)求下面列联表中a,b,c,d的值,并根据列联表回答:能否在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”?‎ 男 女 总计 优秀 a b a+b 非优秀 c d c+d 总计 ‎1 000‎ ‎1 000‎ ‎2 000‎ ‎(3)根据男、女生成绩频率分布直方图,对他们的成绩的优劣进行比较.‎ 附:‎ P(K2≥k0)‎ ‎0.05‎ ‎0.025‎ ‎0.010‎ k0‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ K2=,其中n=a+b+c+d.‎ 解:(1)男生答卷成绩为“优秀”等级的概率P=(0.058+0.034+0.014+0.010)×5=0.58,女生答卷成绩为“优秀”等级的概率P=(0.046+0.034+0.016+0.010)×5=0.53.‎ ‎(2)‎ 男 女 总计 优秀 ‎580‎ ‎530‎ ‎1 110‎ 非优秀 ‎420‎ ‎470‎ ‎890‎ 总计 ‎1 000‎ ‎1 000‎ ‎2 000‎ 所以a=580,b=530,c=420,d=470.‎ 由K2=得,‎ K2=≈5.061>5.024,‎ 所以在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”.‎ ‎(3)根据男、女生成绩频率分布直方图可得,男、女生成绩的中位数均在80到85之间,但男生的成绩分布集中程度较女生成绩分布集中程度高,因此,可以认为男生的成绩较好且稳定.‎ ‎[A组 夯基保分专练]‎ 一、选择题 ‎1.(2019·福州市质量检测)某校学生会为了了解本校高一1 000名学生的课余时间参加传统文化活动的情况,随机抽取50名学生进行调查.将数据分组整理后,列表如下:‎ 参加场数 ‎0‎ ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ 参加人数占调查 人数的百分比 ‎8%‎ ‎10%‎ ‎20%‎ ‎26%‎ ‎18%‎ m%‎ ‎4%‎ ‎2%‎ 以下四个结论中正确的是(  )‎ A.表中m的数值为10‎ B.估计该校高一学生参加传统文化活动次数不高于2场的学生约为180人 C.估计该校高一学生参加传统文化活动次数不低于4场的学生约为360人 D.若采用系统抽样方法进行调查,从该校高一1 000名学生中抽取容量为50的样本,则分段间隔为25‎ 解析:选C.A中的m值应为12;B中应为380人;C是正确的;D中的分段间隔应为20,故选C.‎ ‎2.(2019·湖南省五市十校联考)在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为(  )‎ A.39         B.35‎ C.15 D.11‎ 解析:选D.由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.‎ ‎3.(2019·武汉市调研测试)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A—结伴步行,B—自行乘车,C—家人接送,D—其他方式.并将收集的数据整理绘制成如下两幅不完整的统计图.请根据图中信息,求本次抽查的学生中A类人数是(  )‎ A.30 B.40‎ C.42 D.48‎ 解析:选A.由条形统计图知,B—自行乘车上学的有42人,C—家人接送上学的有30人,D—其他方式上学的有18人,采用B,C,D三种方式上学的共90人,设A—结伴步行上学的有x人,由扇形统计图知,A—结伴步行上学与B—自行乘车上学的学生占60%,所以=‎ eq f(60,100),解得x=30,故选A.‎ ‎4.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y(单位:kW·h)与气温x(单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:‎ x(单位:℃)‎ ‎17‎ ‎14‎ ‎10‎ ‎-1‎ y(单位:kW·h)‎ ‎24‎ ‎34‎ ‎38‎ a 由表中数据得线性回归方程=-2x+60,则a的值为(  )‎ A.48 B.62‎ C.64 D.68‎ 解析:选C.由题意,得==10,==.样本点的中心(,)在回归直线=-2x+60上,代入线性回归方程可得=-20+60,解得a=64,故选C.‎ ‎5.(2019·贵阳市第一学期监测)如图的折线图是某超市2018年一月份至五月份的营业额与成本数据,根据该折线图,下列说法正确的是(  )‎ A.该超市2018年的前五个月中三月份的利润最高 B.该超市2018年的前五个月的利润一直呈增长趋势 C.该超市2018年的前五个月的利润的中位数为0.8万元 D.该超市2018年前五个月的总利润为3.5万元 解析:选D.第1个月利润为3-2.5=0.5(万元),第2个月利润为3.5-2.8=0.7(万元),第3个月利润为3.8-3=0.8(万元),第4个月利润为4-3.5=0.5(万元),第5个月利润为5-4=1(万元),其中五月份利润最高,为1万元,所以A错误.第4个月利润相比第3个月在下降,所以B错误.前五个月的利润的中位数为0.7万元,所以C错误,前五个月的总利润为0.5+0.7+0.8+0.5+1=3.5(万元),所以D正确.‎ ‎6.(2019·郑州市第二次质量预测)将甲、乙两个篮球队各5场比赛的得分数据整理成如图所示的茎叶图,由图可知以下结论正确的是(  )‎ A.甲队平均得分高于乙队的平均得分 B.甲队得分的中位数大于乙队得分的中位数 C.甲队得分的方差大于乙队得分的方差 D.甲、乙两队得分的极差相等 解析:选C.由题中茎叶图得,甲队的平均得分甲==29,乙队的平均得分乙==30,甲<乙,选项A不正确;甲队得分的中位数为29,乙队得分的中位数为30,甲队得分的中位数小于乙队得分的中位数,选项B不正确;甲队得分的方差s=×[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=,乙队得分的方差s=×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2,s>s,选项C正确;甲队得分的极差为31-26=5,乙队得分的极差为32-28=4,两者不相等,选项D不正确.故选C.‎ 二、填空题 ‎7.如图是某学校一名篮球运动员在10场比赛中所得分数的茎叶图,则该运动员在这10场比赛中得分的中位数为________.‎ 解析:把10场比赛的所得分数按顺序排列为5,8,9,12,14,16,16,19,21,24,中间两个为14与16,故中位数为=15.‎ 答案:15‎ ‎8.已知一组数据x1,x2,…,xn的方差为2,若数据ax1+b,ax2+b,…,axn+b(a>0)的方差为8,则a的值为________.‎ 解析:根据方差的性质可知,a2×2=8,故a=2.‎ 答案:2‎ ‎9.给出下列四个命题:‎ ‎①某班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,如果7号、33号、46号同学在样本中,那么样本中另一位同学的编号为23;‎ ‎②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同;‎ ‎③若一组数据a,0,1,2,3的平均数为1,则其标准差为2;‎ ‎④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为=+x,其中=2,=1,=3,则=1.‎ 其中真命题有________(填序号).‎ 解析:在①中,由系统抽样知抽样的分段间隔为52÷4=13,故抽取的样本的编号分别为7号、20号、33号、46号,故①是假命题;在②中,数据1,2,3,3,4,5的平均数为(1+2+3+3+4+5)=3,中位数为3,众数为3,都相同,故②是真命题;在③中,因为样本的平均数为1,所以a+0+1+2+3=5,解得a=-1,故样本的方差为[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2,标准差为,故③是假命题;在④中,回归直线方程为=x+2,又回归直线过点(,),把(1,3)代入回归直线方程=x+2,得=1,故④是真命题.‎ 答案:②④‎ 三、解答题 ‎10.(2019·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:‎ 平均每周进行长跑训练天数 不大于2‎ ‎3或4‎ 不少于5‎ 人数 ‎30‎ ‎130‎ ‎40‎ 若某人平均每周进行长跑训练天数不少于5,则称其为“热烈参与者”,否则称为“非热烈参与者”.‎ ‎(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;‎ ‎(2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?‎ 热烈参与者 非热烈参与者 总计 男 ‎140‎ 女 ‎55‎ 总计 附:K2=(n为样本容量)‎ P(K2≥k0)‎ ‎0.500‎ ‎0.400‎ ‎0.250‎ ‎0.150‎ ‎0.100‎ ‎0.050‎ ‎0.025‎ ‎0.010‎ ‎0.005‎ ‎0.001‎ k0‎ ‎0.455‎ ‎0.708‎ ‎1.323‎ ‎2.072‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ 解:(1)以200人中“热烈参与者”的频率作为概率,则该市“热烈参与者”的人数约为20 000×=4 000.‎ ‎(2)2×2列联表为 热烈参与者 非热烈参与者 总计 男 ‎35‎ ‎105‎ ‎140‎ 女 ‎5‎ ‎55‎ ‎60‎ 总计 ‎40‎ ‎160‎ ‎200‎ K2=≈7.292>6.635,‎ 故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关.‎ ‎11.(2019·武汉市调研测试)中共十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的要求,带领广大农村地区人民群众脱贫奔小康.经过不懈的奋力拼搏,新农村建设取得巨大进步,农民年收入也逐年增加.‎ 为了更好地制定2019年关于加快提升农民年收入,力争早日脱贫的工作计划,该地扶贫办统计了2018年50位农民的年收入(单位:千元)并制成如下频率分布直方图:‎ ‎(1)根据频率分布直方图,估计50位农民的年平均收入(单位:千元)(同一组数据用该组数据区间的中点值表示).‎ ‎(2)由频率分布直方图,可以认为该贫困地区农民年收入X服从正态分布N(μ,σ2),其中μ近似为年平均收入,σ2近似为样本方差s2,经计算得s2=6.92.利用该正态分布,解决下列问题:‎ ‎(i)在2019年脱贫攻坚工作中,若使该地区约有占总农民人数的84.14%的农民的年收入高于扶贫办制定的最低年收入标准,则最低年收入大约为多少千元?‎ ‎(ii)为了调研“精准扶贫,不落一人”的落实情况,扶贫办随机走访了1 000位农民.若每个农民的年收入相互独立,问:这1 000位农民中年收入不少于12.14千元的人数最有可能是多少?‎ 附:参考数据与公式 ≈2.63,若X~N(μ,σ2),则 ‎①P(μ-σμ-σ)≈+≈0.841 4,‎ μ-σ≈17.40-2.63=14.77,‎ 即最低年收入大约为14.77千元.‎ ‎(ii)由P(X≥12.14)=P(X≥μ-2σ)≈0.5+≈0.977 3,得每个农民的年收入不少于12.14千元的事件的概率为0.977 3,记这1 000位农民中年收入不少于12.14千元的人数为ξ,则ξ~B(103,p),其中p=0.977 3,于是恰好有k位农民的年收入不少于12.14千元的事件的概率是P(ξ=k)=Ck103pk(1-p)103-k,‎ 从而由=>1,得k<1 001p,‎ 由=>1,得k>1 001p-1,‎ 而1 001p=978.277 3,‎ 所以,977.277 30.63,所以C同学物理成绩比数学成绩要好一些.‎ ‎3.(2019·济南市模拟考试)某客户准备在家中安装一套净水系统,该系统为三级过滤,使用寿命为十年.如图所示,两个一级过滤器采用并联安装,二级过滤器与三级过滤器为串联安装.‎ 其中每一级过滤都由核心部件滤芯来实现.在使用过程中,一级滤芯和二级滤芯都需要不定期更换(每个滤芯是否需要更换相互独立),三级滤芯无需更换.若客户在安装净水系统的同时购买滤芯,则一级滤芯每个80元.二级滤芯每个160元.若客户在使用过程中单独购买滤芯,则一级滤芯每个200元,二级滤芯每个400元.现需决策安装净水系统的同时购买滤芯的数量,为此参考了根据100套该款净水系统在十年使用期内更换滤芯的相关数据制成的图表,其中图1是根据200个一级过滤器更换的滤芯个数制成的柱状图,表1是根据100个二级过滤器更换的滤芯个数制成的频数分布表.‎ 二级滤芯更换的个数 ‎5‎ ‎6‎ 频数 ‎60‎ ‎40‎ 表1‎ 以200个一级过滤器更换滤芯的频率代替1个一级过滤器更换滤芯发生的概率,以100个二级过滤器更换滤芯的频率代替1个二级过滤器更换滤芯发生的概率.‎ ‎(1)求一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30的概率;‎ ‎(2)记X表示该客户的净水系统在使用期内需要更换的一级滤芯总数,求X的分布列及数学期望;‎ ‎(3)记m,n分别表示该客户在安装净水系统的同时购买的一级滤芯和二级滤芯的个数,若m+n=28,且n∈{5,6},以该客户的净水系统在使用期内购买各级滤芯所需总费用的期望值为决策依据,试确定m,n的值.‎ 解:(1)由题意可知,若一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30,则该套净水系统中的两个一级过滤器均需更换12个滤芯,二级过滤器需要更换6个滤芯.‎ 设“一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30”为事件A,因为一个一级过滤器需要更换12个滤芯的概率为0.4,二级过滤器需要更换6个滤芯的概率为0.4,所以P(A)=0.4×0.4×0.4=0.064.‎ ‎(2)由柱状图可知,‎ 一个一级过滤器需要更换的滤芯个数为10,11,12,对应的概率分别为0.2,0.4,0.4,由题意,X可能的取值为20,21,22,23,24,并且P(X=20)=0.2×0.2=0.04,‎ P(X=21)=0.2×0.4×2=0.16,‎ P(X=22)=0.4×0.4+0.2×0.4×2=0.32,‎ P(X=23)=0.4×0.4×2=0.32,‎ P(X=24)=0.4×0.4=0.16.‎ 所以X的分布列为 X ‎20‎ ‎21‎ ‎22‎ ‎23‎ ‎24‎ P ‎0.04‎ ‎0.16‎ ‎0.32‎ ‎0.32‎ ‎0.16‎ E(X)=20×0.04+21×0.16+22×0.32+23×0.32+24×0.16=22.4.‎ ‎(3)因为m+n=28,n∈{5,6},所以若m=22,n=6,‎ 则该客户在十年使用期内购买各级滤芯所需总费用的期望值为 ‎22×80+200×0.32+400×0.16+6×160=2 848.‎ 若m=23,n=5,‎ 则该客户在十年使用期内购买各级滤芯所需总费用的期望值为 ‎23×80+200×0.16+5×160+400×0.4=2 832.‎ 故m,n的值分别为23,5.‎ ‎4.某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.根据过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,‎ 不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的关系为如图所示的折线图.‎ ‎(1)依据折线图,是否可用线性回归模型拟合y与x的关系?请计算相关系数r并加以说明(精确到0.01);(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)‎ ‎(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:‎ 周光照量X(单位:小时)‎ ‎3070‎ 光照控制仪运行台数 ‎3‎ ‎2‎ ‎1‎ 若某台光照控制仪运行,则该台光照控制仪周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.以频率作为概率,商家欲使周总利润的均值达到最大,应安装光照控制仪多少台?‎ 附相关系数公式:r=,‎ 参考数据:≈0.55,≈0.95.‎ 解:(1)由已知数据可得==5,==4.‎ 因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,‎ ==2,‎ ==,‎ 所以相关系数r===≈0.95.‎ 因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.‎ ‎(2)记商家周总利润为Y元,由条件可知至少需安装1台,最多安装3台光照控制仪.‎ ‎①安装1台光照控制仪可获得周总利润3 000元.‎ ‎②安装2台光照控制仪的情形:‎ 当X>70时,只有1台光照控制仪运行,此时周总利润Y=3 000-1 000=2 000(元),P(Y=2 000)==0.2,‎ 当3070时,只有1台光照控制仪运行,此时周总利润 Y=1×3 000-2×1 000=1 000(元).‎ P(Y=1 000)==0.2.‎ 当50≤X≤70时,有2台光照控制仪运行,此时周总利润 Y=2×3 000-1×1 000=5 000(元),‎ P(Y=5 000)==0.7,‎ 当30