• 466.00 KB
  • 2021-06-20 发布

2015届高考数学二轮专题训练:专题七 第3讲 统计与统计案例

  • 16页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第3讲 统计与统计案例 考情解读 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中、低档题.‎ ‎1.随机抽样 ‎(1)简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.‎ ‎(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.‎ ‎(3)分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.‎ ‎2.常用的统计图表 ‎(1)频率分布直方图 ‎①小长方形的面积=组距×=频率;‎ ‎②各小长方形的面积之和等于1;‎ ‎③小长方形的高=,所有小长方形的高的和为.‎ ‎(2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好.‎ ‎3.用样本的数字特征估计总体的数字特征 ‎(1)众数、中位数、平均数 数字特征 样本数据 频率分布直方图 众数 出现次数最多的数据 取最高的小长方形底边中点的横坐标 中位数 将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)‎ 把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标 平均数 样本数据的算术平均数 每个小矩形的面积乘以小矩形底边中点的横坐标之和 ‎(2)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2].‎ 标准差:‎ s= .‎ ‎4.变量的相关性与最小二乘法 ‎(1)相关关系的概念、正相关和负相关、相关系数.‎ ‎(2)最小二乘法:对于给定的一组样本数据(x1,y1),(x2,y2),…,(xn,yn),通过求Q=(yi-a-bxi)2最小时,得到线性回归方程=x+的方法叫做最小二乘法.‎ ‎5.独立性检验 对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是 y1‎ y2‎ 总计 x1‎ a b a+b x2‎ c d c+d 总计 a+c b+d n 则K2(χ2)=(其中n=a+b+c+d为样本容量).‎ 热点一 抽样方法 例1 (1)(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为(  )‎ A.11 B.12 C.13 D.14‎ ‎(2)(2014·石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________.‎ 思维启迪 (1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取号码的间隔相同;(2)分层抽样最重要的是各层的比例.‎ 答案 (1)B (2)200‎ 解析 (1)由=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为==12.‎ ‎(2)本题属于分层抽样,设该学校的教师人数为x,所以=,所以x=200.‎ 思维升华 (1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.‎ ‎ (1)某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,…,1 470编号,若第1组有简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为(  )‎ A.15 B.16 C.17 D.18‎ ‎(2)(2014·广东)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为(  )‎ A.200,20 B.100,20‎ C.200,10 D.100,10‎ 答案 (1)C (2)A 解析 (1)由系统抽样方法,知按编号依次每30个编号作为一组,共分49组,高二学生的编号为496到988,在第17组到第33组内,第17组抽取的编号为16×30+23=503,为高二学生,第33组抽取的编号为32×30+23=983,为高二学生,故共抽取高二学生人数为33-16=17,故选C.‎ ‎(2)该地区中、小学生总人数为3 500+2 000+4 500=10 000,‎ 则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A.‎ 热点二 用样本估计总体 例2 (1)(2014·山东)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为(  )‎ A.6 B.8 C.12 D.18‎ ‎(2)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是根据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是(  )‎ A.甲 B.乙 C.甲乙相等 D.无法确定 甲 乙 ‎2‎ ‎0.04‎ ‎1‎ ‎2‎ ‎3‎ ‎6‎ ‎9‎ ‎3‎ ‎0.05‎ ‎9‎ ‎6‎ ‎2‎ ‎1‎ ‎0.06‎ ‎2‎ ‎9‎ ‎3‎ ‎3‎ ‎1‎ ‎0.07‎ ‎9‎ ‎6‎ ‎4‎ ‎0.08‎ ‎7‎ ‎7‎ ‎0.09‎ ‎2‎ ‎4‎ ‎6‎ 思维启迪 (1)根据第一组与第二组的人数和对应频率估计样本总数,然后利用第三组的频率和无疗效人数计算;(2)直接根据公式计算方差.‎ 答案 (1)C (2)A 解析 (1)志愿者的总人数为=50,‎ 所以第三组人数为50×0.36=18,‎ 有疗效的人数为18-6=12.‎ ‎(2)=(0.042+0.053+0.059+0.061+0.062+0.066+0.071+0.073+0.073+0.084+0.086+0.097)÷12≈0.068 9,‎ =(0.041+0.042+0.043+0.046+0.059+0.062+0.069+0.079+0.087+0.092+0.094+0.096)÷12≈0.067 5,‎ s2=[(0.042-0.068 9)2+(0.053-0.068 9)2+…+(0.097-0.068 9)2]≈0.000 212.‎ s2=[(0.041-0.067 5)2+(0.042-0.067 5)2+…+(0.096-0.067 5)2]≈0.000 429.‎ 所以甲、乙两地浓度的方差较小的是甲地.‎ 思维升华 ‎ ‎(1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.‎ ‎(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.‎ ‎ (1)某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.‎ ‎(2)(2014·陕西)设样本数据x1,x2,…,x10的均值和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的均值和方差分别为(  )‎ A.1+a,4 B.1+a,4+a C.1,4 D.1,4+a 答案 (1)10 (2)A 解析 (1)由频率分布直方图可知:‎ =,所以x=10.‎ ‎(2)=1,yi=xi+a,‎ 所以y1,y2,…,y10的均值为1+a,方差不变仍为4.‎ 故选A.‎ 热点三 统计案例 例3 (1)以下是某年2月某地区搜集到的新房屋的销售价格y和房屋的面积x的数据.‎ 房屋面积x/m2‎ ‎115‎ ‎110‎ ‎80‎ ‎135‎ ‎105‎ 销售价格y/万元 ‎24.8‎ ‎21.6‎ ‎18.4‎ ‎29.2‎ ‎22‎ 根据上表可得线性回归方程=x+中的=0.196 2,则面积为150 m2的房屋的销售价格约为________万元.‎ ‎(2)(2014·江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(  )‎ 表1‎ ‎ 成绩 性别 不及格 及格 总计 男 ‎6‎ ‎14‎ ‎20‎ 女 ‎10‎ ‎22‎ ‎32‎ 总计 ‎16‎ ‎36‎ ‎52‎ 表2‎ ‎ 视力 性别 好 差 总计 男 ‎4‎ ‎16‎ ‎20‎ 女 ‎12‎ ‎20‎ ‎32‎ 总计 ‎16‎ ‎36‎ ‎52‎ 表3‎ ‎ 智商 性别 偏高 正常 总计 男 ‎8‎ ‎12‎ ‎20‎ 女 ‎8‎ ‎24‎ ‎32‎ 总计 ‎16‎ ‎36‎ ‎52‎ 表4‎ ‎ 阅读量 性别 丰富 不丰富 总计 男 ‎14‎ ‎6‎ ‎20‎ 女 ‎2‎ ‎30‎ ‎32‎ 总计 ‎16‎ ‎36‎ ‎52‎ A.成绩 B.视力 C.智商 D.阅读量 思维启迪 (1)回归直线过样本点中心(,);‎ ‎(2)根据列联表,计算K2的值 答案 (1)31.244 2 (2)D 解析 (1)由表格可知=(115+110+80+135+105)=109,‎ =(24.8+21.6+18.4+29.2+22)=23.2.‎ 所以=-=23.2-0.196 2×109=1.814 2.‎ 所以所求线性回归方程为=0.196 2x+1.814 2.‎ 故当x=150时,销售价格的估计值为=0.196 2×150+1.814 2=31.244 2(万元).‎ ‎(2)A中,a=6,b=14,c=10,d=22,a+b=20,c+d=32,a+c=16,b+d=36,n=52,‎ K2==.‎ B中,a=4,b=16,c=12,d=20,a+b=20,c+d=32,a+c=16,b+d=36,n=52,‎ K2==.‎ C中,a=8,b=12,c=8,d=24,a+b=20,c+d=32,a+c=16,b+d=36,n=52,‎ K2==.‎ D中,a=14,b=6,c=2,d=30,a+b=20,c+d=32,a+c=16,b+d=36,n=52,‎ K2==.‎ ‎∵<<<,‎ ‎∴与性别有关联的可能性最大的变量是阅读量.‎ 思维升华 (1)线性回归方程求解的关键在于准确求出样本点中心.回归系数的求解可直接把相应数据代入公式中求解,回归常数的确定则需要利用中心点在回归直线上建立方程求解;(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入K2(χ2)计算公式求其值,根据K2(χ2)取值范围求解即可.‎ ‎ (1)已知x、y取值如下表:‎ x ‎0‎ ‎1‎ ‎4‎ ‎5‎ ‎6‎ ‎8‎ y ‎1.3‎ ‎1.8‎ ‎5.6‎ ‎6.1‎ ‎7.4‎ ‎9.3‎ 从所得的散点图分析可知:y与x线性相关,且=0.95x+,则等于(  )‎ A.1.30 B.1.45 C.1.65 D.1.80‎ ‎(2)某研究机构为了研究人的脚的大小与身高之间的关系,随机抽测了20人,若“身高大于175厘米”的为“高个”,“身高小于等于175厘米”的为“非高个”,“脚长大于42码”的为“大脚”,“脚长小于等于42码”的为“非大脚”.得以下2×2列联表:‎ 高个 非高个 总计 大脚 ‎5‎ ‎2‎ ‎7‎ 非大脚 ‎1‎ ‎12‎ ‎13‎ 总计 ‎6‎ ‎14‎ ‎20‎ 则在犯错误的概率不超过________的前提下认为人的脚的大小与身高之间有关系.‎ ‎(附:‎ P(K2>k)‎ ‎0.05‎ ‎0.01‎ ‎0.001‎ k ‎3.841‎ ‎6.635‎ ‎10.828‎ ‎)‎ 答案 (1)B (2)0.01‎ 解析 (1)依题意得,=×(0+1+4+5+6+8)=4,‎ =(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;‎ 又直线=0.95x+必过样本点中心(,),即点(4,5.25),于是有5.25=0.95×4+,由此解得=1.45.‎ ‎(2)由题意得 K2=≈8.802>6.635.‎ 而K2>6.635的概率约为0.01,所以在犯错误的概率不超过0.01的前提下认为人的脚的大小与身高之间有关系.‎ ‎1.随机抽样的方法有三种,其中简单随机抽样适用于总体中的个体数量不多的情况,当总体中的个体数量明显较多时要使用系统抽样,当总体中的个体具有明显的层次时使用分层抽样.系统抽样最重要的特征是“等距”,分层抽样,最重要的是各层的“比例”.‎ ‎2.用样本估计总体 ‎(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.‎ ‎(2)众数、中位数及平均数的异同:众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.‎ ‎(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.‎ ‎①总体期望的估计,计算样本平均值=xi.②总体方差(标准差)的估计:方差= (xi-)2,标准差=,方差(标准差)较小者较稳定.‎ ‎3.线性回归方程 = x+ 过样本点中心(,),这为求线性回归方程带来很多方便.‎ ‎4.独立性检验 ‎(1)作出2×2列联表.(2)计算随机变量K2(χ2)的值.(3)查临界值,检验作答.‎ 真题感悟 ‎1.(2014·江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.‎ 答案 24‎ 解析 底部周长在[80,90)的频率为0.015×10=0.15,‎ 底部周长在[90,100)的频率为0.025×10=0.25,‎ 样本容量为60,所以树木的底部周长小于100 cm的株数为(0.15+0.25)×60=24.‎ ‎2.(2014·重庆)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是(  )‎ A.=0.4x+2.3 B.=2x-2.4‎ C.=-2x+9.5 D.=-0.3x+4.4‎ 答案 A 解析 因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.‎ 因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A和B中的线性回归方程进行检验,可以排除B,故选A.‎ 押题精练 ‎1.某地区对某路段公路上行驶的汽车速度实施监控,从中抽取50辆汽车进行测速分析,得到如图所示的时速的频率分布直方图,根据该图,时速在70 km/h以下的汽车有________辆.‎ 答案 20‎ 解析 时速在70 km/h以下的汽车所占的频率为0.01×10+0.03×10=0.4,共有0.4×50=20(辆).‎ ‎2.某教育出版社在高三期末考试结束后,从某市参与考试的考生中选取600名学生对在此期间购买教辅资料的情况进行调研,得到如下数据:‎ 购买图书情况 只买试题类 只买讲解类 试题类和讲解类都买 人数 ‎240‎ ‎200‎ ‎160‎ 若该教育出版社计划用分层抽样的方法从这600人中随机抽取60人进行座谈,则只买试题类的学生应抽取的人数为________.‎ 答案 24‎ 解析 只买试题类的学生应抽取的人数为60×=24.‎ ‎3.下表提供了某厂节能减排技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:‎ x ‎3‎ ‎4‎ ‎5‎ ‎6‎ y ‎2.5‎ t ‎4‎ ‎4.5‎ 根据上表提供的数据,求出y关于x的线性回归方程为=0.7x+0.35,那么表中t的值为________.‎ 答案 3‎ 解析 ∵样本点中心为,∴=0.7×4.5+0.35,解得t=3.‎ ‎4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:‎ 做不到“光盘”‎ 能做到“光盘”‎ 男 ‎45‎ ‎10‎ 女 ‎30‎ ‎15‎ 附:‎ P(K2≥k0)‎ ‎0.10‎ ‎0.05‎ ‎0.025‎ k0‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ K2= 参照附表,得到的正确结论是(  )‎ A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”‎ B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”‎ C.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”‎ D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”‎ 答案 C 解析 由公式可计算K2的观测值k==≈3.03>2.706,所以有90%以上的把握认为“该市民能否做到‘光盘’与性别有关”,故选C.‎ ‎(推荐时间:40分钟)‎ 一、选择题 ‎1.(2014·湖南)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则(  )‎ A.p1=p2乙,y甲>y乙 B.甲<乙,y甲y乙 D.甲>乙,y甲0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.‎ 将2015年的年份代号t=9代入(1)中的线性回归方程,得=0.5×9+2.3=6.8,‎ 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.‎ ‎12.某城市随机抽取一年(365天)内100天的空气质量指数API的监测数据,结果统计如下:‎ API ‎[0,50]‎ ‎(50,100]‎ ‎(100,150]‎ ‎(150,200]‎ ‎(200,250]‎ ‎(250,300]‎ ‎>300‎ 空气质量 优 良 轻微污染 轻度污染 中度污染 中重度污染 重度污染 天数 ‎4‎ ‎13‎ ‎18‎ ‎30‎ ‎9‎ ‎11‎ ‎15‎ ‎(1)若某企业每天由空气污染造成的经济损失S(单位:元)与空气质量指数API(记为w)的关系式为:‎ S=,试估计在本年度内随机抽取一天,该天经济损失S大于200元且不超过600元的概率;‎ ‎(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染.完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?‎ 非重度污染 重度污染 合计 供暖季 非供暖季 合计 ‎100‎ 附:‎ P(K2≥k0)‎ ‎0.25‎ ‎0.15‎ ‎0.10‎ ‎0.05‎ ‎0.025‎ ‎0.010‎ ‎0.005‎ ‎0.001‎ k0‎ ‎1.323‎ ‎2.072‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ K2=.‎ 解 (1)设“在本年内随机抽取一天,该天经济损失S大于200元且不超过600元”为事件A,‎ 由2003.841.‎ 所以有95%的把握认为空气重度污染与供暖有关.‎ ‎ ‎