- 517.50 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第64讲 统 计
考试要求 1.抽样方法,分布的意义和作用,样本估计总体的思想(A级要求);2.频率分布表、频率分布直方图、频率分布折线图、茎叶图及各自特点(A级要求);3.样本数据的数字特征(如平均数、标准差)的意义和作用,它们的计算并作出合理的解释(B级要求);4.用样本的频率分布估计总体分布,用样本的基本数字特征估计总体的基本数字特征(B级要求).
诊 断 自 测
1.(2017·苏、锡、常、镇二模)某高级中学共有900名学生,现用分层抽样的方法从该校学生中抽取1个容量为45的样本,其中高一年级抽20人,高三年级抽10人,则该校高二年级学生人数为 .
解析 ∵用分层抽样的方法从某校学生中抽取一个容量为45的样本,
其中高一年级抽20人,高三年级抽10人,
∴高二年级要抽取45-20-10=15,
∵高级中学共有900名学生,
∴每个个体被抽到的概率是=,
∴该校高二年级学生人数为=300.
答案 300
2.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比
例抽取部分学生进行调查,则最合理的抽样方法是 .
解析 根据年级不同产生差异及按人数比例抽取易知应为分层抽样法.
答案 分层抽样法
3.(1)某学校为了了解2016年高考数学学 的考试成绩,在高考后对1 200名学生进行抽样调查,其中文 400名考生,理 600名考生,艺术和体育类考生共200名,从中抽取120名考生作为样本.
(2)从10名家长中抽取3名参加座谈会.
Ⅰ.简单随机抽样法 Ⅱ.系统抽样法 Ⅲ.分层抽样法
问题与方法配对正确的是 .
解析 通过分析可知,对于(1),应采用分层抽样法,对于(2),应采用简单随机抽样法.
答案 (1)Ⅲ (2)Ⅰ
4.(必修3P81复习题8改编)一个社会调查机构就某地居民的月收入情况调查了
10 000人,并根据所得数据画出样本的频率分布直方图(如图所示).为了分析居民的收入与年龄、学历、职业等方面的关系,再从这10 000人中用分层抽样的方法抽出100人作进一步调查,则在[2 500,3 500)(元/月)收入段应抽出 人.
解析 (0.000 5+0.000 3)×500×100=40.
答案 40
5.(必修3P67练习3改编)某校举行2015年元旦汇演,七位评委为某班的小品打出的分数的茎叶统计图如图所示,去掉一个最高分和一个最低分,所剩数据的方差为 .
解析 由茎叶图知,去掉一个最高分和一个最低分,所剩数据为84,84,86,84,87,所以由公式得方差为1.6.
答案 1.6
知 识 梳 理
1.简单随机抽样
(1)定义:一般地,从容量为N的总体中逐个不放回地取出n个个体作为样本(n∈N),如果每个个体都有相同的机会被取到,那么这样的抽样方法,称为简单随机抽样.
(2)最常用的简单随机抽样方法有两种——抽签法和随机数表法.
2.系统抽样的步骤
假设要从容量为N的总体中抽取容量为n的样本.
①采用随机的方法将总体中的N个个体编号;
②将编号按间隔k分段,当是整数时,取k=;当不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N′能被n整除,这时取k=,并将剩下的总体重新编号;
③在第一段中用简单随机抽样确定起始的个体编号l;
④按照一定的规则抽取样本,通常将编号为l,l+k,l+2k,…,l+(n-1)k的个体抽出.
3.分层抽样
(1)定义:一般地,当总体由差异明显的几个部分组成时,为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较分明的几个部分,然后按各个部分在总体中所占的比实施抽样,这种抽样方法叫分层抽样,所分成的各个部分称为“层”.
(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样的方法.
4.作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差).
(2)决定组距与组数.
(3)将数据分组.
(4)列频率分布表.
(5)画频率分布直方图.
频率分布直方图的特点说明
(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示,频率=组距×.
(2)频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.
(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.
5.频率分布折线图和总体密度曲线
(1)频率分布折线图:将频率分布直方图中各个相邻的矩形的上底边的中点顺次连结起来,就得到频率分布折线图.
(2)总体分布的密度曲线:将样本容量取得足够大,分组的组距取得足够小,那么相应的频率分布折线图趋于一条光滑曲线,称这条光滑曲线为总体分布的密度曲线.
6.茎叶图
统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.
7.标准差和方差
(1)标准差是样本数据到平均数的一种平均距离.
(2)标准差:
s=.
(3)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2](xn是样本数据,n是样本容量,是平均数).
方差的公式推广的说明
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
8.利用频率分布直方图求众数、中位数与平均数时,应注意这三者的区分:(1)最高的矩形的中点横坐标即众数;(2)中位数左边和右边的直方图的面积是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
考点一 随机抽样(多维探究)
命题角度1 简单随机抽样
【例1-1】 (1)以下抽样方法是简单随机抽样的有 (填序号).
①在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖;
②某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格;
③某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见;
④用抽签方法从10件产品中选取3件进行质量检验.
(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 .
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
解析 (1)①、②不是简单随机抽样,因为抽取的个体间的间隔是固定的;③不是简单随机抽样,因为总体的个体有明显的层次;④是简单随机抽样.
(2)由题意知前5个个体的编号为08,02,14,07,01.
答案 (1)④ (2)01
规律方法 应用简单随机抽样应注意的问题
(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.
(2)在使用随机数表法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.
命题角度2 系统抽样
【例1-2】 (1)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:
若将运动员按成绩由好到差编为1 35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是 .
(2)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为 .
解析 (1)由题意知,将1 35号分成7组,每组5名运动员,成绩落在区间[139,151]的运动员共有4组,故由系统抽样法知,共抽取4名.
(2)由=20,即每20人抽取1人,所以抽取编号落在区间[481,720]的人数为==12.
答案 (1)4 (2)12
规律方法 (1)系统抽样适用的条件是总体容量较大,样本容量也较大.
(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.
(3)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定.
命题角度3 分层抽样
【例1-3】 (1)(2018·苏北四市联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n= .
(2)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为 件.
解析 (1)依题意得×n=18,解得n=90,即样本容量为90.
(2)分层抽样中各层的抽样比相同.样本中甲设备生产的产品有50件,则乙设备生产的产品有30件.在4 800件产品中,甲、乙设备生产的产品总数比为5∶3,所以乙设备生产的产品的总数为1 800件.
答案 (1)90 (2)1 800
规律方法 (1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.
(2)为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即ni∶Ni=n∶N.分层抽样的有关计算,转化为按比例列方程或算式求解.
【训练1】 (1)(2018·南京模拟)高三(1)班有学生52人,现将所有学生随机编号,用系统抽样方法,抽取一个容量为4的样本,已知5号、31号、44号学生在样本中,则样本中还有一个学生的编号是 .
(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为 .
解析 (1)分段间隔为=13,故还有一个学生的编号为5+13=18.
(2)由系统抽样的特点知:抽取号码的间隔为=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729=459+(n-1)×30,解得n=10.所以做问卷B的有10人.
答案 (1)18 (2)10
考点二 总体分布估计(多维探究)
命题角度1 用样本的频率分布估计总体的频率分布
【例2-1】 从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125]
频数
6
26
38
22
8
(1)作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80 ”的规定?
解 (1)样本数据的频率分布直方图如图所示:
(2)质量指标值的样本平均数为
=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为
0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80 ”的规定.
规律方法 用频率分布直方图解决相关问题时,应正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布直方图有以下几个要点:(1)纵轴表示频率/组距;(2)频率分布直方图中各长方形高的比也就是其频率之比;(3)直方图中每一个矩形的面积是样本数据落在这个区间上的频率,所有的小矩形的面积之和等于1,即频率之和为1.
【例2-2】 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
解 (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
规律方法 (1)茎叶图的优点是保留了原始数据,便于记录及表示,能反映数据在各段上的分布情况.
(2)①作样本的茎叶图时先要根据数据特点确定茎、叶,再作茎叶图;作“叶”时,要做到不重不漏,一般由内向外,从小到大排列,便于数据的处理.
②根据茎叶图中数据数字特征进行分析判断考查识图能力,判断推理能力和创新应用意识;解题的关键是抓住“叶”的分布特征,准确提炼信息.
【训练2】 (2017·南京、盐城二模)某地区教育主管部门为了对该地区模拟考试成绩进行分析,随机抽取了150分到450分之间的1 000名学生的成绩,并根据这
1 000名学生的成绩画出样本频率分布直方图(如图),则成绩在[300,350)内的学生共有 人.
解析 因为各组频率之和为50×(0.001×2+0.004+a+0.005+0.003)=1,解得a=0.006,所以成绩在[300,350)内的频率为50a=0.3,故学生有300人.
答案 300
命题角度2 由样本的数字特征估计总体的数字特征
【例2-3】 (1)(2018·南京模拟)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:
运动员
第1次
第2次
第3次
第4次
第5次
甲
87
91
90
89
93
乙
89
90
91
88
92
则成绩较为稳定(方差较小)的那位运动员成绩的方差为 .
(2)甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.
①分别求出两人得分的平均数与方差;
②根据图和上面算得的结果,对两人的训练成绩作出评价.
(1)解析 甲=(87+91+90+89+93)=90,
乙=(89+90+91+88+92)=90,
s=[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,
s=[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.
答案 2
(2)解 ①由图象可得甲、乙两人五次测试的成绩分别为
甲:10分,13分,12分,14分,16分;
乙:13分,14分,12分,12分,14分.
甲==13;
乙==13,
s=[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4;
s=[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.
②由s>s,可知乙的成绩较稳定.
从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.
规律方法 (1)平均数反映了数据的中心,是平均水平,而方差和标准差反映的是数据围绕平均数的波动大小.进行平均数与方差的计算,关键是正确运用公式.
(2)平均数与方差所反映的情况有着重要的实际意义,一般可以通过比较甲、乙两组样本数据的平均数和方差的差异,对甲、乙两品种可以做出评价或选择.
【训练3】 (2015·山东卷改编)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为 .
解析 甲地5天的气温为:26,28,29,31,31,
其平均数为甲==29;
方差为s=[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=3.6;
标准差为s甲=.
乙地5天的气温为:28,29,30,31,32,
其平均数为乙==30;
方差为s=[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2;
标准差为s乙=.∴甲<乙,s甲>s乙.
答案 ①④
一、必做题
1.(2017·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取 件.
解析 应从丙种型号的产品中抽取60×=18(件).
答案 18
2.(2016·江苏卷)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是 .
解析 易求=(4.7+4.8+5.1+5.4+5.5)=5.1,
∴方差s2=[(-0.4)2+(-0.3)2+02+0.32+0.42]=0.1.
答案 0.1
3.(2018·南京、盐城联考)为了研究某药品的疗效,选取若
干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为 .
解析 全体志愿者共有:=50(人),
所以第三组有志愿者:0.36×1×50=18(人),
∵第三组中没有疗效的有6人,
∴有疗效的有18-6=12(人).
答案 12
4.用系统抽样法从160名学生中抽取容量为20的样本,将160名学生随机地从1 160进行编号,并按编号顺序平均分成20组(1 8号,9 16号,…,153 160号),若按等距的规则从第16组抽出的号码为126,则第1组中用抽签法确定的号码是 .
解析 第1组中用抽签法确定的号码是126-15×8=6.
答案 6
5.(2018·镇江模拟)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图,后来有1个数据模糊,无法辨认,在图中以x表示:
则7个剩余分数的方差为 .
解析 由题意知=91,
解得x=4.所以s2=[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=(16+9+1+0+1+9+0)=.
答案
6.将参加夏令营的600名学生编号为001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为 .
解析 由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(k∈N )组抽中的号码是3+12(k-1).
令3+12(k-1)≤300得k≤,因此第Ⅰ营区被抽中的人数是25;
令300<3+12(k-1)≤495得0.5.
又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.
所以2≤x<2.5.
由0.50×(x-2)=0.5-0.48,解得x=2.04.
故可估计居民月均用水量的中位数为2.04吨.