- 430.50 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
§10.2 用样本估计总体
考纲展示►
1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.
2.理解样本数据标准差的意义和作用,会计算数据标准差.
3.能从样本数据中提取基本的数字特征(平均数、标准差),并给出合理解释.
4.会用样本的频率分布估计总体的分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
考点1 频率分布直方图的应用
频率分布直方图
(1)作频率分布直方图的步骤
①求极差(即一组数据中________与________的差);
②决定________与________;
③将数据________;
④列________;
⑤画________________.
(2)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的________,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时________增加,________减小,相应的频率分布折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
答案:(1)①最大值 最小值 ②组距 组数
③分组 ④频率分布表 ⑤频率分布直方图
(2)①中点 ②所分的组数 组距
(1)[教材习题改编]如图是容量为150的样本的频率分布直方图,则样本数据落在[6,10)内的频数为__________.
答案:48
解析:样本数据落在[6,10)内的频率为0.08×4=0.32,故频数为0.32×150=48.
(2)[教材习题改编]有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5),2;[15.5,19.5),4;[19.5,23.5),9;[23.5,27.5),18;[27.5,31.5),11;[31.5,35.5),12;[35.5,39.5),7;[39.5,43.5),3.根据样本的频率分布估计,数据落在[31.5,43.5)内的概率约是__________.
答案:
解析:由条件可知,落在[31.5,43.5)内的数据有12+7+3=22(个),
故所求概率约为=.
频率分布直方图:中位数与众数的区别;平均值.
某次月考后,从所有考生中随机抽取50名考生的数学成绩进行统计,得到频率分布直方图如图所示,则该次考试数学成绩的中位数的估计值是__________.
答案:71
解析:由频率分布直方图,可知中位数位于70到80之间,0.002+0.006+0.012+0.024=0.044,-0.044=0.006,所以由×10=,得中位数的估计值为71.
[典题1] 某市约有20万住户,为了节约能源,拟出台“阶梯电价”制度,即制定住户月用电量的临界值a,若某住户某月用电量不超过a度,则按平价(即原价)0.5(单位:元/度)计费;若某月用电量超过a度,则超出部分按议价b(单位:元/度)计费,未超出部分按平价计费.为确定a的值,随机调查了该市100户住户的月用电量,统计分析后得到如图所示的频率分布直方图.根据频率分布直方图解答以下问题(同一组数据用该区间的中点值作代表).
(1)若该市计划让全市70%的住户在“阶梯电价”出台前后缴纳的电费不变,求临界值a;
(2)在(1)的条件下,假定出台“阶梯电价”之后,月用电量低于a度的住户用电量保持不变,月用电量超过a度的住户节省“超出部分”的60%,试估计全市每月节约的电量;
(3)在(1)(2)条件下,若出台“阶梯电价”前后全市缴纳电费总额不变,求议价b.
[解] (1)由频率分布直方图,可算得各组数据对应的频率及频数.如下表:
分组
[0,20)
[20,40)
[40,60)
[60,80)
[80,100)
[100,
120]
频率
0.04
0.12
0.24
0.30
0.25
0.05
频数
4
12
24
30
25
5
由表可知,在区间[0,80)内的频率总和恰为0.7,由样本估计总体,可得临界值a的值为80.
(2)由(1)知,月用电量在[0,80)内的70户住户在“阶梯电价”出台前后用电量不变,节电量为0度;
月用电量在[80,100)内的25户住户,平均每户用电90度,超出部分为10度,根据题意,每户每月节电10×60%=6(度),25户每月共节电6×25=150(度);
月用电量在[100,120]内的5户住户,平均每户用电110度,超出部分为30度,根据题意,每户每月节电30×60%=18(度),5户每月共节电18×5=90(度).
故样本中100户住户每月共节电150+90=240(度),用样本估计总体,得全市每月节电量约为240×=480 000(度).
(3)由题意,全市缴纳电费总额不变,由于“未超出部分”的用电量在“阶梯电价”前后不发生改变,故“超出部分”对应的总电费也不变.
由(1)(2)可知,在100户住户组成的样本中,每月用电量的“超出部分”共计10×25+30×5=400(度),实行“阶梯电价”之后,“超出部分”节约了240度,剩余160度,因为“阶梯电价”前后电费总额不变,所以400×0.5=160×b,解得b=1.25.
[点石成金] 解决频率分布直方图的问题,关键在于找出图中数据之间的联系.这些数据中,直接的有组距、,间接的有频率、小长方形的面积,合理使用这些数据,再结合两个等量关系:小长方形面积=组距×=频率,小长方形面积之和等于1,即频率之和等于1,就可以解决直方图的有关问题.
某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
答案:(1)3.0 (2)6 000
解析:由频率分布直方图及频率和等于1,可得
(0.2+0.8+1.5+2.0+2.5+a)×0.1=1,
解得a=3.0.于是消费金额在区间[0.5,0.9]内频率为(3.0+2.0+0.8+0.2)×0.1=0.6,所以消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000,故应填3.0,6 000.
考点2 茎叶图
1.统计中还有一种被用来表示数据的图叫茎叶图,茎是指中间一列数,叶是从茎的旁边生长出来的数.
当样本数据较少时,用茎叶图表示数据的效果较好.
2.茎叶图的优点
茎叶图的优点是可以________原始数据,而且可以________记录,这对数据的记录和表示都能带来方便.
答案:保留 随时
[教材习题改编]对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是__________.
答案:46,45,56
解析:由题意知,样本数据为12,15,20,22,23,23,31,32,34,34,38,39,45,45,45,47,47,48,48,49,50,50,51,51,54,57,59,61,67,68,中位数是46,众数是45,最大数为68,最小数为12,极差为68-12=56.
茎叶图:分不清茎、叶数字代表的意义.
[2017·河南郑州质量检测]已知甲、乙两组数据的茎叶图如图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值=__________.
答案:
解析:根据茎叶图,得乙的中位数是33,
∴甲的中位数也是33,即m=3;
甲的平均数是甲=×(27+39+33)=33,
乙的平均数是乙=×(20+n+32+34+38)=33,∴n=8,∴=.
[典题2] 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
[解] (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
[点石成金] 在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.
1.如图是2017年某大学自主招生面试环节中,七位评委为某考生打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和众数依次为( )
A.85,84 B.84,85
C.86,84 D.84,86
答案:A
解析:由题图可知,去掉一个最高分和一个最低分后,所剩数据为84,84,84,86,87.
∴平均数为=85,众数为84.
2.甲、乙两个小组各10名学生的英语口语测试成绩如下(单位:分):
甲组:76 90 84 86 81 87 86 82 85 83
乙组:82 84 85 89 79 80 91 89 79 74
用茎叶图表示这两个小组的成绩,并判断哪个小组的成绩更整齐一些.
解:茎叶图如图所示(中间的茎为十位数字):
由茎叶图容易看出甲组的成绩是对称的,有的叶集中分布在茎8上,乙组的成绩也大致对称,有的叶集中分布在茎8上,从叶在茎上的分布情况看,甲组的成绩更整齐一些.
考点3 样本的数字特征
1.众数、中位数、平均数
数字
特征
定义与求法
优点与缺点
众数
一组数据中重复出现次数________的数
众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位
数
把一组数据按________顺序排列,处在________位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
数字
特征
定义与求法
优点与缺点
平均
数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
答案:最多 从小到大的 中间
2.标准差、方差
(1)标准差:样本数据到平均数的一种平均距离,一般用s表示,s= .
(2)方差:标准差的平方s2
s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是________,n是________,是________.
答案:(2)样本数据 样本容量 样本平均数
3.平均数、方差公式的推广
若数据x1,x2,…,xn的平均数为,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m+a,方差为m2s2.
[考情聚焦] 样本的数字特征是每年高考的热点,且常与频率分布直方图、茎叶图等知识相综合考查.
主要有以下几个命题角度:
角度一
与频率分布直方图交汇命题
[典题3] 某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
[解] (1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,
得x=0.007 5,
∴直方图中x的值为0.007 5.
(2)月平均用电量的众数是=230.
∵(0.002+0.009 5+0.011)×20=0.45<0.5,
∴月平均用电量的中位数在[220,240)内,设中位数为a,则(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5,解得a=224,即中位数为224.
(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户),
同理可求月平均用电量为[240,260),[260,280),[280,300)的用户分别有15户、10户、5户,
故抽取比例为=,
∴从月平均用电量在[220,240)的用户中应抽取25×=5(户).
角度二
与茎叶图交汇命题
[典题4] (1)[2017·广东惠州高三摸底检测]某赛季,甲、乙两名篮球运动员都参加了11场比赛,他们每场比赛得分的情况如图所示的茎叶图表示,则甲、乙两名运动员得分的中位数分别为( )
A.19,13 B.13,19
C.20,18 D.18,20
[答案] A
[解析] 由茎叶图可知,甲的中位数为19,乙的中位数为13.故选A.
(2)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.
考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的序号为( )
A.①③ B.①④
C.②③ D.②④
[答案] B
[解析] 解法一:∵甲==29,乙==30,
∴甲<乙,
又s==,
s==2,
∴s甲>s乙.故可判断结论①④正确.
解法二:甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.
角度三
与优化决策问题交汇命题
[典题5] 甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:
甲
乙
丙
丁
平均环数
8.3
8.8
8.8
8.7
方差s2
3.5
3.6
2.2
5.4
从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )
A.甲 B.乙 C.丙 D.丁
[答案] C
[解析] 由题目表格中数据可知,丙平均环数最高,且方差最小,说明技术稳定,且成绩好,故选C.
[点石成金] 平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.
[方法技巧] 1.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致.通过频率分布表和频率分布直方图可以对总体作出估计.
2.茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.茎叶图由所有样本数据构成,没有损失任何样本信息,可以随时记录;而频率分布表和频率分布直方图则损失了样本的一些信息,必须在完成抽样后才能制作.
[易错防范] 1.在使用茎叶图时,一定要注意看清楚所有的样本数据,弄清楚这个图中的数字特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.
2.利用频率分布直方图求众数、中位数与平均数时,应注意这三者的区分:(1)最高的矩形的中点即众数;(2)中位数左边和右边的直方图的面积是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
3.直方图与条形图不要搞混
频率分布直方图的纵坐标为
,每一个小长方形的面积表示样本个体落在该区间内的频率;条形图的纵坐标为频数或频率,把直方图视为条形图是常见的错误.
真题演练集训
1.[2015·重庆卷]重庆市2013年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是( )
A.19 B.20 C.21.5 D.23
答案:B
解析:由茎叶图可知,这组数据由小到大依次为8,9,12,15,18,20,20,23,23,28,31,32,所以中位数为=20.
2.[2015·安徽卷]若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8 B.15 C.16 D.32
答案:C
解析:已知样本数据x1,x2,…,x10的标准差为s=8,则s2=64,数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为=2×8=16,故选C.
3.[2014·陕西卷]设样本数据x1,x2,…,x10的均值和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的均值和方差分别为( )
A.1+a,4 B.1+a,4+a
C.1,4 D.1,4+a
答案:A
解析:给每个数据都加上常数a后,均值也增加a,方差不变,故选A.
4.[2016·四川卷]我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.
解:(1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04,
同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),
[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.
(2)由(1)可知,100位居民每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.
由0.3×(x-2.5)=0.85-0.73,
解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.
课外拓展阅读
巧解平均数和方差
平均数和方差的计算是每年高考的必考内容,下面介绍平均数和方差的两个计算技巧.
1.找齐法
在计算平均数时,如果这些数字都在某个数字左右摆动,就选取一个数字作为标准进行找齐.
[典例1] 计算一组数据的平均数和方差:87,86,90,82,83,85,88,80,79,90.
[思路分析] 这组数据都在85左右摆动,把每个数字减去85后进行计算.
[解] 每个数据都减去85后得数据2,1,5,-3,-2,0,3,-5,-6,5,
这组数据的平均数是
=0,
故原数据的平均数为85+0=85.
数据组2,1,5,-3,-2,0,3,-5,-6,5的方差是=13.7,
这个方差就是数据组87,86,90,82,83,85,88,80,79,90的方差.
[点评] 找齐法的依据是
平均数:
=
=a+;
方差s2=
=
其中a为选取作为标准的数字,在使用找齐法时a的选取可以多种多样,原则是便于计算.
2.方差的简化公式法
方差的一个简化公式是s2=[(x+x+…+x)-n2]=-2,这只要把方差公式展开进行重组即可证明.
[典例2] 计算数据54,55,53,56,57,58的方差.
[思路分析] 可以根据简化公式进行计算,也可以把每个数据减去一个数,找齐计算.
[解] 解法一:
=
≈3 083.166 7,
=55.5,
故s2=3 083.166 7-55.52=2.916 7≈2.92.
解法二:每个数据减去55得新数据组-1,0,-2,1,2,3,
该组数据的方差与原数据组的方差相等,
根据简化公式=≈3.17,
==0.5,
故s2=3.17-0.52=2.92.
技巧点拨
方差反映的是数据组偏离平均值的程度,因此把数据组中每一个数据都加上或者都减去一个相同的数不影响方差的大小,当我们计算的数据组较大时,这个方法能有效地简化运算.