- 318.23 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第65讲 用样本估计总体
考纲要求
考情分析
命题趋势
1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.
2.理解样本数据标准差的意义和作用并会计算.
3.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.
4.会用样本的频率分布估计总体分布,会用样本数字特征估计总体的数字特征,理解用样本估计总体的思想.
2016·山东卷,3
2016·四川卷,16
2015·全国卷Ⅱ,18
2015·重庆卷,3
2015·安徽卷,6
根据样本数据求基本的数字特征,利用随机抽样的方法和样本估计总体的思想解决一些简单的实际问题.
分值:5~12分
1.频率分布直方图和茎叶图
(1)作频率分布直方图的步骤
①求极差(即一组数据中__最大值__与__最小值__的差);
②决定__组距__与__组数__;
③将数据__分组__;
④列__频率分布表__;
⑤画__频率分布直方图__.
(2)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的__中点__,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时__所分的组数__增加,__组距__减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(3)茎叶图的优点
茎叶图的优点是可以__保留__原始数据,而且可以__随时__记录,这对数据的记录和表示都能带来方便.
2.样本的数字特征
(1)众数、中位数、平均数
数字特征
定义与求法
优点与缺点
众数
一组数据中重复出现次数__最多__的数
众数通常用于描述变量的值出现次数最多的数,但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数
把一组数据按__从小到大的__顺序排列,处在__中间__位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=____
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
(2)标准差、方差
①标准差:样本数据到平均数的一种平均距离,一般用s表示,
s=____.
②方差:标准差的平方
s2=__[(x1-)2+(x2-)2+…+(xn-)2]__,
其中xi(i=1,2,3,…,n)是__样本数据__,n是__样本容量__,是__样本平均数__.
(3)平均数、方差公式的推广
若数据x1,x2,…,xn的平均数为,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m+a,方差为m2s2.
1.思维辨析(在括号内打“√”或打“×”).
(1)在频率分布直方图中,小矩形的高表示频率.( × )
(2)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( × )
(3)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √ )
(4)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( × )
(5)一组数据的方差越大,说明这组数据的波动越大.( √ )
解析 (1)在频率分布直方图中,小矩形的高为频率/组距.
(2)茎叶图中,相同的数据要重复记,故错误.
(3)由众数概念知结论正确.
(4)在频率分布直方图中,中位数左边和右边的小长方形面积和相等,故错误.
(5)由方差定义和结论知正确.
2.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是 ( A )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
解析 将这组数据从小到大排列,得87,89,90,91,92,93,94,96.故中位数为=91.5,
平均数为==91.5.
3.如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民数有__25__人.
解析 由图可知,在[2,2.5)范围内的居民人数有100×0.5×(2.5-2)=25.
4.一个容量为200的样本的频率分布直方图如图所示,则样本数据落在[5,9)内的频率和频数分别为__0.2,40__.
解析 由图可知,落在[5,9)内的频率为0.05×(9-5)=0.2,频数为200×0.2=40.
5.某赛季甲、乙两名篮球运动员每场比赛得分记录用茎叶图表示,从茎叶图的分布情况看,__乙__运动员的发挥更稳定.
解析 由茎叶图可知,乙运动员的得分大部分集中在30~40之间,而甲运动员的得分相对比较分散且在低分区的较多,故乙比赛得分更稳定.
一 频率分布直方图及其应用
(1)已知频率分布直方图中的部分数据,求其他数据.可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.
(2)已知频率分布直方图,求某种范围内的数据,可利用图形及已知范围结合求解.
【例1】 (2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;
(3)估计居民月均用水量的中位数.
解析 (1)由频率分布直方图,可知月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.
由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.
(2)由(1)知,100位居民月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12,由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)设中位数为x吨.
因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5,所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.
二 茎叶图及其应用
由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失;第二点是茎叶图便于记录和表示;其缺点是当样本容量较大时,作图较繁琐.
【例2】 在科普知识竞赛前的培训活动中,将甲、乙两名学生的6次培训成绩(百分制)制成如图所示的茎叶图.
(1)若从甲、乙两名学生中选择1人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由;
(2)若从学生甲的6次培训成绩中随机选择2个,记选到的分数超过87分的个数为ξ,求ξ的分布列和数学期望.
解析 (1)学生甲的平均成绩甲==82,学生乙的平均成绩乙==82,
又s=[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,
s=[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=.
则甲=乙,s>s,
说明甲、乙的平均水平一样,但乙的方差小,则乙发挥更稳定,故应选择学生乙参加知识竞赛.
(2)ξ的所有可能取值为0,1,2,则
P(ξ=0)==,P(ξ=1)==,P(ξ=2)==,
则ξ的分布列为
ξ
0
1
2
P
所以数学期望E(ξ)=0×+1×+2×=.
三 样本的数字特征及其应用
平均数和方差都是重要的数字特征,是对总体的一种简明的阐述.平均数、中位数、众数描述总体的集中趋势,方差和标准差描述波动大小.
【例3】 甲、乙两名战士在相同条件下各射靶10次,每次命中的环数分别是
甲:8,6,7,8,6,5,9,10,4,7;
乙:6,7,7,8,6,7,8,7,9,5.
(1)分别计算两组数据的平均数;
(2)分别计算两组数据的方差;
(3)根据计算结果,估计一下两名战士的射击水平谁更好一些.
解析 (1)甲=×(8+6+7+8+6+5+9+10+4+7)=7,
乙=×(6+7+7+8+6+7+8+7+9+5)=7.
(2)由方差公式s2=[(x1-)2+(x2-)2+…+(xn-)2]可求得s=3.0,s=1.2.
(3)由甲=乙,说明甲、乙两战士的平均水平相当;
又∵s>s,说明甲战士射击情况波动大,因此乙战士比甲战士射击情况稳定.
1.下图是样本容量为200的频率分布直方图.
根据样本的频率分布直方图估计,数据落在[2,10)内的概率约为__0.4__.
解析 由题组可得(0.02+0.08)×4=0.4.
2.某电子商务公司对10 000名网络购物者2017年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=__3__;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为__6_000__.
解析 由频率分布直方图及频率和等于1可得(0.2+0.8+1.5+2+2.5+a)×0.1=1,解得a=3.于是消费金额在区间[0.5,0.9]内的频率为(3+2+0.8+0.2)×0.1=0.6,所以消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.
3.(1)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( B )
A.①③ B.①④
C.②③ D.②④
(2)由正整数组成的一组数据x1,x2,x3,x4,其平均数和中位数都是2,且标准差等于1,则这组数据为__1,1,3,3__(从小到大排列).
解析 (1)由茎叶图中的数据通过计算求得甲=29,乙=30,
s甲=,s乙=,∴甲<乙,s甲>s乙,故①④正确.
(2)不妨设x1≤x2≤x3≤x4,x1,x2,x3,x4∈N*,依题意得x1+x2+x3+x4=8,
s==1,
即(x1-2)2+(x2-2)2+(x3-2)2+(x4-2)2=4,所以x4≤3,
结合x1+x2+x3+x4=8及中位数都是2,可得x1=x2=1,x3=x4=3,则这组数据为1,1,3,3.
4.某中学举行了一次“环保知识竞赛”活动,为了了解本次竞赛学生成绩情况,从中抽取了部分学生的分数(得分取正整数,满分为100分)作为样本(样本容量为n)进行统计.按照[50,60),[60,70),[70,80),[80,90),[90,100]的分组作出频率分布直方图,并作出样本分数的茎叶图(图中仅列出了得分在[50,60),[90,100]的数据).
(1)求样本容量n和频率分布直方图中x,y的值;
(2)在选取的样本中,从竞赛成绩是80分以上(含80分)的同学中随机抽取3名同学到市政广场参加环保知识宣传的志愿者活动,设ξ表示所抽取的3名同学中得分在[80,90)的学生个数,求ξ的分布列及其数学期望.
解析 (1)由题意可知,样本容量n==50,则y==0.004,x=0.1-0.040-0.010-0.016-0.004=0.030.
(2)由题意可知,分数在[80,90)的有5人,分数在[90,100]的有2人,共7人.抽取的3名同学中得分在[80,90)的学生个数ξ的所有可能取值为1,2,3,则
P(ξ=1)===,P(ξ=2)===,
P(ξ=3)==.
所以ξ的分布列为
ξ
1
2
3
P
所以E(ξ)=1×+2×+3×=.
易错点 不清楚统计中数字特征的实际意义
错因分析:①不会计算中位数;②对平均数、中位数、众数等数字特征的实际意义理解不透.
【例1】 从高三年级中抽出50名学生参加竞赛,由成绩得到如下的频率分布直方图.
利用频率分布直方图估计:
(1)这50名学生的众数P与中位数M;
(2)这50名学生的平均成绩A;
(3)这50名学生60分以上所占的百分比是多少?
解析 (1)根据频率分布直方图,得:
这50名学生的众数是P==75,
∵(0.004+0.006+0.020+0.030)×10=0.6,
∴中位数应位于第四个小矩形中,
设其底边为x,高为0.03,则0.03x=0.2,∴x=,
∴中位数M=.
(2)这50名学生的平均成绩是
(45×0.004+55×0.006+65×0.02+75×0.03+85×0.024+95×0.016)×10=76.2.
(3)这50名学生中60分以上的百分比是1-(0.004+0.006)×10=0.9=90%.
【跟踪训练1】 (2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.
(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.
解析 (1)由用水量的频率分布直方图知,该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.
(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:
组号
1
2
3
4
5
6
7
8
分组
[2,4]
(4,6]
(6,8]
(8,10]
(10,12]
(12,17]
(17,22]
(22,27]
频率
0.1
0.15
0.2
0.25
0.15
0.05
0.05
0.05
根据题意,该市居民该月的人均水费估计为
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).
课时达标 第65讲
[解密考纲]用样本估计总体在高考中,三种题型均有可能考查,作为解答题时,题目较简单,属于不能失分的题目.
一、选择题
1.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( B )
A.45 B.50
C.55 D.60
解析 根据频率分布直方图,低于60分的同学所占频率为(0.005+0.01)×20=0.3,故该班的学生人数为=50(人),故选B.
2.某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其平均数和方差分别为和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的平均数和方差分别为( D )
A.,s2+1002 B.+100,s2+1002
C.,s2 D.+100,s2
解析 对平均数和方差的意义深入理解可巧解,因为每个数据都加上了100,故平均数也增加100,而离散程度应保持不变,故选D.
3.如图是某工厂对一批新产品长度(单位:mm)检测结果的频率分布直方图,估计这批产品的中位数为( C )
A.20 B.25
C.22.5 D.22.75
解析 产品的中位数出现在概率是0.5的地方,自左至右各小矩形面积依次为0.1,0.2,0.4,0.15,0.15,设中位数是x,则由0.1+0.2+0.08·(x-20)=0.5,得x=22.5,故选C.
4.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有( D )
A.a>b>c B.b>c>a
C.c>a>b D.c>b>a
解析 平均数a=×(15+17+14+10+15+17+17+16+14+12)=14.7,中位数b=15,众数c=17,∴c>b>a.
5.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( A )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
解析 根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都是减少,所以A项错误.
6.下面左图是某学习小组学生数学考试成绩的茎叶图,1号到16号同学的成绩依次为A1,A2,…,A16,右图是统计茎叶图中成绩在一定范围内的学生人数的算法流程图,那么该算法流程图输出的结果是( B )
A.6 B.10
C.91 D.92
解析 由算法流程图可知,其统计的是数学成绩大于等于90的人数,所以由茎叶图知,数学成绩大于等于90的人数为10,因此输出结果为10,故选B.
二、填空题
7.为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为__10__.
解析 设5个班级的人数分别为x1,x2,x3,x4,x5,
则=7,
=4,
即5个整数平方和为20,最大的数比7大但与7的差值不能超过3,否则方差超过4,故最大值为10,最小值为4.
8.如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为__6.8__.
解析 ∵==11,
∴s2==6.8.
9.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均属于区间[80,130],其频率分布直方图如图所示,则在60株树木中底部周长小于100 cm的株数为__24__.
解析 由题意,在抽测的60株树木中,底部周长小于100 cm的株数为(0.015+0.025)×10×60=24.
三、解答题
10.为迎接6月6日的“全国爱眼日”,某高中学生会从全体学生中随机抽取16名学生,经校医用视力表检查得到每个学生的视力状况的茎叶图(以小数点前的一位数字为茎,小数点后的一位数字为叶)如图,若视力测试结果不低于5.0,则称为“好视力”.
(1)写出这组数据的众数和中位数;
(2)从这16人中随机选取3人,求至少有2人是“好视力”的概率;
(3)以这16人的样本数据来估计整个学校的总体数据,若从该校(人数很多)任选3人,记X表示抽到“好视力”学生的人数,求X的分布列及数学期望.
解析 (1)由题意知众数为4.6和4.7,中位数为4.75.
(2)记“至少有2人是‘好视力’”为事件A,则事件A包含的基本事件个数为C·C+C,总的基本事件个数为C,
故P(A)==.
(3)X的所有可能取值为0,1,2,3.
由于该校人数很多,故X近似服从二项分布B.
P(X=0)=3=,P(X=1)=C××2=,
P(X=2)=C×2×=,P(X=3)=3=,
则X的分布列为
X
0
1
2
3
P
故X的数学期望E(X)=3×=.
11.随着现代高等级公路的迅速发展,公路绿化苗木消费量剧增.某林场在某城市的零售店分析往年“美人梅”的零售情况,作出相关的统计与分析,按照日零售量[50,100),[100,150),[150,200),[200,250]分成4组,并制作了日零售量的频率分布直方图,如图所示(假设每天的零售量相互独立,且日零售量落入各组的频率视为概率).
(1)求图中a的值;
(2)求从明日开始的连续4天中,有2天的日零售量少于150株而另外2天的日零售量不少于200株的概率;
(3)用X表示从明日开始的连续4天里日零售量不少于150株的天数,求随机变量X的分布列和数学期望.
解析 (1)第一个小矩形的面积为
1-(0.005+0.006+0.007)×50=0.1,则a==0.002.
(2)设日零售量为x,有2天日零售量少于150株,另外2天日零售量不少于200株为事件A.
则P(x<150)=0.002×50+0.006×50=0.4,
P(x≥200)=0.005×50=0.25,
∴P(A)=C×0.42×0.252=0.06.
(3)由(2)知,日零售量不少于150株的概率P=1-0.4=0.6,则X~B(4,0.6),
于是P(X=k)=C·0.6k·0.44-k(k=0,1,2,3,4),
则关于随机变量X的分布列为
X
0
1
2
3
4
P
∴E(X)=0×+1×+2×+3×+4×=2.4.
12.某企业为了解下属某部门对本企业职工的服务情况,随机访问50名职工,根据这50名职工对该部门的评分,绘制频率分布直方图(如图所示),其中样本数据分组区间为[40,50),[50,60),…,[80,90),[90,100].
(1)求频率分布直方图中a的值;
(2)估计该企业的职工对该部门评分不低于80的概率;
(3)从评分在[40,60)的受访职工中,随机抽取2人,求此2人评分都在[40,50)的概率.
解析 (1)因为(0.004+a+0.018+0.022×2+0.028)×10=1,所以a=0.006.
(2)由所给频率分布直方图知,50名受访职工评分不低于80的频率为(0.022+0.018)×10=0.4,所以该企业职工对该部门评分不低于80的概率的估计值为0.4.
(3)受访职工中评分在[50,60)的有50×0.006×10=3(人),记为A1,A2,A3;
受访职工中评分在[40,50)的有50×0.004×10=2(人),记为B1,B2.
从这5名受访职工中随机抽取2人,所有可能的结果共有10种,它们是{A1,A2},{A1,A3},{A1,B1},{A1,B2},{A2,A3},{A2,B1},{A2,B2},{A3,B1},{A3,B2},{B1,B2},又因为所抽取2人的评分都在[40,50)的结果有1种,即{B1,B2},故所求的概率为P=.