- 1.31 MB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第三节 用样本估计总体
总体分布的估计
(1)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.
(2)理解样本数据标准差的意义和作用,会计算数据标准差.
(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.
(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
(5)会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
知识点一 频率分布直方图
1.作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差).
(2)决定组距与组数.
(3)将数据分组.
(4)列频率分布表.
(5)画频率分布直方图.
2.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
易误提醒 (1)易把直方图与条形图混淆:
两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的.
(2)易忽视频率分布直方图中纵轴表示的应为.
必记结论 由频率分布直方图进行相关计算时,需掌握下列关系式:
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
[自测练习]
1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100],则图中a的值为( )
A.0.006 B.0.005
C.0.004 5 D.0.002 5
解析:由题意知,a==0.005.
答案:B
2.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的,且样本容量为80,则中间一组的频数为( )
A.0.25 B.0.5
C.20 D.16
解析:设中间一组的频数为x,依题意有=,解得x=16,应选D.
答案:D
知识点二 茎叶图
茎叶图的优点
茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.
易误提醒 在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.
[自测练习]
3.(2018·惠州模拟)某赛季,甲、乙两名篮球运动员都参加了11场比赛,他们每场比赛得分的情况用如图所示的茎叶图表示,则甲、乙两名运动员的中位数分别为( )
A.19、13 B.13、19
C.20、18 D.18、20
解析:由茎叶图可知,甲的中位数为19,乙的中位数为13.故选A.
答案:A
知识点三 样本的数字特征
1.众数、中位数、平均数
数字特征
定义与求法
优点与缺点
众数
一组数据中重复出现次数最多的数
众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数
把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
2.标准差、方差
(1)标准差:样本数据到平均数的一种平均距离,一般用s表示,s= .
(2)方差:标准差的平方s2
s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数.
易误提醒 (1)众数、中位数与平均数都是描述一组数据集中趋势的量,平均数是最重要的量.(2)平均数反映的是样本个体的平均水平,众数和中位数则反映样本中个体的“重心”.(3)实际问题中求得的平均数、众数和中位数应带上单位.
必备方法 利用频率分布直方图求众数、中位数与平均数时易出错,应注意区分这三者.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
[自测练习]
4.对于一组数据xi(i=1,2,3,…,n),如果将它们改变为xi+C(i=1,2,3,…,n),其中C≠0,则下列结论正确的是( )
A.平均数与方差均不变
B.平均数变,方差保持不变
C.平均数不变,方差变
D.平均数与方差均发生变化
解析:依题意,记原数据的平均数为,方差为s2,则新数据的平均数为=+C,即新数据的平均数改变;新数据的方差为{[(x1+C)-(+C)]2+[(x2+C)-(+C)]2+…+[(xn+C)-(+C)]2}=s2,即新数据的方差不变,故选B.
答案:B
5.(2018·高考陕西卷)中位数为1 010的一组数构成等差数列,其末项为2 015,则该数列的首项为________.
解析:设等差数列的首项为a1,根据等差数列的性质可得,a1+2 015=2×1 010,解得a1=5.
答案:5
考点一 频率分布直方图及应用|
1.某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x的值等于( )
A.0.12 B.0.012
C.0.18 D.0.018
解析:依题意,0.054×10+10x+0.01×10+0.006×10×3=1,解得x=0.018,故选D.
答案:D
2.某市为了节约能源,拟出台“阶梯电价”制度,即制订住户月用电量的临界值a.若某住户某月用电量不超过a度,则按平价计费;若某月用电量超过a度,
则超出部分按议价计费,未超出部分按平价计费.为确定a的值,随机调查了该市100户的月用电量,工作人员已将90户的月用电量填在了下面的频率分布表中,最后10户的月用电量(单位:度)为:18,63,43,119,65,77,29,97,52,100.
组别
月用电量
频数统计
频数
频率
①
[0,20)
②
[20,40)
正正
③
[40,60)
正正正正
④
[60,80)
正正正正正
⑤
[80,100)
正正正正
⑥
[100,120]
(1)完成频率分布表并绘制频率分布直方图;
(2)根据已有信息,试估计全市住户的平均月用电量(同一组数据用该区间的中点值作代表);
(3)若该市计划让全市75%的住户在“阶梯电价”出台前后缴纳的电费不变,试求临界值a.
解:(1)
组别
月用电量
频数统计
频数
频率
①
[0,20)
4
0.04
②
[20,40)
正正
12
0.12
③
[40,60)
正正正正
24
0.24
④
[60,80)
正正正正正正
30
0.30
⑤
[80,100)
正正正正正
25
0.25
⑥
[100,120]
正
5
0.05
(2)由题意,用每小组的中点值代表该小组的平均月用电量,则100户住户组成的样本的平均月用电量为10×0.04+30×0.12+50×0.24+70×0.30+90×0.25+110×0.05=65(度).
用样本估计总体,可知全市居民的平均月用电量约为65度.
(3)计算累计频率,可得下表:
分组
[0,20)
[20,40)
[40,60)
[60,80)
[80,100)
[100,120]
频率
0.04
0.12
0.24
0.30
0.25
0.05
累计
频率
0.04
0.16
0.40
0.70
0.95
1.00
由此可知临界值a应在区间[80,100)内,且频率分布直方图中,在临界值a左侧小矩形的总面积(频率)为0.75,故有0.7+(a-80)×0.012 5=0.75,解得a=84,由样本估计总体,可得临界值a为84.
绘制频率分布直方图时需注意
(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确;(2)频率分布直方图的纵坐标是,而不是频率.
考点二 茎叶图|
1.如图所示的茎叶图是甲、乙两位同学在期末考试中的六科成绩,已知甲同学的平均成绩为85,乙同学的六科成绩的众数为84,则x,y的值分别为( )
A.2,4 B.4,4 C.5,6 D.6,4
解析:甲==85,解得x=6,由图可知y=4,故选D.
答案:D
2.(2018·长沙一模)
右面的茎叶图是某班学生在一次数学测验时的成绩:
根据茎叶图,得出该班男、女生数学成绩的四个统计结论,其中错误的一项是( )
A.15名女生成绩的平均分为78
B.17名男生成绩的平均分为77
C.女生成绩和男生成绩的中位数分别为82,80
D.男生中的高分段和低分段均比女生多,相比较男生两极分化比较严重
解析:对于A,15名女生成绩的平均分为×(90+93+80+80+82+82+83+83+85+70+71+73+75+66+57)=78,A正确;对于B,17名男生成绩的平均分为×(93+93+96+80+82+83+86+86+88+71+74+75+62+62+68+53+57)=77,故B正确;对于D,观察茎叶图,对男生、女生成绩进行比较,可知男生两极分化比较严重,D正确;对于C,根据女生和男生成绩数据分析可得,两组数据的中位数均为80,C错误,故选C.
答案:C
使用茎叶图时,需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
考点三 样本的数字特征|
(2018·高考广东卷)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
[解] (1)依题意,20×(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)=1,
解得x=0.007 5.
∴直方图中x的值为0.007 5.
(2)由图可知,最高矩形的数据组为[220,240),
∴众数为=230.
∵[160,220)的频率之和为(0.002+0.009 5+0.011)×20=0.45,∴依题意,设中位数为y,
∴0.45+(y-220)×0.012 5=0.5.
解得y=224,∴中位数为224.
(3)月平均用电量在[220,240)的用户在四组用户中所占比例为=,
∴月平均用电量在[220,240)的用户中应抽取11×=5(户).
(1)平均数与方差都是重要的数字特征,是对总体的一种简明地描述,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)利用方差优化比较时方差越小,效果越好.
甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):
甲
10
8
9
9
9
乙
10
10
7
9
9
如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.
解析:甲=乙=9,s=×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=,
s=×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=>s,故甲更稳定.
答案:甲
11.概率与统计的综合问题的答题模板
【典例】 (12分)(2018·高考全国卷Ⅱ)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.
A地区用户满意度评分的频率分布直方图
B地区用户满意度评分的频数分布表
满意度评分分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
2
8
14
10
6
(1)作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
B地区用户满意度评分的频率分布直方图
(2)根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
估计哪个地区用户的满意度等级为不满意的概率大?说明理由.
[思路点拨] (1)因为在频率分布直方图上,纵坐标表示的是频率与组距的比值,根据频数求出频率,进而求出频率与组距的比值,根据频率分布直方图可看出满意度评分的平均值的大小和分散程度,中间的矩形面积越高越集中,越不分散;(2)B地区可直接借助低于70分的频数10求出不满意的概率,A地区利用频率分布直方图中小矩形的面积即为频率,可求出不满意的概率,进而比较大小.
[规范解答] (1)如图所示.
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(6分)
(2)A地区用户的满意度等级为不满意的概率大.(7分)
记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.
由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,(8分)
P(CB)的估计值为(0.005+0.02)×10=0.25.(10分)
所以A地区用户的满意度等级为不满意的概率大.(12分)
[模板形成]
↓
↓
↓
↓
A组 考点能力演练
1.(2018·邢台摸底)样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其样本方差为( )
A. B.
C. D.2
解析:依题意得m=5×1-(0+1+2+3)=-1,样本方差s2=(12+02+12+22+22)=2,即所求的样本方差为2,选D.
答案:D
2.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有( )
A.a>b>c B.b>c>a
C.c>a>b D.c>b>a
解析:依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a<15,b
=15,c=17,c>b>a,选D.
答案:D
3.(2018·高考全国卷Ⅱ)根据下面给出的2004年至2018年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
解析:根据柱形图易得选项A,B,C正确,2006年以来我国二氧化硫年排放量与年份负相关,选项D错误.故选D.
答案:D
4.(2018·高考山东卷)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④
C.②③ D.②④
解析:由题中茎叶图,知甲==29,
s甲=
=;
乙==30,
s乙=
=.
所以甲<乙,s甲>s乙,故选B.
答案:B
5.(2018·内江模拟)某公司10个销售店某月销售某产品数量(单位:台)的茎叶图如下:
分组成[11,20),[20,30),[30,40]时,所作的频率分布直方图是( )
解析:本题考查统计.利用排除法求解.由直方图的纵坐标是频率/组距,排除C和D;又第一组的频率是0.2,直方图中第一组的纵坐标是0.02,排除A,故选B.
答案:B
6.(2018·郑州二检)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m、n的比值=________.
解析:由茎叶图可知甲的数据为27、30+m、39,乙的数据为20+n、32、34、38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m=3.由此可以得出甲的平均数为33,所以乙的平均数也为33,所以有=33,所以n=8,所以=.
答案:
7.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:
学生
1号
2号
3号
4号
5号
甲班
6
7
7
8
7
乙班
6
7
6
7
9
则以上两组数据的方差中较小的一个为s2,则s2=________.
解析:由数据表可得出乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s2=(1+0+0+1+0)=.
答案:
8.(2018·高考湖北卷)某电子商务公司对10 000名网络购物者2018年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
解析:(1)0.1×1.5+0.1×2.5+0.1×a+0.1×2+0.1×0.8+0.1×0.2=1,解得a=3;
(2)区间[0.5,0.9]内的频率为1-0.1×1.5-0.1×2.5=0.6,则该区间内购物者的人数为10 000×0.6=6 000.
答案:(1)3 (2)6 000
9.甲、乙两人参加数学竞赛培训.现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,画出茎叶图如图.
(1)指出学生乙成绩的中位数;
(2)现要从中选派一人参加数学竞赛,你认为应该派哪位学生参加?
解:(1)依题意知,学生乙成绩的中位数为=84.
(2)派甲参加比较合适,理由如下:
甲=(70×2+80×4+90×2+9+8+8+4+2+1+5+3)=85,
乙=(70×1+80×4+90×3+5+3+5+2+5)=85,
s=35.5,s=41,∵甲=乙,且s