- 311.00 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第三节 用样本估计总体
[考纲传真] (教师用书独具)1.了解分布的意义与作用,能根据概率分布表画
频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标
准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征
(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,
会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,
会用样本估计总体的思想解决一些简单的实际问题.
(对应学生用书第 161 页)
[基础知识填充]
1.常用统计图表
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=极差
组数;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区
间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图.
横轴表示样本数据,纵轴表示频率
组距,每个小矩形的面积表示样本落在该组内
的频率.
(3)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到
频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,
相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体
密度曲线.
(4)茎叶图的画法:
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将各个数据的茎按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
2.样本的数字特征
(1)众数、中位数、平均数
数字特
征
定义与求法 优点与缺点
众数
一组数据中出现次
数最多的数
通常用于描述出现次数最多的数,显然它
对其他数据信息的忽视使得无法客观地
反映总体特征
中位数
把一组数据按大小
顺序排列,处在最中
间位置的一个数据
(或两个数据的平均
数)
中位数是样本数据所占频率的等分线,它
不受少数几个极端值的影响,这在某些情
况下是优点,但它对极端值的不敏感有时
也会成为缺点
平
均
数
如果有 n 个数据 x1,
x2,…,xn,那么这 n
个数的平均数x=1
n
(x1+x2+…+xn)
平均数和每一个数据有关,可以反映样本
数据全体的信息,但平均数受数据中极端
值的影响较大,使平均数在估计总体时可
靠性降低
(2)标准差、方差
①标准差:样本数据到平均数的一种平均距离,一般用 s 表示,s=
1
n[(x1-x)2+(x2-x)2+…+(xn-x)2].
②方差:标准差的平方 s2
s2=1
n[(x1-x)2+(x2-x)2+…+(xn-x)2],其中 xi(i=1,2,3,…,n)是样本数据,
n 是样本容量,x是样本平均数.
[知识拓展] 平均数、方差的公式推广
(1)若数据 x1,x2,…,xn 的平均数为x,那么 mx1+a,mx2+a,mx3+a,…,
mxn+a 的平均数是 mx+a.
(2)数据 x1,x2,…,xn 的方差为 s2.
①数据 x1+a,x2+a,…,xn+a 的方差也为 s2;
②数据 ax1,ax2,…,axn 的方差为 a2s2.
[基本能力自测]
1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(2)一组数据的方差越大,说明这组数据越集中. ( )
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频
率越高.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序
写,相同的数据可以只记一次.( )
[解析] (1)正确.平均数、众数与中位数都在一定程度上反映了数据的集中
趋势.
(2)错误.方差越大,这组数据越离散.
(3)正确.小矩形的面积=组距×频率
组距=频率.
(4)错误.茎相同的数据,叶可不用按从小到大的顺序写,相同的数据叶要
重复记录,故(4)错误.
[答案] (1)√ (2)× (3)√ (4)×
2.(教材改编)若某校高一年级 8 个班参加合唱比赛的得分如茎叶图 932 所
示,则这组数据的中位数和平均数分别是( )
图 932
A.91.5 和 91.5 B.91.5 和 92
C.91 和 91.5 D.92 和 92
A [这组数据由小到大排列为 87,89,90,91,92,93,94,96.
∴中位数是91+92
2
=91.5,
平均数x=87+89+90+91+92+93+94+96
8
=91.5.]
3.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了 n 块地作试验田.这
n 块地的亩产量(单位:kg)分别为 x1,x2,…,xn,下面给出的指标中可以用来评
估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn 的平均数
B.x1,x2,…,xn 的标准差
C.x1,x2,…,xn 的最大值
D.x1,x2,…,xn 的中位数
B [因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩
产量稳定程度,应该用样本数据的极差、方差或标准差.故选 B.]
4.如图 931 所示是一样本的频率分布直方图.若样本容量为 100,则样本
数据在[15,20]内的频数是( )
图 931
A.50 B.40 C.30 D.14
C [因为[15,20]对应的小矩形的面积为 1-0.04×5-0.1×5=0.3,所以样本
落在[15,20]的频数为 0.3×100=30,故选 C.]
5.某校女子篮球队 7 名运动员身高(单位:cm)分布的茎叶图如图 932,已
知记录的平均身高为 175 cm,但记录中有一名运动员身高的末位数字不清晰,
如果把其末位数字记为 x,那么 x 的值为________.
图 932
2 [170+1
7
×(1+2+x+4+5+10+11)=175,
则1
7
×(33+x)=5,即 33+x=35,解得 x=2.]
(对应学生用书第 162 页)
频率分布直方图
(2017·北京高考)某大学艺术专业 400 名学生参加某次测评,根据男
女学生人数比例,使用分层抽样的方法从中随机抽取了 100 名学生,记录他们的
分数,将数据分成 7 组:[20,30),[30,40),…,[80,90],并整理得到如图 933
所示频率分布直方图:
图 933
(1)从总体的 400 名学生中随机抽取一人,估计其分数小于 70 的概率;
(2)已知样本中分数小于 40 的学生有 5 人,试估计总体中分数在区间[40,50)
内的人数;
(3)已知样本中有一半男生的分数不小于 70,且样本中分数不小于 70 的男女
生人数相等.试估计总体中男生和女生人数的比例.
[解] (1)根据频率分布直方图可知,样本中分数不小于 70 的频率为(0.02+
0.04)×10=0.6,
所以样本中分数小于 70 的频率为 1-0.6=0.4,
所以从总体的 400 名学生中随机抽取一人,其分数小于 70 的概率估计为 0.4.
(2)根据题意,样本中分数不小于 50 的频率为(0.01+0.02+0.04+0.02)×10
=0.9,
分数在区间[40,50)内的人数为 100-100×0.9-5=5,
所以总体中分数在区间[40,50)内的人数估计为 400× 5
100
=20.
(3)由题意可知,样本中分数不小于 70 的学生人数为(0.02+0.04)×10×100
=60,
所以样本中分数不小于 70 的男生人数为 60×1
2
=30,
所以样本中的男生人数为 30×2=60,
女生人数为 100-60=40,
所以样本中男生和女生人数的比例为 60∶40=3∶2,
所以根据分层抽样原理,估计总体中男生和女生人数的比例为 3∶2.
[规律方法] 频率、频数、样本容量的计算方法
(1)频率
组距×组距=频率.
(2) 频数
样本容量=频率,频数
频率=样本容量,样本容量×频率=频数.
易错警示:绘制频率分布直方图时的 3 个注意点
(1)制作好频率分布表后,可以利用各组的频率之和是否为 1 来检验该表是否正
确;
(2)频率分布直方图的纵坐标是频率
组距,而不是频率.
(3)注意中值估算法.
[跟踪训练] (1)(2017·河南新乡调研)统计新生婴儿的体重,其频率分布直方
图如图 934 所示(每组含右端点,不含左端点),则新生婴儿体重在(2 700,3 000]
克内的频率为( ) 【导学号:97190331】
图 934
A.0.001 B.0.1 C.0.2 D.0.3
(2)(2016·山东高考)某高校调查了 200 名学生每周的自习时间(单位:小时),
制成了如图 935 所示的频率分布直方图,其中自习时间的范围是[17.5,30],样
本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,
这 200 名学生中每周的自习时间不少于 22.5 小时的人数是( )
图 935
A.56 B.60 C.120 D.140
(1)D (2)D [(1)每组的频率即为相应小长方形的面积,300×0.001=0.3.
(2)由频率分布直方图可知每周自习时间不少于 22.5 小时的频率为(0.16+
0.08+0.04)×2.5=0.7,则每周自习时间不少于 22.5 小时的人数为 0.7×200=140.
故选 D.]
茎叶图
(1)某学生在一门功课的 22 次考试中,所得分数茎叶图如图 936 所
示,则此学生该门功课考试分数的极差与中位数之和为( )
图 936
A.117 B.118
C.118.5 D.119.5
(2)(2017·山东高考)如图 937 所示的茎叶图记录了甲、乙两组各 5 名工人某
日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则 x
和 y 的值分别为( )
图 937
A.3,5 B.5,5
C.3,7 D.5,7
(1)B (2)A [(1)22 次考试中,所得分数最高的为 98,最低的为 56,所以极
差为 98-56=42,
将分数从小到大排列,中间两数为 76,76,∴中位数为 76,
∴此学生该门功课考试分数的极差与中位数之和为 42+76=118.
(2)甲组数据的中位数为 65,由甲、乙两组数据的中位数相等得 y=5.又甲、
乙两组数据的平均值相等,∴1
5
×(56+65+62+74+70+x)=1
5
×(59+61+67+
65+78),
∴x=3.故选 A.]
[规律方法] 茎叶图中的两个关注点
(1)重复出现的数据要重复记录,不能遗漏.
(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重
心”下移者平均数较大,数据集中者方差较小.
易错警示:茎叶图中数字大小排列不一定从小到大排列,一定要看清楚.
[跟踪训练] (2017·湖南长沙一模)空气质量指数(Air Quality Index,简称
AQI)是定量描述空气质量状况的指数,空气质量按照 AQI 大小分为六级,0~50
为优;51~100 为良;101~150 为轻度污染;151~200 为中度污染;201~300
为重度污染;大于 300 为严重污染.从某地一环保人士某年的 AQI 记录数据中,
随机抽取 10 个,用茎叶图记录如下图 938.根据该统计数据,估计此地该年 AQI
大于 100 的天数约为________.(该年为 365 天) 【导学号:97190332】
图 938
146 [该样本中 AQI 大于 100 的频数是 4,频率为2
5
,
由此估计该地全年 AQI 大于 100 的频率为2
5
,
估计此时该年 AQI 大于 100 的天数约为 365×2
5
=146.]
样本的数字特征
某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机
抽取这两个小组往年研发新产品的结果如下:
(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),
(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),
其中 a,a分别表示甲组研发成功和失败;b,b分别表示乙组研发成功和失
败.
(1)若某组成功研发一种新产品,则给该组记 1 分,否则记 0 分.试计算甲、
乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成
功的概率.
[解] (1)甲组研发新产品的成绩为 1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,其平均数为x
甲=10
15
=2
3
;
方差为 s 2甲= 1
15[(1-2
3) × 10+(0-2
3) × 5]=2
9.
乙组研发新产品的成绩为 1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为x乙= 9
15
=3
5
;
方差为 s 2乙= 1
15[(1-3
5) × 9+(0-3
5) × 6]= 6
25.
因为x甲>x乙,s 2甲<s 2乙,所以甲组的研发水平优于乙组.
(2)记 E={恰有一组研发成功}.
在所抽得的 15 个结果中,恰有一组研发成功的结果是(a,b),(a,b),(a,
b),(a,b),(a,b),(a,b),(a,b),共 7 个,故事件 E 发生的频率为 7
15.将频率
视为概率,即得所求概率为 P(E)= 7
15.
[规律方法] 1.平均数、方差与标准差的意义
平均数反映了数据的中心,是平均水平,而方差和标准差反映的是数据围绕平均
数的波动大小.进行平均数与方差的计算,关键是正确运用公式.
2.利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由
此可以估计中位数值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之
和.
(3)众数:最高的矩形的中点的横坐标.
3.熟记求平均数,方差的公式.
[跟踪训练] (1)(2018·江西九校联考)如图 939 是一名篮球运动员在最近 6
场比赛中所得分数的茎叶图,则下列关于该运动员所得分数的说法错误的是
( )
图 939
A.中位数为 14
B.众数为 13
C.平均数为 15
D.方差为 19
(2)(2017·贵州省适应性考试)一组样本数据的频率分布直方图如图 9310 所
示,试估计此样本数据的中位数为( )
图 9310
A.13 B.12 C.11.52 D.100
9
(1)D (2)D [(1)由茎叶图知,该运动员所得分数的中位数为13+15
2
=14,
众数为 13,平均数为8+13+13+15+20+21
6
=15,方差为1
6[(8-15)2+(13-15)2
+(13-15)2+(15-15)2+(20-15)2+(21-15)2]=59
3
,所以 D 错误,故选 D.
(2)由频率分布直方图可得第一组的频率是 0.08,第二组的频率是 0.32,第
三组的频率是 0.36,则中位数在第三组内,估计样本数据的中位数为 10+ 0.1
0.36
×4
=100
9
,选项 D 正确.]