- 736.50 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第2讲 用样本估计总体
[学生用书P217])
1.统计图表
(1)频率分布直方图的画法步骤
①求极差(即一组数据中最大值与最小值的差);
②决定组距与组数;
③将数据分组;
④列频率分布表;
⑤画频率分布直方图.
(2)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(3)茎叶图的画法步骤
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的两侧.
2.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为x,则这组数据的标准差和方差分别是
s=
s2=[(x1-)2+(x2-)2+…+(xn-)2]
1.辨明两个易误点
(1)易忽视频率分布直方图中纵轴表示的应为.
(2)在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.
2.众数、中位数和平均数的异同
众 数
中位数
平均数
相同点
都是描述一组数据集中趋势的量
不同点
与这组数据中的部分数据有关,出现在这些数据中
不一定在这些数据中出现.奇数个时,在这组数据中出现;偶数个时,为中间两数的平均值
不一定在这些数据中出现
3.标准差和方差的异同
相同点:标准差和方差描述了一组数据围绕平均数波动的大小.
不同点:方差与原始数据的单位不同,且平方后可能夸大了偏差程度,标准差则不然.
1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )
A.总体
B.个体
C.样本的容量
D.从总体中抽取的一个样本
A [解析] 调查的目的是“了解某地5 000名居民某天的阅读时间”,所以“5 000名居民的阅读时间的全体”是调查的总体.
2.(2015·高考重庆卷)重庆市2013年各月的平均气温(℃)数据的茎叶图如图,
则这组数据的中位数是( )
A.19 B.20
C.21.5 D.23
B [解析] 由茎叶图可知这组数据由小到大依次为8,9,12,15,18,20,20,23,23,28,31,32,所以中位数为=20.
3.(2017·郑州第一次质量预测)我市某校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.
[解析] 依题意得,成绩低于60分的相应的频率等于(0.005+0.01)×20=0.3,所以该班的学生人数是15÷0.3=50.
[答案] 50
4.甲、乙两人在10天中每天加工零件的个数用茎叶图表示如图,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数,则这10天甲、乙两人日加工零件的平均数分别为________和________.
[解析] 由茎叶图可知甲的平均数为
=24.
乙的平均数为
=23.
[答案] 24 23
频率分布直方图(高频考点)[学生用书P218]
频率分布直方图是高考的热点,选择题、填空题、解答题都有可能出现.难度一般较小.
高考对频率分布直方图的考查主要有以下三个命题角度:
(1)求样本的频率、频数;
(2)求样本的平均数、众数、中位数;
(3)与概率结合考查某区间内的个体被选中的概率.
[典例引领]
(2016·高考四川卷)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.
【解】 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04,
同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.
由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.
(2)由(1)可知,100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,
所以2.5≤x<3.
由0.3×(x-2.5)=0.85-0.73,
解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.
(1)频率、频数、样本容量的计算方法
①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
(2)利用频率分布直方图估计样本的数字特征的思想
①中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值.
②平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
③众数:在频率分布直方图中,众数是最高矩形的底边中点的横坐标.
[题点通关]
角度一 求样本的频率、频数
1.(2016·高考山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60
C.120 D.140
D [解析] 由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D.
角度二 求样本的平均数、众数、中位数
2.(2017·贵州省适应性考试)一组样本数据的频率分布直方图如图所示,试估计此样本数据的中位数为( )
A.13 B.12
C.11.52 D.
D [解析] 由频率分布直方图可得第一组的频率是0.08,第二组的频率是0.32,第三组的频率是0.36,则中位数在第三组内,估计样本数据的中位数为10+×4=,选项D正确.
角度三 与概率结合考查某区间内的个体被选中的概率
3.某企业为了解下属某部门对本企业职工的服务情况,随机访问50名职工.根据这50名职工对该部门的评分,绘制频率分布直方图(如图所示),其中样本数据分组区间为:[40,50),[50,60),…,[80,90),[90,100].
(1)求频率分布直方图中a的值;
(2)估计该企业的职工对该部门评分不低于80的概率;
(3)从评分在[40,60)的受访职工中,随机抽取2人,求此2人的评分都在[40,50)
的概率.
[解] (1)因为(0.004+a+0.018+0.022×2+0.028)×10=1,所以a=0.006.
(2)由所给频率分布直方图知,50名受访职工评分不低于80的频率为(0.022+0.018)×10=0.4,所以该企业职工对该部门评分不低于80的概率的估计值为0.4.
(3)受访职工中评分在[50,60)的有:50×0.006×10=3(人),记为A1,A2,A3;
受访职工中评分在[40,50)的有:50×0.004×10=2(人),记为B1,B2.从这5名受访职工中随机抽取2人,所有可能的结果共有10种,它们是{A1,A2},{A1,A3},{A1,B1},{A1,B2},{A2,A3},{A2,B1},{A2,B2},{A3,B1},{A3,B2},{B1,B2}.又因为所抽取2人的评分都在[40,50)的结果有1种,即{B1,B2},故所求的概率为.
茎叶图[学生用书P219]
[典例引领]
(2017·贵州遵义航天高中模拟)某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为( )
A.117 B.118
C.118.5 D.119.5
【解析】 22次考试中,所得分数最高的为98,最低的为56,所以极差为98-56=42,
将分数从小到大排列,中间两数为76,76,所以中位数为76,
所以此学生该门功课考试分数的极差与中位数之和为42+76=118.
【答案】 B
茎叶图中的三个关注点
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.
(2)重复出现的数据要重复记录,不能遗漏.
(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
[通关练习]
1.(2017·合肥市第一次教学质量检测)一次数学考试后,某老师从自己所带的两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图.已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x-y的值为( )
A.2 B.-2
C.3 D.-3
D [解析] 由题意得,=81⇒x=0,易知y=3,所以x-y=-3,故选D.
2.为了了解某校教师使用多媒体进行教学的情况,现采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示,如图所示.据此可估计上学期该校400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为( )
A.100 B.160
C.200 D.280
B [解析] 由茎叶图可知在20名教师中,上学期使用多媒体进行教学的次数在[16,30)内的人数为8,据此可以估计400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为400×=160.
样本的数字特征及其应用[学生用书P220]
[典例引领]
(2017·贵阳市监测考试)在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.
若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.
【解】 学生甲的平均成绩甲==82,
学生乙的平均成绩乙==82,
又s=×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,
s=×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=,则甲=乙,s>s,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.
样本数字特征及公式推广
(1)平均数和方差都是重要的数字特征,是对总体的一种简明的阐述.平均数、中位数、众数描述总体的集中趋势,方差和标准差描述波动大小.
(2)平均数、方差公式的推广
若数据x1,x2,…,xn的平均数为,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m+a,方差为m2s2.
[通关练习]
1.(2015·高考广东卷)已知样本数据x1,x2,…,xn的均值=5,则样本数据2x1+1,2x2+1,…,2xn+1的均值为________.
[解析] 由条件知==5,则所求均值0=
==2+1=2×5+1=11.
[答案] 11
2.(2017·南昌第一次模拟)若1,2,3,4,m这五个数的平均数为3,则这五个数的方差为________.
[解析] 由=3得m=5,所以这五个数的方差为[(1-3)2+(2-3)2+(3-3)
2+(4-3)2+(5-3)2]=2.
[答案] 2
[学生用书P220]
——用样本的数字特征估计总体数字特征
(本题满分12分)(2017·东北四市联考(二))某小学对五年级的学生进行体质测试,已测得五年级一班30名学生的跳远成绩(单位:cm)用茎叶图统计如图.
男生成绩在175 cm以上(包括175 cm)定义为“合格”,成绩在175 cm以下(不包括175 cm)定义为“不合格”,女生成绩在165 cm以上(包括165 cm)定义为“合格”,成绩在165 cm以下(不包括165 cm)定义为“不合格”.
(1)求男生跳远成绩的中位数;
(2)如果用分层抽样的方法从男、女生中共抽取5人,求抽取的5人中女生人数;
(3)若从男、女生测试成绩“合格”的同学中选取2名参加复试,用X表示男生被选中的人数,求X的分布列和数学期望.
[思维导图]
(1)男生跳远成绩的中位数为=177(cm).(2分)
(2)用分层抽样的方法,每个人被抽中的概率是
=,(4分)
根据茎叶图,女生共18人,
所以抽取的女生有18×=3(人).(6分)
(3)依题意,男、女生测试成绩“合格”的分别有8人、
10人.(7分)
X的取值为0,1,2,则
P(X=0)==,P(X=1)==,
P(X=2)==,(10分)
X的分布列如下:
X
0
1
2
P
(11分)
所以E(X)=.(12分)
(1)解决此类问题要注意审题,理清题中数据,如本例中男女生人数各是多少,合格人数是多少,解答步骤要规范.
(2)解决中位数、平均数与方差等问题,不要盲目求解,要先观察数据的特征,寻找运算的捷径,做到事半功倍.
[学生用书P378(独立成册)]
1.把样本容量为20的数据分组,分组区间与频数如下:[10,20),2;[20,30),3;[30,40),4;[40,50),5;[50,60),4;[60,70],2,则在区间[10,50)上的数据的频率是( )
A.0.05 B.0.25
C.0.5 D.0.7
D [解析] 由题知,在区间[10,50)上的数据的频数是2+3+4+5=14,故其频率为=0.7.
2.
如图茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )
A.2,5 B.5,5
C.5,8 D.8,8
C [解析] 由于甲组数据的中位数为15=10+x,
所以x=5.
又乙组数据的平均数为
=16.8,所以y=8.所以x,y的值分别为5,8.
3.(2017·北京朝阳期末)在一段时间内有2 000辆车通过高速公路上的某处,现随机抽取其中的200辆进行车速统计,统计结果如图所示.若该处高速公路规定正常行驶速度为90~120 km/h,试估计这2 000辆车中,以正常速度通过该处的汽车有( )
A.30辆 B.300辆
C.170辆 D.1 700辆
D [解析] 直方图中速度为90~120 km/h的频率为0.03×10+0.035×10+0.02×10=0.85.
用样本估计总体,可知2 000辆车中,以正常速度通过该处的汽车约有0.85×2 000=1 700(辆).故选D.
4.(2017·邢台摸底考试)样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其样本方差为( )
A. B.
C. D.2
D [解析] 依题意得m=5×1-(0+1+2+3)=-1,样本方差s2=(12+02+12+22+22)=2,即所求的样本方差为2.
5.
如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45]的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为( )
A.0.04 B.0.06
C.0.2 D.0.3
C [解析] 由频率分布直方图的知识得,年龄在[20,25)的频率为0.01×5=0.05,[25,30)的频率为0.07×5=0.35,设年龄在[30,35),[35,40),[40,45]的频率为x,y,z,又x,y,z成等差数列,
所以可得
解得y=0.2,所以年龄在[35,40)的网民出现的频率为0.2.
6.如图,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则( )
A.A>B,sA>sB
B.AsB
C.A>B,sA