- 1.17 MB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
9.2 用样本估计总体
[知识梳理]
1.用样本的频率分布估计总体分布
(1)频率分布:样本中所有数据(或者数据组)的频数和样本容量的比,就是该数据的频率,所有数据(或者数据组)的频率的分布变化规律叫做频率分布.
(2)作频率分布直方图的步骤:①求极差,即一组数据中的最大值与最小值的差;②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.
在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.
(3)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线.
(4)①茎叶图:统计中还有一种被用来表示数据的图叫茎叶图,茎是指中间一列数,叶是从茎的旁边生长出来的数.
当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以随时记录,给数据的记录和表示都带来方便.
②茎叶图的画法步骤
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列,写在左(右)侧;有两组数据时,写在中间;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
2.样本的数字特征
(1)众数、中位数、平均数
(2)方差和标准差
方差和标准差反映了数据波动程度的大小.
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2],
标准差:
s= .
(3)关于平均数、方差的有关性质
①若x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,…,mxn+a的平均数为m+a.
②数据x1,x2,…,xn与数据x1′=x1+a,x2′=x2+a,…,xn′=xn+a的方差相等,即数据经过平移后方差不变.
③若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2.
(4)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差,方差越小,数据的离散程度越小,越稳定.
3.各种统计表的优点与不足
[诊断自测]
1.概念思辨
(1)一组数据的方差越大,说明这组数据的波动越大.( )
(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(3)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越高.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
答案 (1)√ (2)√ (3)√ (4)×
2.教材衍化
(1)(必修A3P70例题)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
答案 A
解析 这组数据由小到大排列为87,89,90,91,92,93,94,96,
∴中位数是=91.5,
平均数==91.5.故选A.
(2)(必修A3P82T7)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
答案 C
解析 由图可得,甲==6,乙==6,故A错误;甲的成绩的中位数为6,乙的成绩的中位数为5,故B错误;s=2,s=2.4,故C正确;甲的成绩的极差为4,乙的成绩的极差也为4,D错误.故选C.
3.小题热身
(1)右面茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).
已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )
A.2,5 B.5,5 C.5,8 D.8,8
答案 C
解析 由茎叶图及已知得x=5,又乙组数据的平均数为16.8,即=16.8,解得y=8,故选C.
(2)(2018·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,上图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为________.
答案 12
解析 全体志愿者共有:=50(人),
所以第三组有志愿者:0.36×1×50=18(人).
∵第三组中没有疗效的有6人,
∴有疗效的有18-6=12(人).
题型1 样本数字特征的计算及应用
某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:
(a,b),(a,),(a,b),(,b),(,),(a,b),(a,b),(a,),(,b),(a,),(,),(a,b),(a,),(,b),(a,b),
其中a,分别表示甲组研发成功和失败;b,分别表示乙组研发成功和失败.
(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.
(1)直接用公式求解;(2)按古典概型求解.
解 (1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1.
其平均数为甲==;
方差为s==.
乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为乙==;
方差为s==.
因为甲>乙,s,因此可看出A药的疗效更好.
(2)由观测结果可绘制如下茎叶图:
从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎2,3上,而B药疗效的试验结果有的叶集中在茎0,1上,由此可看出A药的疗效更好.
题型3 频率分布直方图
角度1 求频率或频数
(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
首先求22.5~30范围上的频率,即求第三、四、五直方图的面积,再求人数.
答案 D
解析 由频率分布直方图知这200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.
角度2 利用频率分布直方图估计总体
(2016·四川高考)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)估计居民月均用水量的中位数.
解 (1)由频率分布直方图可知:月均用水量在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.
(2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06十0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300000×0.12=36000.
(3)设中位数为x吨,
因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.
又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5.
由0.50×(x-2)=0.5-0.48.解得x=2.04.
故可估计居民月均用水量的中位数为2.04吨.
方法技巧
1.频率分布直方图的性质
(1)小长方形的面积=组距×=频率;
(2)各小长方形的面积之和等于1;
(3)小长方形的高=,所有小长方形的高的和为.
2.频率分布直方图中的众数、中位数与平均数
(1)最高的小长方形底边中点的横坐标即是众数;
(2)平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标是中位数;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
冲关针对训练
(2014·全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125]
频数
6
26
38
22
8
(1)作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
解 (1)频率分布直方图如图.
(2)质量指标值的样本平均数为
=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.
1.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
答案 B
解析 因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.
2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
答案 A
解析 对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错误;
对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;
对于选项C、D,由图可知显然正确.故选A.
3.(2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7
答案 A
解析 甲组数据的中位数为65,由甲、乙两组数据的中位数相等得y=5.又甲、乙两组数据的平均值相等,∴×(56+65+62+74+70+x)=×(59+61+67+65+78),∴x=3.故选A.
4.(2018·安徽安庆模拟)某学校高二年级共有女生300人,现调查她们每天的课外运动时间,发现她们的课外运动时间介于30分钟到90分钟,下图是统计结果的频率分布直方图,则她们的平均运动时间大约是________分钟.
答案 56.5
解析 由题图得35×0.1+45×0.1+55×0.5+65×0.2+75×0.05+85×0.05=56.5(分钟).
[基础送分 提速狂刷练]
一、选择题
1.(2015·安徽高考)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8 B.15 C.16 D.32
答案 C
解析 设样本数据x1,x2,…,x10的标准差为s,则s=8,可知数据2x1-1,2x2-1,…,2x10-1的标准差为2s=16.故选C.
2.(2018·保定联考)在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个长方形的面积和的,且样本容量为140,则中间一组的频数为( )
A.28 B.40 C.56 D.60
答案 B
解析 设中间一个小长方形面积为x,其他8个长方形面积为x,因此x+x=1,解得x=,所以中间一组的频数为140×=40.故选B.
3.(2017·哈尔滨四校统考)一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{an},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是( )
A.13,12 B.13,13 C.12,13 D.13,14
答案 B
解析 设等差数列{an}的公差为d(d≠0),a3=8,a1a7=a=64,(8-2d)(8+4d)=64,(4-d)(2+d)=8,2d-d2=0,又d≠0,故d=2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为==13,中位数为=13.故选B.
4.(2017·西宁一模)某校高二(1)班一次阶段考试数学成绩的茎叶图和频率分布直方图可见部分如图,根据图中的信息,可确定被抽测的人数及分数在[90,100]内的人数分别为( )
A.20,2 B.24,4 C.25,2 D.25,4
答案 C
解析 由频率分布直方图可知,组距为10,[50,60)的频率为0.008×10=0.08,
由茎叶图可知[50,60)的人数为2,设参加本次考试的总人数为N,则N==25,根据频率分布直方图可知[90,100]内的人数与[50,60)的人数一样,都是2,故选C.
5.(2017·南关区模拟)2014年5月12日,国家统计局公布了《2013年农民工监测调查报告》,报告显示:我国农民工收入持续快速增长.某地区农民工人均月收入增长率如图1,并将人均月收入绘制成如图2的不完整的条形统计图.
根据以上统计图来判断以下说法错误的是( )
A.2013年农民工人均月收入的增长率是10%
B.2011年农民工人均月收入是2205元
C.小明看了统计图后说:“农民工2012年的人均月收入比2011年的少了”
D.2009年到2013年这五年中2013年农民工人均月收入最高
答案 C
解析 由折线统计图可得出:2013年农民工人均月收入的增长率是10%,故A正确;由条形统计图可得出:2011年农民工人均月收入是2205元,故B正确;因为2012年农民工人均月收入是:2205×(1+20%)=2646元>2205元,所以农民工2012年的人均月收入比2011年的少了,是错误的,故C错误;由条形统计图可得出,2009年到2013年这五年中2013年农民工人均月收入最高.故D正确.故选C.
6.
某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )
答案 A
解析 解法一:由茎叶图知,各组频数统计如表:
此表对应的频率分布直方图为选项A.故选A.
解法二:选项C、D组距为10与题意不符,舍去,
又由茎叶图知落在区间[0,5)与[5,10)上的频数相等,故频率、频
率/组距也分别相等,比较A、B两个选项知A正确.故选A.
7.如图所示,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则( )
A.A>B,sA>sB B.AsB
C.A>B,sAsB,故选B.
8.(2017·广东肇庆一模)图1是某高三学生进入高中三年来的数学考试成绩茎叶图,第1次到14次的考试成绩依次记为A1,A2,…,A14.图2是统计茎叶图中成绩在一定范围内考试次数的一个算法流程图.那么算法流程图输出的结果是( )
A.7 B.8 C.9 D.10
答案 D
解析 该程序的作用是求考试成绩不低于90分的次数,根据茎叶图可得不低于90分的次数为10.故选D.
9.(2017·吉林模拟)下面的茎叶图是某班学生在一次数学测试时的成绩:
根据茎叶图,得出该班男、女生数学成绩的四个统计结论,其中错误的一项是 ( )
A.15名女生成绩的平均分为78
B.17名男生成绩的平均分为77
C.女生成绩和男生成绩的中位数分别为82,80
D.男生中的高分段和低分段均比女生多,相比较男生两极分化比较严重
答案 C
解析 15名女生成绩的平均分为×(90+93+80+80+82+82+83+83+85+70+71+73+75+66+57)=78,A正确;17名男生成绩的平均分为×(93+93+96+80+82+83+86+86+88+71+74+75+62+62+68+53+57)=77,故B正确;观察茎叶图,对男生、女生成绩进行比较,可知男生两极分化比较严重,D正确;根据女生和男生成绩数据分析可得,两组数据的中位数均为80,C错误.故选C.
10.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D
解析 从图中明显看出2008年二氧化硫排放量比2007年的二氧化硫排放量明显减少,且减少的最多,故A正确;2004~2006年二氧化硫排放量越来越多,从2007年开始二氧化硫排放量变少,故B
正确;从图中看出,2006年以来我国二氧化硫年排放量越来越少,故C正确;2006年以来我国二氧化硫年排放量越来越少,而不是与年份正相关,故D错误.故选D.
二、填空题
11.(2017·聊城模拟)某校女子篮球队7名运动员身高(单位:厘米)分布的茎叶图如图,已知记录的平均身高为175 cm,但有一名运动员的身高记录不清楚,其末位数记为x,那么x的值为________.
答案 2
解析 由题意有:175×7=180×2+170×5+1+1+2+x+4+5⇒x=2.
12.某商场调查旅游鞋的销售情况,随机抽取了部分顾客的购鞋尺寸,整理得如下频率分布直方图,其中直方图从左至右的前3个小矩形的面积之比为1∶2∶3,则购鞋尺寸在[39.5,43.5)内的顾客所占百分比为________.
答案 55%
解析 后两个小组的频率为(0.0375+0.0875)×2=0.25,所以前3个小组的频率为1-0.25=0.75,
又前3个小组的面积比为1∶2∶3,
即前3个小组的频率比为1∶2∶3.
所以第三小组的频率为×0.75=0.375,第四小组的频率为0.0875×2=0.175,
所以购鞋尺寸在[39.5,43.5)的频率为0.375+0.175=0.55=55%.
13.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.
(1)直方图中x的值为________;
(2)在这些用户中,用电量落在区间[100,250)内的户数为________.
答案 (1)0.0044 (2)70
解析 (1)由频率分布直方图知[200,250)小组的频率为1-(0.0024+0.0036+0.0060+0.0024+0.0012)×50=0.22,
于是x==0.0044.
(2)∵数据落在[100,250)内的频率为(0.0036+0.0060+0.0044)×50=0.7,
∴所求户数为100×0.7=70.
14.已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,20,且总体的中位数为10.5,若要使该总体的方差最小,则a,b的取值分别是________.
答案 10.5,10.5
解析 ∵中位数为10.5,∴=10.5,即a+b=21.
∵==10,
∴s2=[(2-10)2+(3-10)2×2+(7-10)2+(a-10)2+(b-10)2+(12-10)2+(13.7-10)2+(18.3-10)2+(20-10)2].
令y=(a-10)2+(b-10)2=2a2-42a+221
=22+,
当a=10.5时,y取最小值,方差s2也取最小值.
∴a=10.5,b=10.5.
三、解答题
15.(2017·福建八校联考)某教师为了了解高三一模所教两个班级的数学成绩情况,将两个班的数学成绩(单位:分)绘制成如图所示的茎叶图.
(1)分别求出甲、乙两个班级数学成绩的中位数、众数;
(2)若规定成绩大于等于115分为优秀,分别求出两个班级数学成绩的优秀率;
(3)从甲班中130分以上的5名同学中随机抽取3人,求至多有1
人的数学成绩在140分以上的概率.
解 (1)由所给的茎叶图知,甲班50名同学的成绩由小到大排序,排在第25,26位的是108,109,数量最多的是103,故甲班数学成绩的中位数是108.5,众数是103;
乙班48名同学的成绩由小到大排序,排在第24,25位的是106,107,数量最多的是92和101,故乙班数学成绩的中位数是106.5,众数为92和101.
(2)由茎叶图中的数据可知,甲班中数学成绩为优秀的人数为20,优秀率为=;乙班中数学成绩为优秀的人数为18,优秀率为=.
(3)将分数为131,132,136的3人分别记为a,b,c,分数为141,146的2人分别记为m,n,则从5人中抽取3人的不同情况有abc,abm,abn,acm,acn,amn,bcm,bcn,bmn,cmn,共10种情况.
记“至多有1人的数学成绩在140分以上”为事件M,则事件M包含的情况有abc,abm,abn,acm,acn,bcm,bcn,共7种情况,
所以从这5名同学中随机抽取3人,至多有1人的数学成绩在140分以上的概率为P(M)=.
16.(2018·安徽黄山模拟)全世界越来越关注环境保护问题,某监测站点于2016年8月某日起连续n天监测空气质量指数(AQI),数据统计如下表:
(1)根据所给统计表和频率分布直方图中的信息求出n,m
的值,并完成频率分布直方图;
(2)由频率分布直方图,求该组数据的平均数与中位数;
(3)在空气质量指数分别为(50,100]和(150,200]的监测数据中,用分层抽样的方法抽取5天,从中任意选取2天,求事件A“两天空气质量等级都为良”发生的概率.
解 (1)∵0.004×50=,∴n=100,
∵20+40+m+10+5=100,∴m=25.
=0.008;=0.005;=0.002;=0.001.
由此完成频率分布直方图,如图:
(2)由频率分布直方图得该组数据的平均数=
25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001×50=95,
∵[0,50]的频率为0.004×50=0.2,(50,100]的频率为0.008×50=0.4,
∴中位数为50+×50=87.5.
(3)由题意知在空气质量指数为(50,100]和(150,200]的监测天数中分别抽取4天和1天,
在所抽取的5天中,将空气质量指数为(50,100]的4天分别记为a,b,c,d;
将空气质量指数为(150,200]的1天记为e,从中任取2天的基本事件为(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d),(c,e),(d,e),共10个,
其中事件A“两天空气质量等级都为良”包含的基本事件为(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共6个,
所以P(A)==.