- 675.50 KB
- 2021-06-11 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第3讲 统计与统计案例
抽样方法 自主练透 夯实双基
抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值.
[题组通关]
1.某县老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100
C.180 D.300
C [解析] 设该样本中的老年教师人数为x,由题意及分层抽样的特点得=,故x=180.
2.用系统抽样法从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是________.
[解析] 设第1组抽出的号码为x,则第16组应抽出的号码是8×15+x=126,所以x=6.
[答案] 6
3.利用随机数表法对一个容量为500,编号为000,001,002,…,499的产品进行抽样检验,抽取一个容量为10的样本,选取方法是从随机数表第12行第5列、第6列、第7列数字开始由左到右依次选取三个数字(下面摘取了随机数表中的第11行至第12行),根据下表,读出的第3个数是________.
18 18 07 92 45 44 17 16 58 09 79 83 86 19 62 06 76 50 03 10 55 23 64 05 05
26 62 38 97 75 84 16 07 44 99 83 11 46 32 24 20 14 85 88 45 10 93 72 88 71
[解析] 最先读到的数据的编号是389,向右读下一个数是775,775大于499,故舍去,再下一个数是841,舍去,再下一个数是607,舍去,再下一个数是449,再下一个数是983,舍去,再下一个数是114.故读出的第3个数是114.
[答案] 114
解决抽样问题的方法
(1)解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.
(2)在系统抽样的过程中,要注意分段间隔,需要抽取n个个体,样本就需要分成n个组,则分段间隔即为(N为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.
用样本估计总体 高频考点 多维探明
1.统计中的四个数字特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:在样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即
=(x1+x2+…+xn).
(4)方差与标准差
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2].
标准差:
s=.
2.直方图的两个结论
(1)小长方形的面积=组距×=频率.
(2)各小长方形的面积之和等于1.
用统计图表估计总体
(2016·福建毕业班质量检测)随着移动互联网的发展,与餐饮美食相关的手机APP软件层出不穷.现从使用A和B两款订餐软件的商家中分别随机抽取50个商家,对它们的“平均送达时间”进行统计,得到频率分布直方图如图.
(1)试估计使用A款订餐软件的50个商家的“平均送达时间”的众数及平均数;
(2)根据以上抽样调查数据,将频率视为概率,回答下列问题:
①能否认为使用B款订餐软件“平均送达时间”不超过40分钟的商家达到75%?
②如果你要从A和B两款订餐软件中选择一款订餐,你会选择哪款?说明理由.
【解】 (1)依题意可得,使用A款订餐软件的50个商家的“平均送达时间”的众数为55分钟.
使用A款订餐软件的50个商家的“平均送达时间”的平均数为:
15×0.06+25×0.34+35×0.12+45×0.04+55×0.4+65×0.04=40(分钟).
(2)①使用B款订餐软件“平均送达时间”不超过40分钟的商家的比例估计值为0.04+0.20+0.56=0.80=80%>75%.
故可以认为使用B款订餐软件“平均送达时间”不超过40分钟的商家达到75%.
②使用B款订餐软件的50个商家的“平均送达时间”的平均数为15×0.04+25×0.2+35×0.56+45×0.14+55×0.04+65×0.02=35<40.
所以选B款订餐软件.
用样本的数字特征估计总体特征
(2016·石家庄第一次模拟)为比较甲、乙两地某月11时的气温情况,随机选取该月中的5天,将这5天中11时的气温数据(单位:℃)制成如图所示的茎叶图,考虑以下结论:
①甲地该月11时的平均气温低于乙地该月11时的平均气温
②甲地该月11时的平均气温高于乙地该月11时的平均气温
③甲地该月11时的气温的标准差小于乙地该月11时的气温的标准差
④甲地该月11时的气温的标准差大于乙地该月11时的气温的标准差
其中根据茎叶图能得到的正确结论的编号为( )
A.①③ B.①④
C.②③ D.②④
【解析】 由茎叶图和平均数公式可得甲、乙两地的平均数分别是30,29,则甲地该月11时的平均气温高于乙地该月11时的平均气温,①错误,②正确,排除A和B;又甲、乙两地该月11时的标准差分别是s甲==,s乙==,则甲地该月11时的气温的标准差小于乙地该月11时的气温的标准差,③正确,④错误,故选项C正确.
【答案】C
(1)关于平均数、方差的计算
样本数据的平均数与方差的计算关键在于准确记忆公式,要特别注意区分方差与标准差,不能混淆,标准差是方差的算术平方根.
(2)求解频率分布直方图中相关数据的两个注意点
一是小长方形的面积表示频率,其纵轴是,而不是频率.
二是各组数据频率之比等于对应小长方形的高度之比.
[题组通关]
1.(2016·广州六校教育教学联合体测试)为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理后,作出了如图所示的频率分布直方图.已知图中从左到右的前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,则被抽查的美术生的人数是( )
A.35 B.48
C.60 D.75
C [解析] 设被抽查的美术生的人数为n,因为后2个小组的频率之和为(0.037 5+0.012 5)×5=0.25,所以前3个小组的频率之和为0.75.又前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,所以前3个小组的频数分别为5,15,25,所以n==60.
2.(2016·福州模拟)为了丰富学生的课余生活,某校举办了“你来比划,我来猜”的猜成语活动,若甲、乙两个班级各10个小组参加了此项活动,对其猜对成语的个数进行统计,得到如茎叶图所示的两组数据,对这两个班级10个小组猜对成语的个数的平均数x甲,x乙和中位数y甲,y乙进行比较,正确的结论是( )
A.甲>乙,y甲>y乙 B.甲<乙,y甲>y乙
C.甲>乙,y甲10.828.
所以至少有99.9%的把握认为疫苗有效.
解决统计案例应注意的问题
(1)求回归直线方程问题的关键有两点:一是把相关数据代入公式准确计算;二是抓住样本中心点(x,y)必在回归直线上的特性.
(2)求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到K2之后的结论.
[跟踪训练]
某城市随机抽取一年内100天的空气质量指数(AQI)的监测数据,结果统计如下:
AQI
[0,50]
(50,100]
(100,150]
(150,200]
(200,300]
>300
空气质量
优
良
轻度污染
中度污染
重度污染
严重污染
天数
6
14
18
27
20
15
(1)已知某企业每天的经济损失y(单位:元)与空气质量指数x的关系式为y=,若在本年内随机抽取一天,试估计这一天的经济损失超过400元的概率;
(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为严重污染.根据提供的统计数据,完成下面的2×2列联表,并判断是否有95%的把握认为“该城市本年的空气严重污染与供暖有关”?
非严重污染
严重污染
总计
供暖季
非供暖季
总计
100
附:K2=
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
[解] (1)记“在本年内随机抽取一天,该天的经济损失超过400元”为事件A.
由y>400,得x>200.
由统计数据可知,空气质量指数大于200的频数为35,
所以P(A)==.
(2)根据题设中的数据得到如下2×2列联表:
非严重污染
严重污染
总计
供暖季
22
8
30
非供暖季
63
7
70
总计
85
15
100
将2×2列联表中的数据代入公式计算,得
K2=≈4.575.
因为4.575>3.841,
所以有95%的把握认为“该城市本年的空气严重污染与供暖有关”.
课时作业
1.(2016·长沙四校联考)高三某班有学生56人,现将所有同学随机编号,用系统抽样的方法,抽取一个容量为4的样本,已知5号、33号、47号学生在样本中,则样本中还有一个学生的编号为( )
A.13 B.17
C.19 D.21
C [解析] 因为47-33=14,所以由系统抽样的定义可知样本中的另一个学生的编号为5+14=19.
2.为了判定两个分类变量X和Y是否有关系,应用K2独立性检验法算得K2的观测值为5,又已知P(K2≥3.841)=0.05,P(K2≥6.635)=0.01,则下列说法正确的是( )
A.有95%的把握认为“X和Y有关系”
B.有95%的把握认为“X和Y没有关系”
C.有99%的把握认为“X和Y有关系”
D.有99%的把握认为“X和Y没有关系”
A [解析] 依题意,K2=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”,选A.
3.(2016·江西百校联盟模拟)已知对某超市某月(30天)每天顾客使用信用卡的人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )
A.44,45,56
B.44,43,57
C.44,43,56
D.45,43,57
B [解析] 由茎叶图可知全部数据为10,11,20,21,22,24,31,33,35,35,37,38,43,43,43,45,46,47,48,49,50,51,52,52,55,56,58,62,66,67,中位数为=44,众数为43,极差为67-10=57.选B.
4.某中学高中部有300名学生.为了研究学生的周平均学习时间,从中抽取60名学生,先统计了他们某学期的周平均学习时间(单位:小时),再将学生的周平均学习时间分成5组:[40,50),[50,60),[60,70),[70,80),[80,90],并加以统计,
得到如图所示的频率分布直方图.则高中部学生的周平均学习时间为(同一组中的数据用该组区间的中点值作代表)( )
A.63.5小时 B.62.5小时
C.63小时 D.60小时
A [解析] 在高中部抽取的60名学生中,周平均学习时间分别落在[40,50),[50,60),[60,70),[70,80),[80,90]的人数依次为6,15,24,12,3.
所以高中部学生的周平均学习时间为
(6×45+15×55+24×65+12×75+3×85)÷60=63.5(小时).故选A.
5.(2016·武汉市武昌区调研)在如图所示的正方形中随机投掷10 000个点,则落入阴影部分(曲线C为正态分布N(-1,1)的密度曲线)的点的个数的估计值为( )
A.1 193 B.1 359
C.2 718 D.3 413
附:若X~N(μ,σ2),则P(μ-σ<X≤μ+σ)=0.682 6,P(μ-2σ<X≤μ+2σ)=0.954 4
B [解析] 由题意知μ=-1,σ=1,因为P(0<x≤1)=[P(-1-2<X≤-1+2)-P(-1-1<X≤-1+1)]=×(0.954 4-0.682 6)=0.135 9,所以落入阴影部分的个数为0.135 9×10 000=1 359,故选B.
6.对于下列表格所示的五个散点,已知求得的线性回归方程为=0.8x-155.
x
196
197
200
203
204
y
1
3
6
7
m
则实数m的值为( )
A.8 B.8.2
C.8.4 D.8.5
A [解析] 依题意得=×(196+197+200+203+204)=200,=×(1+3+6+7+m)=
,回归直线必经过样本点的中心,于是有=0.8×200-155,由此解得m=8.故选A.
7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.
[解析] 设抽取的男生人数为x,男生有500人,根据分层抽样的特点,知=,所以x=25.
[答案] 25
8.已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数相同,则图中的m+n=________.
[解析] 根据茎叶图,得乙的中位数是33,所以甲的中位数也是33,即m=3;甲的平均数甲=×(27+39+33)=33,乙的平均数是乙=×(20+n+32+34+38)=33,所以n=8,所以m+n=11.
[答案] 11
9.某调查机构调查了某地100个新生婴儿的体重,并根据所得数据画出了样本的频率分布直方图(如图所示),则新生婴儿的体重(单位:kg)在[3.2,4.0)的人数是________.
[解析] 频率分布直方图反映样本的频率分布,每个小矩形的面积等于样本数据落在相应区间上的频率,故新生婴儿的体重在[3.2,4.0)的人数为100×(0.4×0.625+0.4×0.375)=40.
[答案] 40
10.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,得到结果如下:
则销量每增加1千箱,单位成本约下降________元(结果保留5位有效数字).
附:回归直线的斜率和截距的最小二乘法公式分别为:
[解析] 由题意知=≈-1.818 2,=71-(-1.818 2)×≈77.36,所以=-1.818 2x+77.36,所以销量每增加1千箱,则单位成本约下降1.818 2元.
[答案] 1.818 2
11.(2016·河北省“五校联盟”质量检测)为了调查某高中学生每天的睡眠时间,现随机对20名男生和20名女生进行问卷调查,结果如下:
睡眠时间(小时)
[4,5)
[5,6)
[6,7)
[7,8)
[8,9]
女生人数
2
4
8
4
2
男生人数
1
5
6
5
3
(1)现把睡眠时间不足5小时的定义为“严重睡眠不足”,从睡眠时间不足6小时的女生中随机抽取3人,求此3人中恰有一人为“严重睡眠不足”的概率;
(2)完成下面2×2列联表,并回答是否有90%的把握认为“睡眠时间与性别有关”?
睡眠时间少于7小时
睡眠时间不少于7小时
总计
男生
女生
总计
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
[解] (1)设从睡眠时间不足6小时的女生中抽出3人,其中恰有一人为“严重睡眠不足”为事件A.
所以P(A)===.
(2)列联表如下:
睡眠时间少于7小时
睡眠时间不少于7小时
总计
男生
12
8
20
女生
14
6
20
总计
26
14
40
K2==≈0.440<2.706,
所以没有90%的把握认为“睡眠时间与性别有关”.
12.(2016·开封市第一次模拟)甲、乙两人参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次.画出茎叶图如图所示,乙的成绩中有一个数的个位数字模糊,在茎叶图中用c表示.(把频率当作概率)
(1)假设c=5,现要从甲、乙两人中选派一人参加数学竞赛,从统计学的角度,你认为派哪位学生参加比较合适?
(2)假设数字c的取值是随机的,求乙的平均分高于甲的平均分的概率.
[解] (1)若c=5,则派甲参加比较合适,理由如下:
甲=(70×2+80×4+90×2+9+8+8+4+2+1+5+3)=85,
乙=(70×1+80×4+90×3+5+3+5+2+5)=85,
s=[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,
s=[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41.
因为甲=乙,s<s,
所以两人的平均成绩相等,但甲的成绩比较稳定,派甲参加比较合适.
(2)若乙>甲,则(75+80×4+90×3+3+5+2+c)>85,
所以c>5,所以c=6,7,8,9,
又c的所有可能取值为0,1,2,3,4,5,6,7,8,9,
所以乙的平均分高于甲的平均分的概率为.
13.(2016·武汉调研)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,测得的数据如下:
零件数x(个)
10
20
30
40
50
加工时间y(分钟)
62
68
75
81
89
(1)如果y与x具有线性相关关系,求回归直线方程;
(2)根据(1)所求回归直线方程,预测此车间加工这种零件70个时,所需要的加工时间.
附:
所以回归直线方程为=0.67x+54.9.
(2)由(1)所求回归直线方程可知,在x=70时,
=0.67×70+54.9=101.8(分钟).
所以预测此车间加工这种零件70个时,所需要的加工时间为101.8分钟.
14.(2016·石家庄市第一次模考)某篮球队对篮球运动员的篮球技能进行统计研究,针对篮球运动员在投篮命中时,运动员到篮筐中心的水平距离这项指标,对某运动员进行了若干场次的统计,依据统计结果绘制如下频率分布直方图:
(1)依据频率分布直方图估算该运动员投篮命中时,他到篮筐中心的水平距离的中位数;
(2)在某场比赛中,考察他前4次投篮命中时到篮筐中心的水平距离的情况,并且规定:运动员投篮命中时,他到篮筐中心的水平距离不少于4米的记1分,否则扣掉1分.用随机变量X表示第4次投篮后的总分,将频率视为概率,求X的分布列和数学期望.
[解] (1)设该运动员到篮筐中心的水平距离的中位数为x,
因为0.20×1=0.20<0.5,且(0.40+0.20)×1=0.6>0.5,
所以x∈(4,5).
由0.40×(5-x)+0.20×1=0.5,解得x=4.25,
所以该运动员到篮筐中心的水平距离的中位数是4.25米.
(2)由频率分布直方图可知投篮命中时到篮筐中心距离超过4米的概率为P=,
随机变量X的所有可能取值为-4,-2,0,2,4.
P(X=-4)==,
P(X=-2)=C=,
P(X=0)=C=,
P(X=2)=C=,
P(X=4)==,
X的分布列为
X
-4
-2
0
2
4
P
E(X)=(-4)×+(-2)×+0×+2×+4×=.