- 651.00 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第1讲 统计与统计案例
概率与统计
考向预测
1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;
2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点.
知识与技巧的梳理
1.抽样方法
抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.
2.统计中的四个数据特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即=(x1+x2+…+xn).
(4)方差与标准差.
s2=[(x1-)2+(x2-)2+…+(xn-)2],
s=.
3.直方图的两个结论
(1)小长方形的面积=组距×=频率.
(2)各小长方形的面积之和等于1.
4.回归分析与独立性检验
(1)回归直线=x+经过样本点的中心点(,),若x取某一个值代入回归直线方程=x+中,可求出y的估计值.
(2)独立性检验
对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
n
则K2=(其中n=a+b+c+d为样本容量).
热点题型
热点一 用样本估计总体
【例1】 (2016·四川卷)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5)分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.
解 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.
同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.
由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.
(2)由(1)可知,100位居民每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85.
所以2.5≤x<3.
由0.3×(x-2.5)=0.85-0.73,解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.
探究提高 在本例中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.
【训练1】 (2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)根据题意,样本中分数不小于50的频率为
(0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×=20.
(3)由题意可知,样本中分数不小于70的学生人数为
(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30.
所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
热点二 回归分析与独立性检验
【例2】 (1)某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:
女
男
总计
喜爱
40
20
60
不喜爱
20
30
50
总计
60
50
110
试根据样本估计总体的思想,估计约有________的把握认为“喜爱该节目与否和性别有关”.
参考附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
(参考公式:K2=,其中n=a+b+c+d)
(2)(2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
①由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
②建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
回归方程=+t中斜率和截距的最小二乘估计公式分别为:
(1)解析 分析列联表中数据,可得K2的一个观测值
k=≈7.822>6.635,所以有99%的把握认为“喜爱《开门大吉》节目与否和性别有关”.
答案 99%
(2)解 ①由折线图中的数据和附注中参考数据得
=4, (ti-)2=28,=0.55.
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,所以r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
②由==1.331及(1)得==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得:=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
探究提高 1.回归直线方程的关键:正确理解计算,的公式和准确地计算.
2.独立性检验的关键:根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.
【训练2】 (1)(2017·贵阳调研)某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K2的观测值k≈3.918.
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则作出“这种血清能起到预防感冒的作用”出错的可能性不超过( )
A.95% B.5% C.97.5% D.2.5%
(2)(2017·唐山一模)某市春节期间7家超市的广告费支出xi(万元)和销售额yi(万元)数据如下:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
①若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;
②用对数回归模型拟合y与x的关系,可得回归方程=12ln x+22,
经计算得出线性回归模型和对数模型的R2分别约为0.75和0.97,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为8万元时的销售额.
参数数据及公式:=8,=42,xiyi=2 794,x=708,
(1)解析 ∵k≈3.918>3.841,且P(K2≥k0=3.841)=0.05,根据独立性检验思想“这种血清能起到预防感冒的作用”出错的可能性不超过5%.
答案 B
(2)解 ①∵=8,=42,xiyi=2 794,x=708.
因此=-=42-1.7×8=28.4.
所以,y关于x的线性回归方程是=1.7x+28.4.
②∵0.75<0.97,
∴对数回归模型更合适.
当x=8时,=12ln 8+22=36ln 2+22=36×0.7+22=47.2万元.
∴广告费支出8万元时,预测A超市销售额为47.2万元.
(45分钟)
限时训练
经典常规题
1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
【解题思路】刻画评估这种农作物亩产量稳定程度的指标是标准差.
【答案】B
2.(2016·全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上 B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同 D.平均最高气温高于20 ℃的月份有5个
【解题思路】根据图示可得各月份的气温数据.
【答案】根据雷达图可知全年最低气温都在0 ℃以上,故A正确;一月平均最高气温是6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均最高气温高于20 ℃的有七月和八月,D项不正确.故选 D.
3.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,
设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
【解题思路】由回归直线方程过样本点中心可得.
【答案】由已知得=22.5,=160,
∵回归直线方程过样本点中心(,),且=4,
∴160=4×22.5+,解得=70.
∴回归直线方程为=4x+70,当x=24时,=166.故选C.
4.(2017·全国Ⅱ卷)淡水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件:旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:K2=
【解题思路】(1)以其频率代表概率;(2)完成2×2列联表,并计算K2;(3)找出频率分布直方图中平方其面积的位置.
【答案】解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,
C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知,P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量的频率分布直方图中,箱产量低于50 kg的直方图面积为:
(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为50+≈52.35 (kg).
高频易错题
1.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )
A.7 B.9 C.10 D.15
【解题思路】系统抽样也就是等距抽样,找出间距与所分的段数,再确定样本.
【答案】抽取号码的间隔为=30,从而区间[451,750]包含的段数为-=10,则编号落入区间[451,750]的人数为10人,即做问卷B的人数为10.故选 C.
2.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
【解题思路】由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误.
【答案】A
3.(2017·泉州模拟)某厂在生产甲产品的过程中,产量x(吨)与生产能耗y(吨)的对应数据如表:
x
30
40
50
60
y
25
35
40
45
根据最小二乘法求得回归方程为=0.65x+,当产量为80吨时,预计需要生产能耗为________吨.
【解题思路】由回归直线方程过样本点中心可得.
【答案】由题意,=45,=36.25,代入=0.65x+,可得=7,∴当产量为80吨时,预计需要生产能耗为0.65×80+7=59.故填 59.
4.(2017·全国Ⅲ卷)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率估计最高气温位于该区间的概率.
(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元),当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率.
【解题思路】(1)以其频率代表概率;(2)根据表格分别确定不同温度时所获利润,再
确定利润大于0时的频率(也就是概率).
【答案】解 (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表中数据可知,最高气温低于25的频率为=0.6.
所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.
(2)当这种酸奶一天的进货量为450瓶时,
若最高气温低于20,则Y=200×6+(450-200)×2-450×4=-100;
若最高气温位于区间[20,25),则Y=300×6+(450-300)×2-450×4=300;
若最高气温不低于25,则Y=450×(6-4)=900,
所以,利润Y的所有可能值为-100,300,900.
Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为=0.8.
因此Y大于零的概率的估计值为0.8.
精准预测题
1.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:
x
-4
-2
1
2
4
y
-5
-3
-1
-0.5
1
根据上述数据得到的回归方程为=x+,则大致可以判断( )
A.>0,>0 B.>0,<0 C.<0,>0 D.<0,<0
【解题思路】作出散点图,画出回归直线直观判定>0,<0.
【答案】C
2.(2017·济南调研)2016年济南地铁正式开工建设,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:
男性市民
女性市民
认为能缓解交通拥堵
48
30
认为不能缓解交通拥堵
12
20
则下列结论正确的是( )
附:K2=
P(K2≥k)
0.05
0.010
0.005
0.001
k
3.841
6.635
7.879
10.828
A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”
B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”
C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”
D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”
【解题思路】由2×2列联表,可求K2的观测值,k=≈5.288>3.841.
由统计表P(K2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”.
【答案】A
3.为了研究雾霾天气的治理情况,某课题组对部分城市进行空气质量调查,按地域特点把这些城市分成甲、乙、丙三组,已知三组城市的个数分别为4,y,z,依次构成等差数列,且4,y,z+4成等比数列,若用分层抽样抽取6个城市,则乙组中应抽取的城市个数为________.
【解题思路】根据等差数列和等比数列的定义列方程组解出y,z.
【答案】由题意可得即解得z=12或z=-4(舍去),故y=8.
所以甲、乙、丙三组城市的个数分别为4,8,12.
因为一共要抽取6个城市,所以抽样比为=.
故乙组城市应抽取的个数为8×=2.故填 2.
4.(2017·赤峰二模)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.
(1)根据女性频率分布直方图估计女性使用微信的平均时间;
(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”?
【解题思路】(1)取每组的中间值代表这组,平均数;(2)根据题意列出2×2列联表,并计算K2.
【答案】解 (1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时).
(2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得a=0.08.
由题设条件得列联表
微信控
非微信控
总计
男性
38
12
50
女性
30
20
50
总计
68
32
100
∴K2==≈2.941>2.706.
所以有90%的把握认为“微信控”与“性别”有关.