- 683.09 KB
- 2021-06-15 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
考查角度 1 统计案例
分类透析一 统计图表与数字特征分析
例 1 从某食品厂生产的面包中抽取 100 个,测量这些面包的一
项质量指标值,由测量结果得如下频数分布表:
质量
指标
值分
组
[75,
85)
[85,
95)
[95,
105)
[105
,115
)
[115
,125
]
频数 8 22 37 28 5
(1)在相应位置上画出这些数据的频率分布直方图;
(2)估计这种面包质量指标值的平均数 X(同一组中的数据用该
组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该食品厂生产的这种面包
符合“质量指标值不低于 85 的面包至少要占全部面包 90%的规
定”?
分析 (1)根据题设中的数据,可画出频率分布直方图;
(2)利用平均数的计算公式,可求得平均数 X;
(3)计算质量指标值不低于 85 的面包所占比例的估计值,再做出
判断.
解析 (1)画图.
(2)质量指标值的样本平均数为
―
x =80×0.08+90×0.22+100×0.37+110×0.28+120×0.05=100.
所以这种面包质量指标值的平均数的估计值为 100.
(3)质量指标值不低于 85 的面包所占比例的估计值为
0.22+0.37+0.28+0.05=0.92,
由于该估计值大于 0.9,故可以认为该食品厂生产的这种面包符
合“质量指标值不低于 85 的面包至少要占全部面包 90%的规定”.
方法技巧 在频率分布直方图中,小矩形的高表示“频率/组
距”,而不是频率;利用频率分布直方图求平均数时,平均数是频率分
布直方图的“重心”,可以估计为频率分布直方图中每个小长方形的
面积乘以小长方形底边中点的横坐标之和.
分类透析二 线性回归的综合应用
例 2 某市为了引导居民合理用水,居民生活用水实行二级阶梯
式水价计算办法,具体如下:第一阶梯,每户居民月用水量不超过 12
吨,价格为 4 元/吨;第二阶梯,每户居民月用水量超过 12 吨,超过部
分的价格为 8 元/吨.为了了解全市居民月用水量的分布情况,通过抽
样获得了 100 户居民的月用水量(单位:吨),将数据按照
[0,2],(2,4],…,(14,16](全市居民月用水量均不超过 16 吨)分成 8
组,制成了如图①所示的频率分布直方图.
(1)求频率分布直方图中字母 a 的值,并求该组的频率.
(2)通过频率分布直方图,估计该市居民每月的用水量的中位数
m 的值(保留两位小数).
(3)图②是该市居民张某 2018 年 1~6 月份的月用水费 y(元)与
月份 x 的散点图,其拟合的线性回归方程是^
y=2x+33.若张某 2018 年
1~7 月份水费总支出为 312 元,试估计张某 7 月份的用水吨数.
分析 (1)根据矩形面积和为 1 可得结果;
(2)利用 m 左右面积都是1
2列方程可得结果;
(3)根据回归直线过样本点的中心,算出前六个月平均费用,总费
用减去前六个月的费用和即可得结果.
解析 (1)∵(0.02+0.04+0.08+a+0.13+0.08+0.03+0.02)×2=1,
∴a=0.10.
故第四组的频率为 0.1×2=0.2.
(2)∵0.02×2+0.04×2+0.08×2+0.10×2+(m-8)×0.13=0.5,
∴m=8+0.5 - 0.48
0.13 ≈8.15.
(3)∵ ―
x =1 + 2 + 3 + 4 + 5 + 6
6 =3.5,且^
y=2x+33,
∴ ―
y =2×3.5+33=40.
∴张某 7 月份的用水费用为 312-6×40=72(元),
设张某 7 月份的用水 x 吨,
∵12×4=48<72,
∴12×4+(x-12)×8=72,解得 x=15.
则张某 7 月份用水 15 吨.
方法技巧 (1)要能够从统计图表中获取数据来解决问题.
(2)若已知回归直线方程,则可以直接将数值代入求得特定要求
下的预测值;若回归直线方程有待定参数,则根据回归直线方程恒过
点( ―
x , ―
y )求参数.
分类透析三 独立性检验的综合应用
例 3 某校工会对全校教职工在平昌冬季奥运会期间每天收看比
赛转播的时间做了一次调查,得到如下频数分布表:
收看
时间
(单
位:小
时)
[0,
1)
[1,
2)
[2,
3)
[3,
4)
[4,
5)
[5,
6]
收看
人数 14 30 16 28 20 12
(1)若将每天收看比赛转播时间不低于 3 小时的教职工定义
为“体育达人”,否则定义为“非体育达人”,请根据频数分布表补
全 2×2 列联表:
男 女 合计
体育达人 40
非体育达
人 30
合计
并判断能否有 90%的把握认为该校教职工是否为“体育达
人”与“性别”有关.
(2)在全校“体育达人”中按性别分层抽样抽取 6 名,再从这 6
名“体育达人”中任意选取 2 名做冬奥会知识讲座.求取出的 2 名
“体育达人”中至少有 1 名女职工的概率.
附表及公式:
P(K2
≥k0)
0.1
5
0.1
0
0.0
5
0.0
25
0.0
10
0.0
05
0.0
01
k0
2.0
72
2.7
06
3.8
41
5.0
24
6.6
35
7.8
79
10.
828
附:K2= 푛(푎푑 - 푏푐)2
(푎 + 푏)(푐 + 푑)(푎 + 푐)(푏 + 푑)(其中 n=a+b+c+d 为样本容量).
分析 (1)根据表格中的数据,计算 K2,对照附表,做出判断;
(2)先利用分层抽样方法抽取 6 名“体育达人”,并确定其中男
女职工人数,再利用概率知识求解即可.
解析 (1)由题意得下表:
男 女 合计
体育达人 40 20 60
非体育达
人 30 30 60
合计 70 50 120
k=120 × (1200 - 600)2
70 × 50 × 60 × 60 =24
7 >2.706.
所以有 90%的把握认为该校教职工是否为“体育达人”与“性
别”有关.
(2)由题意知抽取的 6 名“体育达人”中有 4 名男职工(记作
a,b,c,d),2 名女职工(记作 m,n),
则从这 6 名“体育达人”中任意选取 2 名有
ab,ac,ad,am,an,bc,bd,bm,bn,cd,cm,cn,dm,dn,mn,共 15 种取法,取
出的 2 名“体育达人”中至少有 1 名女职工有
am,an,bm,bn,cm,cn,dm,dn,mn,共 9 种取法,所以所求概率 P= 9
15=3
5.
方法技巧 独立性检验的方法的解题步骤
①构造 2×2 列联表;②计算 K2 的观测值 k;③查表确定有多大的
把握判定两个变量有关联.
1.(2018 年全国Ⅲ卷,文 18 改编)PM2.5 是指大气中直径小于或等于
2.5 微米的颗粒物,也称为可入肺颗粒物,一般情况下 PM2.5 浓度越
大,大气环境质量越差.我国 PM2.5 的标准是:24 小时 PM2.5 的平均
浓度在 0~35μg/m3 范围内,则空气质量是优,在 35~75μg/m3 范围内,
则空气质量是良好,在 75~115μg/m3 范围内,则空气质量是轻度污
染.在 115~150μg/m3 范围内,则空气质量是中度污染.甲、乙两座城
市 2016 年底经评估 PM2.5 的年平均浓度均在 80μg/m3 左右,空气质
量是轻度污染,甲、乙两座城市采取不同的环境综合治理方式,通过
各个监测站的大数据汇总得到 2017 年每个月 PM2.5 的平均浓度数据
如下(单位:μg/m3).
甲城市:83,74,55,62,47,65,58,61,56,50,54,46.
乙城市:82,68,61,65,68,68,71,67,82,70,66,72.
(1)根据以上统计数据判断 2017 年哪座城市的大气环境质量总体较
好?并说明理由.
(2)求两座城市 24 个 PM2.5 的平均浓度的中位数,并将两座城市超过
和不超过中位数的月份数填入下面的列联表:
不超过 超过
甲城市
乙城市
(3)根据(2)中的列联表,能否有 99%的把握认为甲、乙两座城市的大
气环境质量与该城市综合治理的方式有关?
附:K2= 푛(푎푑 - 푏푐)2
(푎 + 푏)(푐 + 푑)(푎 + 푐)(푏 + 푑),
P(K2≥k0
) 0.05 0.0100.001
k0 3.8416.63510.82
8
解析 (1)甲城市的大气环境质量总体较好.
理由如下: ―
x 甲= 1
12×(83+74+55+62+47+65+58+61+56+50+54+46)=
711
12 =59.25,
―
x 乙= 1
12×(82+68+61+65+68+68+71+67+82+70+66+72)=840
12 =70,所以
―
x 甲< ―
x 乙,
所以甲城市的大气环境质量总体较好.
(2)把 24 个数据由小到大排序可得中位数为 m=65 + 66
2 =66.5.
列联表如下:
不超过 超过
甲城市 10 2
乙城市 2 10
(3)由于 k=24 × (10 × 10 - 2 × 2)2
12 × 12 × 12 × 12 ≈10.667>6.635,
所以有 99%的把握认为甲、乙两座城市的大气环境质量与他们
综合治理的方式有关.
2.(2018 年全国Ⅱ卷,文 18 改编)一只药用昆虫的产卵数 y(单位:个)
与一定范围内的温度 x(单位:℃)有关,现收集了该种药用昆虫的 6
组观测数据如下表所示.
温度
x/℃ 21 23 24 27 29 32
产卵
y/个 6 11 20 27 57 77
经计算得 ―
x =1
6
6
푖 = 1
xi=26, ―
y =1
6
6
i = 1
yi=33,
6
푖 = 1
(xi- ―
x )(yi- ―
y )=557,
6
푖 = 1
(xi-
―
x )2=84,
6
푖 = 1
(yi- ―
y )2=3930,线性回归模型的残差平方和
6
푖 = 1
(yi-
^
y푖)2=236.64,e8.0605≈3167,其中 xi,yi 分别为观测数据中的温度和产
卵数,i=1,2,3,4,5,6.
(1)若用线性回归模型拟合,求 y 与 x 的回归方程^
y=bx+a(结果准确
到 0.1).
(2)若用非线性回归模型拟合求得 y 与 x 的回归方程为^
y
=0.06e0.2303x,且相关指数 R2=0.9522.
①试用(1)中的回归模型相比,用 R2 说明哪种模型的拟合效果更好.
②用拟合效果好的模型预测当温度为 35℃时,该种药用昆虫的产卵
数(结果取整数).
附:一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线^
y=bx+a 的斜率
和截距的最小二乘估计分别为 b=
푛
푖 = 1
(푥푖 -
―
x )(푦푖 -
―
y )
푛
푖 = 1
(푥푖 -
―
x )2
=
푛
푖 = 1
푥푖푦푖 - n
―
x
―
y
푛
푖 = 1
푥2푖 - n
―
x
2 ,a= ―
y -
b ―
x ;R2=1-
푛
푖 = 1(푦푖 -
^
y푖)2
푛
푖 = 1
(푦푖 -
―
y )2
.
解析 (1)由题意得,b=
6
푖 = 1
(xi -
―
x )(yi -
―
y )
6
i = 1
(푥푖 -
―
x )2
=557
84 ≈6.6,
所以 a=33-557
84 ×26=-139.4,
所以 y 关于 x 的线性回归方程为^
y=6.6x-139.4.
(2)①由所给数据求得的线性回归方程为^
y=6.6x-139.4,相关指
数为
R2=1-
6
푖 = 1(푦푖 -
^
y푖)2
6
푖 = 1
(푦푖 -
―
y )2
=1-236.64
3930 ≈0.9398.
因为 0.9398<0.9522,
所以回归方程^
y=0.06e0.2303x 比线性回归方程^
y=6.6x-139.4 拟合
效果更好.
②由①得当温度 x=35℃时,^
y
=0.06e0.2303×35=0.06e8.0605≈0.06×3167≈190(个).
即当温度 x=35℃时,该种药用昆虫的产卵数估计为 190 个.
3.(2018 全国Ⅰ卷,文 19 改编)某超市计划销售某种食品,现邀甲、
乙两个商家进场试销 5 天.两个商家提供的返利方案如下:甲商家每
天固定返利 60 元,且每卖出一件食品商家再返利 2 元;乙商家无固定
返利,卖出 30 件以内(含 30 件)的食品,每件食品商家返利 4 元,超出
30 件的部分每件返利 6 元.经统计,两个商家的试销情况茎叶图如
下:
(1)现从甲商家试销的 5 天中抽取两天,求这两天的销售量都小于 30
的概率;
(2)超市拟在甲、乙两个商家中选择一家长期销售,如果仅从日平均
返利额的角度考虑,请利用所学的统计学知识为超市做出选择,并说
明理由.
解析 (1)记“抽取的两天销售量都小于 30”为事件 A,
则 5 天中抽取两天的情况有(29,28),(29,29),(29,32),
(29,32),(28,29),(28,32),(28,32),(29,32),(29,32),(32,32)
,共 10 种,
两天的销售量都小于 30 的情况有(29,28),(29,29),(28,29),
共 3 种,
所以 P(A)= 3
10.
(2)依题意,
甲商家的日平均销售量为1
5×(29+28+29+32+32)=30.
所以甲商家的日平均返利额为 60+30×2=120 元.
乙商家的日平均返利额为
1
5×(28×4+28×4+30×4+2×6+30×4+1×6+30×4+1×6)=121.6
元.
因为 121.6>120,
所以推荐该超市选择乙商家长期销售.
1.(2018 安徽淮南二模)2018 年春,为响应中国大豆参与世界贸易的
竞争,某市农科院积极研究,加大优良品种的培育工作.其中一项基础
工作就是研究昼夜温差大小与大豆发芽率之间的关系.为此科研人员
分别记录了 5 天中每天 100 粒大豆的发芽数,得如下数据表格:
日期 4 月
4 日
4 月
5 日
4 月
6 日
4 月
7 日
4 月
8 日
温差
x(℃) 10 11 13 12 8
发芽
数
y(粒)
23 26 32 26 16
科研人员确定研究方案如下:从 5 组数据中选 3 组数据求线性回归方
程,再用求得的回归方程对剩下的 2 组数据进行检验.
(1)求剩下的 2 组数据恰是不相邻的 2 天数据的概率;
(2)若选取的是 4 月 5 日、6 日、7 日三天的数据,据此求 y 关于 x 的
线性回归方程^
y=bx+a;
(3)若由线性回归方程得到的估计数据与实际数据的误差绝对值均不
超过 1 粒,则认为得到的线性回归方程是可靠的,请检验(2)中回归方
程是否可靠.
附:b=
푛
푖 = 1(xi -
―
x )(yi -
―
y )
n
i = 1
(푥푖 -
―
x )2
=
푛
푖 = 1
푥푖푦푖 - n
―
x
―
y
푛
푖 = 1
푥2푖 - n
―
x
2 ,a= ―
y -b ―
x .
解析 (1)剩下的 2 组数据的情况有(4 日,5 日),(4 日,6 日),(4
日,7 日),(4 日,8 日),(5 日,6 日),(5 日,7 日),(5 日,8 日),(6
日,7 日),(6 日,8 日),(7 日,8 日),共 10 种,
恰好是不相邻的 2 天数据的情况有(4 日,6 日),(4 日,7 日),(4
日,8 日),(5 日,7 日),(5 日,8 日),(6 日,8 日),共 6 种,
所以恰好是不相邻的 2 天数据的概率是 6
10=3
5.
(2)由数据得
3
푖 = 1
xiyi=11×26+13×32+12×26=1014,
―
x =1
3×(11+13+12)=12,
―
y =1
3×(26+32+26)=28,
3 ―
x
―
y =3×12×28=1008,
∴
n
i = 1
xiyi-n ―
x
―
y =
3
푖 = 1
xiyi-3 ―
x
―
y =1014-1008=6,
3
푖 = 1
푥2푖 =112+132+122=434,
3 ―
x
2
=3×122=432,
∴
푛
푖 = 1
푥2푖 -n ―
x
2
=
3
푖 = 1
푥2푖 -3 ―
x
2
=434-432=2,
∴b=
3
푖 = 1
푥푖푦푖 - 3
―
x
―
y
3
푖 = 1
푥2푖 - 3
―
x
2 =6
2=3,
∴a= ―
y -b ―
x =28-3×12=-8,
故 y 关于 x 的线性回归方程为^
y=3x-8.
(3)当 x=10 时,^
y=3×10-8=22,|22-23|≤1;
当 x=8 时,^
y=3×8-8=16,|16-16|≤1.
故得到的线性回归方程是可靠的.
2.(2018 云南保山统考)某校进行文科、理科数学成绩对比,某次考
试后,各随机抽取 100 名同学的数学考试成绩进行统计,其频率分布
表如下.
分组 频数 频率
[135,15
0] 8 0.08
[120,13
5) 17 0.17
[105,12
0) 40 0.4
[90,105
) 21 0.21
[75,90) 12 0.12
[60,75) 2 0.02
总计 100 1
理科
分组 频数 频率
[135,15
0] 4 0.04
[120,13
5) 18 0.18
[105,12
0) 37 0.37
[90,105
) 31 0.31
[75,90) 7 0.07
[60,75) 3 0.03
总计 100 1
文科
(1)根据数学成绩的频率分布表,求理科数学成绩的中位数的估计值;
(2)请填写下面的列联表,并根据列联表判断是否有 90%的把握认为
数学成绩与文理科有关.
数学成绩
≥120 分
数学成绩
<120 分 合计
理
科
文
科
合
计 200
附:K2= 푛(푎푑 - 푏푐)2
(푎 + 푏)(푐 + 푑)(푎 + 푐)(푏 + 푑),其中 n=a+b∈c+d.
P(K2≥
k0) 0.10 0.05 0.02
5
0.01
0
0.00
1
k0
2.70
6
3.84
1
5.02
4
6.63
5
10.8
28
解析 (1)理科数学成绩的频率分布表中,成绩小于 105 分的频率
为 0.35,
成绩小于 120 分的频率为 0.75,
故理科数学成绩的中位数的估计值为 105+15 × (0.5 - 0.35)
0.40
=110.625(分).
(2)根据数学成绩的频率分布表得如下列联表:
数学成绩
≥120 分
数学成绩
<120 分 合计
理
科 25 75 100
文
科 22 78 100
合
计 47 153 200
k=200(25 × 78 - 22 × 75)2
100 × 100 × 47 × 153 ≈0.250<2.706,
故没有 90%的把握认为数学成绩与文理科有关.
3.(2018 辽宁凌源二中模考)某大型高端制造公司为响应《中国制造
2025》中提出的坚持“创新驱动、质量为先、绿色发展、结构优
化、人才为本”的基本方针,准备加大产品研发投资,下表是该公司
2017 年 5~12 月份研发费用(百万元)和产品销量(万台)的具体数据:
月份 5 6 7 8 9 10 11 12
研发费用
x(百万
元)
2 3 6 10 21 13 15 18
产品销量
y(万台) 1 1 2 2.
5 6 3.
5
3.
5
4.
5
(1)根据数据可知 y 与 x 之间存在线性相关关系.
①求出 y 关于 x 的线性回归方程(系数精确到 0.001);
②若 2018 年 6 月份研发投入为 25(百万元),根据所求的线性回归方
程估计当月产品的销量.
(2)公司在 2017 年年终总结时准备从该年 8~12 月份这 5 个月中抽取
3 个月的数据进行重点分析,求没有抽到 9 月份数据的概率.
参考数据:
8
푖 = 1
xiyi=347,
8
i = 1
푥2푖 =1308.
参考公式:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线^
y
=bx+a 的斜率和截距的最小二乘估计分别为 b=
푛
푖 = 1
푥푖푦푖 - n
―
x
―
y
푛
푖 = 1
푥2푖 - n
―
x
2 ,a= ―
y -b ―
x .
解析 (1)①因为 ―
x =11, ―
y =3,
所以 b=
8
푖 = 1
xiyi - n
―
x
―
y
8
i = 1
푥2푖 - n
―
x
2 =347 - 8 × 11 × 3
1308 - 8 × 121 = 83
340≈0.244,a=3- 83
340
×11≈0.315,
所以 y 关于 x 的线性回归方程为^
y=0.244x+0.315.
②当 x=25 时,^
y=0.244×25+0.315=6.415(万台).
(2)记 8~12 月份这 5 个月的数据分别为 a,A,b,c,d,从中抽取 3
个月有
a,A,b;a,A,c;a,A,d;a,b,c;a,b,d;a,c,d;A,b,c;A,b,d;A,c,d;b,c,d
,共 10 个基本事件.
没有抽到 9 月份的有 a,b,c;a,b,d;a,c,d;b,c,d,共 4 个基本事
件,所以概率 P= 4
10=2
5.
4.(2018 广东省江门市一模)为探索课堂教学改革,江门某中学数学
老师用传统教学和“导学案”两种教学方式,在甲、乙两个平行班进
行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽
取 20 名学生的成绩进行统计,得到如下茎叶图.记成绩不低于 70 分
为“成绩优良”.
(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;
(2)构造一个教学方式与成绩优良的列联表,并判断能否在犯错误的
概率不超过 0.05 的前提下认为“成绩优良与教学方式有关”.
附公式及表:K2= 푛(푎푑 - 푏푐)2
(푎 + 푏)(푐 + 푑)(푎 + 푐)(푏 + 푑)(其中 n=a+b+c+d 为样本容量)
P(K2≥
k0)
0.1
0
0.0
5
0.0
25
0.0
10
0.0
05
k0
2.7
06
3.8
41
5.0
24
6.6
35
7.8
79
解析 (1)乙班(“导学案”教学方式)教学效果更佳.
理由 1:乙班样本数学成绩大多在 70 分以上,甲班样本数学成绩
70 分以下的明显更多.
理由 2:甲班样本数学成绩的平均分为 70.2;乙班样本数学成绩
的平均分为 79.05,高 10%以上.
理由 3:甲班样本数学成绩的中位数为68 + 72
2 =70;乙班样本数学
成绩的中位数为77 + 78
2 =77.5,高 10%以上.
(2)列联表如下:
甲
班
乙
班
总
计
成绩
优良 10 16 26
成绩
不优
良
10 4 14
总计 20 20 40
由上表可得 K2 的观测值 k=40 × (10 × 4 - 10 × 16)2
20 × 20 × 26 × 14
≈3.956>3.841.
所以能在犯错误的概率不超过 0.05 的前提下认为“成绩优良与
教学方式有关”.