- 251.00 KB
- 2021-06-24 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
概率统计综合问题中数据处理及模型构建
[学生用书P196]
概率统计综合问题是高考应用型问题,解决问题需要经历收集数据、整理数据、分析数据、处理数据、得出有用的结论几个复杂过程.如果这几个过程书写步骤缺失则会造成丢分;如果数据处理不当则会陷入庞大的数据运算中,因此解决这类问题首先需要根据题目条件提取有用数据,然后根据统计思想对数据进行相关处理、运算,并按照一定的书写步骤准确无误书写出来,做到步骤不缺失、表述准确无误,下面就如何从概率统计综合问题中迅速提取数据,并作出正确处理及模型构建提供五类典例展示.
频率分布直方图数据的提取、处理及运算
某市居民用水拟实行阶梯水价.每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.
【解】 (1)由用水量的频率分布直方图知,该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.
所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.
(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:
组号
1
2
3
4
5
6
7
8
分组
[2,4]
(4,6]
(6,8]
(8,10]
(10,12]
(12,17]
(17,22]
(22,27]
频率
0.1
0.15
0.2
0.25
0.15
0.05
0.05
0.05
根据题意,该市居民该月的人均水费估计为:
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).
频率分布直方图是考查数据收集和整理的常用依托,掌握频率分布直方图中常见数据的提取方法是解决这类问题的关键,常见的提取方法有:
(1)频率:频率分布直方图中横轴表示组别,纵轴表示,频率=组距×;
(2)频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值;
(3)众数:最高小长方形底边中点的横坐标;
(4)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标;
(5)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和;
(6)性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1列方程即可求得参数值.
茎叶图数据的提取、处理及运算
如图所示,茎叶图记录了甲、乙两组各4名同学的植树棵数.乙组记录中有一个数据模糊,无法确认,在图中以X表示.
(1)如果X=8,求乙组同学植树棵数的平均数和方差;
(2)如果X=9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵数为19的概率.(注:方差s2=[(x1-)2+(x2-)2+…+(xn-)2],其中为x1,x2,…,xn的平均数)
【解】 (1)如果X=8,乙组的平均数为
乙==,
s2==
×=.
(2)设甲组4名同学分别为x1,x2,x3,x4,植树棵数分别为9,9,11,11,乙组4名同学分别为y1,y2,y3,y4,植树棵数分别为9,8,9,10.分别从甲、乙两组中随机选取一名同学,所有可能的结果有:
(x1,y1),(x1,y2),(x1,y3),(x1,y4),(x2,y1),
(x2,y2),(x2,y3),(x2,y4),(x3,y1),(x3,y2),
(x3,y3),(x3,y4),(x4,y1),(x4,y2),(x4,y3),
(x4,y4),共16种.设“选出的两名同学的植树总棵数为19”为事件A,则事件A包含的结果有:
(x1,y4),(x2,y4),(x3,y2),(x4,y2),共4种,故所求的概率P(A)==.即从甲、乙两组中各随机选取一名同学,这两名同学的植树总棵数为19的概率为.
茎叶图提供了具体的数据,找准各组数据共同的茎及各自的叶是处理此类问题的关键.如果所有数据过大,在计算平均数时,可以将所有数据同时减去一个数字再计算,减去一个数后方差不变,另外除了要掌握各类数据的计算方法以外,还要能从提供的数据的趋势分析预测结果.茎叶图数据很具体,常联系古典概型进行考查.
柱状图的数据提取、处理及运算
某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图.
记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?
【解】 (1)当x≤19时,y=19×200=3 800(元);
当x>19时,y=19×200+(x-19)×500=500x-5 700(元),
所以y=.
(2)由柱状图可知,更换易损零件数的频率如下表所示:
更换的易损零件数
16
17
18
19
20
21
频率
0.06
0.16
0.24
0.24
0.20
0.10
所以更换易损零件数不大于18的频率为:
0.06+0.16+0.24=0.46<0.5,
更换易损零件数不大于19的频率为:
0.06+0.16+0.24+0.24=0.70>0.5,故n的最小值为19.
(3)若每台都购买19个易损零件,则这100台机器在购买易损零件上所需费用的平均数为:
=4 000(元);
若每台都购买20个易损零件,则这100台机器在购买易损零件上所需费用的平均数为:
=4 050(元).
因为4 000<4 050,所以购买1台机器的同时应购买19个易损零件.
解决此类问题要注意与频率分布直方图的区别,其组距是一个常数,高表示频数,其本质是分段函数.
表格数据的提取、处理及运算
某城市随机抽取一年内100天的空气质量指数(AQI)的监测数据,结果统计如下:
AQI
[0,50]
(50,100]
(100,150]
(150,200]
(200,300]
>300
空气
质量
优
良
轻度污染
中度污染
重度污染
严重
污染
天数
6
14
18
27
20
15
(1)已知某企业每天的经济损失y(单位:元)与空气质量指数x的关系式为若在本年内随机抽取一天,试估计这一天的经济损失超过400元的概率;
(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为严重污染.根据提供的统计数据,完成下面的2×2列联表,并判断是否有95%的把握认为“该城市本年的空气严重污染与供暖有关”?
非严重污染
严重污染
总计
供暖季
非供暖季
总计
100
附:K2=
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
【解】 (1)记“在本年内随机抽取一天,该天的经济损失超过400元”为事件A.由y>400,得x>200.
由统计数据可知,空气质量指数大于200的频数为35,
所以P(A)==.
(2)根据题设中的数据得到如下2×2列联表:
非严重污染
严重污染
总计
供暖季
22
8
30
非供暖季
63
7
70
总计
85
15
100
将2×2列联表中的数据代入公式计算,得
K2=≈4.575.
因为4.575>3.841.
所以有95%的把握认为“该城市本年的空气严重污染与供暖有关”.
处理表格数的关键是搞清表格中各行、各列数的意义,特别表格中最后一行或最后一行中的数据多为合计(或总计).
折线图中数据的提取、处理及运算
下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明,
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17, =
0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:
=,=-.
【解】 (1)由折线图中数据和附注中参考数据得
=4, (ti-)2=28, =0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=
2.89,r≈≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得
=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
(1)折线图中拐点处的坐标是我们提取数据的关键点,注意横坐标、纵坐标的意义即可.
(2)“最小二乘法”求回归方程,计算是这类问题的难点,需要根据题目中提供的数据进行分析,从而求解回归方程=x+,其中求是问题的关键,计算出后,可以将样本点的中心(,)代入方程求解出.