- 301.50 KB
- 2021-06-09 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
高考必考题突破讲座(六) 概率与统计
题型特点
考情分析
命题趋势
1.有关统计、统计案例的计算问题.
2.概率与统计、统计案例的综合应用问题.
2017·全国卷Ⅰ,19
2017·全国卷Ⅱ,19
2017·全国卷Ⅲ,18
1.以统计图表或文字叙述的实际问题为载体,考查频率分布表、频率分布直方图、茎叶图、用样本的数字特征估计总体的数字特征,回归方程的求法与应用,独立性检验及运用数学知识解决实际问题的能力.
2.以统计、统计案例中的计算与概率计算为主要内容,考查对数据的处理能力与运算能力及应用意识.
分值:12分
1.以实际背景为载体考查古典概型
从近几年的高考命题来看,高考对概率的考查,一般以实际生活题材为背景,以应用题的形式出现.概率应用题侧重于古典概型,主要考查随机事件、等可能事件、互斥事件、对立事件的概率.解决简单的古典概型试题可用直接法(定义法),对于较为复杂的事件的概率,可以利用所求事件的性质将其转化为互斥事件或其对立事件的概率求解.解决古典概型问题的关键在于确定基本事件.
2.线性回归分析
线性回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义,根据回归方程进行预报,仅是一个预报值,而不是真实发生的值,由于考题提供的数据较复杂,因此要注意以下两点:
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).
3.独立性检验
(1)2×2列联表是反映两个分类变量的频数表,通过特殊的计算,能说明两个变量之间关系的强弱.如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
①根据样本数据制成2×2列联表;
②根据公式K2=计算K2的观测值k0;
③比较k0与临界值的大小关系,作统计推断.
【例1】 (2017·全国卷Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表.
最高气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率估计最高气温位于该区间的概率.
(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元).当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率.
解析 (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表格数据知,最高气温低于25的频率为=0.6,所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.
(2)当这种酸奶一天的进货量为450瓶时,
若最高气温不低于25,则Y=6×450-4×450=900;
若最高气温位于区间[20,25),则Y=6×300+2(450-300)-4×450=300;
若最高气温低于20,
则Y=6×200+2(450-200)-4×450=-100.
所以Y的所有可能值为900,300,-100.
当Y大于零时,最高气温不低于20,由表格数据知,最高气温不低于20的频率为=0.8,因此Y大于零的概率的估计值为0.8.
【例2】 (2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸.
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得=i=9.97,s==≈0.212,≈18.439,(xi-)·(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到0.01).
附:≈0.09,样本(xi,yi)(i=1,2,3,4,…,n)的相关系数r=.
解析 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r==≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)①由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均值为×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02,
=16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为
(1 591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
【例3】 (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下.
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=.
解析 (1)旧养殖法的箱产量低于50 kg的概率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得到列联表如下.
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705>6.635.
故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
1.某事业单位随机从甲部门抽取3人(2男1女),从乙部门抽取4人(2男2女),然后从这7人中随机抽取2人代表单位去参加市里的相关会议.
(1)求这2人全部来自甲部门的概率;
(2)求这2人中至少有1人是男生的概率.
解析 将甲部门的2名男生分别记为A,B,1名女生记为a,乙部门的2名男生分别记为C,D,2名女生分别记为b,c,从这7人中任选2人的所有基本事件为(A,B),(A,a),(A,C),(A,D),(A,b),(A,c),(B,a),(B,C),(B,D),(B,b),(B,c),(a,C),(a,D),(a,b),(a,c),(C,D),(C,b),(C,c),(D,b),(D,c),(b,c),共21
个,且这些基本事件出现的可能性相等.
(1)记“这2人全部来自甲部门”为事件M,则事件M包含的基本事件有(A,B),(A,a),(B,a),共3个,故P(M)==.
(2)记“这2人中至少有1人是男生”为事件N,则事件N包含的基本事件有(A,B),(A,a),(A,C),(A,D),(A,b),(A,c),(B,a),(B,C),(B,D),(B,b),(B,c),(a,C),(a,D),(C,D),(C,b),(C,c),(D,b),(D,c),共18个,故P(N)==.
2.为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据.
天数t/天
3
4
5
6
7
繁殖个数y/千个
2.5
3
4
4.5
6
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,预测t=8时,细菌繁殖个数.
附:回归直线的斜率和截距的最小二乘法估计公式分别为
=,=- .
解析 (1)由表中数据计算得,
=5,=4,(ti-)(yi-)=8.5,
(ti-)2=10,==0.85,
=- =4-0.85×5=-0.25.
所以回归方程为=0.85t-0.25.
(2)将t=8代入(1)的回归方程中得
=0.85×8-0.25=6.55.
故预测t=8时,细菌繁殖个数为6.55千个.
3.近几年出现各种食品问题,食品添加剂会引起血脂增高、血压增高、血糖增高等疾病.为了解三高疾病是否与性别有关,医院随机对入院的60人进行了问卷调查,得到了如下的列联表.
患三高疾病
不患三高疾病
总计
男
6
30
女
总计
36
(1)请将列联表补充完整,若用分层抽样的方法在患三高疾病的人群中抽9人,其中女生抽多少人?
(2)为了研究三高疾病是否与性别有关,请计算出统计量K2的观测值k0,并说明是否可以在犯错误的概率不超过0.005的前提下认为三高疾病与性别有关.
下面的临界值表供参考:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析 (1)完善补充列联表如下.
患三高疾病
不患三高疾病
总计
男
24
6
30
女
12
18
30
总计
36
24
60
在患三高疾病人群中抽9人,则抽取比例为=,
所以女性应该抽取12×=3(人).
(2)根据2×2列联表,则K2的观测值
k0==10>7.879.
所以可以在犯错误的概率不超过0.005的前提下认为患三高疾病与性别有关.
课时达标 讲座(六)
[解密考纲]概率与统计是高考中相对独立的一块内容,处理问题的方式、方法体现了较高的思维含量.该类问题以应用题为载体,注重考查学生的应用意识及阅读理解能力、数据分析能力.概率问题的核心是概率计算,其中事件的互斥、对立是概率计算的核心.统计问题的核心是样本数据的获得及分析方法,重点是频率分布直方图、茎叶图和样本的数字特征.统计与概率内容相互渗透,背景新颖.
1.某保险公司有一款保险产品的历史收益率(收益率=利润÷保费收入)的频率分布直方图如图所示.
(1)试估计这款保险产品的收益率的平均值;
(2)设每份保单的保费在20元的基础上每增加x元,对应的销量为y(单位:万份).从历史销售记录中抽样得到如下5组x与y的对应数据.
x/元
25
30
38
45
52
y/万份
7.5
7.1
6.0
5.6
4.8
由上表知x与y有较强的线性相关关系,且据此计算出的回归方程为=10-x.
①求参数的值;
②若把回归方程=10-x当作y与x的线性关系,用(1)中求出的收益率的平均值作为此产品的收益率,试问每份保单的保费定为多少元时此产品可获得最大利润,并求出最大利润(注:保险产品的保费收入=每份保单的保费×销量).
解析 (1)收益率的平均值为0.05×0.1+0.15×0.2+0.25×0.25+0.35×0.3+0.45×0.1+0.55×0.05=0.275.
(2)①===38,
===6.2.
由=10-,得10-38=6.2,解得=0.1.
②设每份保单的保费为(20+x)元,则销量为y=10-0.1x.则这款保险产品的保费收入为f(x)=(20+x)(10-0.1x)万元.所以f(x)=200+8x-0.1x2=360-0.1(x-40)2.所以当x=40,即每份保单的保费为60元时,保费收入最大为360万元.预计这款保险产品的最大利润为360×0.275=99(万元).
2.(2018·广东佛山质检)某网络广告A公司计划从甲、乙两个网站选择一个网站拓展广告业务,为此A公司随机抽取了甲、乙两个网站某月中10天的日访问量n(单位:万次),整理后得到如下茎叶图,已知A公司要从网站日访问量的平均值和稳定性两方面进行考察选择.
(1)请说明A公司应选择哪个网站;
(2)现将抽取的样本分布近似看作总体分布,A公司根据所选网站的日访问量n进行付费,其付费标准如下表.
选定网站的日访问
量n(单位:万次)
A公司的付费标
准(单位:元/日)
n<25
500
25≤n≤35
700
n>35
1 000
求A公司每月(按30天计)应付给选定网站的费用S.
解析 (1)由茎叶图可知
甲=(15+24+28+25+30+36+30+32+35+45)÷10=30,
s=×[(15-30)2+(24-30)2+(28-30)2+(25-30)2+(30-30)2+(36-30)2+(30-30)2+(32-30)2+(35-30)2+(45-30)2]=58,
乙=(18+25+22+24+32+38+30+36+35+40)÷10=30,
s=×[(18-30)2+(25-30)2+(22-30)2+(24-30)2+(32-30)2+(38-30)2+(30-30)2+(36-30)2+(35-30)2+(40-30)2]=49.8,
因为甲=乙,s>s,∴A公司应选择乙网站.
(2)由(1)得A公司应选择乙网站,由题意可得乙网站日访问量n<25的概率为0.3,日访问量25≤n≤35的概率为0.4,日访问量n>35的概率为0.3,
∴A公司每月应付给乙网站的费用S=30×(500×0.3+700×0.4+1 000×0.3)=21 900(元).
3.柴静《穹顶之下》的播出,让大家对雾霾天气的危害有了更进一步的认识,对于雾霾天气的研究也渐渐活跃起来,某研究机构对春节燃放烟花爆竹的天数x与雾霾天数y进行统计分析,得出下表数据.
x
4
5
7
8
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据(2)求出的线性回归方程,预测燃放烟花爆竹的天数为9的雾霾天数.
解析 (1)散点图如图所示.
(2)iyi=4×2+5×3+7×5+8×6=106,
==6,==4,
=42+52+72+82=154,
则===1,
=-=4-6=-2,
故线性回归方程为=x-2.
(3)由线性回归方程可以预测,燃放烟花爆竹的天数为9的雾霾天数为7.
4.(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.
(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替,当w=3时,估计该市居民该月的人均水费.
解析 (1)由用水量的频率分布直方图知,该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.
(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表.
组号
1
2
3
4
5
6
7
8
分组
[2,4]
(4,6]
(6,8]
(8,10]
(10,12]
(12,17]
(17,22]
(22,27]
频率
0.1
0.15
0.2
0.25
0.15
0.05
0.05
0.05
根据题意,该市居民该月的人均水费估计为4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).
5.(2018·河南郑州模拟)某小学为迎接校运动会的到来,在三年级招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者中分别各有10人和6人喜欢运动,其余人员不喜欢运动.
(1)根据以上数据完成2×2列联表;
喜欢运动
不喜欢运动
总计
男
女
总计
(2)是否有95%的把握认为性别与喜欢运动有关,并说明理由;
(3)如果喜欢运动的女志愿者中恰有4人懂得医疗救护,现从喜欢运动的女志愿者中抽取2名负责处理应急事件,求抽出的2名志愿者都懂得医疗救护的概率.
附:K2=
P(K2≥k0)
0.050
0.025
0.010
0.001
k0
3.841
5.024
6.635
10.828
解析 (1)依题意,2×2列联表如下.
喜欢运动
不喜欢运动
总计
男
10
6
16
女
6
8
14
总计
16
14
30
(2)由已知数据可得,
K2=≈1.157 5<3.841,
因此没有95%的把握认为是否喜欢运动与性别有关.
(3)喜欢运动的女志愿者有6人,设分别为A,B,C,D,E,F,其中A,B,C,D懂得医疗救护,则从这6人中任取2人的情况有(A,B),(A,C),(A,D),(A,E),(A,F),(B,C),(B,D),(B,E),(B,F),(C,D),(C,E),(C,F),(D,E),(D,F),(E,F),共15种,
其中两人都懂得医疗救护的情况有(A,B),(A,C),(A,D),(B,C),(B,D),(C,D),共6种,
设“抽出的2名志愿者都懂得医疗救护”为事件M,
则P(M)==.
6.(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为
=,=-.
解析 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103,
=-=1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得
=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
7.某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:K2=
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
解析 (1)300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下.
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得
K2==≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
8.2017年“双节”期间,高速公路车辆较多,某调查公司在一个服务区从七座以下小型汽车中,按进服务区的先后每间隔50辆就抽取一辆的抽样方法抽取40名驾驶员进行询问调查,将他们在某段高速公路的车速(单位:km/h)分成六段[60,65),[65,70),[70,75),[75,80),[80,85),[85,90]后得到如图的频率分布直方图.
(1)该调查公司在采样中,用到的是什么抽样方法?
(2)求这40辆小型车辆车速的众数、中位数和平均数;
(3)若从车速在[60,70)的车辆中任意抽取2辆,求车速在[65,70)的车辆至少有一辆的概率.
解析 (1)由题意知这个抽样是按进服务区的先后每间隔50辆就抽取一辆的抽样方法抽取40名驾驶员进行询问调查,是一个具有相同间隔的抽样,并且总体的个数比较多,这是一个系统抽样.故调查公司在采样中,用到的是系统抽样.
(2)众数的估计值为最高的矩形的中点,即众数等于77.5.
设图中虚线所对应的车速为x,则中位数的估计值为
0.01×5+0.02×5+0.04×5+0.06×(x-75)=0.5,解得x=77.5,即中位数为77.5.
平均数等于0.01×5×62.5+0.02×5×67.5+0.04×5×72.5+0.06×5×77.5+0.05×5×82.5+0.02×5×87.5=77.
(3)从图中可知,车速在[60,65)的车辆数为m1=0.01×5×40=2,
车速在[65,70)的车辆数为m2=0.02×5×40=4,
设车速在[60,65)的车辆记为a,b,车速在[65,70)的车辆记为c,d,e,f,则所有基本事件有(a,b),(a,c),(a,d),(a,e),(a,f),(b,c),(b,d),(b,e),(b,f),(c,d),(c,e),(c,f),(d,e),(d,f),(e,f),共 15 种.
其中车速在[65,70)的车辆至少有一辆的事件有(a,c),(a,d),(a,e),(a,f),(b,c),(b,d),(b,e),(b,f),(c,d),(c,e),(c,f),(d,e),(d,f),(e,f),共14种.
所以车速在[65,70)的车辆至少有一辆的概率为P=.