- 463.00 KB
- 2021-06-09 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第5讲 概率与统计
[考情分析] 概率与统计通过统计图、古典概型、几何概型、线性相关与线性回归方程等知识考查数据处理能力.题目设置比较注重数学与生活的结合,属于中档题,难度适中.
热点题型分析
热点1 统计图
1.一表二图
(1)频率分布表——数据详实;
(2)频率分布直方图——分布直观;
(3)频率分布折线图——便于观察总体分布趋势.
2.茎叶图
(1)茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数、众数等;
(2)个位数为叶,十位数(或百位与十位)为茎,相同的数据重复写.
3.条形图
条形图是用条形的长度表示各类别频数(或频率)的多少,其宽度(表示类别)则是固定的.
某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数.
解 (1)由(0.002+0.0095+0.011+0.0125+x+0.005+0.0025)×20=1得x=0.0075,
∴直方图中x的值为0.0075.
- 15 -
(2)月平均用电量的众数是=230.
∵(0.002+0.0095+0.011)×20=0.45<0.5,
∴月平均用电量的中位数在[220,240)内,设中位数为a,则
(0.002+0.0095+0.011)×20+0.0125×(a-220)=0.5,
解得a=224,即中位数为224.
1.频率分布直方图中需要注意的几点
(1)直方图与条形图不同,直方图中的纵坐标是,每个小矩形的面积为频率;条形图的纵坐标为频数或频率;
(2)各组频率之和为1,即所有小矩形的面积和为1;
(3)直方图中各小矩形的高度比=各组频率比=各组频数比.
2.与频率分布直方图相关问题的解题模板
第一步:根据频率分布直方图计算出相应的频率;
第二步:运用样本频率估计总体的频率;
第三步:得出结论.
3.解决与茎叶图相关问题时,一要弄清茎叶图中茎与叶的含义,不要混淆;二要注意看清所有的样本数据,弄清图中的数字特点,不要漏掉数据.
随着新课程改革和高考综合改革的实施,高中教学以发展学生学科核心素养为导向,学习评价更关注学科核心素养的形成和发展.为此,某市于2018年举行第一届高中数学学科素养竞赛,竞赛结束后,为了评估该市高中学生的数学学科素养,从所有参赛学生中随机抽取1000名学生的成绩(单位:分)作为样本进行估计,将抽取的成绩整理后分成五组,依次记为[50,60),[60,70),[70,80),[80,90),[90,100],并绘制成如图所示的频率分布直方图.
- 15 -
(1)请补全频率分布直方图,并估计这1000名学生成绩的平均数(同一组数据用该组区间的中点值作代表);
(2)该市决定对本次竞赛成绩排在前180名的学生给予表彰,授予“数学学科素养优秀标兵”称号,一名学生本次竞赛成绩为79分,请你判断该学生能否被授予“数学学科素养优秀标兵”称号.
解 (1)成绩在[60,70)的频率为1-(0.30+0.15+0.10+0.05)=0.40,补全的频率分布直方图如图:
样本的平均数=55×0.30+65×0.40+75×0.15+85×0.10+95×0.05=67.
(2)因为=0.18,
所以由频率分布直方图可以估计获得“数学学科素养优秀标兵”称号学生的最低成绩为80-=78(分).
因为79>78,所以该同学能被授予“数学学科素养优秀标”称号.
热点2 概率统计
1.古典概型
P(A)=.
2.几何概型
P(A)=.
3.当事件A与B互斥时,满足加法公式:P(A∪B)=P(A)+P(B).
4.若事件A与B为对立事件,则P(A)=1-P(B),即P()=1-P(A).
(2019·四川省成都模拟)某学校为担任班主任的教师办理手机语音月卡套餐,为了解通话时长,采用随机抽样的方法,得到该校100位班主任每人的月平均通话时长T(单位:分钟)的数据,其频率分布直方图如图所示,将频率视为概率.
- 15 -
(1)求图中m的值;
(2)估计该校担任班主任的教师月平均通话时长的中位数;
(3)在[450,500),[500,550]这两组中采用分层抽样的方法抽取6人,再从这6人中随机抽取2人,求抽取的2人恰在同一组的概率.
解 (1)依题意,根据频率分布直方图的性质,可得:
50×(m+0.0040+0.0050+0.0066+0.0016+0.0008)=1,解得m=0.0020.
(2)设该校担任班主任的教师月平均通话时长的中位数为t.
因为前2组的频率之和为(0.0020+0.0040)×50=0.3<0.5,
前3组的频率之和为(0.0020+0.0040+0.0050)×50=0.55>0.5,
所以3500.5,
故质量指标值M的中位数估计值为90+≈94.67.
热点3 线性回归分析与独立性检验
1.线性回归方程
方程= x+称为线性回归方程,利用最小二乘法估计公式中的斜率和截距分别为=,=- ,其中(,)是样本点的中心,且回归直线恒过该点.
2.独立性检验
根据2×2列联表,计算随机变量K2=
(K2也可以表示为χ2),当K2>3.841时,则有95%的把握说两个事件有关;当K2>6.635时,则有99%的把握说两个事件有关.具体参考数据如下表:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
1.某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
表1
年份x
2013
2014
2015
2016
2017
储蓄存款y(千亿元)
5
6
7
8
10
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2012,z=y
- 15 -
-5得到下表2:
表2
时间代号t
1
2
3
4
5
z
0
1
2
3
5
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
(附:对于线性回归方程= x+,
其中 =,=- )
解 (1)=3,=2.2,tizi=45,t=55,
==1.2,
=- =2.2-3×1.2=-1.4,
所以=1.2t-1.4.
(2)将t=x-2012,z=y-5,代入=1.2t-1.4,
得y-5=1.2(x-2012)-1.4,即=1.2x-2410.8.
(3)因为=1.2×2022-2410.8=15.6,
所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=.
- 15 -
解 (1)由调查数据,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2的观测值k=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
1.线性回归模型是回归模型中的核心问题,判断两个变量是否线性相关及相关程度通常有两种方法:一是根据散点图直观判断;二是将相关数据代入相关系数公式求出r,然后根据r的大小进行判断.
2.求线性回归直线的关键:一是根据公式准确计算出,的值;二是抓住样本点的中心(,)必在回归直线上.
3.求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到K2之后的结论,即K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
- 15 -
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
①从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
②从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
专题作业
1.(2019·合肥质检)一企业从某条生产线上随机抽取100件产品,测量这些产品的某项技术指标值x,得到如下的频率分布表:
x
[11,13)
[13,15)
[15,17)
[17,19)
[19,21)
[21,23]
频数
2
12
34
38
10
4
- 15 -
(1)作出样本的频率分布直方图,并估计该技术指标值x的平均数和众数;
(2)若x<13或x≥21,则该产品不合格.现从不合格的产品中随机抽取2件,求抽取的2件产品中技术指标值小于13的产品恰有1件的概率.
解 (1)频率分布直方图为
估计平均数为=12×0.02+14×0.12+16×0.34+18×0.38+20×0.10+22×0.04=17.08.
由频率分布直方图,得当x∈[17,19)时,矩形面积最大,因此估计众数为18.
(2)记技术指标值x<13的2件不合格产品为a1,a2,技术指标值x≥21的4件不合格产品为b1,b2,b3,b4,
则从这6件不合格产品中随机抽取2件包含如下基本事件(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a1,b4),(a2,b1),(a2,b2),(a2,b3),(a2,b4),(b1,b2),(b1,b3),(b1,b4),(b2,b3),(b2,b4),(b3,b4),共15个基本事件.
记抽取的2件产品中技术指标值小于13的产品恰有1件为事件M,则事件M包含如下基本事件(a1,b1),(a1,b2),(a1,b3),(a1,b4),(a2,b1),(a2,b2),(a2,b3),(a2,b4),共8个基本事件.
故抽取的2件产品中技术指标值小于13的产品恰有1件的概率为P=.
2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
- 15 -
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 (1)第二种生产方式的效率更高.理由如下:
①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)
(2)由茎叶图知m==80.列联表如下:
超过m
不超过m
- 15 -
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2的观测值k==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
3.(2019·河南名校联考)某校高一年级学生全部参加了体育科目的达标测试,现从中随机抽取40名学生的测试成绩,整理数据并按分数段[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]进行分组,假设同一组中的每个数据可用该组区间的中点值代替,则得到体育成绩的折线图(如下).
(1)体育成绩大于或等于70分的学生常被称为“体育良好”.已知该校高一年级有1000名学生,试估计该校高一年级中“体育良好”的学生人数;
(2)为分析学生平时的体育活动情况,现从体育成绩在[60,70)和[80,90)的样本学生中随机抽取2人,求在抽取的2名学生中,至少有1人体育成绩在[60,70)的概率.
解 (1)由折线图,知样本中体育成绩大于或等于70分的学生有14+3+13=30(人).
所以该校高一年级中,“体育良好”的学生人数大约有1000×=750(人).
(2)设“至少有1人体育成绩在[60,70)”为事件M,
记体育成绩在[60,70)的2人为A1,A2,体育成绩在[80,90)的3人为B1,B2,B3,则从这5人中随机抽取2人,所有可能的结果有10种,即(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3).
而事件M的结果有7种,即(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3).
因此事件M的概率P(M)=.
- 15 -
4.(2019·郑州模拟)社区服务是高中生社会实践活动的一个重要内容,某市某中学随机抽取了100名男生、100名女生了解他们一年参加社区服务的时间(单位:小时),按[0,10),[10,20),[20,30),[30,40),[40,50]进行统计,得到男生参加社区服务时间的频率分布表和女生参加社区服务时间的频率分布直方图如图.
抽取的100名男生参加社区服务时间的频率分布表
参加社区服务时间/小时
人数
频率
[0,10)
0.05
[10,20)
20
[20,30)
0.35
[30,40)
30
[40,50]
合计
100
1
抽取的100名女生参加社区服务时间的频率分布直方图
(1)完善男生参加社区服务时间的频率分布表和女生参加社区服务时间的频率分布直方图;
(2)按高中综合素质评价的要求,高中生每年参加社区服务不少于20小时才为合格,根据题中的统计图表,完成抽取的这200名学生参加社区服务时间合格与性别的列联表,并判断是否有90%以上的把握认为参加社区服务时间达到合格程度与性别有关,并说明理由;
不合格的人数
合格的人数
合计
男
女
合计
200
(3)用这200名学生参加社区服务的时间估计全市90000名高中生参加社区服务时间的情况,并以频率作为概率.
①求全市高中生参加社区服务不少于30小时的人数;
②对该市高中生参加社区服务的情况进行评价.
- 15 -
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解 (1)由每组的频率等于每组的频数除以样本容量,知男生参加社区服务时间在[0,10)内的人数为0.05×100=5;在[10,20)内的频率为20÷100=0.2;在[20,30)内的人数为0.35×100=35;在[30,40)内的频率为30÷100=0.3;在[40,50)内的人数为100-5-20-35-30=10,频率为1-0.05-0.2-0.35-0.3=0.1.
补全的频率分布表为
参加社区服务时间/小时
人数
频率
[0,10)
5
0.05
[10,20)
20
0.2
[20,30)
35
0.35
[30,40)
30
0.3
[40,50]
10
0.1
合计
100
1
根据频率分布直方图中各小长方形的面积的总和等于1,知女生参加社区服务时间在[20,30)内的频率为1-0.01×10-0.025×10-0.02×10-0.01×10=0.35,频率/组距为=0.035,
所以补全的频率分布直方图如图.
(2)完成的列联表为
不合格的人数
合格的人数
合计
男
25
75
100
- 15 -
女
35
65
100
合计
60
140
200
K2=≈2.38<2.706,
所以没有90%以上的把握认为社区服务时间达到合格与性别有关.
(3)①抽取的样本中社区服务不少于30小时的人数为70,频率为=,所以全市高中生参加社区服务不少于30小时的概率约为,所以全市高中生参加社区服务不少于30小时的人数约为90000×=31500.
②(可从以下角度分析,也可以从其他角度分析,角度正确,分析合理,即可给分.)
a.从抽样数据可以得到全市高中生中还有一部分学生参加社区服务的时间太少,不能达到高中综合素质评价的要求.
b.全市所有高中生参加社区服务的时间都偏少.
c.全市高中生中,女生参加社区服务的时间比男生短.
d.全市高中生参加社区服务的时间集中在10~40小时.
- 15 -