- 687.50 KB
- 2021-06-24 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
(这是边文,请据需要手工删加)
名师导学·高考二轮总复习·理科数学
(这是边文,请据需要手工删加)
专题七 统计与概率
(这是边文,请据需要手工删加)
专 题 七
统计与概率
第16讲 统计与统计案例
【p57】
【p57】
年份
卷别
题号
考查内容
命题规律
2018
Ⅰ
3
统计图的识别与分析
Ⅱ
18
变量间的相关关系、利用回归直线
方程进行估计
Ⅲ
18
茎叶图、中位数、列联表、独立性检验
2017
Ⅰ
19
正态分布、数学期望、3σ原则
Ⅱ
18
独立性检验、相互独立事件的概率、
频率分布直方图
Ⅲ
3
折线图的识别
2016
Ⅲ
4
统计图的识别
18
线性回归方程、相关性检验、利用线性回归方程解决实际问题
如何抽取数据,如何从数据中提取信息,判断所得结论的可靠性,以及求随机变量分布的概率与特征. 一是根据实际条件选择抽样方法;二是提取统计图表中的有用信息(包括相关变量的关系判断);三是求正态分布、二项分布(含两点分布)、超几何分布的概率情况和特征.通过样本推断总体的过程,考查统计思想,重点是通过从已知数据和图表中提取有用的信息,以及个别事件的概率和整体随机变量的分布,或经过回归分析,解决实际问题.
备 考 建 议 【p57】
本节考点与实际问题联系紧密,复习中不能依赖记忆公式和简单的套用公式解题,应在充分认识统计方法特点的基础上,深刻理解回归分析和独立性检验的基本思想、方法及初步应用,提高阅读能力,找准数学模型,经历较为系统的数据处理的全过程,培养对数据的直观感觉,另外还要有意识的提高运算能力.
典 例 剖 析 【p57】
探究一 抽样方法
例1(1)现要完成下列3项抽样调查:
①从10盒酸奶中抽取3盒进行食品卫生检查.
②科技报告厅有32排,每排有40个座位,有一次报告会恰好坐满了听众,报告会结束后,为了听取意见,需要请32名听众进行座谈.
③高新中学共有160名教职工,其中一般教师120名,行政人员16名,后勤人员24名,为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.
较为合理的抽样方法是( )
A.①简单随机抽样,②系统抽样,③分层抽样
B.①简单随机抽样,②分层抽样,③系统抽样
C.①系统抽样,②简单随机抽样,③分层抽样
D.①分层抽样,②系统抽样,③简单随机抽样
【解析】选A.
对于①,个体没有差异且总数不多可用随机抽样法,是简单随机抽样;对于②,将总体分成均衡的若干部分指的是将总体分段,在第1段内采用简单随机抽样确定一个起始编号,在此编号的基础上加上分段间隔的整数倍即为抽样编号,是系统抽样;对于③,个体有明显的差异,所以选用分层抽样,故选A.
(2)[2017·江苏卷]某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
【解析】18
丙种型号的产品在所有产品中所占比例为=,所以应从丙种型号的产品中抽取60×=18(件).
(3)用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是________.
【解析】6
设第1组抽取的号码为b,则第n组抽取的号码为8(n-1)+b,∴8×(16-1)+b=126,∴b=6,故第1组抽取的号码为6.
【点评】(1)在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,总体就需要分成几个组,则分段间隔即为(n为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.
(2)分层抽样中要注意按比例抽取各层次的样本数据,样本容量与总体的个体数之比是分层抽样的比例常数,按这个比例可以确定各层应抽取的个体数与各层原有的人数,若各层应抽取的个体数不都是整数,则应当先剔除部分个体,调整总体个数.
探究二 用样本估计总体
例2(1)甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.
(Ⅰ)分别求出两人得分的平均数与方差;
(Ⅱ)根据上图和(Ⅰ)中算得的结果,对两人的训练成绩作出评价.
【解析】(Ⅰ)由图象可得甲、乙两人五次测试的成绩分别为
甲:10分,13分,12分,14分,16分;
乙:13分,14分,12分,12分,14分.
x甲==13,
x乙==13,∴x甲=x乙.
s=[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,
s=[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.
(Ⅱ)由s>s可知乙的成绩较稳定,从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.
(2)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.
A地区用户满意度评分的频率分布直方图
B地区用户满意度评分的频数分布表
满意度评
分分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
2
8
14
10
6
(Ⅰ)在下图中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).
(Ⅱ)根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
估计哪个地区用户的满意度等级为不满意的概率大?说明理由.
【解析】(Ⅰ)如下图所示.
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
(Ⅱ)判断:A地区用户的满意度等级为不满意的概率大.
记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,P(CB)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.
(3)某工厂36名工人的年龄数据如下表.
工人编号 年龄
工人编号 年龄
工人编号 年龄
工人编号 年龄
1 40
10 36
19 27
28 34
2 44
11 31
20 43
29 39
3 40
12 38
21 41
30 43
4 41
13 39
22 37
31 38
5 33
14 43
23 34
32 42
6 40
15 45
24 42
33 53
7 45
16 39
25 37
34 37
8 42
17 38
26 44
35 49
9 43
18 36
27 42
36 39
(Ⅰ)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;
(Ⅱ)计算(Ⅰ)中样本的均值x和方差s2;
(Ⅲ)36名工人中年龄在x-s与x+s之间的有多少人?所占的百分比是多少(精确到0.01%)?
【解析】(Ⅰ)36人分成9组,每组4人,其中第一组抽取的工人年龄为44,因为它在组中的编号为2,
所以所有样本数据的编号为4n-2(n=1,2,…,9),
其年龄数据为:44,40,36,43,36,37,44,43,37.
(Ⅱ)由均值公式知:x==40,
由方差公式知:s2=[(44-40)2+(40-40)2+…+(37-40)2]=.
(Ⅲ)因为s2=,s=,
所以36名工人中年龄在x-s和x+s之间的人数等于年龄在区间[37,43]上的人数,
即40,40,41,…,39,共23人.
所以36名工人中年龄在x-s和x+s之间的人数所占的百分比为×100%≈63.89%.
【点评】(1)在作茎叶图或读茎叶图时,首先要弄清楚“茎”和“叶”分别代表什么,根据茎叶图,我们可方便地求出数据的众数与中位数,大体上估计出两组数据平均数的大小与稳定性的高低.
(2)解决与频率分布直方图有关的问题时,应正确理解已知数据的含义,掌握图表中各个量的意义,通过图表对已知数据进行分类.
探究三 回归分析
例3某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x-
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi= ,=i
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利率z与x、y的关系为z=0.2y-x.
根据(2)的结果回答下列问题:(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),……,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:=,=-β
【解析】(1)由散点图可以判断,y=c+d适合作为年销售量y关于年宣传费用x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,
由于===68,
∴=-=563-68×6.8=100.6.
∴y关于w的线性回归方程为=100.6+68w,
∴y关于x的回归方程为=100.6+68.
(3)(i)由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
=576.6×0.2-49=66.32.
(ii)根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12,
∴当==6.8,即x=46.24时,取得最大值.
故宣传费用为46.24千元时,年利润的预报值最大.
【点评】已知变量的某个值去预测与其有线性相关关系的变量的值时,一般先求出回归直线方程=x+,若,中有一个是已知的,常利用公式=-x-求另一个量,再把x取值代入回归直线方程=x+中,求出的估计值.
探究四 独立性检验
例4海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=.
【解析】(1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表:
箱产量<50kg
箱产量≥50kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
【点评】独立性检验的具体步骤:第一步,根据题意确定临界值并作无关假设;第二步,
找相关数据,列出2×2列联表;第三步,由公式K2=(其中n=a+b+c+d)计算出K2的观测值;第四步,将K2的观测值与临界值进行比较,进而作出推断.
探究五 正态分布
例5从某企业生产的某种产品中抽取500件,测量这些产品的一项质量指标值,由测量结果得如下频率分布直方图:
(1)求这500件产品质量指标值的样本平均数x-和样本方差s2(同一组中的数据用该组区间的中点值作代表);
(2)由直方图可以认为,这种产品的质量指标值Z服从正态分布N(μ,σ2),其中μ近似为样本平均数x-,σ2近似为样本方差s2.
(ⅰ)利用该正态分布,求P(187.86.635,所以有99%的把握认为两种生产方式的效率有差异.
【命题立意】本题主要考查茎叶图、独立性检验,考查学生分析问题、解决问题的能力.考查的数学核心素养是数学运算、数据分析.
考点限时训练 【p141】
1.[2017·山东卷]如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7
【解析】选A.
由茎叶图知,甲组的中位数为65,当乙组的中位数也为65时,y=5,此时乙组的平均数为=66,所以甲组中的未知数为66×5-(56+65+62+74-70)=73,所以x=3.故选A.
2.某全日制大学共有学生5 400人,其中专科生有1 500人,本科生有3 000人,研究生有900人.现采用分层抽样的方法调查学生利用因特网查找学习资料的情况,抽取的样本容量为180,则应在专科生、本科生与研究生这三类学生中分别抽取( )
A.55人,80人,45人 B.40人,100人,40人
C.60人,60人,60人 D.50人,100人,30人
【解析】选D.
抽取比例为=,故应在专科生、本科生、研究生中分别抽取1 500×=50(人),3 000×=100(人),900×=30(人).故选D.
3.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)的直方图如图所示,假设得分的中位数为me,众数为m0,平均数为x-,则( )
A.me=m0=x- B.me=m05.9,所以m00,由判别式Δ<0得t<4,所以t≤3,所以e≤10.
7.某中学团委组织了“我对祖国知多少”的知识竞赛,从参加考试的学生中抽出60名学生,将其成绩(均为整数)分成六组[40,50),[50,60),…,[90,100],其部分频率分布直方图如图所示.观察图形,回答下列问题.
(1)求成绩在[70,80)的频率,并补全这个频率分布直方图;
(2)估计这次考试的及格率(60分及以上为及格)和平均分;(计算时可以用组中值代替各组数据的平均值)
(3)从成绩在[40,50)和[90,100]的学生中选两人,求他们在同一分数段的概率.
【解析】(1)因为各组的频率和等于1,故成绩在[70,80)的频率是1-(0.025+0.015×2+0.01+0.005)×10=0.3.频率分布直方图如图所示:
(2)依题意,60分及以上的分数在[60,70),[70,80),[80,90),[90,100]这四个组,其频率和为(0.015+0.03+0.025+0.005)×10=0.75.
所以估计这次考试的及格率是75%.
利用组中值估算学生成绩的平均分,则有
45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71.所以估计这次考试的平均分是71分.
(3)成绩在[40,50)的人数是60×0.1=6,成绩在[90,100]的人数是60×0.05=3,所以从成绩在[40,50)与[90,100]的学生中选两人,他们在同一分数段的概率是P===.
8.某校为了探索一种新的教学模式,进行了一项课题实验,乙班为实验班,甲班为对比班,甲乙两班的人数均为50人,一年后对两班进行测试,成绩如下表(总分:150分):
甲班
成绩
[80,90)
[90,100)
[100,110)
[110,120)
[120,130)
频数
4
20
15
10
1
乙班
成绩
[80,90)
[90,100)
[100,110)
[110,120)
[120,130)
频数
1
11
23
13
2
(1)现从甲班成绩位于[90,120)内的试卷中抽取9份进行试卷分析,请问用什么抽样方法更合理,并写出最后的抽样结果;
(2)根据所给数据可估计在这次测试中,甲班的平均分是101.8,请你估计乙班的平均分,并计算两班平均分相差几分;
(3)完成下面2×2列联表,你能有97.5%的把握认为“这两个班在这次测试中成绩的差异与实施课题实验有关”吗?并说明理由.
成绩小于100分
成绩不小于100分
合计
甲班
a=
b=
50
乙班
c=
d=
50
合计
36
64
100
附:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
K2=.
【解析】(1)用分层抽样抽取样本更合理.在[90,100),[100,110),[110,120)各分数段分别抽取4份、3份、2份试卷.
(2)估计乙班的平均分为x-乙=85×+95×+105×+115×+125×=105.8.
105.8-101.8=4,即两班平均成绩相差4分.
(3)a=24,b=26,c=12,d=38.
K2==6.25.
而6.25>5.024,所以有97.5%的把握认为“这两个班在这次测试中成绩的差异与实施课题实验有关”.
9.专家研究表明,PM2.5是霾的主要成份,在研究PM2.5形成原因时,某研究人员研究了PM2.5与燃烧排放的CO2、NO2、CO、O3等物质的相关关系.下图是PM2.5与CO和O3相关性的散点图.
(1)根据上面散点图,请你就CO,O3对PM2.5的影响关系做出初步评价;
(2)根据有关规定,当CO排放量低于100 ug/m3时CO排放量达标,反之为CO排放量超标;当PM2.5值大于200 ug/m3时雾霾严重,反之雾霾不严重.根据PM2.5与CO
相关性的散点图填写好下面2×2列联表,并判断有多大的把握认为“雾霾是否严重与CO排放量有关”;
雾霾不严重
雾霾严重
总计
CO排放量达标
CO排放量超标
总计
(3)我们知道雾霾对交通影响较大.某市交通部门发现,在一个月内,当CO排放量分别是60,120,180时,某路口的交通流量(单位:万辆)依次是800,600,200,而在一个月内,CO排放量是60,120,180的概率依次是p,,q,求该路口一个月的交通流量期望值的取值范围.
附:
P(K2≥k)
0.050
0.010
0.005
0.001
k
3.841
6.635
7.879
10.828
K2=
【解析】(1)CO对PM2.5有线性相关关系,且为正相关,而O3对PM2.5没有线性相关关系,线性相关强度较弱.
(2)列联表如下:
雾霾不严重
雾霾严重
总计
CO排放量达标
13
5
18
CO排放量超标
2
10
12
总计
15
15
30
由表中数据可知K2==≈8.889>7.879.
故有99.5%的把握认为“雾霾是否严重与CO排放量有关”.
(3)设交通流量是X,则得如下分布列:
交通流量X
800
600
200
P
p
q
q
因为所以EX=800×p+600×q+200×q=p+∈,
即566.7s.
(3)依题意,随机变量ξ可以取7.2,7.4,8,8.2,8.6,9.4,
P(ξ=7.2)=,P(ξ=7.4)=,P(ξ=8)=,
P(ξ=8.2)=,P(ξ=8.6)=,P(ξ=9.4)=.
随机变量ξ的分布列为
ξ
7.2
7.4
8
8.2
8.6
9.4
P
随机变量ξ的数学期望E(ξ)=7.2×+7.4×+8×+8.2×+8.6×+9.4×=8.