- 593.00 KB
- 2021-07-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
2013年普通高考数学科一轮复习精品学案
第40讲 统计
一.课标要求:
1.统计案例
通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。
(1)通过对典型案例(如"肺癌与吸烟有关吗"等)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用;
(2)通过对典型案例(如"质量控制"、"新药是否有效"等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用;
(3)通过对典型案例(如"昆虫分类"等)的探究,了解聚类分析的基本思想、方法及初步应用;
(4)通过对典型案例(如"人的体重与身高的关系"等)的探究,进一步了解回归的基本思想、方法及初步应用。
2.随机变量的分布列
(1)在对具体问题的分析中,理解取有限值的离散型随机变量及其分布列的概念,认识分布列对于刻画随机现象的重要性;
(2)通过实例(如彩票抽奖),理解超几何分布及其导出过程,并能进行简单的应用;
(3)在具体情境中,了解条件概率和两个事件相互独立的概念,理解n次独立重复试验的模型及二项分布,并能解决一些简单的实际问题;
(4)通过实例,理解取有限值的离散型随机变量均值、方差的概念,能计算简单离散型随机变量的均值、方差,并能解决一些实际问题;
(5)通过实际问题,借助直观(如实际问题的直方图),认识正态分布曲线的特点及曲线所表示的意义。
二.命题走向
统计案例
本部分内容主要包括回归分析的基本思想及其初步应用和独立性检验的基本思想和初步应用,是教材新增内容,估计高考中比重不会过大。
预测2013年的高考主要有以下几种情况:
(1)知识点将会考察回归分析的基本思想方法,用独立性检验判断A与B间的关系,及2×2列联表;
(2)考查的形式主要以选择、填空题为主,但不会涉及很多;
随机变量的分布列
本部分内容主要包括随机变量的概念及其分布列,离散性随机变量的均值和方差,正态分布,从近几年的高考观察,这部分内容有加强命题的趋势。
预测2013年的高考对本部分内容的考查有以下情况:
(1)考查的重点将以随机变量及其分布列的概念和基本计算为主,题型以选择、填空为主,有时也以解答题形式出现;
(2)预计2013年高考还是实际情景为主,建立合适的分布列,通过均值和方差解释实际问题;
三.要点精讲
统计案例
1.相关系数
相关系数是因果统计学家皮尔逊提出的,对于变量y与x的一组观测值,把
叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度。
相关系数的性质:≤1,且越接近1,相关程度越大;且越接近0,相关程度越小。
显著性水平:显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值。它必须在每一次统计检验之前确定。显著性检验:(相关系数检验的步骤)由显著性水平和自由度查表得出临界值,显著性水平一般取0.01和0.05,自由度为n-2,其中n是数据的个数在“相关系数检验的临界值表”查出与显著性水平0.05或0.01及自由度n-2(n为观测值组数)相应的相关数临界值r0 05或r0 01;例如n=7时,r0.05=0.754,r0.01=0.874求得的相关系数r和临界值r0.05比较,若r>r0.05,上面y与x是线性相关的,当≤r0.05或r0.01,认为线性关系不显著。
结论:讨论若干变量是否线性相关,必须先进行相关性检验,在确认线性相关后,再求回归直线;
通过两个变量是否线性相关的估计,实际上就是把非确定性问题转化成确定性问题来研究; 我们研究的对象是两个变量的线性相关关系,还可以研究多个变量的相关问题,这在今后的学习中会进一步学到。
2.卡方检验
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
,经过对统计量分布的研究,已经得到了两个临界值:3.841与6.635。当根据具体的数据算出的k>3.841时,有95%的把握说事件A与B有关;当k>6.635时,有99%的把握说事件A与B有关;当k3.841时,认为事件A与B是无关的。
随机变量
1.随机变量的概念
如果随机试验的结果可以用一个变量来表示,那么这样的变量叫做随机变量。随机变量常用希腊字母ξ、η等表示。
对于随机变量可能取的值,我们可以按一定次序一一列出,这样的随机变量叫做离散型随机变量。
注:随机变量ξ是关于试验结果的函数,即每一个试验结果对应着一个实数;随机变量ξ的线性组合η=aξ+b(a、b是常数)也是随机变量。
2.离散性随机变量的分布列
一般地,设离散型随机变量可能取得值为:
X1,X2,…,X3,…,
取每一个值Xi(I=1,2,…)的概率为P(,则称表
X1
X2
…
xi
…
P
P1
P2
…
Pi
…
为随机变量的概率分布,简称的分布列。
两条基本性质:①…);②P1+P2+…=1。
3.独立
相互独立事件:事件A(或B)是否发生对事件B(或A)发生的概率没有影响.这样的两个事件叫做相互独立事件。
独立重复试验:若n次重复试验中,每次试验结果的概率都不依赖于其他各次试验的结果,则称这n次试验是独立的。
公式
(1)两个相互独立事件同时发生的概率,等于每个事件发生的概率的积,即P(A·B)=P(A)·P(B);
推广:若事件A1,A2,…,An相互独立,则P(A1·A2…An)=P(A1)·P(A2)·…·P(n)。
(2)如果在一次试验中某事件发生的概率为P,那么在n次独立重复试验中这个事件恰好发生k次的概率:Pn(k)=CPk(1-P)n-k。
4.随机变量的均值和方差
(1)随机变量的均值
…;反映随机变量取值的平均水平。
(2)离散型随机变量的方差:
……;反映随机变量取值的稳定与波动,集中与离散的程度。
基本性质:;。
5.几种特殊的分布列
(1)两点分步
两点分布:对于一个随机试验,如果它的结果只有两种情况,则我们可用随机变量,来描述这个随机试验的结果。如果甲结果发生的概率为P,则乙结果发生的概率必定为1-P,所以两点分布的分布列为:
1
0
P
P
1-p
均值为E=p,方差为D=p(1-p)。
(2)超几何分布
重复进行独立试验,每次试验只有成功、失败两种可能,如果每次试验成功的概率为p,重复试验直到出现一次成功为止,则需要的试验次数是一个随机变量,用ξ表示,因此事件{ξ=n}表示“第n次试验成功且前n-1次试验均失败”。所以,其分布列为:
ξ
1
2
…
n
…
P
p
p(1-p)
…
…
(3)二项分布
如果我们设在每次试验中成功的概率都为P,则在n次重复试验中,试验成功的次数是一个随机变量,用ξ来表示,则ξ服从二项分布.则在n次试验中恰好成功k次的概率为:
二项分布的分布列为:
ξ
0
1
…
…
n
P
…
…
记ε是n次独立重复试验某事件发生的次数,则ε~B(n,p);其概率…。期望Eε=np,方差Dε=npq。
6.正态分布
正态分布密度函数:,均值为Eε=μ,方差为。
正态曲线具有以下性质:
(1)曲线在x轴的上方,与x轴不相交。
(2)曲线关于直线x =μ对称。
(3)曲线在x =μ时位于最高点。
(4)当x <μ时,曲线上升;当x >μ时,曲线下降。并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。
(5)当μ一定时,曲线的形状由σ确定。σ越大,曲线越“矮胖”,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。
从理论上讲,服从正态分布的随机变量的取值范围是R,但实际上
取区间(μ-3σ,μ+3σ)外的数值的可能性微乎其微,在实际问题中常常认为它是不会发生的。因此,往往认为它的取值是个有限区间,即区间(μ-3σ,μ+3σ),这即实用中的三倍标准差规则,也叫3σ规则。在企业管理中,经常应用这个规则进行产品质量检查和工艺生产过程控制。
四.典例解析
题型1:线性相关性检验
例1.一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间由如下一组数据:
x
1.08
1.12
1.19
1.28
1.36
1.48
1.59
1.68
1.80
1.87
1.98
2.07
y
2.25
2.37
2.40
2.55
2.64
2.75
2.92
3.03
3.14
3.26
3.36
3.50
1)画出散点图;2)检验相关系数r的显著性水平;3)求月总成本y与月产量x之间的回归直线方程.
解析:
i
1
2
3
4
5
6
7
8
9
10
11
12
xi
1.08
1.12
1.19
1.28
1.36
1.48
1.59
1.68
1.80
1.87
1.98
2.07
yi
2.25
2.37
2.40
2.55
2.64
2.75
2.92
3.03
3.14
3.26
3.36
3.50
xiyi
2.43
2.264
2.856
3.264
3.590
4.07
4.643
5.090
5.652
6.096
6.653
7.245
=,==2.8475,=29.808,=99.2081,=54.243
1)画出散点图:
2)
r=
=
在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r0.05=0.576<0.997891, 这说明每月产品的总成本y(万元)与该月产量x(万件)之间存在线性相关关系。
3)设回归直线方程,
利用
,
计算a,b,得b≈1.215, a=≈0.974,
∴回归直线方程为:
例2.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得数据如下(单位:kg)
施化肥量x
15
20
25
30
35
40
45
水稻产量y
330
345
365
405
445
450
455
1)画出散点图;2)检验相关系数r的显著性水平;3)求月总成本y与月产量x之间的回归直线方程。
解析:1)画出散点图如下:
2)检验相关系数r的显著性水平:
i
1
2
3
4
5
6
7
xi
15
20
25
30
35
40
45
yi
330
345
365
405
445
450
455
xiyi
4950
6950
9125
12150
15575
18000
20475
=30,=399.3,=7000,=1132725,=87175
r==≈0.9733,在“相关系数检验的临界值表”查出与显著性水平0.05及自由度7-2=5相应的相关数临界值r0.05=0.754<0.9733,这说明水稻产量与施化肥量之间存在线性相关关系。
3)设回归直线方程,利用
计算a,b, 得b=
a=399.3-4.75×30≈257,则回归直线方程
题型2:独立性检验
例3.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
解析:由公式,因为7.469>6.635,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。
例4.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别。
解析:由公式,因为1.78>3.841,所以我们没有理由说“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作与否与其做过任何手术无关。
题型3:独立的概念及应用
例5.有三种产品,合格率分别是0.90,0.95和0.95,各抽取一件进行检验。
(1)求恰有一件不合格的概率;
(2)求至少有两件不合格的概率(精确到0.001);
解析:设三种产品各抽取一件,抽到合格产品的事件分别为A、B和C,
(1)P(A)=0.90,P(B)=P(C)=0.95,则P()=0.10,P()=P()=0.05。
因为事件A、B、C相互独立,恰有一件不合格的概率为:
P(A·B·)+P(A··C)+P(·B·C)
=P(A)·P(B)·P()+P(A)·P()·P(C)+P()·P(B)·P(C)
=2×0.90×0.95×0.05+0.10×0.95×0.95≈0.176
答:恰有一件不合格的概率为0.176.
(2)解法一:至少有两件不合格的概率为:
P(A··)+P(·B·)+P(··C)+P(··)
=0.90×0.05×0.05+2×0.10×0.05×0.95+0.10×0.05×0.05≈0.012.
答:至少有两件不合格的概率为0.012.
解法二:三件产品都合格的概率为:
P(A·B·C)=P(A)·P(B)·P(C)=0.90×0.95×0.95≈0.812.
由(1)知,恰有一件不合格的概率为0.176,所以,至少有两件不合格的概率为1-[P(A·B·C)+0.176]=1-(0.812+0.176)=0.012.
答:至少有两件不合格的概率为0.012.
点评:本题主要考查互斥事件有一个发生的概率和相互独立事件概率的计算及运用数学知识解决问题的能力。
例6.某公司招聘员工,指定三门考试课程,有两种考试方案。
方案一:考试三门课程,至少有两门及格为考试通过;
方案二:在三门课程中,随机选取两门,这两门都及格为考试通过.
假设某应聘者对三门指定课程考试及格的概率分别是,且三门课程考试是否及格相互之间没有影响.
(Ⅰ)分别求该应聘者用方案一和方案二时考试通过的概率;
(Ⅱ)试比较该应聘者在上述两种方案下考试通过的概率的大小.(说明理由)
解析:设三门考试课程考试通过的事件分别为A,B,C,相应的概率为a,b,c
(1)考试三门课程,至少有两门及格的事件可表示为AB+AC+BC+ABC,设其概率为P1,则P1=ab(1-c)+a(1-b)c+(1-a)bc+abc=ab+ac+bc-2abc
设在三门课程中,随机选取两门,这两门都及格的概率为P2,则P2=ab+ac+bc
(2)P1-P2=(ab+ac+bc-2abc)-(ab+ac+bc)=ab+ac+bc-2abc=(ab+ac+bc-3abc)=〔ab(1-c)+ac(1-b)+bc(1-a)〕>0
P1>P2即用方案一的概率大于用方案二的概率。
点评:“至少、至多”问题的处理方式是分类到底,利用独立、互斥或对立事件进行转化。
题型4:随机变量的分布列
例7.某运动员射击一次所得环数的分布如下:
6
7
8
9
10
0
现进行两次射击,以该运动员两次射击中最高环数作为他的成绩,记为.
(I)求该运动员两次都命中7环的概率
(II)求的分布列
解析:(Ⅰ)求该运动员两次都命中7环的概率为;
(Ⅱ)的可能取值为7、8、9、10
;
,
,
,
分布列为:
7
8
9
10
P
0.04
0.21
0.39
0.36
(Ⅲ) 的数学希望为。
点评:分布列不仅明确给出了()的概率,而且对任事件()发生的概率均可由分布列算出: 。
例8.设自动生产线在调整后出现废品的概率为0.1,而且一旦出现废品就要重新调整,求在两次调整之间所生产的合格品的数目不小于5的概率。
分析:如果用随机变量η表示两次调整之间生产的产品的个数,而且我们知道一旦出现废品就重新调整生产线,所以两次调整之间所生产的合格品是连续出现的,那么随机变量η的取值就服从几何分布,我们在解题时应先求出η的分布列。然后再计算事件“合格品数不小于5”即{η>5}的概率。
解析:设随机变量η表示两次调整之间生产线所生产的产品的个数,则η服从几何分布,事件{η=k}就表示生产了k-1件合格品,且第k件产品是废品。容易求得:
P(η=1)=0.1,
P(η=2)=(1-0.1)×0.1=0.09,
写成分布列的形式为:
1
2
3
4
5
6
…
P
0.1
0.09
0.81
0.0729
0.06561
0.059049
…
题目中要求计算“所生产的合格品数不小于5”的概率,即P(η>5),因为事件{η>5}所包含的基本事件为{η=6},{η=7},…,{η=n},…,所以有
P(η>5)=P(η=6)+P(η=7)+…+P(η=n)+…
我们应用分布列的性质计算上式的值.因为P(η>5)=1-P(η≤5),所以
P(η>5)=1-[P(η=1)+P(η=2)+P(η=3)+P(η=4)+P(η=5)]
=1-(0.1+0.09+0.081+0.0729+0.06561)=0.49049,
所以事件“两次调整之间所生产的合格品数不小于5”的概率为0.49049
点评:这是一道综合例题,包括了分列的计算及分布列的应用两个步骤。该题对于我们巩固所学知识,深入了解分布列有很大帮助。
题型5:随机变量的均值
例9.(1)一个均匀小正方体的六个面中,三个面上标以数0,两个面上标以数1,一个面上标以数2,将这个小正方体抛掷2次;
则向上的数之积的数学期望是 ;
(2)利用下列盈利表中的数据进行决策,应选择的方案是_____.
解析:(1)一个均匀小正方体的6个面中,三个面上标以数0,两个面上标以数1,一个面上标以数2。将这个小正方体抛掷2次,向上的数之积可能为ξ=0,1,2,4,
则,
,
,
,
∴ .
点评:掌握离散性随机变量均值的计算方法,以及计算的先后顺序。
(2)答案:A3
解析:A1的数学期望:=0.25×50+0.30×65+0.45×26=43.7
A2的数学期望:=0.25×70+0.30×26+0.45×16=32.5
A3的数学期望:=0.25×(-20)+0.30×52+0.45×78=45.7
A4的数学期望:=0.25×98+0.30×82+0.45×(-10)=44.6
点评:本题考查概率与数学期望,考查学生识表的能力.对图表的识别能力,是近年高考突出考查的热点.图表语言与其数学语言的相互转换,应成为数学学习的一个重点,应引起高度重视。
例10.设离散型随机变量可能取的值为1,2,3,4。(1,2,3,4)。又的数学期望,则 ;
解析:设离散性随机变量可能取的值为,所以,即,
又的数学期望,则,即,,∴ 。
点评:均值计算时要根据公式进行简化计算,从而达到简化运算的目的。
题型6:随机变量的方差
例11.甲、乙两名工人加工同一种零件,两人每天加工的零件数相等,所得次品数分别为ε、η,ε和η的分布列如下:
ε
0
1
2
η
0
1
2
P
P
试对这两名工人的技术水平进行比较。
分析:一是要比较两名工人在加工零件数相等的条件下出次品数的平均值,即期望;二是要看出次品数的波动情况,即方差值的大小。
解析:工人甲生产出次品数ε的期望和方差分别为:
,
;
工人乙生产出次品数η的期望和方差分别为:
,
;
由Eε=Eη知,两人出次品的平均数相同,技术水平相当,但Dε>Dη,可见乙的技术比较稳定。
点评:期望仅体现了随机变量取值的平均大小,但有时仅知道均值的大小还不够。如果两个随机变量的均值相等,还要看随机变量的取值如何在均值周围变化,即计算方差。方差大说明随机变量取值较分散,方差小说明取值分散性小或者取值比较集中、稳定。
题型7:正态分布
例12.在某校举行的数学竞赛中,全体参赛学生的竞赛成绩近似服从正态分布。已知成绩在90分以上(含90分)的学生有12名。
(Ⅰ)、试问此次参赛学生总数约为多少人?
(Ⅱ)、若该校计划奖励竞赛成绩排在前50名的学生,试问设奖的分数线约为多少分?
可共查阅的(部分)标准正态分布表
0
1
2
3
4
5
6
7
8
9
1.2
1.3
1.4
1.9
2.0
2.1
0.8849
0.9032
0.9192
0.9713
0.9772
0.9821
0.8869
0.9049
0.9207
0.9719
0.9778
0.9826
0.888
0.9066
0.9222
0.9726
0.9783
0.9830
0.8907
0.9082
0.9236
0.9732
0.9788
0.9834
0.8925
0.9099
0.9251
0.9738
0.9793
0.9838
0.8944
0.9115
0.9265
0.9744
0.9798
0.9842
0.8962
0.9131
0.9278
0.9750
0.9803
0.9846
0.8980
0.9147
0.9292
0.9756
0.9808
0.9850
0.8997
0.9162
0.9306
0.9762
0.9812
0.9854
0.9015
0.9177
0.9319
0.9767
0.9817
0.9857
解析:(Ⅰ)设参赛学生的分数为,因为~N(70,100),由条件知,
P(≥90)=1-P(<90)=1-F(90)=1-=1-(2)=1-0.9772=0.228.
这说明成绩在90分以上(含90分)的学生人数约占全体参赛人数的2.28%,因此,
参赛总人数约为≈526(人)。
(Ⅱ)假定设奖的分数线为x分,则P(≥x)=1-P(