- 1.60 MB
- 2021-07-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
高考总复习:统计与统计案例
【考纲要求】
1.随机抽样
(1)理解随机抽样的必要性和重要性;
(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.
2.用样本估计总体
(1)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.
(2)理解样本数据标准差的意义和作用,会计算数据标准差.
(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.
(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
(5)会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题.
3.变量的相关性
(1)会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系;
(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).
【知识网络】
统计图表
用样本估计总体
统计
简单随机抽样
数据的整
理分析
数据的数字特征
分层抽样
系统抽样
变量的相关性
【考点梳理】
考点一、随机抽样
从调查的对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标做出推断,这就是抽样调查.调查对象的全体称为总体,被抽取的一部分称为样本.
1.简单的随机抽样
简单随机抽样的概念:
设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.
① 用简单随机抽样从含有N个个体的总体中抽取一个容量为n的样本时,每次抽取一个个体时,任一个体被抽到的概率为;在整个抽样过程中各个个体被抽到的概率为;
②简单随机抽样的特点是:不放回抽样,逐个地进行抽取,各个个体被抽到的概率相等;
③简单随机抽样方法体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础.
简单抽样常用方法:
①抽签法:先将总体中的所有个体(共有N个)编号(号码可从1到N),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取n次,就得到一个容量为n的样本.
适用范围:总体的个体数不多.
优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法.
②随机数表法:随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码.
2.系统抽样:
当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先制定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样.
系统抽样的步骤:
①采用随机的方式将总体中的个体编号,为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号等等.
②为将整个的编号分段 (即分成几个部分),要确定分段的间隔.当是整数时(N为总体中的个体的个数,n为样本容量),;当不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数能被n整除,这时.
③在第一段用简单随机抽样确定起始的个体编号.
④按照事先确定的规则抽取样本(通常是将加上间隔,得到第2个编号,第3个编号,这样继续下去,直到获取整个样本).
要点诠释:
①系统抽样适用于总体中的个体数较多的情况,它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样;
②与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的
③总体中的个体数恰好能被样本容量整除时,可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除再进行系统抽样.
3.分层抽样:
当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层.
4.常用的三种抽样方法的比较:
类别
共同点
不同点
联系
适用范围
简单随
机抽样
抽样过程中每个个体被抽取的概率相等
从总体中逐个抽取
是后两种方法的基础
总体个数较少
系统抽样
将总体均分成几部分,按事先确定的规则在各部门抽取
在起始部分抽样时用简单随机抽样
总体个数较多
分层抽样
将总体分成几层,分层进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
要点诠释:
(1)各种抽样的个体被抽到的概率相等;
(2)抽样过程中个体被抽到的概率相等.
5.不放回抽样和放回抽样:
在抽样中,如果每次抽出个体后不再将它放回总体,称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体,称这样的抽样为放回抽样
随机抽样、系统抽样、分层抽样都是不放回抽样
考点二、用样本估计总体
1. 统计图表包括条形图、折线图、饼图、茎叶图.
2.作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差)
(2)决定组距与组数
(3)将数据分组
(4)列频率分布表
(5)画频率分布表
3.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图
(2)总体密度曲线:随着样本容量的增加,作图所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线
4.标准差和方差
(1)标准差是样本数据到平均数的一种平均距离,
(2)方差: (是样本数据,是样本容量,是样本平均数)
要点诠释:现实中的总体所包含个体数往往是很多的,如何求得总体的平均数和标准差呢?(通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差,这与有样本的频率分布近似代替总体分布是类似的,只要样本的代表性好,这样做就是合理的,也是可以接受的.)
5.利用频率分布直方图估计样本的数字特征
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值
(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和
(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标
6. 频率分布直方图反映样本的频率分布
(1)频率分布直方图中横坐标表示组距,纵坐标表示,频率=组距×
(2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.
(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.
(4)众数为最高矩形中点的横坐标.
(5)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
考点三、变量的相关性
1. 散点图
将两个变量所对应的点描在直角坐标系中,这些点组成了变量之间的一个图,称为变量之间的散点图.散点图形象地反映了各对数据的密切程度.粗略地看,散点分布具有一定的规律.
如果变量之间存在某种关系,这些点会有一个集中趋势,这种趋势通常可以用一条光滑的曲线来近似表示,这样近似的过程称为曲线拟合.
2.两个变量的线性相关
(1)相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.
(2)正相关
在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.
(3)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(4)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
3.回归方程
(1)最小二乘法
求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程是两个具有线性相关关系的变量的一组数据的回归方程,期中是待定参数.
要点诠释:
相关关系与函数关系的异同点:
相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系;
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
考点四、统计案例
1.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;
(2)随机误差:线性回归模型用表示,其中为模型的未知数,称为随机误差.
(3)样本点的中心在具有线性相关关系的数据中回归方程的截距和斜率的最小二乘估计公式分别为:
其中称为样本点的中心.
(4)相关系数
①
②当时,表明两个变量正相关;
当时,表明两个变量负相关.
的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常大于0.75时,认为两个变量有很强的线性相关性.
2.残差分析
(1)总偏差平方和
把每个效应(观测值减去总的平均值)的平方加起来即:
(2)残差
数据点和它回归直线上相应位置的差异是随机误差的效应,称为残差.
(3)残差平方和.
(4)相关指数
的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 表示解释变量对预报变量变化的贡献率, 越接近于1,表示回归的效果越好.
3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为,其样本频数列联表(称为2×2列联表)为
2×2列联表
总计
总计
构造一个随机变量,其中为样本容量.
(3)独立性检验
利用随机变量来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
注: 在独立性检验中经常由得到观测值,则=是否成立?(与的关系并不是=,是的观测值,或者说是一个随机变量,它在,,,)取不同值时,可能不同,而是取定一组数,,,后的一个确定的值.
【典型例题】
类型一、简单随机抽样
【例1】某车间工人加工一种轴100件,为了了解这种轴的直径,要从中抽取10件轴在同一条件下测量,如何采用简单随机抽样的方法抽取样本?
【思路点拨】简单随机抽样一般采用两种方法:抽签法和随机数表法.
【解析】解法1:(抽签法)将100件轴编号为1,2,…,100,并做好大小、形状相同的号签,分别写上这100个数,将这些号签放在一起,进行均匀搅拌,接着连续抽取10个号签,然后测量这个10个号签对应的轴的直径.
解法2:(随机数表法)将100件轴编号为00,01,…
99,在随机数表中选定一个起始位置,如取第21行第1个数开始,选取10个为68,34,30,13,70,55,74,77,40,44,这10件即为所要抽取的样本.
【总结升华】从以上两种方法可以看出,当总体个数较少时用两种方法都可以,当样本总数较多时,方法2优于方法1.
举一反三:
【变式】某大学为了支持奥运会,从报名的24名大三的学生中选6人组成志愿小组,请用抽签法和随机数表法设计抽样方案.
【思路点拨】(1)总体的个体数较少,利用抽签法或随机数表法可容易获取样本;
(2)抽签法的操作要点:编号、制签、搅匀、抽取;
(3)随机数表法的操作要点:编号、选起始数、读数、获取样本.
【解析】抽签法
第一步:将24名志愿者编号,编号为1,2,3,……,24;
第二步:将24个号码分别写在24张外形完全相同的纸条上,并揉成团,制成号签;
第三步:将24个号签放入一个不透明的盒子中,充分搅匀;[来源:Zxxk.Com]
第四步:从盒子中逐个抽取6个号签,并记录上面的编号;
第五步:所得号码对应的志愿者,就是志愿小组的成员.
随机数表法
第一步:将24名学生编号,编号为01,02,03,……24;
第二步:在随机数表中任选一数开始,按某一确定方向读数;
第三步:凡不在01~24中的数或已读过的数,都跳过去不作记录,依次记录下得数;
第四步:找出号码与记录的数相同的学生组成志愿小组.
类型二、系统抽样
【例2】某校高中三年级的295名学生已经编号为1,2,……,295,为了了解学生的学习情况,要按1:5的比例抽取一个样本,用系统抽样的方法进行抽取,并写出过程.
【思路点拨】按1:5分段,每段5人,共分59段,每段抽取一人,关键是确定第1段的编号.
【解析】按照1:5的比例,应该抽取的样本容量为295÷5=59,我们把259名同学分成59组,每组5人,第一组是编号为1~5的5名学生,第2组是编号为6~10的5名学生,依次下去,59组是编号为291~295的5名学生.采用简单随机抽样的方法,从第一组5名学生中抽出一名学生,不妨设编号为k(1≤k≤5),那么抽取的学生编号为k+5L(L=0,1,2,……,58),得到59个个体作为样本,如当k=3时的样本编号为3,8,13,……,288,293.
【总结升华】系统抽样可按事先规定的规则抽取样本. 本题采用的规则是第一组随机抽取的学生编号为k,那么第m组抽取的学生编号为k+5(m-1).
举一反三:
【变式】一个总体中有100个个体,随机编号为0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为l,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第最小组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是 .
【答案】∵,,∴ ∴在第7小组中抽取的号码是63.
类型三、分层抽样
【例3】某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是( )
A.分层抽样法,系统抽样法 B.分层抽样法,简单随机抽样法
C.系统抽样法,分层抽样法 D.简单随机抽样法,分层抽样法
【思路点拨】此题为抽样方法的选取问题.当总体中个体较多而且差异又不大时宜采用系统抽样,采用系统抽样在每小组内抽取时应按规则进行;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.
【解析】依据题意,第①项调查应采用分层抽样l法、第②项调查应采用简单随机抽样法.故选B.
【总结升华】采用什么样的抽样方法要依据研究的总体中的个体情况来定.
举一反三:
【变式】甲校有3600名学生,乙校有5400名学生,丙校有1800名学生,为统计三校学生某方面的情况,计划采用分层抽样法,抽取一个样本容量为90人的样本,应在这三校分别抽取学生( )
A.30人,30人,30人 B.30人,45人,15人
C.20人,30人,10人 D.30人,50人,10人
【答案】B;根据样本容量和总体容量确定抽样比,最终得到每层中学生人数.
【例4】一个地区共有5个乡镇,人口3万人,其中人口比例为3:2:5:2:3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.
【思路点拨】采用分层抽样的方法.
【解析】因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,因而采用分层抽样的方法,具体过程如下:
(1)将3万人分为5层,其中一个乡镇为一层.
(2)按照样本容量的比例随机抽取各乡镇应抽取的样本.
300×3/15=60(人),300×2/15=40(人),300×5/15=100(人),300×2/15=40(人),300×3/15=60(人),因此各乡镇抽取人数分别为60人、40人、100人、40人、60 人.
(3)将300人组到一起,即得到一个样本.
【总结升华】分层抽样在日常生活中应用广泛,其抽取样本的步骤尤为重要,应牢记按照相应的比例去抽取.
举一反三:
【变式】某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工至多参加了其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%.登山组的职工占参加活动总人数的,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同的年龄层次的职工对本次活动的满意程度,现用分层抽样的方法从参加活动的全体职工中抽取一个容量为200的样本.试确定
(Ⅰ)游泳组中,青年人、中年人、老年人分别所占的比例;
(Ⅱ)游泳组中,青年人、中年人、老年人分别应抽取的人数.
【答案】
(Ⅰ)设登山组人数为,游泳组中,青年人、中年人、老年人各占比例分别为a、b、c,
则有,解得
故a=100%-50%-10%=40%,
即游泳组中,青年人、中年人、老年人各占比例分别为40%、50%、10%.
(Ⅱ)游泳组中,抽取的青年人数为(人);
抽取的中年人数为50%=75(人);
抽取的老年人数为10%=15(人).
类型四、用样本估计总体
【例4】甲、乙两小组各10名学生的英语口语测试成绩如下:(单位:分)
甲组 76 90 84 86 81 87 86 82 85 83
乙组 82 84 85 89 79 80 91 89 79 74
用茎叶图表示两小组的成绩,并判断哪个小组的成绩更整齐一些?
【思路点拨】学会用茎叶图表示数据的方法;并会进行统计推断.
【解析】用茎叶图表示两小组的成绩如图:
甲
茎
乙
6
7
4 9 9
7 6 6 5 4 3 2 1
8
0 2 4 5 9 9
0
9
1
由图可知甲组成绩较集中,即甲组成绩更整齐一些.
【总结升华】对各数据是二、三位数,且数据量不是很大时,用用茎叶图表示较为方便,也便于进行统计推断,否则,应改用其他方法.
举一反三:
【变式1】甲、乙两个学习小组各有10名同学,他们在一次数学测验中成绩的茎叶图如图所示,则他们在这次测验中成绩较好的是 组.
【答案】甲小组
甲
茎
乙
5 7
1
6 8
8 8 2
2
3 6 7
【变式2】甲、乙两名运动员的5次测试成绩如下图所示,设分别表示甲、乙两名运动员测试成绩的标准差,分别表示甲、乙两名运动员测试成绩的平均数,则有( )
A., B.,
C., D.,
【答案】B
【例5】以下茎叶图记录了甲、乙两组各四名同学在某次数学测验中的成绩,甲组记录中有一个数据模糊,无法确认,在图中以X表示.
甲组 乙组
6 X 8 7
4 1 9 0 0 3
(Ⅰ)如果甲组同学与乙组同学的平均成绩一样,求X及甲组同学数学成绩的方差;
(Ⅱ)如果X=7,分别从甲、乙两组同学中各随机选取一名,求这两名同学的数学成绩之和大于180的概率.(注:方差其中)
【思路点拨】(Ⅰ)利用平均数的基本概念加以求解。(Ⅱ)根据列举法求出所有事件构成样本空间,再求出事件“这两名同学的数学成绩之和大于180”的样本空间,利用古典概型公式可解。
【解析】(I)乙组同学的平均成绩为,甲组同学的平均成绩为90,
所以
甲组同学数学成绩的方差为
(II)设甲组成绩为86,89,91,94的同学分别为乙组成绩为87,90,90,93的同学分别为则所有的事件构成的基本事件空间为:
共16个基本事件.
设事件“这两名同学的数学成绩之和大于180”,则事件包含的基本事件的空间为{共7个基本事件,
【总结升华】会根据茎叶图列举出相关具体数据,再利用古典概型或是独立重复试验类型加以求解。
举一反三:
2 1 2 4
4 3 1 1 1 1 0 2 5
7 1 0 8 9
甲 乙
【变式】某工厂甲、乙两个车间包装同一种产品,在自动包装传送带上每隔一小时抽一包产品,称其重量(单位:克)是否合格,分别记录抽查数据,获得重量数据茎叶图(如右).
(Ⅰ)根据样本数据,计算甲、乙两个车间产品重量的均值与方差,并说明哪个车间的产品的重量相对稳定;
(Ⅱ)若从乙车间6件样品中随机抽取两件,求所抽取两件样品重量之差不超过2克的概率.
【解析】(Ⅰ)设甲、乙两个车间产品重量的均值分别为 、,方差分别为 、,则,
,
,
,
由于 ,所以 甲车间的产品的重量相对稳定;
(Ⅱ)从乙车间6件样品中随机抽取两件,结果共有15个:
.
设所抽取两件样品重量之差不超过2克的事件为A,则事件A共有4个结果:
.
所以 .
【例6高清视频统计与统计案例:例4】近年来,某市为了促进生活垃圾的分类处理,将生活垃圾分为厨余垃圾、可回收物和其他垃圾三类,并分别设置了相应的垃圾箱.为调查居民生活垃圾分类投放情况,现随机抽取了该市三类垃圾箱中总计1 000吨生活垃圾,数据统计如下(单位:吨):
“厨余垃圾”箱
“可回收物”箱
“其他垃圾”箱
厨余垃圾
400
100
100
可回收物
30
240
30
其他垃圾
20
20
60
(1)试估计厨余垃圾投放正确的概率;
(2)试估计生活垃圾投放错误的概率;
(3)假设厨余垃圾在“厨余垃圾”箱、“可回收物”箱、“其他垃圾”箱的投放量分别为a,b,c,其中a>0,a+b+c=600.当数据a,b,c的方差s2最大时,写出a,b,c的值(结论不要求证明),
并求此时s2的值.
注:数据x1,x2,…,xn的平均数
【思路点拨】(1)、(2)两问可通过古典概型公式加以求解;第(3)问利用方差的意义求解。
【解析】(1)厨余垃圾投放正确的概率约为
(2)设生活垃圾投放错误为事件A,则表示升华垃圾投放正确。
事件的概率约为“厨余垃圾”箱里厨余垃圾量、“可回收物”箱里的可回收物量与“其他垃圾”箱里其他垃圾量的总和除以升华垃圾总量,即约为
所以约为1-0.7=0.3
(3)当a=600,b=c=0时,取得最大值。
因为,所以。
【总结升华】本题主要考察求解古典概型的方法和方差的几何意义,同时考查数据收集处理的能力。
【例7】为了解甲、乙两厂的产品的质量,从两厂生产的产品中随机抽取各10件,测量产品中某种元素的含量(单位:毫克).下表是测量数据的茎叶图:
甲厂 乙厂
9 0
3 9 6 5 8 1 8 4 5 6 9 0 3
1 5 0 3 2 1 0 3
规定:当产品中的此种元素含量满足≥18毫克时,该产品为优等品.
(Ⅰ)试用上述样本数据估计甲、乙两厂生产的优等品率;
(Ⅱ)从乙厂抽出的上述10件产品中,随机抽取3件,求抽到的3件产品中优等品数的分布列及其数学期望;
(Ⅲ)从上述样品中,各随机抽取3件,逐一选取,取后有放回,求抽到的优等品数甲厂恰比乙厂多2件的概率.
【思路点拨】(Ⅰ)根据茎叶图所给数据,数出甲乙厂优等品数量即可。
(Ⅱ)的取值为0,1,2,3,分别求出对应的抽取方法,再按照等可能事件概率方法求解可得。
(Ⅲ)优等品数甲厂恰比乙厂多2件包括2种情况,“甲厂2件,乙厂0”以及“甲厂3件,乙厂1件”,分别按照独立重复试验概率公式求解,又从甲厂抽取与从乙厂抽取相互独立,按照乘法计算即可。
【解析】(I)甲厂抽取的样本中优等品有6件,优等品率为
乙厂抽取的样本中优等品有5件,优等品率为
(II)的取值为0,1,2,3.
所以的分布列为
0
1
2
3
故
(III) 抽取的优等品数甲厂恰比乙厂多2件包括2个事件,即A=“抽取的优等品数甲厂2件,乙厂0件”,B=“抽取的优等品数甲厂3件,乙厂1件”
抽取的优等品数甲厂恰比乙厂多2件的概率为
【总结升华】本题属于统计与概率综合题,考查茎叶图有关知识,同时考查学生对相互独立事件同时发生的概率与独立重复试验的概率的应用能力。
【例8】对某电子元件进行寿命追踪调查,情况如下:
寿命(h)
100~200
200~300
300~400
400~500
500~600
个 数
20
30
80
40
30
(1)列出频率分布表;
(2)画出频率分布直方图和累积频率分布图;
(3)估计电子元件寿命在100~400 h以内的概率;
(4)估计电子元件寿命在400 h以上的概率.
【思路点拨】本题直接利用作频率分布直方图的步骤求解即可得到答案。
【解析】(1)频率分布表如下:
寿命(h)
频 数
频 率
累积频率
100~200
20
0.10
0.10
200~300
30
0.15
0.25
300~400
80
0.40
0.65
400~500
40
0.20
0.85
500~600
30
0.15
1
合 计
200
1
(2)频率分布直方图如下:
(3)由累积频率分布图可以看出,寿命在100~400 h内的电子元件出现的频率为0.65,所以我们估计电子元件寿命在100~400 h内的概率为0.65.
(4)由频率分布表可知,寿命在400 h以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h以上的概率为0.35.
【总结升华】画频率分布条形图、直方图时要注意纵、横坐标轴的意义,明确频率分布直方图中各小长方形的面积之和为1.
举一反三:
【变式1】根据《中华人民共和国道路交通安全法》规定:车辆驾驶员血液酒精浓度在20~80 mg/100mL(不含80)之间,属于酒后驾车;血液酒精浓度在80mg/100mL(含80)以上时,属醉酒驾车。据有关报道,2009年8月15日至8 月28日,某地区查处酒后驾车和醉酒驾车共500人,如图是对这500人血液中酒精含量进行检测所得结果的频率分布直方图,则属于醉酒驾车的人数约为( )
20 30 40 50 60 70 80 90 100
酒精含量
频率
组距
(mg/100mL)
0.015
0.01
0.005
0.02
A.25 B.50
C.75 D.100
【答案】C
【变式2】某部门计划对某路段进行限速,为调查限速60 km/h是否合理,对通过该路段的300辆汽车的车速进行检测,将所得数据按40,50,,,分组,绘制成如图所示频率分布直方图.则这300辆汽车中车速低于限速的汽车有
辆.
【答案】180。
【变式3】从某校随机抽取了名学生,将他们的体重(单位:)
数据绘制成频率分布直方图(如图),由图中数据可知= ,所抽取的学生中
O
40
45
50
55
60
体重(kg)
频率
组距
m
0.06
0.02
体重在的人数是 .
【答案】,.
【例9】对某校高三年级学生参加社区服务次数进行统计,随机抽取名学生作为样本,得到这名学生参加社区服务的次数.根据此数据作出了频数与频率的统计表和频率分布直方图如下:
分组
频数
频率
10
0.25
24
2
0.05
合计
1
频率/组距
15
25
20
10
0
30
次数
a
(Ⅰ)求出表中及图中的值;
(Ⅱ)若该校高三学生有240人,试估计该校高三学生参加社区服务的次数在区间内的人数;
(Ⅲ)在所取样本中,从参加社区服务的次数不少于20次的学生中任选2人,求至多一人参加社区服务次数在区间内的概率.
【思路点拨】(Ⅰ)(Ⅱ)利用某一已知组的频数和频率的关系可加以求解。
(Ⅲ)利用列举法列举出所有情况,再根据对立事件概率关系可以求解。
【解析】(Ⅰ)由分组内的频数是,频率是知,,
所以.
因为频数之和为,所以,.
.
因为是对应分组的频率与组距的商,所以.
(Ⅱ)因为该校高三学生有240人,分组内的频率是,
所以估计该校高三学生参加社区服务的次数在此区间内的人数为人.
(Ⅲ)这个样本参加社区服务的次数不少于20次的学生共有人,
设在区间内的人为,在区间内的人为.
则任选人共有
,15种情况,
而两人都在内只能是一种,
所以所求概率为.(约为)
【总结升华】
在频率分布表中,频数的和等于样本容量,频率的和等于1,每一小组的频率等于这一组的频数除以样本容量.频率分布直方图中,小矩形的高等于每一组的频率/组距,它们与频数成正比,小矩形的面积等于这一组的频率.对于开放性问题的回答,要选择适当的数据特征进行考察,根据数据特征分析得出实际问题的结论.
举一反三:
【变式】某校从高一年级学生中随机抽取60名学生,将其期中考试的数学成绩(均为整数)分成六段:,,…,后得到如下频率分布直方图.
(Ⅰ)求分数在内的频率;
(Ⅱ)根据频率分布直方图,估计该校高一年级学生期中
考试数学成绩的平均分;
(Ⅲ)用分层抽样的方法在80分以上(含80分)的学生中抽取一个容量为6的样本,将该样本看成一个总体,从中任意选取2人,求其中恰有1人的分数不低于90分的概率.
【解析】(Ⅰ)分数在内的频率为:
.
(Ⅱ)平均分为:
.
(Ⅲ)由题意,分数段的人数为:人;
分数段的人数为:人;
∵用分层抽样的方法在80分以上(含80分)的学生中抽取一个容量为6的样本,
∴分数段抽取5人,分别记为A,B,C,D,E;
分数段抽取1人,记为M.
因为从样本中任取2人,其中恰有1人的分数不低于90分,
则另一人的分数一定是在分数段,所以只需在分数段抽取的5人中确定1人.
设“从样本中任取2人,其中恰有1人的分数不低于90分为”事件,
则基本事件空间包含的基本事件有:(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),
(B,E),(C,D),(C,E),(D,E),(A,M),(B,M),(C,M),(D,M),(E,M)共15种.
事件包含的基本事件有(A,M),(B,M),(C,M),(D,M),(E,M)5种.
∴恰有1人的分数不低于90分的概率为.
【例10】某中学举行了一次“环保知识竞赛”,全校学生参加了这次竞赛.为了了解本次竞赛成绩情况,从中抽取了部分学生的成绩(得分取正整数,满分为100分)作为样本进行统计.请根据下面尚未完成并有局部污损的频率分布表和频率分布直方图(如图所示)解决下列问题:
组距
频率
成绩(分)
频率分布直方图
0.040
x
▓
0.008
▓
50
60
80
70
90
100
y
频率分布表
组别
分组
频数
频率
第1组
[50,60)
8
0.16
第2组
[60,70)
a
▓
第3组
[70,80)
20
0.40
第4组
[80,90)
▓
0.08
第5组
[90,100]
2
b
合计
▓
▓
(Ⅰ)写出的值;
(Ⅱ)在选取的样本中,从竞赛成绩是80分以上(含80分)的同学中随机抽取2名同学到广场参加环保知识的志愿宣传活动,求所抽取的2名同学来自同一组的概率;
(Ⅲ)在(Ⅱ)的条件下,设表示所抽取的2名同学中来自第5组的人数,求的分布列及其数学期望.
【思路点拨】(Ⅰ)利用某一已知组的频数和频率的关系可求得样本总频数和第四组频数,进而求出的值。
(Ⅱ)分两种情况:一,2人来自第4组,二,2人来自第5组。
(Ⅲ)由(Ⅱ)容易得到的可能取值为,再利用等可能事件概率求解。
【解析】(Ⅰ)由题意可知,.
(Ⅱ)由题意可知,第4组有4人,第5组有2人,共6人.
从竞赛成绩是80分以上(含80分)的同学中随机抽取2名同学有
种情况.
设事件:随机抽取的2名同学来自同一组,则
.
所以,随机抽取的2名同学来自同一组的概率是.
(Ⅲ)由(Ⅱ)可知,的可能取值为,则
,,.
所以,的分布列为
所以,.
【总结升华】本题考查频数,频率及频率分布直方图及概率知识,考查运用统计知识解决简单实际问题的能力,数据处理能力和运用意识。
举一反三:
【变式】为增强市民的节能环保意识,某市面向全市征召义务宣传志愿者.从符合条件的名志愿者中随机抽样名志愿者的年龄情况如下表所示.
(Ⅰ)频率分布表中的①、②位置应填什么数据?并在答题卡中补全频率分布直方图(如图),再根据频率分布直方图估计这名志愿者中年龄在岁的人数;
(Ⅱ)在抽出的名志愿者中按年龄再采用分层抽样法抽取人参加中心广场的宣传活动,从这人中选取名志愿者担任主要负责人,记这名志愿者中“年龄低于岁”的人数为,求的分布列及数学期望.
20 25 30 35 40 45 年龄 岁
分组
(单位:岁)
频数
频率
①
②
合计
【解析】(Ⅰ)①处填,②处填;
补全频率分布直方图如图所示.
名志愿者中年龄在 的人数为 人.
20 25 30 35 40 45 年龄 岁
(Ⅱ)用分层抽样的方法,从中选取人,
则其中“年龄低于岁”的有人,
“年龄不低于岁”的有人.
故的可能取值为,,;
,, ,
所以的分布列为:
P
∴ .
类型五、变量的相关性、回归分析和独立性检验
【例11】已知某地每单位面积菜地年平均使用氮肥量xkg与每单位面积蔬菜年平均产量yt之间的关系有如下数据:
年份
1985
1986
1987
1988
1989
1990
1991
1992
x(kg)
70
74
80
78
85
92
90
95
y(t)
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
年份
1993
1994
1995
1996
1997
1998
1999
x(kg)
92
108
115
123
130
138
145
11.5
11.0
11.8
12.2
12.5
12.8
13.0
y(t)
(1)求x与y之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg时,每单位面积蔬菜的年平均产量.
【思路点拨】
(1)使用样本相关系数计算公式来完成;
(2)查表得出显著性水平0.05与自由度15-2相应的相关系数临界比较,若则线性相关,否则不线性相关.
【解析】
(1)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
70
74
80
78
85
92
90
95
92
108
115
123
130
138
145
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
11.5
11.0
11.8
12.2
12.5
12.8
13.0
357
444
544
608.4
765
938.4
900
1140
1058
1188
1357
1500.6
1625
1766.4
1885
,,
,,.
故蔬菜产量与放用氮肥量的相关系数
.
由于n=15,故自由度15-2=13.
由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值,
则,
从而说明蔬菜产量与氮肥量之间存在着线性相关关系.
(2)设所求的回归直线方程为
则,
,
∴回归直线方程为.
【总结升华】求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心、谨慎地计算.如果会使用含统计的科学计算器,能简单得到,,,,这些量,也就无需有制表这一步,直接算出结果就行了.另外,利用计算机中有关应用程序也可以对这些数据进行处理.
举一反三:
【变式1】假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
若由资料可知y对x呈线性相关关系.试求:
(1)线性回归方程;
(2)估计使用年限为10年时,维修费用是多少?
【解析】
(1)列表如下:
i
1
2
3
4
5
2
3
4
5
6
2.2
3.8
5.5
6.5
7.0
4.4
11.4
22.0
32.5
42.0
4
9
16
25
36
, ,,
于是,
.
∴线性回归方程为:.
(2)当x=10时,(万元)
即估计使用10年时维修费用是12.38万元.
【变式2】一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间由如下一组数据:
x
1.08
1.12
1.19
1.28
1.36
1.48
y
2.25
2.37
2.40
2.55
2.64
2.75
x
1.59
1.68
1.80
1.87
1.98
2.07
y
2.92
3.03
3.14
3.26
3.36
3.50
(1)画出散点图;
(2)检验相关系数r的显著性水平;
(3)求月总成本y与月产量x之间的回归直线方程.
【解析】
(1)画出散点图:
(2)列表如下:
i
1
2
3
4
5
6
7
8
9
10
11
12
1.08
1.12
1.19
1.28
1.36
1.48
1.59
1.68
1.80
1.87
1.98
2.07
2.25
2.37
2.40
2.55
2.64
2.75
2.92
3.03
3.14
3.26
3.36
3.50
2.43
2.264
2.856
3.264
3.590
4.07
4.643
5.090
5.652
6.096
6.653
7.245
, =2.8475, =29.808, =99.2081,=54.243
在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值
r0.05=0.576<0.997891,
这说明每月产品的总成本y(万元)与该月产量x(万件)之间存在线性相关关系.
(3)设回归直线方程,
利用
计算a,b,得b≈1.215, ,
∴回归直线方程为:
【例12】电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.
图1-6
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计
男
女
10
55
合计
P(χ2≥k)
0.05
0.01
k
3.841
6.635
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中.采用随机抽样方法每次抽取1名观众,抽取3次.记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X).
附:
【思路点拨】利用已知所给频率分布直方图求出“体育迷”人数,进而完成2×2列联表,求出;利用二项分布求解。
【解析】(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
非体育迷
体育迷
合计
男
30
15
45
女
45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,得
因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.
(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.
由题意X~B(3,)从而X的分布列为
X
0
1
2
3
P
E(X)=np=3×=.
D(X)=np(1-p)=3××=
【总结升华】本题主要考查统计中的频率分布直方图、独立性检验、离散型随机变量的分布列,期望和方差,考查分析解决问题的能力、运算求解能力,难度适中。
举一反三:
【变式1】下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗(吨标准煤)的几组对照数据.
3
4
5
6
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤.试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:,
用最小二乘法求线性回归方程系数公式:,)
【解析】
(1)略;
(2)
法一:由系数公式可知,
,所以线性回归方程为;
法二:(不作要求)
设线性回归方程为,则
∴时,
取得最小值
即,
∴时取得最小值,
所以线性回归方程为.
(3)x=100时,,
所以预测生产100吨甲产品的生产能耗比技术改造前降低19.65吨标准煤.
【变式2】某产品的广告费用x与销售额y的统计数据如下表
(万元)
4
2
3
5
(万元)
49
26
39
54
根据上表可得回归方程中的为9.4,据此模型预报广告费用为6万元时销售额为
(A)63.6万元 (B)65.5万元 (C)67.7万元 (D)72.0万元
【思路点拨】本题可先利用公式求出回归直线方程,再预报广告费用为6万元时销售额.
【解析】由表可计算,,因为点在回归直线上,且为9.4,所以, 解得,故回归方程为, 令x=6得65.5,选B.