- 351.00 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
专题03概率与统计
一、古典概型
(一)事件的关系与运算(类比集合的关系与运算)
定义
符号表示
包含关系
如果事件发生,则事件一定发生,这时称事件包含事件(或称事件包含于事件)
(或)
相等关系
如果事件发生,则事件一定发生,且如果事件发生,则事件也一定发生,这时称事件等于事件.
并事件(和事件)
若某事件发生当且仅当事件发生或事件发生,称此事件为事件与事件的并事件
(或)
交事件(积事件)
若某事件发生当且仅当事件发生且事件发生,则称此事件为事件与事件的交事件
(或)
互斥事件
若为不可能事件,则事件与事件B互斥
对立事件
若为不可能事件,为必然事件,那么称事件与事件互为对立事件
注“互斥事件”与“对立事件”的区别及联系:两个事件与是互斥事件,有如下三种情况:①若事件发生,则事件就不发生;②若事件发生,则事件就不发生;③事件,都不发生.两个事件与是对立事件,仅有前两种情况.因此,互斥未必对立,但对立一定互斥.
(二)概率的几个基本性质
(1)概率的取值范围:.(2)必然事件的概率.
(3)不可能事件的概率(4)几个互斥事件和事件概率的加法公式
①如果事件与事件互斥,则.
推广:如果事件,,…,两两互斥(彼此互斥),那么事件
发生的概率,等于这个事件分别发生的概率的和,即.
②若事件与事件互为对立事件,则.
(三)古典概型
1.基本事件的特点
(1)任何两个基本事件都是互斥的. (2)任何事件都可以表示成基本事件的和(除不可能事件).
2.古典概型
(1)试验中所有可能出现的基本事件只有有限个,即有限性.(2)每个基本事件发生的可能性相等,即等可能性.(3)古典概型的概率公式:P(A)=.
(四)几何概型
1.几何概型
如果每个事件发生的概率只与构成该事件区域的长度(面积或体积)成比例,则称这样的概率模型为几何概率模型,简称几何概型.
2.几何概型的概率公式
P(A)=
3.随机数
随机数是在一定范围内随机产生的数,并且得到这个范围内任何一个满足条件的数的机会是均等的.利用计算器,Excel,Scilab等都可以产生随机数.
二、用样本估计总体
(一)抽样方法
1.简单随机抽样
设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本,如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样,最常用的简单随机抽样的方法:抽签法和随机数表法.
2.系统抽样的步骤
假设要从容量为的总体中抽取容量为的样本.
(1)先将总体的个个体编号.(2)确定分段间隔,对编号进行分段,当是整数时,取
.如果遇到不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除
(3)在第1段用简单随机抽样确定第一个个体编号.(4)按照一定的规则抽取样本,通常是将加上间隔得到第2个个体编号,再加得到第3个个体编号,依次进行下去,直到获取整个样本.
3.分层抽样
在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.分层抽样的应用范围:当总体是由差异明显的几个部分组成的,往往选用分层抽样.
注:不论哪种抽样方法,总体中的每一个个体入样的概率是相同的.
(二)统计图表的含义
作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差).(2)决定组距和组数.(3)将数据分组.(4)列频率分布表.
(5)画频率分布直方图.
(三)样本的数字特征
1.众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.
2.中位数:将一组数据按大小依次排列,把处在中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数
3.平均数:样本数据的算术平均数,即.
4.方差:(是样本数据,是样本容量,是样本平均数).
5.标准差:.
三、统计案例
(一)线性回归直线方程
1.两个变量的线性相关
(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为正相关;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为负相关.
(3)相关系数r=,当时,表示两个变量正相关;当时,表示两个变量负相关.的绝对值越接近1,表示两个变量的线性相关性越强;的绝对值越接近0,表示两个变量的线性相关性越弱.通常当的绝对值大于时,便认为两个变量具有很强的线性相关关系.当时,两个变量在回归直线上
2.回归直线方程
(1)通过求的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.该式取最小值时的,的值即分别为,.
(2)两个具有线性相关关系的变量的一组数据:,,…,,其回归方程为,则.
注:样本点的中心一定在回归直线上.
(3)相关系数.越大,说明残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,表示解释变量对于预报变量变化的贡献率,越接近于1,表示回归的效果越好.
(二)独立性检验
(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)像下表所示列出两个分类变量的频数表,称为列联表.假设有两个分类变量和,它们的可能取值分别为和,其样本频数列联表(称为列联表)为
y1
y2
总计[
x1
a
b
x2
c
d
总计
构造一个随机变量 ,其中为样本容量.确定临界值,如果的观测值,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.