- 923.00 KB
- 2021-06-25 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
专题03概率与统计
一、概率及随机变量的分布列、期望与方差
(一)概率及其计算
1.几个互斥事件和事件概率的加法公式
①如果事件与事件互斥,则.
推广:如果事件,,…,两两互斥(彼此互斥),那么事件发生的概率,等于这个事件分别发生的概率的和,即.
②若事件与事件互为对立事件,则.
2.古典概型的概率公式
P(A)=.
(二)随机变量的分布列、期望与方差
1. 常用的离散型随机变量的分布列
(1)二项分布
如果随机变量的可能取值为0,1,2,…,n,且取值的概率 (其中),其随机变量分布列为
0
1
…
k
…
n
…
…
则称服从二项分布,记为.
(2)超几何分布
在含有件次品的件产品中,任取件,其中恰有件次品,则事件发生的概率为,其中,且,,,,.此时称随机变量的分布列为超几何分布列,称随机变量服从超几何分布.
2.条件概率及相互独立事件同时发生的概率
I.条件概率
一般地,设,为两个事件,且,称为事件发生的条件下,事件发生的条件概率.在古典概型中,若用表示事件中基本事件的个数,则.
II.相互独立事件
(1)若相互独立.则.
(3)若与相互独立,则与,与,与也都相互独立.
III.独立重复试验与二项分布
在次独立重复试验中,事件发生次的概率为(每次试验中事件发生的概率为),事件发生的次数是一个随机变量,其分布列为,此时称随机变量服从二项分布.
3.离散型随机变量的数学期望(均值)与方差
(1)若离散型随机变量的概率分布列为
X
x1
x2
…
xi
…
xn
P
p1
p2
…
pi
…
pn
则称为随机变量的均值或数学期望.
(2)若,则,.
(3)若,则..
4.正态分布
(1)正态曲线的性质:
①曲线位于轴上方,与轴不相交;②曲线是单峰的,它关于直线对称;③曲线在处达到峰值;④曲线与轴之间的面积为1;⑤当一定时,曲线的位置由确定,曲线随着的变化而沿轴平移,⑥当一定时,曲线的形状由确定,越小,曲线越“瘦高”,表示总体的分布越集中;越大,曲线越“矮胖”,表示总体的分布越分散,如图乙所示.
(3)服从正态分布的变量在三个特殊区间内取值的概率
①;②;
③.
二、统计与统计案例
(一)抽样方法
1.简单随机抽样
设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本,如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样,最常用的简单随机抽样的方法:抽签法和随机数表法.
2.系统抽样的步骤
假设要从容量为的总体中抽取容量为的样本.
(1)先将总体的个个体编号.(2)确定分段间隔,对编号进行分段,当是整数时,取.如果遇到不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除
(3)在第1段用简单随机抽样确定第一个个体编号.(4)按照一定的规则抽取样本,通常是将加上间隔得到第2个个体编号,再加得到第3个个体编号,依次进行下去,直到获取整个样本.
3.分层抽样
在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.分层抽样的应用范围:当总体是由差异明显的几个部分组成的,往往选用分层抽样.
注:不论哪种抽样方法,总体中的每一个个体入样的概率是相同的.
(二)统计图表的含义
1.作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差).(2)决定组距和组数.(3)将数据分组.(4)列频率分布表.
(5)画频率分布直方图.
(三)样本的数字特征
1.众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.
2.中位数:将一组数据按大小依次排列,把处在中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数
3.平均数:样本数据的算术平均数,即.
4.方差:(是样本数据,是样本容量,是样本平均数).
5.标准差:.
(四)线性回归直线方程
1.两个变量的线性相关
(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为正相关;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为负相关.
(3)相关系数
r=,当时,表示两个变量正相关;当时,表示两个变量负相关.的绝对值越接近1,表示两个变量的线性相关性越强;的绝对值越接近0,表示两个变量的线性相关性越弱.通常当的绝对值大于时,便认为两个变量具有很强的线性相关关系.当时,两个变量在回归直线上
2.回归直线方程
(1)通过求的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.该式取最小值时的,的值即分别为,.
(2)两个具有线性相关关系的变量的一组数据:,,…,,其回归方程为,则.
注:样本点的中心一定在回归直线上.
(3)相关系数.越大,说明残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,
表示解释变量对于预报变量变化的贡献率,越接近于1,表示回归的效果越好.
(六)独立性检验
(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)像下表所示列出两个分类变量的频数表,称为列联表.假设有两个分类变量和,它们的可能取值分别为和,其样本频数列联表(称为列联表)为
y1[来源: ]
y2
总计
x1
a
b
x2
c
d
总计
构造一个随机变量 ,其中为样本容量.确定临界值,如果的观测值,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.