- 559.00 KB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
概率论与数量统计一、连续型随机变量分布函数及其概率密度1.概率密度与它的基本性质设对于随机变量x的分布函数F(x),如果存在非负可积函数f(x),使得对任意的实数x,都有成立,则称x为连续型随机变量,f(x)便是x的概率密度(或分布密度)。概率密度具有如下基本性质:(1)(非负性);(2)(规范性);(3)对任何实数c,有;对任意的实数a,b(aa为常数。则称服从区间(a,b)上的均匀分布,简记为。均匀分布是等可能概型在连续情形下的推广。(4)正态分布设随机变量有概率密度其中,为常数。则称服从参数为,的正态分布,简记为。特别,当=0,=1时,有。此时称服从标准正态分布。简记为~N(0,1)。5.概率密度与分布函数的互求当概率密度给定时,运用逐段积分可求得分布函数。即,如此得到的分布函数是定义在整个实数轴上的连续函数。反之,当分布函数已知时,在f(x)的连续点上运用逐段微分可求得概率密度。即。可见,连续型随机变量的概率密度和分布函数亦可以相互唯一确定。6.给定分布时的概率计算小结(1)分布律已知时的概率计算公式是(2)概率密度已知时的概率计算公式是(3)分布函数已知时的概率计算公式是(4)正态分布下的概率计算公式是其中r.v.x~;F(x)为标准正态分布函数。当x>0时其数值可查标准正态分布函数数值表(以下简称正态分布表)直接得到;对于负实数x,在公式F(x)=1-F(-x)转化下,仍可查表求值。二.随机变量函数的分布随机变量x的函数在一定条件下仍是随机变量。h的分布可由x的已知分布确定。但在求h的分布具体处理方法上,离散型和连续型是有区别的。1.离散型随机变量x的函数分布设x为一离散型随机变量,其分布律为x1x2…xn…pip1p2…pn…\n则当诸的值互异时,h的分布律为……pip1p2…pn…如果中有某些值相同时,则将相应概率相加之后予以合并处理,必要时重新排序后写出h的分布律。可见,在离散型场合下,h的分布律完全由x的分布律确定。2.连续型随机变量x的函数分布设x为连续型随机变量,其概率密度为,则仍为连续型随机变量,其概率密度的计算步骤为:(1)根据x的概率密度,求出的分布函数其中,(2)对求导得的概率密度在函数可导且严格单调时,的概率密度为,其中是严格单调可微函数(与对应的普通函数)的反函数。至于的取值范围,原则上将由中x的取值范围及中的的允许范围讨论确定。可见,连续型场合下,的概率密度完全由x的概率密度确定。3.连续型随机向量的函数的分布P97如卷积公式卷积公式:设的联合密度函数为,求的密度函数。如果是相互独立的随机变量,则有(卷积公式)4.随机向量的数字特征P104协方差协方差矩阵相关系数设为二维随机变量,第四章数理统计的基础知识4.1总体与样本一、总体与总体分布定义4.1在统计学中称随机变量(或向量)X为总体,并把随机变量(或向量)X的分布称为总体的分布。二、样本与样本分布4.2称为总体X的简单随机样本,若是独立同分布的随机变量,且与总体X同分布。样本中所含分量的个数n称为该样本的容量。以大写的英文字母表示随机变量,而以相应的小写英文字母表示它的观察值,并称样本的一组具体的观察值为样本值。设总体X的分布函数为,则由定义4.2知,样本的分布函数为称之为样本分布。若总体X为连续型随机变量,其密度函数为,则样本的密度函数为。三、统计推断问题简述即借助总体X的一个样本,对总体X的未知分布进行推断,我们把这类问题统称为统计推断问题。4.2统计量一、统计量的定义定义4.3设为总体X的一个样本,称此样本的任一不含总体分布未知参数的函数为该样本的统计量。如二、常用的统计量\n1.样本均值称样本的算术平均值为样本均值,记为,即2.样本方差更多时候用修正样本方差3.样本标准差4.样本原点矩,并称为样本的k阶原点矩。5.样本中心矩,,并称为样本的k阶中心矩。三、枢轴量仅含一个未知参数,但其分布却已知的样本函数称为枢轴量。如总体,其中已知,未知,为总体的一个样本,令,上述函数U中虽然含有未知参数,但总有,故U是一枢轴量,可以对作统计推断。4.3常用的统计分布一、分位数定义4.4设随机变量X的分布函数为,对给定的实数如果实数满足即或则称为随机变量X的分布的水平的上侧分位数。或直接称为分布函数F(x)的水平的上侧分位数。定义4.5设X是对称分布的连续型随机变量,其分布函数为,对给定的实数如果正实数满足即则称为随机变量X的分布的水平的双侧分位数,也简称为分位数,或直接称为分布函数的水平的分位数。二、分布在第二例2.29:若,则的密度函数为(4.17)命题4.1设是n个相互独立的随机变量,且,i=1,2,…,n,则的密度函数为(4.18)其中是(伽马)函数。定义4.6一个随机变量X称为服从以n为自由度的分布,如果其密度函数由(4.18)给出,记作。(命题4.1证明)由(4.17)知,当n=1时,(4.18)成立,使用数学归纳法,设n=k时,(4.18)成立,令\n,。由归纳假设及(4.17)知:的密度函数分别为由于皆为非负的随机变量且相互独立,由第3章的卷积公式可推知,当z>0时,y的密度函数可按下式计算:=其中倒数第二个等式中使用了贝塔函数的定义:以及贝塔函数和伽马函数的关系:命题4.2(1)若,,且X与Y相互独立,则。(2)若,则。三、分布设,,且X与Y相互独立,记。(4.19)命题4.3设Z由(4.19)所定义,则Z的密度函数为:,x>0(4.20)其中是B函数。定义4.7如果一个随机变量X的密度函数由4.20给出,则称其服从第一自由度为m,第二自由度为n的F分布,记作。而且由命题4.3可得到:,则。(命题4.3证明)因为,,由定义4.6知,X与Y的密度函数分别为设从而由于X,Y皆为非负的随机变量且相互独立,由第三章的例3.16可知,当z>0时,随机变量的密度函数可按下式计算:\n==,再由于当z>0时,即知随机变量z的密度函数可以表示为四、分布设,,且X与Y相互独立,记,(4.22)由(4.22)可推知。命题4.4(4.22)所定义的随机变量的密度函数为(4.23).定义4.8如果一个随机变量X的密度函数由(4.23)给出,则称其为服从自由度为n的分布,记作(命题4.4证明)T的密度函数也是对称函数(习题四的第5题)。其次,以分别表示的密度函数,由于T具有对称的密度函数,不难证明,当t>0时,(习题四第6题)。现设,且由命题4.3知,随机变量F的密度函数为再注意到,由练习2-5的第9题可知,当t>0时,应有:。于是,当t>o时,(4.23)式是成立的,再由于是对称函数,可知当x<0时,(4.23)式也成立。4.4抽样分布定理4.1设总体,是容量为n的一个样本,与分别为此样本的样本均值与样本方差,则有:(1)~(2)(3)与相互独立。(证明在P146)定理4.2设总体,是容量为n的一个样本,与分别为此样本的样本均值与样本方差,则有:(1)~(2)(3)\n第5章参数估计与假设检验一、点估计二、评价估计量的标准评价估计量的标准,无偏性、有效性、一致性。设总体X服从[0,θ]上的均匀分布,由上节例7可知,都是θ的估计,这两个估计哪一个好?下面我们首先讨论衡量估计量好坏的标准问题.1.无偏性定义7.2若估计量(X1,X2,…,Xn)的数学期望等于未知参数θ,即:,(7.6)则称为θ的无偏估计量(Non-deviationestimator)。样本方差有2种表达方式:(1)(2)(2)是无偏估计,证明如下:2.有效性设和都是未知参数θ的无偏估计,若对任意的参数θ,有D()≤D(),则称比有效.3.一致性定义如果n依概率收敛于θ,即ε>0,有,则称是θ的一致估计量。三、区间估计(给定一个置信水平、确定参数的置信区间):是的一个估计量,为一个随机区间,若该区间套住的概率等于事先指定的数,即(1),则是的一个置信区间,对(1)进行变换有:①,已知:,~,,②大样本(n≥30)条件下:,,,,③,未知:,,,,其中:和为分位数,即,。称为估计误差。置信水平的直观意义是:如有m个样本,则m个样本就有m个置信区间,其中有置信水平(如95%)个区间套住了总体参数。P74第6章假设检验————————————————————————————————————————————————1.假设检验的格式通常为:原假设H0,备选假设H1。其中原假设往往是我们想要证明不成立的,备选假设是想要留下的。比如:(A)H0:;H1:(B)H0:;H1:(C)H0:;H1:(注意含有等号的符号放在原假设里)。如果备选假设含有符号≠,这样的检验称为双侧检验:|统计量|﹥临界值,拒绝原假设。临界值通常有:,如果备选假设含有符号﹤,这样的检验称为左侧检验:统计量的值﹤-临界值,拒绝原假设。临界值通常有:,如果备选假设含有符号﹥,这样的检验称为右侧检验:统计量的值﹥临界值,拒绝原假设。临界值通常有:,2.总结:假设检验就是构造一个与假设参数相关的统计量,再确定该统计量的分布,把这个统计量与显著性水平对应的分位数或等进行比较,如果落在这些分位数的外侧,则拒绝原假设。或者计算这个统计量对应的p值,即2P(X≥|统计量的值|)<(双侧检验时),P(X≤-统计量的值)<(左侧检验时),P(X≥统计量的值)<(右侧检验时),则拒绝原假设。假设检验与区间估计的关系:假设检验是区间估计的延续,如假设某一总体的参数为,通过抽取样本发现在某一置信水平如95%的情况下的置信区间不包括该参数,这意味着抽取100个样本中,有95个置信区间都不包括该参数,因此=不合适。第7章分类变量的推断————————————————————————————————————————————一个分类变量的拟合优度检验:,为观察频数,为期望频数,该统计量服从自由度为k-1的分布;k为类别个数。如果统计量为0,表明观测频数与期望频数完全一致;如果显著不为0,越大说明观测频数与期望频数存在显著差异。\n两个分类变量的拟合优度检验:,为观察频数,为期望频数,该统计量服从(r-1)(c-1);r为行数c为列数第8章方差分析与实验设计————————————————————————————————————————————思考一个性别对身高是否有显著影响的例子,抽取某个班作为样本,得到如下表中的数据,i为水平(处理),总的平均身高=1.66。男生i=1样本容量为n1y11=1.73y12=1.72……女生i=2样本容量为n2y21=1.61y22=1.64……如果条件一样,则都为,现在出现了不同,这种偏差(总误差)为,由于性别产生的偏差(组间误差)为,由于性别之外产生的偏差(组内误差)为。。~。如果(1)时;或(2)P(X≥F值)<时,拒绝原假设,认为性别对身高有显著影响。第9章一元线性回归———————————————————————————————————————————————回归模型:估计的回归方程:采用最小二乘法求参数和:令,则有和。有:,。求:=SSR/SST,,,,。求估计标准误差:。线性关系检验:。回归系数标准差的估计量:,回归系数显著性检验:~。