统计学讲义最新稿 29页

  • 1.72 MB
  • 2022-08-13 发布

统计学讲义最新稿

  • 29页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第二章统计量及其分布在概率论的学习中,我们已经知道,随机变量及其概率分布全面描述了随机现象的统计规律性,但在实际问题的研究中概率分布往往是未知的。本章我们要讨论统计量的分布,找到总体参数与统计量的分布之间的联系,进而通过样本去推断总体的数字特征。第一节总体与样本一、总体统计学把所要研究的事物或现象的全体称为总体,而把构成总体的每个元素(成员)称为个体。要研究10,000名在校大学生,10,000名大学生就构成总体,每位大学生就是个体。实际问题的研究中,我们关心的往往不是大学生(个体)的一切方面,而是它的某个数量标志,比如大学生的身高,这时所有的身高就构成总体,总体表现为一个数据集,其中有的数值大有的数值小,有的出现机会多,有的出现机会少,记身高为X,它是一个随机变量,记其分布函数为F(x)。可以把X的所有可能取值看做总体,并称这一总体为具有分布函数F(x)的总体。总体也可以是多维的,如研究大学生的身高对体重的影响,身高和体重这两个数量标志就构成二维随机变量(X1,X2),其取值的全体就构成总体,即二维总体,记二维随机变量(X1,X2)的联合分布函数为F(x1,x2),称这一总体为具有分布函数F(x1,x2)的总体。二、样本统计学对总体的研究是以样本为工具的。为了掌握总体的分布规律,从总体中随机抽取n个个体,其标志值(比如身高数值)记为(x1,x2,…,xn),则(x1,x2,…,xn)称为总体的一个样本,样本包含的个体的数目n称为样本容量。由于样本是从总体中随机抽取的,抽取前无法预知它的数值,每个Xi(1,2,…n)都是一个随机变量,样本(X1,X2,…,Xn)则是一个n维随机变量。样本在抽取后就有确定的观测值,表现为n个具体的数据(x1,x2,…,xn).三、简单随机样本抽取样本是手段,推断总体才是目的。为使样本更好的反映总体的信息,对样本抽取有两个基本要求。一是样本具有随机性,总体中每个个体都有同等可能性进入样本,即每个Xi与总体X具有相同的分布F(x).二是样本满足独立性,即X1,X2,…,Xn相互独立,每一Xi的取值不影响另一Xi的取值。如果从总体中抽取样本(),其每个分量()都与总体具有相同的概率分布,且相互独立,则这样的抽样方法称为简单随机抽样,而如此得到的样本,称为简单随机样本。如果总体具有分布函数或概率密度,显然来自总体的简单随机样本()具有联合概率分布.四、总体分布函数与样本分布函数样本是总体的代表,简单随机样本能较好的代表总体,其代表性到底如何呢?设x1,x2,…,xn是取自分布函数为F(x)的总体的样本,表示随机事件在这次重复独立观测中出现的次数,即个观测值中小于等于的个数。若重复进行次抽样,对于同一个,29\n可能取不同数值,实际上是一个统计量,从而是随机变量。将样本观测值按升序排列,记为x(1),x(2),…,x(n),定义如下函数则Fn(x)是一单调非减、右连续函数,且满足有界性,即Fn(-)=0Fn(+)=1由此可见,Fn(x)是一个分布函数,称为样本分布函数(经验分布函数).对于每一固定的x,Fn(x)是事件{Xx}发生的频率,当n固定时,不同的样本观测值x1,x2,…,xn将有不同的Fn(x),Fn(x)是一随机变量。例1.某食品厂用自动罐装机罐装牛肉罐头,由于随机性,每个罐头的重量都有差别。现从生产线上随机抽取10罐,重量数据如下峁诗松,周纪芗.概率论与数理统计.中国统计出版社,2007.:344,336,345,342,340,338,344,343,344,343容易得到样本分布函数格里纹科定理:设x1,x2,…,xn是取自总体分布函数(理论分布函数)为F(x)的样本,Fn(x)是样本分布函数,有定理表明,当n充分大时,样本分布函数是总体分布函数的一个良好的近似,这就是为什么我们用样本推断总体的理由。第二节几种重要的概率分布一、正态分布若随机变量X的密度函数为,则称X服从正态分布,记为.参数,.正态分布的分布函数为F()=29\n中心极限定理表明,大量均匀微小且相互独立的因素综合作用的结果,其变量可用正态分布近似。自然现象、社会经济现象中很多变量可作为正态分布处理。正态分布具有如下性质:(1)所有的正态分布构成一个分布族,每一特定的正态分布通过其均值和标准差来区分。(2)正态分布的概率密度曲线在均值处达到最大。(3)正态分布的均值可以是任意数值:负数、零或正数。均值决定正态分布的位置。(4)正态分布是对称分布,以为对称轴,均值左边的曲线形状是均值右边的曲线形状的镜像,曲线向两端无限延伸,但不会和轴相交。(5)标准差决定曲线的平坦程度,标准差越小,曲线越陡峭,的分布越集中;标准差越大,曲线越平坦,的分布越分散。下图是正态分布的密度函数曲线。把0,1的正态分布称为标准正态分布。记标准正态变量为Z,其密度函数为,分布函数为,有=,z29\n=,z例1.设利用附表计算下列事件的概率(1)=0.3413(2)=0.3413+0.3413=0.6826(3)=0.4772+0.4772=0.9544(4)=0.50.4429=0.0571(5)=0.1915+0.5=0.6915(6)=0.1016若,则Z=(证明从略)。例2.设随机变量,试求(1);(2)常数,使.解.(1)(2)由,解得,所以.若Z,当P(Z)=1-时,称作标准正态分布的1-分位数。常用的有:.29\n一般地,设连续随机变量的分布函数为,密度函数为,对任意的,称满足条件的为该分布的分位数,或称下侧分位数.同理可定义上侧分位数,和可相互转换,即有;.二、卡方分布若是相互独立的随机变量,且均服从于标准正态分布,则服从分布。分布的密度函数(证明从略)为其中是它的参数,称为自由度。下图是分布的密度函数曲线。0分布的数学期望为:,方差为:.若,,且和相互独立,则,即分布具有可加性。当自由度足够大时,分布的概率密度曲线趋于对称。分布的极限分布是正态分布,设对任意实数,有29\n说明当充分大时,近似服从标准正态分布,也就是近似服从.当随机变量时,对给定的(0﹤﹤1),称满足P((n))=1-的(n)是自由度为n的卡方分布的1-分位数。若n=10,=0.05,查表可得(10)=(10)=18.31.三、t分布若,,且与相互独立,则随机变量服从自由度为的分布,且记为。分布的密度函数(证明从略)为。0下图是分布的密度函数曲线。自由度为1的分布称为柯西分布,其密度函数为29\n柯西分布的数学期望不存在。当分布的数学期望存在且为1;当,分布的方差存在,且为.当自由度较大时,分布可以用分布近似,即有若随机变量,称满足P(t(n))=1-的(n)是自由度为n的t分布的1-分位数。当n=10,=0.05,(10)=(10)=1.812.四、F分布若与是相互独立的随机变量,,.则随机变量服从自由度为的分布,记为,分布的密度函数(证明从略)为下图是分布的密度函数曲线。0当随机变量时,对给定的(0﹤﹤1),称满足P(F)=1-的是自由度为m与n的F分布的1-分位数。29\n如果,由定义易知对给定的,应有即从而得又因为比较两式可得如。分布,分布和分布的密度函数中都出现了函数,它是数学分析中的一种特殊函数,形式为。上式中的积分很难直接计算,同样这三种分布的分布函数也是很难直接求解,常用制表的方法给出它的数值,实际应用中可查表求随机变量落在各区间中的概率。第三节统计量及其分布一、统计量样本是总体的代表,但不能直接用样本推断总体,首先要对样本进行加工,把样本中关于总体的信息集中起来,也就是针对不同问题构造出样本的某种函数。设()为来自总体的一个样本,则称不包含任何未知参数的实值函数为一个统计量。例如,是从正态总体中抽出的样本,其中,是未知参数,则,,都是统计量,因为它们不含有未知参数。而,则不是统计量。29\n必须注意,统计量中不能含有未知参数,但允许含有已知参数。例如:设总体X~N(μ,σ2),从中抽取一个样本(X1,X2,…,Xn),那么,当μ,σ2已知时,是一个统计量,而当μ,σ2中有一个未知时,就不是统计量了。虽然统计量的构造不依赖于未知参数,但统计量的分布一般是依赖未知参数的。统计量是一个随机变量,统计量的分布称为抽样分布。二、常用统计量设()是从总体中抽取的样本,称统计量为样本均值,称统计量为样本方差;而称为样本标准差;称统计量为样本阶原点矩;称统计量为样本阶中心矩。显然三、样本均值的分布由于统计量都是随机变量,都有一定的概率分布,我们把统计量的分布称为抽样分布。样本均值,样本方差,样本比例的分布是最常用的抽样分布。下面先讨论样本均值的概率分布。29\n1.设是来自具有均值及方差的总体的简单随机样本()的均值,则,证明由此可知,不论总体的分布如何,从中抽样,其样本均值的数学期望与总体的期望相等,而方差则是总体方差的倍。当样本()是由有限总体的无放回抽样所得的样本时,由于它的个分量()不能假定为相互独立,因此定理中的第2个公式不再成立,而需要乘上一个修正因子,即有以下定理。设()是取自容量为且有均值及方差的有限总体的无放回样本,则,证明从略。由于当时,修正因子的数值接近1,故修正因子一般在总体有限而样本容量大于总体的5%的情况下使用。2.设()是来自正态总体的一个样本,则(1)样本均值(2)统计量证明:正态分布具有可加性:设且与独立,则.这一结论可推广到有限个独立正态变量之和的场合,即有;此外,若则对任意非零实数a有aX29\n。任意n个相互独立的正态变量的线性组合仍是正态变量,即其中故所以3.当总体分布未知或不服从正态分布时,若则较大时的渐近分布即较大时的近似分布为.当样本来自非正态总体时,其样本均值的抽样分布又是怎样的呢?为了回答这一问题,先来回顾概率论中的独立同分布中心极限定理。设随机变量相互独立,服从同一分布,且具有有限的期望和方差,,则随机变量的分布函数对任意,满足当很大时,近似地有而由可知,当很大时,近似地有29\n这就是说,若容量为的简单随机样本取自有限均值及方差的总体,无论这个总体服从何种分布,当很大时,其样本均值均近似服从正态分布,这一结论有广泛的适用性。因为就实际情况而论,一般变量的变化范围都是有限的,故其均值和方差必定是有限的。中心极限定理的条件,应用时容易被满足。一般情况下,当样本容量时,的抽样分布均能很好地接近正态分布。4.二维正态总体的情况设样本()和分别来自正态总体和,且相互独立,则统计量其中,,证明所以有从而相关定理(见下页)可以给出,二者相互独立,由分布的可加性得到29\n由定义得到当时有四、样本方差的分布1.设()是来自正态总体的一个样本,则样本均值与样本方差相互独立,并且有证明从略。有如下推论:设()是来自正态总体的一个样本,则统计量证明且与相互独立。因为相互独立的随机变量的线性函数依然相互独立关于随机变量函数的独立性,需要了解下述结论:(1).随机变量与相互独立,则与相互独立;(2).设是个相互独立的随机变量,其中,则其部分与相互独立,它们的函数与也相互独立.,故与相互独立。再由t分布知29\n2.二维正态总体的情况设样本()和分别是来自正态总体和,且相互独立,则统计量证明容易得到,因两个样本是相互独立的,所以与也相互独立,从而有当时,有五、样本比例的分布(大样本情况下)如果一次随机试验只有两种结果与,则这样的试验称为贝努里试验。由n次相同的、独立的贝努里试验组成的随机试验称为n重贝努里试验。设p为每次成功的概率,为n重贝努里试验中成功的次数,有这个概率分布称为二项分布,记为。n=1时的二项分布b(1,p)又称为两点分布或称0-1分布。易知,.若记从总体中抽取一个容量为的样本(),则每个29\n也只能取1或0两个值中的一个,从而的和表示样本中出现不合格品的次数,进而样本平均值则表示不合格品在容量为的样本中出现的比率(),即不合格率。由于,于是当很大时,根据中心极限定理棣莫弗-拉普拉斯极限定理:设n重贝努里试验中,事件A在每次试验中出现的概率为p,记为n次试验事件A出现的次数,且记,则对任意实数,有.,亦应近似有或即29\n第三章参数估计参数估计就是用样本统计量去估计总体的参数。比如,用样本均值估计总体均值,用样本方差估计总体方差,等等。参数估计中用来估计总体参数的统计量的名称,称之为估计量,样本均值、样本方差等都可以是一个估计量,而根据一个具体的样本计算出来的估计量的数值,称之为估计值。点估计是参数估计的一种重要形式。设是来自总体的一个样本,用统计量的取值作为的估计值,就称为的点估计量。如何构造点估计量没有固定的程式,但要考虑两个问题:一是如何给出估计,即估计的方法问题;二是估计量的优劣问题,即提出估计量的优良标准。区间估计是以样本为依据,给出未知参数的一个范围,使它以比较大的可能性包含未知参数的真值。第一节点估计的常用方法一、矩估计法矩估计法是英国统计学家K.皮尔逊在1894年提出的估计方法。它用样本矩替代总体矩(原点矩或中心矩),用样本矩的函数替代总体矩的同一函数。矩估计法的基本思想是用样本分布函数替代总体分布函数。设总体为连续型随机变量(概率密度为)或离散型随机变量(分布率为),其中为待估参数,若阶矩存在,则其i(i=1,2,…,k)阶矩或(i=1,2,…,k)是的函数,由上述k个方程解出,(i=1,2,…,k)在上述k个方程中,用样本矩替代,于是得到参数的矩估计量,即,(i=1,2,…,k)例1.总体服从指数分布,概率密度函数为029\n是来自总体的样本,求参数的矩估计量。解因为所以有,于是得到例2.求总体的均值和方差的矩估计.解设是的一个样本,由于所以于是二、最大似然估计最大似然估计是英国统计学家费歇尔于1912年提出的。最大似然估计的基本思想是:随机试验有A,B,C,…若干试验结果,若在一次试验中A发生了,则认为试验条件对A出现有利,即A出现的概率大。设总体是离散型随机变量,的分布律的形式已知,是未知参数,是来自总体的一组样本观察值,这组样本观察值出现的概率是完全确定的,此时未知,如何用样本观察值来估计呢?既然事件在一次观察中出现了,根据最大似然估计的思路,上述概率应该比较大。把上述概率记为L(),称为似然函数,求的最大似然估计,就是求出29\n的估计值,使L()达到最大。例3.总体的分布律为次试验后,三种结果发生的次数分别为,求的最大似然估计。解似然函数为L()=其对数似然函数为关于求导,并令其为零解之得由于所以是的最大似然估计。对于连续型随机变量,一次试验中得到样本观察值,因此可以认为样本落在的邻域内的概率最大,即也称为似然函数,和有同样的极大值点。例4.设为来自总体的样本观察值,求的最大似然估计。解的密度函数为29\n似然函数为令解之得最大似然估计有一个简单的性质:如果是的最大似然估计,则任一函数的最大似然估计为。这种最大似然估计的不变性,使一些复杂结构的参数的最大似然估计的获取变得容易了。在未知的正态总体中,的最大似然估计为,根据最大似然估计的不变性,的最大似然估计为最大似然估计需要知道概率函数,而矩估计只需知道前几阶矩关于参数的函数形式。一般而言,参数的矩估计量与最大似然估计量是不相等的。最大似然估计有更多的优良性质。第二节估计量的优良标准上一节我们知道,同一总体参数用不同的估计方法(矩估计或最大似然估计)可能得到不同的估计量,哪一个更好呢?这就涉及到估计量的优良标准问题。估计量是样本的函数,是一个随机变量。每次观察所得样本不同,求得的估计值也不同。一个估计量的好坏,不能仅凭某一次结果作出定论,而应根据估计量的分布性质从整体上进行判断。无偏性、有效性和一致性是对估计量最基本的要求。29\n一、无偏性设是未知参数的估计量,若,则称为无偏估计。例1.设是来自具有数学期望的任一总体的一个样本,记,则是的无偏估计。所以,样本均值是总体均值的一个无偏估计。回忆第二章的抽样分布,容易理解样本比例(即)是总体比例的无偏估计。样本方差也是总体方差的无偏估计.例2.设来自具有数学期望的总体,下列统计量是的无偏估计吗?(1)(2);29\n(3);解(1)所以是的无偏估计。(2)()所以是的无偏估计。(3)()所以是的无偏估计。可见,同一参数可以有很多无偏估计。二、有效性参数的无偏估计可以有很多,比较其两个无偏估计量和,若比更集中地分布在附近,我们认为比更理想。设,是的两个无偏估计量,若,称比有效。例3.总体,,,是取自的样本,,都是的无偏估计,哪个更有效?因为,所以比更有效。三、一致性根据格里纹科定理,随样本量的增大,样本分布函数逼近总体分布函数,因此可以要求估计量随样本容量的增大而逼近参数真值。设为总体未知参数的估计量,若依概率收敛于,即对任意,有则称为参数的一致(相合)估计量。例4.为估计一批产品的废品率,随机抽取一样本,记将(即)作为的估计,这是一个一致无偏估计量吗?29\n因为,所以是的无偏估计量。又因为独立同分布,,,大数定律表明贝努里大数定律:相互独立同分布随机变量序列,均服从0-1分布,前个随机变量之和,其频率及频率的数学期望分别为和,对任意的,有,即.,(即)依概率收敛于,所以这是一个无偏一致性估计量。第三节区间估计在参数的点估计中,是未知参数的一个估计量,由样本观察值可以得到的一个估计值。估计值虽然给人一个明确的数量概念,但它只是的一个近似值,有多大的偏差,并不知晓。区间估计就是给出未知参数的一个估计区间,区间估计能知道成功的概率有多大,同时估计区间的长度刻画了区间估计的精度。一、区间估计的概念设总体的分布函数为,为未知参数,,是来自总体的样本,如果存在两个统计量和,对于给定的,使得则称区间为参数的置信度为的置信区间,称为置信下限,称为置信上限。事实上,区间估计就是在给定的条件下寻找两个统计量和,构造估计区间。因为和都是估计量,是随机变量,所以是随机区间。对一次具体的样本观察值,可以得出一个区间(,),多次重复抽样,可以得到许多个不同的区间,在所有这些区间中,包含未知参数的区间占()(%).区间估计的精度一般用置信区间的平均长度来表示,在样本容量一定的条件下,可靠度与精确度相互制约,因此实际应用中,总是在置信度一定的情况下,寻找精确度尽可能高的估计区间。由此可见,区间估计就是给定,由样本()去求两个统计量和,使平均置信长度最短。29\n构造置信区间的常用方法是枢轴量法,步骤如下:1.构造一个样本和的函数,它包含待估参数,而不包含其他未知参数,的分布已知且不包含任何未知参数(这种函数称为枢轴量).函数的寻找一般从点估计出发。2.对给定的置信水平,选择两个常数,,满足常数,的选取有一定的随意性,从而置信区间不唯一,但我们要求平均置信长度最短。不少场合很难做到这一点,通常选,,使这样的置信区间称为等尾置信区间,实际应用中大都使用等尾置信区间。3.对不等式进行等价变换,求出未知参数的置信区间.4.抽取一组观察值,计算和的观察值。二、总体均值的区间估计1.样本取自总体方差已知的正态分布设()为取自正态总体的一个样本,已知,求的置信区间。是的一个优良估计,要构造的置信区间,自然想到.的分布不依赖于任何未知参数,同时有事件等价于所求置信区间为(,)29\n简记为可以证明,在给定置信水平下,上述置信区间是形如(,)的置信区间中长度最短的。例1.一批滚珠,其直径服从正态分布,方差为0.36,从中抽取6个,测得直径如下:14.615.114.914.815.215.1求总体直径置信度95%的置信区间。解置信度=0.95,=0.05,=0.025,,,经计算,样本均值=14.95,置信区间为14.951.96即(14.75,15.15).2.样本取自总体方差未知的正态总体样本方差分布有如下推论:设()是来自正态总体的一个样本,则统计量容易导出的置信区间为,例2.一批灯泡,其寿命服从正态分布,从中抽取16个,测得其寿命数据如下:1510145014801460152014801490146014801510153014701500152015101470求灯泡总体平均寿命95%的置信区间。解置信度=0.95,=0.05,=0.025,,,经计算,=1490,=24.77,置信区间为29\n,即(1476.81503.2)3.取自方差已知的非正态总体的大样本中心极限定理可以证明,当总体不服从正态分布时,若则较大时的渐近分布即较大时的近似分布为,于是有置信区间为(,)三、两正态总体均值差的区间估计设是来自的样本,是来自的样本,且两个样本相互独立。与分别是它们的样本均值,和分别是他们的样本方差。1.当未知时(见第二章)从而有的置信区间为()例3.为了解农村中学和城市中学高考考生平均成绩的差异,从中各抽15、17名同学,算得平均成绩分别为495、545,标准差分别为55、50,若总体均服从正态分布且方差相等,以95%的置信水平估计均值差。解,29\n)2.当和已知时(见第二章)确定枢轴量从而有的置信区间为(,)例4.百货公司在市区和郊区各有一个商场,经理发现在一个商场畅销的商品,另一个商场卖得不一定好,这种情况归因于顾客人群的年龄差异。为比较两个商场顾客人群的年龄差异,分别抽取容量为的两个样本,算得,以往的资料表明,,试以95%的置信水平估计置信区间。解,,,(,)(0.949.06)3.当和均未知,但两总体样本容量都很大时可以证明,对不服从正态分布的两个总体,根据中心极限定理采用大样本抽样法。随机变量29\n的渐近分布为.四、正态总体方差的区间估计1.均值已知,求方差的置信区间设为总体的一个样本,有给定置信水平,存在的置信区间为2.均值未知,求方差的置信区间设为总体的一个样本所以有的置信区间为例5.一批零件,其重量,现从中抽取9个,测得其重量为29\n45.345.445.145.345.545.745.445.345.6求总体方差的95%的置信区间.解经计算,,查表得知,,的置信区间为(,)即五、两正态总体方差比的区间估计分别从正态总体和中抽取容量为的两个独立样本,其方差分别为.由于所以有因此故的置信水平为的置信区间为(,)例6.为比较男同学在生活支出上的差异和女同学在生活支出上的差异,从某大学随机抽取男女同学各25名,样本资料为男同学:,.女同学:,.试以90%的置信水平估计男女同学在生活支出上方差比的置信区间.解,所以有29\n即六、总体比例的区间估计在大样本情况下,样本比例,于是有总体比例在置信水平下的置信区间为:例7.为了解女子高尔夫运动员对球场设施的看法,随机抽取900名女子高尔夫运动员调查,结果396名对T形球座感到满意,试以95%的置信水平估计总体比例.解.,经计算,置信区间为(0.4076,0.4724).29

相关文档