统计学习笔记 99页

  • 118.00 KB
  • 2022-08-13 发布

统计学习笔记

  • 99页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第四章抽样与抽样分布第一节常用的抽样方法•基本概念–总体和样本–概率抽样和非概率抽样–抽样误差•概率抽样的组织方式–简单随机抽样–分层抽样–等距抽样–整群抽样(一)总体与样本•总体–总体:根据研究目的确定的所要研究的同类事物的全体,是所要说明其数量特征的研究对象。–总体单位/个体:构成总体的个别事物(基本单元)。–总体容量:总体单位的数量。–总体指标/总体参数:在抽样估计中,用来反映总体数量特征的指标。•总体平均数μ、总体比例P、总体标准差σ、总体方差σ2•样本–样本:从总体中抽取的部分总体单位所构成的整体。–样本容量:样本所包含的总体单位个数。•在实际工作中,通常把n≥30的样本称为大样本,把n<30的样本称为小样本。–样本指标/样本统计量/估计量:根据样本资料计算的、用以估计和推断相应总体指标的综合指标。•样本平均数x、样本比例p、样本标准差s、样本方差s2•总体参数是唯一的,往往未知的;样本统计量是不唯一的,随着抽取的\n样本的不同而不尽相同。(二)概率抽样与非概率抽样•–––概率抽样/随机抽样定义:按照随机原则抽取样本的抽样方法。组织方式:简单随机抽样、分层抽样、等距抽样、整群抽样特点:1.2.3.抽样推断必须遵循抽样调查的随机原则抽样推断是以样本指标数值去推断总体指标数值抽样推断中产生的误差可以事先计算加以控制。对于不可能进行全面调查的总体数量特征的推断对于某些不必要进行全面调查的总体数量特征的推断对于全面调查的资料进行评价和修正–作用:1.2.3.•––非概率抽样定义:从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本的抽样方法。组织方式:典型调查、重点调查、配额抽样、方便抽样等(三)抽样误差•登记性误差:在调查和汇总过程中由于观察、测量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。•代表性误差:用样本指标推断总体指标时,由于样本结构\n与总体结构不一致、样本不能完全代表总体而产生的误差。–系统误差:由于非随机因素引起的样本代表性不足而产生的误差。–随机误差/偶然性误差:由于随机因素(偶然性因素)引起的代表性误差。•抽样估计中的抽样误差,即这种误差。二、概率抽样的组织方式•简单随机抽样/纯随机抽样–在从总体抽取n个单位作为样本时,要使得每个总体单位都有相同的机会被抽中的抽样方式。–重复抽样和不重复抽样•分层抽样/分类抽样–在抽样之前先将总体的单位划分为若干层(类),然后从各个层中抽取一定数量的单位组成一个样本,这样的抽样方式称为分层抽样。–在分层或分类时,应使层内各单位的差异尽可能小,而使层与层之间的差异尽可能大。•等距抽样/系统抽样/机械抽样–在抽样中,先将总体各单位按某种顺序排列,并按某种规则确定一个随机起点,然后,每个一定的间隔抽取一个单位,直至抽取n个单位形成一个样本。–样本在总体中的分布一般较均匀。•整群抽样–调查时先将总体划分成若干群,然后在以群作为调查单位从中抽取部分群,进而对抽中的各个群中所包含的所有个体单位进行调查或观察,这样的抽样方式称为整群抽样。–\n群内结构特征与总体越接近,抽样推断效果越好。第二节抽样分布一、抽样分布的概念–由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。–在实际应用中,统计量的抽样分布是通过教学推导或在计算机上利用程序进行模拟而得到的。分析•总体是什么?总体均值等于多少?–总体是4个学生。–总计均值即4名学生的平均成绩=(1+2+3+4)/4=2.5•总体容量?样本容量?样本个数?–总体容量=4,样本容量=2–样本个数=42=16•计算各个样本的均值?总体均值与样本均值的区别?–总体均值是唯一的,样本均值是随机的。•样本均值的概率分布?样本均值的抽样分布的特点•抽样分布的形式与原有总体的分布和样本容量n的大小有关。x–如果原有总体是正态分布,那么,无论样本容量的大小,样本均值的抽样分布都服从正态分布;–如果原有总体分布是非正态分布,而样本容量n≥30,则随着样本容量的增大,样本均值的抽样分布将趋于正态分布;–如果原有总体分布是非正态分布,而样本容量n<30,\n则样本均值的抽样分布不是正态分布。第五章参数估计第一节参数估计的一般问题•估计量与估计值–抽样估计/参数估计:用样本统计量估计总体参数的特征值;–估计量:用来估计总体参数的统计量的名称;–估计值:用来估计总体参数是计算出来的估计量的具体数值。•点估计与区间估计–点估计:用样本估计量的值直接作为总体参数的估计值;–区间估计:在点估计的基础上,给出总体参数估计的一个范围。•置信区间–置信区间:在区间估计中,用样本统计量所构成的总体参数的估计区间;•置信下限:置信区间的最小值;•置信上限:置信区间的最大值。•评价估计量的标准–无偏性:样本统计量的均值等于被估计总体参数的真值,即ˆE(θ)=θ–有效性:作为优良的估计量,除了满足无偏性外,其方差应比较小。•设θˆ1、θˆ2都是θ参数的无偏估计量,若D(θˆ1)≤D(θˆ2),则称θˆ1是较θˆ2有效的估计量–一致性/相合性:指当n→∞时,估计量依概率收敛于总体参数的真实值。•设θˆ是θ参数的估计量,对于任意的ε>0,当n→∞时,limP{θˆ−θ<ε}=1,则称θˆ是θ的一致估计量。点估计的方法•点估计是直接以样本统计量作为相应总体参数的估计量。因此我们希\n望样本统计量应尽可能满足优良估计量的标准。–经数学证明,样本平均数是总体平均数的优良估计量;样本成数是总体成数的优良估计量;样本方差是总体方差的无偏估计量。点ˆx=µ12ˆ=(x−x)=s2σ∑n−1–估计完全正确的概率通常为0。ˆp=P2•因此,我们更多的是考虑用样本统计量去估计总体参数的范围区间估计第二节一个总体参数的区间估计•参数区间估计的含义:–估计总体参数的区间范围,并给出区间估计成立的概率值。p(θ1≤θ≤θ2)=1−α∧∧注意:对置信度的理解!!–其中:1-α(0<α<1)称为置信度/置信水平,α称为区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。•区间估计的内容:–––总体均值µ的区间估计总体成数P的区间估计总体方差σ2的区间估计计算样本指标计算抽样平均误差查表得统计量临界值计算抽样极限误差计算置信区间总体分布是否正态?总体方差是否已知?\n大样本还是小样本?•区间估计的计算步骤1.2.3.4.5.•总体均值区间估计的要素:–––要素影响抽样分布总体分布总体方差样本情况大样本小样本正态总体σ2未知小样本非正态总体或σ2已知分布未知大样本x−µ服从分布σx置信区间σ2已知服从N(0,1)近似服从N(0,1)服从t(n-1)近似服从N(0,1)x±Zα⋅2σnsnsnx±Zαx±tα2⋅2\n⋅大样本x±Zα⋅2σn例1•某企业从长期实践得知,其产品直径x是一随机变量,服从方差为0.05的正态分布。从某日产品中随机抽取6个,测得其直径分别为14.8,15.3,15.1,15,14.7,15.1(单位:厘米)。在0.95的置信度下,试求该产品直径的均值的置信区间。1.2.3.4.5.计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间解:正态总体、方差已知、小样本1.计算样本指标2.x=∑x=14.8+L15.1=15n6计算抽样平均误差σx=σn=0.05=0.026∴Zα=Z0.025=1.9623.\n查表得统计量Q1−α=0.954.计算抽样极限误差5.计算置信区间∆x=Zα2⋅σx=1.96×0.02=0.04x−∆x≤µ≤x+∆x15−0.04≤µ≤15+0.0414.96≤µ≤15.04例2•对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,要求估计该批电子元件的平均耐用时数的置信区间(置信度95%)。1.2.3.4.5.计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间耐用时数900以下900—950950—10001000—10501050—11001100—11501150—12001200以上合计组中值87592597510251075112511751225—元件数1262543931100解:正态总体、方差未知、大样本1.计算样本指标X=∑Xf=1055.5(小时)∑fS=∑(X−X)2f=52.17(小时)∑f−1σX2.计算抽样平均误差3.查表得统计量=S=52.17=5.217(小时)n100∴Zα=Z0.025=\n1.962Q1−α=0.954.计算抽样极限误差∆x=Zα2⋅σx=1.96×5.217=10.235.计算置信区间x−∆x≤µ≤x+∆x1055.5−10.23≤µ≤1055.5+10.231045.27≤µ≤1065.73例3•某商场从一批袋装食品中随机抽取10袋,测得每袋重量(单位:克)分别为:789、780、794、762、802、813、770、785、810、806,要求以95%的把握程度,估计这批食品的平均每袋重量的区间范围。1.2.3.4.5.计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间解:正态总体、方差未知、小样本1.计算样本指标x=s=∑x=789+L+806=791.1n10(x−x)2∑n−1=17.1362.计算抽样平均误差σx=517.136==5.419n103.查表得统计量Q1−α=0.95∴tα(n−1)=t0.025(9)=2.26224.计算抽样极限误差∆x=tα2(n−1)⋅σx=2.2622×5.419=\n12.265.计算置信区间x−∆x≤µ≤x+∆x791.1−12.26≤µ≤791.1+12.26778.84≤µ≤803.36总体成数的区间估计•由于总体的分布是(0,1)分布,只有在大样本的情况下,样本成数才服从正态分布。总体成数可以看成是一种特殊的平均数,类似于总体平均数的区间估计,总体成数的区间估计的上下限是:P±zασP2σP=p(1−p)n•注意:在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。•大样本的条件:np≥5且n(1-p)≥5例:•某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样本优质品率为85%,试计算当把握程度为90%时优质品率的区间范围。90%计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间1.2.3.4.5.解:1.计算样本指标p=0.852.计算抽样平均误差3.查表得统计量σp=p(1−p)0.85×0.15==0.0252n200Q1−α=0.9∴Zα=Z0.05=\n1.6524.计算抽样极限误差5.计算置信区间∆p=Zα2⋅σp=1.65×0.0252=0.0416p−∆p≤P≤p+∆p0.85−0.0416≤P≤0.85+0.04160.8084≤P≤0.8916总体方差的区间估计•大样本情况下,样本标准差s的分布近似服从正态分布N(σ,σ2/2n),所以,总体标准差的置信度为1-α的置信区间近似为(s−Z(nα2⋅s/2ns+Zα2⋅s/2n)•小样本情况下,若总体呈正态分布而其均值和方差未知,则总体方差的置信区间由如下的统计量的分布确定。χ2=σ−1)s22~χ2(n−1)•所以,总体方差σ2的置信度为1-α的置信区间为(n−1)s2,χ2(n−1)χα2\n(n21−α−1)s22(n−1)例•从某车间加工的同类零件中抽取了16件,测得零件的平均长度为12.8厘米,方差为0.0023。假定零件的长度服从正态分布,0.0023试求方差的置信区间(置信度为95%)。解n=16s=0.0023Q1−α=0.9522∴χ12−α2(n−1)=χ0.975(15)=6.2622χα2(n−1)=χ02.025(15)=27.488•所以,总体方差σ2的置信区间为(n−1)s2(n−1)s2=15×0.0023,15×0.0023=(0.0013,0.0055),22χα2(n−1)χ1−α2(n−1)27.4886.262四、抽样样本容量确定•问题的提出•确定样本容量公式:估计总体均值时样本容量的确定重复抽样∆x≈zασ22n⇒n=21−N∆x+zα2σ22NnNzα2σ2不重复抽样重复抽样估计总计成数时样本容量的确定∆x=\nzασ2n2⇒n=zα2σ22∆x2n=zα2p(1−p)∆p2不重复抽样n=Nzα2p(1−p)N∆p+zα2p(1−p)222四、抽样样本容量确定•确定样本容量应注意的问题–•••1、计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:一是用历史资料已有的方差与成数代替;二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。–2、如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。–3、上面的公式计算结果如果带小数,这时样本容量不按四舍五入\n法则取整数,取比这个数大的最小整数代替。例:•对某批木材进行检验,根据以往经验,木材长度的标准差为0.4米,而合格率为90%。现采用重复抽样方式,要求在95.45%的概率保证程度下,木材平均长度的极限误差不超过0.08米,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?解:σ=0.4p=90%F(z)=95.45%22∆x=0.8∆p=5%样本平均数的单位数:22×0.42n=zσ==100(棵)2∆20.08x2z2p(1−p)=2×0.9×0.1=144(棵)n=∆20.052p样本成数的单位数:根据计算结果,取样本数较大者。即n=144棵。第六章假设检验第一节假设检验的基本问题•假设检验/显著性检验–事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应接受或否定原假设。–假设检验分为两类:参数检验、非参数检验/自由分布检验•假设检验的基本思想–假设检验所采用的逻辑推理方法是带有概率性质的反证法。–\n假设检验中的合理与否,所依据的是“小概率事件实际不可能发生的原理”。第一节假设检验的基本问题•假设检验的步骤1.2.3.4.提出原假设和备择假设;选择适当的统计量,并确定其分布形式;选择显著性水平α,确定临界值;作出结论第一类错误/拒真错误:当原假设为真,但由于样本的随机性使样本统计量落入了拒绝区域;第二类错误/取伪错误:当原假设为不真,但由于样本的随机性使样本统计量落入了接受区域。•假设检验的两类错误––第二节•例:一个总体参数的检验–消费者协会接到消费者投诉,指控品牌纸包装饮料存在容量不足,有欺骗消费者之嫌。包装上标明的容量为250毫升。消费者协会从市场上随机抽取50盒该品牌纸包装饮品,测试发现平均含量为248毫升,小于250毫升。这是生产中正常的波动,还是厂商的有意行为?消费者协会能否根据该样本数据,判定饮料厂商欺骗了消费者呢?–另根据历史资料,该品牌饮料容量总体的标准差是4毫升。我们通过检验总体均值是否小于250毫升,来判断饮料厂商是否欺骗了消费者。第一步:确定原假设与备择假设µH0:\n≥250;原假设H原假设H0:通常是研究者想收集证据予以反对的假设,也称为零假设H1µ:<250备择假设H备择假设H1:通常是研究者想收集证据予以支持的假设,也称为研究假设。原假设和备择假设是一个完备事件组,而且相互对立。在假设检验中,等号”在假设检验中,等号”=”总是放在原假设上。例2•一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随意抽取了40罐进行检验,测得每罐平均容量为255.8ml。检验该天生产的饮料容量是否符合标准要求。H0:μ=255H1:μ≠255例3•根据过去大量资料,某厂生产的产品的使用寿命服从正态分布N(1020,1002)。现从最近生产的一批产品中随机抽取16件,测得样本平均寿命为1080小时。试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?H0:μ≤1020H1:μ>1020单侧检验与双侧检验α/2-Zα/21–αα/2Zα/2α–Zα00α\nZα双侧检验左侧检验右侧检验•用单侧检验还是双侧检验,使用左侧检验还是右侧检验,决定于备选假设中的不等式形式与方向。•与“不相等”对应的是双侧检验,与“小于”相对应的是左侧检验,与“大于”相对应的是右侧检验。继续:总体均值的参数检验•例2:一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随意抽取了40罐进行检验,测得每罐平均容量为255.8ml。检验该天生产的饮料容量是否符合标准要求。H0:μ=255H1:μ≠255第二步:选择适当的统计量,并确定其分布形式•正常情况下,饮料的容量服从正态分布•若正态总体的方差已知,则其样本平均数也服从正态分布,即:X−µ0z=~N(0,1)nσ•可用z作为检验统计量。x−µ255.8−255Z===1.01σn5/40第三步:选择显著性水平α,确定临界值•通常显著性水平由实际问题确定,我们这里取α=0.05,双侧检验,拒绝域在左右两边,查标准正态分布表得临界值:Zα/2=Z0.025=1.96拒绝域是|Z|>1.96。第四步:判断,作出结论\n∵Z=1.011020第二步:选择适当的统计量,并确定其分布形式•正态总体、方差已知,•可用z作为检验统计量。x−µ1080−1020Z===2.4σn100/16第三步:选择显著性水平α,确定临界值•通常显著性水平由实际问题确定,我们这里取α=0.05,右侧检验,拒绝域安排在右边,查标准正态分布表得临界值:Zα=1.645,拒绝域是Z>1.645。•第四步:判断,作出结论∵Z=2.4>Zα=1.65∴样本统计量的取值落入拒绝域。拒绝原假设,接受备选假设,即认为有足够的证据证明这批产品的使用寿命确有显著提高。注意!•\n总体方差未知时用t统计量:t=X−µ0sn~t(n−1)•但是,在大样本场合,t-统计量与标准正态分布统计量近似,通常用Z检验代替t检验。例4•某厂采用自动包装机分装产品,假定每包产品的重量服从正态分布,每包标准重量为1000克。某日随机抽查9包,测得样本平均重量为986克,样本标准差为24克。试问在0.05的显著性水平上,能否认为这天自动包装机工作正常?解正态分布、方差未知、小样本H0:μ=1000H1:μ≠1000x−µ986−1000=t==−1.75s/n24/9α=0.05查表得tα/2(n-1)=t0.025(8)=2.306∵|t|=1.7530%。•以上的备选假设是企业自我声明的结论,我们希望该企业说的是实话。因此使用右侧检验。第二步:构造z检验统计量•当样本容量较大时,下列统计量服从标准正态分布:z=p−ρρ(1−ρn)•上式中,ρ代表总体的成数,p代表样本的成数。第三步:确定拒绝域•显著水平α=0.05,查标准正态分布表得临界值:zα=1.645,拒绝域是z>1.645。•第四步:计算检验统计量的数值•样本成数p=220/600=0.37,总体假设的成数ρ=0.3,代入z检验统计量得:z=p−ρρ(1−ρ)n=0.37−0.30.3(1−0.3)/600=3.5第五步:判断•检验统计量的样本取值z=3.5>1.645,落入拒绝域。拒绝原假设,接受备选假设,认\n为样本数据证明该企业声明属实。总体方差的假设检验•例:根据长期正常生产的资料可知,某厂所产维尼纶的纤维服从正态分布,其方差为0.0025。现从某日产品中随机抽出20根,测得样本方差为0.0042。试判断该日纤度的波动与平时有无显著差异(取α=0.10)解:H0:σ2=0.0025,2H1:σ2≠0.0025σ0(n−1)s2~χ2(n−1)当H0为真时,统计量χ=2(n−1)s2=(20−1)0.0042=31.92统计量的值χ=22σ0.0025α=0.10,查χ2分布表得χ02.0519)30.14,χ02.95(19)=10.12(=2Qχ2=31.92>χ0.05(19)=30.14∴应拒绝H0,接受H1,即认为该日纤度的波动性与平时有显著增大。P-值检验•p-值检验就是通过计算p-值,再将它与显著性水平α作比较,决定拒绝还是接受原假设。•所谓p-值就是拒绝原假设所需的最低显著性水平。p•p-值判断的原则是:如果p-值小于给定的显著性水平α,则拒绝原假设;否则,接受原假设。•或者,更直观来说就是:如果p-值很小,拒绝原假设,p-值很大,接受原假设。如果:H:µ≠µ0,p值=p(z>0z1z检验的值的计算公式检验的p-值的计算公式检验的\n值的计算公式:如果:H:µ≠µ0,p值=p(z>0z11如果:H1:µ>µ0,p值=p(z>z)021如果:H:µ<µ0,p值=p(z<z)102第三节非参数检验•非参数检验是对总体的分布不作任何限制的统计检验。故非参数检验又称为自由分布检验。–自由分布检验概述–符号检验–秩和检验一、自由分布检验概述•自由分布检验的优点:–首先,检验条件比较宽松,适应性强。–其次,自由分布检验的方法比较灵活,用途广泛。–再次,自由分布检验的计算相对简单。•自由分布检验的缺点:–由于它对原始数据中包含的信息利用得不够充分,检验的功效相对较弱。二、符号检验•符号检验是建立在以正、负号表示样本数据与假设参数值差异关系基础上的检验。•该方法既适用于单样本场合,也适用于配对样本场合。H0:\nMe=A1、单样本场合的符号检验•在单样本的场合,可以用符号检验方法,检验总体的中位数是否在某一指定的位置。•原理:–假设总体中位数的真值是A,即H0:Me=A,再从样本观测结果:x1,x2,…,xn–样本每个数据都减去A,只记录其差数的符号,即当xi>A时,记正号;当xi13。第五步:第五步:判断样本落入拒绝域,所以拒绝原假设,认为样本数据不能证明总体中位数等于160件。H0:Me=160H1:Me≠160第七章方差分析第一节\n方差分析的基本问题•问题:消费者与供应厂商间经常出现纠纷。纠纷发生后,消费者经常会向消费者协会投诉。消协对以下几个行业分别抽取几家企业,统计最近一年中投诉次数,以确定这几个行业的服务质量是否有显著的差异。结果如右表:观测值零售业旅游业航空业1234567576649403453446839294556513149213440行业家电制造业4451657758•方差分析:–是对多于2个总体的均值是否相等进行检验的一种统计方法。它是通过检验各总体的均值是否相等来判断分类型自变量对数值型变量是否有显著影响。•H0:µ1=µ2=L=µr不全等。•H1:µ1,µ2,L,µr术语•因素和水平–在方差分析中,所要研究的对象称为因素。–因素的不同表现,成为水平。•单因素方差分析和双因素分析–方差分析只针对一个因素称为单因素分析;–方差分析同时针对多个因素称为多因素分析。•\n交互影响和无交互影响–在方差分析中,如果因子间存在相互影响,称之为“交互影响”;–如果因子间是相互独立的,则称为无交互影响。–交互影响有时也称为交互作用,是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响作用也单独分离开来。方差分析的原理•观测值之间若存在差异,差异的产生来自两个方面,一个方面是由因素的不同水平造成的,成为系统性差异;另一个方面是由抽选样本的随机性而产生的差异。•前者差异可以用水平间的方差计量,差异的原因包括系统性原因和随机性原因;后者差异可以用水平内部的方差计量,差异的原因尽包括随机型原因。•所以,可以用两种方差的比值来判断观测值的差异是否包括系统性因素。–如果比值接近1,说明差异的主要原因是随机因素;如果比值显著大于1,说明因素的不同水平对观测值产生显著影响。方差分析的原理•两种方差–组间方差反映出不同的因子对样本波动的影响;SSA组间方差MSA==r−1∑∑(Xi.−X)2r−1–组内方差则是不考虑组间方差的纯随机影响。•\n两种方差的比值SSE组内方差MSE==n−r∑∑(Xij−Xi.)2n−r–数理证明:两种方差之比服从F分布。F=组间方差MSA=组内方差MSE–F统计量越大,越说明组间方差是主要方差来源,因子影响越显著;F越小,越说明随机方差是主要的方差来源,因子的影响越不显著。第二节单因素方差分析行业•例1:不同行业对顾客投诉的影响。观测值零售业123456757664940345344旅游业683929455651航空业3149213440家电制造业4451657758分析步骤•1、提出假设HO:µ1=µ2=L=µrH1:µ1,µ2,,µr不全相等L•2、构造检验统计量组间方差MSAF==组内方差MSEy•\n3、统计决策α0接受区Fα拒绝区x解:1、提出假设HO:µ1=µ2=µ3=µ4H1:µ1,µ2,µ3,µ4不全相等行业因素对顾客投诉没有显著影响行业因素对顾客投诉有显著影响2、构造检验统计量F=组间方差MSASSA/(r-1)==组内方差MSESSE/(n-r)rni2r2SSA=∑∑(xi−x)=∑ni(xi−x)i=1j=1rnii=1SSE=∑∑(xij−xi)i=1j=12(1)计算各样本的均值xi(2)计算全部观测值的总均值x(3)计算离差平方和SSA、SSE、SST(4)计算统计量FSST=∑∑(xij−x)2i=1j=1rniSST=SSA+SSE2、构造检验统计量行业观测值1234567零售业57664940345344旅游业683929455651航空业3149213440家电制造业44516577\n58(1)计算各样本的均值xi∑xxi=j=1rijni2、构造检验统计量行业观测值1234567样本均值零售业5766494034534449483559旅游业683929455651航空业3149213440家电制造业4451657758(2)计算全部观测值的总均值x∑xx=n2、构造检验统计量行业观测值1234567样本均值总平均值零售业5766494034534449483559旅游业683929455651航空业3149213440家电制造业4451657758(3)计算离差平方和SSA、SSE、SSTSSA=∑∑(xi−x)=∑ni(xi−x)r2ri=1j=1rnini2i=1SSE=∑∑(xij−xi)\ni=1j=12SST=∑∑(xij−x)2i=1j=1rni47.8696SSA=1456.6089SSE=2708SST=4164.60872、构造检验统计量行业观测值1234567样本均值总平均值零售业5766494034534449483559旅游业683929455651航空业3149213440家电制造业4451657758(4)计算统计量FSSA=1456.6089SSE=2708SST=4164.6087F=组间方差MSASSA/(r-1)==组内方差MSESSE/(n-r)F=3.47.86963、统计决策查表得,Fα(r−1,n−r)=F0.05(3,19)=3.13QF=3.4067>Fα=3.13∴拒绝原假设,接受备择假设即可以认为行业对顾客投诉次数有显著影响。y0.050接受区3.13\n拒绝区x注意!•方差分析需满足以下的假设条件。1.样本是独立的随机样本;2.各样本皆来自正态总体;3.总体方差具有齐性,即各总体方差相等。••各总体的样本容量可相等也可以不相等。方差分析只能检验各总体的均值是否相等。如果认为不相等,不能求出那个总体的均值大,哪个均值小。例2•某饮料企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。随机从五家超市上收集了前一期改种饮料的销售量,如下表所示。问饮料的颜色是否对销售量产生影响(a=0.05)。超市12345无色26.528.725.129.127.2粉色31.229.330.827.929.6橘黄色27.925.128.524.226.5绿色30.829.632.431.732.8解:1、提出假设HO:µ1=µ2=µ3=µ4H1:µ1,µ2,µ3,µ4不全相等2、构造检验统计量x(1)计算各样本的均值ix1=27.32x2=29.56x3=26.44x4=31.46(2)计算全部观测值的总均值xx=28.695(3)计算离差平方和SSA、SSE、SSTSST=115.9295SSE=39.084SSA=76.8455(4)计算统计量F\nF=10.4863、统计决策查表得,Fα(r−1,n−r)=F0.05(3,16)=3.24QF=10.486>Fα=3.24∴拒绝原假设,接受备择假设即可以认为饮料颜色对销售量有显著影响。第八章相关与回归分析第一节基本概念一、函数关系与相关关系•函数关系:当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,称为确定性的函数关系。–函数关系的特点1.2.是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量•相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量之间的这种关系称为相关关系。–相关关系的特点1.2.3.变量间关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯一确定;当变量x取某个值时,变量y\n的取值可能有几个。二、相关关系的种类•按相关关系的程度划分1.完全相关:当一个现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。2.不相关:当两种现象彼此互不影响,其数量变化各自独立时,称为不相关现象。3.不完全相关:两个现象之间的关系介于相关和不相关之间,称为不完全相关。•按相关形式划分1.线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性关关。2.非线性相关:如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。二、相关关系的种类•按相关的方向划分1.正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。2.负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。•按研究的变量划分1.单相关:两个变量之间的相关,称为单相关2.复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。3.偏相关:在某一现象与多种现象相关的场合,假定其他变量不变,\n专门考察其中两个变量的相关关系称为偏相关。三、相关分析与回归分析•(一)概念:–相关分析:•就是用一个指标来表明现象间相互依存关系的密切程度。–回归分析:•是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。•(二)相关分析与回归分析的区别1.在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。2.相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。3.相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。•(三)相关分析与回归分析的联系–相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。–\n简单说:••1、相关分析是回归分析的基础和前提;2、回归分析是相关分析的深入和继续。四、相关关系的判断•定性分析–依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。•定量分析–在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。ρ=Cov(X,Y)Var(X)Var(Y)第二节简单线性相关与回归分析•一、相关系数及其检验(一)相关系数的定义:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标,简称相关系数。•总体相关系数:相关系数是根据总体全部数据计算的,记为ρρ=•Cov(X,Y)Var(X)Var(Y)样本相关系数:根据样本数据计算的,记为rr=•∑(Xt−X)(Yt−Y)22∑(Xt−X)∑(Yt−Y)样本相关系数是根据样本观测值计算的,抽取的样本不同,其具体的数值也会有所差异。容易证明,样本相关系数是总体相\n关系数的一致估计量。(二)相关系数的特点••r的取值介于-1与1之间;在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着一定的线性关系,当r>0时,X与Y为正相关,当r<0时,X与Y为负相关。––|r|的数值愈接近于1,表示x与y直线相关程度愈高;反之,|r|的数值愈接近于0,表示x与y直线相关程度愈低。通常判断的标准是:|r|<0.3称为微弱相关,0.3≤|r|<0.5称为低度相关,0.5≤|r|<0.8称为显著相关,0.8≤|r|<1称为高度相关或强相关。••如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,而r=-1时,称为完全负相关。r是对变量之间线性相关关系的度量。–r=0只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的关系。(三)相关系数的计算r=∑(x−x)(y−y)(x−x)2∑(y−y)2∑n∑xy−∑x∑yn∑x2−(∑x)2n∑y2−(∑y)2\n=(四)相关系数的显著性检验•••检验两个变量之间是否存在线性相关关系采用t检验检验的步骤为–提出假设:H0:ρ=0;H1:ρ≠0计算检验的统计量:t=rn−21−r2~t(n−2)确定显著性水平α,并作出决策•若|t|>tα/2,拒绝H0•若|t|tα/2=2.201,拒绝H0,表明人口增长与年均需求量人口增长与年均需求量之间有线性关系2、回归方程的显著性检验•一元线性回归方程的检验主要是检验自变量X和因变量Y之间的线性关系是否显著。•检验的具体的步骤如下:–第一步:提出假设H0:β1=0H1:β1≠0–第二步:计算检验统计量FSSR/1F=SSE/(n−2)–第三步:做出判断•例:根据前例的计算结果,检验该食品需求量对地区人口\n增加量回归的方程的显著性(α=0.05)第一步:提出假设第二步:计算检验统计量FH0:β1=0H1:β1≠0F=SSR/1SSR/153694.854÷1===1302.11SSE/(n−2)(SST−SSR)/(n−2)(54230.933−3694.854)÷(15−2)第三步:判断查F分布表,得临界值Fα(1,n−2)=F0.05(1,13)=4.67QFα=4.67χα2,拒绝H0;若χ2<χα2,接受H0,拒绝H;若χ,接受H拟合优度检验(例题分析)•H0:π1=π2=π3=π4•H1:π1π2π3π4不全相等α=0.1•df=(2-1)(4-1)=3•临界值临界值(s):α=0.1统计量:统计量:χ2=∑∑i=1j=1rc(fij−eij)2eij\n=3.0319决策:决策:在α=0.1的水平上不能拒绝H00.1的水平上不能拒绝H结论:结论:03.03196.215χ2可以认为四个分公司对改革方案的赞成比例是一致的拟合优度检验(例题分析)为了提高市场占有率,A公司和B公司同时开展了广告宣传。在广告宣传战之前,A公司的市场占有率为45%,B公司的市场占有率为40%,其他公司的市场占有率为15%。为了了解广告战之后A、B和其他公司的市场占有率是否发生变化,随机抽取了200名消费者,其中102人表示准备购买A公司产品,82人表示准备购买B公司产品,另外16人表示准备购买其他公司产品。检验广告战前后各公司的市场占有率是否发生了变化(α=0.05)拟合优度检验(例题分析)•H0:π1=0.45π2=0.4π3=0.15统计量:统计量:•H1:原假设中至少有一个不成原假设中至少有一个不成r立χ2=α=0.1αi=1•df=(2-1)(3-1)=2•临界值临界值(s):决策:决策:α=0.05c∑∑j=1(fij−eij)2eij=\n8.18在α=0.05的水平上拒绝H00.05的水平上拒绝H结论:结论:05.998.18χ2可以认为广告后各公司产品市场占有率发生显著变化独立性检验(testofindependence)1.2.检验列联表中的行变量与列变量之间是否独立检验的步骤为–••提出假设H0:行变量与列变量独立H1:行变量与列变量不独立–计算检验的统计量χ2=∑∑i=1j=1rc(fij−eij)2eij进行决策根据显著性水平α和自由度()(c查出临界值χ根据显著性水平α和自由度(r-1)(c-1)查出临界值χα2若χ2≥χα2,拒绝H0;若χ2<χα2,接受H0拒绝H;若χ接受H独立性检验(例题分析)【例】一种原料来自三个不同的地区,原料质量被分成三个一种原料来自三个不同的地区,不同等级。从这批原料中随机抽取500件进行检验,不同等级。从这批原料中随机抽取500件进行检验,结果如\n下表。检验各地区与原料之间是否存在依赖关系(下表。检验各地区与原料之间是否存在依赖关系(α=0.05)05)地区甲地区乙地区丙地区一级二级三级合计140171189500526050162645965188245274150合计独立性检验(例题分析)1.提出假设––H0:地区与原料等级之间独立H1:地区与原料等级之间不独立2.计算检验的统计量χ2=∑∑i=1j=1rc(fij−eij)2eij=19.823.根据显著性水平α=0.05和自由度(3-1)(3)(31)=4查出相应的临界值χα2=9.488。由于)=4\nχ2=19.82>χα2=9.448,拒绝H019.82>448,拒绝H独立性检验(例题分析)•H0:地区与原料等级之间独立统计量:统计量:•H1:地区与原料等级之间不独立α=0.05•df=(3-1)(3-1)=4•临界值临界值(s):α=0.05χ2=∑∑i=1j=1rc(fij−eij)2eij=19.82决策:决策:在α=0.05的水平上拒绝H00.05的水平上拒绝H结论:结论:09.48819.82χ2地区和原料等级之间存在依赖关系进一步的讨论•列联关系中的陷阱相关性;因果性。•辛普生悖论现象:分组比较都占优,总评却失势。\n原因:组间结构差异大;其他的影响。•卡方分布自由度的问题卡尔皮尔逊和费歇尔的争论。拟合优度检验的地位现代统计学(推断)•始于卡尔皮尔逊(拟合优度检验)以及随后的哥色特(小样本t检验)和费歇尔(显著性思想,方差分析F检验)。F•开创于爱根皮尔逊和奈曼建立假设检验理论。•感恩大师!谢谢!

相关文档