统计学 抽样推断 71页

  • 761.00 KB
  • 2022-08-13 发布

统计学 抽样推断

  • 71页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第八章抽样推断\n第八章抽样推断本章主要内容第一节抽样推断的基本问题第二节抽样误差第三节抽样估计第三节抽样组织实施返回\n第一节抽样推断的基本问题一、抽样推断的概念二、抽样推断的特点三、抽样推断的适用范围四、抽样推断的有关概念五、抽样方法返回\n第一节抽样推断的基本问题一、抽样推断的概念抽样推断是指从被研究现象的总体中按照随机原则抽取一部分单位进行调查,并依据调查结果对全部研究对象的数量特征作出具有一定可靠程度的估计,以达到对全部研究对象认识的一种统计方法。抽样包括抽样调查和抽样推断两部分。抽样推断包括两个有联系但又具有一定差别的方面,即估计和检验二、抽样推断的特点(一)按照随机原则从总体中抽取样本单位。(二)用样本单位的指标数值推断总体的指标数值。(三)抽样误差可以事先计算并加以控制。\n第一节抽样推断的基本问题三、抽样推断的适用范围(需要掌握总体的具体数据)(一)不能进行全面调查(二)理论上可以进行全面调查实际上办不到(三)没有必要进行全面调查(四)可以验证和补充全面调查资料四、抽样调查的理论基础(一)大数定律大数定理是关于大量的随机先行的均值具有稳定性的定理。1、贝奴里大数定理2、契比雪夫大数定理(二)中心极限定理证明某一分布的极限分布为正态分布的定理为中心极限定理。\n第一节抽样推断的基本问题大数定理只论述了抽样平均效趋近于总体平均数的趋势。但是抽样平均致与总体平均数的离差有多少?离差不超过一定范围的概率有多大?这个离差的分布如何?这些问题则要应用中心极限定理来答。俄国数学家李亚普诺夫(Liapounov)给出了这个中心极限定理:如果总体存在有限的平均数和方差,那么不管总体是否属于正态分布,只要当抽样单位数不断增加,抽样平均数的分布也就趋近于正态分布。这个定理就为抽样误差的估计提供了理论依据,使抽样估计有了科学基础。后面阐述的抽样误差范围估计的可靠程度就是根据这个原理出发的。\n第一节抽样推断的基本问题五、抽样推断的有关概念(一)全及总体和抽样总体1、全及总体(总体N):所要认识对象的全体。(1)有限总体(2)无限总体2、抽样总体(样本n):所抽取的一部分单位。(1)大样本(n≥30)(2)小样本(n≤30)(二)全及指标和抽样指标1、全及指标:用来描述全及总体的指标2、抽样指标:根据样本单位计算的指标X\n(三)反映总体特征的主要指标对于变量总体,反映总体集中分布趋势的算术平均数反映总体离中分布趋势的方差或标准差XX\n第一节抽样推断的基本问题五、抽样方法(一)按抽取样本单位的方法不同1、重复抽样2、不重复抽样(二)根据对样本的要求不同1、考虑顺序的抽样AB≠BA2、不考虑顺序的抽样AB=BA\n第一节抽样推断的基本问题(三)两种分类交叉1、考虑顺序的不重复抽样2、考虑顺序的重复抽样3、不考虑顺序的不重复抽样4、不考虑顺序的重复抽样\n第二节抽样误差一、抽样平均误差(一)概念(二)计算1、简单随机抽样2、类型抽样3、等距抽样4、整群抽样5、阶段抽样(三)影响抽样平均误差的因素二、抽样极限误差三、抽样极限误差与抽样平均误差的关系返回\n一、抽样平均误差(一)抽样平均误差的概念1、登记汇总性误差2、代表性误差(1)偏差(2)随机误差实际误差平均误差\n(二)抽样平均误差的计算1、简单随机抽样(1)概念:是对总体单位不作任何分类或排队,完全按随机原则逐个地抽取样本单位。(2)抽样平均误差的计算公式①平均数的抽样平均误差②成数的抽样平均误差\n假设某村种植的甜菜按不同的收获量分成五个地块,资料如下表:\n\n在重复抽样下,样本变量是独立的。则\n(3)例题①某冷库冻鸡平均每只重1200克,标准差70克,如果重复随机抽取100只和200只,分别计算抽样平均误差。②该冷库冻鸡合格率为97%,如果重复随机抽取100只和200只,分别计算抽样平均误差。\n2、类型抽样(1)概念:类型抽样是将总体全部单位按某个标志分成若干个类型组,然后从各类型组中采用简单随机抽样方式或其它方式抽取样本单位。(2)样本单位数在各类型组中的分配方式①等额分配:在各类型组中分配同等单位数。②等比例分配:按各类型组在总体中所占比例分配样本单位数。即:③最优分配:按各类型组的规模大小和差异程度,确定各类型组的样本单位数。\n(3)抽样平均误差的计算公式①平均数的抽样平均误差重复不重复且等比例②成数的抽样平均误差重复不重复且等比例\n(4)例题①有12块小麦地,每块1亩。6块处于丘陵地带,亩产量(斤)分别为:300330330340370370。6块处于平原地带,亩产量(斤)分别为:420420450460490520。抽查4块,测定12块地的平均亩产量,计算其抽样误差。②设亩产在350以上的为高产田,抽查4块,测定12块地高产田的比重,计算其抽样误差。用类型抽样,每类抽2块计算各组方差平均组内方差抽样误差\n亩产量30016003301003301003400370900370900合计3600亩产量4201600420160045010046004909005203600合计7800丘陵平原①\n②地块数高产田数高产田比重%丘陵6233.366.6722.2平原6610000\n3、等距抽样(1)概念:将总体各单位标志值按某一标志顺序排队,然后按一定的间隔抽取样本单位。(2)排对的方法①无关标志排队②有关标志排队(3)抽取样本单位的方法①按相等的距离取样②对称等距取样(4)抽取第一个样本单位的方法①随机抽取②居中抽取\n(5)抽样平均误差的计算公式①按无关标志排队:同不重复简单随机抽样②按有关标志排队\nⅠ亩产量():300330330Ⅱ亩产量():340370370Ⅲ亩产量():420420450Ⅳ亩产量():460490520上例,抽选间隔为(6)例题\n4、整群抽样(1)概念:把总体分为若干群,从总体群中抽取若干样本群,对抽中的群进行全数登记调查。(2)抽样平均误差的计算公式某水泥厂一昼夜的产量为14400袋,现每隔144分钟抽取1分钟的水泥(10袋)检查平均每袋重量和一级品率,样本资料如下:计算抽样平均误差(3)例题\n样本群平均每袋重量一级品比重1492.250.8002510.250.750.00253522.250.830.00094536.250.820.00045500.250.8006492.250.790.00017500.250.780.00048486.250.8009500.250.810.000110536.250.820.0004合计50526.258.000.0048\n一昼夜有1440分钟,即把总体分为1440群,R=1440每隔144分钟抽取1分钟的水泥(10袋),r=10\n5、阶段抽样(1)概念:抽样时,先抽总体中较大范围的单位,再从中选的较大范围的单位中抽取较小范围的单位,依此类推,最后得到样本的基本单位。(2)抽样平均误差的计算公式(以两阶段为例)同理可以得出成数抽样平均误差的计算公式(3)例题:某地区有300户居民,分成10群,现从10群中抽6群,再从抽中的群中每群抽2户调查其平均收入,计算抽样平均误差。资料如下:群1:300330(户收入)n=rm\n群2:户收入330340群3:户收入370390群4:户收入418434群5:户收入462484群6;户收入507525\n\n(三)影响抽样平均误差的因素1、总体标准差的大小2、样本单位数的多少3、抽样方法的不同4、抽样组织方式的差别\n二、抽样极限误差1、在做抽样估计时,应根据所研究现象的变异程度和分析任务的要求确定可允许的误差范围,在这个范围内的数字都算有效,这种可允许的误差范围称为抽样极限误差。2、抽样极限误差等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。\n4、三、抽样误差的概率度用抽样误差概率度t表示误差范围为抽样平均误差的t倍。当t=1时,F(t)=68.27%当t=2时,F(t)=95.45%当t=3时,F(t)=99.73%\n三、抽样极限误差与抽样平均误差的关系(一)抽样分布据中心极限定理,当总体为正态或总体非正态但n≥30时,样本均值的分布趋近于正态分布;当n足够大时,样本成数的分布近似为正态分布。(二)关系令返回\n第三节 抽样估计的方法一、总体参数的点估计1、参数点估计的特点:根据总体指标的结构形式设计样本指标(称统计量)作为总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计值。2、公式:以样本的平均数作为总体平均数的估计值。以样本的成数p作为总体成数P的估计值。\n3、成为优良估计的标准无偏性:即以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身。抽样平均数的平均数等于总体平均数。抽样成数的平均数等于总体成数。一致性:要求当样本的单位数充分大时,抽样指标也充分地靠近总体指标。有效性:以抽样指标估计总体指标要求作为优良估计量的方差比其他估计量的方差小。\n4、总体参数点估计的特点:优点:简便、易行、原理直观缺点:这中估计没有表明抽样估计的误差,更没有指出误差在一定范围内的概率保证程度有多大。\n二、抽样估计的置信度:1、抽样估计置信度就是表明抽样指标和总体指标的误差,不超过一定范围的概率保证程度。2、概率是指在随机事件进行大量实验中,某种时间出现的可能性大小,它可以用某种事件出现的频率表示。\n3、抽样估计的概率保证程度就是指抽样误差不超过一定范围的概率大小,用字母F(t)表示。下面是常用的几个数据:当t=1时,F(t)=68.27%当F(t)=80%,t=1.28当t=2时,F(t)=95.45%当F(t)=90%,t=1.64当t=3时,F(t)=99.73%当F(t)=95%,t=1.96当F(t)=99%,t=2.58\n四、总体参数的区间估计1、总体参数区间估计是根据给定的概率保证程度的需求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围,而不是直接给出总体参数的估计值。2、\n3、进行总体参数区间估计应具备的要素:估计值、抽样误差范围、概率保证程度抽样误差范围决定估计的准确性,概率保证程度决定估计的可靠性。抽样误差范围越大,准确性越低,反之就越高;概率保证程度越大,可靠性越高,反之就越低。在抽样估计时,希望准确性高些,可靠性大些,但两者同时实现是有矛盾的。\n4、总体参数区间估计的方法:根据已经给定的抽样误差范围,求概率保证程度。步骤:抽取样本——计算抽样指标(作为总体指标估计值)——计算标准差、抽样平均误差——估计总体指标的上、下限——求出t,查表得Ft\n根据给定的置信度要求,来推算抽样极限误差的可能范围:步骤:抽取样本,计算抽样指标——计算标准差,抽样平均误差——根据Ft查出t值——计算极限误差——求出估计总体指标的上下限,作区间估计例:参见教材\n例:某超市通过100位的样本研究每次购买额,均值和标准差分别为80元和20元,在置信水平为90%的条件下建立100位顾客购买额的置信区间。t=1.64所有顾客购买额在76.71和83.29之间。\n第四节抽样组织实施一、抽样单位数目的计算(一)简单随机抽样(二)类型抽样(三)等距抽样(四)整群抽样二、影响抽样单位数目的因素返回\n一、抽样单位数目的计算(一)简单随机抽样(1)某类产品根据以往资料的估计,总体方差5.456千克,现对一批进行简单随机抽样以推断该批产品的平均重量,要求可靠程度达到99.73%,误差范围不超过0.9千克,需要抽多少样本单位?按题意t=3(2)根据以往资料的估计,该类产品的一等品率为90%,可靠程度仍为99.73%,误差范围不超过5%,推断该批产品的一等品率,需要抽多少样本单位?按题意t=3\n(二)类型抽样某工厂早、中、晚生产罐头10000瓶,根据以往资料的估计平均重量的类型平均方差为0.549克,合格率的类型平均方差为0.02787,要求可靠程度为何95%,平均重量的允许误差为0.11克,合格率的允许误差为0.025,用类型抽样推断10000瓶罐头的平均重量和合格率,需要抽多少样本单位?据题意t=1.96\n(三)等距抽样计算公式(1)按有关标志排队同类型重复抽样(2)按无关标志排队同简单随机不重复抽样\n(四)整群抽样1、计算公式2、例题:某水泥厂对一昼夜所生产的14400袋(1440群)水泥抽样检查其质量,根据以往资料,水泥平均重量的群间方差为2.65,允许误差为1.5公斤;一级品率的群间方差为0.00048,允许误差为0.015,要求可靠程度为95.45%,需要抽多少样本群?据题意:\n二、影响抽样单位数目的因素(一)总体各单位的变异程度(二)抽样推断的准确程度△(三)抽样推断的可靠程度t(四)抽样的组织形式(五)抽样的方法返回\n第四节抽样估计一、估计量的优良标准二、抽样估计的方法(一)点估计(二)区间估计1、平均数的区间估计2、成数的区间估计3、2个总体平均数之差的估计4、两个总体比例之差的估计返回\n一、估计量的优良标准(一)无偏性1、概念:如果样本统计量的期望值等于该统计量所估计的总体参数,这个估计量叫无偏估计量。2、样本平均数是总体平均数的无偏估计量总体变量值有N个(),样本容量为n个()。(1)重复抽样\n(2)不重复抽样\n3、样本成数是总体成数的无偏估计量4、样本方差是总体方差的无偏估计量(二)有效性:有两个无偏估计量(),如果那个估计量与总体参数间的平均离差小,这个估计量更有效。和都是的无偏估计量,与间的平均离差为,与间的平均离差为,所以在估计(P)时,(p)更有效。(三)一致性:随着样本容量的增大,估计量与被估参数的偏差越来越小。是的一致估计量。有限总体时,n最大为N,这时=;无限总体时,当n∞时,与间的偏差()的极限为0。p()是P()的一致估计量。\n二、抽样估计的方法(一)点估计(二)区间估计1、平均数的区间估计(1)样本取自总体方差已知的正态分布(大、小样本)返回\n某制造厂质量管理部门希望估计本厂生产的5500包原材料的平均重量,抽出250包,测得平均重量65千克。总体标准差15千克。总体为正态分布,在置信水平为95%的条件下建立这种原材料的置信区间。5500包原材料的平均重量在63.14~66.86之间。\n(2)正态总体总体方差未知且小样本因总体方差未知,只能用代替,而n很小常常与差异较大,就不再是一个标准正态分布,而是一个t分布。例:为了估计一分钟广告的平均费用,抽出15个电视台组成样本,得样本均值10000元,标准差2000元。总体近似服从正态分布,在置信水平为95%的条件下建立广告平均费用的置信区间。电视台一分钟广告的平均费用在8894~11106之间。\n(3)正态总体总体方差未知且大样本总体方差未知,只能用来代替,因n很大,就是的一个较好的估计量,仍然是一个近似的标准正态分布。\n(4)样本取自总体方差已知的非正态分布某职业介绍所从申请某一职业的1000名申请者中采用不重复抽样方式随机抽取了200名,以此来估计1000名的平均成绩。200名的平均分为78,由以往经验知总体方差90,不知总体服从何种分布。在置信水平为90%的条件下建立1000名申请者平均成绩的置信区间。1000名申请者平均成绩在77~79之间。\n2、成数的区间估计例1:某企业在一项关于职工流动原因的研究中,从原职工中随机抽取了200人访问,有140人离开的原因是工资太低。以95%的置信水平对总体这种原因离开的人员比例进行区间估计。该企业由于工资低离开的职工比例为63.6%与76.4%之间\n例2对一批灯泡抽取1%进行质量检验,结果为平均寿命1010小时,抽样平均误差5.6小时;合格率92%,抽样平均误差2.4%。要求在95%的可靠程度下,对该批灯泡的平均寿命和合格率进行区间估计。据题意p=92%\n3、2个总体平均数之差的估计我们经常希望对来自2个不同总体的平均数进行比较()。而往往无法直接得到其数据,只能用样本数据()对其作出估计。(1)2个样本平均数之差的抽样分布如果有2个正态总体,其平均数分别为和,方差分别为和,那么从2个正态总体中抽取的容量分别为和的2个独立样本的平均数之差也一定服从均值为,方差为的正态分布。如果是从2个非正态总体中抽取2个独立的样本,只要,根据中心极限定理,样本平均数之差的抽样分布就会逼近正态分布,\n(2)2个总体平均数之差的估计2个正态总体且方差已知例:某银行负责人想知道储户两家银行的钱数,随从每家各抽取25个储户。样本平均值为:,。两个总体均服从方差分别为和的正态分布。在95%的置信水平下对总体平均数之差进行区间估计。有95%的把握认为总体平均数之差在1200.42和1299.58之间。\n两个正态总体方差未知但相等(小样本)首先求出共同方差的估计值,用加权平均数,权数是它们的自用度。这时,其统计量服从自由度为的t分布,标准差为:总体平均数之差的置信区间为:\n例:某工厂中有两台生产金属棒的机器,分别抽取11根和21根。两个样本的数据为:英寸,英寸;,。假定两个总体近似服从正态分布,且总体方差相等。在95%的置信水平下对总体平均数之差进行区间估计。有95%的把握认为两台机器所生产金属的平均长度差别在0.05和0.25英寸之间。\n两个正态总体方差未知且不等(小样本)其统计量不服从自由度为的t分布,而服从自由度为的t分布,置信区间为:\n例:上例中总体方差不等。有95%的把握认为两台机器所生产金属的平均长度差别在0.04和0.26英寸之间。\n两个非正态总体方差未知(大样本)例;A、B两所大学某期末英语考试采用同一试题。A校认为该校学生成绩能比B校高10分。为了证实,从两校各抽取一个样本,样本资料如下:人,人,分,,,。在95%的置信水平下确定两校平均分之差的置信区间。有95%的把握认为两校成绩之差在2.3和7.3之间。\n4、两个总体比例之差的估计在大样本且总体比例不太接近0或1时,两个独立样本的比例之差的抽样分布近似服从正态分布,其平均值为,标准差为:\n例:某企业有两个车间,对B车间的工人首先进行业务培训。3个月后,对两个车间的产品进行检验。从车间A抽取200件,从车间B抽取220件,废品率为。在95%的把握程度下构造两车间废品率之差的置信区间。有95%的把握认为两车间废品率之差在6.6%和17.4%之间.返回

相关文档