统计学之抽样分布 89页

898.87 KB
2022-08-29 发布

统计学之抽样分布

关闭预览

89页
当前文档由用户上传发布，收益归属用户

1、本文档由用户上传，淘文库整理发布，可阅读全部内容。
2、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，请立即联系网站客服。
3、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细阅读内容确认后进行付费下载。
网站客服QQ：403074932

第四章抽样分布从这一章开始便进入推断统计学的学习内容，它会节省人们的时间和财物来达到认识对象的最佳限度。现实世界包含的素材集合非常庞大，从中提取需要的信息非常困难。如：选民人数：每个候选人的支持率是多少？产品：不合格率是多少？环境：污染程度如何？市场：品种、价格、质量状况、购买力等情况的了解。在这一章里，你将会了解到样本是怎样抽取的，样本统计量是怎样分布的，如何根据样本统计量对总体参数做估计。9/29/20211\n主要内容4.1抽样的一般问题4.2三种不同性质的分布4.3一个总体参数推断时样本统计量的抽样分布4.4两个总体参数推断时样本统计量的抽样分布4.5其他抽样方法█9/29/20212\n4.1抽样的一般问题4.1.1一个例子4.1.2统计抽样的几个基本概念4.1.3简单随机抽样9/29/20213\n4.1.1一个例子本例中存栏肉猪10000头组成的集合，则称为总体，它是指在统计抽样中所要了解的研究对象全体，又称为母体，当确定了研究目标时，它具有惟一性。一般总体的单位总数用N表示，称作总体容量。本例中所抽出的100头肉猪组成的集合，则称为样本，它是指在统计抽样中按照“随机原则”从总体N(10000)中抽出的部分单位(每个单位称作样本单位)所组成的整体，又称子样。一般样本的单位总数用n(100)表示，称作样本容量。样本不具惟一性，它的可能个数与N、n及抽样方法有关。通常n<30称为小样本，n≥30称为大样本，在抽样调查中取大或小样本会直接影响到抽样分布的特征。[例]某养猪厂共有存栏肉猪10000头，现欲了解这批肉猪平均每头毛重(设为)，如果将每头肉猪过称去获取数据将是不合算的。我们可以按照“随机原则”从中抽出100头称重量，计算这100头的平均每头毛重，以达到我们期望的目的。9/29/20214\n1、总体和样本总体：研究对象全体，又称母体。容量用N表示。具备惟一性。样本：按随机原则从总体中抽出的部分单位的全体，被抽出的每个单位称样本单位。样本容量用n表示。样本不具惟一性。当n＜30时，为小样本。当n≥30时，为大样本。4.1.2统计抽样的几个基本概念9/29/20215\n2、总体参数和样本统计量根据全及总体各单位变量值计算的反映全及总体某数量特征的综合指标，由于总体唯一确定，故称总体参数。如上例中的根据样本各单位变量值计算的反映样本某方面数量特征的综合指标，由于样本不具惟一性，故称为样本统计量，它是一个随机变量。如上例中的抽出100头肉猪的平均每头毛重4.1.2统计抽样的几个基本概念9/29/20216\n3、重复抽样与不重复抽样从总体中抽取样本有两种方法：重复抽样和不重复抽样。重复抽样，抽样安排---对每次被抽到的单位经登记后再放回总体，重新参与下一次抽选的抽样方法。在每次的抽取中样本单位被抽中的概率都相等，统计中称这样的抽样为相互独立的试验。不重复抽样，抽样安排---对被抽到的单位登记后不再放回总体的抽样方法。不重复抽样与重复抽样比较，每次抽样的条件是不同的，前一次的抽取结果会对后一次的抽取产生影响,统计中称这样的抽样为相互不独立的试验。4.1.2统计抽样的几个基本概念9/29/20217\n4.1.3简单随机抽样简单随机抽样也称为纯随机抽样。它是对总体单位不做任何分类或排队，直接从总体中按“随机原则”抽取样本单位的调查方式。为了便于抽取样本单位，一般在明确抽样框的条件下，对总体的每个单位都要编号，然后用抽签式或利用《随机数字表》进行抽取。例如：N=500n=10编码从1-500号在随机数表中随意选取二个数字，假如得到4行，43列。则选取的号码从这个被选中的数开始，由于500是个三位数，则小于500的连续三位数即为中选号码，见表中所示。9/29/20218\n4.1.3简单随机抽样█9/29/20219\n4.2三种不同性质的分布4.2.1几种常见分布4.2.2总体分布4.2.3样本分布4.2.4抽样分布4.2.5样本推断总体的理论依据这些内容与前面内容有什么关系？9/29/202110\n一、分布的含义1、在随机试验中，若X随着试验结果的不同而随机地取各种不同的数值，并且对取每一个数值或某一范围内的值都有相应的概率，则称X为一个随机变量。2、随机变量取一切可能值或范围与其相应概率间一一对应的关系，称为概率分布(probabilitydistribution,简称分布)。3、概率分布是关于总体的概念，有了概率分布就等于知道了总体。4、概率分布可以用各种图或表来表示，一些可以用公式来表示。4.2.1几种常见分布9/29/202111\n二、正态分布4.2.1几种常见分布定义9/29/202112\n正态分布的密度函数图形是一条以均值为中心的对称钟型曲线二、正态分布4.2.1几种常见分布9/29/202113\n正态分布密度函数的数学性质二、正态分布4.2.1几种常见分布9/29/202114\n标准正态分布及其重要意义二、正态分布4.2.1几种常见分布9/29/202115\n标准化法二、正态分布4.2.1几种常见分布9/29/202116\n标准化法的几何意义标准化变换实质上是作了一个坐标轴的平移和尺度变换，使正态分布的平均数，标准差。二、正态分布4.2.1几种常见分布9/29/202117\n正态分布表及上侧分位数二、正态分布4.2.1几种常见分布9/29/202118\n准则二、正态分布4.2.1几种常见分布9/29/202119\n准则示意图二、正态分布4.2.1几种常见分布9/29/202120\n正态分布的重要意义在随机理论中，正态分布是最重要的一种分布,理由如下：⑴它是最常见的一种分布，现实中许多随机变量服从或近似服从正态分布。⑵在一定的条件下，正态分布是其他分布的近似分布。⑶许多有用的分布，特别是小样本的精确分布是由正态分布推导出来的。二、正态分布4.2.1几种常见分布9/29/202121\n三、小样本(n<30)的精确分布1、2分布2、t分布3、F分布均由正态分布导出的分布4.2.1几种常见分布9/29/202122\n1、2分布(2distribution)（1）推导说明①由阿贝(Abbe)于1863年首先给出，后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年和1900年推导出来。②设，则③构造，则Yi服从自由度为1的2分布，即④当总体，从中抽取容量为n的样本，则4.2.1几种常见分布三、小样本(n<30)的精确分布9/29/202123\n1、2分布（2）性质和特点①由于2分布变量为正态变量的平方和，故分布的变量值始终为正。②可加性：若U和V为两个独立的服从2分布的随机变量，U~2(n1)，V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布。③n个独立正态变量平方和称为有n个自由度的c2-分布,记为c2(n)。c2-分布为一族分布,成员由自由度区分。④分布的形状取决于其自由度n的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称。⑤期望为E(2)=n，方差为D(2)=2n(n为自由度)4.2.1几种常见分布三、小样本(n<30)的精确分布9/29/202124\n1、c2分布（3）图示选择容量为n的简单随机样本计算样本方差s2计算卡方值2=(n-1)s2/σ2计算出所有的2值不同容量样本的抽样分布c2n=1n=4n=10n=20ms总体4.2.1几种常见分布三、小样本(n<30)的精确分布9/29/202125\n1、c2分布（4）c2分布的上分位点分位点设X~2(n)，若对于：0<<1，存在,满足则称为分布的上分位点。4.2.1几种常见分布三、小样本(n<30)的精确分布9/29/202126\n①由统计学家哥赛特（W.S.Gosset）于1908年提出，并以其笔名命名。2、t-分布(t-distribution)（1）t分布的构造及性质4.2.1几种常见分布三、小样本(n<30)的精确分布②构造：若~N(0,1),~2(n),与独立，则t(n)称为自由度为n的t分布。③基本性质：(1)f(t)关于t=0(纵轴)对称。(2)f(t)的极限为N(0，1)的密度函数，即9/29/202127\nt(n)分布的图形为2、t-分布(t-distribution)（2）t分布的图示4.2.1几种常见分布三、小样本(n<30)的精确分布9/29/202128\n对于给定的：0<<1，称满足条件P(t>ta)=a的点ta为t(n)分布的上a分位点。2、t-分布(t-distribution)（3）t分布的上a分位点4.2.1几种常见分布三、小样本(n<30)的精确分布9/29/202129\n①由统计学家费希尔(R.A.Fisher)提出的，以其姓氏的第一个字母来命名②构造：设若U为服从自由度为n1的2分布，即U~2(n1)，V为服从自由度为n2的2分布，即V~2(n2)，且U和V相互独立，则称F为服从自由度n1和n2的F分布，记为3、F分布(Fdistribution)（1）F分布的构造4.2.1几种常见分布三、小样本(n<30)的精确分布9/29/202130\nF分布(图示)不同自由度的F分布F（1,10)(5,10)(10,10)3、F分布(Fdistribution)（2）F分布的图示4.2.1几种常见分布三、小样本(n<30)的精确分布9/29/202131\nF分布的分位点：对于：0<<1，若满足条件：P{FF(n1,n2)}=，则称F(n1,n2)为F(n1,n2)的上分位点3、F分布(Fdistribution)（3）F分布的上a分位点4.2.1几种常见分布三、小样本(n<30)的精确分布9/29/202132\n1）总体中各元素的观察值所形成的相对频数（频率）分布2）分布通常是未知的（因为几乎得不到总图所有观察值）3）可以根据理论分析假定它服从某种分布总体4.2.2总体分布9/29/202133\n1）一个样本中各观察值形成的相对频数（频率）分布2）也称经验分布3）当样本容量n逐渐增大时，样本分布逐渐接近总体的分布样本4.2.3样本分布9/29/202134\n1、统计量与参数1）在抽样推断中，无论是总体还是样本，都可以用平均数、比例(或成数)、标准差和方差等指标来描述它们的特征。当它们用来描述样本的特征时，称为样本统计量；当它们用来描述总体特征时，称为总体参数。2）样本统计量是样本的函数，依据不同的样本计算出来的值是不同的，所以统计量是随机变量，如样本均值,样本比例，样本方差等4.2.4抽样分布9/29/202135\n2、抽样分布的含义1）含义：样本统计量的概率分布，是一种理论分布，在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布。2）构造抽样分布包括以下几个步骤：（1）从容量为N的有限总体中随机抽出容量为n的所有可能样本；（2）算出每个样本的统计量数值；（3）算出与每个样本统计量数值相对应的概率，作频数分布表。4.2.4抽样分布9/29/202136\n3、总体分布、样本均值的抽样分布(例题分析)【例】设一个总体，含有4个元素(个体)，即总体单位数N=4。4个个体分别为x1=1，x2=2，x3=3，x4=4。总体分布、总体均值、总体方差如下。总体分布14230.1.2.3均值和方差4.2.4抽样分布9/29/202137\n现从总体中抽取n＝2的简单随机样本，在重复抽样条件下，共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本（共16个）4.2.4抽样分布9/29/202138\nx样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5计算出各样本的均值，如下表，并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)4.2.4抽样分布9/29/202139\n样本均值的分布与总体分布的比较(例题分析)=2.5σ2=1.25的分布形式与原有总体的分布和样本容量n的大小等因素有关总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x4.2.4抽样分布9/29/202140\n4、抽样分布的意义因为样本均值是一个随机变量，因此，与其他随机变量一样，具有平均数（期望）、方差和概率分布。因为的各种可能取值是不同简单随机抽样的结果，所以的概率分布称为的抽样分布。对于这个抽样分布及其特征的了解，可以使我们能够对样本均值与总体均值的接近程度进行概率描述。4.2.4抽样分布意义：抽样分布一方面描述了样本的随机性，提供了样本统计量长远而稳定的信息即变化规律；另一方面建立了样本与总体的联系，是进行推断的理论基础，也是抽样推断科学性的重要依据。9/29/202141\n一、大数定律1、是关于均值具有稳定性的一类定律。2、以切比雪夫大数定律为例。设随机变量相互独立，且具有相同的有限数学期望和方差：则对于任意正数，都有3、若把（）看作是来自期望为μ、方差为σ2总体的一个容量为n的样本，随着n的充分增大，样本均值依概率收敛于总体均值。4、大数定律为统计量估计参数提供了理论上的依据。即统计量推断参数是可行的。但大数定律没有提供统计量推断参数时误差的计算方法。4.2.5样本推断总体的理论依据9/29/202142\n二、中心极限定理(centrallimittheorem)当样本容量足够大时(n30)，样本均值的抽样分布逐渐趋于正态分布1.中心极限定理：设从均值为，方差为2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。一个任意分布的总体x4.2.5样本推断总体的理论依据9/29/202143\n2.x的分布趋于正态分布的过程4.2.5样本推断总体的理论依据9/29/202144\n3.中心极限定理的重要意义1）确定了正态分布在各种分布中的首要地位。也回答了正态分布是最重要、最常见的分布。2）揭示了正态分布的形成机制。如果某一个量的变化受到许多种随机因素的影响，这种影响的总后果是各个因素的迭加，而且，这些因素中没有任何一个是起主导作用的，那么，这个量就是一个服从正态分布的随机变量。3）提供了推断误差的计算思想方法，特别是大样本处理方法。但没有提供小样本下推断误差的计算方法。4.2.5样本推断总体的理论依据█9/29/202145\n4.3一个总体参数推断时样本统计量的抽样分布4.3.1样本均值的抽样分布4.3.2样本比例的抽样分布4.3.3样本方差的抽样分布9/29/202146\n1、样本均值抽样分布的含义1）在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布2）一种理论概率分布3）是推断总体均值的理论基础4.3.1样本均值的抽样分布9/29/202147\n2、样本均值抽样分布的形式（1）总体分布为正态分布=50=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时，来自该总体的所有容量为n的样本的均值x也服从正态分布，x的数学期望为μ，方差为σ2/n。即x～N(μ,σ2/n)4.3.1样本均值的抽样分布9/29/202148\n2、样本均值抽样分布的形式（2）总体分布为非正态分布(n≥30，大样本情形)当样本容量足够大时(n30)，样本均值的抽样分布逐渐趋于正态分布从均值为，方差为2的一个非正态分布总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体x4.3.1样本均值的抽样分布9/29/202149\n1、总体分布为非正态分布且为小样本（n<30）2、样本均值的分布为非正态分布2、样本均值抽样分布的形式（3）总体分布为非正态分布(n<30,小样本情形)4.3.1样本均值的抽样分布9/29/202150\n总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布2、样本均值抽样分布的形式（4）小结4.3.1样本均值的抽样分布9/29/202151\n样本均值的数学期望样本均值的方差（方差的概率意义在于刻画了随机变量取值的分散程度。方差越小，随机变量的取值越集中在期望值附近。）重复抽样不重复抽样3、样本均值抽样分布的特征设总体共有N个元素，其均值为μ，方差为σ2，从中抽取容量为n的样本，则4.3.1样本均值的抽样分布9/29/202152\n1）总体（或样本）中具有某种属性的单位与全部单位总数之比①不同性别的人与全部人数之比②合格品(或不合格品)与全部产品总数之比2）总体比例可表示为3）样本比例可表示为4.3.2样本比例（成数）的抽样分布1、比例（成数）的含义9/29/202153\n在重复选取容量为n的样本时，由样本比例的所有可能取值形成的相对频数分布。一种理论概率分布。当样本容量很大时（np≥5和n(1-p)≥5），样本比例的抽样分布可用正态分布近似。推断总体比例的理论基础。4.3.2样本比例的抽样分布2、样本比例抽样分布的含义及形式9/29/202154\n样本比例的数学期望样本比例的方差重复抽样不重复抽样4.3.2样本比例的抽样分布3、样本比例抽样分布的特征9/29/202155\n调查误差登记性误差代表性误差系统性误差（偏差）抽样平均误差实际误差抽样误差主要是指在用样本数据进行推断时所产生的随机误差。统计推断中的抽样误差通常是指抽样平均误差，它是抽样调查所固有的，是对抽样推断精确度的量度。4.3.2样本比例的抽样分布4、抽样误差（1）调查误差的分类抽样极限误差抽样误差（随机误差）9/29/202156\n4.3.2样本比例的抽样分布（2）统计量的标准误（）定义：样本统计量的抽样分布的标准差，测度所有样本统计量的离散程度，也称标准误差或抽样平均误差。A：样本均值的抽样误差B：样本成数P的抽样误差4、抽样误差9/29/202157\n样本平均数的抽样平均误差A、重复抽样4、抽样误差（3）标准误差的计算4.3.2样本比例的抽样分布9/29/202158\nB、不重复抽样4、抽样误差（3）标准误差的计算4.3.2样本比例的抽样分布9/29/202159\n不重复抽样有限总体重复抽样或无限总体有限总体中为校正因子，一般可简写为一般当抽样比小于等于5％时，校正因子可忽略不计。标准误差就是样本统计量的抽样分布的标准差，也称抽样平均误差，其计算公式如下：4.3.2样本比例的抽样分布4、抽样误差（3）标准误差的计算9/29/202160\n①当计算标准误时涉及的总体参数未知时，用样本统计量代替计算的标准误，称为估计的标准误。②以样本均值的抽样分布为例，当总体标准差未知时，可用样本标准差s代替，则在重复抽样条件下，样本均值的估计标准误为：标准差=标准误=估计标准误=抽样误差？4.3.2样本比例的抽样分布4、抽样误差（4）估计的标准误(standarderrorofestimation)9/29/202161\n总体各单位的差异程度（即标准差的大小）：越大，抽样误差越大；样本单位数的多少：越大，抽样误差越小；抽样方法：不重复抽样的抽样误差比重复抽样的抽样误差小；抽样组织方式：简单随机抽样的误差最大。4.3.2样本比例的抽样分布4、抽样误差（5）影响抽样误差的因素9/29/202162\n在重复选取容量为n的样本时，由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本，则比值的抽样分布服从自由度为(n-1)的2分布，即4.3.3样本方差的抽样分布█9/29/202163\n4.4两个总体参数推断时样本统计量的抽样分布4.4.1两个样本均值之差的抽样分布4.4.2两个样本比例之差的抽样分布4.4.3两个样本方差比的抽样分布9/29/202164\n两个总体都为正态分布，即，两个样本均值之差的抽样分布服从正态分布，其分布的数学期望为两个总体均值之差方差为各自的方差之和4.4.1两个样本均值之差的抽样分布即：9/29/202165\n两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本，当两个样本都为大样本时，两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为方差为各自的方差之和4.4.2两个样本比例之差的抽样分布即：9/29/202166\n两个总体都为正态分布，即X1~N(μ1,σ12)，X2~N(μ2,σ22)从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布，服从分子自由度为(n1-1)，分母自由度为(n2-1)的F分布，即4.4.3两个样本方差比的抽样分布█9/29/202167\n4.5其他抽样方法4.5.1概率抽样1、分层抽样2、系统抽样3、整群抽样4、多阶段抽样4.5.2非概率抽样1、方便抽样2、判断抽样3、自愿样本4、滚雪球抽样5、配额抽样4.5.3概率抽样和非概率抽样的比较4.5.4抽样调查实例9/29/202168\n根据一个已知的概率来抽取样本单位，也称随机抽样，概率抽样有简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的，或是可以计算出来的当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率4.5.1概率抽样9/29/202169\n1.分层抽样(stratifiedsampling)1、定义：将总体单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本单位，所有抽出的样本单位合起来构成样本。2、特点：先分层（对总体），后抽样（对层）3、分层要求：层间差别大，层内差别小4、抽样方法：（见下张幻灯片）5、适用：总体单位在总体内部分布不均匀且变异程度大的总体。6、优点：保证样本的结构与总体的结构比较相近，从而提高估计的精度；组织实施调查方便；既可以对总体参数进行估计，也可以对各层的目标量进行估计。9/29/202170\n总体N样本n等额等比例不等比例······1.分层抽样(stratifiedsampling)9/29/202171\n[例]10人年龄资料如下。N=10n=3，推断总体平均年龄。人：ABCDEFGHIJ年龄：581139424548707376[简单随机抽样]（B、H、I），（C、D、E），（F、G、I）结论：总体变异较大时分层抽样。[分层抽样]（B、E、I），（C、D、H），（A、G、J）1.分层抽样(stratifiedsampling)9/29/202172\n······随机起点半距起点对称起点（总体单位按某一标志排序）按无关标志排队，其抽样效果相当于简单随机抽样；按有关标志排队，其抽样效果相当于分层抽样。2、系统抽样（机械抽样或等距抽样）(systematicsampling)——将总体中的所有单位(抽样单位)按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位。9/29/202173\n系统抽样可以分为无关标志排序抽样和有关标志排序抽样两类。无关标志排序抽样是指排序的标志与被研究的标志无关。如：观察学生考试成绩用姓氏笔划；观察产品质量按生产的先后顺序等。无关标志排序可以保证抽样的随机性，它实质上相当于简单随机抽样。有关标志排序抽样是指排序的标志与被研究标志相关。在对总体各单位的变异情况有所了解的情况下，也可以采用有关标志进行总体单位排列，使各单位的排列顺序和它的变量数值大小保持密切的关系。如：农产量抽样调查，可利用各县或各乡当年估计亩产或最近三年平均亩产标志排队，抽取调查单位。由此可见，按有关标志排序实质上是运用系统抽样的一些特点，有利于提高样本的代表性，它实质上相当于分层抽样。但也必须注意到，系统抽样在排序时，第一个样本单位的位置确定后，其余单位也随之确定，因此要避免抽样间隔和现象本身的周期性节奏相重合，引起系统性的影响。2、系统抽样(systematicsampling)9/29/202174\n3、整群抽样(clustersampling)1、定义：将总体中若干个单位合并为组(群)，抽样时直接抽取群，然后对中选群中的所有单位全部实施调查。2、特点：先分群（对总体），后抽样（对总体）3、群的类型：自然形成的群；人为划分的群4、分群原则：群间差别小，群内差别大5、抽样方法：（见下张幻灯片）6、适用：在大规模的抽样调查中，如果总体单位多且分布区域广，缺少进行抽样的抽样框，或者在按经济效益原则不宜编制这种抽样框的情况下，宜采用整群抽样方式。9/29/202175\n例：总体群数R=16样本群数r=4ABCDEFGHIJKLMNOPLHPD样本容量简单、方便，能节省人力、物力、财力和时间，但其样本代表性可能较差3、整群抽样(clustersampling)9/29/202176\n例：在某省100多万农户抽取1000户调查农户生产性投资情况。第一阶段：从该省所有县中抽取5个县第二阶段：从被抽中的5个县中各抽4个乡第三阶段：从被抽中的20个乡中各抽5个村第四阶段：从被抽中的100个村中各抽10户样本n=100×10=1000(户)——又称多级抽样，它是将抽取样本单位的过程划分为几个阶段，然后逐阶段抽取样本单位的抽样组织方式。4、多阶段抽样9/29/202177\n其优点在于：首先，便于组织抽样。它可以按现有的行政区划或地理区域划分各阶段的抽样单元，从而简化抽样框的编制。其次，可以获得各阶段单元的调查资料，即根据最初级资料可进行逐级抽样推断，得到各级的调查资料。如农产量调查，可根据样本推断地块资料，根据地块资料可推断村的资料，然后依次推断乡、县等。第三，多阶段抽样的方式比较灵活，各阶段抽样的组织方式可以前述四种为依据进行选择。一般在初级阶段抽样时多用类型抽样和等距抽样，在次级阶段抽样时多用等距抽样和简单随机抽样。同时，还可以根据各阶段的不同特点，采用不同的抽样比。如方差大的阶段，抽样比大一些；方差小的阶段，抽样比小一些。而且多阶段抽样在简化抽样工作的同时，抽样单位的分布较广，具有较强的代表性。4、多阶段抽样9/29/202178\n4.5.2非概率抽样(non-probabilitysampling)相对于概率抽样而言抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式9/29/202179\n1、方便抽样调查过程中由调查员依据方便的原则，自行确定入抽样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点：容易实施，调查的成本低缺点：样本单位的确定带有随意性，样本无法代表有明确定义的总体，调查结果不宜推断总体9/29/202180\n2、判断抽样研究人员根据经验、判断和对研究对象的了解，有目的选择一些单位作为样本有重点抽样，典型抽样，代表抽样等方式判断抽样是主观的，样本选择的好坏取决于调研者的判断、经验、专业程度和创造性抽样成本比较低，容易操作样本是人为确定的，没有依据随机的原则，调查结果不能用于推断总体9/29/202181\n3、自愿样本被调查者自愿参加，成为样本中的一份子，向调查人员提供有关信息例如，参与报刊上和互联网上刊登的调查问卷活动，向某类节目拨打热线电话等，都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体9/29/202182\n4、滚雪球抽样先选择一组调查单位，对其实施调查之后，再请他们提供另外一些属于研究总体的调查对象，调查人员根据所提供的线索，进行此后的调查。这个过程持续下去，就会形成滚雪球效应适合于对稀少群体和特定群体研究优点：容易找到那些属于特定群体的被调查者，调查的成本也比较低9/29/202183\n5、配额抽样先将总体中的所有单位按一定的标志(变量)分为若干类，然后在每个类中采用方便抽样或判断抽样的方式选取样本单位操作简单，可以保证总体中不同类别的单位都能包括在所抽的样本之中，使得样本的结构和总体的结构类似抽取具体样本单位时，不是依据随机原则，属于非概率抽样9/29/202184\n4.5.3概率抽样与非概率抽样的比较概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体9/29/202185\n4.5.4抽样抽查实例TheLiteraryDigest民意测验1936年，FranklinDelanoRoosevelt任美国总统的第一任期届满。共和党的候选人是Kansas州州长AlfredLandon。《文学摘要》杂志根据约240万人参加的一次民意测验预测，Landon会以57%对43%的压倒优势获胜。但是Roosevelt以62%对38%的一边倒优势赢得了1936年的选举。（此后不久《文学摘要》就垮了。）9/29/202186\n若想找出《摘要》在哪一点上出了差错，你必须查一下他们是怎样抽取样本的。《摘要》的程序是将问卷邮寄给1000万人，这1000万人的名字和地址摘自诸如电话簿或俱乐部会员名册。这导致筛选掉那些不属于俱乐部成员或没有安装电话的穷人。抽样程序将这一类或那一类人排除在样本之外所表现的系统倾向称为选择偏性。在确定那些人应选入样本后，调查机构还需要去获得他们的想法。若被选入样本的大多数人实际上不回答问卷或询问，那将产生严重的扭曲，称为不回答偏倚。4.5.4抽样抽查实例█9/29/202187\n本章小结概率抽样方法总体分布、样本分布、抽样分布单总体参数推断时样本统计量（样本均值、样本比例、样本方差）的抽样分布（统计研究中常用到Z变量、t变量、变量、F变量，有这四种变量计算出来的值，对于将从样本中统计的信息推广到总体中有重要的作用。）双总体参数推断时样本统计量的分布9/29/202188\n谢谢观看/欢迎下载BYFAITHIMEANAVISIONOFGOODONECHERISHESANDTHEENTHUSIASMTHATPUSHESONETOSEEKITSFULFILLMENTREGARDLESSOFOBSTACLES.BYFAITHIBYFAITH

统计学之抽样分布 89页

统计学之抽样分布

您可能关注的文档

相关文档

最近下载