- 1.26 MB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
本资料来源\n第四章抽样估计是以概率抽样的样本观测结果去估计未知的总体数量特征\n本章要求学生:明确抽样推断的含义、特点和作用。了解有关的基本概念,重点掌握抽样误差的含义、影响因素及其计算。了解抽样估计的基本方法和步骤;抽样方案设计的基本原则。全面掌握简单随机抽样的平均误差计算方法和样本容量确定方式,了解其它各种抽样组织方式的含义及平均误差的计算。\n第一节抽样分布\n(一)总体分布及其特征总体分布:是指总体中所有个体关于某个变量(标志)的取值所形成的分布。总体参数:反映总体分布特征的指标一、抽样分布的基本问题\n2007年4月23日,上证综合指数再创历史新高,达到3710.89点,在上证A股上市的836家企业中,789家上涨,47家下跌。总体:836家上市公司总体分布:836家上市公司当天的涨幅xii=1……..836总体参数:\n总统参数的值应由总体全部单位的标志值计算而来:对于特定的总体,总体参数值是唯一的。对于无限总体和非全面调查的有限总体,总体参数的值通常未知,只能通过样本来估计。常用的总体参数有两个:总体均值(包括是非变量的均值);总体方差或标准差(包括是非变量的方差或标准差)。\n⒈总体均值(总体平均数):设有限总体容量为N,各单位某项标志的值分别为;若为是非标志则设具有某种属性的有个单位,不具有某种属性的有个单位,则\n2、总体方差:\n3、总体成数(总体比例)5、总体是非标志的方差4、总体是非标志的均值\n(二)样本分布及其特征样本分布:样本中所有个体关于某个变量(标志)的取值所形成的分布。当样本容量很大,或者是当逐渐增大时,样本分布会接近总体分布。如果样本容量很小,样本分布就有可能与总体分布相差很大,抽样估计的结果就会很差。\n样本统计量:反映样本分特征的指标,T样本统计量是随机变量,它的取值随样本的不同而发生变化。样本统计值:是样本统计量的值,由样本单位的标志值计算而来,用来估计总体参数。\n例:我们选择奥运板块的个股作为样本。则样本分布为该板块60只股票在4月23日的涨跌情况样本统计量xii=1……60样本是随机产生的,为了提高样本的代表性,可以选择合适的抽样组织方式来产生样本抽样估计就是以可知但非唯一的样本统计量的值来估计未知但唯一的总体参数的值。\n与总体参数相对应,常用的样本统计量有样本均值(或样本成数)、样本方差(或样本标准差)。\n⒈样本均值:设样本中n个样本单位某项标志的标志值分别为,若为是非标志则设具有和不具有某种属性的样本单位数目分别为和个,则\n2.样本方差:\n3.样本成数(样本比例):4.样本是非标志的均值:5.样本是非标志的方差:\n(三)抽样分布及其特征1、抽样分布的概念抽样分布,是样本统计量的概率分布,由样本统计量的所有可能取值和与之相应的概率组成。假设从容量为N的总体中抽取容量为n的样本最多可抽取m套不同的样本,则m个样本统计值的频率分布,即为抽样分布。\n实际的抽样分布形成取决于以下五个因素:总体分布(越集中,抽样分布越集中)样本容量(最关键因素,容量越大抽样分布越集中)抽样方法(采用重复或不重复方法,抽样分布不同)抽样组织形式(不同形式下的样本个数及结构不同,抽样分布也不同)估计量构造(样本估计量不同,抽样分布不同)\n\n大样本小样本返回\n最基本的抽样分布:样本均值的抽样分布,样本成数的抽样分布2、抽样分布形式\n设从容量为N的有限总体中抽取容量为n的样本,最多可抽取m套不同样本,计算得m个样本统计值设m个样本统计值经单项式分组可分为k组,则抽样分布的表现形式为:样本均值的抽样分布形式\n样本成数的抽样分布形式\n例:某车间班组5个工人日工资为34,38,42,46,50元,则总体日平均工资总体日工资方差不同抽样方法下样本平均数的抽样分布\n(1)用重复抽样方法(考虑顺序)从5个工人(日工资为34,38,42,46,50元)中随机抽取2人构成样本,共52=25个样本所有可能样本及其平均数:样本变量3438424650343842465034363840423638404244384042444640424446484244464850第一单位第二单位样本均值\n整理出样本平均数的频率分布如下:频率343638404244464850合计4%8%12%16%20%16%12%8%4%100%样本均值的抽样分布样本均值的抽样分布图\n(2)用不重复抽样方法从5个工人(日工资为34,38,42,46,50元)中随机抽取2人构成样本(考虑顺序),共5×4=20个样本。所有可能样本及其平均数:样本变量3438424650343842465034363840423638404244384042444640424446484244464850第一单位第二单位样本均值\n整理出样本平均数的频率分布如下:频率36384042444648合计10%10%20%20%20%10%10%100%样本均值的抽样分布图样本均值的抽样分布\n设某总体由10个球组成,其中红球6个,现从总体中随机抽取4个球,那么在重复抽样和不重复抽样下红球比重(样本成数)的抽样分布分别如何?重复抽样下红球比重的抽样分布00.250.50.7510.02560.15360.34560.34560.1296总体成数为总体方差为在重复抽样下,样本中红球的比重服从二项分布\n00.250.50.751不重复抽样下红球比重的抽样分布\n3、抽样分布特征指样本统计量的数学期望和方差。样本统计量的数学期望:即所有样本统计值的平均数样本统计量的方差:即所有样本统计值关于数学期望的方差\n在前面的例题中,重复抽样的抽样分布如下:频率343638404244464850合计4%8%12%16%20%16%12%8%4%100%样本平均数的期望与方差:\n不重复抽样的抽样分布如下:频率36384042444648合计10%10%20%20%20%10%10%100%样本平均数的均值与方差:\n结论:(1)样本均值抽样分布的期望值(均值):在重复或不重复抽样下都等于总体均值(2)样本均值抽样分布的方差:重复抽样方差大于不重复抽样,显然不重复抽样的抽样分布较为集中。\n样本成数的抽样分布:(1)样本成数的期望值:在重复或不重复抽样下,样本成数的均值都等于总体成数(2)样本成数抽样分布的方差:重复抽样方差大于不重复抽样,显然不重复抽样下样本成数的抽样分布较为集中\n在各种抽样方法和抽样组织方式下,样本统计量的数学期望(均值)都等于总体参数。抽样分布的特征主要通过方差来体现。抽样分布越集中、样本统计量的方差越小,则样本统计值越可能接近总体参数真值,抽样估计的误差越小、估计结果就越精确。实际调查只抽取一个样本,因此上述抽样分布形式难以列出。结论:\n二、抽样分布定理(一)样本均值的抽样分布定理1、正态分布的再生定理若总体服从正态分布则样本均值也服从正态分布\nn=4n=16抽样分布(重复抽样)\n任一总体(不要求正态),期望值,方差,当n足够大(当n>30,大样本),趋于正态分布2、中心极限定理\n当样本容量足够大时(大样本),抽样分布趋于正态分布小样本从任意分布的总体中抽样大样本\n若正态总体方差未知且n较小,则服从于自由度为n-1的t分布任一总体但n较小,服从于自由度为n-1的t分布3、t分布定理\n(二)样本成数的抽样分布定理1、二项分布定理从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机重复地抽取容量为n的样本,那么样本中含有个某类变量值的概率为:\n2.超几何分布定理从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机不重复地抽取容量为n的样本,那么当同时时,样本中含有个某类变量值的概率为:\n从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机抽取容量为n的样本,当n足够大(nP>5,n(1-P)>5),样本成数p趋于正态分布或E(p)=P3.中心极限定理\n正态分布是最重要、最常用的抽样分布,由于抽样一般都是大样本,因此可以根据正态分布理论,根据样本统计值来推断总体参数。\n第二节抽样误差一、抽样中的误差构成抽样中的总误差可以简单地分为两类,一类是抽样误差,一类非抽样误差。抽样误差——偶然性代表性误差非抽样误差——系统性代表性误差观测性误差\n抽样误差:是由于抽样的非全面性和随机性所引起的偶然性误差,即因抽样估计值随样本不同所造成的误差。特点:随着样本容量的增大而趋向于0,不可避免但可以加以控制由随机抽样的偶然性因素以外的原因所引起的误差。超过一定程度就会使抽样估计失去意义,减少和控制它十分重要。非抽样误差:\n总误差抽样误差非抽样误差\n二、抽样误差的表现形式指样本估计量与总体参数之间数量上的差异,仅指由于随机抽样的偶然性因素使样本不足以代表总体而引起样本指标与总体指标间的差异(即偶然性误差)抽样误差有三种形式:实际抽样误差抽样标准误差(抽样平均误差)抽样极限误差\n(一)抽样实际误差是抽样估计值与总体参数真值之间的绝对离差,表示为由于随机抽样的偶然性,使样本结构不能与总体结构完全一致,从而产生估计误差成数估计的实际抽样误差是随机变量,不同的样本有不同的抽样实际误差;对于任何一个样本,其抽样实际误差都不可能测量出来均值估计的实际抽样误差\n(二)抽样标准误差(抽样平均误差)是反映抽样误差一般水平的指标,实质含义是指样本统计量抽样分布的标准差它能够反映样本指标与总体指标的平均离散程度,也能够说明样本指标代表性的大小。抽样标准误越大(小),抽样分布越离散(集中),样本指标对总体指标的代表性越差(好),抽样估计的误差平均来讲就越大。\n对于固定的总体和样本容量n,在相同的抽样方法和抽样组织形式下,抽样标准误是一个唯一确定的值。——所谓“抽样误差能够加以计算并控制”前例中,重复抽样下前例中,不重复抽样下说明不重复抽样的样本均值分布比重复抽样更为集中,其样本均值的代表性更好,不重复抽样的抽样误差小于重复抽样。所以实践中常用不重复抽样方法。\n上述公式在实际应用时有两个困难:实际中无法根据该公式计算出标准误,只能根据一套样本来计算其估计值,因此抽样标准误是随机变量需计算所有可能样本统计量的值;需要知道总体参数\n(三)抽样极限误差是指以样本估计量估计总体参数时所允许的最大误差范围通常用 表示抽样极限误差的实际意义:实际上就是对总体参数可允许取的最高值或最低值进行了限制。即希望总体参数落在样本估计量的范围内抽样极限误差越大,抽样估计的精确度越低\n抽样极限误差取决于两个因素:1、抽样标准误,即抽样分布本身具有多大的标准差。当抽样方法和样本容量固定时,抽样标准误差是一个定值,反映抽样误差的一般水平。因此,抽样极限误差通常可以以抽样标准误差为标准单位来衡量,表示为抽样标准误差的多少倍。抽样标准误差越大(小),抽样极限误差就越大(小)\n2、抽样估计的概率保证程度(置信水平)是指抽样估计结果的可靠程度,即抽样估计结果是准确的概率(可靠程度)有多大。通常表示为,其中称为显著性水平。指的是总体参数处于区间内的概率。即总体参数不在区间内的概率。要求估计结果的可靠程度越高,则越大。\n抽样极限误差、抽样标准误差与抽样概率保证程度三者的关系可以这样表示:其中,称为抽样概率度。可见,抽样极限误差分别与概率度和抽样标准误差成正比。越高,抽样估计的可靠程度越高,但也越大,估计的精确度降低。\n正是当显著性水平为时的标准正态分布的双侧临界值,概率保证程度与的值是一一对应的\n68.27%95.45%99.73%常用的:1-α=68.27%,90%,95%,95.45%,99.73%=1,1.64,1.96,2,3\n第三节参数估计方法一、估计量的评价标准所谓估计量,就是用以估计总体参数的量,或者说是根据样本结果来估计总体参数的规则或形式。估计量一般情况下就是样本统计量。估计量的某一具体的值,就称为估计值。\n评价估计量好坏的标准有四个:无偏性、有效性、一致性和充分性符合标准的称为优良估计量当有两个以上个统计量可以估计某个总体参数时,应该如何选择?\n指估计量的抽样分布的均值应等于被估计的总体参数的真值无偏性若 ,则称 为 的无偏估计量。xCA无偏有偏\n优良估计量的抽样分布方差小于其他估计量的方差有效性若则称为比 更有效的估计量ABx\n指随着样本单位数n的增大,样本估计量的取值趋近于总体参数真值一致性较小的样本容量较大的样本容量x\n若估计量提取了样本中包含的有关总体参数的全部信息,则为充分估计量。例如:充分性\n为 、s2n-1为S2、p为P的无偏、有效、一致、充分估计量。数理统计证明:同时满足上述四个标准,则为优良估计量\n参数估计方法有两种:点估计区间估计二、参数估计方法\n(一)点估计点估计:也称定值估计,就是以样本统计量的值作为总体参数的估计值。关键问题是估计量的选择\n简单,具体明确优点缺点不知道估计的可靠程度,仅适用于对推断的准确程度与可靠程度要求不高的情况点估计的优缺点\n(二)区间估计是指用一个具有一定可靠程度的区间范围来估计总体参数。即在给定的概率保证程度(可靠程度)1-α下,找到两个数值θ1和θ2,构成总体参数θ取值的区间范围[θ1,θ2]。该区间称为估计区间,θ1称为估计下限,θ2称为估计上限\n若已知抽样极限误差,则总体参数处在样本估计量的范围内,那么总体参数的区间范围为:在一定的概率保证程度下,找到相应的抽样极限误差的值,则可以确定估计区间的上下限\n估计区间可表示为:的估计区间:P的估计区间:\n区间估计的两个基本要求:置信度1-α精确度估计区间长度一般在给定的概率保证程度下,尽可能提高估计的精度(通过降低抽样标准误)。置信度1-α越大,越大,估计的精确程度越低。反之,置信度1-α越小,越小,估计的精确度越高。希望置信度尽可能大(可靠程度高),同时精确度尽可能高(估计区间的长度短)。但在样本容量n一定时,两者矛盾。\n区间估计的特点:不指出参数的确定数值,而是在一定的概率保证程度下指出参数的可能范围。估计结果的可靠程度可知,即为概率保证程度\n第三节各种抽样组织形式下的抽样估计抽样组织形式:简单随机抽样等距抽样分层抽样整群抽样多阶段抽样\n——事先未对总体进行分组或组合,直接从总体全部单位中按随机原则抽取样本。一、简单随机抽样(纯随机抽样)\n1、计算估计量2、抽样标准误(1)当总体方差已知(一)总体均值的估计\nf=n/N,称为抽样比当f<5%,有限总体校正系数1-f可以忽略不计\n【例3.1】对某天生产的2000件电子元件的耐用时间进行全面检测,然后又抽取5%进行抽样复检,样本资料如下。计算平均耐用时间的抽样标准误差(重复和不重复)耐用时间(小时)全面检测(支)抽样复检(支)3000以下3000-40004000-50005000以上合计5060099036020002305018100\n(2)当总体方差未知时,用样本方差s2代替\n【例3.2】上例中,若总体方差未知,即只进行抽样检测,计算抽样平均误差耐用时间(小时)抽样复检(支)3000以下3000-40004000-50005000以上合计2305018100\n3、区间估计(1)给定1-α,查表得(2)根据,可求出(3)确定总体均值的估计区间\n【例3.3】对某县进行人均月收入抽样调查,n=500户,已知样本平均月收入为600元,方差为187620元,要求概率保证程度为95%,估计该县人均月收入。\n【例3.4】从某市400户个体户饮食店中抽取10%进行月营业额调查,样本资料如下:月均营业额(万元)户数10以下10-2020-3030-4040-5050以上合计2410166240要求在95%的概率保证下,估计全体饮食店月均营业额以及月营业总额。\n(二)总体成数P的估计1、计算估计量2、抽样标准误(1)当总体成数已知(总体方差已知)\n(2)总体方差未知,用样本方差代替\n【例3.5】对某天生产的2000件电子元件抽取5%进行耐用时间检测,耐用时间在3000小时以下为不合格,求合格率的抽样标准误。(重复和不重复)耐用时间(小时)抽样复检(支)3000以下3000-40004000-50005000以上合计2305018100\n3、总体成数的区间估计(1)给定1-α,查表得(2)计算抽样极限误差:(3)确定总体成数的估计区间:\n【例3.6】对某高校学生消费现状和消费观念进行调查,随机调查了100名学生,其中有98名认为“大学生在食堂就餐时浪费情况比较严重”。现要求在95%的概率保证程度下,估计全校学生中持有相同观点的学生所占比重。\n【例3.7】2007年4月杭州商学院注会05甲班对本专业400名学生的手机消费情况进行了抽样调查,调查了50名学生,所得资料如下:月消费额(元)人数30以下30-5050-8080-100100以上合计2141610850要求在95.45%的概率保证下,估计该专业学生中月消费额在80元以上的学生比重以及消费额在80元以上的学生人数。\n【练习】某学校进行一次英语测验,为了解学生的考试情况,随机抽选部分学生进行调查,所得资料如下:试以95.45%的可靠性估计该校学生英语考试的平均成绩及该校学生成绩在80分以上的学生所占的比重。考试成绩60以下60-7070-8080-9090-100学生人数102022408\n(三)样本容量的确定1、影响因素总体内在差异程度、抽样精度和可靠程度的要求、抽样方法、调查经费\n2、不考虑调查经费时样本容量的确定:⑴重复抽样方法下:\n(2)不重复抽样方法下:\n不重复抽样下估计均值和成数都可以直接采用\n总体方差通常未知,一般按以下方法确定其估计值:①过去的数据或经验判断;②小规模试抽样的样本方差。\n【例3.8】某市拟对全市居民家庭生活收支情况进行调查,要求保证95.45%的可靠程度,允许误差不超过0.2万元,据去年的调查,户年收入方差为1.6,至少应抽多少户?若允许误差不超过0.1万元,应抽多少户?\n【例3.9】某企业对一批总数为5000件的产品进行质量检查,过去几次同类调查所得的产品合格率分别为98﹪、95﹪、96﹪。为了使合格率的允许误差不超过2﹪,在95﹪的概率保证程度下,应抽查多少件产品?【分析】因为共有三个过去的合格率的资料,为保证推断的可靠程度,保守的做法是选其中方差最大者,或最接近0.5的那个P值,即取P=95﹪。\n【例3.10】某企业有12000名职工,现从中抽取部分职工进行民意测验。要求在95.45%可靠程度下,估计“对企业领导满意”的比率时误差不超过1%,估计对领导能力的平均评分时误差不超过2分(百分制),至少应抽取多少职工?(由于总体方差未知,先进行了小规模试抽样。对10名职工试抽样结果:满意比率为40%,能力评分的方差为100)通过抽样调查,既要了解总体比率,又要了解总体均值时,若所需的样本容量不同,则取大者——多主题抽样\n二、分层抽样——按一定标志将总体全部单位分类(层),然后从各类(层)中按照随机原则分别抽取若干单位组成样本。(统计分组在抽样估计中的应用)\n设总体的N个个体分为H层,为第i层个体数,为第i层的层权,为第i层抽取的个体数,为第i层的抽样比,为第i层第j个个体的变量值第i层的层均值的估计量为:(一)总体平均数的估计\n总体平均数的估计\n其中为第i层的方差,未知时要用层内样本方差来估计。总体均值的估计量为:与该估计量相对应的抽样标准误为:(重复抽样时)(不重复抽样时)\n【例3.11】为了解某省居民户均收入水平,省统计局对城镇和农村居民分别进行了抽样调查,资料如下。总户数(万户)样本户数(户)平均收入(万元)样本方差城镇1201003.54农村8805002.84.5合计1000600要求计算估计全省户均收入的估计量和抽样标准误差(分重复和不重复两种方法)。\n【例3.12】调查某地区的居民年订购书报费,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按纯随机抽样抽取10户,获得如下数据(单位:元)。试以95%的概率估计该地区居民平均年订购书报费的区间。层居民户总数样本户年订购书报费(元)1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025\n设为第层的某类变量值的个数,为第i层样本中某类变量值的个数,那么第i层成数的估计量为:(二)总体成数p的估计总体成数的估计量为:\n与该估计量相对应的抽样标准误为:层方差未知时要以层内样本方差来估计。(重复抽样)(不重复抽样)\n1.比例分配法这是分层抽样最常用的分配法,即根据的关系来确定,也即:分层抽样的抽样标准误公式可简化为(以总体均值估计为例):其中=(三)各层样本容量的确定\n2.最优分配法(Neyman分配法)该法除了考虑各层容量大小这一因素外,还考虑各层内在差异程度不同这一因素,即分层抽样的抽样标准误公式可改为:\n该法除了考虑和这两个因素外,还考虑各层个体调查费用高低这一因素,即:这时,分层抽样的抽样标准误公式可改为:3.经济分配法\n【例3.13】在例3.12调查中,同时调查了居民拥有笔记本电脑情况,获得如下数据(单位:台)。试以95%的概率估计该地区居民拥有笔记本电脑比重的区间。层居民户总数样本户拥有笔记本电脑12345678910120000010001002400010000001037501100001010415001000000000\n三、等距抽样(系统抽样)——将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。总体参数估计可按如下方法近似估算:按无关标志排队的等距抽样,可按不重复抽样下的简单随机抽样来计算;按有关标志排队的等距抽样,可按分层抽样来计算。\n四、整群抽样(集团抽样)——将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群的所有单位构成样本。\n设总体的N个个体形成R群,每群M个个体。从R群中随机抽取r群(一般采用不重复抽样方法),共rM=n个个体构成样本。若以表示第i群第j个体的变量值,那么群均值为:(一)总体均值的估计总体均值的估计量为:\n抽样标准误为:时要以样本群间方差来估计。为总体群间方差。未知f=r/R为群抽样比\n设为第i群某类变量值的个数,那么群成数为:总体成数的估计量为:抽样标准误为:其中f=r/R为群抽样比,为总体群间方差。未知时要以样本群间方差来估计。(二)总体成数p的估计\n【例3.14】对灯泡质量进行抽样检查,每隔5小时,抽出6分种产品进行全面检测,共抽取25批,测得平均照明时间为935小时,样本标准差为50小时,试以68.27%的概率保证程度估计全部灯泡的平均照明时间。解:\n五、多阶段抽样——指分两个或两个以上的阶段来完成抽取样本单位的过程:先从总体中抽取较大单位,再从中抽取较小单位,以此类推,最终抽出样本的基本单位。\n设总体的N个个体形成R个群,每群M个个体。从R群中随机不重复抽取r群,抽中的群再从M个个体中随机不重复抽取m个个体。若以表示第i群第j个个体的变量值,那么群均值的估计量为(一)总体均值的估计总体均值的估计量为:\n与该估计量相对应的抽样标准误为其中为第一阶段抽样比,为第二阶段抽样比;的含义与整群抽样相同,为各群方差的平均数;各样本群的样本方差平均数未知时要以来估计。\n设为第i群某类变量值的个数,为第i群样本中某类变量值的个数,那么群成数的估计量为:总体成数的估计量为:抽样标准误为:其中为各群方差的平均数,未知时要以各样本群的样本方差的平均数来估计。(二)总体成数p的估计\n对于同一总体,当样本容量相同时,上述各种抽样组织形式的估计效果(抽样标准误)是不一样的。一般地,分层抽样(只要分层标志选择得当并能合理分层)的估计效果最好,其次为等距抽样(有关标志对称等距抽样又优于其他等距抽样),接着是简单随机抽样,然后是多阶段取抽样,最后是整群抽样。当然,这一顺序不是绝对的。在实践中,有时需要将几种抽样组织形式结合起来应用。五、简要总结\n谢谢观看/欢迎下载BYFAITHIMEANAVISIONOFGOODONECHERISHESANDTHEENTHUSIASMTHATPUSHESONETOSEEKITSFULFILLMENTREGARDLESSOFOBSTACLES.BYFAITHIBYFAITH