社会统计学讲义 113页

  • 2.99 MB
  • 2022-08-13 发布

社会统计学讲义

  • 113页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
社会统计学主讲:郝娟主讲:郝娟社会统计学\n第一章绪论一、统计学的产生与发展1、统计的含义:A.作动词,记数(调查研究活动);公元前3050年,埃及为建造金字塔,征集建筑费用,做过人口及财产调查。B.作名词,指统计资料或统计数据;我国夏禹时代的“九州表”,其中记载了九州人口及土地数字。C.作为一门科学的统计学;在17世纪后,随着统计工作的扩展,统计实践经验的丰富,才逐步形成。它是关于大量数据资料的搜集、整理、分析和推论的学科,目的在于探索数据内在的数量规律。2、伴随统计学的发展,所产生的主要学派:A.国势学派:代表人物康令、阿亨瓦尔(德);当时资本主义处于萌芽时期,随着商业和手工业的发展,十七世纪中叶,在德国和意大利出现了国势论著作。十八世纪中叶阿亨瓦尔在他的《近代欧洲各国国势学纲要》的绪论中依据拉丁文status提出了statistik\nB、政治算术学派:创始人格朗特和威廉.配第(英),该学派因威廉.配第的《政治算术》一书而得名(十七世纪中)。在书中,他用数字作表述,用数字重量、尺度来计量,并配以朴素的图表,且首创了数学对比分析的方法。C、数理统计学派:十九世纪末二十世纪初,随着概率论的形成,比利时统计学家凯特勒综合了国势学派和政治算术学派的成果,并把概率论的原理和大量观察法引进了统计的研究领域,使统计学的发展进入了一个新的阶段。凯特勒被称为“现代统计学之父”,其重大贡献:认识到人类的社会活动服从于一定规律,这种规律只有通过大量观察才能被认识;他把政治经济学、数学和当时的政府统计工作结合起来,建立了一个专门研究社会现象的统计学派。二、统计学的分类:1、描述统计学:研究搜集、整理、描述数字资料的方法。推论统计学:在概率论的基础上,利用样本数据推断总体特征。2、理论统计学:即数理统计学,着重阐明统计方法的数学原理。应用统计学:将统计学的基本原理应用于各个学科领域,就形成了各种各样的应用统计学。\n三、社会学研究的过程与社会统计学社会学研究的科学环:假设(定性)(操作化手段)(度量与测量)实践(定量)经验概括(定量)理论(定性)社会学理论和假设指导我们应该收集哪些资料,它是研究的基础,而实践和经验概括则是要解决资料如何收集,如何整理,如何分析和如何推论的问题。社会统计学:有关社会调查资料收集、整理、分析和推论的统计方法。\n四、基本概念:1、总体和单位:总体:由许多具有共性的单位构成的整体。基本特征:大量性、同质性、变异性总体单位:构成总体的每一个个体。2、样本:通过抽样得到的用以推断总体特征的那个“部分”。样本容量:样本中所含的单位数。3、标志:说明总体单位属性或数量特征的名称。(1)数量标志:用数量的多少来表示的标志。(2)品质标志:不能用数量的多少来表示,而只能用文字表述的标志。指标:反映总体的数量特征的概念或范畴,由指标名称和指标数值构成。(1)数量指标:说明总体在外延上的数量特征。(总体规模或水平)(2)质量指标:说明总体在内涵上的数量特征。(说明总体内在数量联系和总体单位水平的指标)4、变量、变量的层次:变量:属性或值不唯一的概念。按取值可分为离散变量、连续变量。变量按其层次可分为:定类变量、定序变量、定距变量和定比变量。\n注意:(1)由于只满足定距而不满足定比要求的变量不多,因此不再区分定距和定比变量,当作一类定距变量。(2)一个变量,它的层次并不是唯一的。高层次变量可以作低层次变量用但会损失信息。(3)变量根据研究内容的不同,其层次也可能不同。层次数学运算特性定类变量定序变量定距变量定比变量=,≠√√√√>,<√√√+,-√√×,÷√\n第二章单变量统计描述分析第一节分布统计表统计图一、分布:指一个概念或变量,它的各个情况出现的次数或频次,也称频次分布。分布的一般形式:(X1,n1)(X2,n2)…(Xn,nn)注意:变量的取值必须满足完备性和互斥性。二、统计表:1、统计表的构成:表号、表头、标识行、主体行、表尾表3.1 XXX(陕西省2004年3月)标识行主词宾词\n2、注意:(a)在统计表中,“——”表示此项不存在;“……”表示此数据缺失。统计表中,小数点要对齐。(b)用统计表表示分布时,通常应有合计一栏。一般情况下,频数合计为总单位数,频率合计为100%。但实际计算时,由于四舍五入的原因,合计也可能不为100%,这种情况下,不为错。(c)离散变量可作单项式分组或组距式分组。分组时,注意将标明组界转化成真实组界。连续变量只能作组距式分组。(d)分组的步骤:(等距分组)确定组数K→计算极差R→计算组距(H=R/K)→分组经验公式:调查总数N分组数斯特吉斯公式:50-1006-10100-2507-12组数=1+1+3.322lgN250以上10-20(e)几个概念:组限、上组限、下组限、开口组、假想上限、假想下限、组距、组中值频次密度=频次/组距频率密度=频率/组距\n三、统计图:统计图:就是用图形的形式来表示变量的分布,又称分布图。统计图更为直观、形象,但不及统计表精确。统计图种类特点圆瓣图条形图直方图折线图适用条件适用于定类变量适用于定类变量、定序变量适用于定距变量适用于定距变量图形说明圆形代表现象总体,圆瓣代表现象的各种情况。长条的高度表示资料类别的次数或频率,宽度无意义。以长条的面积表示频次或频率,条形宽度有意义,条形紧挨。用直线连接直方图中条形顶端的中点,即得。\n四、累计图与累计表:累计图或累计表表示的是大于某个变量的频次是多少或小于某个变量值频次是多少,用它可以比较个体在总体中的位置。洛伦茨曲线:是西方经济学中描述收入分配中平均程度的一种方法。其横轴为人数累计百分数,纵轴为收入累计百分数。基尼系数G=G=0表示分配完全平均;G=1表示收入分配完全不平均\n点线图、茎叶图、盒形图\n图优性:指图能够在最短的时间内,用最少的笔墨, 在最小的空间里,给观众最多的思想。即复杂的思想能够在图中清楚、精确、有效的表达。五、分布图分析:1、峰点研究:单峰,多峰。2、对称研究:三、曲线形状研究:\n第二节集中趋势测量法 第三节离散趋势测量法一、集中趋势:也称集中值,是所选取的作为一组代表的变量值或特征值。他反映一组的一般水平,用他来估计或预测变量时,所产生的误差最小。二、各种集中值的比较:(见下页表格)三、离散趋势:数列中各变量值间的差距和离散程度。四、各种离散值的比较:(见下页)从统计推论看,集中值告诉我们怎样去估计和预测总体,而离散趋势告诉我们估计误差的大小。\n计算方法集中趋势未分组资料分组资料单项数列组距数列众数1、排序2、观察“次数”的峰值同未分组资料1、确定众数组。异距分组时,2、比例插值求众数次数用标准组距次数中位数1、排序2、确定中位数位置。N奇数,位置上的数N偶数N/2,N/2+1上的数的均值。1、计算累计次数2、求中位数所在组,N/2在哪组。3、该组对应变量值即是。1、计算累计次数(cf)2、求中位数所在组3、比例插值求中位数。Fm-1中位数前各组累计次数Fm中位数组次数\n计算方法集中趋势未分组资料分组资料均值(简单与加权)注意:1、众数适用于定类、定序、定距变量。2、对单峰对称、单峰偏态的情况,众数适用。3、中位数适用于定序、定距变量。4、均值适用于定距变量,单峰、适度偏态。严重偏态,选用中位值。5、均值受极端值影响大。6、三者关系:\n计算方法离散趋势未分组资料分组资料异众比率=极差R=最大值-最小值四分互差仿中位数公式插值标准差、方差==+=\n第三章概率基础第一节概率第二节二项分布及其他离散型随机变量的分布第三节正态分布、常用统计分布和极限定理\n第一节概率一、基础概念:现象1、确定性现象:一定条件下,必然会发生的现象。2、随机现象:一定条件下,事件的出现只具有可能性但不具有必然性。3、随机试验:对随机现象的观察。满足以下条件:⑴在相同的条件下可以重复,⑵在每次试验前虽然不能预言会出现哪一种结果,⑶但它共有多少种可能结果又是事先已知的。4、基本事件:随机试验中的每一种结果称作一个样本点,或基本事件。\n5、复合事件:由基本事件组成的事件。6、必然事件:一定会发生的事件。常记为S7、不可能事件:不可能发生的事件。记作8、样本空间:所有可能出现的基本事件的全体。9、概率:随机事件发生可能性大小的数量表示,记P(A)。二、事件间的关系:1、AB2、AB3、AB4、互不相容5、互逆(互相对立事件)三、概率的计算方法:1、频率法:(随机事件的偶然性和统计规律性)P(E)=f(E)=\n频率概率0≤f(A)≤10≤P(A)≤1f(s)=1P(S)=1f()=0P()=0注意:频率是个试验值,是随机的,近似反映事件出现的可能性大小;概率是个理论值,是唯一的,精确反映事件出现的可能性大小。P(E)≈f(E)2、古典法:(利用模型本身的对称性)古典概型:(古典型随机试验)样本空间只有有限个样本点;每个样本点出现的可能性相同。P(A)=\n四、概率的运算:1、概率的加法公式:简化式:若A、B事件互不相容,则P(A+B)=P(A)+P(B)若n个事件,,……互不相容,则有:P(++…+)=P()+P()+...P()一般式:P(A+B)=P(A)+P(B)-P(AB)P(A+B+C)=P(A)+P(B)+P(c)-P(AB)-P(AC)-P(BC)+P(ABC)\n2、概率的乘法公式:事件的相互独立:即事件A出现的概率与事件B是否出现是无关的。P(AB)=P(A)×P(B)推论:P(AB…C)=P(A)P(B)…P(C)条件概率:一事件发生条件下另一事件发生的概率.记P(A/B)简化式:若A、B事件相互独立,则:P(AB)=P(A)P(B)一般式:P(AB)=P(A)P(B/A)P(AB)=P(B)P(A/B)P(ABC)=P(A)P(B/A)P(C/AB)3、全概公式与逆概公式(贝叶斯):完备事件组:若事件…互不相容,且P()>0,(i=1,2,…,n),而且++…+=S全概公式:若…为完备事件组,对任一事件B,皆有:P(B)=P()P(B/)\n红色的圆表示事件BP(B)=P(B)+P(B)+…+P(B)关键是找到互不相容的完备事件组,…可看作是导致B发生的原因,而这些原因的概率是可求的。逆概公式:若…为完备事件组,B仅能与…之一同时发生,P(B)≠0,则在B发生的情况下,事件出现的条件概率P(/B)=其中P(B)=P()P(B/)\n五、概率分布、均值与方差:随机变量:是以“量”的形式来描述随机现象。分离散型随机变量和连续型随机变量。随机变量的特点:a)取值的随机性,b)取值的统计规律性,即完全可以确定X取某个值或X在某一区间内取值的概率。概率分布:当随机变量的取值满足了完备性和互斥性,那么取值和概率对的集合(X1,P1)(X2,P2)……就是随机变量的概率分布。频率分布又称随机变量的统计分布或经验分布,概率分布则称随机变量的理论分布。(一)离散型随机变量及其概率分布:离散型随机变量:他的可能取值为有限个或可数个。离散型随机变量的概率分布的表示:函数形式,表,图(i=1,2….n)…P…\n概率分布的性质:0=1(二)连续型随机变量及概率分布:1、由于连续型随机变量的可能取值充满某个空间,讨论某一点取值的概率无意义。一般情况下:2、随机变量的分布密度或概率密度:=(频率密度)3、任意两点间()的概率:p()=4、概率密度的性质:0\n(三)分布函数:概率分布和概率密度分别研究离散型和连续型随机变量,还可用一个统一的量——分布函数来研究这两种不同类型的变量。分布函数:离散型:=连续型:=概率分布、概率密度与分布函数之间可以相互换算。从全面描述随机变量来说,概率分布、概率密度与分布函数是等价的。但从单位来看,分布函数F(x)的单位是概率,而概率密度   的单位是单位取值下的概率,两者是不同的;使用分布函数的优点,在于他的概率计算左端都是固定为-  ,因而可以把概率值计算成表,以便易于求得任意区间的概率,从而达到简化计算的目的。\n对比: 统计描述中的量     理论分布中的量A. 频率           概率B.频率密度=频率/组距  概率密度=C.向上累计频率      分布函数F(x)=(四)数学期望:1、数学期望是随机变量的均值,表示一个理论值,即我们所期望出现的均值,出现这种均值的可能性较大。用数学期望代表随机变量的集中趋势:离散型:  连续型:E()=E( )=2、性质:E(C)=CE(+C)=E()+CE(C)=CE()E(+)=E()+E()若、相互独立,则E()=E()E()\n(五)方差与标准差:表示随机变量的离散趋势。方差:=D()=E(-E())=[-E()]P——离散型D()=——连续型标准差:  =性质:1、D(C)=0(C为常数)2、D(+C)=D()3、D(C)=CD()4、、为独立随机变量,D(+)=D()+D()\n(六)矩、偏态与峰态:矩MOMENT:各点对某一固定点离差幂的平均值。1、原点矩  :表示对原点“0”的i阶矩。i阶原点矩: =E( -0)一阶原点矩--数学期望2、中心矩:表示对E()的i阶矩。i阶中心矩:=E[-E()]二阶中心矩—方差3、原点矩与中心矩的关系:=0=-=-3+2=-4+6-3偏态:(SKEWNESS):用来测量分布偏离对称的程度。对称轴为E()。偏态常用=E[-E()]>0时,正偏态分布,<0时,负偏态分布。=0,对称偏态系数(偏态):==E\n峰态(Kurtosis):用来描述分布尖峰的程度。常用=E[-E()]峰态系数:=-3=E-3=0,正态分布的正态峰(A)>0.为尖峰(B)<0,为扁平峰(C)\n第二节二项分布及其他离散型随机变量的分布(一)两点分布:(2pointsdistribution)(又称0-1分布,参数为P)特点:变量的取值只有两类。此时随机试验只进行了一次。概率分布:P(=0)=qp(=1)=p性质:(1)P(=0)>0;P(=1)>0(2)P(=0)+P(=1)=P+q=1(3)两点分布的期望与方差:E()=0q+1p=pD()=E()-(E)=0q+1p-(p)=pq(4)此处的取值0,1表示定类变量的编码,因此是虚拟变量。(二)二项分布:(Binomialdistribution)B(n,p)若在相同的条件下进行n次相互独立的试验,每次试验只有两种可能结果,事件A出现的概率P(A)=P,事件A不出现的概率P()=1-P=q,那么,n次试验中事件A出现次数 的概率分布为P(=x)=事件A出现次数小于a,不大于b的概率为:P(ab)=\n性质:(1)二项分布是离散型分布,n,p是二项分布的两个参数.且q=1-p(2)二项分布的概率分布:P(=x)=(x=0,1,…,n)(3)二项分布的图形当P=0.5时是对称的.当P≠0.5时是非对称的.当n愈大时非对称性愈不明显.(4)二项分布中E()=npD()=npq(5)两点分布是二项分布的特例,此时n=1.(三)多项分布:三项分布:若在相同的条件下进行n次相互独立的试验,每次试验有三种可能结果,结果A1出现的概率P(A1)=P1,结果A2出现的概率P(A2)=P2,那么,n次试验中结果A1,A2出现次数的概率分布为三项分布。P(X1,X2,X3)=(x1+x2+x3=n,p1+p2+p3=1)\n性质:(1)三项分布中实际只有两个独立随机变量和概率,因此三项分布也可写成P(x1,x2)==0,1,…,n=0,1,…,n0<<10<<1+<1+n(2)对于多分变量,如果仅突出其中的一类,并把其他类合并为一类,多分变量可简化为二分变量.(3)三项分布的期望有二:E()==nE()==n方差有二:D()=E()-(E())=n(1-)D()=n(1-)\n(4)二项分布和三项分布都要求满足随机试验的条件,即各次的观察或试验都是独立的。因为在社会调查中很少用重复抽样,因此只有在大群体情况下,且满足n<2)(2)t分布的概率密度函数图形是关于t=0对称的,故有(3)当自由度k无限增大时,t分布将趋近于标准正态分布N(0,1)(k>30即可)3、F分布:(F-distribution)设随机变量 与 独立,并且都服从 分布,自由度分别为 和则随机变量F=   服从自由度为( , )的F分布.记F( , )\nF分布的性质:(1)F分布为连续的非对称分布,时,F分布趋于对称。(2)=(反对称性)(3)F分布中的随机变量恒取正值。(4)E(F)=(>2)D(F)=(>4)(5)F分布当自由度较大时,可用正态分布作近似\n(三)大数定理与中心极限定理:(1)研究在什么条件下,随机事件可以转化为不可能事件极限或必然事件。即阐明大量随机现象平均结果的稳定性定理的一系列定理.(大数定律Lawoflargenumbers)(2)研究在什么条件下,随机变量和的分布可近似为正态分布。(中心极限定理Centrallimittheorem)1、大数定理:A)贝努里大数定理:设m是n次独立观察中事件A出现的次数,而P是事件A在每次观察中出现的概率。那么,对于任何一个正数,有[为用抽样成数估计总体成数奠定基础]B)切贝谢夫大数定理:设随机变量,,…,是相互独立、服从同一分布的,并且有数学期望E()=及方差D()=,那么,对任一正数,有:为,,…的算术平均数[为用样本均值估计总体均值奠定了基础]\n2、中心极限定理:设,,…,为独立同分布的随机变量,不管其分布如何,只要E()=,D()=(i=1,2,…,n)存在,则对一切x(          )说明:(1)对上述,,…,,只要n足够大,则~(2)对上述,,…,,只要n足够大,则表明:若一个现实的量由大量独立偶然因素的影响迭加而得,且每一偶然因素的影响又均匀地微小,则这个量近似服从正态分布。\n二项分布B(n,p)与泊松分布P()的极限\n第四章参数估计第一节有关名词1、统计推论:根据局部资料对总体的特征进行推断。点估计统参数估计计区间估计推假设检验论参数估计:通过样本对总体的未知参数进行估计。分点估计和区间估计点估计:用样本计算出来的一个数来估计未知参数。区间估计:通过样本计算出一个范围来对未知参数进行估计。假设检验:通过样本对总体的某种假设(参数或分布)进行检验。2、简单随机样本:Simplerandomsample独立、同分布的随机变量组成的样本。3、统计量:Statistics随机变量的函数。统计量的分布叫抽样分布。\n第二节参数的点估计一、总体参数(均值与方差)的点估计公式:总体均值样本均值总体方差样本方差总体标准差样本标准差s=+总体成数样本成数p==二、评价估计值的标准:1、无偏性:如果是总体参数Q的估计值,且E()=Q,则称是Q的无偏估计。\n2、有效性:若有两个估计值和,都是Q的无偏估计,那 么,假如,则称比有效。对于简单随机样本,(记)可见,增加样本容量可以有效地增加一次抽样接近待估参数的概率,因而,在抽样调查中,一般样本容量都要取较大的值。与不同:反映不同量的离散程度(平均误差水平——标准误);是唯一的不变数,会随样本容量n而变化。3、一致性:把样本容量为n时的估计值记作,若    时,依概率收敛于总体参数Q,即对于任何正数,有:则称是Q的一致估计值。\n第三节 参数的区间估计一、抽样分布:(1)总体分布为正态分布N(,),且方差为已知:~(2)总体分布为正态分布N(,),但方差为未知:样本均值的分布当t的自由度很大时(大于30),可用标准正态分布N(0,1)近似。(3)任意总体,大样本时由中心极限定理知:\n样本方差的分布:样本成数的分布:大样本情况下,[即np5且n(1-p)5]样本成数的分布:两总体样本均值差的分布:大样本,即50,50时,样本均值和的分布都趋向正态分布,因此:(#点估计式)两总体样本成数差的分布:大样本,即5;和时,样本成数都将趋向正态分布,因此:总体为正态分布时,\n(#点估计式)二、参数的区间估计:1、基本概念:若作为未知参数Q的估计值,那么,区间[-,+]包含参数Q的概率为1-的关系表达式为:显著性水平置信区间置信度置信度(Confidencecoefficient)与置信区间(Confidenceinterval)的关系:在样本容量一定的情况下,二者相互制约。置信度越大(估计的可靠性愈大),则相应的置信区间越大(估计的精度愈小)。\n2、正态总体均值、方差的区间估计:(1)为已知,均值的区间估计:(2)为未知,均值的区间估计:(3)方差的区间估计:\n3、大样本区间估计:(1)总体均值的区间估计:已知:未知:(2)总体成数的估计:p已知:p未知:(3)均值差的估计:(4)成数差的估计:\n第五章假设检验第一节假设检验的基本概念第二节但总体的假设检验第三节二总体假设检验\n第一节假设检验的基本概念一、什么是统计假设、原假设、备择假设统计假设:与抽样手段相联系,并且依靠抽样数据进行验证的假设。(1)经验层次的假设;(2)通过抽样途径验证原假设:(虚无假设,解消假设)根据周密考虑确定。在研究假设中是稳定、保守、受到保护的。备择假设:(研究假设)是原假设的对立面。假设的三种形式:(1)(2)(3)单边检验(One-tailedtest)双边检验\n二、假设检验的基本原理小概率原理:对于概率很小的事件,人们习惯认为:在一次观察中是不可能出现的事件。在统计假设检验中,此原理是人们赖以判断和决策的依据,只是把小概率的标准定得更具体和数量化。假设检验的流程:抽样(随机抽样)数据样本统计量其值落入发生可能性极小的区域拒绝其值落入发生可能性较大的区域接受三、统计检验中的名词:统计量;显著性水平(常用0.1,0.05,0.01);\n临界值(Criticalvalue);接受域(Acceptanceregions); 拒绝域(Rejectionregions);单边检验;双边检验。双边检验仅为判别原假设是否成立,并不同时研究其他假设。\n三、假设检验的步骤和两类错误(1)假设检验的步骤:(2)两类错误:(Twotypesoferror)A)弃真的错误:否定了未知的真实状态,是在拒绝原假设时出现的错误。在统计中称为第一类错误。犯第一类错误的概率为B)纳伪的错误:接受了未知的不真实的状态,是在接受原假设时出现的错误。在统计中称为第二类错误。由于原假设非真的状态不唯一,因此犯第二类错误的概率,数值不确定.减小时,犯弃真错误的概率减小,接受域增大,犯纳伪错误的概率增大。由于犯两类错误的概率相互制约,一般采用增大样本容量的办法来解决。\n注意:接受原假设并不能证明原假设。和在假设检验中所承担的作用是不对称的。是受保护的假设,没有充分依据否定不了。因此,习惯把常规的、已存现象写在受保护的原假设中,把要研究的看法写成备择假设。第二节单总体假设检验一、大样本()总体均值检验:大样本时,其中未知时,可用代替。所以,\n左侧单边检验右侧单边检验双侧检验::::::统计量:拒绝域:二、大样本[np5和n(1-p)5]总体成数检验:::::::统计量:~N(0,1)拒绝域:\n三、小样本假设检验(1)单正态总体均值检验:A)总体方差已知:统计量:拒绝域:(2)单正态总体方差检验:::::::统计量:拒绝域:或B)总体方差未知统计量:拒绝域:\n四、二总体假设检验(二分变量—二分变量 二分变量—定距变量)(1)独立样本(Independentsample)与配对样本(Pairedsample)独立样本:两个总体中分别独立的各抽取一个随机样本。配对样本:只有一个样本,但样本中每个个体要先后观测两次,这所有个体先后观测的值看作是来自第一个总体的样本值,所有个体后观测的值,看作是来自另一个总体的样本值。配对样本仅限于二分变量—定距变量的研究。(2)大样本二总体假设检验:A)大样本总体均值差的检验:(独立随机样本)B)大样本总体成数差检验:(独立随机样本)\n(3)小样本二总体假设检验:(4)配对样本的比较:(非独立样本)当两样本满足正态分布时,假定原假设为均值相等,即则:D=若未知,可用来代替。则:t=\n一、列联表:(Contingencytable)抽烟肺癌性别活动偏好智商犯罪将两个定类变量进行交叉分类的的频次或频率分布表,简称列联表。二、列联表中变量的相互独立性:变量相互独立变量的条件分布相同(频率表示)与其边缘分布(频率表示)相同。即:第六章列联表(定类变量-定类变量)第一节什么是列联表低智商高智商合计犯罪0,1次A8060.3311580.461964犯罪次数不小于2B3820.151610.06543合计118813192507\n第二节列联表的检验一、列联表检验的思想:检验的本质:(变量间的独立性)利用样本总体的某一性质二、列联表的检验:H(PP)列联表中各格的期望频次:=利用统计量检验。\n注意:(1)对于22列联表,格值过少,为减小误差,可作连续型修正:(2)卡方检验也适用于单变量二总体或多项总体的假设检验。(3)使用此检验法时,每一格值的应保持在一定数目之上,否则误差增大,一般5,或3,若出现此情况,可将期望值偏小的值合并。(4)从列联表的检验内容来看,它是双边检验,但从拒绝域的选取上看又象是右侧单边检验。应该注意。(5)注意卡方统计量的形式为相对数。\n第三节列联强度一、变量间的相关:(Association)变量间关列联表中比较自变量取不同值系的强弱的频次分布时,因变量的条件分布二、列联强度的计算:(见列联表)\n第七章 等级相关(定序变量_定序变量)第一节 斯皮尔曼等级相关系数第二节Gamma等级相关第三节 其他等级相关系数\n第一节斯皮尔曼等级相关系数一、设计思想及计算公式:是以讨论等级差的平方和为基础来讨论等级相关。是相关系数r的一个特例。注:当变量x与y的项数相等,且各项数值大小相同,仅次序不同时,取值范围是[-1, +1],符号有意义.\n计算公式:=注意:(1)斯皮尔曼等级相关系数适用于测量两定序变量间的相关关系。适当条件下,定距定序。(2)它是以变量没有相同等级为前提的。但如果相同等级不太多时。可采用平均等级的方法来讨论此相关系数。二、的统计检验:当是根据样本数据计算得来时,要想确认总体中也存在等级相关,必须进行统计检验。H0:总体中变量x与变量y相互独立。当n<10,查专用检验表;   时,,\n第二节Gamma等级相关一、Gamma系数的设计与计算:(1)基本概念:同序对:设单元A、B中变量x、y具有等级,,若则称A、B为同序对。异序对:设单元A、B中变量x、y具有等级,,若则称A、B为异序对。同分对:a)设单元A与单元B中,变量x具有相同等级,则称x同分对。b)设单元A与单元B中,变量y具有相同等级,则称y同分对。c)设单元A与单元B中,变量x、y具有相同等级,则称x、y的同分对。\n(2)Gamma相关系数是用同序对与异序对数量之差来反映等级相关程度,不考虑同分对的影响。具有PRE性质。PRE=(3)计算:异序对的数目,同序对的数目。取值范围:[-1,+1](4)注意:a)根据列联表中频次计算和:准则:右下余子式——同序对左下余子式——异序对前提:列联表中,变量排序相同(高——低)\nb)G系数适用于两定序变量相关程度的测量,特别是调查单元很多,数据具有相同等级时,可选用。二、Gamma系数的检验用样本计算所得G值,是否可推论到总体,必须进行检验。H0:总体等级相关为0。(=0)H1:0统计量:(一般)第三节其他等级相关系数一、设计思想及计算公式:以下几种相关系数的设计用同序对与异序对数量之差来反映等级相关程度,同时考虑同分对的影响。\n第八章相关与回归(定距变量——定距变量)第一节回归(Regression)研究的对象一、回归的研究对象:确定性现象函数关系现象(相互转化)非确定性现象相关关系回归是研究定距变量与定距变量之间的非确定关系的(相关关系)。而且是相关关系中的因果关系。相关关系:(1)变量间存在着关系;(2)这种关系又是非确定的。总之,当x取任意可能值时,y相应地服从一定的概率分布。统计中,对相关关系的研究主要从两方面进行,即相关分析与回归分析。\n回归分析:根据变量间关系的形式,用一个数学表达式来反映这种关系,从而便于估计和预测。相关分析:研究变量间关系的密切程度。二、散布图(Scattergram)在样本容量为n的样本中,对每一个体观察两个变量x与y的取值,组成数对,作为点描在xy平面直角坐标系中,形成的n个散布点组成的图形。在散布图中,变量x可看作确定性变量,y看作随机变量。三、回归方程与线性回归方程:回归方程:是研究自变量x不同取值时,因变量平均值的变化。方程形式为:E(y)=a+bxa为回归常数,b为回归系数线性回归方程:ei为随机误差\n第二节回归直线方程的建立与最小二乘法一、回归直线方程建立的基本原理:最小二乘原理:各点到待估直线铅直距离之和为最小。minQ=——为x取时,y的值,——为x取时,y的预测值。所以:可求出样本回归方程。其中他是总体线性回归方程的最佳估计方程二、建立回归线的步骤:(1)做散布图,(2)求解回归线\n第三节回归方程的假定与检验一、线性回归模型的基本假定:(Assumptions)1、自变量x可以是随机变量,也可以是非随机变量。2、由于x和y间存在相关关系,所以,对于x的每一个值是随机变量,或称y的子总体,要求他们方差相等。即3、y的子总体的均值在一直线上。即在一直线上。4、随机变量相互独立。当总体具有上述假定时,样本回归方程才是总体回归方程E(y)=的最佳线性无偏估计方程,a、b才是的最佳无偏估计量。\n5、为检验的需要,还假定y值的每一个子总体满 足正态分布。二、回归方程的检验:1、线性回归的平方和分解:总偏差平方和TSS=剩余平方和RSS+回归平方和RSSR通过回归直线进行估计的误差用回归方程预测减少的误差2、回归方程(线性回归方程)的检验:(总体回归系数为零,即x与y没有线性关系)\n因为所以:拒绝域仅在右侧,临界值为FF值反映了配置回归直线的意义。F值越大反映回归直线配置的越好。\n第四节相关一、相关系数(Coefficientofcorrelation):这里的相关系数仅指线性相关系数r。即只能用来测定定距变量间线性相关的程度。(1)r相关系数的设计思想:\n(2)取值范围及数值含义:相关系数的取值范围:[-1,+1]其中:符号表示相关的方向,正号表示正相关;负号表示负相关。数值绝对值的大小表示相关的强度,值越大线性相关越强。(3)相关系数具有PRE性质:判定系数:表明用回归直线方程进行预测,可以减少的误差比例。相关系数的绝对值在数值上与判定系数的开方相同,其符号与直线回归方程中的回归系数b的符号相同。(4)相关系数的优缺点:\n相关系数受变量取值范围的影响很大,但不因坐标原点的改变而改变,因而当数据值过大时,可减去一个常数,相关系数不会改变。(五)相关系数的检验:Ho:(总体相关系数为零)H1:方法1:方法2:给定 和k=n-2,查出临界值 作判断。(六)相关系数r的检验与回归系数 的检验的关系:的检验,即看总体的线性回归方程的配置是否有意义r的检验,即看总体的线性相关系数是否为零。因此,r通过了检验,必然导致 检验通过。(仅对线性的适用。\n的检验确定的r值,对应确定的F值,因而r计算后,不必计算F。二、相关与回归的比较:区别:(1)回归是研究变量间相关关系中的因果关系,而相关关系不一定是因果关系。(2)相关系数是双向对称的,即y与x间的相关系数和x与y的相关系数相同;但回归直线方程非对称,x为自变量和y为自变量的回归方程不同。(3)相关分析中,x和y都是随机变量;而回归分析中,常常将x作确定性变量y作随机变量。联系:相关分析是回归分析的前导,回归分析是相关分析的深化。\n第五节 用回归方程进行预测回归方程是用于对因变量y值的估计与预测的,但回归方程给出的 只是所预测的y的均值,是y的点估计值,要求出y的区间估计,则因为:为x= 时,预测随机变量y的标准差,S=由于 在 = 时,  最短,当 离 越远, 也越大,因此y的区间估计图形如下:\n第九章方差分析(定类变量—定距变量)方差分析:(Analysisofvariance)利用方差来分析或检验总体间的均值是否有所不同的一种方法。此方法适用于自变量为定类变量,因变量为定距变量的问题的讨论。分类:一元方差分析(自变量只有一个定类变量)两变量分析二元方差分析(自变量不止一个定变量)多元方差分析(自变量不止一个定变量)多变量分析\n第一节一元方差分析One-wayanalysisofvariance一、方差分析的假定:1、等方差性:总体中自变量的每一个取值,对应因变量的分布具有相同的方差。(由于随机性的影响,样本方差不一定具有这种性质。当总体方差未知时,可用样本方差进行估计),判断可用等方差检验。2、因变量的分布为正态分布:对应自变量的每一种取值,因变量的分布都呈正态分布。判断时,当样本容量很大,可在自变量的每类作直方图观察,当样本容量不够大时,可将因变量观测值减去各组均值,做成一个直方图,若单峰,偏态不严重则满足此要求。\n二、方差分析的检验:1、思想:若总体中各组均值无差别,那么从中抽取的样本,各组均值与总均值间的偏差很大的可能性很小。有关标记:定类变量m类,组平均值,总平均值观测总数n:第i类样本的组平均值:总平均值:总平方和TSS:组内平方和(剩余平方和)RSS——各观测值\n对本组平均值离差平方和组间平方和BSS—观测值的组平均值对总平均值的离差平方和2、总平方和的分解:TSS=BSS+RSSBSS反映各组或各类样本之间的差异程度,它是由自变量取值的不同所引起的,又称已被自变量解释掉的误差,RSS是由其他未知因素所引起的误差,又称为被自变量解释的误差。方差分析检验采用的统计量:在原假设成立的条件下,\n3、方差分析的检验的步骤:1)计算RSS,BSS的值;2)计算TSS=RSS+BSS;3)求F值4)查临界值F(m-1,n-m),若F大于临界值,则拒绝原假设,认为总体中各类的均值是不全相等的。当自变量是二分变量时,方差分析的F检验与二总体的t检验是等效的。即二总体的t检验是方差分析的特例。三、相关比率—定类变量(多于两类)与定距变量的相关程度的测量:\n第二节二元方差分析相关系数r与相关比率的异同:相同点:都是测量两变量间的相关程度的相对数。不同点:相关系数r是测量两定距变量间的线性关系的,而相关比率是测量定类变量与定距变量间的相关程度的。一、二元方差分析的模型:独立模型:交互模型:A、B均为自变量,i=1,2,…,a(a为变量A的分类数)j=1,2,…,b(b为变量B的分类数)\n第十章 非参数检验(定类变量——定序变量)第一节非参数检验一、非参数检验法:非参数检验法属于非参数统计(是在对总体分布形式不了解时进行推断的统计方法)。这类方法的使用不需要对总体分布做任何事先假定,检验的内容也不是总体分布的某些参数,而是检验总体某些有关性质。指“对分布类型已知总体、进行参数检验”之外,所有检验方法的总称。\n二、适用条件:1)适用于讨论定类—定类,定序—定序,定类—定序变量间关系;2)当样本很小,对定距变量(无法断言是否满足假定所要求的某种分布),也可使用非参数检验法。3)定类—定距变量的方差分析,若不满足子总体满足正态分布的假定时,可使用非参数检验。优点:对总体分布无须限制,计算量小,简单易行。缺点:检验的效率较差。因此比之参数检验,需较大的样本。\n第二节符号检验一、符号检验的思想:(利用二项分布进行检验)若“前”和“后”两总体分布一样,对于均值(定序变量的平均等级)相同的总体,任抽一个观察单元,其差值d出现正号和负号的概率是相等的。即p(+)=p(-)=0.5若样本中出现“+”号数目或“-”号数目,是p(+)=p(-)=0.5分布下的小概率事件,则否认“前”“后”具有相同分布的假设。二、符号检验的步骤:(1)计算d值,d=“前”观测值-“后”观测值,给出d的符号,若d=0,则略去不计。(2)计算“+”的总数n+和“-”号总数n-。n=n++n-(3)根据备择假设的不同,分以下3种情况讨论\n1)H0:P(+)=p(-)=0.52)H0:P(+)=p(-)=0.53)H0:P(+)=p(-)=0.5H1:P(+)>P(-)H1:P(-)>P(+)H1:P(-)P(+)检验可用和中较大的进行,若>,接受H0若>,接受H0所得或与若<,拒绝H0若<,拒绝H0比较。三、适用条件:符号检验适用于配对样本。定类—定序,定类—定距(满足或不满足分布要求都可),定类变量为二分变量。只是满足分布要求时,检验效率低。四、样本容量n>10时,可用正态分布近似二项分布(x是或。\n第三节符号秩检验一、符号秩检验的思想:秩:若“前”的观测值为,“后”的观测值为,将按大小排列,并给出一个有小到大的顺序号,这个顺序号称为秩,再赋予其原有差值的符号,称为符号秩。若原有总体相同“+”号数=“-”号数序号均匀(d的符号)正秩和=负秩和样本数据中,正秩和负秩和二、步骤:(1)写出秩;(为0的不列入,相等的将其秩均分。)(2)取符号秩;\n(3)分别计算正秩和与负秩和;(4)比较与,取T=min(,)(5)对给定的显著性水平,查符号检验表,得出T的临界值;(6)若T大于临界值,接受原假设。(编表原理)注意:单边检验,若T为负秩和的绝对值,则拒绝原假设,说明“前”比“后”大,既减少了;若T为正秩和则拒绝原假设,说明“前”比“后”小,既增加了;n>25时,T近似服从以下正态分布:T~N(,)其中,三、适用条件:是对符号检验的修正,因而适用条件与前同。\n第四节秩和检验一、秩和检验的思想:两总体分布相同从中独立抽取的样本1、2混合成一个样本求秩两独立样本的秩和很大或很小概率很小二、计算步骤:(1)将两独立样本混合,排序求秩;(注意相同数据秩的求法)(2)计算样本1、样本2各自的秩和;(3)取T为两样本秩和中较小的一个;(4)将T与原假设成立的条件下,临界值对比,作出判断。(若时,接受原假设,即总体分布相同。)\nn>10时,可利用正态分布作近似计算,统计量其中:三、适用条件:秩和检验适用于独立样本,考察定类—定序变量关系,或定类—定距变量关系,且定类变量为二分变量。但此方法检验的效率不高。即用此方法判断总体无显著差异时,或许其他更具效率的方法检验有显著差异,但此法判断已确认有显著差异时,就没有必要再用其他方法进行检验了。\n第五节游程检验一、游程检验的思想:若两总体分布一致两独立样本混合按值的大小排列秩交错的次数不会太少两样本秩是交错的游程:在一个由“0”和“1”组成的序列中,一串不间断的0或1称为一个游程。一个游程中数字“0”或“1”的个数,称为该游程的长度。二、游程检验的步骤:1、将两独立样本混合起来,按数值从小到大顺序编号,得到其秩;2、将来自不同样本的秩以“1”和“0”标记;3、计算游程个数;样本1与样本2的容量n1,n2;4、查表得游程的临界值,作出判断。\n第六节累计频次检验当n1>20,n2>20时,对于总体同分布的情况,游程数r服从正态分布N(,),其中三、适用条件:适用于两独立样本,定类变量(二分变量)与定序变量关系的研究;对于数据随机性的研究也可运用。一、累计频次检验的思想:若两总体具有相同的分布,则其独立样本间的累计频率差就不会太大。二、累计频次检验的步骤:\n(1)从两总体中抽取独立随机样本,作两样本的累计频率图;(2)计算相同等级的累计频率差的绝对值Di,取D=max(D1,D2,D3……)(3)做双边检验时,计算临界值,与D对比,若D>,则拒绝两总体分布相同的假设。(n1>40,n2>40)0.100.050.010.001\n(4)对于>40,>40的情况,若作单边检验,统计量为三、适用条件:(1)累计频次检验适用于样本容量较大(n>40),定序变量的等级划分又很有限的情况下,讨论定类与定序变量之间关系。(2)该方法适用于两独立样本的关系的研究。且定类变量为二分变量。方法一:单向方差秩分析:一、统计思想:第七节两个以上样本的非参数检验\n若有k个互相独立的总体,他们有相同形式的连续分布,从各总体中抽取独立样本k个,做成一个混合样本,则各组的平均秩应与总平均秩比较接近。为第i个样本的第j个观察值i=1,…,k,j=1,2,…,ni在混合样本中的n个观察值中的秩为,则:第i组样本的秩的和为:总的秩的平均为:/niKruskal-Wallis检验采用如下统计量:等价于\n二、单向方差秩分析的步骤:(1)将k个样本的观测值混合,从小到大排列取秩,若有若干观测值相等,则取平均秩;(2)计算各个样本的秩和;(3)计算H统计量的值;(4)根据显著性水平,查出相应的临界值(5)判断。若H<,接受原假设。当分等级很多,或得分中相等观测值个数超过35%时,H值需乘以修正因子其中t为某一秩上具有相同秩的个数。三、适用条件:适用于独立样本。\n方法二:双向方差秩分析一、统计思想:基本同前。二、双向方差秩分析的步骤:(n个组,每组k个人)(1)将观测值有小到大排序取秩;(2)计算各组秩和;(3)计算统计量(4)根据显著性水平,查临界值,作出判断。若,拒绝原假设。三、适用条件:适用于配对样本。\n第十一章抽样一、调查方法简述:社会调查总体调查部分调查普查非概率抽样概率抽样(随机抽样)重点典型简等分整阶调查调查单距层群段随抽抽抽抽机样样样样抽样\n第一节抽样调查方法1)非概率抽样:省时,省力,成本低,回答率高。但由于与主观水平有关,无法对其结果的精确程度作出定量的估计。2)概率抽样:必须遵守随机原则。(保证每一单位都有同等入选机会。)省时,省力,成本较低,其结果推及全体的精确程度,可作出定量、正确的表述。1)简单随机抽样:分为简单重复抽样(满足独立、同分布要求)和简单不重复抽样(满足随机原则,但不满足独立、同分布的要求。)当总体单位数N不太大时,可采用抽签方式;当N很大时,可利用随机数表。\n2)等距抽样:(机械抽样,系统抽样)a)做法:先将总体按某一因素排列,然后以固定的间隔,每隔若干单位抽出一个,构成样本。间隔k=N/nb)分类:有关标志排队法;无关标志排队法。注意:总体名册的排列不能有周期性,否则样本代表性降低。3)分层抽样(类型抽样,分类抽样):a)做法:将总体按与研究内容密切有关的主要因素分类或分层,然后在各层中按随机原则抽选一定单位构成样本(减少层内差异,增大层间差异)b)分类:依据各层抽样比例是否相等,分为分层定比抽样和分层异比抽样。\n4)整群抽样:整体被分成很多“群”,这些群是抽样单位,一旦某些群被选入样本后,群众的每一单位都要调查。(适用于群间差异小,群内差异大的群体)5)阶段抽样(多级抽样):a)做法:在阶段抽样中,每一级都可看作是一次整群抽样,每一个抽中的整群,又可看作是由若干群所组成,从入样的整群中,再随机抽取若干子群组成子子群,然后依法继续往下抽,直至抽中的单位满足抽样者的要求。(适用于总体很大,直接抽取单位困难的情况)注意:在每一阶段抽样,可采用任意概率抽样方法。\n第二节抽样误差一、误差系统误差:非随机因素引起的误差。代表性误差:随机误差:随机因素引起的误差。登记性误差:调查、汇总中由于观察、测量、登记、计算等方面差错或假资料造成的误差。代表性误差:样本指标推断总体指标时,由于样本结构与总体结构不一致形成的误差。抽样误差:样本估计值与总体参数之间的差异,是随机变量。因而常采用抽样平均误差来反映。抽样平均误差:用于估计总体参数的样本变量的标准差。又称标准误。如:样本均值的标准差\n第三节样本容量的确定一、必要抽样树木确定的意义:必要抽样数目太多,会造成人力、物力的浪费;而抽样数目太少,又会影响调查的精度,因此必须合理地确定样本容量。二、样本容量的确定:1、允许误差的范围:样本统计量Q总体参数2、对于确定的抽样方式,抽样误差是总体方差与样本容量的函数。对比参数估计样本容量的确定是参数估计的逆问题。\n3、简单随机抽样必要抽样数目的确定:重复抽样:不重复抽样:当未知时,可用样本方差来代替。\n抽样过程:界定总体确定抽样方法和抽样框决定样本容量时间根据对总体了解状况抽样方法总体地理范围N的个数单位清单方差极限误差确定样本名单样本评估

相关文档