- 149.00 KB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
一.统计学性质统计学:收集、分析、表述和解释数据的科学1.数据搜集:取得数据;2.数据分析:分析数据;3.数据表述:图表展示数据;4.数据解释:结果的说明(一)现代统计学的性质可归纳为如下几个方面:1.统计学是方法论科学,而不是实质性科学它研究的是事物普遍存在的数量关系的计量和数量分析的方法,并通过数量分析来认识特定事物的内在规律性,但不是研究规律本身。2.统计学的应用范围不局限于社会科学,也不局限于自然科学。由于其方法来自于社会科学也来自于自然科学,所以它可以用于社会现象也可以用于自然现象,即统计学是一种通用的方法论科学。同时统计学也不是依服于实质性科学而存在的方法论,它是独立的方法论科学。3.统计学的研究对象既包括确定性现象的总体数量关系,也包括随机现象的总体数量关系,即统计学是研究各类事物总体数据的方法论科学。统计学是为探索事物数量所反映的客观规律性,而对事物总体的大量数据进行收集、整理和分析研究的方法论科学。它以大量的客观事物的量化描述、特征推算及关系分析为其主要研究对象。(二)描述统计学与推断统计学:描述统计学(DescriptiveStatistics)研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。推断统计学(1nferentialStatistics)则是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),则经过描述统计之后就可以达到认识总体数量规律性的目的了;如果所获得的只是研究总体的一部分数据(样本数据),要找到总体的数量规律性,则必须应用概率论的理论并根据样本信息对总体进行科学的推断。显然,描述统计和推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。二.统计数据对现象进行测量的结果;不是指单个的数字,而是由多个数据构成的数据集;不仅仅是指数字,它可以是数字的,也可以是文字的分类:按计量1.分类数据(categoricaldata)n只能归于某一类别的非数字型数据n对事物进行分类的结果,数据表现为类别,用文字来表述2.顺序数据(rankdata)n只能归于某一有序类别的非数字型数据n对事物类别顺序的测度,数据表现为类别,用文字来表述3.数值型数据(metricdata)\nn按数字尺度测量的观察值n结果表现为具体的数值,对事物的精确测度按收集方法1.观测的数据(observationaldata):在没有对事物人为控制的条件下而得到的,通过调查或观测而收集到的数据2.试验的数据(experimentaldata):在试验中控制试验对象而收集到的数据按时间状况1.时间序列数据(timeseriesdata)n在不同时间上收集到的数据n描述现象随时间变化的情况2.截面数据(cross-sectionaldata)n在相同或近似相同的时间点上收集的数据n描述现象在某一时刻的变化情况一.数据质量1.数据的误差:(1)抽样误差;a、在用样本数据进行统计推断时所产生的误差(样本统计量与相应总体参数之间的偏差)b、由于抽样的随机性所带来的误差c、影响抽样误差的大小的因素:抽样方法;样本量的大小;总体的变异性(2)非抽样误差(抽样框误差;回答误差;无回答误差;调查员误差)a、调查过程中由于调查者和被调查者的人为因素所造成的误差(除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异)b、理论上可以消除c、存在于所有的调查之中:概率抽样,非概率抽样,全面性调查(3)误差的控制a、抽样误差可计算和控制b、非抽样误差的控制:调查员的挑选;调查员的培训;督导员的调查专业水平:调查过程控制(调查结果进行检验、评估;现场调查人员进行奖惩的制度)(4)统计数据质量的要求;1.精度:最低的抽样误差或随机误差2.准确性:最小的非抽样误差或偏差3.关联性:满足用户决策、管理和研究的需要4.及时性:在最短的时间里取得并公布数据5.一致性:保持时间序列的可比性6.最低成本:以最经济的方式取得数据二.数据特征(一)集中趋势:表明同类现象在一定时间、地点条件下,所达到的一般水平与大量单位的综合数量特征,有以下3个特点:1.用一个代表数值综合反映个体某种标志值的一般水平。2.将个体标志值之间的差异抽象掉了。3.计量单位与标志值的计量单位一致。集中趋势1.一组数据向其中心值靠拢的倾向和程度\n1.测度集中趋势就是寻找数据水平的代表值或中心值2.不同类型的数据用不同的集中趋势测度值3.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据集中趋势的作用:•比较若干总体的某种标志数值的平均水平•研究总体某种标志数值的平均水平在时间上的变化•分析社会经济现象的依存关系•研究和评价事物优劣的数量指标•计算和估算其他重要的经济指标(二)离中趋势:1.数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值离中趋势度量的目的:描述总体内部差异程度;衡量和比较均值指标的代表性高低;为抽选样本单位数提供依据区别与联系:区别:集中趋势是对频数分布资料的集中状况和平均水平的综合测度;是一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据水平的代表值或中心值。离中趋势是对频数分布资料的差异程度和离散程度的测度,用来衡量集中趋势所测数据的代表性,或者反应变量值的稳定性与均匀性;是用来描述总体内部差异程度及衡量和比较均值指标的代表性高低。偏度是用来反应变量数列分布偏斜程度的指标,有对称分布和非对称分布,非对称分布也即为偏态分布,包括左偏分布和右偏分布。峰度是用来反应变量数列曲线顶端尖峭或扁平程度的指标。联系:为了反面描述研究对象的情况,仅仅用集中趋势方法来测度集中性和共性是不够的,还要用离散趋势方法来测度其离散性和差异性,因此,而这需要结合使用。集中趋势和离中趋势是变量数列分布的两个重要特征,但要全面了解变量数列分布的特点,还需要知道数列的形状是否对称、偏斜程度以及分布的扁平程度等。偏度和峰度就是从分布特征作进一步的描述。一.参数估计(一)点估计1.用样本的估计量直接作为总体参数的估计值2.缺点:没有给出估计值接近总体参数程度的信息,它与真挚的误差、估计可靠性怎么样无法知道。区间估计可以弥补这种不足。3.点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等(二)区间估计在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的。根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。(三)置信水平1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平\n1.表示为(1-a%)常用的置信水平值有99%,95%,90%;相应的a为0.01,0.05,0.10(一)置信区间ü由样本统计量所构造的总体参数的估计区间称为置信区间;ü统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间ü用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个置信区间的表述:1.总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数2.实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间。我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个3.当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个4.一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题5.置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的6.使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确(较窄)的区间。直观地说,较宽的区间会有更大的可能性包含参数7.但实际应用中,过宽的区间往往没有实际意义8.区间估计总是要给结论留点儿余地影响置信区间宽度的因素:1.总体数据的离散程度,用s来测度;2.样本容量;3.置信水平(1-a),影响zα/2的大小(二)参数估计标准:无偏性:估计量抽样分布的数学期望等于被估计的总体参数有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数一.假设检验(一)概念1.先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程2.有参数检验和非参数检验3.逻辑上运用反证法,统计上依据小概率原理什么小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定怎样通过假设检验去掉偶然性利用P值进行检验就可以去掉偶然性。\n因为P值告诉我们在某个总体的许多样本中,某一类数据出现的经常程度,P值是当原假设正确的情况下,得到所观测的数据的概率。如果原假设是正确的,P值若很小,则告诉我饿们得到这样的观测数据是多么的不可能,相当不可能得到的数据,就是原假设不对的合理证据,偶然性也就消除了。(二)原假设1.研究者想收集证据予以反对的假设。是关于总体参数的表述,它是接受检验的假设。2.总是有符号=,£或³3.表示为H0nH0:m=某一数值n指定为符号=,£或³(三)备择假设1.研究者想收集证据予以支持的假设。党员假设被否定时另一种可成立的假设。2.总是有符号¹,<或>3.表示为H1nH1:m<某一数值,或m>某一数值(四)结论与总结1.原假设和备择假设是一个完备事件组,而且相互对立n在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立2.先确定备择假设,再确定原假设3.等号“=”总是放在原假设上4.因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)(五)两类错误1.第Ⅰ类错误(弃真错误)n原假设为真时拒绝原假设n第Ⅰ类错误的概率记为a。被称为显著性水平。常用的a值有0.01,0.05,0.102.第Ⅱ类错误(取伪错误)n原假设为假时未拒绝原假设n第Ⅱ类错误的概率记为b(Beta)影响b错误的因素:1.总体参数的真值。随着假设的总体参数的减少而增大2.显著性水平a。当a减少时增大3.总体标准差s。当s增大时增大4.样本容量n。当n减少时增大控制:进行假设检验时总希望犯两类错误的可能性都很小,然而,在其他条件不变的情况下,a与b是此消彼长的关系,二者不可能同时减小。若要同时减小a与b,只能是增大样本量。一般总是控制a,是犯错误的概率不大于a,即a是允许犯弃真错误的最大概率值(而P值相当于根据样本计算的犯弃真错误的概率值,故P值又称为观测的显著性水平)。但确定a时必须注意,如果犯弃真错误的代价较大,a可取小些,相反,如果返取伪错误的代价较大,则a宜取大些(以使b较小)(六)假设检验的结论表述1.假设检验的目的就在于试图找到拒绝原假设,而不在于证明什么是正确的2.拒绝原假设时结论是清楚的n例如,H0:m=10,拒绝H0时,我们可以说¹m103.当不拒绝原假设时n并未给出明确的结论n不能说原假设是正确的,也不能说它不是正确的n例如,当不拒绝H0:m=10,我们并未说它就是10,但也未说它不是10。我们只能说样本提供的证据还不足以推翻原假设(七)统计上的显著与实际意义\n1.当拒绝原假设时,我们称样本结果是统计上显著的(statisticallySignificant)2.当不拒绝原假设时,我们称样本结果是统计上不显著的3.在“显著”和“不显著”之间没有清除的界限,只是在P值越来越小时,我们就有越来越强的证据,检验的结果也就越来越显著4.“显著的”(Significant)一词的意义在这里并不是“重要的”,而是指“非偶然的”5.一项检验在统计上是“显著的”,意思是指:这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的6.如果得到这样的样本概率(P)很小,则拒绝原假设ü在这么小的概率下竟然得到了这样的一个样本,表明这样的样本经常出现,所以,样本结果是显著的7.在进行决策时,我们只能说P值越小,拒绝原假设的证据就越强,检验的结果也就越显著8.但P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义n因为假设检验中所说的“显著”仅仅是“统计意义上的显著”n一个在统计上显著的结论在实际中却不见得就很重要,也不意味着就有实际意义9.因为值与样本的大小密切相关,样本量越大,检验统计量的P值也就越大,P值就越小,就越有可能拒绝原假设10.如果你主观上要想拒绝原假设那就一定能拒绝它n这类似于我们通常所说的“欲加之罪,何患无词”n只要你无限制扩大样本量,几乎总能拒绝原假设11.当样本量很大时,解释假设检验的结果需要小心n在大样本情况下,总能把与假设值的任何细微差别都能查出来,即使这种差别几乎没有任何实际意义12.在实际检验中,不要刻意追求“统计上的”显著性,也不要把统计上的显著性与实际意义上的显著性混同起来n一个在统计上显著的结论在实际中却不见得很重要,也不意为着就有实际意义一.方差分析1.通过分析数据的误差判断各总体均值是否相等;研究一个或多个分类型自变量对一个数值型因变量的影响。单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量2.(1)仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异n这种差异也可能是由于抽样的随机性所造成的需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析n所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差n这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源(2)随机误差n因素的同一水平(总体)下,样本各观察值之间的差异n比如,同一行业下不同企业被投诉次数是不同的n这种差异可以看成是随机因素的影响,称为随机误差系统误差n因素的不同水平(不同总体)下,各观察值之间的差异n比如,不同行业之间的被投诉次数之间的差异\nn这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差(3)数据的误差用平方和(sumofsquares)表示组内平方和(withingroups)n因素的同一水平(同一个总体)下样本数据的平方和n比如,零售业被投诉次数的误差平方和n组内平方和只包含随机误差组间平方和(betweengroups)n因素的不同水平(不同总体)下各样本之间的平方和n比如,四个行业被投诉次数之间的误差平方和n组间平方和既包括随机误差,也包括系统误差3.方差分析的基本假定1.正态性:每个总体都应服从正态分布§对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本§比如,每个行业被投诉的次数必需服从正态分布2.方差齐性:各个总体的方差必须相同§各组观察数据是从具有相同方差的总体中抽取的§比如,四个行业被投诉次数的方差都相等3.独立性:观察值是独立的(该假定不满足对结果影响较大)4.问题的一般提法:(1)设因素有k个水平,每个水平的均值分别用m1,m2,¼,mk表示(2)要检验k个水平(总体)的均值是否相等,需要提出如下假设:§H0:m1=m2=…=mk§H1:m1,m2,¼,mk不全相等5.SST:全部观察值xij与总平均值的离差平方和,反映全部观察值的离散状况SSA:各组平均值xi与总平均值xij的离差平方和;反映各总体的样本均值之间的差异程度,又称组间平方和;该平方和既包括随机误差,也包括系统误差SSE:每个水平或组的各样本数据与其组平均值的离差平方和;反映每个样本各观察值的离散状况,又称组内平方和;该平方和反映的是随机误差的大小总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系:SST=SSA+SSE1.如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差2.判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小6.均方1.各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差2.计算方法是用误差平方和除以相应的自由度3.三个平方和对应的自由度分别是§SST的自由度为n-1,其中n为全部观察值的个数§SSA的自由度为k-1,其中k为因素水平(总体)的个数§SSE的自由度为n-k7.构造检验统计量1.将MSA和MSE进行对比,即得到所需要的检验统计量F2.当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布\n将统计量的值F与给定的显著性水平a的临界值Fa进行比较,作出对原假设H0的决策²根据给定的显著性水平a,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k相应的临界值Fa²若F>Fa,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响²若F