- 1.52 MB
- 2022-07-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!第一章统计与数据1.统计学是一门收集、分析、展示和解释数据的科学。2.描述统计(DescriptiveStatistics):用表格、图形和数字来概括、显示数据特征的统计方法。3.推断统计(InferentialStatistics):从总体中抽取样本,并利用样本数据来推断总体特征的统计方法。总体(population):由统计研究所涉及的那些同质个体(也称单位)所形成的集合。样本(sample):所研究总体的一部分。◎推断统计的主要任务:用统计量估计参数参数(parameter):描述总体数量特征的概念常用希腊字母。统计量(statistic):描述样本数量特征的概念,常用英文字母表示4.数据的计量尺度与类型(1)、定类尺度(NominalScale):也称列名尺度、名义尺度、分类尺度◎各类之间无等级次序◎各类别可以用数字代码表示◎根据定类尺度得到的数据为分类数据。(2)、定序尺度(OrdinalScale):也称顺序尺度◎数据表现为“类别”◎可对等级、大小等排序◎未测量出类别之间的准确差值◎根据定序尺度得到的数据为顺序数据。(3)、定距尺度IntervalScale:也称间隔尺度◎数据表现为“数值”◎可以进行加减运算◎“0”是只是尺度上的一个点,不代表“不存在”◎根据定距尺度得到的数据为间距数据。(4)、定比尺度RatioScale:也称比率尺度◎数据表现为“数值”◎可以进行加减、乘除运算◎“0”表示“没有”或“不存在”◎据定比尺度得到的数据为比率数据。【四种计量尺度的比较】(1)、四种尺度所包含的信息量是依次递增的,级别由低到高。(2)、根据较高层次的计量尺度可以获得较低层次的计量尺度。(3)、不同的尺度数据对应这不同数据显示方法和分析方法。5.变量是用来描述现象某种令人感兴趣的特征的概念。○品质变量是描述个体有关属性特征的变量,本质上不能用数字来表示。例如性别。○数量变量是描述个体有关数量特征的变量,都是用数字来表示的。例如人数,年龄等。○离散型变量指的是有限个数值或诸如0,1,2……之类无限可列值的变量。○如果某一变量可以取某一区间或多个区间中任意数值,则该变量称为连续型变量。6.横截面数据(Cross-sectionaldata)是在同一时点或是大约在同一时点所收集的数据。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!时间序列数据(Timeseriesdata)是按时间顺序取得的一系列数据。例如我国历年的GDP。面板数据(PanelData):对多个事物在不同时期或时点上进行测量得到的数据。如1990-2008年全国各个省份的GDP7.统计指标的概念一般有两种理解和两种使用方法:(1)、统计指标是指反映现象数量特征的概念。如年末人口数、商品销售额、劳动生产率等。(2)、统计指标是反映现象数量特征的概念和具体数值。我国2004年的国内生产总值为136515亿元。【分类】:(1)总量指标:也称为绝对数,以绝对数形式表现现象规模和水平的统计指标。可以分为时点数和时期数。时点数是描述某种现象在某一个特定时刻(某一瞬间或某一时点)数量表现的数据。时期数是描述某种现象在某一个特定时间范围内所实现的成果的数据。区分数据是时点数还是时期数的方法之一看其加总后的结果是否有意义。若有意义则该指标必定是时期数。反之,则必定是时点数。(2)相对指标:采用两个有联系的数值进行对比而得到的比值。也称为相对数,(3)平均指标:也称为平均数,反映现象在某一时间或空间上的平均数量水平。8.常用统计软件:IBMSPSSStatistics、Excel、R软件、SAS软件\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!第二章数据的来源1.数据的来源:(1)一手数据(直接来源):一是来自调查或观察,二是来自实验。调查是取得社会经济数据的重要手段。(2)二手数据(间接来源):主要是公开出版或报道的数据,有些是未公开出版的数据。在我国,公开出版或报道的社会经济数据主要来自国家和地方的统计部门以及各种报刊媒介。2.统计调查是社会经济数据的主要来源。实际中常用的统计调查方式主要有:抽样调查、普查、统计报表(1)普查是为某一特定目的而专门组织的一次性全面调查。【特点】:◎普查通常是一次性的或周期性的。◎普查一般需要规定统一的标准时点。◎普查数据的准确性、标准化程度均较高;◎普查的调查项目较少,适用范围较狭窄,调查资料缺乏深度。(2)抽样调查:是一种非全面调查,它是按照一定程序从总体中抽选一部分单位(样本)进行调查或观察,并以此对总体参数做出推断的调查方法。◎可以单独使用,也可用来对普查数据进行评价、修正或补充根据抽选样本的方法,抽样调查可以分为:概率抽样:也称随机抽样,是按照随机原则抽选样本的抽样方式,抽样时每个样本单位被选中的概率是已知。概率抽样中可以对抽样误差进行控制。在我国,习惯上将概率抽样称为抽样调查。不满足概率抽样要求的抽样都被归为非概率抽样。非概率抽样单个单位被选中的概率是不可知的,不能从概率意义上控制抽样误差。【概率抽样中的随机原则】在抽选样本时排除主观因素的影响(不是有意识的抽选某些单位),使每个单位都有一定的机会被抽中。等概率抽样:抽样时每个单位被选中的概率都相等。不等概率抽样:抽样时不是每个单位被选中的概率都相等。【抽样调查的特点】经济性、时效性强、适应面广、有可能获得比普查更高的数据质量。(3)统计报表是按照国家有关法规规定,自上而下地统一布置、自下而上地逐级提供基本统计报表的统计报告制度。◎是我国特有的统计调查方法。◎可以是全面调查,也可以是非全面调查。按报表内容和实施范围不同,分为国家、部门和地方统计报表按报送周期长短不同,分为日报、旬报、季报、半年报和年报按填报单位不同,分为基层统计报表和综合统计报表。3.在抽样调查中可以把总体分成若干个互不重叠又穷尽的有限个部分,每个部分称为一个抽样单位(抽样单元,Samplingunit)。抽样单位可以是一个总体单位,也可以包含多个个体。抽样单位的名单称为抽样框(Sampling\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!Frame)。抽样框应尽可能与目标总体相一致。例如名单抽样框、区域抽样框、时间表抽样框。4.简单随机抽样(SimpleRandomSampling):也称纯随机抽样。直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等。可分为有放回和无放回两种方式。◎是最基本的抽样方法有放回抽样:也称为重复抽样,在一个单位被选入样本后,记录其编号,然后将其放回总体中继续参与随后的抽样过程。无放回抽样:也称为不重复抽样,在一个单位被选入样本后,不再放回总体参与随后的抽样过程。◎重复抽样的计算公式比不重复抽样简单,但误差也比不重复抽样略大。实际应用中一般采用不重复抽样。【抽选样本单位的方法】(1)抽签法:用均匀同质的材料制作N个签并充分混合,然后一次抽取n个签,或一次抽取一个签但不放回,直至抽满n个签为止。(2)随机数法:随机数表、随机数骰子、摇奖机、计算机产生的伪随机数【简单随机抽样最适用的场合】当总体内样本单位不多,且有完备名册,可用于编号时;对研究的目的而言总内样本单位间的差异不大时;无法充分获得总体信息时。5.系统抽样(SystematicSampling)(也称等距抽样):将总体N个单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。直线等距抽样:将总体分成n个组,每组有k=N/n个单位,在第一组随机选择一个单位,之后每隔k个选择一个。【等距抽样的特点】总体单位的顺序可能影响抽样结果:各单元的排队顺序与所研究的内容无关;各单元的排队顺序与所研究的内容有内在联系。优点:抽取样本简便易行,易于监控。【主要适用场合】总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的;总体内单位数过多,而抽取的样本又较多时;总体内的单位数不能确定时(例如抽取学号最后一位为8的学生进行调查)6.分层抽样(StratifiedSampling)也称分类抽样或类型抽样。即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式。【特点】可以提高样本的代表性,提高估计的精度:在估计总体参数的同时还能估计每层的参数。总体方差等于层间方差和层内方差的加权和,而抽样误差只受层内方差的影响。因此分层时应使层间方差尽可能大(从而层内方差小)。【最适用的场合】当总体内样本单位的差异较大时;分层后能达到层间差异大,层内差异小的原则时\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!按比例分层抽样:各层的抽样比例都相等(等于n/N)。在有些情况下为了降低抽样误差或者对各层的参数进行较好的估计,需要采用不按比例分层抽样。◎在不按比例的分层抽样中如果要用样本资料推断总体,需要对各层的数据资料进行加权处理。7.整群抽样(ClusterSampling):先将总体分为R个群(即次级单位或子总体),每个群包含若干总体单位。按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式。【特点】(1)样本单位比较集中,容易集中力量进行调查,便于组织与管理,也节省了调查时间和费用。(2)不需要所有总体单位的抽样框。(3)由于样本单位不能均匀的分布在总体中,所以样本的代表性要差一些(对策:增大样本容量)。(4)总体方差等于群内方差和群间方差的加权和,而抽样误差只受群间方差的影响。因此分群时应使群间方差小。【最适用的场合】:总体名单不易获得时;为节省调查成本时;群内差异大,而群间的变异小时8.多阶段抽样:先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,……如此下去直至抽取所要调查的基本单位的抽样方法。【特点】(1)适用于总体分布很广,不可能从总体中直接抽取样本单位的情况。(2)不需要全部低级单位的抽样框,节省了调查费用。(3)方法灵活多样。※抽样调查的组织方式完全取决于调查研究的目的要求、调查对象的特点和客观的条件。凡是能够最经济、最省时而又能够满足预期精确度和可靠性的组织方式,便是一种好的组织方式,这也是抽样设计的最根本的原则。9.不满足概率抽样要求的抽样都被归为非概率抽样。非概率抽样中单个单位被选中的概率是不可知的,无法根据样本计算抽样误差.【分类】:(1)方便抽样Conveniencesampling:纯粹以方便基本着眼的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题。也译为便利抽样、偶遇抽样。(2)判断抽样JudgmentSampling:调查者根据主观经验和判断从总体中选取有代表性的单位构成样本。◎精度取决于抽样者的经验。◎不能获得估计值的精度。◎适用于总体单位极不相同而样本容量又很小的情况(3)配额抽样Quotasampling:是非随机抽样方法中最常用的一种抽样方法。分为两个步骤:\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!·根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额;·然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位。(4)雪球抽样SnowballSampling:也译为滚雪球抽样。其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止。◎主要用于对稀少群体的调查。10.抽样调查中的误差:误差是指估计值与真实值之间的差异。(1)抽样误差(Samplingerror):由于抽选样本的随机性造成的误差,也称为代表性误差。◎在抽样调查中,抽样误差就不可避免。◎在概率抽样中抽样误差是能够计量且可以得到控制的。◎影响抽样误差的主要因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法等。(2)非抽样误差(Nonsamplingerror):除抽样误差以外的所有误差。通常认为是由于调查程序执行中的错误与不足引起的。主要包括抽样框误差、无回答误差和计量误差。国内也称为“工作误差”或“调查误差”。抽样框误差(samplingframeerror,CoverageError):当目标总体与抽样框所涵盖的元素不一致时,就会产生抽样误差。抽样框误差包括:丢失目标总体单位、包含非目标总体单位,复合连接等。无回答误差(NonresponseError):因缺失部分指定样本单位的数据或调查问卷中的部分数据项而引起的误差都称为无回答误差。计量误差(MeasurementError):计量误差是指调查中获得的数据与调查项目真实值之间不一致而产生的误差,也称为登记性误差11.调查方案:指导整个调查过程的纲领性文件。【主要内容】:调查目的:为什么调查?调查对象和调查单位:向谁调查?调查内容:调查什么?调查时间及其他问题调查内容:需要调查的具体项目。通常以表格的形式来表现,称为调查表。◎调查表的组成部分:表头:说明调查表的名称、被调查单位的名称质等。表体:调查的具体项目。表脚:填报人签名、日期等。调查时间两种含义:调查资料所属的时间,回答“调查何时”的问题;调查工作的起止时间,回答“何时调查”的问题。12.数据调查方法:数据的收集方法归纳起来可分为询问调查和观察实验两大类。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!询问调查是调查者与被调查者与被调查者直接或间接触以获得数据的一种方法。【分类】(1)访问调查:调查者与被调查者通过面对面地交谈而获得资料。可分为标准式访问和非标准式访问:标准式访问通常按事先设计好的问卷进行非标准式访问事先一般不制作问卷(2)邮寄调查:也称邮寄问卷调查,是一种标准化调查。调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷。通过某种方式将调查表或问卷送至被调查者手中,由被调查者填写,然后将问卷寄回指定收集点。问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种。(3)电话调查:调查者利用电话与被调查者进行语言交流以获得信息。优点:时效快、成本低;覆盖面广。缺点:每次调查时间不能过长;不能提过于复杂的问题;对挂断电话拒绝回答者很难做工作。(4)电脑辅助调查:又称电脑辅助电话调查,电脑与电话相结合完成调查的全过程。一般需借助专门的软件进行,硬件设备要求较高。(5)座谈会:也称集体访谈,将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料。参加座谈会的人数不宜过多,一般为6~10人。◎侧重于定性研究。(6)个别深度访问:一次只有一名受访者参加、针对特殊问题的调查。适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题。◎侧重于定性研究。(7)观察法:就调查对象的行动和意识,调查人员边观察边记录以收集所需信息。调查人员不是强行介入,能够在被调查者不察觉的情况下获得资料。(8)实验法:在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料。研究在其它条件相同的条件下,所控制的一个(或一组)变量对另外一个(或一组)变量的影响。观察或实验:调查者通过直接的观察或实验获得数据的方法。13.问卷设计的步骤:(1)根据研究目的建立分析架构(2)决定问卷之形式(3)编拟问卷初稿(4)邀请专家学者检查、修订问卷(5)预试问卷(6)问卷定稿并订定使用说明问卷的基本结构:(1)开头部分:问候语,填写说明,问卷编号(2)甄别部分:也称过滤,通过一些问题筛掉不符合条件的被调查者。(3)主体部分:要调查的全部问题,以及这些问题可供选择的答案(4)背景部分:要调查的全部问题,以及这些问题可供选择的答案问卷中问题的设计:(1)\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!提问的内容尽可能短。(2)用词要确切通俗,避免不具体的问题(3)一项提问只包含一项内容(4)避免诱导性提问(5)避免否定形式的提问(6)避免敏感性问题问卷中答案的设计:开放性问题是指对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由做出回答,属于自由回答型。封闭型问题是指对问题事先设计出了各种可能的答案,由被调查者从中选择。封闭型问题答案的设计方法主要有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法等。设计问题顺序应注意的问题:(1)问题的安排应具有逻辑性;(2)问题的安排应先易后难、由浅入深;(3)问卷主体部分的问题通常按过滤性、热身性、容易性、困难性的顺序进行排列。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!第三章数据的描述1.统计分组:就是按照研究目的将数据分成若干组的统计方法。关键:选择分组变量和划分各组界限◎统计分组的结果是形成频数分布(分布数列,FrequencyDistribution)两个构成要素:各组的分组界限、每组中的次数或频率2.分组方法:(1)单变量值分组:将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。(2)组距分组:将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。※分组必须遵循“不重不漏”的原则。分为等距与不等距分组,各组组距都相等时为等距分组,为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。※应用中可能需要把第一组和/或最后一组设为开口组。【步骤】(1)、确定组数:通常为5到15(20)组。Sturges提出的经验公式:分组组数K应满足(2)、确定组距和各组界限,建议为5,10…的倍数。组距≈(最大值-最小值)÷组数(3)、根据分组整理成频数分布表【基本概念】下限:一个组的最小可能值上限:一个组的最大可能值组距:上限与下限之差组中值:下限与上限之间的中点值,(下限+上限)/2。开口组的组中值可以按以下方法计算:缺下限:上限-邻组组距/2,缺上限:下限+邻组组距/23.列联表(Contingencytable):如果对数据同时根据两个变量分组,汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布,可以用来分析两关变量之间的关系。也称为交叉分组表(Crosstabulation)。※列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。※列联表中的数字为交叉单元格中的频数或频率。4.常用统计图条形图:用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!圆形图:也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。直方图:用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。※注意对不等距分组:纵轴必须表示为频数密度频数密度=频数/组距(面积之和=总频数)※手工绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。【直方图与条形图的异同】都是用来反映数据的分布状况,适用于不同类型的数据。条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。折线图:折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!茎叶图:主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。树叶的竖列要对齐,以计算各组的次数。(6)线图:利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。※描述定性数据:条形图、饼图描述定量数据:线图、直方图、箱线图、茎叶图【绘制统计图时的注意事项】(1)、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。时间一般绘在横轴,指标数据绘在纵轴。长宽比例要适当,其长宽比例大致为10:7。一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。(2)、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。(3)、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。(4)、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。5.统计表:统计表是统计资料的最基本表现形式,使数据资料表述的更加紧凑、简明,条理清晰、通俗易懂,便于数据的比较。一个完整的统计表从结构上看一般包括:表头、行标题、列标题、数据资料。对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。【制作要求】○原则:科学、实用、美观、简练。○标题简明扼要,满足3W要求(When,Where,What)。○结构合理,长宽比例要适当。○统计表为“开口式”;表的上下两条横线一般用粗线,其他线用细线,线条要少。○数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。○表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。○对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。○必要时可在表的下方加上注释。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!6.集中趋势:一组数据向其中心值靠拢的倾向和程度。常用的集中趋势的测度指标:算术平均数中位数众数算术平均数(均值,ArithmeticMean)总体均值常用表示。样本均值常用表示。样本均值的计算公式:简单平均数:加权平均数(分组数据):※根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。(2)中位数(Median):一组数据按大小顺序排列后,处在数列中点位置的数值。n为奇数时等于第(n+1)/2个数。n为偶数时等于第n/2和n/2+1个数的平均值(3)众数(Mode):一组数据中出现次数最多的变量值。【众数、中位数和算术平均数的关系】左偏分布:对称分布:右偏分布;分配为钟形、轻微不对称的经验公式:【平均数、中位数、众数的特点】算术平均数:易受极端值影响(使用了全部数据),数学性质优良,主要用于数值型数据,数据对称分布或接近对称分布时应用中位数:不受极端值影响,数据分布偏斜程度较大时应用;主要用于顺序数据众数:不受极端值影响不具有惟一性数据分布偏斜程度较大时应用;主要用于分类数据(4)分位数(Quantile):把顺序排列的一组数据分割为若干相等部分的分割点的数值。分位数可以反映数据分布的相对位置(而不单单是中心位置)。常用的有四分位数、十分位数、百分位数。四分位数(Quartile):Q1Q2Q3十分位数(Decile):D1D2………D9百分位数(percentile):P1P2…………P99四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值。在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据:\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!SPSS中四分位数的位置为(n+1)/4,2(n+1)/4,3(n+1)/4。Excel中四分位数的位置分别为(n+3)/4,2(n+1)/4,(3n+1)/4。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。(5)根据时间序列计算平均数时间序列中每一个观测值称为发展水平。要研究的那个时间的发展水平称为报告期水平,作为比较基础的时间的发展水平称为基期水平。根据观测值表现形式的不同可以分为绝对数、相对数或平均数时间序列。绝对数时间序列又可分为时期序列和时点序列。时期序列:不同时期的观测值可以相加,相加结果表明现象在更长一段时间内的活动总量。时点序列:不同时点的观测值相加没有实际意义。平均发展水平:时期序列:“连续”时点序列:按时期序列的公式计算不连续的时点序列:先计算出两个点之间的平均数,再用相隔的时期长度加权计算总的平均数。根据相对数和平均数时间序列计算序时平均数:发展速度是是序列中两个发展水平相比的结果。可以分为环比发展速度和定基发展速度。定基发展速度等于相应各环比发展速度的连乘积;环比发展速度等于相邻两个定基发展速度之商。发展速度-100%等于增长速度。离散程度:(1)全距(Range):极差,是一组数据的最大值与最小值之差。R=最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。※受极端值的影响(2)四分位距(Inter-QuartileRange,IQR)等于上四分位数与下四分位数之差反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。※不受极端值的影响。※可以用于衡量中位数的代表性。(3)方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。总体方差和样本方差的符号不同,计算公式也不一样。是反映定量数据离散程度的最常用的指标。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!(4)离散系数(CoefficientofVariation):标准差与其相应的均值之比,表示为百分数。特点:反映了相对于均值的相对离散程度;可用于比较计量单位不同的数据的离散程度;计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。分布的形状:右偏分布左偏分布(1)偏态左偏分布(也称负偏分布):偏态系数SK<0;偏态系数的绝对值越大,偏斜越严重对称分布:偏态系数=0。右偏分布(也称正偏分布):偏态系数SK>0;偏态系数的绝对值越大,偏斜越严重。尖峰分布扁平分布峰态(2)峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。峰度系数K<0,与正态分布相比该分布一般为扁平、瘦尾,肩部较胖。峰度系数K>0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。9.箱线图最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。在SPSS中标准的箱线图一般是这样绘制的:\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!先根据三个四分位数Q1、Q2、Q3画出中间的盒子;由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线,由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线;处于Q3+1.5*IQR至Q3+3*IQR或者Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标出;大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。【分布的形状与箱线图】右偏分布Q1中位数Q3对称分布Q1中位数Q3左偏分布Q1中位数Q310.数据的Z值:也称标准化值,等于变量值与其平均数的离差除以标准差,用Z表示。Z值的均值等于0,标准差等于1。是对某一个值在一组数据中相对位置的度量。例如,z>0说明观测值大于均值。z<0说明观测值小于均值。z=1.2说明观测值比均值大1.2倍的标准差\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!第四章参数估计与假设检验(除必要样本容量,其他直接计算都不要求)1.参数估计的基本概念用来推断总体参数的统计量称为估计量(estimator),其取值称为估计值(estimate)。同一个参数可以有多个不同的估计量。参数是唯一的,但估计量(统计量)是随机变量,取值是不确定的。点估计:用估计量的数值作为总体参数的估计值。一个总体参数的估计量可以有多个。※点估计量的常用评价准则:无偏性——估计量的数学期望与总体待估参数的真值相等:有效性——在两个无偏估计量中方差较小的估计量较为有效。一致性——指随着样本容量的增大,估计量越来越接近被估计的总体参数。区间估计:根据事先确定的置信度1-α给出总体参数的一个估计范围。置信度1-α的含义是:在同样的方法得到的所有置信区间中,有100(1-α)%的区间包含总体参数。抽样分布是区间估计的理论基础。抽样分布:从总体中抽取一个样本量为n的随机样本,我们可以计算出统计量的一个值。如果从总体中重复抽取样本量为n的样本,就可以得到统计量的多个值。统计量的抽样分布就是这一统计量所有可能值的概率分布。◎抽样分布是统计量的分布而不是总体或样本的分布。◎在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。◎样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。◎抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。其形状和参数可能完全不同于总体或样本数据的分布。※样本均值的均值(数学期望)等于总体均值样本均值的方差等于总体方差的1/n※一般的,当总体服从N(μ,σ2)时,来自该总体的容量为n的样本的均值`X也服从正态分布,`X的期望为μ,方差为σ2/n。即`X~N(μ,σ2/n)。【中心极限定理】从均值为µm,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。标准误:简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于,这个指标在统计上称为标准误。有限总体校正系数:简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于这一系数称为有限总体校正系数。当抽样比(n/N)<0.05时可以忽略有限总体校正系数。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!总体正态?n≥30?σ2已知?否是是否否是实际中总体方差总是未知的,因而这是应用最多的公式。在大样本时t值可以用z值来近似。根据中心极限定理得到的近似结果。σ未知时用s来估计。增大n?数学变换?2.总体均值和比例的区间估计总体比例的置信区间:当时总体比例的置信区间可以使用正态分布来进行区间估计。(样本比例记为,总体比例记为π)※有限总体不重复抽样时,样本均值或比例的方差需要乘以“有限总体校正系数”(当抽样比f=n/N小于0.05时可以忽略不计),前面的公式需要进行相应的修改。※对于计算得到的一个具体区间,“这个区间包含总体真实值”这一结论有(1-a)*100%的可能是正确的。说“总体均值有95%的概率落入某一区间”是不严格的,因为总体均值是非随机的。3.必要样本量的计算(考试要求)样本估计值与总体真实值之间的绝对离差称为实际抽样误差。由于在实践中总体参数的真实值是未知的,因此实际抽样误差是不可知的;由于样本估计值随样本而变化,因此实际抽样误差是一个随机变量。抽样平均误差:样本均值的标准差,也就是前面说的标准误。它反映样本均值(或比例)与总体均值(比例)的平均差异程度。由上面的公式可知影响抽样误差的因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法。最大允许误差(allowableerror):在确定置信区间时样本均值(或样本比例)加减的量,一般用E来表示,等于置信区间长度的一半。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!置信区间=最大允许误差是人为确定的,是调查者在相应的置信度下可以容忍的误差水平。必要样本量受以下几个因素的影响:(1)、总体标准差。总体的变异程度越大,必要样本量也就越大。(2)、最大允许误差。最大允许误差越大,需要的样本量越小。(3)、置信度1-α。要求的置信度越高,需要的样本量越大。(4)、抽样方式。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。简单随机抽样下估计总体均值时样本容量的确定:式中的总体方差可以通过以下方式估计:根据历史资料确定、通过试验性调查估计简单随机抽样下估计总体比例时样本容量的确定式中的总体比例π可以通过以下方式估计:根据历史资料确定;通过试验性调查估计;取为0.5不重复抽样时的必要样本量比重复抽样时的必要样本量要小。式中n0是重复抽样时的必要样本容量4.假设检验:事先作出关于总体参数、分布形式、相互关系等的命题(假设),然后通过样本信息来判断该命题是否成立(检验)。利用假设检验进行推断的基本原理是:α小概率事件在一次试验中几乎不会发生。【假设检验的步骤】根据实际问题提出一对假设(零假设和备择假设);构造某个适当的检验统计量,并确定其在零假设成立时的分布;根据观测的样本计算检验统计量的值;根据犯第一类错误的损失规定显著性水平a;确定决策规则:根据确定检验统计量的临界值并进而给出拒绝域,或者计算p值等;下结论:根据决策规则得出拒绝或不能拒绝零假设的结论。注意“不能拒绝零假设”不同于“接受零假设”。零假设和备择假设的选择零假设和备择假设是互斥的,它们中仅有一个正确;等号必须出现在零假设中;最常用的有三种情况:双侧检验、左侧检验和右侧检验。检验以“假定零假设为真”开始,如果得到矛盾说明备择假设正确。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!(2)检验统计量:我们用来决策(拒绝或不能拒绝零假设)时依据的样本统计量。不同的总体参数适用的检验统计量不同。拒绝域:检验统计量取值的集合,当根据样本得到的检验统计量的值属于该集合时,拒绝零假设。不能拒绝零假设的检验统计量取值的集合称为接受域;划分拒绝域和接受域的数值称为临界值。(3)两类错误不可避免;要减小其中的一种错误,通常只能通过增加另一种错误的方法做到。假设检验中通常首先控制控制第一类错误的概率不超过某个小概率水平a,在满足该条件的要求下使犯第二类错误的概率尽量小。允许犯第一类错误的概率α称为显著性水平。5.单个总体的假设检验总体正态?n≥30?σ2已知?否是是否否是实际中总体方差总是未知的,因而这是应用最多的公式。大样本时t值可以用z值来近似。根据中心极限定理得到的近似结果。σ未知时用s来估计。增大n;数学变换等。均值检验中检验统计量的选择\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!均值的双边检验问题根据z值(或t值)进行双侧检验决策规则:|Zobs|>Zα/2时拒绝零假设,否则不能拒绝零假设。根据p值进行假设检验:双侧检验p值(含义与应用为考试要求)也称为观测到的显著性水平,是能拒绝H0的α的最小值,决策规则:p值<α时拒绝H0。利用置信区间进行双侧检验求出双侧检验均值的置信区间若总体的假设值µ0在置信区间外,拒绝H0。或右侧检验问题根据z值(或t值)进行右侧检验决策规则:tobs>tα时拒绝零假设,否则不能拒绝零假设。根据p值进行假设检验:右侧检验决策规则:p值<α时拒绝H0。左侧检验问题根据z值(或t值)进行左侧检验决策规则:tobs<-tα时拒绝零假设,否则不能拒绝零假设。根据p值进行左侧检验决策规则:p值<α时拒绝H0。总体比例的检验构造检验统计量(np0>=5,n(1-p0)>=5)决策规则:同均值的决策规则,可以使用Z值、p值或置信区间进行双侧、左侧或右侧检验。6.两个总体均值差异的假设检验(1)两个独立样本的假设检验与一个总体的情况类似,两个总体均值假设检验中的备择假设一般有以下三种情况:\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!两个总体均值的比较:检验统计量的选择总体正态?大样本?方差已知?否是是否否是增大n;数学变换等。方差相等?否是※在应用中可能需根据样本数据对总体的正态性进行检验。※在实际应用中,总体方差一般是未知的,因而统计软件中普遍使用t检验。※两个总体方差相等和不相等时,t统计量的计算公式不同。因此,检验两个总体的均值是否相等时,需要先检验两个总体的方差是否相等!◎两个总体方差是否相等的检验在SPSSStatistics中,检验两个总体均值是否相等时,会同时检验两个总体的方差是否相等。SPSSStatistics使用的是Levene检验。根据F统计量相应的p值进行决策:ptα/2a时拒绝H0;或者p值Fα时拒绝H0;或者p值00令:y'=lny,则有y'=lnα+βxΒ<0β>0图像:\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!基本形式:幂函数线性化方法:两端取对数得:lgy=lgα+βlgx令:y'=lgy,x'=lgx,则y'=lgα+β-1<β<0β<-1β=-10<β<1b>1>β1bβ=1图像:基本形式:双曲线函数线性化方法:令:y'=1/y,x'=1/x,则有y'=α+βx'β<0β>0图形:基本形式:对数函数b>0β<0线性化方法:x'=lgx,则有y=α+βx'图像:基本形式:S型曲线线性化方法:令:y'=1/y,x'=e-x,则有y'=α+βx'图像:5.违背回归模型统计假设的几种情况和后果OLS估计需要一系列的假设条件;在实际应用中这些假设条件能够同时得到满足的情况不多见。对这些假设条件的检验以及采取相应的补救措施就成为回归分析的重要任务之一。通过模型理论方法的发展,可以克服违背基本假设带来的问题。违背回归模型统计假设的常见情况:异方差问题(违背同方差假设)序列相关问题(违背序列不相关假设)\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!多重共线性问题(违背解释变量不相关假设)当回归模型随机误差项et的方差不为常数时,即为异方差(Heteroscedasticity)现象:当异方差出现时,回归模型的估计量不再具有最小方差的性质,因此不再保持有效性;同时,我们此前介绍的t检验也失效,无法对回归系数的显著性进行检验。x1x2XeY同方差随着x变化随机扰动项e的方差不变x1x2XeY异方差随着x增加随机扰动项方差增大随机误差项之间的协方差不为零时,即存在序列相关(SerialCorrelation),又称自相关。序列相关的后果:○尽管普通最小二乘估计量仍为无偏估计量,但不再具有最小方差的性质,即不是“最优线性无偏估计量”;○回归系数的显著性检验失效。完全多重共线性:一个自变量可以表示为其他自变量(包括常数项)的线性函数。后果:违背基本假设,模型的参数无法估计。需要去掉一个自变量。高度多重共线性:如果某两个或多个解释变量之间出现了高度的相关性,则称为高度多重共线性。后果:并不违背OLS的基本假设,存在高度多重共线性时,正规方程仍有唯一解。因此OLS仍然是BLUE(BestLinearUnbiasedEstimate)的。t检验值会减小、系数的显著性下降。对于一组存在高度多重共线性的自变量,很难对单个系数进行解释。有可能导致各回归系数的符号同我们的预期相反。【多重共线性的检测】不是有无的问题,而是一个程度的问题。计算模型中自变量之间的相关系数,若有很大的相关系数,就表示模型存在高度的多重共线性出现下列情况,有可能存在高度多重共线性F检验显著,但所有回归系数的t检验却不显著回归系数的符号与其经济意义相反\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!第八章时间序列分析1.时间序列的构成成分一个时间序列中可能包含以下四个(或者几个)组成成分:长期趋势(Seculartrend,T):现象在较长时期内持续发展变化的一种趋向或状态可以分为线性趋势和非线性趋势季节变动(SeasonalVariation,S):由于季节的变化引起的现象发展水平的规则变动。季节变动产生的原因主要有两个:自然因素;人为因素:法律、习俗、制度等“季节变动”也用来指周期小于一年的规则变动,例如24小时内的交通流量。循环波动(CyclicalVariation,C):以若干年为周期、不具严格规则的周期性连续变动。与长期趋势不同,它不是朝着单一方向的持续运动,而是涨落相间的波浪式起伏变化;与季节变动也不同,它的波动时间较长,变动的周期长短不一,变动的规则性和稳定性较差。不规则波动(IrregularVariation,I):由于众多偶然因素对时间序列造成的影响。不规则变动是不可预测的。2.时间序列分解模型:时间序列的组成成分之间可能是乘法或加法的关系,因此,时间序列可用多种模型进行分解,常见的有加法模型、乘法模型和加乘混合模型。加法模型假设时间序列中每一个指标数值都是长期趋势、季节变动、循环变动和不规则变动四种成分的总和,在加法模型中,四种成分之间是相互独立的。某种成分的变动并不影响其他成分的变动。各个成分都用绝对量表示,并且具有相同的量纲。乘法模型是假设时间序列中每一个指标数值都是长期趋势、季节变动、循环变动和不规则变动四种成分的乘积。在乘法模型中,四种成分之间保持着相互依存的关系。一般而言,长期趋势成分用绝对量表示,具有和时间序列本身相同的量纲,其它成分则用相对量表示。加乘混合模型,比如时间序列分解模型的选取需要考虑到现象变化的规律和数据本身的特征,如果季节变动(循环变动、不规则变动)依赖于长期趋势的变化,则宜选用乘法模型或加乘混合模型,否则可以考虑加法模型。3.时间序列长期趋势分析研究目的:通过测定和分析过去一段时间之内现象的发展趋势,来认识和掌握现象发展变化的规律性;通过分析现象的长期趋势,为统计预测提供必要的条件;消除原有时间序列中长期趋势的影响,更好地研究季节变动和循环变动等问题。(1)移动平均法:在原时间序列内依次求连续若干期的平均数作为其某一期的趋势值,如此逐项递移求得一系列的移动平均数,形成一个新的、派生的平均数时间序列。在新的时间序列中偶然因素的影响被削弱,从而呈现出现象在较长时间的基本发展趋势。N期移动平均数:把时间序列连续N期的平均数作为最近一期(第t期)的趋势值\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!中心化移动平均:把时间序列连续N期的平均数作为N期的中间一期的趋势值。如果N为奇数,则把N期的移动平均值作为中间一期的趋势值。如果N为偶数,须将移动平均数再进行一次两项移动平均,以调整趋势值的位置,使趋势值能对准某一时期)。相当于对原序列进行一次N+1项移动平均,首末两个数据的权重为0.5,中间数据权重为1移动平均法的应用:移动平均法一般用来消除不规则变动的影响,把序列进行修匀(smoothing),以观察序列的其他成分。如果移动平均的项数等于季节长度则可以消除季节成分的影响;如果移动平均的项数等于平均周期长度的倍数则可以消除循环变动的影响。由于区分长期趋势和循环变动比较困难,在应用中有时对二者不做区分,而是把两项合在一起称为“趋势循环”成分(trend-cycle)。(2)时间回归法(趋势方程法)使用回归分析中的最小二乘法,以时间t或t的函数为自变量拟合趋势方程。习惯上t的取值为从1到n。也可以取其他值,不同取值方法不会影响到方程的拟合效果。常用的趋势方程包括:线性趋势方程:二次曲线:指数曲线:趋势线的选择:1、根据散点图观察数据的特点,结合理论分析和经验确定。2、比较不同回归模型的决定系数、估计标准误等指标。趋势方程的估计方法:趋势方程可以使用回归分析中的最小二乘法进行估计。对于线性趋势方程,根据回归分析中推导出的结果,有4.时间序列季节变动分析测定目的:确定现象的季节变化规律以用于预测;消除时间序列中的季节因素测定季节变动,一般需要先从原时间序列中剔除可能存在的长期趋势,因此需要在一定的模型假定下进行,也有不同的计算方法。实际中乘法模型较为常用,下面以乘法模型为例,介绍移动平均剔除法(ratio-to-moving-averagemethod)。乘法模型中的季节成分通过季节指数来反映。季节指数(季节比率):反映季节变动的相对数。1、月(或季)的指数之和等于1200%(或400%)。2、季节指数离100%越远,季节变动程度越大,数据越远离其趋势值。用移动平均趋势剔除法计算季节指数:\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!1、计算移动平均值(TC),移动期数为4或12,注意需要进行移正操作。2、从序列中剔除移动平均值(SI=Y/TC)。3、4、如果季节系数之和不等于为400%或1200%,需要用调整系数调整。季节调整:将原序列实际数值除以季节指数可以消除季节变动的影响。此数列通常被称为“季节调整后的序列”,它便于较为准确地分析长期趋势和循环变动。YS=T×S×C×IS=T×C×I5.时间序列循环变动分析实际中常采用剩余法测定循环变动。这种方法须先从原时间序列中消除长期趋势、季节变动和不规则变动,求得循环变动指数。计算步骤:1、如果有季节成分,计算季节指数,得到季节调整后的数据(TCI);2、根据趋势方程从季节调整后的数据中消除长期趋势得到序列CI;3、对消去季节成分和趋势值的序列CI进行移动平均以消除不规则波动,得到循环变动成分C。有时对长期趋势和循环变动不做区分,而是合在一起称为“趋势循环”成分。不规则变动:如果需要,还可以进一步分解出不规则变动成分:I=T×S×C×IT×S×C6.时间序列分解预测法预测是时间序列分析的重要目的之一分解预测法就是依据时间序列的结构模型将序列中的各种非随机成分分离出来,分别进行预测,最后将各部分预测值合成总的预测值。这种方法直观易懂并可以提供较多有用的信息,从不同的方面把握数据的变化特征。以乘法模型为例由建立的趋势模型得到可用同期季节指数代替可用半定量化方法预测,即根据分离出的循环变动指数的变化趋势,主观判断取值的大小。若循环变动不明显,可忽略。有时候和长期趋势合在一起预测。预测误差的测度指标:1、平均绝对误差(MeanAbsoluteError)2、均方误差(MeanSquaredError)3、均方根误差(RootMeanSquaredError)\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!4、平均绝对百分误差(MeanAbsolutePercentageError),用来衡量相对误差的大小。7.指数平滑是一种加权移动平均,既可以用来描述时间序列的变化趋势,也可以实现时间序列的预测。指数平滑预测的基本原理是:用时间序列过去取值的加权平均作为未来的预测值,离当前时刻越近的取值,其权重越大。式中:表示时间序列第t+1期的预测值;表示时间序列第t期的实际观测值;表示时间序列第t期的预测值;表示平滑系数,0<<1。单参数指数平滑的模型为:适用场合:单参数(一次)指数平滑适用于不包含长期趋势和季节成分的时间序列预测如果原序列有增长趋势,平滑序列将系统的低于实际值如果原序列有下降趋势,平滑序列将系统的高于实际值平滑系数的确定:选择合适的平滑系数是提高预测精度的关键。如果序列波动较小,则平滑系数应取小一些,不同时期数据的权数差别小一些,使预测模型能包含更多历史数据的信息;如果序列趋势波动较大,则平滑系数应取得大一些。这样,可以给近期数据较大的权数,以使预测模型更好地适序列趋势的变化。统计软件中可以根据拟合误差的大小自动筛选最优的平滑系数值。初始预测值的确定:等于第一个观测值等于前k个值的算术平均适用场合:单参数(一次)指数平滑适用于不包含长期趋势和季节成分的平稳时间序列预测双参数指数平滑包含两个平滑参数适用于包含长期趋势、不包含季节成分的时间序列预测。其基本思想是:首先对序列选定其随时间变化的线性模型,再通过对序列水平和增长量分别进行平滑来估计模型中的参数。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!第一个平滑方程得到原序列经趋势调整的平滑值,第二个平滑方程是对增量进行指数平滑。初始值取为:【操作】分析à预测à创建模型à方法选择“指数平滑”;根据需要设置“条件”(选择Holt线性趋势模型)三参数指数平滑:对于包含季节变动(和长期趋势)的时间序列进行预测常用温特(Winter)指数平滑法。该法包含三个平滑系数,是依据时间序列的乘法(或加法)结构模型,在每一步平滑中将原始时间序列分解成趋势成分和季节成分并对它们分别进行平滑。预测公式(L为季节长度):【操作】分析à预测à创建模型à方法选择“指数平滑”;设置“条件”,选择季节性模型中的“Winter(冬季)加法或乘法模型)8.ARMA模型随机时间序列分析的一个重要概念是平稳性。时间序列平稳性的直观含义是指时间序列没有明显的长期趋势、循环变动和季节变动。从统计意义上讲,如果序列的一、二阶矩存在,而且对任意时刻满足:(1)均值为常数;(2)协方差仅与时间间隔有关,则称该序列为宽平稳时间序列,也叫广义平稳时间序列。非平稳序列平稳序列\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!平稳时间序列模型:(1)ARMA模型的基本形式:P阶自回归(Autoregressive)模型-AR(p)为零均值平稳时间序列滑动平均(MovingAverage)模型-MA(q)自回归滑动平均(AutoregressiveandMovingAverage)模型ARMA(p,q)有均值项的ARMA模型是互不相关的序列,且均值为零,方差为(即为白噪声序列),一般假定其服从正态分布。:对于均值是否为零未知的情况下,建模时需要给ARMA模型加上一个均值项。AR模型:MA模型ARMA模型(2)ARMA模型的识别与估计Box-Jenkins的模型识别方法:根据ACF和PACF确定模型的形式。自相关函数(ACF)描述时间序列观测值与其过去的观测值之间的线性相关性。偏自相关函数(PACF)描述在给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性。拖尾是指以指数率单调或振荡衰减,截尾是指从某个开始非常小(不显著非零)。模型阶数的确定模型(序列)AR(p)MA(q)ARMA(p,q)
自相关函数拖尾第q个后截尾拖尾
偏自相关函数第p个后截尾拖尾拖尾:对于AR或MA模型,利用ACF和PACF判定模型类型的同时也就初步断定了模型的阶数。对于ARMA模型来说,用ACF和PACF判定其阶次有一定的困难。此时可以借助于下面介绍的信息准则。ARMA模型的参数估计:对时间序列所适合的ARMA模型进行初步识别后,接下来就需要估计出其中的参数,以便进一步识别和应用模型。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!主要的参数估计方法有矩估计法、最小二乘估计法和极大似然估计法等,一般都由计算机软件实现,这里不作介绍。ARMA模型的适应性检验:模型的适应性检验主要是残差序列的独立性检验。残差序列可由估计出来的模型计算得到。如果残差序列的自相关函数不显著非零,可以认为是独立的。9.ARIMA模型在实际问题中我们常遇到的序列,特别是反映社会、经济现象的序列,大多数并不平稳,而是呈现出明显的趋势性或季节性。对于有趋势性时间序列通常采用ARIMA模型进行分析。对于有季节性的时间序列可以采用乘积季节ARIMA模型进行预测。由于这类模型比较复杂,本课程不做介绍。差分(Difference)运算:ARIMA模型需要用到差分工具。用原序列的每一个观测值减去其前面的一个观测值,就形成原序列的一阶差分序列:对一阶差分后的序列再进行一次差分运算,称为二阶差分。一阶差分可以消除原序列存在的线性趋势。有时候需要进行高阶差分才能够使得变换后的时间序列平稳。大部分经济时间序列进行一阶或二阶差分后都可以变为平稳序列。对有季节性的时间序列,进行季节差分(当年的可以消除季节成分:ARIMA模型:一般地,如果d阶差分序列是平稳的,并且适合ARMA(p,q)模型,即也就是因为求和是差分运算的反运算,所以该模型称为求和自回归滑动平均模型,记为ARIMA(p,d,q)。※在实际应用中,可以让SPSS软件根据设定的规则自动筛选“最优”的模型。在“方法”中选择“专家建模器”,在“条件”中选择ARIMA模型。10.关于统计预测的几点说明时间序列预测的一个基本假设是:现象在过去的发展趋势会在未来保持下去。如果外部环境发生了重大变化,预测结果很可能是不可靠的。对历史数据拟合最好的模型预测效果不一定是最好的。复杂的模型不一定比简单的模型预测效果好。实际应用中不能机械的根据模型的评价指标选择模型,而应结合定性的分析。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!第9章统计指数统计指数简称指数,有广义和狭义两种定义。广义:一切用来测定社会经济现象数量变动或差异程度的相对数。狭义:用来表明复杂总体数量特征综合变动一种特殊相对数。简单总体:构成总体的各事物在数量上能够直接加总。如钢产量。复杂总体:构成总体的各种事物具有不同的使用价值和/或计量单位,各事物在数量上不能直接加总。如家电、衣服、食品的数量直接相加就没有经济意义。个体指数反映简单总体变动状况。例如反映个别产品销售量变动的相对数都是个体指数。反映复杂总体综合变动程度的指数称为总指数(Compositeindexnumber),也译为综合指数。根据指数反映内容的不同,指数可以分为:数量指数(Quantityindex):是表明总体规模数量变动的指数,如产量指数、销售量指数等。质量指数(Qualityindex):表明总体在内涵上数量变动的指数,如价格指数、平均工资指数、产品单位成本指数、劳动生产率指数等。其中使用最多的是价格指数(Priceindex)。价值指数(Valueindex):反映总体货币价值变动的指数。总指数的计算方法:简单指数综合指数法(aggregateindex):先综合、后对比。缺点:不同商品的数量和价格不能直接加总;指数大小受商品计量单位的影响。平均指数法(averageindex):先对比,后综合。缺点:没有适当考虑不同商品的重要程度。总指数的计算方法:加权综合指数(weightedaggregateindex)使用同度量因素把不能直接相加的量过度到可以直相加的量:质量指数应使用数量指标作为同度量因素;数量指数应使用质量指标作为同度量因素。计算步骤:确定同度量因素;将同度量因素固定在同一时期;将两个总量指标进行对比。加权综合指数:根据同度量因素时期选择的分类1、同度量因素固定在基期。由德国的拉斯拜尔(E.Laspeyres,1864年)提出,称为拉斯拜尔指数或拉氏指数:2、同度量因素固定在报告期。德国的派许[帕煦](H.Paasche,1874)提出,称为派许指数或帕氏指数:\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!拉氏和帕氏公式的比较与应用原则:拉氏和帕氏公式计算总指数的结果略有不同,在一般意义上无优劣之分。选择公式时习惯的做法是:计算数量指数时把同度量因素固定在基期(拉氏指数)。计算质量指数时把同度量因素固定在报告期(帕氏指数)。总指数的计算方法:加权平均指数(weightedaverageindex)从个体指数出发,对个体指数进行加权平均得到的总指数。1.加权算术平均指数根据个体指数计算总指数时,用基期价值作为权数时一般用加权算术平均的公式计算:这时算术平均指数与拉氏指数相一致,可以看成拉氏公式的变形。加权算术平均指数主要用来计算数量指数。2.加权调和平均指数根据个体指数计算总指数时,用报告期价值作为权数时一般用加权调和平均的公式计算:这时调和平均指数与帕氏指数相一致,可以看成帕氏公式的变形。加权调和平均指数主要用来计算质量指数。3.固定加权算术平均指数计算加权算术平均指数时,在实践中出常常将权数(w)相对固定,对物价或数量因素的个体指数进行加权平均而求得的总指数:加权综合指数与加权平均指数联系与区别:联系:都是计算总指数的方法,在一定的权数条件下具有变形关系。区别:出发点不同。加权综合指数是先综合后对比,而加权平均指数则是先对比后综合;所用权数不同。加权综合指数所使用的权数是不同时期的数量或者价格,加权平均指数所使用的权数是不同时期的价值;依据的资料不同。加权综合指数需要有总体的全面资料,而加权平均指数既适用于全面的资料,也适用于非全面的资料。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!几种常用的经济指数:1、消费者价格指数消费者价格指数(ConsumerPriceIndex,CPI)是综合反映各种消费品和生活服务价格的变动程度的重要经济指数,又称生活费用指数。我国称为居民消费价格指数。我国的消费者价格指数是采用固定加权算术平均指数法来编制的。将居民消费划分为8八大类,251个基本分类,从中选定约550个代表品。2、商品零售价格指数计算方法与消费者价格指数的编制程序类似,也采用固定加权算术平均指数的方法。与消费者价格的指数的区别:消费者价格指数反映消费品和服务的价格变动程度;零售物价指数反映零售商品(不含服务)的价格变动程度.基本编制要点:将全部商品分类,选出代表品;选择典型地区,调查商品价格;确定权数(每年要根据居民家庭收支调查的资料调整一次);编制程序为先小类,再中类,后大类,最后编制总指数。3、股票价格指数目前世界上大多数股价指数都是以报告期的发行量为权数的派许指数,也有少数证券交易所采用拉氏公式编制股票价格指数(如香港恒生指数,德国法兰克福证券交易所的股价指数、美国的标准普尔指数等等)。个别股价指数也采用简单平均的方法计算。例如道琼斯股价指数:以1928年10月1日为基数(约为100美元)。我国股票价格指数:上证综合指数:由上海证券交易所编制,是以1990年12月19日为基期(基期指数为100),以报告期股票发行量为权数,以在上海证券交易所挂牌上市的全部股票作为编制对象计算的。上证180指数:样本股规模为180种,采用派许加权综合价格指数公式计算,以样本股的调整股本数为权数。调整股本数参照股票的流通股比例(流通股本/总股本)确定。报告期指数=报告期成份股的调整市值/基日成份股的调整市值×1000深证综合指数:由深圳证券交易所编制,以1990年4月3日为基期(基日指数为100),以所有在证券交易所上市的股票为样本,以计算日总股本数作为权数进行加权计算。深证成分股指数:在全部上市股票中,选取成份股。成分股可重新选择与更换,基日指数为1000点。以指数股的计算日股份流通数作为权数进行加权计算。4、工业生产指数\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!反映工业产品产量综合变动程度的指数。国外较为普遍地采用加权平均指数的方法。我国传统上采用固定加权综合指数,在实践中面临的问题:工作量大,难度高;要求进行全面、连续的调查。价格指数的应用(重点内容)在很多情况下我们从统计年鉴中直接得到的宏观经济总量数据,如GDP、总消费、总投资等等都是以当年价格计算的,而我们在经济分析中需要首先剔除价格因素的影响,这时就需要用相应的价格指数来“缩减”(deflate)现价指标。经济学中一般把按当年价格计算的指标称为名义(nominal)指标,以可比价格计算的指标称为实际(real)指标。第10章因子分析(主成分不做考试要求)\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!因子分析(factoranalysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。一个例子:在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。这三个公共因子可以表示为:称是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。因子分析与主成分分析的区别:主成分分析分析与因子分析不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。因子分析的数学模型假设有p个变量X,有m个因子(m≤p),则因子分析的数学模型可以表示如下:i=1……m称为公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。因子之间互不相关,并且方差等于1。因子载荷是第i个变量与第j个公共因子的相关系数,反映了第j个公共因子对第i个变量的影响程度。变量共同度:如果对变量X进行了标准化,可以证明定义为变量Xi的共同度。变量的共同度越接近1,说明被变量公共因子解释的程度越高,因子分析的效果越好。因子载荷矩阵中各列元素的平方和称为公共因子Fj对原始变量X的方差贡献。可以衡量衡量因子的相对重要性。因子载荷矩阵的估计方法有多种,估计结果并不唯一。最常用的方法之一是主成分法:求解变量X的前m个主成分,进行简单后的数学变换就可以得到因子载荷矩阵。与主成分分析类似,可以根据因子的累计贡献率确定因子的个数。\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!因子旋转:因子分析中得出的各个因子如果有明确的含义,则因子分析的模型会更加易于解释和有实际意义。在因子分析中可以对因子载荷阵进行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。通过旋转,因子可以有更加明确的含义。常用的一种方法是方差最大旋转。因子得分:前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,就需要计算每个个体在每个因子上的得分。要计算因子得分,需要估计以下表达式:因子得分有多种计算方法,常用的一种是回归法。如果对变量都进行了标准化,则模型中没有常数项。因子分析的步骤:1.根据问题选取原始变量;2.求其相关阵R,探讨其相关性;3.从R求解初始公共因子F及因子载荷矩阵A(主成分法);4.因子旋转,分析因子的含义;5.计算因子得分函数;6.根据因子得分值进行进一步分析(例如综合评价)。【spss操作】“分析”——“降维”——“因子分析”,把除了“编号”以外的变量选入“变量”框;单击“描述”按钮,在弹出的对话框中选中“系数”,以输出相关系数;单击“旋转”,选中“最大方差法”,单击“继续”;单击“得分”,选中“保存为变量”,“显示因子得分系数矩阵”,单击“继续”;其余选项使用默认值。单击“确定”。第11章聚类分析(判别分析不做考试要求)\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!对于一个数据集,人们既可以对变量(指标)进行分类(称为R型聚类),也可以对观测值(个案,样品)来分类(称为Q型聚类)。这两种聚类在数学上是对称的,没有什么不同。距离,主要用于样品(观测)间相似性度量相似系数,主要用于变量间相似性度量常用的距离的计算方法:设每个样品有p个指标(变量)。把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义。当变量的测量值相差悬殊时,要先进行标准化,以消除计量单位对计算结果的影响。欧氏距离(Euclidean)平方欧氏距离SquaredEuclidean切比雪夫距离(Chebychev)明考夫斯基距离(明氏距离)**按q的取值不同可以包括多种距离计算方法。例如:相似系数的计算方法:变量间的相似性可以从它们的方向趋同性或“相关性”进行考察,“夹角余弦法”和“相关系数”两种主要度量方法,统称为相似系数。(1)夹角余弦*两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算显然,∣cosθij∣≤1。(2)Pearson相关系数Pearson相关系数经常用来度量变量间的相似性。变量Xi与Xj的Pearson相关系数定义为显然也有,∣rij∣≤1。系统聚类法(分层聚类):\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!开始时,有多少样本点就是多少类。第一步先把最近的两类(点)合并成一类;然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。S1S3S2S4S5如何计算类与类之间的距离?最短距离法S1S3S4S5最长距离法••重心法:均值点的距离Ward法(离差平方和法)合并离差平方和变动最小的两个类聚类要注意的问题:聚类结果受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。从分层聚类的计算机结果可以得到任何可能数量的类。聚类的目的是要使各类距离尽可能地远,而类内点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。【软件操作】选择分析-分类-系统聚类把热量、钠含量、酒精、价格选入变量框;把啤酒名选入“标注个案”框。选择“绘制”,选中“树状图”;方法设定:在聚类方法框中选择需要的方法;在度量标准框中选择距离的计算方法;在“标准化”框中选择Z得分。K-均值聚类:系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。k-均值聚类(k-meanscluster)可以避免上述问题,适用于样本点很多的情况,但要求你先确定要分多少类。K-均值聚类的步骤:\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!先确定k个点为“凝聚点”(SPSS软件自动确定);也就是说,把这k个点作为k类中每一类的凝聚点。然后,根据和这k个点的距离远近,把所有点分成k类。再把这k类的中心(均值)作为新的凝聚点,再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。【spss操作】分析——分类——K-均值聚类,设置好相应的选项。主要是设置好分类的数量。第12章列联表和对应分析\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!【例12.1】美国的GeneralSocialSurvey二维列联表中的两个变量是否相互独立:χ2检验H0:婚姻状况和幸福状况这两个变量相互独立;H1:婚姻状况和幸福状况不相互独立。与单个变量的χ2检验类似基本原理:行变量和列变量相互独立时,每个单元格频数的期望值为如果期望频数和观测频数相差不大,则零假设可能是正确的;如果二者差别很大,则零假设可能不成立。检验统计量:在零假设成立时,该统计量近似服从自由度为的χ2分布。当该统计量的值很大(或p值很小)时,就可以拒绝零假设,认为这两个变量不相互独立。【SPSS操作】“分析”-“描述统计”-“交叉表”,把“婚姻状况”设为行变量,把“幸福状况”设为列变量。接下来单击“统计量”,在弹出的对话框中选中“卡方”,单击“继续”;选择“单元格”,选中弹出对话框中的“期望值”,单击“继续”返回前一个是对话框,单击“确定”结果分析:\n请大家尊重班内同学的劳动成果,复习资料禁止外传,谢谢!χ2统计量的值为225.274,相应的p值为0.000。由于p值远远小于通常使用的显著性水平,因此检验的结论是拒绝原假设,不能认为婚姻状况和幸福状况相互独立。精确结果:当每个单元格的期望频数都大于5时检验统计量近似服从χ2分布。在不满足这一条件时,需要把部分单元格合并,或者使用精确检验。在图12-1的对话框中选择“精确…”,进行相应的设置后可以得出精确的检验结果。这时所涉及的不是χ2分布,而是超几何分布。由于样本很大时超几何分布计算比较慢甚至无法计算,因此在大样本时通常使用χ2统计量。在这里要特别感谢我班张静玉同学,她付出了很大努力才把这份详细的复习资料整理出来!!!