统计学相关概念 33页

  • 655.50 KB
  • 2022-08-13 发布

统计学相关概念

  • 33页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
--第1章绪论1、统计学是以现象的数量特征为研究对象,利用自身特有方法,发现现象应有规律的一门方法论科学。2、总体和总体单位〔1〕总体:指具有一样性质的一组个体组成的集合。即根据一定目确实定的所要研究事物的全体。〔2〕总体单位:简称单位,是组成总体的各个个体。它是构成总体的根底。3、样本和样本单位样本:从总体中获得的一个群或组。从总体中抽取出来,作为代表这一总体的局部单位组成的集合体。4、标志和标志表现〔1〕标志:用来描述总体单位的属性、特征的概念和数值。〔2〕标志表现:各单位的属性或特征的具体表现〔3〕标志的分类:按表现形式分:①品质标志②数量标志按有无差异分:①不变标志②可变标志〔可变的数量标志称为变量〕5、指标:是用于说明统计总体或样本数量特征的名称和数值的总和。6、统计调查方法〔1〕普查-.word.zl-\n--〔2〕重点调查〔3〕典型调查〔4〕抽样调查7、统计分组〔1〕统计分组的原那么:①穷尽原那么②互斥原那么〔2〕统计分组分类品质标志分组:属性分布数列统计分组单项数列数量标志分组:变量分布数列等距数列组距数列异距数列〔3〕统计分组形成次数分布数列,次数分布数列有两个组成要素:①组别②频数〔③频率④累计频数〔向上累计、向下累计〕〕〔4〕几个根本概念①组距②上限③下限④组中值⑤次数密度〔指本组的次数与本组组距之比,异距数列中用到〕-.word.zl-\n--第2章描述统计1、集中趋势〔1〕集中趋势是指一组数据向分布的中心集中的现象。描述集中趋势的实质是找出数据的集中点或中心值。〔2〕数据分布集中趋势的测度指标称为平均指标。算术平均数调和平均数数值平均数〔特点:受极端值影响〕常见的平均指标几何平均数中位数位置平均数〔特点:不受极端值影响〕众数〔3〕计算公式〔、、都有简单和加权两种算法,分别适用于未分组和已分组的数据〕①算术平均数:、二者的实质一样的,条件不同,导致的算法不同而已其中二者的关系:②调和平均数:、〔调和平均数因变量值在分母上,因此又称倒数平均数,要求变量值不能为0〕③几何平均数:、〔几何平均数因算法为变量值的连乘积,故如果有一变量值为0,那么计算结果为0〕-.word.zl-\n--〔常见的应用几何平均数的例子:连续作业的流水线、存贷款的复利算法、产值等的连续增长〕④中位数:总体各变量值按大小顺序排列,处于中点位置的变量值就是中位数。单项式数列:中位数位置组距数列:中位数位置中位数计算公式〔下限公式〕⑤众数:总体中出现次数最多的数。单项式数列:直接确定众数组距数列:先确定众数位置,然后计算众数〔下限公式〕〔4〕中位数、众数和算术平均数的关系:2、离散程度〔1〕除数据的集中趋势之外,数据的离散趋势是数据分布的一个重要特征,它所反映的是各个变量值远离中心的程度,也称为离中趋势。〔2〕描述数据离散程度的指标主要有:全距平均差二者的根本思想一致,只是计算时对负号的数学处理方法有异,应用更广泛标准差方差变异系数〔3〕计算公式-.word.zl-\n--①全距=最大值-最小值②平均差:、③标准差:、、、〔是非标志的标准差〕④方差:、、⑤方差的加法定理:总方差、组间方差、平均组方差。三者关系⑥变异系数:〔反响平均值代表性大小用变异系数;变异系数消除了原单位的影响。〕3、相对位置测度及异常值检测〔1〕z分数:通常被称为标准化值,表示观察值偏离平均数的标准差个数。〔2〕切贝夫定理:在任意一组数据中,至少有个数据落在与平均数倍标准差围,是大于1的任意数。-.word.zl-\n--第3章时间序列分析1、时间序列是社会经济指标的数值按时间顺序排列而形成的一种数列。2、时间序列的种类时期序列绝对数时间序列时点序列时间序列相对数时间序列平均数时间序列3、时间序列的指标分析法环比开展速度开展速度定基开展速度环比增长速度〔2〕速度指标增长速度-.word.zl-\n--定基增长速度增长1%的绝对值几何平均法:参考第2章几何平均数G平均开展速度高次方程法:用于存量指标平均开展速度的计算〔年距开展速度:本期开展水平与去年同期开展水平之比〕平均增长速度时期序列:未分组:绝对数连续-.word.zl-\n--已分组:平均开展水平时点序列间隔相等:〔1〕水平指标不连续间隔不等:相对数:〔三种情况〕逐期增长量增长量累积增长量等于各期逐期增长量之和累积增长量年距增长量:报告期某月开展水平与上年同月开展水平之差。4、长期趋势分析-.word.zl-\n--〔1〕时间序列的因素可以归纳为长期趋势、季节变动、循环变动和不规那么变动四种。〔2〕长期趋势是指时间序列在长期开展变化过程中朝着一定的方向持续上升或下降的变动趋势,它是构成时间序列的主要因素。〔3〕长期趋势测定时距扩大法:时距扩大法是把时间序列中各期指标数值按较长的时距加以归并,形成一个新的简化了的时间序列,从而呈现出现象的长期趋势。适合于时期序列而不适合于时点序列。修匀法序时平均法:先将原时间序列的时距扩大,然后计算扩大时间序列的平均开展水平,借以消除现象在短期的波动,以便显示现象的长期趋势。既适合于时期序列,又适合于时点序列移动平均法:对原时间序列按一定时间跨度逐项移动,并计算一系列的序时平均数,形成一个新的时间序列,以消除短期的、偶然因素所引起的波动,以便显现出现象的长期趋势。移动平均的项数为奇数时,一次移动平均就可以;移动平均的项数为偶数时,需要进展二次移动平均。原始公式:,趋势方程法:根据时间序列的开展趋势类型,运用数学方法拟合一个适宜的方程式,然后依据此方程式求趋势值以分析长期趋势的方法。-.word.zl-\n--最小二乘法进展直线趋势外推简洁公式:,5、季节变动分析〔1〕同期平均法:通过计算时间序列各年同季〔月〕的平均数与总平均数,然后用两者比照求出季节指数的一种方法,适用于没有明显趋势变动,而只受季节变动和不规那么变动影响的时间序列。〔2〕移动平均剔除法:通过计算移动平均数,然后由原序列与移动平均序列比照来计算季节指数的方法。-.word.zl-\n--第4章指数分析1、指数的概念〔1〕广义的指数是指一切可以说明社会经济现象变动或差异程度的相对数。〔2〕狭义的指数是指不能直接相加的、有许多因素组成的、表示现象总体综合变动程度的相对数。2、指数的分类数量指标指数:是反映现象的总规模、水平或工作总量的相对数。〔数量指标常用q来表示〕质量指标指数:是指反映现象相对水平或平均水平的变动的相对数。〔质量指标常用p来表示〕定基指数:在一个指数数列中,如果各期指数以某一固定时期作为基期,那么称为定基指数。环比指数:在一个指数数列中,如果各期指数以它前一期作为基期,那么称为环比指数。个体指数:说明单个事物或现象在不同时期的变动程度的指数。〔个体指数符号上面不加-,如、、〕总指数:说明多种事物或现象在不同时期的综合变动程度的指数。〔总指数符号上面加-,如、、〕综合指数:将不可同度量的诸经济变量通过同度量因素而转换成可以相加的总量指标,然后以总量指标比照所得到的相对数,其主要特点是先综合后比照。平均数指数:利用个体或类指数,通过加权算术平均或加权调和平均的方法计算的相对数。-.word.zl-\n--3、综合指数的编制〔1〕同度量因素和指数化因素①同度量因素是指在总指数计算时,为了解决总体的构成单位及数量特征不能直接加总〔即不能同度量〕的问题,而使用的一个媒介因素或转换因素。②指数化因素是反映指数所要反映、研究的总体在某一方面的数量特征的因素。〔2〕拉氏指数和帕氏指数①拉氏指数是将同度量因素固定在基期水平上,所以又称为基期加权综合指数。②帕氏指数是将同度量因素固定在报告期〔计算期〕水平上,所以又称为计算期加权综合指数。〔③理想指数是对拉氏指数和帕氏指数直接进展平均型穿插的结果。④马埃指数为了防止拉氏指数和帕氏指数的偏误,选择了基期和报告期同度量因素的平均值来计算指数。〕〔3〕计算公式数量指标指数〔同度量因素为p,固定在基期〕质量指标指数〔同度量因素为q,固定在报告期〕4、平均数指数的编制〔1〕平均数指数是对个体指数的加权平均,有两种表现形式:一种是加权算术平均数指数,另一种是加权调和平均数指数。-.word.zl-\n--〔2〕计算公式加权算术平均数指数〔总结:基期总量指标和个体指数,可以运用加权算术平均数指数计算〕加权调和平均数指数〔总结:报告期总量指标和个体指数,可以运用加权调和平均数指数计算〕5、平均指标指数的编制〔1〕平均指标指数是从总体的两个总平均水平的比照中求得反映其变动程度和方向的相对数。〔2〕平均指标指数有3种形式:可变构成指数、固定构造指数和构造影响指数。①可变构成指数反映了构造的变化以及组平均数的变化对总平均数变动的影响。②构造影响指数单纯反映了构造的变化对总平均数变动的影响。-.word.zl-\n--③固定构造指数单纯反映了组平均数的变化对总平均数变动的影响。6、总量指标变动的因素分析三种指数的乘积关系:即〔1〕两因素分析绝对量的加总关系:即:销售额的变动=销售量变动引起的销售额的变动额+价格变动引起的销售额的变动额〔2〕多因素分析〔暂略〕7、平均指标变动的多因素分析三种指数的乘积关系:即绝对量的加总关系:-.word.zl-\n--第5章抽样和抽样分布1、几个根本概念〔1〕总体和样本〔2〕总体参数和样本统计量①总体参数:根据全及总体各单位变量值计算的反映全及总体某数量特征的综合指标,由于全及总体唯一确定,所以称为总体参数。总体参数包括:总体容量,总体平均数,总体成数,总体标准差,总体方差。②样本统计量:根据样本总体各单位变量值计算的反映样本总体某数量特征的综合指标,由于样本不具唯一性,故称为样本统计量,它是一个随机变量。样本统计量有:样本容量,样本平均数,样本成数,样本标准差,样本方差。〔3〕大样本和小样本样本容量小于30称为小样本,样本容量大于等于30称为大样本。〔4〕重复抽样和不重复抽样①重复抽样的抽样安排是对每次被抽到的单位经登记后再放回总体,重新参与下一次抽选的抽样方法。②不重复抽样的抽样安排是对每次被抽到的单位经登记后不再放回总体的抽样方法。〔5〕抽样的各种组织形式①简单随机抽样〔或单纯随机抽样〕是指从总体的说所有单位中按照随机原那么抽取样本单位的方式,对于总体中的每个单位,被抽取的时机都是相等的。②先对总体进展分层,抽样在每一层中独立进展,如果每层中的抽样都是按简单随机抽样进展,那么这种抽样就称为分层随机抽样。③将总体划分为假设干群,然后以群为单位从中按简单随机抽样方式或等距抽样方式抽取局部群,对中选群中的所有单位一一进展调查的抽样组织形式称为整群抽样。-.word.zl-\n--④等距抽样是先将总体各单位按某一标志顺序排列,然后按照固定的顺序和一样的间隔来抽取样本单位的抽样组织方式。⑤多阶段抽样是一种将抽取样本单位的过程划分为几个阶段,然后逐阶段抽取样本单位的抽样组织形式。〔6〕随机变量取值事先不能确定的变量称为随机变量。①离散型随机变量:只能取有限个或可数个值的随机变量,称为离散型随机变量。②连续型随机变量:可以取一个或多个区间中任何值的随机变量,称为连续型随机变量。2、离散型随机变量〔1〕离散型随机变量的表示方法,其中且〔2〕离散型随机变量的数学期望和方差①离散型随机变量有,用表示的数学期望。一个随机变量的数学期望是对该随机变量概率分布中心位置的度量,它反映了随机变量的平均取值。②随机变量的方差定义为一个随机变量取值与期望值的离差平方之期望值。设随机变量为,其方差记为。方差计算公式为或。〔3〕常见的离散型随机变量①0-1分布〔也称两点分布〕如果随机变量只可能取0和1两个值,它的概率分布为,,那么称服从参数为的两点分布,也称0-1分布,。0-1分布的数学期望为,方差为。②二项分布在n次独立的试验中,〔n重贝努里试验〕出现“成功〞的次数的概率为-.word.zl-\n--,那么称随机变量X服从参数的二项分布,记作。二项分布的数学期望为,方差为。3、连续型随机变量〔1〕连续型随机变量的概率密度函数和分布函数①概率密度函数设是一连续随机变量,它代表某一区间或多个区间中的任意数值,它的概率分布通过概率密度函数来表述,记作。连续型随机变量在给定区间取值的概率对应的是概率密度函数曲线〔或直线〕在该区间上围成的面积。概率密度函数满足以下两个条件:;。连续型随机变量取个别值的概率为0,也就是说连续型随机变量在任一区间上取值的概率与是否包含区间端点无关,即。②分布函数连续型随机变量的分布函数定义为。分布函数具有以下两个根本性质:;是一个单调非减的函数。。〔2〕正态分布如果随机变量的密度函数为,,那么称为正态随机变量,或称服从参数为,的正态分布,记作。正态分布曲线具有如下性质:曲线对称轴为;曲线与横轴所围面积为1。〔其他性质略〕如果正态分布的随机变量具有均值为0,标准差为1的特征,那么称该随机变量服从标准正态分布,记为。任何一个服从一般正态分布的随机变量都可通过转换成标准正态分布,转换公式为-.word.zl-\n--,变换后。4、三种分布①总体分布:总体中各元素〔单位〕的观察值所形成的频数分布,称为总体分布。②样本分布:从总体中抽取一个容量为n的样本,由这n个观察值形成的相对频数分布称为样本分布。③抽样分布:某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。5、两个定理①中心极限定理:设是具有期望值为,方差为的任意总体,那么样本平均数的抽样分布将随着的增大而趋于正态分布,分布形式〔参数〕,这就是统计学中的中心极限定理。②大数定律:大数定律〔或大数法那么〕是指如果随机变量总体存在着有限的平均数和方差,那么对于充分大的抽样单位数n,可以以几乎趋近于1的概率,使抽样平均数与总体平均数的绝对离差的期望为任意小。大数定律从理论上提醒了样本和总体之间的在联系,即随着抽样单位数n的增加,抽样平均数呈现出接近总体平均数的趋势。6、抽样分布〔1〕单个总体的抽样分布有限总体〔均值为,方差为〕:重复抽样无限总体〔均值为,方差为〕:大样本有限总体〔均值为,方差为〕:-.word.zl-\n--不重复抽样①样本均值的抽样分布无限总体〔均值为,方差为〕:正态总体方差〔〕:小样本正态总体方差未知〔总体均值为〕:其他情况:分布未知重复抽样:②样本比例抽样分布〔大样本〕不重复抽样:③样本方差抽样分布〔正态总体,重复抽样〕:〔2〕两个总体的抽样分布①两个样本均值之差的抽样分布〔,〕:②两个样本比例之差的抽样分布:③两个样本方差之比的抽样分布:-.word.zl-\n--第6章总体参数估计1、点估计用样本估计量的值直接作为总体参数的估计值,称作参数的点估计。点估计具有无偏性、一致性和有效性三个性质。〔1〕无偏性如果样本统计量的数学期望等于所估计的总体参数的值,那么称该样本统计量为总体参数的无偏估计量。〔注意:总体标准差的无偏估计量为,注意计算时的分母为〕〔2〕有效性一个样本可能同时给出同一总体参数的两个或两个以上的不同的无偏估计量,其中方差〔或标准差〕更小的估计量是更有效的估计量。〔3〕一致性如果样本容量更大时,点估计量的值更接近于总体参数,那么该估计量是总体参数的一致估计量。2、区间估计的要素〔1〕三种误差①抽样〔实际〕误差抽样实际误差是指某一次抽样结果所得到的样本指标数值与总体指标数值之差。②抽样平均误差抽样平均误差是指所有可能出现的样本指标的标准差,也可以理解为所有样本指标和总体指标的平均离差。抽样平均误差也就是抽样分布中的标准差,例如大样本情况下总体均值抽样平均误差为。③极限误差抽样极限误差就是指抽样指标和总体指标之间抽样误差的可能围。例如总体均值的抽样极限误差表示为-.word.zl-\n--,抽样极限误差一般表示为多少倍的抽样平均误差,即,式中称为临界值,临界值对应着相应的置信水平。〔2〕置信水平如果我们将构造置信区间的步骤重复屡次,置信区间中包含总体参数真值的次数所占的比率,称为置信水平。置信水平表示为。常见的置信水平有90%、95%、95.45%,对应的临界值分别为1.645、1.96、2。〔3〕置信区间、置信上限、置信下限由样本统计量构造的总体参数估计区间,称为置信区间。其中区间的最小值称为置信下限,最大值称为置信上限。〔4〕综上,根据样本均值构造的总体均值的置信水平为的置信区间上下限为:,即置信区间为。可以表述为我们有的把握保证我们构造的区间包含总体均值。3、单个总体参数的区间估计方差未知:大样本方差:〔1〕总体均值估计正态总体方差:-.word.zl-\n--小样正态总体方差未知:其他情况:×〔2〕总体成数估计〔大样本〕〔3〕总体方差估计〔正态总体〕-.word.zl-\n--4、两个总体的区间估计〔1〕总体均值〔〕之差的区间估计方差未知:大样本方差:独立样本正态总体方差:小样本方差相等:,其中为总体方差的合并估计量正态总体方差未知:方差不等:,其中自由度-.word.zl-\n--大样本:匹配样本小样本:〔2〕总体比例之差〔〕的区间估计:〔3〕总体方差之比〔〕的区间估计:,其中5、样本容量确实定〔1〕估计总体均值时:单个总体〔2〕估计总体比例时:〔3〕估计均值之差时,公式是由倒推出来的,其中极限误差E为给定的两个总体-.word.zl-\n--〔4〕估计比例之差时:,公式是由倒推出来的,其中极限误差E为给定的-.word.zl-\n--第7章假设检验1、假设检验的根本思想〔1〕假设检验先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。〔2〕原假设和备择假设①原假设H0通常将研究者想收集证据予以反对的假设称为原假设,或零假设,用H0表示。原假设总是有符号、或。②备择假设H1通常将研究者想收集证据予以支持的假设称为备择假设,或研究假设,用H1表示。上面含有三种符号的原假设对应的备择假设分别含有符号、或。〔3〕双侧检验和单侧检验①双侧检验备择假设没有特定的方向性,并含有“≠〞的假设检验称为双侧检验〔或双尾检验〕。②单侧检验备择假设具有特定的方向性,并含有符号“>〞或“<〞的假设检验,称为单侧检验〔或单尾检验〕。备择假设中含有“>〞的为右侧检验,备择假设中含有“<〞为左侧检验。〔4〕两类错误与显著性水平①弃真错误当原假设为真时拒绝原假设,所犯的错误称为第Ⅰ类错误,又称弃真错误,犯此类错误的概率常用表示。②取伪错误当原假设为假时没有拒绝原假设,所犯的错误为第Ⅱ-.word.zl-\n--类错误,又称为取伪错误〔或纳伪错误〕,犯此类错误的概率常用表示。③显著性水平假设检验中犯第Ⅰ类错误的概率,称为显著性水平,记为。〔5〕检验统计量根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量,称为检验统计量。检验统计量实际为总体参数的点估计量,例如单个总体大样本情况下,总体均值的检验统计量为,标准化检验统计量为。根据第5章的抽样分布,有,即。〔6〕临界值与拒绝域①能够拒绝原假设的检验统计量的所有可能取值的集合,称为拒绝域。②根据给定的显著性水平确定的拒绝域的边界值称为临界值。〔7〕假设检验的步骤第一步:提出原假设和备择假设;第二步:计算检验统计量的值;第三步:根据显著性水平查表,得出临界值和拒绝域。第四步:得出结论。-.word.zl-\n--2、单个总体的假设检验总体方差未知:检验统计量大样本双尾检验H0:,H1:拒绝域左侧检验H0:,H1:拒绝域右侧检验H0:,H1:拒绝域t检验、总体成数检验思路一样,请同学们灵活把握,后面两个总体的t检验和z检验道理也一样〔1〕总体均值的假设检验总体方差:检验统计量正态总体方差:小样本正态总体方差未知:〔2〕总体成数的假设检验〔大样本〕:检验统计量〔3〕总体方差的假设检验〔正态总体〕:检验统计量双尾检验H0:,H1:拒绝域及左侧检验H0:,H1:拒绝域右侧检验H0:,H1:拒绝域-.word.zl-\n--3、两个总体的假设检验〔1〕均值之差的假设检验方差未知:大样本方差:独立样本正态总体方差:小样本方差相等,其中正态总体方差未知:方差不等:,其中自由度-.word.zl-\n--大样本匹配样本小样本〔2〕比例之差的假设检验H0:,其中H0:〔3〕方差之比的假设检验双侧检验H0:,H1:拒绝域及左侧检验H0:,H1:拒绝域-.word.zl-\n--右侧检验H0:,H1:拒绝域-.word.zl-\n--第8章相关和回归分析1、根本概念〔1〕相关关系变量之间存在的不确定性数量关系,称为相关关系。〔2〕相关系数根据样本数据计算的对两个变量之间线性关系强度的度量值,称为相关系数。2、符号和计算〔1〕样本相关系数r简化的计算公式为r的取值围-1≤r≤1。①0<r≤1,——正线性相关关系;②-1≤r<0,——负线性相关关系;③r=1,——完全正线性相关关系;④r=-1,——完全负线性相关关系;⑤r=0,说明y的取值与x无关,即二者之间不存在线性相关关系。〔2〕相关系数的检验第一步:提出原假设和备择假设H0:H1:第二步:计算检验统计量第三步:进展决策。〔拒绝域为〕〔3〕一元线性回归方程的参数估计(最小二乘法)一元线性回归方程为,其中参数,。-.word.zl-\n--〔4〕一元线性回归直线的拟合优度分析①方差分析即:总离差平方和=回归离差平方和+残差平方和即:SST=SSR+SSE相关系数②估计标准误差估计标准误差是指实际值与估计值的平均离差,说明回归方程推算结果的准确程度,其计算公式为,简化公式为。-.word.zl-

相关文档