- 297.00 KB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
.第1章统计和统计数据1统计学的定义:是收集、处理、分析、解释数据并从数据中得出结论的科学描述统计与推断统计的含义、内容、目的。描述统计:是研究数据收集,处理和描述的统计学方法.其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征.推断统计:是研究如何利用样本数据来推断总体特征的统计学方法,内容包括两大类:参数估计:是利用样本信息推断所关心的总体特征.假设体验:是利用样本信息判断对总体的某个假设是否成立.2、变量与数据:不同数据类型的含义,会判断已有数据的类型.变量:它们的特点是从一次观察到下一次观察会出现不同结果.Ex:企业销售额,上涨股票的家数,生活费支出,投掷一枚骰子观察其出现的点数数据:把观察到的结果记录下来.总体:包含所研究的全部个体(数据)的集合样本:从总体中抽取的一部分元素的集合样本量:构成样本的元素的数目定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据.可以用阿拉伯数据来记录其观察结果.如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”定性变量:分类变量和顺序变量统称为定性变量分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.分类变量的观察结果就是分类数据顺序变量或有序分类变量:具有一定顺序的类别变量.如考试成绩按等级,一个人对事物的态度.顺序变量的观察结果就是顺序数据或有序分类数据离散型变量:只能取有限个值得随机变量连续型变量:可以取一个或多个区间中任何值得随机变量3、获得数据的概率抽样方法有哪些?根据一个已知的概率来抽取样本单位,也称随机抽样-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中.抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后,再把这个个体放回到原来的总体中参加下一次抽选。不重复抽样抽中的个体不再放回,再从所剩下的个体中抽取第二个元素,直到抽取n个个为止。-分层抽样或分类抽样:它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。-系统抽样或等距抽样:它是想将总体个元素按某个顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取n个元素组成一个样本。.\n.-整群抽样:是先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群中包含的所有元素进行观察。第二章.用图表展示数据频数:落在各类别中的数据个数比例:某一类别数据个数占全部数据个数的比值百分比:将对比的基数作为100而计算的比值比率:不同类别数值个数的比值频数分布表:频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分布状况.什么是条形图:是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况.帕累托图:是按各类别数据出现的频数多少排序后绘制的条形图饼图:是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例,对于研究结构性问题十分有用.环形图:只能显示一个样本各部分所占的比例数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别.1.下限(lowerlimit):一个组的最小值2.上限(upperlimit):一个组的最大值3.组距(classwidth):上限与下限之差4.组中值(classmidpoint):下限与上限之间的中点值组中值=下限值+上限值/2直方图与条形图的区别。1.条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距2.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列3.条形图主要用于展示定性数据,而直方图则主要用于展示定量数据茎叶图:是反映原始数据分布的图形.它由茎和叶两部分构成,其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如:分布是否对称,数据是否集中,是否有离群点.等等箱线图:是由一组数据的最大值,最小值,中位数,两个四分位数.这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较.雷达图:是显示多个变量的常用图示方法..\n.1.从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图2.可用于研究多个样本在多个变量上的相似程度3.当多个变量的取值相差较大或量纲不同时,可进行变换处理后再做图。第三章.用统计量描述数据1、水平的度量描述数据水平的统计两主要有:平均数,中位数,分位数以及众数等.平均数。平均数的计算:1.也称为均值,常用的统计量之一2.消除了观测值的随机波动3.易受极端值的影响4.根据总体数据计算的,称为平均数,记为m;根据样本数据计算的,称为样本平均数,记为`x中位数:是一组数据排序后处于中间位置上数值,用Me表示.四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值众数、中位数和平均数的关系*2、差异的度量极差:1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布5.计算公式为:R=max(xi)-min(xi)四分位差1.也称为内距或四分间距2.上四分位数与下四分位数之差:Qd=QU–QL3.反映了中间50%数据的离散程度4.不受极端值的影响.\n.4.用于衡量中位数的代表性样本方差和标准差(会计算)1.数据离散程度的最常用测度值2.反映各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差(标准差),记为s2(s);根据样本数据计算的,称为样本方差(标准差),记为s2(s)4.样本方差假设是一个样本,则样本方差的计算公式为:其中是样本均值。例如,一样本取值为3,4,4,5,4,则样本均值=,样本方差 =。样本方差是常用的统计量之一,是描述一组数据变异程度或分散程度大小的指标。样本标准差S称为样本标准差。如在上例中,S=0.7071。称(S/X)×100%为样本变异系数。由于S与X都是从同一个样本资料中求得,两者的单位相同,故变异系数为一纯数。当两种样本资料所用的单位不同时,只要计算出变异系数,就可以比较它们的变异程度。标准分数:可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置,并可以用它来判断一组数据是否有离群点离散系数(变异系数)是一组数据的标准差与其相应的平均数据之比,它消除了数据绝对值大小和计量单位对标准差大小的影响.分布形状的度量偏态:是指数据分布的不对称性。侧度数据分布不对称性的统计量称为(偏态系数)峰态:是指数据分布峰值的高低。测度峰态的统计量是(峰态系数)弄清偏态系数的取值含义,会判断左偏、右偏和对称情形*弄清峰态系数的取值含义,会判断尖峰、扁平和正常情形*.\n.第四章.概率分布概率:概率是对事件发生的可能性大小的度量随机变量:是用数值来描述特定试验一切可能出现的结果,它的取值事先不能确定,具有随机性连续性随机变量:只能取一个或多个区间中任何值得随机变量离散型随机变量:只能取有限个值得随机变量随机变量的概括性度量:期望值和方差的计算:描述随机变量集中程度的统计量称为(期望值)离散型概率分布:是用表格的形式表现出来,就是离散型随机变量的概率分布二项分布:二项分布是建立在伯努利试验基础上的。N重伯努利1.贝努里试验满足下列条件n一次试验只有两个可能结果,即“成功”和“失败”l“成功”是指我们感兴趣的某种特征n一次试验“成功”的概率为p,失败的概率为q=1-p,且概率p对每次试验都是相同的n试验是相互独立的,并可以重复进行n次n在n次试验中,“成功”的次数对应一个离散型随机变量X泊松分布:1.1837年法国数学家泊松(D.Poisson,1781—1840)首次提出2.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布.\n.1.泊松分布的例子n一定时间段内,某航空公司接到的订票电话数n一定时间内,到车站等候公共汽车的人数n一定路段内,路面出现大损坏的次数n一定时间段内,放射性物质放射的粒子数n一匹布上发现的疵点个数n一定页数的书刊上出现的错别字个数超几何分布的应用背景1.采用不重复抽样,各次试验并不独立,成功的概率也互不相等2.总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布3.概率分布函数为连续型概率分布:正态分布:1.由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出2.描述连续型随机变量的最重要的分布3.许多现象都可以由正态分布来描述4.可用于近似离散型随机变量的分布n例如:二项分布5.经典统计推断的基础标准正态分布1.随机变量具有均值为0,标准差为1的正态分布2.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布3.标准正态分布的概率密度函数.\n.1.标准正态分布的分布函数数据的正态性评估:Q-Q图和P-P图的应用1.对数据画出频数分布的直方图或茎叶图n若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似3.绘制正态概率图。有时也称为分位数—分位数图或称Q-Q图或称为P-P图n用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t分布等等nP-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的nQ-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的4.使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验)由正态分布导出的几个重要分布:c2分布、t分布、F分布的特点c2分布:1.由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年和1900年推导出来2.设,则3.令,则y服从自由度为1的c2分布,即4.对于n个正态随机变量y1,y2,yn,则随机变量5.称为具有n个自由度的c2分布,记为性质和特点1.分布的变量值始终为正2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称3.期望为:E(c2)=n,方差为:D(c2)=2n(n为自由度)4.可加性:若U和V为两个独立的c2分布随机变量,U~c2(n1),V~c2(n2),则U+V这一随机变量服从自由度为n1+n2的c2分布t分布:1.提出者是WilliamGosset,也被称为学生分布(student’st)2.t分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布F分布:1.为纪念统计学家费希尔(R.A.Fisher)以其姓氏的第一个字母来命名则2.设若U为服从自由度为n1的c2分布,即U~c2(n1),V为服从自由度为n2的c2分布,即V~c2(n2),且U和V相互独立,则.\n.称F为服从自由度n1和n2的F分布,记为统计量:n用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数n一个总体参数推断时的统计量:样本均值(`x)、样本标准差(s)、样本比例(p)等两个总体参数推断时的统计量:(`x1-`x2)、(p1-p2)、(s1/s2)n样本统计量通常用小写英文字母来表示参数:n描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值n一个总体的参数:总体均值(m)、标准差(s)、总体比例(p);两个总体参数:(m1-m2)、(p1-p2)、(s1/s2)n总体参数通常用希腊字母表示抽样分布的概念:1.样本统计量的概率分布,是一种理论分布n在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2.随机变量是样本统计量n样本均值,样本比例,样本方差等3.结果来自容量相同的所有可能样本4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据样本均值的抽样分布:1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值m的理论基础中心极限定理:从均值为m,方差为s2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布其他统计量的分布:1.总体(或样本)中具有某种属性的单位与全部单位总数之比n不同性别的人与全部人数之比n合格品(或不合格品)与全部产品总数之比2.总体比例可表示为.\n.1.样本比例可表示为样本比例的分布1.在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布2.一种理论概率分布3.当样本容量很大时,样本比例的抽样分布可用正态分布近似,即样本方差的分布1.在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布2.对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的c2分布统计量的标准误差1.样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差2.衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度3.样本均值和样本比例的标准误差分别第五章.参数估计1、参数估计的基本原理参数估计:就是用样本统计量去估计总体的参数估计量:用于估计总体参数的统计量的名称n如样本均值,样本比例,样本方差等n例如:样本均值就是总体均值m的一个估计量估计值:估计参数时计算出来的统计量的具体值n如果样本均值`x=80,则80就是q的估计值点估计1.用样本的估计量的某个取值直接作为总体参数的估计值§例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计.\n.2.无法给出估计值接近总体参数程度的信息n由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值n一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量区间估计:1.在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量n比如,某班级平均分数在75~85之间,置信水平是95%置信度:一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值得次数所占的比例称为,也称为置信度或置信系数置信水平:1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,也称置信度2.表示为(1-a)%na为是总体参数未在区间内的比例3.常用的置信水平值有99%,95%,90%n相应的a为0.01,0.05,0.10置信区间1.由样本估计量构造出的总体参数在一定置信水平下的估计区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间3.如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表述4.总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数5.实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间。我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个6.当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个7.一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题.\n.1.置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的2、一个总体参数的区间估计1.个总体均值区间估计的计算(两种情形)A.大样本的估计1.定条件n总体服从正态分布,且方差(s2)已知n如果不是正态分布,可由正态分布来近似(n³30)2.用正态分布统计量z3.总体均值m在1-a置信水平下的置信区间为B.小样本的估计1.假定条件n总体服从正态分布,但方差(s2)未知n小样本(n<30)2.使用t分布统计量3.总体均值m在1-a置信水平下的置信区间为评价估计量好坏的标准:对于同一个未知参数,不同的方法得到的估计量可能不同,,于是提出问题:1.应该选用哪一种估计量?2.用什么标准来评价一个估计量的好坏?第六章.假设检验1、假设检验的基本原理原假设:1.又称“0假设”,研究者想收集证据予以反对的假设,用H0表示2.所表达的含义总是指参数没有变化或变量之间没有关系.\n.1.最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它2.总是有符号=,£或³nH0:m=某一数值nH0:m³某一数值nH0:m£某一数值l例如,H0:m=10cm备择假设:1.也称“研究假设”,研究者想收集证据予以支持的假设,用H1或Ha表示2.所表达的含义是总体参数发生了变化或变量之间有某种关系3.备择假设通常用于表达研究者自己倾向于支持的看法,然后就是想办法收集证据拒绝原假设,以支持备择假设4.总是有符号¹,<或>nH1:m¹某一数值nH1:m>某一数值nH1:m<某一数值单侧检验和双侧检验:1.备择假设没有特定的方向性,并含有符号“¹”的假设检验,称为双侧检验或双尾检验(two-tailedtest)2.备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailedtest)n备择假设的方向为“<”,称为左侧检验n备择假设的方向为“>”,称为右侧检验两类错误与显著性水平1.研究者总是希望能做出正确的决策,但由于决策是建立在样本信息的基础之上,而样本又是随机的,因而就有可能犯错误2.原假设和备择假设不能同时成立,决策的结果要么拒绝H0,要么不拒绝H0。决策时总是希望当原假设正确时没有拒绝它,当原假设不正确时拒绝它,但实际上很难保证不犯错误3.第Ⅰ类错误(a错误)n原假设为正确时拒绝原假设n第Ⅰ类错误的概率记为a,被称为显著性水平2.第Ⅱ类错误(b错误)n原假设为错误时未拒绝原假设.\n.第Ⅱ类错误的概率记为b(Beta)利用统计量进行检验时的决策准则1.根据样本观测结果计算出对原假设和备择假设做出决策某个样本统计量2.对样本估计量的标准化结果n原假设H0为真n点估计量的抽样分布3.标准化的检验统计量统计量决策规则1.给定显著性水平a,查表得出相应的临界值za或za/2,ta或ta/22.将检验统计量的值与a水平的临界值进行比较3.作出决策n双侧检验:I统计量I>临界值,拒绝H0n左侧检验:统计量<-临界值,拒绝H0n右侧检验:统计量>临界值,拒绝H0利用P值进行决策的准则1.如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率•P值告诉我们:如果原假设是正确的话,我们得到得到目前这个样本数据的可能性有多大,如果这个可能性很小,就应该拒绝原假设2.被称为观察到的(或实测的)显著性水平3.决策规则:若p值