教育统计学重点 14页

  • 106.00 KB
  • 2022-08-13 发布

教育统计学重点

  • 14页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
教育统计学是教育科学的一门分支学科。它主要探讨如何应用数理统计的方法来研究教育,包括用一系列的数字来反映教育事业的发展状况,探讨教育的规律,制定教育方案,对教育进行科学管理,对教育效率进行检查等等。作为一门学科,教育统计学属于应用统计学的范畴,是数理统计与概率论等数学学科在教育领域(包括实践领域与理论研究领域)中的应用。它是教育领域中各种数据资料,特别是量化数据资料的整理、分析,以及由此而进行推断与决策的有益的思维工具之一。教育统计学的研究内容,从不同角度分,可以分成不同的类别。从具体应用的角度来分,可以分成描述统计、推断统计和实验设计。本门课程讲授的教育统计学包括两大部分,一部分是教育统计学的理论部分,教育统计的基本概念和原理,以及教育统计的原则、方法和手段,重难点除了统计学基本概念以外,还包括作为数据分析基础的一些统计知识,包括集中量和差异量特征及计算、正态分布的计算和应用、总体平均数的推断应用、方差的基本原理及检验应用,以及其他相关分析基本知识等。另一部分是SPSS软件操作部分。SPSS(SPSSStatistics)是一款数据分析软件,是三大综合性统计软件(SAS、BMDP、SPSS)之一,它集数据整理、分析功能于一身,SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。SPSS软件操作是教育统计学学习的重要内容,对于实际的教育教学现象和规律的探究有着实践的指导意义。教育统计学是一门方法论科学,关于它的学习有一些方法和技巧。首先,对于教育统计学中重要的相关概念、原理的范畴的理解和掌握,不能死记硬背,要通过理解在加强记忆,要抓住要点,能用自己的认识和语言表达出来。同时,要能联系实际或其它课程的知识,并将它们具体落实到每一个概念和范畴上去,因为这些概念和范畴都是从具体实践中抽象出来的,学习时也要能够返回到具体实践中去。其实,只要抓住各个概念和范畴的要点,结合实际例子来学习和记忆,就能够真正的理解和掌握它们。其次,关于计算方法与公式的灵活运用,教育统计学中的方法问题很多,许多计算公式也需要记住并会运用。怎样才能将教育统计学中的计算方法和公式恰当运用到教育教学现象中去,除了需要具备一定的数学基础、记住计算公式以外,更为重要的是对教育教学现象涵义的理解,还是要联系实际情况进行理解和学习。最后,关于SPSS统计软件的学习,最重要的还是联系实际,寻求一个适宜的实践案例,在上述教育统计学的理论知识和计算方法与公式学习的基础上,实现一个完整的数据分析的操作过程,实践操作之后,就能够深刻理解和掌握解软件的功能和使用方法。另外关于考试和作业的问题。本门课程一般会有一次离线完成的平时作业,所占的分数比利为30%,要求手写,并使用“北师大作业封面”作为平时作业的封皮(详细填写个人信息),完成之后提交到所在的学习中心。届时可在“离线作业”中查看本课程作业的详细内容。本门课程为开卷考试,考前一个月左右我们会在课程文件夹中发布考试指导,介绍考试范围和相关参考内容,届时同学们可以到课程文件夹中下载,借以参考,指导复习。·第一章重点知识本章难点是教育统计学的内容介绍。重点是作为学科基础的统计学中的几个基本概念。一、教育统计学的内容教育统计学分为三部分,即描述统计、推断统计和实验设计。严格地说,教育统计学只包括描述统计和推断统计两部分。1.描述统计对已获得的数据进行整理、概括,显现其分布特征的统计方法就叫做描述统计。具体来说,描述统计就是根据数据类型对数据进行分组,然后用统计图和(或)统计表的形式把分组结果表示出来;计算各种特征量(如平均数、中位数、方差、标准差、四分差、相关系数等),对实验数据的分布特征进行概括性地描述。2.推断统计\n由样本所提供的信息,根据概率理论进行分析,在一定可靠程度上,对总体分布特征进行估计、推测的统计方法就叫做推断统计。推断统计的内容包括总体参数估计和假设检验两部分。不同的数据类型采用不同的方法。在假设检验方面具体做法包括Z检验、t检验、F检验和检验等。二、统计学中的几个基本概念1.随机变量变量:实验结果的数值不是恒定不变的量称为变量,与它意义相反的量称为常量或恒常量。定义:表示随机现象各种结果的变量称为随机变量。由于受随机因素的影响,结果呈随机变化,又有规律性的变量称为随机变量。2.总体和样本总体是我们所研究的具有某种共同特性的个体的总和。总体一般是有研究目的来确定的。总体中的每个单位称为个体。总体可以分为有限总体和无限总体。样本是由从总体中抽取的一个部分个体组成的。样本中包含的个体数目称为样本的容量。按样本容量不同,样本有大样本和小样本之分。有时,大样本和小样本所用的统计方法会有很大的不同。3.统计量和参数样本上的数字特征是统计量。总体上的各种数字特征是参数。·第二章重点知识数据的初步整理,要理解、识记统计学的初期工作。数据的来源、种类及其分类是本章的重点,统计表、统计图在此基础上,成为本章的难点。一、教育统计资料的来源通常有两种,经常性资料和专题性资料经常性资料,主要指档案性资料。在学校中有关学生的档案资料有:学生的年龄、性别、民族、健康状况、所在班级、担任班干部的情况、每个学期各科的期末考试成绩、品行评定、奖励和处罚记录、考勤记录、参加各种竞赛的成绩、入学考试成绩等等。专题性资料,主要通过对研究者非常感兴趣或急需通过研究解决的某一专门问题的调查或实验来搜集的。二、数据的种类数据是随机变量的观察值。数据的种类不同会影响到统计方法的选择,所以了解数据的种类及特点非常重要。统计数据通常按两种方法进行分类:一种是按数据的来源不同,分为点计数据和度量数据;另一种是按随机变量的取值是否有连续性,分为间断型随机变量数据和连续型随机变量数据。三、统计表的结构及编制要领统计表一般由标题、表号、标目、线条、数字、表注等项构成。统计表编制的基本原则:表的结构要简单明了。表的层次要清楚,重点要突出,阅读流畅。一张表只能有一个中心,若统计数据所包含的信息非常丰富,难以在一张表格中清晰地表示出来,可以用若干张统计表来呈现。四、统计表的种类和编制方法统计表有简单表、分组表和复合表三种。只列出观察对象的名称、时间、地点或统计指标名称的统计表即为简单表;只按一个标志分组的统计表为分组表;按两个或两个以上标志分组的统计表为复合表。五、频数分布表列法某一个随机事件在n次观察或测量中出现的次数称为这个随机事件的频数。频数通常用英文中的小写字母f表示。把随机现象中所包含的各个随机事件出现的次数都呈现出来就构成了一个次数分布,这个次数分布就是频数分布。把频数分布用表格形式表示出来就是频数分布表。频数分布表有以下几种形式:简单频数分布表,按数据类型不同又分为间断变量的频数分布表和连续变量的频数分布表两种。\n间断变量的频数分布表的制作方法非常容易。首先,按随机事件的性质不同将数据分成若干类别;然后,计算各类的频数并用表格呈现出来。另外还有两种频数分布表,它们分别是累积频数和累积百分比分布表。若将频数转换成用累积频数表示,所产生新的频数分布表就叫做累积频数分布表。若将累积频数再转换成用累积百分比表示,则所得的新的频数分布表叫做累积百分比分布表。六、统计图的结构及其绘制规则统计图由标题、图号、标目、图形、图注等项构成。在教育研究中,常用的统计图分为间断变量的统计图和连续变量的统计图。间断变量的统计图包括直条图和圆形图。直条图是用直条的长短表示各统计项目数量的图形,常用于比较点计数据分组后各组的频数或百分比。其制作方法是以分组标志为横轴,频数为纵轴,用直条长短表示各组的频数。圆形图是用来表示数据经过分类以后各部分的构成比的常用的连续变量的统计图有线形图和频数分布图两种。若要表示两个变量之间的函数关系,一种事物随另一种事物的变化而变化,或某一事物的发展趋势,一般要绘制线形图。频数分布图,用来表示连续变量的频数发布情况,包括直方图和多边图。直方图是用面积表示频数发布的统计图。多边图是以纵轴上的高度表示频数多少的统计图,常用于表示测量数据的频数分布。·第三章重点知识第三章主要介绍一种最常用的统计量或最常计算的特征量,即集中量。集中量作为统计学的一个基础概念是一个非常重要的,同时其中的算术平均数在以后的学习中很重要,并且在实践中的使用比较常见。本章的难点包括中位数、众数、加权平均数、几何平均数和调和平均数,重点包括集中量和算术平均数。在真正领会集中量的基础上来学习算术平均数、中位数、众数、加权平均数、几何平均数和调和平均数。并且通过比较来学习。一、算术平均数算术平均数是一组数据的总和除以这组数据的个数所得的商。算术平均数常常简称为平均数或均数,一般用、等符号表示。有时也用大写的M(Mean)表示。它是各种统计量指标中最常用的一种。算术平均数的计算方法,包括原始数据计算法,即根据定义公式计算,和频数分布表计算法。用频数分布表计算法计算算术平均数,其方法是:先用各组的组中值乘以该组的频数,求得各组数据的和。将各组数据的和加起来,就可以求得数据的总和;然后根据算术平均数的定义,将数据的总和除以总频数,就可以求得所有数据的算术平均数。二、中位数位数是将一列数据按一定顺序(从小到大或从大到小)排列后位于中央位置的那个数值。中位数一定会把整个数据分布分成上、下两半,每半的频数等于总频数的50%。中位数常用表示。中位数的计算方法也包括原始数据计算法和频数分布表计算法。中位数是百分位数的一个特例,即第50百分位数。百分位数是将一列数据按一定顺序(从小到大或从大到小)排列后位于某个百分位置的数值。百分位数一般用表示。三、众数众数有两种定义方法。第一种叫做理论众数,是指频数分布曲线最高点的横坐标,要用积分法求得。第二种叫做粗略众数,指的是一组数据中出现频数最大的那个数,一般用观察法求得,或者用经验公式计算近似值。众数用表示。它也是一种集中量,用来代表一组数据的集中趋势。众数的求法可以用观察法,无论是分组的数据还是未分组的数据,都可以用观察法求众数。若数据没有经过整理,在一组原始数据中出现次数最多的那个数值就是众数。另外还有两种公式计算法,皮尔逊的经验法和金氏插补法。四、算数平均数、中位数和众数的评价应用及关系算术平均数的优点在于感应灵敏、严密确定、意义简单明了、适合代数运算、受抽样的影响较小,但是它易受两极端数值的影响,而且当一组数据中某个数值没写不清楚或不够准确,这时无法计算其算术平均数;不同质的数据不能直接相加求总和,然后再求平均数,而应该用中位数表示该组数据的集中量。中位数的优点在于严密确定,概念简单明了、容易理解,计算简便,以及不受两极端数值的影响。但是感应不灵敏,不如平均数稳定可靠。\n众数的有点在于概念简单明了,计算时不需要每个数据都加入,所以较少受两极端数值的影响。但是缺点在于极不稳定,反应不灵敏,不准确,不能做进一步的代数运算。三者的关系在于当频数分布呈正态时,三者重合为一点;当频数分布为偏态时,三者在大小和所在位置上有一定规律。中位数基本上都居于平均数和众数之间。当频数分布为正偏态时,分布的峰会向左偏。当频数分布为负偏态时,分布的峰会向右偏。五、加权平均数、几何平均数和调和平均数加权平均数是不同比重数据的平均数。几何平均数是N个数值连乘积的N次方根。调和平均数是一组数据倒数的算术平均数的倒数。·第四章重点知识差异量是指表示一组数据变异程度、离散程度或离中趋势的统计量。第四章差异量的内容有利于以后的学习,要反映一组数据的全貌,就需要计算出该组数据的变异程度或称为离散程度、离中趋势。常用的差异量指标有全距、四分位距、平均差、方差和标准差。重点是方差和标准差,难点包括平均差、方差、标准差和相对差异量。一、平均差所谓平均差,就是每一个数据与该组数据的中位数(或算术平均数)离差的绝对值的算术平均数。通常用MD表示。平均差有两种计算方法:原始数据计算法和聘书分布表计算法,分别对应有不同的公式。二、方差和标准差方差:方差也叫做变异数、均方,指的是离差平方的算术平均数。标准差:标准差是指离差平方和平均后的方根,即方差的平方根。方差和标准差也有两种计算方法,原始数据计算法和频数分布表计算法。原始数据计算法,是指用定义公式计算方差和标准差要先求出平均数,再求离差的平方。频数分布表计算法,是指频数分布表计算法的公式进行计算。三、相对差异量所谓差异系数是指标准差与其算术平均数的百分比。它是没有单位的相对数。全距、四分位距、平均差及标准差都是带有与原观察值相同单位的名数,称为绝对差异量。这种差异量对两种单位不同,或单位相同而两个平均数相差较大的资料,都无法比较差异的大小,必须用相对差异量(即差异系数)进行比较。相对差异量的具体应用:1.比较不同单位资料的差异程度2、比较单位相同而平均数相差数较大的两组资料的差异量程度3、可判断平均数和标准差的值是否异常。差异系数的应用条件:从测验的理论来说,只有等比量表才使平均数等于零成为不可能。也就是说,用来测量的量尺,既具有等距的单位,又具有绝对零点,这时所测量出的数据的平均数才不可能等于零,这时才能计算差异系数。·第五章重点知识第五章概率及概率分布的重点包括概率的概念和正态分布的知识,难点是二项分布和正态分布,其中正态分布是以后学习的一个基础性知识。一、概率的一般概念(一)定义概率的定义按求法不同分为两种,一种称为后验概率,另一种称为先验概率。后验概率:以随机事件A在大量重复试验中出现的稳定频率值作为随机事件A概率的估计值,这样寻得的概率称为后验概率。先验概率:先验概率又称为古典概率,是最早提出的一种概率,不用通过试验,只需要用一个简单的公式就可以计算出来。不过,这个随机事件能不能用这个公式计算概率需满足两个条件:(1)试验的所有可能结果是有限的;(2)每一种可能结果出现的可能性(概率)相等。(二)概率的性质1、任何随机事件A的概率都是介于0与1之间的正数;\n2、不可能事件的概率等于0;3、必然事件的概率等于1。(三)概率的加法和乘法1、概率的加法在一次试验中不可能同时出现的事件称为互不相容的事件。两个互不相容事件和的概率,等于这两个事件概率之和。用公式表示为:P(A+B)=P(A)+P(B)2.概率的乘法A事件出现的概率不影响B事件出现的概率,这两个事件为独立事件。两个独立事件的概率,等于这两个事件概率的乘积。用公式表示为:P(A·B)=P(A)·P(B)二、二项分布函数(一)定义二项分布是一种离散型随机变量的概率分布;用n次方的二项展开式来表达在n次二项试验中成功事件出现不同次数(X=0,1,…,n)的概率分布叫做二项分布。(二)二项分布图的特点:(1)当p=q时,不管n有多大,二项分布呈对称形。当n很大时,二项分布接近于正态分布。当n趋近于无限大时,正态分布是二项分布的极限。(2)当p不等于q时,且n相当小时,图形呈偏态。(三)二项分布的应用二项分布函数除了用来确定成功事件恰好出现X次的概率之外,在教育中主要用来判断试验结果的偶然性和真实性的界限。三、正态分布(一)定义:正态分布又叫做常态分布,是一种连续型随机变量的概率分布。正态分布的特点是:1.形态上很像古代的大钟,中间大两头小,左右最称,所以有人把它叫做钟形分布。如:人的许多生理和心理特征、学生的学习成绩分布。2.与二项分布比较:同:正态分布也是一个理论分布,有函数式;异:正态分布是连续分布,而二项分布是离散形的;函数式也不同。(二)正态函数曲线的特点(1)曲线在Z=0处为最高点。(2)曲线以Z=0处为中心,双侧对称。(3)曲线从最高点向左右缓慢下降,并无限延伸,但永远不与基线相交。(4)标准正态分布上的平均数为0,标准差为1。(5)曲线从最高点向左右延伸时,在正负1个标准差之内,既向下又向内弯。(6)曲线下方到基线的面积为1。(三)正态曲线的面积与纵线1.概念正态曲线的面积:正态曲线与基线之间某一区域的面积,相当于能在该区间找到个体的概率,又叫累积概率。2.标准正态曲线下面积的求法(1)已知Z值求面积如果是原始数据,要首先转化为标准分数,然后再由Z值查到面积,,具体做法有以下三种:第一种情况:求Z=0至某一Z值之间的面积,可以直接查表。第二种情况:求两个Z值之间的面积。首先要找出这两个值到Z=0的面积找出来,然后看它们的符号相同还是相反。如果相同,就用大的面积减去小的面积所得差即为所求;如果符号相反,就把两个面积加起来,所得和即为所求面积。\n第三种情况:求某一Z值以上或以下的面积。即左端或右端,上端或下端。3.正态曲线的纵线正态曲线的纵线高度Y是横轴上某一Z值的频率密度(即概率)。(四)正态分布在测验计分方面的应用1、用Z的公式将原始分数转换成标准分数条件是原始分数的分布是正态的。2、确定录用分数线在选拔兴或竞赛性的考试中,录取或授奖的人数(或比赛)往往是事先确定的。这就是用标准分数的作用发挥。3、确定等级评定的人数因为人的许多属性为正态分布,因此在教育生活中,许多情况下,用正态分布来计算各等级的人数。4、品质评定数量化一般在教育中可以综合各个老师对某一个学生的评定。奥鹏平台作业答疑:同学你好,这个问题考察的是第一章绪论中关于什么是统计学和教学统计学的相关内容。要回答这个问题首先要清楚教育统计学的内容,严格地说教育统计学只包括描述统计和推断统计两部分。而对于量化统计学,原则上来说并没有量化统计学这样的说法,量化只是一种分析的方法。请参考以上提示,选择答案!·第六章重点知识一在第六章中重点要掌握教育统计学的两个核心理论,即抽样分布和假设检验的基本原理。学会总体平均数的参数估计和显著性检验,以及假设检验。————抽样分布和总体平均数的参数估计一、抽样分布(一)抽样分布的分类和概念1、总体分布:总体内所有个体数值的频数分布。(基本随机变量的分布)2、样本分布:样本内个体数值的频数分布。(基本随机变量的分布)3、抽样分布:某一种统计量的概率分布。(二)平均数抽样分布的几个定理1、从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。2、容量为n的平均数在抽样分布上的标准差,等于总体标准差除以n的方根。3、从正态分布的总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。4、虽然总体不是正态分布的,如果样本容量较大(大样本),反映总体μ和σ的样本平均数的抽样分布,也接近于正态分布。(三)抽样分布中的几个重要概念1、标准误在理解标准误之前,要先了解抽样误差的概念。抽样误差:由每次抽样所得的数据计算出来的统计量与相应的总体参数之间的差异。而抽样误差我们用抽样分布上的标准差来表示。因此,某种统计量在抽样分布上的标准差就称为该种统计量的标准误。2、自由度自由度指的是总体参数估计量中变量值独立自由变化的个数。通常用df表示。用样本统计量去估计总体参数时才要计算自由度。估计量中随机变量的取值可以独立自由变化的数目是几自由度就是几。(四)样本平均数与总体平均数离差统计量的形态样本平均数与总体平均数离差统计量的形态一般分为两种,一种是当总体标准差已知时,按公式计算;另一种是当总体标准差σ未知时呈t分布。另外还要了解t分布与标准正态分布的相似之处与区别。二、总体平均数的参数估计\n根据样本统计量去推断总体参数的两种基本形式:总体参数估计和假设检验。(一)总体参数估计的基本原理根据样本统计量对相应总体参数所作的估计叫总体参数估计。总体参数估计分为点估计和区间估计。1、点估计定义:用某一样本统计量的值去估计相应总体参数的值叫总体参数的点估计。一个好的点估计量应该满足以下三个条件:无偏性、有效性和一致性。2、区间估计定义:以样本统计量的抽样分布(概率分布)为理论依据,按一定概率要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估计。总体参数区间估计的条件:1.要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的理论分布;2.要求出该种统计量的标准误;3.要确定在多大的可靠度上对总体参数作估计,再通过查某种理论概率分布表,找出与某种可靠度相对应的该分布横轴上记分的临界值,才能计算出总体参数的置信区间上下限。(二)总体平均数的区间估计的几种类型1、σ已知条件下总体平均数的区间估计当总体呈正态分布,总体σ已知,不管大样本(n>30),还是小样本(n≤30);总体虽不呈正态分布,但总体σ已知,大样本(n>30)时,在上述情况下,样本平均数都可以转换成标准记分。2、σ未知条件下总体平均数的区间估计当总体呈正态分布,总体σ未知,不管大样本,还是小样本时;总体虽不呈正态分布,总体σ又未知,样本容量较大(n>30)时,以上情况样本平均数与总体平均数的离差统计量呈t分布。不过,当样本较大时,t分布接近与正态分布,可以用正态分布近似处理。·第七章重点知识一第七章平均数差异的显著性检验主要是介绍如何由两个样本平均数之差检验两个相应总体平均数之差的显著性,要求我们在学习过程中要识记并理解平均数差异显著性检验的基本原理,学会作相关、独立样本平均数差异的显著性检验。其中重点包括平均数差异显著性检验的基本原理,相关、独立样本平均数差异的显著性检验。难点包括方差不齐性独立样本平均数差异的显著性检验,以及方差齐性检验。一、平均数差异显著性检验的基本原理1、基本原理:两个样本平均数差异的显著性检验也属于假设检验的范畴,和总体平均数的显著性检验的基本原理是相同的。假设检验一般都要从提出零假设和备择假设开始。零假设用符号表示就是:Ho:μ1-μ2=0(或μ1=μ2);备择假设用符号表示就是:H1:μ1-μ2≠0(或μ1≠μ2)。然后,分析在零假设成立的情况下某个统计量的概率分布的形态。分析在两个总体平均数之间没有差异的情况下,需要从这两个总体中各随机抽取一个样本所计算得一切可能的样本平均数的差会形成一个什么样的分布。从这样的两个总体中分别抽取一个样本,计算完两个样本平均数的差之后,把样本放回各自的总体,再分别抽取一个样本,计算第二次抽样的样本平均数之差然后放回各自的总体,再做第三次抽样。这种抽样可以一直进行下去。数理统计学的研究表明,假若μ1=μ2成立,那么两个样本平均数之差的概率分布就以0为中心的正态分布。2、平均数之差的标准误:要实际地判断样本平均数的差异是否落入了零假设的拒绝区域里,需要以该抽样分布的标准差,即平均数之差的标准误为依据。平均数之差的标准误就是样本平均数之差的抽样分布的标准差。求平均数之差的标准误的步骤:第一步:先求两列变量之差的平均数。第二步:计算两列变量之差的离差。第三步:计算两列变量之差的离差平方和。\n第四步:计算两列变量之差的方差。然后再根据公式求算。二、相关样本平均数差异的显著性检验1、相关样本的定义:两个样本的个体之间存在着一一对应的关系,这两个样本称为相关样本。符合以下两种情况的样本都属于相关样本:(1)用同一个测验对同一组被试在实验前后各进行一次测验,所获得的两组测验结果。(2)根据某些条件基本相同的原则,把被试一一匹配成对,然后将每对被试随机地分入实验组和对照组,对两组被试施行不同的实验处理之后,用同一个测验所获得的测验结果。2、相关样本平均数差异的显著性检验的一般步骤:(一)提出假设(二)选择检验统计量并计算其值。要注意大样本和小样本的不同情况。(三)确定检验形式。单侧检验或双侧检验(四)统计决断。当进行t检验时,需根据自由度df=n-1查t值表找到临界值。当进行Z检验时,需查正态分布表找到临界值。第七章重点知识二三、独立样本平均数差异的显著性检验1、独立样本的定义两个样本内的个体是随机抽取的,它们之间不存在一一的对应关系,这样的两个样本称为独立样本。(1)独立大样本平均数差异的显著性检验两个样本容量n1和n2都大于30的独立样本称为独立大样本。进行独立大样本平均数差异的显著性检验时有专门的标准误公式,需要掌握。(2)独立小样本平均数差异的显著性检验两个样本的容量均小于30,或者其中一个样本的容量小于30的独立样本称为独立小样本。求方差齐性时独立小样本平均数差异的显著性检验,先用汇合方差公式,有了汇合方差,就可以用它来计算平均数差异的标准误。(3)检验的步骤仍然是以下四步1.提出假设2.计算检验统计量的值3.确定检验形式4.统计决断四、方差不齐性独立样本平均数差异的显著性检验若总体方差不齐性,那么对两个独立样本平均数进行差异的显著性检验时,就需要用校正的t'作为检验统计量。t′值的计算有三种方法的计算公式。计算得t′值之后,该值要与临界值对照以判断差异的显著性。与t检验不同,t′检验的临界值不能直接查表得,而要经过计算才能获得。需要掌握0.05显著性水平的临界值近似值的计算公式和0.01显著性水平的临界值近似值的计算公式。五、方差齐性检验1、定义对两个总体的方差是否有显著性差异所进行的检验称为方差齐性检验。2、F分布从方差相同的两个正态总体中,各随机抽取一个样本,分别求出各自所属总体方差的估计值,并计算这两个总体方差估计值的比值,这个比值叫做F比值。对两个总体方差进行差异的显著性检验,即方差齐性检验。3、F分布的特点:(1)F分布是一簇分布,随分子和分母的自由度不同而有不同的分布曲线(见P159)。(2)F分布是正偏态的,即一簇正偏态的曲线(不过,随着分子和分母自由度的增大而逐渐趋于正态)。(3)F比值都是正的。\n(4)由于计算F比值时总把大的方差估计值作为分子,小的作为分母,所以F比值≥1。4、F检验的基本步骤:第一步:提出假设第二步:选择检验统计量并计算其值第三步:一般情况下,经常应用的是右侧F检验。第四步:统计决断要掌握两个独立样本和两个相关样本的方差齐性检验六、学习方法因为检验两个样本平均数差异的显著性时涉及到两个总体,所以需要考虑的条件多一些,公式的变换也更多些,学习的时候,一定要根据具体情况选择恰当的统计量,用相应的公式来计算,并根据统计量分布的形态进行推断。·第八章重点知识一·一、方差分析的基本原理(一)方差分析的目的方差分析的目的就在于对多组平均数综合性地进行差异的显著性检验。(二)方差分析的逻辑通过对组间差异与组内差异比值的分析,来推断几个相应平均数差异的显著性,这就是方差分析的逻辑。(三)以F检验来推断几个平均数差异的显著性方差分析就是把组间差异和组内差异分离出来,然后比较二者的大小。组间方差和组内方差进行比较时要计算它们的比值,这个比值服从F分布,所以,方差分析就是要进行F检验。如果组间与组内方差相等或相近,F比值等于或接近1,就应该保留零假设,即认为各组平均数无显著性差异;如果F比值很大,超过了F抽样分布上对应于某个可靠度的临界值,则应该拒绝零假设,即认为组间与组内方差有显著性差异,由此可推断,各组平均数之间有显著性差异。(四)四、方差分析中的几个概念1、因素——即实验中的自变量。只有一个自变量的实验称为单因素实验。有两个或两个以上自变量的实验称为多因素实验。2、水平——指某一个因素的不同情况。水平有质的不同和量的差异两种情况。例如,所要研究的因素为性别,这个因素就可以分为男和女两个不同的水平。另外,还可以根据数量高低来确定水平。例如,按IQ分数的高低把被试分成高智商、智商中等和低智商三个水平。3、处理——指按单因素的各个“水平”条件或多因素的各个“水平”的组合条件进行的重复实验。例如,要研究性别因素对智力发展的影响,可以从同龄学生中各抽取男女学生50名参加智力测验。性别因素所分成的两个水平(男和女)即两种处理。二、完全随机设计的方差分析(一)定义完全随机设计是一种单因素实验设计,又叫做独立组实验设计。。其实验是这样安排被试的:从同一个总体中随机抽取一定数量的被试,再将他们随机地分入各实验组,在施以各种不同的实验处理以后,用方差分析法对这多个独立样本平均数做差异的显著性检验。(二)需要掌握n相等和n不相等两种情况下的方差分析,以及运用样本统计量进行组间与组内方差的F检验。·第八章重点知识二·三、随机区组设计的方差分析(一)定义随机区组设计是这样安排被试的:先把某个总体中的被试按条件相同的原则分成若干个组(称为区组),即每个区组内的被试尽量保持同质,然后再将每个区组中的被试随机指派去接受各种不同的处理。对被试做这样的安排,是为了减少被试间的个别差异对结果产生影响。用方差分析法对多个相关样本平均数差异所进行的显著性检验,称之为随机区组设计的方差分析。(二)三种不同的处理方式\n指派每一区组内被试接受各种不同的处理有以下三种方式:1、一个被试作为一个区组,所有的被试都分别接受所有的处理。2、每一区组内被试的人数是实验处理数K的整数倍,将每一区组内被试分成K等份,每一部分被试接受一种处理。3、区组内以一个团体为一个基本单元。在被试的安排上也可以有两种方式,一种是从每个区组中只抽取一个团体,这个团体接受所有的处理;另一种是从每个区组中抽取的团体数是实验处理数的整数倍,将这些团体分成若干等份,每一部分被试接受一种实验处理。(三)随即区间组设计的恰当性检查随机区组设计恰当不恰当要看两方面:一方面要看是不是每一个区组都接受了所有的实验处理,接受每一个处理的人数或团体数相同;另一方面要看每一个实验处理在各个区组中重复的次数(人数或团体数)是否相同。四、各个平均数差异的显著性检验对多组平均数的逐对差异检验,以Newman-Keul提出的q检验法(或称N-K法)最为常用。这里需要掌握完全随机设计的q检验,包括各组n相等和各组n不相等的情况,以及随机区组设计的q检验。五、多组方差的齐性检验对于多组方差的齐性检验,目前研究者一般采用哈特莱(Hartley)所提出的最大F值检验法进行齐性检验。其检验统计量为:Fmax=Smax的平方/Smin的平方,其中,Smax和Smin分别表示各种处理中最大和最小方差。这里也要注意掌握各组n和各组n不相等的情况。六、多因素方差分析(了解)(一)多因素方差分析的功能多因素方差分析不仅可以检验各个因素(自变量)对因变量作用的显著性,而且还可以检验因素与因素间共同结合对因变量产生交互作用的显著性。(二)双因素完全随机设计方差分析的基本方法假设在某个实验中研究者设计了两个因素A和B,每个因素又各有两个水平,即a1、a2、b1和b2。若要对A因素、B因素以及这两个因素的交互作用对因变量所产生影响的显著性进行检验,应采取以下步骤:第一步:提出假设首先提出关于A因素的假设,然后,提出关于B因素的假设,最后,提出关于A、B两个因素交互作用是否显著的假设。H0:A、B两个因素交互作用不显著,H1:A、B两个因素交互作用显著.第二步:计算各假设所要检验的统计量的值对于A、B因素,都分别有各自专门的检验统计量的计算公式。对于A因素与B因素的交互作用,也可以按照专门的检验统计量的计算公式计算。第三步:统计决断根据分子和分母自由度及a=0.05和a=0.01两个显著性水平查附表3寻找F临界值。然后,将实际计算出的F值与这两个临界值相比较,若实际计算出的F值小于临界值则保留零假设;如果实际计算出的F值大于临界值则应拒绝零假设。第四步,列出方差分析表。·第九章重点知识一、总体比率的区间估计(一)定义:以比率的抽样分布为理论依据,按一定的概率要求估计总体比率的所在范围就叫做总体比率的区间估计。(二)计算方法1.正态近似法当样本容量n比较大,np和nq中较小的那个数等于或大于5时,二项分布已经接近于正态分布,此时可以按照正态分布来估计总体比率0.95和0.99的置信区间(因这种方法比较简便),这种方法叫做正态近似法。2.查表法\n如果不满足正态近似法的应用条件,也就是说,n比较小,np或nq<5,二项分布不接近正态分布,就不能按照正态分布来确定总体比率0.95和0.99的置信区间,而应该按二项分布进行精确的概率计算来确定置信区间。查表法非常简便,由于计算比较麻烦,计算工作一般交给计算机来完成。许多统计学著作在附表中都列出了计算结果,读者通过查表就可以确定总体的置信期间。二、总体比率的假设检验(一)定义:总体比率的假设检验是检验样本比率与某个总体的比率之间差异是否显著。它比对总体比率进行区间估计时要多加一个条件,就是除了知道样本的比率外,还要知道某个总体的比率。(二)计算方法总体比率的假设检验同样也有正态近似法和查表法两种。1.正态近似法当p=q,无论nd的大小;或者虽然p≠q,但np和nq都≥5,这时p―pˊ的抽样分布接近正态分布,因此,可以对样本比率与总体比率的差异进行Z检验。其步骤与前面介绍过的假设检验的步骤是一样的。2.查表法当p≠q,np<5,这时p―pˊ的抽样分布不接近于正态分布,因此,不能对样本比率与总体比率的差异进行Z检验,而应该用查表法进行显著性检验。三、总体比率差异的显著性检验(一)定义:总体比率差异的显著性检验是根据两个样本的比率来检验两个相应总体的比率是否存在显著性差异。(二)方法由于样本性质不同,其检验方法也不同。1.两个独立样本比率差异的显著性检验在进行显著性检验之前一般先要计算标准误。数理统计已经证明,当两个样本的容量都比较大,两个样本的最小频数都等于或大于5时,两个样本比率之差的抽样分布接近于正态分布,标准误计算可以通过专门的公式。如果总体比率未知,又假设这两个样本来自同一个总体,那么总体比率可以用两个样本比率的加权平均数作为估计量。最后通过专有公式,计算总体比率差异的检验统计量。2.两个相关样本比率差异的显著性检验如果两个样本的被试经过配对或用同一组被试在某种实验处理的前后接受某种调查或测试,那么所获得的两组数据就属于相关样本。对两个相关样本比率进行差异的显著性检验不能用独立样本的检验方法,而要采用一种新的方法。·第十章重点知识·一、χ2检验的特点卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验。即根据样本的频数分布来推断总体的分布。它属于自由分布的非参数检验。它可以处理一个因素分为多种类别,或多种因素各有多种类别的资料。所以,凡是可以应用比率进行检验的资料,都可以用卡方检验。二、χ2值的计算χ2检验统计量的基本形式有具体的公式。χ2值有以下几个特点:(1)χ2值具有可加性。(2)χ2值永远是正值。因为实际频数与理论频数的差异被平方了,因此χ2值不会是负的。(3)χ2值的大小随实际频数与理论频数之间差异的大小而变化。二者的差异越大,χ2值也越大,说明样本分布与某个假设的理论分布或经验分布的差异越大;二者的差异越小,χ2值也就越小,说明样本分布与某个假设的理论分布或经验分布越一致。三、χ2分布的特点χ2分布有以下几个特点:\n(1)χ2分布呈正偏态,右侧无限延伸,但永不与基线相交。(2)χ2分布为一簇分布,其形态随自由度的变化而变化。在这里自由度指实际频数与理论频数的差数中能够独立自由变化的个数。四、单项表的卡方检验(一)单项表的定义把实得的点计数据按一种分类标准分类所编成的分类表就是单向表。(二)单因素的χ2检验及其种类对于单向表的数据所进行的χ2检验就是单向表的χ2检验,即单因素的χ2检验。要掌握三种不同情况的单向表检验:按一定比率决定理论频数的χ2检验和均匀分布的χ2检验(无差假设的检验)以及频数分布正态性的χ2检验五、双向表的卡方检验(一)双项表的定义把实得的点计数据按两种分类标准分类后所编制成的表就是双向表。(二)双因素的χ2检验对双向表的数据进行的χ2检验,就是双向表的χ2检验,即双因素的χ2检验。在双向表的χ2检验中,如果要判断两种分类特征,即两个因素之间是否有依从关系,这种检验称为独立性χ2检验。在双向表χ2检验中,如果是判断几次重复实验的结果是否相同,这种χ2检验称为同质性检验。双向表的独立性χ2检验和同质性χ2检验,只是检验的意义不同,而方法完全相同。对于同一组数据所进行的χ2检验,有时既可以理解为独立性χ2检验,又可以理解为同质性检验,两者无本质区别。六、四格表的χ2检验(一)独立样本四格表的χ2检验独立样本四格表的χ2检验,就是最简单的双向表即2′2表的χ2检验。它既可以用缩减公式来计算χ2值,又可以用χ2检验的基本公式来计算χ2值,包括独立样本四格表χ2值的缩减公式和χ2值的校正计算公式,以及相关样本四格表的χ2检验中的大样本χ2值的缩减计算公式和χ2值的校正公式。·第十一章重点知识一·一、相关的意义(一)相关的概念两个变量之间不精确、不稳定的变化关系称为相关关系。它与事物之间普遍存在的另外两种关系即因果关系和共变关系是不同的。(二)相关系数用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。相关系数通常用r表示。(三)解释的步骤首先,应注意相关系数的数值范围。相关系数的数值范围是从-1到+1,其中r=1表示两个变量为完全正相关,R=-1,表示两个变量为完全负相关。计算得的r值超出这个范围(例如,r=2.48),就表明计算有错误。其次,分析相关系数的绝对值。相关系数的绝对值越接近于1,表明两个变量之间的关系越密切;越接近于0,就表明两个变量之间的关系越不密切。例如,r=-0.89的相关强度高于r=0.12。第三,分析相关的方向。如果相关系数前符号为正,就表明两个变量之间的变化方向是一致的;如果符号为负,就表明两个变量之间的变化方向相反。例如,r=-0.89表明两个变量之间可能存在负相关,而r=0.12则表明两个变量之间可能有正相关。第四,r值是一个比值,不能表示成百分比。r也不是等距的,所以,不能进行加、减、乘、除等代数运算。例如,对于r1=0.25和r2=0.50两个相关系数,不能说r1的相关程度是r2的一半,而只能说r1的相关程度不如r2。二、积差相关(一)积差相关的概念\n当两列变量满足一定的条件,用专门的公式计算得的相关,称为积差相关。该公式是英国统计学家皮尔逊提出来的,所以又称为皮尔逊相关。(二)积差相关的使用条件积差相关公式的使用条件是:1.两个变量都是由测量获得的连续性数据。2.两个变量的总体都呈正态分布或接近于正态分布。3.必须是成对的数据,而且每对数据之间是相互独立的。4.两个变量之间呈线性关系。是否为线性关系可以根据两个变量的相关散布图来判断。5.两个变量不是共变关系。在研究中一般需要靠经验和专业知识来判断并排除这种关系。6.样本容量大于30,最好大于50。(三)积差相关系数的计算方法两个变量离差乘积之和除以n所得的商就是协方差,有专门的计算公式。有以下三种计算方法:1.根据定义公式来计算2.用原始数据计算3.用统计量计算(四)相关系数的显著性检验1.相关系数的抽样分布2.相关系数显著性检验的基本原理相关系数的显著性检验包括两方面内容:其一,检验两列变量之间是否有真正的相关;其二,检验两个相关系数之间的差异是否显著。3.相关系数显著性检验的步骤及方法包括以下三种条件下的显著性检验:(1)在H0:r=0条件下,相关系数的显著性检验(2)在H0:r=r0条件下,相关系数的显著性检验(3)两个独立样本相关系数差异的显著性检验·第十一章重点知识二三、等级相关(一)概念等级相关是指以等级次序表示的两列或多列变量之间的相关。等级相关主要包括斯皮尔曼等级相关和肯德尔和谐系数两种。(二)斯皮尔曼等级相关1.斯皮尔曼等级相关的概念当两列变量以等级次序表示时,用专门公式(详见第十一章第三节)计算得的相关,称为等级相关。又称为斯皮尔曼等级相关。2.等级相关公式的使用条件两列变量的值既可以是连续变量的数据,也可以用等级次序表示,并且不要求两个相应总体的分布呈正态分布,样本容量也不要求必须大于30。3.等级相关系数的计算方法在等级相关公式中,rR表示等级相关;D表示两个变量的每对等级之差;n表示样本容量。(三)肯德尔和谐系数1.肯德尔和谐系数的概念当多个变量值以等级次序表示,用肯德尔提出的统计量或相关公式计算这几个变量之间的一致性程度,这个统计量称为肯德尔和谐系数。2.计算方法肯德尔和谐系数常用于计算多位评定者对同一组事物所评等级的一致性。当每一位评定者对一组事物所评结果没有相同等级时,应采取下列公式计算评定的一致性,包括无相同等级的情况和有相同等级的情况。四、质与量的相关(一)概念质与量的相关指的是当两列变量中一列是按性质不同分类的变量,而另一列是连续变量时,用rb、rpb等公式计算得的相关。(二)种类\n质与量的相关主要包括二列相关、点二列相关、多系列相关三种。1.二列相关(1)二列相关的概念当两列变量都是正态连续性变量,其中一列变量被人为地划分为两类,变成二分变量,用专门的公式或计算得的相关称为二列相关。2.二列相关公式的使用条件(1)两个变量都是连续变量,而且总体呈正态分布或接近于正态分布,至少呈单峰对称分布。(2)两个变量之间是线性关系。(3)二分变量本来是连续变量,不过被人为地分为两类,变成了二分变量,其分界点应比较靠近中值。(4)样本容量应当大于80。2.点二列相关(1)点二列相关的概念当两列变量中一个是正态连续变量,而另一个是真正的二分名义变量,用专门的计算公式计算得的相关,称为点二列相关。(2)二列相关公式的使用条件计算点二列相关系数,要求两列变量中一列是正态连续变量,另一列是真正的二分变量。所谓真正的二分变量指的是该变量的两个类别是截然不同的。3.多系列相关(1)多系列相关的概念当两列变量都是正态连续变量,其中一个被研究者按性质不同人为地分成多个类别(两类以上),变成了正态名义变量,用来表示正态连续变量与正态连续性变量之间相关的统计量,,称为点二列相关。(2)多系列相关系数的计算方法多系列相关系数用专门的公式(详见详见第十一章第四节)计算。五、品质相关(一)概念若两列变量的值都是按性质不同划分成几种类别,那么表示这两列变量之间的相关称为品质相关。(二)种类1.四分相关(1)概念及公式的使用条件当两列变量都是正态连续变量,而且呈直线关系,只是两列变量都被人为地变成二分变量,表示这两列变量之间的相关称为四分相关。(2)四分相关的计算方法计算两列变量之间的四分相关,最常用的方法是皮尔逊提出的余弦p法,有专门的计算公式。2.j相关(1)概念及公式的使用条件当两列变量都是二分变量,不论是真正的二分变量,还是人为的二分变量,都可以用专门的计算公式来计算相关系数。用这个公式计算得的相关系数称为j相关。(2)j相关系数的计算方法也有专门的计算公式3.列联相关(1)概念及公式的使用条件当两列变量中的一列变量或两列变量被分成三个或三个以上类别,用来表示两列变量之间的相关,称为列联相关。(2)列联相关系数的计算方法首先,要用列联表呈现数据;然后用公式C计算列联相关系数。

相关文档