- 65.50 KB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学名词解释第一章绪论1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。3.个体:构成总体的每个基本单元称为个体。4.样本:从总体中抽取的一部分个体,称为总体的一个样本。5.次数:指某一事件在某一类别中出现的数目,又称为频数。6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。7.概率:某一事物或某一情在某一总体中出现的比率。8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。9.参数:又称为总体参数,是描述一个总体情况的统计指标。10.统计量:样本的那些特征值叫做统计量,又称特征值。第二章统计图表1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。5.分组次数分布表的编制步骤:(1)求全距(2)定组距和组数(3)列出分组组距(4)登记次数(5)计算次数6.分组次数分布的意义:(1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。(2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。7.相对次数分布表:用频数比率或百分数来表示次数8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。12\n10.不等距次数分布表:例如工资级别,年龄分组。11.直方图:以矩形面积表示连续性随机变量次数分布的图形,又称等距直方图,没画矩形时的直方图叫组织图。横轴为等距分组点,纵轴为频数。12.次数多边形图:是一种表示连续性随机变量次数分布的线形图。横轴为组中值纵轴为频数。13.累加次数分布图:根据累加次数分布表绘制面成,分为: (1)累加直方图:横轴为等距分组点,纵轴为累加次数 (2)累加曲线:又称递加线,可以连接累加直方图各组矩形右顶点而来。横轴为精确上限或精确下限,纵轴为累加次数。其形状有以下三种:正偏态、负偏态和正态。例如,若一次测验大多数人分数偏低,只有少数人才能得高分,也就是少数人的分数朝向高分一端,分布即为正偏态。14.条形图:主要用于表示离散型数据,用直条长短表示数量的大小。一个轴为分类轴,一个轴为数量轴。区别与直方图:描述数据不同,表示数据的方式不同,标尺分点意义不同,图形形状不同。15.圆形图:也叫饼图,用于表示间断性资料,表示各部分在整体中所占比重大16.线形图(折线图、曲线图):(1)更多用于表示连续数据的函数关系:(2)描述某种现象在时间上的爱展趋势:(3)描述种二种理多变化的。17.散点图:用圆点多少和分布疏密来表示两个变量的相关程度18.茎叶图:当观测数据不是很多时使用,茎代表观测值中位数部分,时代个位数部分。主要优点是既保留了全部原始数据,又呈现出直方图的形式,具有次数分布表与直方图的双重优点。19.箱型图:是一种用作显示一组数据分散情况的统计图,主要包含上边缘,上四分位数,中位数,下四分位数,下边缘,异常值这六个节点。第三章集中量数1、集中趋势:指数据分布中大量数据向某方向集中的程度。2、集中量数:指描述一组数据集中趋势特点的统计量。3、算术平均数:所有观察值的总和除以总频数得到的商,一般简称为平均数或均数、均值。一般用字母M表示,如果是由X变量计算的,就记为,若由Y变量求得,则记为。4、中数:是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。又称中点数,中位数,中值,符号为Md或Mdn。5、众数:指在次数分布中出现频次最多的那个数的数值。又称为范数,密集数,通常数等,常用符号M。。6、加权平均数:指根据每个数据的权重计算的平均数,解决各个平均数求整体平均数之类的问题。7、几何平均数:指成几何级数增长的变量值的平均数,适合于计算平均比率和平均发展速度,又称对数平均数。12\n1、调和平均数:指将各个数据取倒数平均后再取倒数计算得到的平均数,又称倒数平均数。主要用来描述学习速度方面的问题。2、最小平方原理:只有各个变量与平均数之差的平均和为最小,即每个数据与任一常数包括中数或众数之差的平方和都大于每个数据与平均数之差的平方和。第四章差异量数1.差异量数:也称离散量数。就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量。2.百分位数:指量尺上的一个点,自此点以下,包括数据分布中全部数据个数的一定百分比。3.百分等级:利用百分位数的计算公式也可以计算出任意分数在整个分数分布中所处的百分位置,称为该分数的百分等级。4.平均差:是次数分布中所有原始数据与平均数绝对离差的平均值,用A.D.或M.D.表示。5.离均差:表示了每一个观测值与平均数的距离大小,正负号说明了重量施于什么方向,离均差的总和为零,标志着完全平衡。有时简称为离差或偏差。6.方差:也称变异数、均方。作为统计样本量,用符号S²表示,作为总体参数,用符号σ表示。它是每个数据与该组数据平均数之差乘方后的均值即离均差平方后的平均数。7.标准差:即方差的平方根,用s或SD表示,若用σ表示,则是指总体的标准差。8.差异系数:又称变异系数、相对标准差等,它是一种相对差异量,用CV表示,为标准差对平均数的百分比。9.标准分数:又称基分数或Z分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。(12年真题)第五章相关关系1、相关:事物之间的相互关系大致有三种,.因果关系、共变关系和相关关系;统计学中所讲的相关是指具有相关关系的不同现象之间的关系程度,分为正相关、负相关和零相关。2、相关系数:是两列变量间相关程度的数字表现形式,或者说是用来表示相关关系强度的指标。常用r表示样本相关系数,用希腊字母ρ表示总体参数。取值情况为-1.00≦r≦1.00。3、相关分析:相关密切与否的判定在判定相关是否密切时,要把样本量大小与相关系数取值大小综合起来考虑,一般要经过统计检验方能确定变量之间是否存在显著的相关。另外,若是非线性相关关系,而用直线相关计算r值,可能很小,但不能说两变量关系不密切。4、积差相关:简称皮尔逊相关,又称积距相关。人们把离均差乘方之和除以N叫做“距”,把X的离均差和Y的离均差这二者积的总和除以N,用“积距”概念表示。积差相关是运用较为普遍的计算相关系数的方法。5、等级相关:12\n等级相关是以等级次序排列的变量之间的相关,这种相关对变量的总体分布不作要求,故这类相关为非参数相关。1、质量相关:指一列变量为等比或等距的测量变量,另一列变量是按性质划分的变量,求这两个变量之间的直线相关称为质量相关。它主要包括:点二列相关、二列相关、多系列相关。2、点二列相关:如果在两个变量中,一个变量是等比或等距的测量变量且其总体为正态,另一变量为“二分”称名变量(如男女、已婚与未婚等),这两个变量之间的直线相关称做点二列相关。3、二列相关:当两个变量为正态连续变量,其中一个变量被人为地划分为二分变量,这两个变量之间的相关称为二列相关。如测验成绩分为及格与不及格,身体状态分为健康与不健康两类。4、多列相关:两个正态连续变量,其中一个变量被人为地划分成多种类别,如学习成绩被分为优、良、中、差四类,表示这两种变量之间的相关称为多系列相关。5、四分相关:两因素本身都是连续的正态变量,分别为人为划分为两种不同类别,这类四格表大都用于同一个被试样本中,分别调查四个不同因素两项分类的情况第六章概率分布1.概率:随机是指在一定条件下可能出现也可能不出现的,表明随机事件出现可能性大小的客观指标就是概率它是概率论研究的主要内容。概率的定义有两种,即后验概率和先验概率。2.概率的基本性质:(1)任何一个随机事件A的概率都是非负的。(2)在一定条件下必然发生的必然事件的概率为1。(3)在一定条件下必然不发生的时间,即不可能事件的概率为0。3.互不相容事件:指在一次实验和调查中,若事件A发生则事件B就一定不发生,否则二者为相容事件。4.独立事件:指一个事件的出现对另一个事件的出现不发生影响。5.概率分布类型:是指对随机变量取值的概率分布情况用数学方法(函数)进行描述。主要有离散分布与连续分布,经验分布与理论分布,基本随机变量分布与抽样分布。6.〔16年真题〕正态分布:也称常态分布或常态分配,是连续随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。正态分布的特征:(1)正态分布的形式是对称的〔但对称的不一定是正态的〕,它的对称轴是经过平均数点的垂线。正态分布中,平均数,众数,中数三者相等,此点y值最大。(2)正态分布的中央点最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。(3)正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态分布下的面积划分为相等的两部分,即各为0.50。12\n(4)正态分布为一族分布。它随随机变量的平均数,标准差的大小与单位不同而有不同的分布形态。(5)正态分布中各差异量数值相互间有固定比率。(6)在正态分布曲线下,标准差与概率有一定的数量关系。7.二项分布:又叫贝努里分布,是一种具有广泛用途的离散型随机变量的概率分布。具体定义是(次处不太确定):设有n次试验,各次试验都是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q(等于1-p)。需满足以下条件:(1)任何一次实验恰好有两个结果,成功与失败,(2)共有n次试验,并且n是预先给定的任一正整数,(3)每次试验各自独立,各次试验之间无相互影响。(4)某种结果出现的概率在任何一次试验中都是固定的。第七章参数估计1.参数估计:当在研究中以样本获得一组数据后,如何通过这组信息,对总体特征进行估计。也就是如何以局部结果推论总体的情况,称为总体参数估计。2.点估计:是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。3.区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围,它是用数轴上的一段距离表示未知参数可能落入的范围,它虽不具体指出总体参数等于什么,但能指出未知总体参数落入某一区间的概率有多大。(2011年真题)4.置信区间(置信间距):是指在某一位置信度时,总体参数所在的区域距离或区域长度。置信区间的上下二端点值称为置信界限。5.显著性水平:指估计总体参数落在某一区间时,可能犯错误的概率,用α表示。1-α为置信度或置信水平。6.区间估计和假设性检验的关系。2013简答联系:①都是根据样本信息推断总体②都是抽样分布理论为依据,建立在概率论之上的推断区别:①参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立②区间估计求得的是以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验③区间估计立足于大概率,假设检验立足于小概率7.完全随机设计和随机区组设计的关系①完全随机设计和随机区组设计的分组方式不同完全随机设计把被试分为若干组,每组分别接受一种实验处理,有几种处理,就相应地有几组被试,即不同的被试接受不同自变量水平的实验处理;12\n随机区组设计根据被试特点,将被试分为几个区组,再根据自变量水平数在每一个区组内划分若干小区,同一区组接受不同处理,设计原则是同一区组被试应尽量同质,区组间可以异质。②完全随机设计与随机区组设计的设计思想不同完全随机设计为单因素设计,仅考虑处理因素随机区组设计为双因素设计,考虑的因素有两个,一个是处理因素,一个是区组因素8.估计总体平均数的步骤详细请参考p201页第八章假设检验1、差异显著:当两个事物之间出现差异时,有可能是抽样误差,也有可能是实质性的差异,如果经过统计检验发现差异超过了统计学所规定的某一误差限度时,则表示差异已经不属于抽样误差了,统计上将这样的情况称为差异显著,反之即是差异不显著。2、假设检验:在统计学中,通过的样本统计量得出的差异做出一般性结论,判断总体参数之间是否存在差异,这种推论过程称为假设检验。3、假设与假设检验:假设一般专指统计学属于对总体参数所作的假定性说明。在进行任何一项研究时,都需要根据已有的经验和理论先对研究结果作出一种预想的希望证实的假设。这种假设叫科学假设,记作H1,又叫备择假设。由于证实远比证伪困难,在统计学中,不对H1的真实性直接检验,需要建立与其对立的假设,成为虚无假设,记作H0。假设检验的问题就是要判断虚无假设是否正确,因此虚无假设就是统计推论的出发点。注意:备择假设总是要假设对比两者间是有差异的,例如单总体检验样本均值与总体均值是否有差异时,我们的备择假设就是X≠µ,对应备择假设,虚无假设总是假设两者并无差异,即表示为X=µ。4、显著性水平:指的是拒绝虚无假设的小概率值,用α表示。也就是说,如果一件事情发生的概率小于我们设定的这么一个显著性水平,我们就将其归为“小概率事件”,也就是认为它是一件“几乎不可能发生”的事件。5、小概率原理:假设检验的基本思想是概率性质的反证法,基于统计学中广泛采用的小概率原理,该原理认为“小概率事件在一次实验中几乎是不可能发生的”,由此假设检验首先假定虚无假设为真,在虚无假设为真的前提下,若导致了违反常理或不合理的现象出现,则表明“虚无假设为真”的假定错误,必须拒绝虚无假设。而若没有,那就认为“虚无假设为真”是正确的,即要接受虚无假设。6、假设检验中的两类错误(1)I类错误:当H0为真,而按照概率法则,需将落入拒绝区域的假设判定为假,统计学中将这类拒绝H0时所犯的错误,也叫α类错误。(2)II类错误:如果平均值未落入拒绝区域,但按照小概率原理,要接受12\nH0(等距拒绝H1)时,所犯的错误,也叫β类错误。1、差异显著:经过检验,如果所得差异超过了统计学规定的某一误差限度,则表明这个差异已不属于抽样误差,而是总体上确有差异,这种情况叫做差异显著。8、两类错误的关系:(1)α+β不一定等于1;(2)在其他条件不变的情况下,α与β不可能同时减小或增大。(3)统计检验力与两种密切相关。9、影响β错误的因素:II型错误与I型错误不同,影响β值大小的因素主要有三:一、在参数检验中,β依赖于参数的实际值与假设值之间的距离,两者相差越大,β越小;二、α越小,β就越大;三、当α与n固定时,根据研究问题的性质选择适当的检验类型可以减少β10、双侧检验与单侧检验(1)双侧检验:是指推断差异是否存在,而不断言差异的方向。其显著性水平标记为:α=0.05/2或α=0.01/2(2)单侧检验:是研究者根据已有的资料事先能够预料到谁优谁劣,检验只是为了进一步确证而选择的方法。(即是说研究者已经不只能够判断出“有差异”,而且可以判断出“A比B好/优/大/快”的情况下所采用的方法)11、假设检验的基本步骤(1)根据问题要求,提出虚无假设和备择假设(2)选择适当的检验统计量(3)规定显著水平α(4)计算检验统计的值(5)作出决策12、平均数的显著性检验:是对样本平均数与总体平均数之间差异进行的显著性检验。样本类型:分为独立样本和相关样本(1)独立样本:即两个互不相关的样本,往往来自不同总体,即是不同组别间相同性质的比较。(2)相关样本:即两个样本间是存在某些联系的,往往来自同一个总体,即是同一个组内产生的两种不同类别的数据。13、假设检验与参数估计的区别与联系假设检验是当样本统计量超过一定标准时,就说统计显著,是检验两事物差异是否显著的一种方法;而参数估计是要找到总体值所可能落入的可靠范围,是利用样本统计量对总体参数所作的估计。而作为两者的代表性指标——显著性水平和置信水平也是从不同角度回答了相同的问题。第九章方差分析方差分析12\n又称作变异分析,它是斯内德克为了探讨一个因变量和一个或多个自变量之间的关系,1946年根据费舍的早期工作发明的一种检验方法。其主要功能在于分析实验数据中不同来源的变异对总变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响。1.方差分析的适用条件是什么?主要用来检验什么?答:进行方差分析时有一定的条件限制,数据必须满足以下几个基本假定条件,否则由它得出的结论将会产生错误。方差分析的适用条件如下(1)总体正态分布方差分析同Z检验及检验一样,也要求样本必须米自正态分布的总体。在心理与教育研究领域中,大多数变量是可以假定其总体服从正态分布,一般进行方差分析时并不需要去检验总体分布的正态性。当有证据表明总体分布不是正态时,可以将数据做正态转化,或采用非参数检验方法(2)变异的相互独立性总变异可以分解成几个不同来源的部分,这几个部分变异的来源在意义上必须明确,而且彼此要相互独立。(3)各处理内的方差一致在方差分析中用MS作为总体组内方差的估计值,求组内均方MS.时,相当于将各个处理中的样本方差合成,它必须满足的一个前提条件就是,各实验处理内的方差彼此无显著差异。这一假定若不能满足,原则上是不能进行方差分析的。方差分析主要用来检验两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。2.简述方差分析法的步骤答:方差分析法的步骤是(1)和一般的假设检验一样设立零假设和研究假设;(2)根据实验设计的类型确定各变异源,进行相应的平方和分解,即有几个变异源就从总平方和中分解出几个平方和(3)根据平方和分解得到各变异源对应的自由度,即进行总自由度的分解;(4)根据研究的目的和实验设计考虑要检验什么效应,从而将其对应的平方和比上相应的自由度得到该效应的均方,其中误差均方必须计算(5)将各待检验效应的均方比上误差的均方,计算各F统计量(6)将计算来的各F统计量值和F检验的临界值进行比较得出统计结论,其中临界值的分子自由度和分母自由度分别是待检验效应的自由度和误差自由度;(7)如果效应检验结果显著,可以进入事后检验,即对多水平的自变量进行多重比较考察各水平间的具体差异,如果是多因素方差分析,交互作用效应检验显著,也可以进入简单效应检察具体考察交互作用的情况。完全随机设计的方差分析完全随机设计的方差分析,就是对单因素组间设计的方差分析。在这种实验研究设计中,各种处理的分类仅以单个实验变量为基础,因而,把它称为单因素方差分析或单向方差分析。(一)各实验处理组样本容量相同各实验处理组样本容量相同时,对于每一种实验处理而言,它们被重复进行的次数是相同的。这种情况,也称之为“等重复”。(二)各实验处理组样本容量不同这种情况又称作“不等重复”。进行方差分析的过程与“等重复”情况基本相同。12\n(三)利用样本统计量进行方差分析有时欲分析的资料只有各组的X1、s及n等样本特征值,没有原始数据,在这种情况下要进行方差分析,关键在于对方差分析的思想和基本概念的理解,只要对平方和、均方等概念真正理解,进行方差分析比用原始数据进行方差分析还要简单。计算公式依据平方和的定义公式。随机区组设计的方差分析1.随机区组设计的方差分析,就是重复测量设计的方差分析,或称为组内设计的方差分析。随机区组设计指在实验中将实验对象按一定的标准划分为n个区组,使得区组内的实验对象的个别差异尽可能小,即保证区组内的同质性,并使每个区组均接受所有K个处理。且各个区组内每个处理仅有一个观测。其顺序是随机决定的。2.随机区组设计根据被试特点把被试划分为几个区组,再根据实验变量的水平数在每一个区组内划分为若干个小区,同一区组随机接受不同的处理。这类实验设计的原则是同一区组内的被试应尽量“同质”。每一区组内被试的人数分配大致有三种情况:(1)一个被试作为一个区组,这时不同的被试(区组)均需接受全部K个实验处理。每人接受K种实验处理的顺序不同所产生的误差,应该用一定的方法加以平衡。(2)每一区组内被试的人数是实验处理数的整数倍。(3)区组内的基本单位不是个别被试,而是以一个团体为单位。总之,对于每一区组而言,它应该接受全部实验处理;对于每种实验处理而言,它在不同的区组中重复的次数应该相同。3.随机区组设计由于同一区组接受所有实验处理,使实验处理之间有相关,因此又称之为相关组设计,或称被试内设计。与完全随机设计相比,其最大优点是考虑到个别差异的影响。这种由于被试之间性质不同导致产生的差异就称为区组效应。随机区组设计可以将这种影响从组内变异中分离出来,从而提高效率。但是这种设计也有不足,主要表现为划分区组困难,如果不能保证同一区组内尽量同质,则有出现更大误差的可能。事后检验一般来说,方差分析的主要目的是通过F检验讨论组间变异在总变异中的作用,借以对两组以上的平均数进行差异检验,得到一个整体性的检验结果。如果F检验的结果表明差异不显著,说明实验中的自变量对因变量没有显著影响。相反,如果方差分析F检验的结果表明差异显著,拒绝了虚无假设,就表明几个实验处理组的两两比较中至少有一对平均数间的差异达到了显著水平,至于是哪一对,方差分析并没有回答。虚无假设被拒绝的结果旦出现,就必须对各实验处理组的多对平均数进一步分析,做深入比较,判断究竟是哪一对或哪几对的差异显著,哪几对不显著,确定两变量关系的本质,这就是事后检验。这个统计分析过程也被称作事后多重比较。为什么不能用t检验对多个平均数的差异进行比较同时比较的平均数越多,其中差异较大的一对所得t值超过原定临界值L。的概率就越大,这时α12\n错误的概率将明显增加,或者说本来达不到显著性水平的差异就很容易被说成是显著了,这时用t检验就不适宜。比如要比较3个总体平均数之间的差异,如果用t检验就需要比较3(C3)次,假如每次比较的置信区间为95%,那么3次比较后检验的可靠性就降低为0.95=0.857。目前,关于多重比较的方法有多种:如Sche检验法、Newman-Keuls检验法、Dun-can的多距检验法,Tukey的可靠显著差异法、费舍的最小显著差异法等方法。第十章卡方检验1.卡方检验方法:能处理一个因素两项或者多项分类的实际观察频数与理论频数分布是否相一致问题,或说有无显著差异问题。2.实际频数:简称实计数或实际数,是指在实验或调查中得到的计数资料,又称为观察频数。3.理论次数:是指根据概率原理、某种理论、某种理论次数分布或经验次数分布计算出来的次数,又称为期望次数。4.配合度检验:主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,这种卡方检验有时也称无差假说检验。当对连续数据的正太性进行检验时,这种检验又可称为正太吻合性检验。5.独立性检验:用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立性的问题。6.同质性检验:主要目的在于检定不同人群母体总体在某一个变量的反应是否具有显著差异。7.期望次数:虚无假设成立时的数值。8.配合度检验:主要用于检验单一变量的实际观察次数分布与某理论次数是否有差别。9.独立性检验:主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。10.同质性检验:在教育与心理研究中,经常要分析几种因素之间是否真有实质上的差异,或者判断几次重复实验的结果是否同质,这类问题的卡方检验称为同质性检验。11.卡方检验用途:主要用来处理某随机变量是否服从某种特定分布、两个样本的总体分布是否一致、变量之间是否存在关联性以及总体分布位置差异检验等问题。它也能同时检验一个因素两项或多项分类的实际观察数与某理论次数分布是否相致的问题,或说有无显著差异问题,即检验样本观测次数(或百分比)与理论或总体次数(或百分比)的差异性。理论次数的计算是卡方检验运算过程中的关键。第十一章非参数检验1.什么是非参数检验?非参数检验是对总体数据分布形态未知,研究资料大多数为分类数据的数据分析。2.非参数检验常用的统计方法有哪些?1.秩和检验法。秩和就是数据等级之和。它是一种建立在秩和基础上的非参数方法,用于两个独立样本的检验。2.中数检验法。用于两个独立样本组之间的非参数检验。3.符号检验法。12\n最为简单、直观,它不要求知道被检验总体的分布规律,仅仅依据某种特定的正负号数目多少对总体的、中位数进行判断和检验。这种方法在单样本和两样本检验中均可采用。尤其是对实际中难以用数值确切表达的问题十分有效。1.等级方差分析。用于多组数据的非参数检验。第十二章线性回归1.回归分析:通过大量的观测发现变量之间存在的统计规律性,并用一定的数学模型表示变量相关关系的方法。当只有一个自变量并且统计量成一次函数的线性关系的回归分析叫一元线性回归分析。2.最小二乘法:就是如果散点图中每一点沿Y轴方向到直线的距离的平方和最小,简单讲就是使误差的平方和最小,则认为这条直线的代表性最好,它的表达式就是所要求的回归方程。3.决定系数:指r方,表示回归平方和在总平方和中所占的比例,即回归引起的变异在总变异中所占的比例。第十三章多变量统计分析简介1.(2015真题)因素分析:是一种多变量统计分析方法,它将彼此高度相关而又于别的变量相对独立的一组变量聚合成群,称之为“因素”。因素分析的基本思想是,根据相关性大小把变量分组,使得同组内的变量间相关较高,不同组变量间相关较低;每组变量代表一个基本结构,即因素。其目的是识别少数几个因子,因子表示并解释多个相关变量之间的关系,从而减少变量数目,简化复杂的数据结构。2.多重线性回归:在回归分析中,如果对两个或两个以上的自变量对因变量影响现象进行分析,这就叫做多重回归。3.最优方程选择法:即从所有可能的自变量组合建立的回归方程中选择最优的。4.同时多重回归法:将所有的预测变量同时纳入回归方程中估计因变量。5.强制进入法:在某一显著水平下,不考虑预测变量间的关系,把对因变量具有解释力的所有预测变量纳入回归方程式,计算所有变量的回归系数。6.强制淘汰法:在某一显著水平下,不考虑预测变量间的关系,将对因变量没有解释力的所有预测变量,一次性全部排除在回归方程之外,再计算保留在回归方程式中的所有预测变量的回归系数。7.逐步多重回归发:依据预测变量解释力的大小,逐步检查每一个预测变量对因变量的影响。8.层次多重回归法:先将人口变量用强迫进入法进行回归分析,计算回归系数,其次再将情意变量以逐步分析法计算自尊、焦虑感各自的预测力,完成对因变量的回归分析,这种方法称为层次多重回归法。9.因子分析:12\n是处理多变量数据的一种统计方法,它可以解释多变量之间的关系,其主要目的是从为数众多的可观测的变量中概括和综合出少数几个因子,用较少的因子变量来最大程度地概括和解释原有的观测信息,从而建立起简洁的概念系统,揭示出事物之间的本质关系。(斯皮尔曼【英】)第十四章抽样原理及方法1.整体抽样:整群抽样又称集体抽样,是指从总体单位中成批(组)抽取样本,而不是一个一个地从总体中抽取样本。整群抽样可采用随机抽样法,而更多的是采用等距抽样法。整体抽样的优点是便于组织,节省经费,容易控制调查质量。它的缺点是:一般来说,由于各群间的差异比较大,所以其抽样误差要比简单随机抽样、系统抽样和分层抽样的误差要大一些。2.分层抽样:分层抽样又称分类抽样或类型抽样,是先将总体按某种特征分为若干部分(层),然后再从每一层内进行随机抽样或机械抽样,组成一个样本的方法,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减少了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。3.简单随机抽样将抽样范围中每个人或每个抽样单位编号,随机选择,以避免由于标记、姓名或其他社会赞许性偏见而造成抽样误差,或者按随机数码表选择被试作为样本,每个人或抽样单位都有相同的机会作为常模团体中的一部分。4.等距抽样(机械抽样)指以被试的某些与所测特质无关的特性,将被试按照一定的顺序排列,研究者确定一个随机的起点,如果从总体中抽取1/k的被试,那么列表中的第k个就成为样本组成中的被试,如果在到达时仍不够预定的样本样组容量,只需简单地到列表前面继续选取,直到第k个被试便可。12