• 285.00 KB
  • 2022-09-01 发布

《心理统计学》总复习要点[]

  • 28页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
《心理统计学》总复习要点第一章、第二章基本概念及次数分布表第一节基本概念一、基本概念1.连续变量与离散变量(不连续变量) 变量分为连续变量与离散变量(不连续变量)。连续变量则可以在量表上的任何两点加以细分,可以取得无限多个大小不同的数值。不连续变量又称离散变量或间断变量,则在量表上的任何两点中只能取得有限个数值。是一种只能取特殊值而不能取任何值的变量,它代表一个点,而不是一段距离。2.总体、样本、个体总体是指具有某一种特征的一类事物的全体,构成总体的每一个基本元素称为个体,在总体中按一定规则抽取的一部分个体,称为总体的一个样本。二、测量水平心理测量的工具一般可以分为四种水平,它们是由测量工具——量尺的水平决定的,量尺也称为尺度。 (一)量尺(RatioMeasurement)用这样的量尺测量出的数据,可以进行加、减、乘和除运算。这种测量水平的数据特征是有相等单位和绝对零点。用这种量尺测量得到的数据变量为比率(或等比)变量。(二)等距量尺(IntervalMeasurement) 只有相等单位,没有绝对零点,这种测量工具称为等距量尺。等距量尺测出的数据可以进行加和减的运算,而不能进行乘和除的运算。但是,等距数据的差值可以进行乘、除运算,因为等距数据的差值有一个绝对零点,两个数值相等,差值即为零。用这种量尺测量得到的数据变量为等距变量。(三)顺序量尺(OrdinalMeasurement) 顺序量尺又叫等级量尺,它的特点是:既无绝对零点,又无相等单位。用这种量尺对研究对象进行测量,只能给对象排个顺序。顺序量尺的测量结果原则上不能进行加、减、乘、除四则运算。如有必要的话,只能进行不等式运算。用这种量尺测量得到的数据变量为顺序变量。(四)分类量尺(NominalMeasurement)分类测量不包含任何类间数量关系的假定,仅仅是把测量对象分为相同或相异,但在性质上没有哪一类较大,哪一类较小之分。即无大小之分,也无等级之分。分类标准称为分类量尺。用这种量尺得到的数据变量为分类(或名义)变量。三、常见数据的特点(一)数据分类与特点1.计数数据28/28\n(1)概念:是指计算个数的数据。(2)特点:是非连续的离散数据。它的统计方法具有独特性。2.测量数据测量数据是指借助于一定测量工具或依据一定测量标准所获得的数据。(1)等比数据:指具有测量的绝对零点,又有相等单位的测量数据。(2)等距数据:指没有测量的绝对零点,只有相等单位的测量数据。(3)等级数据:是指只依据数据的大小、高低、快慢等属性排出顺序的数据。 3.数据特点(1)随机性教育与心理研究中的数据具有随机性,即在相同的实验条件下,或同一个人对同一个刺激的反应事先无法确定,具有偶然性,而且观测到的数据不止一个,是随机波动的。(2)离散性教育与心理研究中的每一个数据都是离散的,并不连续。即在相同的实验条件下,或对同一个刺激,不同人的反应是不同的,数据分散。(3)变异性数据的变异性是指数据的波动有一定的规律,在一定范围内波动。因此波动是可以预测的。四、统计图(一)条形图(BarCharts)它主要用于表示离散性变量的统计事项。条形图用宽度相同的长条的长短表示各事物间数量的大小与数量之间的差异。(二)圆形图(PieCharts)又称作饼图。适用于间断性的数据资料,它以单位圆内各扇形面积所占整个圆形面积的百分比来表示各统计事项在其总体中所占相应比例的一种图示方法。(三)线形图(Line)线形图是以起伏的折线来表示某种事物的发展变化及演变趋势的统计图。适用于连续性资料。(四)直方图(Histogram)直方图是表示连续性资料的频数分配,它是以各组上下限上矩形的面积表示频数分配的一种条形图,是统计学中常用而又有特殊意义的一种统计图。(五)散点图(Scatter)又称点图,散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。散点图适合于描述二元变量的观测数据。第三节次数分布表与次数分布图所谓次数分布,指的是一批数据中各个不同数值所出现的次数情况,或者是指一批数据在量尺上各等距区组内所出现的次数情况。对数据进行分组归类,考察数据在量尺上各等距区组内的次数分布情况,并把这种情况用规范的表格形式加以体现,则为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。若用图形来表达,那就叫做次数分布图。一、次数分布表(一)次数分布表的编制步骤1.求全距(Range)(或两极差) 28/28\n全距指在一批数据中最大数与最小数之间的差距,用符号R表示,计算公式为: R=Max-Min 2.定组数定组数就是要确定一下把整批数据划分为多少个等距的区组,用符号K表示,它的大小要看数据的多少而定。如果数据来自正态总体,则可利用下述经验公式来确定组数:K=1.87(N一l)2/5上述公式中的N为数据个数。3.定组距组距用符号i表示,其一般原则是取奇数或5的倍数:i=R/K4.列出分组区间(组限)组限是每个组的起始点界限。要求是:(1)高区间内包含最大值,最低区间包含最小值。(2)最高组和最低组的下限最好是组距的整倍数。5.求组中值组中值是各组上下限的中点的数值,其计算公式为组中值=(组实上限十组实下限)/26.登记频数 设计一个表的格式来记录上述有关结果并对数据进行归类划记。(二)相对次数(频数)和百分次数分布表相对次数就是各组的次数f与总次数N之间的比值,若以Rf表示相对次数,则Rf=f/N相对(频数)分布表包括:组别,组中值,频数。相对次数是一个小数,如果将每个相对次数乘以百分之百,就可以得到相对应的百分次数。相对次数分布表的用途:相对次数分布表主要能反映各组数据的百分比结构。(三)实际累积次数分布表(Cumulative)累计次数分布表分为实际累积次数分布表和相对累积次数分布表。实际累积次数分布表又分为上限以下实际累积次数分布表和下限以上实际累积次数分布表。(1)上限以下实际累积次数分布表从简单次数分布表的第一组逐项向上累加,得出每一组的累加值,一直加到最高一组,就构成一个累积次数分布表。(2)下限以上实际累积次数分布表方法同上限以下累积次数分布表,但方向相反。(四)、相对累积次数分布表累积相对次数是对相对次数进行累积的结果。相对累积次数分布表也分为上限以下相对累积次数分布表和下限以上相对累积次数分布表。1.上限以下相对累积次数分布表上限以下相对累积次数分布表是从最低组往最高组的方向依次把有关各组的相对次数进行累加的结果。2.下限以上相对累积次数分布表下限以上相对累积次数分布表是28/28\n从最高组往最低组的方向依次把有关各组的相对次数进行累加的结果。二、次数分布图1.次数直方图2.次数多边图3.累积次数直方图4.累加次数曲线5.相对累加次数曲线第三章集中趋势的度量第一节集中量数一组数据常用两类统计量来表现数据的特征。一类是表现数据的集中性质或集中程度;另一类是表现的数据离散性质或离散程度。(1)集中性质数据的集中趋势的度量是指用一组数据的中心位置来度量一组数据的集中趋势,或是描述它们的中心位于何处。描述数据集中情况的统计量有多种,包括算术平均数、中数、众数、几何平均数、调和平均数、加权平均数等。(2)离散性质离散性反映一组数据的分散程度,即次数分布的离散程度。对其数量化描述称为次数分布变异特性的度量或差异量数。中心位置相同的次数分布,其离散程度不一定相同。一、算术平均数(Mean)算术平均数简称为平均数,也称其为均数或均值,常用字母u或X表示。算术平均数是用以度量连续变量次数分布的集中趋势的最常用的集中量数。它是“真值”渐近、最佳的估计值。公式:算术平均数的性质: 1.在一组数据中每个变量与平均数之差(称为离均差)的总和等于0。Sxi=0。2.在一组数据中,每一个数都加上一常数C,则所得的平均数为原来的平均数加常数C: S(Xi十C)=X十C N3.在一组数据中,每一个数都乘以一个常数C,则所得的平均数为原来的平均数乘以常数C:S(Xi·C)=CSXi=C·XNN(二)加权平均数加权平均数计算公式为:Mw=W1X1+W2X2+……+WnXn=SWiXiW1+W2+……+WnSWi式中:Wi为权重,所谓权数是指各变量在构成总体中的相对重要性。 28/28\n(三)几何平均数(Geometricmean) 几何平均数符号记作Mg。有时又称作对数平均数。 1.几何平均数的应用条件当处理的数据有以下几种情形时,一般用几何平均数来表示数据的集中趋势:(1)一组数据中任何两个相邻数据之比接近于常数,即数据按一定的比例关系变化。例如,在教育与心理研究中,求平均增长率;(2)当一组数据中存在极端数据,分布呈偏态时,算术平均数不能很好地反映数据的典型情况;(3)对心理学中的等距与等比量表实验的数据处理均可使用几何平平均数或其他集中量数(如中数、众数)来反映数据的典型情况。2.几何平均数的基本公式Mg=nÖX1·X2……Xn式中:n——数据个数;X1——数据变量的值3.在计算上常使用对数方法: lgMg=(lgX1+lgX2+……+lgXn)=SlgXiNN 因此,几何平均数又叫对数平均数。 4.几何平均数在教育与心理研究中的应用 (1)等距与等比量表实验的数据处理(2)教育与心理研究中平均增长率的计算一组数据如果彼此之间变异较大,几乎是按一定比例关系变化,如教育经费的增加,学习、阅读的进步,学校招生人数的增加等,一般要求的不是平均数,而是增长率,这就需要用几何平均数计算平均比率,而不用算术平均数。(四)调和平均数(HarmonicMean)调和平均数用符号Mh表示。它的计算公式是: 公式中:N为数据的个数;Xi为变量值,随实验研究设计不同其含义不同。因在计算中先将各数据取倒数平均,然后再取倒数,故又称倒数平均数。在研究学习速度的实验设计中,一般常取两种形式:1.学习任务的工作量相同而所用时间不等2.学习任务的时间相同而工作量不等二、中数(Median)中数又称中点数,中位数,简写为Md,或Mdn。28/28\n首先把数据资料从大到小排成序列,位于中间位置的那个数据的测量值即为中数。也就是说,如果将数据依大小顺序排列,中数恰于中间,它将数据的数目分成较大的一半和较小的一半。(一)单列数目的情况单列数目的情况是指,在一组数列中,每个数只有一个,即没有重复数。求中数步骤:(1)如果数据未排序,先进行排序; (2)按数据总数的奇偶,分别按下列方法求。 1.奇数目求中数的方法当数据总数为奇数时,第(N+l)/2的那个数据的值即为中数。2.偶数目求中数的方法当数据总数为偶数时,则取序列为第N/2与第N/2+1这两个数据的均数为中数。即将第N/2的数和第N/2+1的数据的值相加,然后将它们的和除以2,所得数值即为中数。(二)重复数目的情况重复数目是指一组数据中有数值相同的数。计算中数的方法基本同单列数目,但当位于中间的那几个数是重复数目时,求中数的方法就比较复杂了。具体算法如下:1.重复数目情况下奇数目求中数的方法(1)重复数目不在中间位置方法同数据总数为奇数的求法,即第(N+l)/2的那个数据的值即为中数。(2)几个连续重复数目在中间位置取序列中上下各N/2那一点上的数值为中数。2.重复数目情况下偶数目求中数的方法如果数据个数是偶数,作法也同奇数基本相同。中数是将整个数据的个数分作大的一半和小的一半,而不是将数据的值分作相等的两部分,即是个数的中数,而不是数值的中数。 (三)次数分布表求中数的方法将原始数据整理成次数分布表后,求中数的方法同重复数目求中数是一样的,也是取序列中将N平分为两半的那一点的值作为中数。其具体步骤如下: 第一步:求N/2,并找到N/2所在的分组区间;第二步:求含有中数那一区间以下各区间的次数和(即中数区间下限以下的累加次数)记作Fb;第三步:求N/2与Fb之差;第四步:求序列为第N/2那一点的值。求中数的公式可整理如下:Md=Lb+N/2-Fbfmd同理,用精确上限计算可写出下式:Md=La+N/2-FaFmd式中:La——为中数所在分组区间的精确上限;Fa——为该组以上各组的累加次数;i——为组距。(四)中数的意义与应用28/28\n1.优点:从中数的计算可以看出优点有以下几点:(1)计算简单,客观(2)不受极端数据的影响2.缺点:中数也有些不足:(1)反应不够灵敏(2)中数的数值不稳定(3)中数不能进一步再做代数运算(4)中数不能普遍应用在一般情况下,中数只是在以下几种特殊情况时,才应用。这些特殊情况是:a.观测结果的两端出现极端数b.次数分布中的两端数据或个别数据不清楚c.当作数据集中趋势的快速估计值三、众数(Mode) 众数又称为范数,密集数,通常数等。常用符号Mo表示。众数是指在一组数据中出现次数最多的数值,或次数分布中出现次数最多的那个数的数值。(一)直接观察求众数直接观察求众数的方法很简单,通过观察找出出现次数最多的数据就是众数。(二)用公式求众数众数可用公式计算,称为数理众数。1.皮尔逊的经验法当数据分布接近正态的情况下可应用此种方法。众数计算公式:Mo=3Md-2X式中:Md——中数;X——平均数。用皮尔逊的经验法计算的众数,只能作为一个近似值,它不受次数分布的影响。2.金氏(W.I·King)插补法M。=Lb+faifa+fb式中:Lb——为含众数这一区间的精确下限;fa——为众数所在组的高一个分组区间的次数;fb——为众数所在组的低一个分组区间的次数。 i——为组距。 当fa=fb时,则M。=Lb+1/2·i,即次数最多那一分组区间的组中值。 金氏(W.I·King)插补法公式即适合次数分布比较偏斜的情况,也适用比较接近正态分布的情况。上述两个公式所求得的众数略有出入。均为近似值。3.众数的意义和应用众数反映了一组数据中,哪种数据值最多。在某些情况下有一定意义。(1)众数可作集中趋势的快速估计值(2)数据同质性不好时,可求众数(3)数据中有极大或极小的情况(4)用平均数与众数之差估计次数分布的形态4.众数的不足之处(1)不稳定,受分组的影响28/28\n(2)反应不够灵敏(3)数值不精确,不能作进一步的代数运算(4)总数乘以众数与数据总数不相等四、平均数、中数、众数之间的关系和比较1.平均数、中数、众数之间的关系在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三点重合,即M=Md=Mo。在正偏态分布中:M>Md>Mo在负偏态分布中:Mq的偏斜方向相反。P与q的值相差越大,偏斜程度也越大,随着n的逐渐加大,偏斜程度也逐渐降低,分布形式逐渐对称。当n足够大时,二项分布接近于正态分布。一般规定:当pq,且np³5(或nq³5)时,可用正态分布概率作为近似值。4.二项分布的平均数和标准差(1)公式当二项分布满足pq),np³5(nq³5)条件时,二项分布接近正态分布,此时,二项分布中X变量的均值m(成功数的平均数)和标准差s(成功数的标准差)分别为:m=np式中:n为独立试验次数p为成功事件的概率,q=1-p5.二项分布的应用二项分布主要用于实验结果可能是由于猜测而造成的含有机遇性质的问题。三、小结1.二项式定理28/28\n二项分布的数学基础来自二项式定理,而二项式定理的展开式则为概率和排列组合表达式。2.二项分布二项分布是一种离散型随机变量分布,也是一种基本随机变量分布。数据变量是独立取值,按数据特征划分。二项分布描述的是性质不同的两个群体的概率分布,每个变量都可归于两个不同性质中的一个,它们之间是对立的,因而二项分布又可说是两个对立事件的概率分布。利用二项式定理可求某一点的概率(二项式的某一项),也可求某一段区间的概率(二项式定理展开式的某一段)。3.二项分布的平均数和标准差当p>q,orp0时,为正偏态分布(positivelyskeweddistribution);当SK<0时,为负偏态分布(negativelyskeweddistribution)(2)偏度系数当样本数目N>200时,偏度系数g1才较为可靠。g1值的解释:当g1=0时,为正态分布;当g1>0时,为正偏态;当g1<0时,为负偏态。2.峰度量数(Kurtosis)(1)峰态量数式中:Pl-Ph为百分位数。由上式求得正态峰的量数为0.263。当Ku=0.263时,为正态峰(mesokurtic);当Ku<0.263时,呈尖峰态;当Ku>0.263时,呈低峰态。(2)峰态系数当N>1000时,g2值才较为可靠。g2值的解释:当g2=0时,为正态峰;当g2>0时,为尖峰态;当g2<0时,为低峰态。28/28\n五、正态分布理论的应用1、化等级评定为等距数据一般评定的标准是不等距的,不能对其进行代数四则运算。通常的做法是用正态分布理论将等级分数化为等距分数。(1)求解步骤:首先,求出每个被试所评定的等级在坐标上的位置;然后,找出代表各等级位置的标准分数。这种化等级数据为等距数据的方法有很大的实用价值,特别当评价人员的评价标准很难统一掌握时,更需要先进行等距转换,然后再综合各人的评价。(3)从等级评定数据转换为等距数据的条件1.测量变量要符合正态分布,样本要足够大;2.样本是随机的,不能有偶然性;3.评定过程是稳定的。(4)从等级到等距转换的步骤:1.统计每级的次数;2.算出百分数或比例数;3.画出图,求出心目中的标准差;4.求Z,P值,各人心目中的分数;5.将等级评定数据转化为等距的Z分数。2、测验题目难度的确定题目难度的确定:一份试卷经过试测,根据每题的正确回答率查出相应的标准分数值(Z值),就确定了各题的难度,这难度指标是根据正态分布理论,以客观测量结果为基础确定的,因此是比较客观和准确的,根据各题所对应的Z值,再确定每题的分数值,用于正式测验,测量效果要准确得多。一般来说,人的能力是正态分布的,因此这种确定题目难度的方法可以适用于任何学科,它是解决教育测验分数等值性的较好方法。举例说明正态分布数值表题号P(正确率)查表Z195%0.451.65290%0.401.28385%0.351.04由P查表得Z值。3、在能力分组或等级评定时确定人数在心理测量中,一类实验是根据测验成绩将被试按不同能力分组;再有,在进行等级评定时,也需按不同等级将参加的人数进行分组。分组的要求是按照等距的尺度来进行分组,即各组之间的能力或等级之差是相等的。根据正态分布理论来确定各组或各等级的人数,使分组或评定等级构成等距尺度。方法如下:28/28\n(1)用6个标准差(±3s含盖了99.7%的数据,近似为全部数据)除以分组或等级的数目,即6s÷组数=各组应占的标准差数;(2)查正态表,从Z求P,即求出各组或各等级在等距情况下的比率;(3)将各比率乘以参加分组的总人数,得到各组应有的人数。4、若考试成绩服从正态分布,确定录取分数线和考生人数(1)确定录取分数线解题:进行Z分数转换:Z=(X-m)/S求P{Z³Z1}查表得P值再由P查表得Z值确定录取分数线:X=m+Z×S(2)确定特定分数线内的考生人数解题步骤:由X求Z=(X-m)/S求P值:如P{(X-m)/S>Z}查表得P值考生人数=P×N5、化原始分数为标准分数(1)化原始分数为标准分数标准分数(用Z表示)是将原始分数与平均数的差距以标准差为单位来表示。I.公式II.标准分数Z有如下一些性质:(1)标准分数Z是以平均值为0和标准差为1的量表来表示的;(2)Z分数的绝对值表示原始分数与分布的平均值距离的大小,Z分数的正负符号表示原始分数是在平均值之上还是在平均值之下;(3)Z分数是以等距量表表示的,可以进行一般的四则运算;(4)将原始分数化为标准分数是线性变换,因此Z分数的分布形状与原始分数的分布形状相似。如果原始分数服从正态分布,Z分数服从标准正态分布。(2)将原始分数转换为离差智商大部分Z分数都是非整数,在进一步计算时很不方便。为了去掉小数点和负值,通常将Z分数转换成另一量表,如在智力测验中,一般将原始分数转化为平均值为100,标准差为15的标准分数,这种标准分数称为离差智商。令Z'为新量表分,则转换公式为:Z'=100+15Z转换步骤:A.将原始分数转换成Z分数;B.将Z分数代入Z’公式。28/28\n(3)T分数与测验分数的正态化将Z分数转化为其他标准分数也是可以的。如在有些心理测验中,先将原始分数转化为标准分数,再转化为平均值为50,标准差为10的量表分数,即T分数的转化公式为:Z'=50+1OZ4、根据正态分布理论解决二项分布的问题一般当n很大,且P和q近似相等时,二项分布近似于正态分布。可以根据正态分布理论解决独立试验序列概型问题。如果p很小或很大,即使n较大,用正态分布作为二项分布的近似也会有较大的误差。当np<5或nq<5时,不能用正态分布作为二项分布的近似,这种情况下二项分布实际上近似于泊松分布。当np>10且nq>10时,用正态分布作为二项分布的近似比较适合。第六节样本分布(SamplingDistribution)心理研究的最终目的是要通过对样本的分析得到样本的统计量,如样本平均数,方差及标准差等,从而对总体进行推论。这个前提是必须了解样本统计量的分布规律。样本统计量的分布简称样本分布,是指包括样本平均数的均值,方差和标准差的分布等。样本分布是推论统计的依据。一、样本平均数的分布(SamplingDistributionoftheMean)从一个总体中每次随机抽取容量为n的样本后再将其放回,假设共抽取了M个样本,于是可以获得M个样本的均值,分别记为:这M个样本平均值组成的分布,就称为样本平均数的分布。1.总体是正态分布,且总体方差已知,样本平均数的均值,标准差和方差公式样本平均数X的均值mx,X的方差s2x和X的标准差sx为:样本均值X的分布与原变量X的分布的关系:如果X~N(m,s2),则样本平均值X也是服从正态分布:28/28\n适宜大样本:sx=sÖ(N-n)/n(N-1)二、标准误和中心极限定理(StandardErrorandCentralLimitTheorem)1.标准误(总体标准差s已知)(StandardErroroftheMean,SE)为了将统计量样本分布的标准差与其他标准差加以区别,称统计量样本分布的标准差为标准误。平均值的标准差称为平均值的标准误或平均数的标准误。标准误一般用SE(Standarderror)表示,样本平均数X的标准误可记为SEx。可写为SEx=s/Ön2.中心极限定理(CentralLimitTheorem,CLT)中心极限定理:如果X的分布具有平均数m和标准差s,当样本容量n趋于无穷大时,样本平均数X将趋于具有平均数m和标准差s/Ön的正态分布。其公式:换句话说,不管X为何种形式的分布,n愈大,样本平均数X愈近似地服从正态分布。3.总体方差s2未知,样本平均数的标准误公式当样本容量n足够大时,用S代替s计算X的标准误SEx,其公式为:SEx=S/Ön二、t分布(tdistribution)1、t分布的提出及公式(1)公式S=ÖSx2/Nt分布:当n®¥时,t分布是正态分布;当n>30时,t分布接近正态分布;当n<30时,t分布和正态分布相差较大。T分布是一个左右对称,中间狭窄,中心低于正态分布,二端上翘,随样本容量n-1变化而变化的一簇分布。3、t分布的特点与正态分布的区别(1)t分布与正态分布的相似之处28/28\n两个分布均为单峰对称分布曲线,平均数位于分布曲线的中央,在这点上形成概率密度的峰值,从中央向两侧,分布曲线的高度逐渐降低,尾部无限延长,以坐标横轴为渐近线,但终不与横轴相交,曲线下所包容的总面积为1,表示概率总和为1,t分布的平均值为0,t分布左侧为负值,右侧为正值,方向与Z分布相同。(2)t分布概率密度曲线的形状与样本容量有关,而与原来随机变量的均值m和方差s2无关当n-1®¥,方差为1,t分布曲线与正态分布曲线完全重合;当n-1>30,方差大于1,t分布曲线随n-1增大而趋近1;当n-1<30,离散程度更大,中间部分低于正态分布,两端向上弯曲。4、t分布的适用条件1.总体分布为正态,总体方差s2未知,样本容量n<30时,样本平均数的分布为t分布。样本平均数分布的标准差Sx(即标准误SEx)与样本本身的标准差S的关系为:2.总体分布为非正态,总体方差s2未知标准误的计算公式同上式。三、c2分布(c2distribution)1、c2分布的直观意义 当样本容量n-1®¥,S2分布趋于正态分布;当n比较小时,S2的分布与正态分布有较大的差异。2、c2分布的定义和公式(1)定义c2分布是一种连续的偏态分布,自由度越小,偏差越厉害。无限多个容量为n的随机变量的平方和SX2i,或Z分数的平方和SZ2=S(X-m)2/s2的分布,服从c2分布。(2)公式a.总体平均值m已知如果X服从总体平均值为m和方差为s2的正态分布,那么下式则服从c2分布: c2=S(Xi-m)2/s2或c2=SX2i这时c2分布的自由度为df=n。b.总体平均值m未知如果正态总体的平均数m未知,若用样本平均数X作为m的估计值时,其公式为: 这时c2分布的自由度为df=n-1。3、c2分布的特点 (1)c2分布是一个正偏态分布,分布曲线的形状随样本容量n(或自由度df)的变化而改变。df越小,分布越偏斜;当df=4时,开始接近正态分布;当df®¥时,c2分布为正态分布。28/28\n可见c2分布是一簇分布,正态分布是其中一特例。(2)c2值都是正值,无负值,曲线下的总面积为1;(3)c2分布之和仍为c2分布,即c2具有可加性; Sc2i=c21+c22+····,+c2k 遵从df=Sdfi=df1+df2+…+dfk的c2分布。 (4)c2分布的平均值与方差如果df>2,这时c2分布的平均值和方差与自由度的关系为: 平均数:m2c=df 方差:s2c=2df (5)c2分布是连续型分布,但有些离散型的分布也近似c2分布,如计数数据的分布。 4、c2分布的适用条件在小样本条件下,对总体方差s2置信区间的估计以及解决各种较小样本关于总体方差的统计推论问题。四、F分布1、F分布的意义F分布也是一种正偏态分布,这点与c2分布有点相似。F分布有2个自由度,其统计量F值是2个样本方差的比值,因此它的分布受2个样本容量n1和n2的影响。2.F分布的公式3.F分布的特点(1)F分布是一个正偏态分布,分布曲线受分子和分母自由度的影响,(2)F分布是一族分布,随df1和df2的增加而渐趋于正态分布;(3)F分布是两个样本方差之比,故F值总为正值。4.F分布的适用条件用于检验2个总体方差是否相等。小结:1.正态分布2.二项分布3.样本平均数分布4.t分布5.c2分布6.F分布概率曲线分布3要素:分布类型,适用资料,公式。28/28

相关文档