- 556.02 KB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
生物统计学复习提纲(2008)第1章统计学的基本概念总体:根据研究目的确定的同质研究对象的全体(集合)。样本:从总体中随机抽取的部分观察单位。根据观察数据之间有无缝隙(gap),常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类。参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为,为参数附近波动的随机变量。第2章统计描述①集中趋势(centraltendency):变量值集中位置,即平均水平指标。常用描述集中趋势的统计量有:1.算术均数(arithmeticmean),简称均数(mean)2.几何均数(geometricmean),适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如增长速度、抗体滴度资料3.中位数(median),反映一批观察值在位次上的平均水平。4.众数(mode),适用于大样本;较粗糙。5.调和均数(harmonicmean),反映变量不同阶段的平均增长率或平均规模。几种平均数之间的关系算术平均数>几何平均数>调和平均数②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况,即个体观察值的变异程度。常用的变异指标有:1.极差(Range)(全距)。2.百分位数与四分位数间距PercentileandQuartilerange。上面两个指标没有考虑到每个观察值的变异。3.方差Variance:也称均方差(meansquaredeviation),观察值的离均差平方和的均值。总体和样本的方差分别记为σ2,S2。4.标准差StandardDeviation:方差的正平方根;其单位与原变量X的单位相同。总体和样本的方差分别记为σ,S。5.变异系数CoefficientofVariation:。6.标准误(standarderror,SE):样本均数的标准差,记为。可用于衡量抽样误差的大小。样本标准误与总体标准差σ有如下关系:描述一组数值变量资料的分布特征时,对于正态分布,应选用算术平均数和标准差,对于偏态分布应选用中位数和四分位数间距\n数据标准化的方法是把原始观测值(亦称得分,score)和均值之差除以标准差;得到的度量称为标准得分(standardscore,又称为z-score)。例:假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。分数的均值标准差一班78.539.43二班70.197.00那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢?张颖的标准得分为(90-78.53)/9.43=1.22刘疏的标准得分为(82-70.19)/7.00=1.69\n第3章常见的概率分布一、二项分布若一个随机变量的可能取值是=0,1,…,,且相应的取值的概率为:P(=)=则称此随机变量X服从以、为参数的二项分布,记为X~B(,)。二、泊松分布当二项分布中n很大,π很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。三、正态分布若连续型随机变量x的概率分布密度函数为其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normaldistribution),记为x~N(μ,σ2)。正态分布具有以下几个重要特征:(1)图形呈钟型、中间高、两头低、左右对称(2)图形最高处对应于X轴的值就是均数(位置参数)(3)标准差决定曲线的形状(形状参数)(4)曲线下面积为1(5)是一个正态分布簇,经u变换可转换为标准正态分布标准正态分布将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,σ2=1的正态分布为标准正态分布(standardnormaldistribution),记为N(0,1)。正态曲线下面积分布规律标准正态分布正态分布面积或概率-1~1μ±σ68.27%-1.96~1.96μ±1.96σ95.00%-2.58~2.58μ±2.58σ99.00%不论总体的分布形式如何,只要样本含量n足够大时,样本均数的分布就近似正态分布,此规律称为中心极限定理。四、χ2分布(chi-squaredistribution)假设从标准正态总体中抽取k个独立样本,则的分布称自由度为υ=k-1的χ2分布。\n五、t分布(t-distribution):若x~N(μ,σ2),则~N(μ,σ2/n)。将随机变量标准化得:,则u~N(0,1)。当总体标准差σ未知时,以样本标准差S代替σ所得到的统计量记为t。在计算时,采用S来代替σ,则t变量不再服从标准正态分布,而是服从t分布。t分布与标准正态分布比较,中心位置不变,但分布曲线峰低,两侧较伸展。六、F分布(Fdistribution):令和分别为服从自由度为和的独立变量的卡方分布,则称服从分子自由度为和分母自由度为的F分布,记为F~。\n第四章简单统计推断统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假设检验(testofhypothesis)和参数估计(parametricestimation)。区间估计:获得一个置信区间(confidenceinterval,CI)--由样本数据估计得到的100(1-a)%可能包含未知总体参数的一个范围值。95%可信区间的含义:按这种方法构建的可信区间,理论上平均每100次,有95次可以正确估计到总体参数。例:σ已知时,总体均数双侧100(1-α)%置信区间为:。Z0.05/2=1.96。例:某市一次大规模12岁男孩中生长发育调查中,测得身高的均数为143.05cm,标准差为0.55cm,则该市12岁男孩身高均数的95%置信区间为99%置信区间为(143.05-2.58×0.55,143.05+2.58×0.55)=(141.63,144.47)s未知,总体均数μ的100(1-a)%置信区间为。当样本含量较大,尽管总体方差s未知,仍可采用Z分布进行近似计算。一、总体均数的假设检验;假设检验的基本步骤:首先,要提出一个原假设;如两个独立样本的t检验:无效假设H0:μ1=μ2与备择假设HA:μ1≠μ2(双尾检验);或无效假设H0:μ1=μ2与备择假设μ1>μ2或μ1<μ2(单尾检验)。第二,确定检验统计量(如t值);第三,确定显著性水平;第四,根据数据计算检验统计量的实现值(t-值)和根据这个实现值计算p-值。二、假设检验的两类错误I型错误(弃真):拒绝实际正确的H0,I型错误的概率记为α。(1-α)即置信度。II型错误(纳伪):不拒绝实际不正确的H0,II型错误的概率记为β。(1-β)即把握度(或检验效能)。三、正态总体均值检验的类型u根据一个样本对其总体均值大小进行检验,如妇女身高的检验One-SampleTTestu根据来自两个总体的独立样本对其总体均值的检验,如两个班平均成绩的检验。IndepentTwo-SampleTTest两总体方差相等时,看上面一行的结果。否则,看下面一行的t检验输出。因为总体方差相同时使用的检验统计量与方差不同时使用的不一样。\nu成对样本的检验,如减肥效果的检验。Paired-SampleTTest例1:甲乙两个班某次考试的数学成绩见下表1,两个班成绩的正态检验(SPSSExplore)结果见表2。对两个班平均成绩的检验(SPSS:IndependentSamplesTest)输出结果见表3。表1,两个班的数学成绩ClassScore1857386779468828390887685877485808288909327590629873757576836665788068877464687280表2TestsofNormalityclassKolmogorov-SmirnovaShapiro-WilkStatisticdfSig.StatisticdfSig.score10.14722200.200*0.963594200.6178720.12611200.200*0.95318200.41796*Thisisalowerboundofthetruesignificance.aLillieforsSignificanceCorrection1.当样本量较大时,采用Kolmogorov-Smirnov法进行正态性检验;2.当样本量较小时,采用Shapiro-Wilk法,本例n=20,W统计量(Statistic)分别为0.963594,0.95318,P>0.05,数据均为正态资料。表3IndependentSamplesTestLevene'sTestforEqualityofVariancest-testforEqualityofMeansFSig.tdfSig.(2-tailed)scoreEqualvariancesassumed0.7329980.3973.056380.004089Equalvariancesnotassumed3.05635.2900.0042541.Levene‘s方差齐性检验,用于判断两总体方差是否齐。假设两个班成绩方差均相等,检验结果为F=0.733,p=0.397,不能拒绝假设,两总体方差齐相等。2.假设两个班成绩均值相等,选用齐时的t检验结果,即上面一行列出的t=3.056,df=38,p=0.004,拒绝假设,两个班的成绩明显不同。\n第五章方差分析目的:用于推断多个总体均数有无差异。方差分析的应用条件l各样本是相互独立的随机样本;l各样本来自正态总体;l各处理组总体方差相等。方差分析的步骤首先,提出一个原假设,如H0:µ1=µ2=...=µi,对应的备选假设H1:µ1,µ2,...,µi不全相等;第二,计算F值;第三,确定显著性水平(α=0.05或0.01);第四,查F值表,确定p值。如果F值大于某个临界值,表示处理组间的效应不同;如果F值接近甚至小于某个临界值,表示处理组间效应相同。第五,如果F检验表明各处理组间的效应不全同,选择一种控制累积Ⅰ类错误概率增大的方法,如LSD法、Duncan法和S-N-K法,进行均数间的两两比较。当组数为2时,方差分析与两均数比较的t检验是等价的,对同一资料,有。为什么一般t检验用作多重比较是错误的?当有k个均数需作两两比较时,比较的次数共有=k(k-1)/2次。设每次检验所用I类错误的概率水准为α,累积I类错误的概率为α’,则在对同一实验资料进行c次检验时,在样本彼此独立的条件下,根据概率乘法原理,其累积I类错误概率α’与c有下列关系:α’=1-(1-α)c。例如,设α=0.05,c=3(即k=3),其累积Ⅰ类错误的概率为α’=1-(1-0.05)3=1-(0.95)3=0.143。多个样本均数间的两两比较或称多重比较(multiplecomparison),也叫posthoc检验,多重比较控制累积Ⅰ类错误概率增大的方法主要有:LSD法、Duncan法和S-N-K法。当处理数k≥3时,三种检验的显著尺度关系为:LSD法≤Duncan法≤S-N-K法。用LSD法检验显著的差数,用Duncan法或S-N-K法检验则未必显著;用S-N-K法检验显著的差数,用LSD法检验则必然显著。\n方差分析例题:例,不同人群血清1.5-脱水葡萄糖醇(AC)水平(),如下表组别正常对照糖尿病糖尿病并肾衰肾移植观测值AC46.1530.8249.4190.8982.3156.8332.9671.1654.6732.0142.8382.9970.3741.2621.4357.3268.8012.2544.0684.4780.5733.6247.8589.0376.6621.6940.9880.7877.7423.333.8936.2788.7347.6223.7760.1374.6230.5728.9566.34各组的正态检验(SPSSExplore)结果见表2。TestsofNormalitygroupKolmogorov-SmirnovaShapiro-WilkStatisticdfSig.StatisticdfSig.AC10.200344100.200*0.912639100.29961520.180936100.200*0.972621100.91402230.196243100.200*0.915965100.32452940.196284100.200*0.915946100.324379*Thisisalowerboundofthetruesignificance.aLillieforsSignificanceCorrection本例n=10,Shapiro-Wilk检验P均大于0.05,数据均为正态资料。TestofHomogeneityofVariancesACLeveneStatisticdf1df2Sig..550336.651假设各组方差均相等,F3,36=0.55,P=0.651,不能拒绝假设。故各组方差相等。ANOVAACSumofSquaresdfMeanSquareFSig.BetweenGroups14973.82534991.27523.850.000WithinGroups7533.91936209.276Total22507.74439假设各组AC均值均相等,F3,36=23.85,P<0.001,拒绝假设,故各组均值不全相等。HomogeneousSubsets\nACgroupNSubsetforalpha=.0512Student-Newman-Keuls2103331033.61341071.93811072.062Sig.0.9250380.984814当检验水平为0.05时,第2组与第3组AC均值相等,第1组与第4组AC均值没有有统计学差异,而第2、3组与第1、4组AC均值有统计学差异。第六章多因素方差分析协方差分析协方差分析是将回归分析与方差分析结合在一起的统计方法,用来消除混杂因素(协变量,连续型变量)对分析指标的影响。各组y的修正值:byx(e):误差项回归系数协方差分析例题不同年龄体重正常与超重组的血清胆固醇含量见右图,试比较两组血清胆固醇含量有无差异。SPSS的分析结果如下:\n各组y的平均值。两组血清胆固醇含量有显著差异(F1,23=4.872,p=0.038)。EstimatedMarginalMeans按平均年龄50.23岁得到胆固醇含量的修正均数。Descriptives体重组StatisticStd.Error年龄1Mean46.002.1362Mean54.463.614各组x的平均值。根据1组或2组的下x和y的均值,可以计算误差项回归系数byx(e):校正后的回归方程adjchol=chol-0.09432*(age-50.23)。\n第七章仅研究主效应的实验设计:1.完全随机设计(Completelyrandomizeddesign)2.随机区组(配伍组)设计(Randomizedblockdesign)随机区组设计是单因素设计的方差分析,使用的却是多因素方差分析的方法。3.交叉设计(Cross-overdesign)每个受试者是其自己的对照。4.拉丁方设计(Latinsquaredesign)主要优点是精确性高,分析简便。主要缺点:横行区组数、直列区组数、试验处理数与试验处理的重复数必须相等,所以处理数受到一定限制。5.嵌套设计(Nesteddesign)各试验因素的影响有主次之分,次要因素的各个水平是嵌套在主要因素的水平下的,因而在统计时不能分析交互作用。第八章考虑交互作用的实验设计1.析因设计(Factorialdesign)几个因素的组合中至少有2个或以上的观察值,可以分析两个或以上处理因素之间有无交互作用。当两因素有交互作用时,则各因素的主效应有无统计学意义没有适用价值,必须用两因素各水平组合下的平均值进行比较。析因设计的特点:l2个或以上(处理)因素(factor)(分类变量);l每个因素有2个或以上水平(level);l每一组合涉及全部因素,每一因素只有一个水平参与;l几个因素的组合中至少有2个或以上的观察值;l观测值为定量数据(需满足随机、独立、正态、等方差的ANOVA条件)。2.正交设计(Orthogonaldesign)利用从试验的全部水平组合中,挑选部分有代表性的水平组合进行试验,通过对这部分试验结果的分析了解全面试验的情况,找出最优的水平组合。假设有k个因子,n为因子水平数,实验的数量是k(n-1)+1。3.裂区设计(split-plotdesign)先按只考虑主处理因素A(大区,主区)的主效应。然后,考虑副处理(因素B)的主效应及A、B间交互作用。4.重复测量设计(RepeatedMeasureDesign)指对同一研究对象的某一观察指标在不同场合(occasion,时间点)进行的多次测量。特点是每一个体作为自身的对照,克服了个体间的变异。分析时可更好地集中于处理效应。\n第九章非参数检验什么时候用非参数方法?对总体分布不了解时。优点:1.在总体分布未知时,非参数方法往往优于参数方法,效率要比参数方法高。2.非参数检验总是比传统检验安全。缺点:在总体分布形式已知时,非参数检验就不如传统方法效率高。随机性的游程检验(Runstest);用于检验取两个值的变量的两个值的出现是否是随机的。单样本的Kolmogorov-Smirnov检验(K-S检验)(One-SampleKolmogorov-Smirnovtest):正态分布、poisson分布的拟合优度检验。两独立样本检验(Two-Independent-Samplestest):比较两总体中位数的非参数检验(Mann-Whitney);两样本分布的检验(Kolmogorov-Smirnov);单向两组等级计数资料的比较。两个相关样本检验(Two-Related-Samplestest):Wilcoxon符号秩和检验。多个独立样本检验(K-Independent-Samplestest):当分组变量为无序分类资料时,Kruskal-Wallis秩和检验;当分组变量为有序分类资料时,Jonckheere-Terpstra秩和检验;单向多组等级计数资料的比较。多个相关样本检验(K-Related-Samplestest):被检测变量为连续型变量时,Friedman秩和检验;被检测变量为排序资料时,Kendall协同系数检验。例:某实验室观察某抗癌药对小鼠肿瘤的疗效,两组各10只,以生存日数为观察指标,比较两小组生存日数有无区别。试验组:24262727303234364060对照组:4679101012131616检验它们背后的总体分布是否相同检验两个样本在同一总体的分布位置是否相同\n两个样本的分布不相同两个样本在同一总体的分布位置不相同第十章次数资料的分析检验卡方检验两个样本率间的比较:可采用u检验,也可采用四格表c2检验。计数资料的关联度分析;c2检验。拟合优度检验。例:调查两城市慢性病患病率%地区调查人数慢性病人数慢性病患病率(%)甲城市40921251.83乙城市66038558.33合计106959755.85两城市患该慢性病的比率有无不同?c2检验:\n两城市患该慢性病的比率不同(c2=4.326,df=1,p=0.038)。\n第11章相关和回归回归分析(regressionanalysis)用于研究某个变量对另一个变量的影响强度。回归直线的方程为:a是总体截距的估计值,b是总体斜率的估计值。回归直线一定经过“均数”点,因此相关分析(correlationanalysis)用于研究变量间联系的密切程度。相关系数r,又称积差相关系数,它是变量相关的密切程度和方向的指标。直线回归与直线相关的区别与联系1.区别(1)资料要求:回归:Y为正态随机变量,X为选定变量。相关:X、Y服从双变量正态分布。(2)应用:回归——由一个变量值推算另一个变量值。相关——只反映两变量间互依关系。(3)回归系数有单位,相关系数无单位。2.联系(1)方向一致:r与b的正负号一致。(2)同一资料假设检验等价:tr=tb。(3)r与b可相互推导获得,。lXX:x的离均差平方和;lYY:y的离均差平方和。(4)用回归解释相关决定系数SS回(回归平方和)是y的变异中由于引入了自变量x而使总平方和减小的部分。SS回越接近总平方和,则r2越接近1,引入相关自变量的效果越好。如果X与Y有回归关系,则一定存在相关关系,但是若存在相关关系,则不一定存在回归关系。当X、Y不服从双变量正态分布时,使用秩相关(spearman)分析。在两个变量均属于有序变量时,使用Kendall’s相关分析。用于双向有序计数资料的分析。第12章多元线性回归多元线性回归是研究多个自变量X1、X2、...、Xi与一个因变量Y间是否存在线性关系(依存关系),并用多元线性回归方程来表达这种关系。多元逐步回归要求回归方程中包含所有对因变量Y作用显著(可以显著减少Y的变异)的自变量,而不包含作用不显著的自变量,从而建立最优回归方程。\n第14章分类资料的回归分析含p个自变量的二分变量Logistic回归模型:p为某事件出现的概率。回归系数的解释1.系数的正负值:正(负)系数表示随自变量的增加因变量logit值的增加(减少)。2.二分类自变量:系数为比数比(OR)的对数值,即OR=Exp(B)。3.多分类自变量:以第i类作参照,比较相邻的或相隔的两个类别的eb变化量。4.连续型自变量:当自变量改变一个单位时,比数比为eb。例:1.某医师收集了78例病人的资料,数据见下图。为了研究病人的性别(sex:0为女性,1为男性)、心电图是否异常(ecg:0为正常、1为轻度异常、2为重度异常)是否与患冠心病(ca:0为未患病,1为患病)有关,进行二分类变量logistic回归分析的部分结果如下表:VariablesintheEquationBS.E.WalddfSig.Exp(B)Step1(a)sex1.155.5025.2881.0213.173ecg6.2792.043ecg(1).995.5333.4841.0622.706ecg(2)1.717.7764.8971.0275.565Constant-1.238.4916.3431.012.290aVariable(s)enteredonstep1:sex,ecg.a)试判断病人的性别、心电图是否异常是否与患冠心病有关。对于性别,Wald卡方=5.288,df=1,p=0.021,故不同性别之间患冠心病的概率有显著差异。对于心电图是否异常,Wald卡方=6.279,df=2,p=0.043,故心电图是否异常与患冠心病的有关。b)相比心电图正常组,心电图轻度重度异常组病人患冠心病的概率高5.565倍。\nProbit模型:Probit回归是在正态分布的理论基础上进行的,而Logistic回归是建立在二项分布的基础上的。但对于同一资料,Probit回归与Logistic回归的结果非常接近。2.用2种病毒的5种剂量(OB/head)感染昆虫幼虫,最终幼虫的死亡率如下表。Virusdosedeadtotal11546131244110234813037461100384321242233482102048230375021003438a)现欲用概率分析的方法计算2种病毒的半数致死剂量(LD50),在SPSS软件中可以按下图将完成对话框。b)概率分析的部分结果如下:virus1virus195%ConfidenceLimitsProbdoseLowerUpper.457.550765.5175710.22049.509.211286.7784912.50728.5511.236978.2995015.35749.6013.7521110.1603018.98431.6516.9447312.4799923.71690\n.7021.1145915.4458730.09160virus2virus295%ConfidenceLimitsProbdoseLowerUpper.4512.251068.9537616.75765.5014.9452410.9614720.57909.5518.2319113.3758025.35430.6022.3127016.3222831.44267.6527.4927119.9887939.39897.7034.2582724.6707950.12723……请问这2种病毒的半数致死剂量(LD50)分别为9.21128和14.94524OB/head,其95%置信限分别为(6.77849,12.50728),(10.96147,20.57909)。如果两个样本总体的标准差进行估计95%CIlower:LD50-1.96*SE,upper:LD50+1.96*SE。于是两病毒LD50的标准差分别为SE1=(upper-lower)/(2*1.96)=(12.5-6.8)/3.92=1.454;SE2=(upper-lower)/(2*1.96)=(20.6-11.0)/3.92=2.45。P>0.05,两病毒的毒力没有区别。\n第十六章聚类分析聚类分析:根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。假使有n个样品,每个样品由p个变量描述,我既可以对变量进行分类,也可以对样品进行分类。对变量的聚类称为R型聚类(Clusteringforvariables),而对观测值聚类称为Q型聚类(Clusteringforindividuals)。这两种聚类在数学上是对称的,没有什么不同。研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数;常用的相似系数有:夹角余弦与相关系数。另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。假使有n个样品,每个样品由p个指标反应,其数据矩阵记为X;第i个样品与第j个样品间的绝对距离:欧式(Euclidian)距离的平方:第一个样品与第i个样品间的距离(i=1,2,...,5)如有数据矩阵57则欧式距离的平方040295271400171726X=32D=291701825655171801662261510两种主要的聚类方法:系统聚类法,动态聚类法。第十七章判别分析判别分析:利用一个已经明确知道类别的“训练样本”,建立判别准则,并通过预测变量来对未知类别的观测值进行判别。常用的判别方法有:距离判别、Fisher判别、Bayes判别.为建立判别函数需要使用训练样本,即一个已知实际分类且各指标的观测值已知的样本。必须是由金标准确定的分类,如果错分太多,判别函数的判别效率会大大下降。用来建立判别函数的自变量可以是任意测量尺度,甚至无序的多分类变量也可以。\n第十八章生存分析生存分析(survivalanalysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。生存分析特点就是考虑了每个观测现象出现某一结局的时间长短。生存时间:终点事件(失效事件)与起始事件之间的时间间隔。截尾数据(删失数据,censoreddata):从起点至截尾点所经历的时间。截尾原因可能是失访、死于其它疾病、观察结束时病人尚存活等。条件生存概率:某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。累计生存率:观察对象经历t个单位时段后仍存活的可能性。生存分析的方法:l生存率估计:Kaplan-Meier法,寿命表(life-table)法;l比较方法:log-rank检验;l影响因素分析:Cox比例风险回归模型(Cox回归模型)用于预测生存率。含有截尾数据的生存率计算方法时间死亡数dx失访数wx年初存活数nx调整存活数n’x活满一年数条件生存率px(累计)生存率lx0001001001001115510097.592.592.5/97.5=0.951.0×0.95=0.9521559087.572.572.5/87.5=0.830.95×0.83=0.793201070654545.0/65.0=0.690.79×0.69=0.54404040202020.0/20.0=1.00.54×1.0=0.54n’x=nx-wx/2[例]某研究者欲研究4种亚型癌症病人的生存时间有无差别,资料整理后如下表1,设type1=腺癌,2=大细胞癌,3=小细胞癌,4=鳞癌。status1=死亡,2=失访。idtypesur_timestatus1腺癌7死亡2腺癌8死亡3腺癌18死亡…19大细胞癌15死亡20大细胞癌19死亡21大细胞癌43死亡…31小细胞癌2死亡32小细胞癌7死亡33小细胞癌8失访…49鳞癌1死亡50鳞癌1死亡\n为了比较不同肺癌亚型病人生存时间是否相同,利用SPSS软件进行Kaplan-Meier生存估计,可以按下图将完成对话框。SPSS输出部分结果如下腺癌、大细胞癌、小细胞癌、鳞癌病人的半数存活时间(ST50)分别为48、53、25和201天。生存曲线的两两比较(log-rank检验):\n腺癌病人与大细胞癌病人的生存曲线没有显著性差异(χ2=3.465,d.f.=1,P=0.063)。腺癌病人与鳞癌病人的生存曲线有显著性差异(χ2=9.007,d.f.=1,P=0.003)。log-rank检验用于整条生存曲线的比较,若比较两组某时间点(t)处的生存率,则按下式计算:如比较多个组在某时间点处的生存率,检验水准应取Bonferroni校正,即α’=α/k,其中k为比较的次数,以保证总的I型错误概率不超过α。第十九章主成分分析主成分分析和因子分析:两种把变量维数降低以便于描述、理解和分析的方法。如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。主成分分析的目的是尽可能多地提取各变量的变异。因子分析则需要为每一个公因子寻找适当的解释。因子分析需要找出某个问题中可直接测量的、具有一定相关性的诸指标,如何受少数几个在专业上有意义、但不可直接测量到且相对独立的因子支配的规律,从而可用诸指标的测定值来间接确定诸因子的状态。