• 3.34 MB
  • 2022-09-01 发布

《统计学高级篇》PPT课件

  • 73页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第二单元医学统计学(高级篇)第八章多重线性回归\n第一节多重线性回归分析的概念一、多重线性回归的概念多重线性回归是研究多个自变量(x1\x2..)与一个因变量(y)之间线性依存关系的方法。其中自变量可以是随机变量,也可以是给定变量,而因变量是随机变量。多元线性回归是研究多个自变量与多个因变量线性依存关系的方法。若所有变量都是随机的,还可以做多重相关分析,描述因变量与一组自变量之间的线性关系;用偏相关描述因变量与一个自变量之间,在扣除其他自变量影响之后的线性关系。\n二、多重线性回归模型与方程多重线性回归模型用于研究一个被解释变量(因变量)与多个解释变量(自变量)的线性关系分析。多重线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量y与多个解释变量x1,x2···xk之间存在线性关系。假定被解释变量y与多个解释变量x1,x2···xm之间具有线性关系,建立多重线性回归模型为:其中y为被解释变量,xi为k个解释变量,βi为偏回归系数,表示在其他自变量固定的条件下,自变量Xi改变一个单位时,因变量Y的平均改变量。ε为随机误差项。\n三、回归模型的前提条件多重线性回归方程:描述被解释变量y的期望值或平均值如何依赖于解释变量x的方程为:回归模型的前提条件:1)线性:是指反应变量Y的总体平均值与自变量X呈线性关系;2)独立性:自变量间相互独立,自变量之间没有精确的线性关系(不相关);3)正态性:是指对于给定的X值,其对应的Y值的总体和线性模型的误差项ε均服从正态分布;(ε服从均数为0的正态分布)4)等方差性:无论X如何取值,Y都有相同的方差;误差项的方差相等。\n第二节多重线性回归分析步骤一、参数估计:根据样本数据,求得模型参数的估计值,即求出模型β的估计值b0、bm后,建立回归方程。多重回归采用最小二乘法估计其参数,即求出与实际观察值Y之差的平方和(残差平方和)为最小的b0、b1、b2、bm值。多重回归的参数估计和假设检验,常采用统计软件完成。求出参数的估计值后,可建立方程。例8-1下表是27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值,试建立血糖与其它几项指标关系的多重线性回归方程。\n27名糖尿病人血糖与其它变量的测量值\n27名糖尿病人血糖与其它变量的测量值\n二、建立方程经统计软件处理后,得各参数如下:得回归方程为:\n三、多重回归分析的假设检验及评价(一)回归方程(模型)的假设检验:检验模型是否成立,或方程是否有意义。\n方差分析法多重线性回归方差分析表以上结果显示:接受H1,回归方程成立。(相关公式)\n(二)有关评价指标1.残差标准差(剩余标准差)SY,1,2,…M:为扣除m个自变量影响外,因变量仍存在的变异,不能用自变量的变化解释Y的变异。反映回归方程精度,值越小说明回归效果越好。\n2.决定系数R2:R2:说明所有自变量能解释Y变化的百分比。取值范围(0,1),越接近1,模型拟合效果越好。R2反映在Y的总变异中,自变量组合解释部分,占总变异的比重,即线性回归模型能在多大程度上解释应变量Y的变异性。自变量对应变量贡献越大,回归效果越好。\nSY,1,2,…M与R2\n3.校正决定系数RC2(Radj2)=0.5282\nR2与RC2关系:R2表示总变差中已由多元回归方程“解释”的比例,R2可解释模型的拟合优度,残差平方和越小,决定系数越接近1,回归方程的拟合程度越好。RC2当给模型增加自变量时,决定系数也随之逐步增大,然而决定系数的增大代价是自由度的减少。自由度小意味着估计和预测的可靠性低。为了克服样本决定系数的这一缺点,我们设法把R2给予适当的修正,这就是校正决定系数。R2或RC2只能说明在给定的样本条件下回归方程与样本观测值拟合优度,并不能做出对总体模型的推测,因此不能单凭它们来选择模型。\n4.复相关系数RR说明所有自变量与Y间的线性相关程度,而不反应相关的方向。取值范围(0,1),R越接近1,说明所有自变量与应变量Y间的关系越密切。如果只有一个自变量,此时的R=∣r∣。(r为pearson相关系数)\n(三)偏回归系数的假设检验及评价偏回归系数的假设检验(即各自变量贡献大小的检验),有三种方法。1.t检验法:\nt检验显示: 胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。\nt检验显示: 胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。机读显示相同结果。\n2.方差分析法(求x的偏回归平方和)\n机读显示相同结果F检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。\n3.标准化偏回归系数法标准化偏回归系数概念:\n偏回归系数与标准化偏回归系数关系\n\n由这些新的观察值进行回归分析得到的偏回归系数称为标准偏回归系数,各自变量标准偏回归系数可以进行排队,如本例4个自变量的标准偏回归系数依次为0.0776,0.3093,-0.3395,0.3977可以说对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)、和总胆固醇(X1)。\n机得数据变量回归系数bj标准化回归系数b’jljj标准差SX10.142450.0775866.01031.5934X20.351470.30931172.36482.5748X3-0.27059-0.33948350.31063.6706X40.63820.3977486.44071.8234Y222.55192.9257\n第三节自变量的选择(筛选)多重线性回归分析中,常常通过专业知识或实践经验,去挑选那些对因变量影响较大的自变量与因变量Y建立回归方程。如从为数众多因素中,选择的自变量对反应变量无影响或影响甚微,把它们引入方程后,不但计算量大,信息成本高,而且会使回归系数的估计和预测的精度降低。选择对因变量影响较大的自变量引入方程,将对反应变量无影响或影响甚微的自变量排除方程,这种统计方法称为自变量选择(筛选),统计中常用方法之一是逐步选择法。\n一、最优回归方程及选择方法1.最优回归方程:2.最优回归方程的选择方法有:全局择优法(最优子集回归法)和逐步选择法。\n二、全局择优法(最优子集回归法)\n1.校正决定系数RC2(Radj2)选择法所谓最优回归方程是指RC2最大的方程。\n2.CP选择法\n\n3.AIC准则的计算公式求出所有可能的回归模型(共有2m-1个)对应的准则值;按上述准则选择最优模型。\nSAS获得的几个准则值结果ADJRSQCPAICADJRSQCPAICx2x3x40.54563440.343x2x30.40748346.66x1x2x3x40.52823542.157x1x30.37522348.091x1x3x40.48797443.568x40.34653248.405x1x2x40.44683445.655x10.28443250.857x1x40.44137345.07x1x20.27478352.116x2x40.4395345.16x30.23063252.814x3x40.43542345.356x20.17864254.579x1x2x30.40756447.507\n4.全局择优法(最优子集回归法)局限性\n三、逐步选择法\n(一)前进法\n方法\n(二)后退法\n方法\n(三)逐步回归法双向筛选:引入有意义的变量(前进法),剔除无意义的变量(后退法)。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。\n方法\n第四节逐步回归分析一、逐步回归分析基本思想\n二、逐步回归实例分析(令α入=α出=0.01)\n逐步回归法实例(第一步)模型SS回SS残SS总Y与X482.7144139.8375222.5519Y与X169.4251153.1267222.5519Y与X246.7873175.7645222.5519Y与X357.9133164.6386222.5519\n逐步回归法实例(第二步)模型SS回SS偏回SS残F值P值Y与X482.7144Y与X4X1107.790325.0759114.76155.24410.0311Y与X4X2107.407424.6931115.14445.14690.0326Y与X4X3106.568323.8539115.98364.93600.0360\n逐步回归法实例(X1剔除否)模型SS回SS偏回SS残F值P值Y与X169.425138.3652Y与X482.714425.0759Y与X4X1107.7903114.76155.24410.0311\n逐步回归法实例(第三步)模型SS回SS偏回SS残F值P值Y与X4X1107.7903Y与X4X1X2113.64725.8569Y与X4X1X3121.748013.9577100.80383.18470.0875\n逐步回归法实例(X4/X1/X3剔除否)变量模型SS回SS偏回SS残F值P值Y与X4X1X3121.7480100.804X1Y与X4X3106.568315.1797X3Y与X4X1107.790313.95773.18470.0870X4Y与X1X394.202627.5454\n逐步回归法实例(第四步)模型SS回SS偏回SS残F值P值Y与X4X1X3X2133.710711.962788.84122.96240.099Y与X4X1X3121.7480\n逐步回归法实例(是否剔除)变量模型SS回SS偏回SS残F值P值Y与X4X1X3X2133.710788.8412X2Y与X4X1X3121.748011.9627X1Y与X4X3X2133.09780.61290.15180.7006X3Y与X4X1X2113.647220.0635X4Y与X1X3X2105.916727.7940\n逐步回归法实例(是否剔除)变量模型SS回SS偏回SS残F值P值Y与X4X3X2133.097889.4540X4Y与X3X2100.829232.2686X3Y与X4X2107.407425.69046.60540.0171X2Y与X4X3106.568326.5295\n方差分析结果变异来源自由度SSMSFP总变异26222.5519回归3133.09844.36611.410.0001残差2389.4543.889\n回归系数及其检验\n机得数据比较分析\n第五节多重线性回归应用与注意事项一、多重线性回归应用:影响因素分析,控制混杂因素。\n预测:由自变量值推出应变量Y的值\n控制:指定应变量Y的值查看自变量的改变量\n二、应用的注意事项1.变量的数量化(1)自变量为连续型变量:必要时作变换。(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1。(3)自变量为二分类:如令男=1,女=0。(4)自变量为名义分类:需要采用哑变量进行编码。\n2.样本含量观察个体数n与变量个数m的比例一般至少应为:n:m=1:5~10。3.统计“最优”与专业的“最优”。不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响。\n4.多重共线性共线性:自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性。问题:出现回归系数的符号与由专业知识不符;变量的重要性与专业不符等现象。使建立的回归方程失败。多重共线性的识别:整个方程决定系数R2高,但各自变量对应的回归系数均不显著。解决共线性的主要方法:筛选自变量;做主成分回归;岭回归。\n共线性诊断\n5.交互作用当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用。检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。\n举例\n如令X5=X34,则\ne.血糖\n6.不同筛选方法比较自变量与应变量相关系数大小\n(1)向前筛选法(t检验、α入=0.05)共线性容忍度越小,共线性问题越严重。容忍度即SS残/SS总。\n向前筛选法(t检验、α入=0.10)\n(2)向后剔除法(t检验、α剔=0.10)\n(3)逐步法(α入=0.05,α剔=0.10)\n逐步法(α入=0.10,α剔=0.15)\nVIF

相关文档