- 382.50 KB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
卫生统计学PowerPoint统计学\n第十五章多因素对某定性指标的影响分析第一节Logistic回归分析一、基本概念应变量是分类变量1出现阳性结果(发病、有效、死亡等)Y=0出现阴性结果(未发病、无效、存活等)P:Y=1的率\nP/(1-P)称优势(比数)\n0:表示暴露剂量为0时个体发病与不发病概率之比的自然对数i:表示在其它自变量不变的条件下,Xi改变一个单位时logitP=的改变量。第一节Logistic回归分析\nLogistic回归的特点1、Logistic回归方程中,各自变量Xi变化范围可以从-到+,Xi可以是定量指标、等级指标或定性指标(需经数量化),而应变量P的变化范围为0到1。Z→∞时,P值渐近于1Z→-∞时,P值渐近于02、Logistic回归系数和流行病学中反映各危险因素对疾病作用大小的优势比有直接的联系,并把单因素两水平下的优势比的定义扩展到多因素任意取值。第一节Logistic回归分析\n\n设在一组自变量取值X0下,某病发病的概率为P0,而在另外一组取值X1下,某病发病的概率为P1\n变量Xi由改变为而固定其它自变量取值时,有ORi=exp[i(─)]ORi>1,高水平(数据大)率大\n特别当─=1时,(Xi=1为暴露,Xi=0为非暴露)ORi=expi3、对于流行病学两类调查研究方法前瞻性的队列研究和回顾性的病例对照研究,所建立的Logistic回归方程,除常数项不同外,其它各回归系数均相同。第一节Logistic回归分析\n二、Logistic回归模型的配合1.应变量为二分类的Logistic回归模型参数估计采用最大似然函数估计法(maximumlikelihoodestimate),即根据n例实际观测数据建立一个样本的似然函数:第一节Logistic回归分析Pi:i例暴露条件下阳性率,Yi=1阳性,Yi=0阴性。若某对象阳性,\n用迭代方法使以下目标函数达极大值,估计出bj\n(1)AIC检验法(AkaikeInformationCriterion)L是最大似然函数,g为应变量分类变量的分类数,k为模型中包含的自变量个数。AIC值越小,模型拟合越好。用于同一组数据下的不同模型间的比较。H0:H1:不全为0(含全不为0)\n(2)SC检验法(SchwarteCriterion)式中,L是最大似然函数,g为应变量分类变量的分类数,k为模型中包含的自变量个数,n是样本例数。和AIC一样,SC值越小,模型拟合越好。用于比较同一组数据下的不同模型间的比较。\n(3)似然比检验法服从自由度为k-p的χ2分布,p和k是两个模型中包含的自变量个数。P<α,则有统计学意义。(4)计分检验法(Score)公式很复杂,它服从χ2分布,用于检验模型中全部自变量对应变量的联合作用。\n(5)Wald检验法H0:H1:Wald似然比检验法最可靠。Somers’D、Gamma、Tau-a和C,越接近于1说明模型拟合得的越好。选项“LACKFIT”对模型进行拟合优度检验(Goodnessoffitstatistics),P越大则说明模型拟合的越好。\n例15-1.为研究病情x1(0表示不严重,1表示严重)、年龄x2(岁)及不同治疗方法x3(0表示传统疗法,1表示新疗法)对某病疗效的影响,某研究者随机抽取40名某病的患者,其中有20名患者采用传统疗法,另20名患者采用新疗法,经过一段治疗后记录下康复的情况y(0表示未康复,1表示康复),作logistic回归分析。\ndataex15_1;inputyx1-x3@@;cards;10200102301032010380112501020110241102811030110321103811126111291113411133111381114010022000260002900034000300003800037001240012500129001320013400137001400014000033100361012410134101321013610138100391;proclogisticdescendingsimple;modely=x1-x3/stbscale=noneaggregatelackfit;unitsx2=10;run;\nResponseProfileOrderedTotalValueyFrequency11172023\nDevianceandPearsonGoodness-of-FitStatisticsCriterionDFValueValue/DFPr>ChiSqDeviance3133.92901.09450.3281Pearson3127.27080.87970.6585\nTestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr>ChiSqLikelihoodRatio9.529030.0230Score8.595830.0352Wald6.943130.0737\nAnalysisofMaximumLikelihoodEstimatesStandardStandardizedParameterDFEstimateErrorChi-SquarePr>ChiSqEstimateIntercept12.37892.02791.37620.2407x11-0.77670.74971.07310.3002-0.2168x21-0.10680.06772.48640.1148-0.3517x311.95700.80365.93030.01490.5464\nOddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimitsx10.4600.1061.999x20.8990.7871.026x37.0781.46534.198AdjustedOddsRatiosEffectUnitEstimatex210.00000.344\ndataex15_1;inputyx1-x3@@;cards;10200102301032010380112501020110241102811030110321103811126111291113411133111381114010022000260002900034000300003800037001240012500129001320013400137001400014000033100361012410134101321013610138100391;proclogisticdescendingsimple;modely=x1-x3/selection=stepwisesle=0.1sls=0.1stbscale=noneaggregatelackfit;unitsx2=5;run;\nTheLOGISTICProcedureAnalysisofMaximumLikelihoodEstimatesStandardStandardizedParameterDFEstimateErrorChi-SquarePr>ChiSqEstimateIntercept12.27181.97711.32040.2505x21-0.11350.06632.93020.0869-0.3739x311.83460.77445.61260.01780.5122\nOddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimitsx20.8930.7841.017x36.2631.37328.573AdjustedOddsRatiosEffectUnitEstimatex25.00000.567平均康复率大1岁是小1岁的0.893倍平均康复率新疗法是旧疗法的6.263倍平均康复率大5岁是小5岁的0.567倍\n2.应变量为有序分类变量的logistic回归模型医学研究中经常要用到的应变量为有序分类变量,例如治疗效果分为“无效、好转、有效、治愈”,疾病的严重程度分为“无、轻、中、重”与“I期、Ⅱ期、Ⅲ期”等,分析各种因素自变量对这种有序分类变量的应变量的影响时也可采用logistic回归模型。SAS软件中的logistic回归过程是以累积概率函数的形式提供的。\n设应变量y为k个等级的有序分类变量,不妨设y的k个取值按等级顺序为1、2、…、k。对y取值小于等于等级j(j=1、2、…、k)的概率即取前j个值的累积概率用来表示,则有:当j=1、2、…、k-1\n例如对k=3时有:因而应变量y取等级1、2、3的概率为:\n例15-2.某医院外科采用两种不同绷带(x1=0为第一种绷带,x1=1为第二种绷带)和两种不同的包扎方式(x2=0为第一种包扎方式,x2=1为第二种包扎方式)进行腿部溃疡处理。治疗效果分为三个等级:不愈、有效、痊愈(y=0为不愈,y=1为有效、y=2为痊愈)。治疗结果如表15-3所示。试分析不同的治疗方式对治疗效果的影响。\n\ndataex15_2;inputyx1x2f@@;cards;0001910042002010911082106001211013201201110111102115;proclogisticdescending;modely=x1x2/stbscale=noneaggregatelackfit;freqf;run;\nAnalysisofMaximumLikelihoodEstimatesStandardStandardizedParameterDFEstimateErrorChi-SquarePr>ChiSqEstimateIntercept1-2.66780.465632.8253<.0001Intercept21-1.17090.39298.87910.0029x111.64300.438014.07080.00020.4550x21-0.19030.41890.20630.6496-0.0527OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimitsx15.1712.19112.201x20.8270.3641.879\nY取值2、痊愈:等级1;Y取值1、有效:等级2;Y取值0、无效:等级3。\n三种治疗效果的概率估计为:痊愈:有效:无效:但是回归系数的假设检验结果只有绷带种类x1有统计意义,包扎方式x2无统计意义。x1的OR=5.171,95%的可信区间为(2.191,12.201),区间不包含1,表示使用第二种绷带约是使用第一种绷带效果(痊愈的比例,痊愈及有效的比例)的5.171倍。\n第二节条件Logistic回归在研究设计阶段,为控制混杂干扰因素常按干扰因素的不同取值设置相匹配的配比组,病例与对照之比为1:1或n:m。,i=1,2,…,n例15-3收集了63对有关子宫内膜癌的数据,Y=0为对照,Y=1为病例,自变量因素为胆囊有无病变(gall=0为无病变,gall=1为有病变)和有无高血压Hyper(hyper=0为无,hyper=1为有).试分析在控制血压的条件下胆囊有无病变所引起的相对风险。\ndatali15_3;inputiyx1-x2@@;t=2-y;cards;1100100021002000310130014100401051105001610160007110700081118001910090001010010000………………………………………………..;procphreg;modelt*y(0)=x1-x2/ties=discrete;stratai;run;\nThePHREGProcedureTestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr>ChiSqLikelihoodRatio4.548720.1029Score4.362020.1129Wald4.006020.1349AnalysisofMaximumLikelihoodEstimatesParameterStandardHazardVariableDFEstimateErrorChi-SquarePr>ChiSqRatiox110.970410.530733.34320.06752.639x210.348070.376960.85260.35581.416\ndatali15_3;inputiyx1-x2@@;t=2-y;cards;110010002100200031013001410040105110500161016000711070008111800191009000101001000011110110001210012001………………………………………………;procphreg;modelt*y(0)=x1-2/selection=stepwisesle=0.1sls=0.1ties=discrete;stratai;run;\nAnalysisofMaximumLikelihoodEstimatesParameterStandardHazardVariableDFEstimateErrorChi-SquarePr>ChiSqRatiox110.955510.526233.29700.06942.600SummaryofStepwiseSelectionVariableNumberScoreWaldStepEnteredRemovedInChi-SquareChi-SquarePr>ChiSq1x113.5556.0.0593子宫内膜癌发病率有胆囊病变平均是无胆囊病变的2.6倍\n例15-4为研究肥胖X1(X1=1为肥胖,X1=0为不肥胖)、口服避孕药雌激素X2(X2=1为服用雌激素,X2=0未服用雌激素)与子宫内膜癌的关系,随机选取20名患者。对于每名患者,再随机选取年龄相近的2名正常人作为对照。\ndatali15_4;inputix1-x2y@@;t=2-y;cards;111110001000211121102010311130103110401140004010500151005010611160006100711170107110811181008110910191109110100111001010000110111101011100120111201012010131111300013110141111400014100151111500015010160111601016010170111700017100181111810018010191011901019010201112001020000;procphreg;modelt*y(0)=x1-x2/selection=stepwisesle=0.1sls=0.1ties=discrete;stratai;run;\nTestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr>ChiSqLikelihoodRatio10.637720.0049Score8.872520.0118Wald5.978920.0503AnalysisofMaximumLikelihoodEstimatesParameterStandardHazardVariableDFEstimateErrorChi-SquarePr>ChiSqRatiox111.823880.849484.60980.03186.196x211.589590.808973.86110.04944.902\n第三节Logistic回归模型的医学应用及其注意事项一、Logistic回归模型在医学中的应用1、分析流行病学的研究中进行危险因子的筛选。2、校正混杂因子。把混杂因子当作自变量来对待,利用Logistic回归对其进行调正和分析。3、Logistic曲线拟合可用于分析药物或毒物的剂量反应。4、判别分析与预测。\n二、Logistic回归模型应用的注意事项1.变量的取值形式Y:两分类,多分类有序,多分类无序X:连续变量(可转换成多分类有序变量)多分类有序变量多分类无序变量(转换成k-1个哑变量)\n2、要有足够的样本含量。n大于自变量个数的20倍,配比组设计时,匹配组数20m。3、因素间的交互作用。交互作用的自变量相乘产生一个新的自变量后参加计算分析过程