应用统计学作业 8页

  • 132.70 KB
  • 2022-08-13 发布

应用统计学作业

  • 8页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
为研究探讨肾细胞癌转移受哪些因素的影响,本文收集了某研究人员收集的一批行根治性肾切除术患者的肾癌标本资料,并利用线性回归分析方法进行分析。ixlx2x3x4x5y159243.4210236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.82101536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431这里,被解释变量为肾细胞癌转移情况(y),解释变量为确诊时患者的年龄(XI)、肾细胞癌血管内皮生长因子(X2)、肾细胞癌组织内微血管数(X3)、肾癌细胞核组织学分级(X4)、肾细胞癌分期(X5),结束变量筛选策略先采用强制进入策略(EnteC,并作多重共线性检测,分析结果如下:ModelSummary6Mode1RRSquareAdjustedRSquareStd.ErroroftheEstimate1.826a.682.603.306a.Predictors:(Constant),肾细胞癌分期,由低到高共4期,确诊时患者的年龄(岁),肾细胞癌组织内微血管数(MVC),肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级,肾癌细胞核组织学分级,由低到高共4级b.DependentVariable:肾细胞癌转移情况(有转移y=l;无转移y=0)。上表屮格列数据项的含义依次为:被解释变量和解释变量的复相关系数、判定系数调整的判定系数Rl冋归方程的估计标准误差。由于调整的判定系数(0.603)不是很接近于1,\n因此认为拟合优度不是很高,被解释变量可以被模型解释的部分较少,为能被解释的部分较多。ANOVAbMode1SumofSquaresdfMeanSquareFSig.1Regression4.0155.8038.591.ooo-Residual1.86920.093Total5.88525a.Predictors:(Constant),肾细胞癌分期,由低到高共4期,确诊时患者的年龄(岁),肾细胞癌组织内微I1IL管数(MVC),肾细胞癌rfll管内皮生长因子(VEGF),其阳性表述由低到高共3个等级,肾癌细胞核组织学分级,由低到高共4级b.DependentVariable:肾细胞癌转移情况(有转移y=l;无转移y=0)。由上表可知,被解释变量的总离差平方和为5.885,回归平方和及均方分别为4.015和0.803,剩余平方和及均方分别为1.869和0.093,F检验统计量的观测值为8.591,对应的概率p近似为0.依据该表可进行回归方程显著性检骑。如果显著性水平a为0.05,由于概率p值小Coefficients3Mode1UnstandardizedCoefficientsStandardizedCoefficientstSig.Col1incarityStatisticsBStd・ErrorBetaToleranceVIF(Constant)-.350.235-1.492.151确诊时患者的年龄(岁)005.004-.168-1.227.234.8511.175肾细胞癌血管内皮生长.258.089.4732.894.009.5941.684因子(VEGF)肾细胞癌组织内微血管002.00120()-1.428.169.8121.232数(MVC)肾癌细胞核组织学分级.202.085.4442.369.028.4532.207肾细胞癌分期.061.073.140.831.416.5591.789a.DependentVariable:肾细胞癌转移情况(有转移y=l;无转移y=0)。于显著水平U,应拒绝回归方程显著性检骑的零假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的,可建立线性模型。由上表可知,如果显著水平x为0.05,除了肾癌细胞核组织学分级和肾细胞癌血管内皮生长因子(VEGF)以外,其他变量的回归系数显著性t检骑的概率p值都大于显著水平山因此不应拒绝原假设,认为这些偏回归系数与0无显著性羌异,它们与被解释变量的线性关系不显著,\nCollinearityDiagnostics'DimensionEigenvalueConditionIndexVarianceProportions(Constant)确诊时患者的年龄(岁)肾细胞癌血管内皮生长因子(VEGF)肾细胞癌组织内微血管数(MVC)肾癌细胞核组织学分级肾细胞癌分期15.5181.000.00.00.00.00.00.002.1615.856.03.06.09.28.02.223.1476.120.04.11.06.49.00.114.0818.265.10.03.59.18.01.395.05110.370.09.02.25.03.89.156.04111.571.74.78.00.01.08.12a.DependentVariable:肾细胞癌转移情况(有转移y=l;无转移y=0)。不应保留在方程中。由于模型保留了一些不应保留的变量,因此该模型目前不可用,赢重新建模。从容忍度和方差膨胀因子看,肾癌细胞核组织学分级与其他解释表里那个的多重共线性较严重,在重新建模时是可考虑剔除该变量。依据上表可进行多重共线性检测。从方差比来看,第5个特征根既能解释肾癌细胞核组织学分级的89%也可以解释肾细胞癌血管内皮生长因子(VEGF)的25%,同时还解释肾细胞癌分期的15%,因此有理由认为这些变量间确实存在多重共线性;从条件指数看,第5,6个条件指数都大于10,说明变量间确实存在多重共线性。总之,通过上述分析指导上而的回归方程存在一些不容忽视的问题,应该重建回归方程。这里我采用向后筛选策略完成观测检验并进行残差分析和强影响点探测。VariablesEntered/RemovedhMode1VariablesEnteredVariablesRemovedMethod1肾细胞癌分期期,确诊时患者的年龄(岁),肾细胞癌组织内微血管数(MVC),肾细胞癌血管内皮生长丙子(VEGF),肾癌细胞核组织学分级•Enter2■肾细胞癌分期期Backward(criterion:Probabi1ityofF・remove>=・100).3■肾细胞癌组织内微血管数(MVC)Backward(criterion:Probabi1ityofF・to・remove>=・100)・4■确诊时患者的年龄(岁)Backward(criterion:Probabi1ityofF・to・remove>=・100)・a.Al1requestedvariablesentered・b.DependentVariable:M细胞癌转移情况(有转移y=l;无转移y=0)。\nModelSummary^Mode1RRSquareAdjustedRSquareStd.ErroroftheEstimateChangeStatisticsDurbin-WatsonRSquareChangeFChangedfldf2Sig.FChange1.826a.682.603.306.6828.591520.0002.819b.671.609.303-.011.690120.4163.803c.644.596.309-.0271.738121.2024.781d.609.575.316-.0352.148122.1572.154a.Predictors:(Constant),肾细胞癌分期期,确诊时患者的年龄(岁),肾细胞癌组织内微血管数(MVC),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级b.Predictors:(Constant),确诊时患者的年龄(岁),肾细胞癌组织内微血管数(MVC),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级c.Predictors:(Constant),确诊时患者的年龄(岁),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级d.Predictors:(Constant),肾细胞癌血管内皮牛长因子(VEGF),肾癌细胞核组织学分级e.DependentVariable:肾细胞癌转移情况(有转移y=l;无转移y=0)。由上表知,利用向后筛选策略共经过四步完成回归方程的建立,最终模型为第四个模型。从方程的建立过程看,随着解释变量的不断减少方程的拟合优度下降了。依次剔除方程的变量是肾细胞癌分期、肾细胞癌组织内微血管数(MVC)、确诊时患者的年龄(岁)。如果显著性水平a为0.05,可以看到这些被剔除的变量的偏F检验的概率p值均大于显著水平,因此不能拒绝检验的零假设,这些变量的偏冋谷啊系数与零无显著差异,他们对被解释变量的线性解释没有显著贡献,不应保留在方程中。最终保留在方程中的变量是肾癌细胞核组织学分级和肾细胞癌血管内皮生长因子(VEGF)o方程的DW值为2.154,残差存在一定程度的负自相关。AN0VAeMode1SumofSquaresdfMeanSquareFSig.1Regression4.0155.8038.591.0004Residual1.86920.093Total5.885252Regression3.9514.98810.724.000bResidual1.93421.092Total5.885253Regression3.79131.26413.274.000e\nResidual2.09422.095\nTotal5.885254Regression3.58621.79317.941.000JResidual2.29923.100Total5.88525a.Predictors:(Constant),肾细胞癌分期期,确诊时患者的年龄(岁),肾细胞癌组织内微血管数(MVC),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级b.Predictors:(Constant),确诊时患者的年龄(岁),肾细胞癌组织内微血管数(MVC),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级c.Predictors:(Constant),确诊时患者的年龄(岁),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级d.Predictors:(Constant),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级e.DependentVariable:肾细胞癌转移情况(有转移y二1;无转移y二0)。上表中的第四个模型是最终的方程。如果显著水平a为0.05,由于回归方程显著性检验的概率p值小于显著性水平e因此被解释变量与解释变量间的线性关系显著,建立线性模型是恰当的。Coefficients'ModelUnslandardizedCoefficientsStandardizedCoefficientstSig.BSid.ErrorBeta1(Constant)-.350.235-1.492.151确诊时患者的年龄(岁)・.005.004-.168・1.227.234肾细胞癌血管内皮生长因子(VEGF).258.089.4732.894.009肾细胞癌组织内微血管数(MVC)・.002.001・.2OO-1.428.169肾癌细胞核组织学分级.202.085.4442.369.028肾细胞癌分期期.061.073.140.831.4162(Constant)・.323.231・1.399.176确诊时患者的年龄(岁)・.006.004-.184-1.375.184肾细胞癌血管内皮生长因子(VEGF).274.086.5033.179.005肾细胞癌组织内微血管数(MVC)・.002.001・.181・1.319.202肾癌细胞核组织学分级.233.076.5113.052.0063(Constant)・.398.227・1.752.094确诊时患者的年龄(岁)・.006.004-.199-1.466.157肾细胞癌血管内皮生长因子(VEGF).279.088.5133.192.004肾癌细胞核组织学分级.200.073.4382.726.0124(Constant)・.619.174-3.547.002肾细胞癌血管内皮生长因子.258.088.4732.915.008\n(VEGF)肾癌细胞核组织学分级.182.074.3992.459.022a.DependentVariable:肾细胞癌转移情况(有转移y=l;无转移y=0)。上表中,如果显著水平为0.05,则前三个模型中由于存在回归系数不显著的解释变量,因此这些方程都不可用,第四个模型是最终的方程,其回归系数显著性检验的概率p值小于显著水平Q,因此肾细胞癌血管内皮生长因子(VEGF)和肾癌细胞核组织学分级与被解释变量间的线性关系显著,它保留在模型中是合理的。最终的冋归方程是,立项课题数二一0.619+0.258肾细胞癌血管内皮生长因子(VEGF)+0・182肾癌细胞核组织学分级,意味着胞癌血管内皮生长因子(VEGF)每增加一个单位会使立项课题数平均增加0.258个单位,肾癌细胞核组织学分级每增加一个单位会使立项课题数平均增加0.182个单位。ExcludedVariables"Mode1BetaIntSig.PartialCorrelationCol1inearityStatisticsTolerance2肾细胞癌分期期.140*.831.416.183.5593肾细胞癌分期期.100b.588.563.127.575肾细胞癌组织内微血管数(MVC)-.181b-1.319.202-.277.8354肾细胞癌分期期.131°.761.455.160.585肾细胞癌组织内微血管数(MVC)-.196c-1.410.173-.288.841确诊时患者的年龄(岁)-.199°-1.466.157-.298.876a.PredictorsintheModel:(Constant),确诊时患者的年龄(岁),肾细胞癌组织内微血管数(\1VC),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级b.PredictorsintheMode1:(Constant),确诊时患者的年龄(岁),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级c.PredictorsintheModel:(Constant),肾细胞癌血管内皮生长因子(VEGF),肾癌细胞核组织学分级d.DependentVariable:肾细胞癌转移情况(有转移y=l;无转移y=0)。上表展示了变量剔除方程的过程。各数据项的含义依次是:在剔除其他变量的情况下,如果该变量保留在模型中其标准化回归系数,t检验值和概率p值将是什么。\nNormalP-PPlotofRegressionStandardizedResidualDependentVariable:肾细胞癌转移情况(有转移y=4;无转移y=0)。0.00.20.40.60.81.0ObservedCumProbqo」dE30Pat)adx3l上图中,数据点围绕基准线存在一-定的规律性。ScatterplotDependentVariable:肾细胞癌转移情况(有转移y=1;无转移y=0)。1-O-1-2-■■-enp一saypaz_p』epu4ssuo_ssa」6aa2-5-I5IO-

相关文档