- 477.50 KB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第五章线性回归分析引言一.相关关系的概念与种类1.相关关系的概念(1)函数关系。是指现象之间客观存在的一种十分严格的确定性的数量关系。\n(2)相关关系。是指存在于现象之间的一种非确定性的数量关系。相关关系有两个特点:①现象之间确实存在着数量上的依存关系。\n②现象间的数量依存关系值是不确定的。2.相关关系的种类(1)按相关的方向区分按变量之间相关关系的方向可分为正相关和负相关\n\n(2)按相关的形式区分按变量之间相关关系的表现形式,可分为线性相关和非线性相关。\n(3)按相关程度区分按相关的程度可分为完全相关、不完全相关和不相关\n\n(4)按研究的变量区分按所研究的变量多少可分为单相关、复相关和偏相关。二.相关分析1.相关关系的描述——相关表与相关图(1)相关表\n10个企业销售额与利润资料企业序号产品销售总额(万元)利润总额(万元)12345678910180300450530600710880100011001250153450757291110108120125\n利润总额︵万元︶\n2.相关关系的测定——相关系数(1)相关系数的定义相关系数是测定变量之间关系密切程度的量。总体相关系数的定义公式是:\n样本相关系数的定义公式是:(2)相关系数的特点①r的取值介于-1与1之间。②当r=0时,x和y的样本观测值之间没有线性关系。\n③在大多数情况下,,即x和y的样本观测值之间存在着一定的线性关系,当r>0时,x和y为正相关;当r<0时,x和y为负相关。④如果,则表明x和y完全线性相关,当r=1时,称为完\n全正相关,而称为完全负相关。⑤r是对变量之间线性相关关系的度量。(3)相关系数的计算\n相关系数计算表\n三.回归分析的概念回归分析与相关分析的区别(1)相关分析研究了变量之间相关的方向和相关的程度,回归分析则是研究变量之间相互关系的具体形式。\n(2)相关分析可以不必确是自变量,还是因变量,其变量可以都是随机变量。回归分析则必须事先研究确定具有相关关系的变量中哪个是自变量,哪个是因变量。因变量是随机的,自变量是非随机变量。\n第一节简单线型回归分析一、散点图将N对观察结果作为直角坐标平面上点的坐标,并将这些点画在直角坐标平面上,这样得到的图称为散点图。\n【例】实测某地四周岁至十一周岁女孩的七个年龄组的平均身高(单位:厘米),如下表所示:某地女孩身高的实测数据女孩年龄()4.55.56.57.58.59.510.5平均身高()101.1106.6112.1116.1121.0125.5129.2试考察身高y与年龄x的相关关系\n直线方程为:\n二、简单线型回归模型及其基本理论假设如果一个因变量与一个自变量有相关关系,根据观察数据作散点图时,它们的关系具有直线趋势,则可以用一元线性回归直线取进行拟合。\n【5.1】【5.2】\n三、简单线型回归模型的基本特征\n\n四、回归参数的最小二乘估计\n采用最小二乘法在所有可能直线中使误差平方和Q达到最小的回归直线\n【5.3】\n\n\n【例】依上例提供的数据,建立身高y与年龄x的线性回归方程。依据上表数据可以计算:据此,求出女孩身高关于年龄的回归方程为:\n建立一元线性回归方程后,还应理解的几个问题:(1)不要把根据回归方程求出的因变量y的理论回归值看成是个确定性数值。\n(2)回归方程中的两个回归系数,其中为回归直线的起点值,是回归直线的斜率,它表示自变量每变动一个单位量时,因变量的平均变化量。\n(3)回归系数的取值有正负号,应当明确,根据同一组数据求出的回归直线方程中的数值和相关分析中的相关系数r值,两者的符号应当一致。\n例现以某企业产品产量与单位成本资料进行相关分析与回归分析。月份产量(千件)X单位成本(元/件)YXY127314645329237221695184347128416504143732199532954692761647616568340254624合计2142614817930268\n相关系数:\n回归方程:∴b=a=\n五、σ2的估计,可决系数与相关系数总平方和的分解:\n利润总额︵万元︶●\n总平方和的分解:总偏差平方和:误差平方和:回归平方和:\n于是,通过推导得上述三个平方和的分解式ST=SE+SR\n平均误差平方和:MSE=SEn-2平均回归平方和:MSR=SR1可决系数:r2=SRST\n相关系数定义式:相关系数计算式:\n相关系数是测定变量之间关系密切程度的量。相关系数的特点①r的取值介于-1与1之间。②当r=0时,x和y的样本观测值之间没有线性关系。\n③在大多数情况下,,即x和y的样本观测值之间存在着一定的线性关系,当r>0时,x和y为正相关;当r<0时,x和y为负相关。\n全正相关,而称为完全负相关。⑤r是对变量之间线性相关关系的度量。④如果,则表明x和y完全线性相关,当r=1时,称为完\n六、回归效果的显著性检验与方差分析表(一)F检验法\n从假设检验的角度来看,y与x之间线性相关性的讨论,相当于对待验假设进行显著性检验。如果检验的结果拒绝,那么可以认为y与x之间线性相关关系是显著的,否则认为是不显著的。\n可以证明,在成立的条件下,有检验统计量:MSRMSEF==(n-2)r21-r2\n由此可见,F统计量也是衡量y与x线性相关程度的指标。\n一元回归分析的方差分析是将回归平方和与误差平方和各自除于自己的自由度后加以比较,然后对这个方差作显著性检验的方法。\n如果检验结果是显著的,说明x和y存在线性关系,回归效果显著;反之,则说明x和y不存在线性关系,回归效果不显著。为此,可用检验统计量为:\n\n\nn-1总的n-2误差当F≥Fα(1,n-2)时,回归效果显著;反之,则不显著。回归统计推断F值均方和自由度平方和来源一个自变量的线性回归方差分析表1\n例:为研究家庭收入和食品支出的关系,随机抽取了10个家庭,得到数据如下表,试根据这些数据建立收入和支出的回归方程,并解释结果和预测当家庭收入为50时的食品支出。\n\n解:设收入为自变量X,支出为因变量Y,将样本数据绘制散点图,如下所示:从散点图上可以看出,家庭收入与食品支出的关系近似线性关系,因此,设收入与支出的关系为:=a+bx\n\n\n\n\n9总的8误差回归效果显著5.32回归统计推断置信限Fα(1,n-2)F值均方和自由度平方和来源收入和支出的线性回归方差分析表1\n\n(二)t检验法\n\n七、回归参数的假设检验与区间估计回归方程中的两个回归参数,为回归直线的起点值,是回归直线的斜率,它表示自变量X每变动一个单位量时,因变量Y的平均变化量。\n(一)回归系数b的假设检验 与区间估计\n\n【5.5】【5.4】\n八、预测(1)预测公式(2)预测误差\n其中称为回归方程的剩余标准离差。\n在小样本时,置信度为,的预测区间为:\n大样本时,置信度为,的预测区间为:【5.6】\n第二节多元线性回归分析一、多元线性回归模型及其基本理论假设二、回归参数的最小二乘估计三、σ2的估计,复可决系数四、多元线性回归模型假设检验五、估计与预测六、多项式回归模型\n第三节线性回归模型的适宜性评价对于线性回归模型理论假设的检验称为线性回归模型的适宜性评价。\n一、非线性如果总体是非线性的,而我们仍旧采用线性回归模型来分析,就会有以下的问题:\n(1)回归参数b的估计量b不是有效估计量;(2)无法准确地估计σ2;(3)有关回归模型的推断、检验和应用都会失去准确性。\n检验非线性的一个简单方法就是散点图法:在直角坐标系上绘y与x的散点图,或y与残差e的散点图,通过观察判断此线性模型是否适宜。\n二、异方差性如果样本数据存在异方差现象,对它应用线性回归模型拟合的话,会有以下问题:\n(1)回归系数的最小二乘估计不具有有效性;(2)无法准确地确定回归参数的置信区间;(3)假设检验的结论无效。\n散点图是一种简单的检查异方差是否存在的方法:在直角坐标系上绘出y与残差e的散点图,或每一个xi与e的散点图,观察e是否随y,xi的变化而变化.\n三、序列相关性如果随机误差项之间存在着序列相关,则会产生下列问题:\n(1)回归参数的最小二乘估计虽然是无偏的,但不是有效的;(2)回归效果的显著性检验不再有效;(3)预测失去准确性。可以时间为横坐标,残差e为纵坐标,画散点图,进行观察。\n四、非正态性一般情况下,随机误差项稍微偏差正态分布,不会产生严重问题.但是,如果严重偏差正态分布的话,那么正态假设条件下的统计推断、估计和预测就失去了意义。\n可以建立残差e的直方图,观察图形是否正态或接近正态。五、多重共线性在多元线性回归模型中,我们假设模型所包含的自变量之间线性独立或线性无关,\n否则,称自变量之间线性相关或不独立。模型的自变量之间如出现线性相关,则称该模型存在多重共线性,最小二重估计失效。\n多重共线带来的问题有:(1)一般情况下,严格的共线性不多见,经常存在的是近似共线性,由此,得到模型的最小二乘估计虽然是无偏的,但方差很大,估计的精度很低。\n(2)多重共线性的存在也会导致错误的假设检验的结论.因变量与全体或部分自变量之间本来十分显著的相关关系,可能会由于自变量之间的相关关系而检验不出来.\n(3)增加或减少一个自变量将会导致回归参数的估计值发生大的变化,甚至发生符号变化。这种现象使我们很难解释回归系数的意义。\n常用的检查多重共线性的方法有:(1)散点图法:由自变量之间散点图观察它们之间是否存在显著的相关性。(2)计算自变量之间的相关系数rxixj,rxixj越接近1时,说明自变量xi和xj之间高度相关。