• 578.50 KB
  • 2022-09-01 发布

《统计学回归分析》ppt课件

  • 67页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第八章直线回归与相关变量间的关系有两类①一类是函数关系,变量间存在着完全确定性的关系,可以用精确的数学表达式来表示,如长方形的面积(S)与长(a)和宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中一个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。\n②另一类是相关关系,变量间关系不存在完全的确定性关系,不能用精确的数学公式来表示。如人的身高与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。\n对于两个相关变量(也称协变量)关系一般分为两种一种是因果关系,即一个变量的变化受另一个或几个变量的影响,如仔猪的生长速度受遗传、营养、饲养管理等因素的影响,子女的身高受父母身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。变量间的关系及分析方法归纳如下:\n\n对于两个相关变量(也称协变量),一个变量用符号x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的成对观测值,可表示为(x1,y1),(x2,y2),……,(xn,yn)。为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图(见图9-1)。\n图9-1(x,y)的散点图\n从散点图(图9-1)可以看出:①两个变量间关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);②两个变量间关系的类型,是直线型还是曲线型;③是否有异常观测值的干扰。散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来\n统计学上一般采用回归分析(regressionanalysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种\n回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。\n统计学上一般采用相关分析(correlationanalysis)研究呈平行关系的相关变量之间的关系。对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,变量无自变量和依变量之分。相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关的程度,不能用一个或多个变量去预测、控制另一个变量的变化,这是回归分析与相关分析区别的关键所在。但是二者也不能截然分开,因为由回归分析可以获得相关的一些重要信息,由相关分析也能获得回归的一些重要信息。\n第一节直线回归一、直线回归方程的建立直线回归是回归分析中最基本、最简单的一种,故又称为简单回归。回归关系是对每一个x的取值xi,都有y的一个分布与之对应,而不是一个确定的yi与之相对应。但是,当x=xi时,yi的平均数μy/x=xi是与之相对应的,μy/x=xi称为y的条件平均数。在这种情况下,我们可以用直线回归方程来描述x与y的关系,其一般形式为:(i=1,2,…,n)(9-1)其中,x是自变量,是与x值相对应的倚变量y的条件平均值的点估计。\n回归直线在平面坐标系中的位置取决于a、b的取值,为了使能最好地反应y和x两变量间的数量关系,根据最小二乘法,a、b应使回归估计值与观测值的偏差平方和最小,即:最小。\n根据微积分学中的极值原理,令Q对a、b的一阶偏导数等于0,即:整理得关于a、b的正规方程组:\n\na叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,=a;b叫做样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的程度。\n图9-2直线回归方程的图象\na和b均可取正值,也可取负值,因具体资料而异,由图9-2可以看出,a>0,表示回归直线在第一象限与y轴相交;a<0表示回归直线在第二象限与x轴相交。b>0,表示y随x的增加而增加;b<0;表示y随x的减少而减少;b=0或与0差异不显著时,表示y的变化与x的取值无关,两变量间不存在直线回归关系。这只是对a和b的统计学解释,对于具体资料,a和b往往还有专业上的实际意义。叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数估计值。\n可发现回归方程的三个基本性质:\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nF检验的结果与t检验的结果一致。事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。由于孵化历期平均温度(x)与历期天数(y)之间存在显著的直线关系。因此,可以通过黏虫孵化历期平均温度(x)对孵化历期天数(y)作出预测或控制。特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。\n*四、直线回归的区间估计前面已求出了总体回归截距a、回归系数β和x所对应的y值总体平均数a+βx的估计值a,b和。这仅是一种点估计。下面在一定置信度下对α、β以及α+βx作出区间估计。\n\n\n\n\n\n\n\n\n\n\n\n\n\n由图9-5可以看出,单个y的置信带要比的置信带宽,x偏离越远,置信带越宽,预测效果越差。通过图9-5中与单个y的95%置信带,就可由黏虫孵化历期平均温度对孵化历期天数直接作出预报。\n第二节直线相关如果两个变量间呈线性关系,又不需要由x来估计y,只需要了解x和y的相关程度以及相关性质,就可以直线相关分析。进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量——相关系数r并进行显著性检验。\n相关系数和决定系数设有一双变量总体资料,总体个数为N,这N对观测值在平面直角坐标系中可用坐标点表示。表示两个变量直线相关的相关程度和性质可用乘积和来表示。但是,不同的双变量资料其乘积和无可比性,因为x和y的变异程度及其度量单位、N的大小都会影响乘积和。要消除这种影响,可将离均差转换成以各自的标准差为单位,使之成为标准离差,再以N除之。\n\n\n\n\n\n\n\n

相关文档