- 1.60 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第十一章相关与回归分析变量间关系的度量一元线性回归分析\n第一节变量间关系的度量变量间的关系相关关系的描述与测度\n一、变量间的关系在生产经营活动中,我们经常要对变量之间的关系进行分析。比如,在企业生产中,我们要对影响生产成本的各种因素进行分析,以达到控制成本的目的;在农业生产中,我们需要研究农作物产量与施肥量的关系,以便分析施肥量对产量的影响,进而确定合理的施肥量;商业活动中,我们需要分析广告费支出与销售量之间的关系,进而通过广告费支出来预测销售量等。变量之间的关系形态可分为两种类型:函数关系和相关关系。我们比较熟悉的\n一、变量间的关系例1:某种产品的销售额和销售量之间的关系。设销售额为y,销售量为x,销售价格为p,则x与y之间的关系可表示为y=px。这就是说,在销售价格不变的情况下,对于该商品的某一销售量,总有一个销售额与之对应,即销售额完全由销售量所确定,二者之间为线性函数关系。\n例2:企业的原材料消耗额(y)与产量(x1),单位产品消耗(x2),原材料价格(x3)之间的关系可表示为y=x1x2x3。这里的y与x1、x2、x3之间是一种确定的函数关系,但它们不是线性函数关系。函数关系是一一对应的确定关系。\n但实际问题中,变量之间的关系往往不那么简单。例如:我们考察家庭储蓄与家庭收入这两个变量,它们之间不存在完全确定的关系。定义1:我们把变量之间存在的不确定的数量关系称为相关关系。\n例3:从遗传学角度看,子女的身高(y)与其父母的身高(x)有很大关系。一般来说,父母身高较高时,其子女的身高通常也高,父母身高较低时,其子女的身高通常也较低。但实际情况并不完全如此,因为它们之间不是完全确定的关系。显然,子女的身高并不完全由父母身高一个因素所决定,还受其他许多因素的影响,因此二者之间属于相关关系。总结:从上面的例子可以看出,相关关系的特点是:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。对这种关系不确定的变量显然不能用函数关系进行描述,但也不是无规律可循。通过大量数据的观察与研究,我们会发现许多变量之间确定存在着一定的客观规律。如:平均来说,父母身高较高时,其子女的身高一般也较高;收入水平高的家庭,其家庭储蓄一般也较多。\n相关与回归分析正是描述与探索这类变量之间关系及其规律的统计方法。\n二、相关关系的描述与测度(一)散点图(二)相关系数\n(一)散点图相关分析就是对两个变量之间线性关系的描述与度量。对于两个变量x和y,通过观察或试验我们可以得到若干组数据,记为(xi,yi)(i=1,2,3…)。相关分析所要解决的问题是,根据这些数据确定变量之间是否存在相关关系,如果存在的话,如何描述出它们之间的关系并对其关系强度进行测度。\n定义2:用坐标的水平轴代表变量x,纵轴代表因变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及散点形成的二维数据图称为散点图。\n(e)非线性相关(f)不相关不同形态的散点图\n例:一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例提高,这给银行业务的发展带来压力。为弄清楚不良贷款形成的原因,研究人员希望利用银行业务的有关的有关数据作些定量分析,以便找出控制不良贷款的办法。下表是该银行所属25家分行2002年的有关业务数据。\n某商业银行2002年的主要业务数据研究人员想知道,不良贷款是否与与贷款余额、应收贷款,贷款项目的多少、固定资产投资等因素有关?是什么样的关系?关系强度如何?\n\n由散点图可以看出:不良贷款与贷款余额、应收贷款、贷款项目个数、固定资产投资额之间都具有一定的线性关系,但从各散点的分布情况看,与贷款余额线性关系比较密切,而与固定资产投资额关系最不密切。\n(二)相关系数通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态作出大致描述,但散点图不能准确反映变量之间的关系密切程度。因此,为准确度量两个变量之间的关系密切程度,需要计算相关系数。\n定义3:根据样本数据计算的对两个变量之间线性关系强度的度量值,称为相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若是根据样本数据计算的,则称为样本相关系数,记为r。样本相关系数的计算公式为:\n简化公式为:\n例:根据表中数据,计算不良贷与贷款余额之间的相关系数。各相关系数的各数值说明了什么?\n可以证明:相关系数的取值范围在+1~-1之间,即-1≤r≤1。若0<r≤1,x与y之间存在正线性相关关系;-1≤r<0,x与y之间存在负线性相关关系;r=+1,表明x与y之间为完全正线性相关关系;r=-1,表明x与y之间为完全负线性相关关系;r=0时,表示两个变量不存在线性相关关系。注:r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,比如它们之间可能存在非线性相关关系。|r|1,说明变量之间线性关系越密切。\n|r|≥0.8时,可视为高度相关,0.5≤|r|<0.8时,可视为中度相关;0.3≤|r|<0.5时,视为低度相关;|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。\n三、相关关系的显著性检验一般情况下,总体相关系数ρ是未知的,通常是根据样本相关系数r作为ρ的近似估计值。由于r是根据样本数据计算出来的,它受到抽样波动的影响,由于抽取的样本不同,r取值不同,因此r是一个随机变量。注:能否根据样本相关系数说明总体的相关程度呢?这就需要考察样本相关系数的可靠性,也就是需要考察样本相关系数的可靠性,也就是显著性检验。\n第二节一元线性回归分析相关分析的目的在于测度变量之间的关系密切程度,它所使用的测度工具就是相关系数。回归分析侧重于考察变量之间的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。\n一、一元线性回归模型二、参数的最小二乘估计\n一、一元线性回归模型(一)回归模型(二)回归方程\n(一)回归模型定义4:在回归分析中,被预测或被解释的变量,称为因变量,用y表示。定义5:在回归分析中,用来预测或用来解释因变量的一个或多个变量,称为自变量,用x表示。例如:在分析贷款余额对不良贷款的影响时,我们的目的是预测一定的贷款余额条件下的不良贷款是多少。因此不良贷款是被预测的变量,称为因变量,而用来预测不良贷款的贷款余额就是自变量。\n定义6:在回归分析中,只涉及一个自变量的回归,称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。定义7:描述因变量y如何依赖于自变量x和误差项ε的方程,称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为:y=β0+β1x+ε反映了由于x的变化而引起的y的线性变化;称为误差项,是一个随机变量,它反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x与y之间的线性关系所解释的变异性β0、β1称为模型的参数\n以上模型有三个假定:(1)误差项是一个期望值为零的正态分布随机变量,并且ε相互独立。(2)当x固定为某一值xi时,y为正态分布的随机变量,即y~N(β0+β1xi,σ2)(3)y的方差σ2是一个不变的常量;(4)每一对观察数据(xi,yi)和另一对观察数据(xi,yi)都是相互独立地进行观察所得到的。独立性意味着对于一个特定的x值,它所对应的ε与其他x值对应的ε不相关。\n(二)回归方程根据回归方程中的假定,ε的期望值等于零,因此y的期望值E(y)=β0+β1x,也就是说y的期望值是x的线性函数。\n定义8:描述因变量y的期望值如何依赖于自变量x的方程,称为回归方程。一元线性回归方程的形式为:E(y)=β0+β1x一元线性回归方程的图示是一条直线,因此也称为直线回归方程。β0为回归直线在y轴上的截距,当x=0时y的期望值β1为直线的斜率,它表示当x每变动一个单位时,y的平均变动值。\n(三)估计的回归方程如果回归方程中的参数β0和β1已知,对于一个给定的x值,利用式E(y)=β0+β1x可以计算出y的期望值。但回归参数β0和β1是未知的,我们必须利用样本数据去估计它们。用样本统计量β0和β1代替回归方程中的未知参数β0和β1,这时我们就得到了估计的回归方程。\n定义9:利用最小二乘法,根据样本数据求出的回归方程的估计,称为估计的回归方程。对于一元线性回归,估计的回归方程形式如下:y=β0+β1xβ0为估计的回归直线在y轴上的截距β1为直线的斜率,它表示对于一个给定的x值,y是y的估计值\n二、参数的最小二乘估计对于x和y的n对观察值,用于描述其关系的直线有多条,究竟用哪直线来代表两个变量之间的关系,需要有一个明确的原则。我们采用距离各观察点最近的一条直线来代表x与y之间的关系。最小二乘法是使因变量的观察值yi与估计值yi之间的离差平方和达到最小来求得β0和β1的方法。即\n定义10:使因变量的观察值与估计值之间的离差平方和达到最小来求得β0和β1的方法,称为最小二乘法。令Q=,求使用权Q最小的β0和β1值,\n例:根据数据,求不良贷款对贷款余额的估计方程。解:根据公式:即不良贷款对贷款余额的估计方程为:y=-0.8295+0.037895x。回归系数β1=0.037895,表示贷款余额每增加1亿元,不良贷款平均增加0.037895亿元。将xi的各个取值代入上述估计方程,可以得到不良贷款的各个估计值yi,由下图可以看出散点图与回归直线的关系。\n将xi的各个取值代入上述估计方程,可以得到不良贷款的各个估计值yi。由下图可以看出散点图与回归直线的关系。\n练习某企业的产量与产品成本情况如表所示(1)计算相关系数;(2)建立单位产品依产量的直线方程。年份产量(千台)单位成本(元/台)1998473019996720200087102001673020028690200310680