- 506.23 KB
- 2021-06-24 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
回归分析
学习目标 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.
知识点一 线性回归模型
思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?
答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.
设所求的线性回归方程为=x+,
则===0.5,
=-=0.4.
所以年推销金额y关于工作年限x的线性回归方程为
=0.5x+0.4.
1.函数关系是一种确定性关系,而相关关系是一种非确定性关系.
2.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
3.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线=x+的斜率和截距的最小二乘估计公式分别为==,=- ,其中(,
)称为样本点的中心.
4.线性回归模型y=bx+a+e,其中a和b是模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
知识点二 线性回归分析
具有相关关系的两个变量的回归直线方程=x+.
思考1 预报变量与真实值y一样吗?
答案 不一定.
思考2 预报值与真实值y之间误差大了好还是小了好?
答案 越小越好.
1.残差平方和法
(1)i=yi-i=yi-xi-(i=1,2,…,n)称为相应于点(xi,yi)的残差.
(2)残差平方和(yi-i)2越小,模型拟合效果越好.
2.残差图法
残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度越窄,说明模型的精确度越高.
3.利用相关指数R2刻画回归效果
其计算公式为:R2=1-,
其几何意义:R2越接近于1,表示回归效果越好.
知识点三 建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性相关关系等).
(3)由经验确定回归方程的类型(如观察到数据呈线性相关关系,则选用线性回归方程=x+).
(4)按一定规则估计回归方程中的参数(如最小二乘法).
(5)得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误或模型是否合适等.
类型一 求线性回归方程
例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;(要求:点要描粗)
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
(相关公式:=,=-)
解 (1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,
==9,==4,
=62+82+102+122=344,
===0.7,
=-=4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
反思与感悟 1.求线性回归方程的基本步骤:
(1)列出散点图,从直观上分析数据间是否存在线性相关关系.
(2)计算:,,,,iyi.
(3)代入公式求出=x+中参数,的值.
(4)写出线性回归方程并对实际问题作出估计.
2.
需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
跟踪训练1 某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2016年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
=,=- .
解 (1)由所给数据计算得
=(1+2+3+4+5+6十7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=- =4.3-0.5×4=2.3.
所求回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2016年的年份代号t=10代入(1)中的回归方程,得=0.5×10+2.3=7.3,
故预测该地区2016年农村居民家庭人均纯收入为7.3千元.
类型二 线性回归分析
例2 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求相关指数R2,并说明残差变量对有效穗的影响占百分之几?
解 (1)散点图如下.
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.
设回归方程为=x+,=30.36,=43.5,
=5 101.56,=9 511.43.
=1 320.66,2=1 892.25,2=921.729 6,
iyi=6 746.76.
由=≈0.29,
=- =43.5-0.29×30.36≈34.70.
故所求的线性回归方程为=34.70+0.29x.
当x=56.7时,=34.70+0.29×56.7=51.143.
估计成熟期有效穗为51.143.
(3)由于y=bx+a+e,
可以算得i=yi-i分别为1=0.35,
2=0.718,3=-0.5,4=-2.214,5=1.624,
残差平方和:≈8.43.
(4)(yi-)2=50.18,∴R2=1-≈0.832.
所以解释变量小麦基本苗数对有效穗约贡献了83.2%.残差变量贡献了约1-83.2%=16.8%.
反思与感悟 1.该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
2.刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好.
(3)相关指数法:R2=1-越接近1,表明回归的效果越好.
跟踪训练2 关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个线性模型:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好.
解 由(1)可得yi-i与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.845.
由(2)可得yi-i与yi-的关系如下表:
yi-i
-1
-5
8
-9
-3
yi-
-20
-10
10
0
20
∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.82.
由于R=0.845,R=0.82,0.845>0.82,
∴R>R.
∴(1)的拟合效果好于(2)的拟合效果.
类型三 非线性回归分析
例3 下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.
解 (1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=的周围,其中c1、c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程,数据可以转化为:
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得回归直线方程为
=0.272x-3.849,
∴=e0.272x-3.849.
残差列表如下:
yi
7
11
21
24
66
115
325
i
6.443
11.101
19.125
32.950
56.770
128.381
290.325
i
0.557
-0.101
1.875
-8.950
9.23
-13.381
34.675
(3)当x=40时,=e0.272x-3.849≈1 131.
反思与感悟 非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象:
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象:
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
跟踪训练3 某电容器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表:
t/s
0
1
2
3
4
5
6
7
8
9
10
U/V
100
75
55
40
30
20
15
10
10
5
5
试求:电压U对时间t的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)
解 对U=Aebt两边取对数得ln U=ln A+bt,
令y=ln U,a=ln A,x=t,则y=a+bx, y与x的数据如下表:
x
0
1
2
3
4
5
6
7
8
9
10
y
4.6
4.3
4.0
3.7
3.4
3.0
2.7
2.3
2.3
1.6
1.6
根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得=5,≈3.045,
由公式计算得≈-0.313,=- =4.61,
所以y对x的线性回归方程为=-0.313x+4.61.
所以ln =-0.313t+4.61,即 =e-0.313t+4.61=e-0.313t·e4.61,因此电压U对时间t的回归方程为
=e-0.313t·e4.61.
1.关于回归分析,下列说法错误的是( )
A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的也可以是负的
C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关
D.样本相关系数r∈(-1,1)
答案 D
解析 样本的相关系数应满足-1≤r≤1.
2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是( )
A.①② B.①③ C.②③ D.③④
答案 B
解析 由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型.
3.下表是x和y之间的一组数据,则y关于x的回归直线必过( )
x
1
2
3
4
y
1
3
5
7
A.点(2,3) B.点(1.5,4)
C.点(2.5,4) D.点(2.5,5)
答案 C
解析 回归直线必过样本中心点(,),即(2.5,4).
4.已知x、y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:、、x1y1+x2y2+x3y3+x4y4、x+x+x+x;
(2)已知变量x与y线性相关,求出回归方程.
解 (1)==1.5,
==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)==2,
=- =4-2×1.5=1,
故=2x+1.
回归分析的步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程=x+);
(4)按一定规则估计回归方程中的参数;
(5)得出结果后分析残差图是否有异常(
个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.
一、选择题
1.为了研究变量x和y的线性相关性,甲、乙两人分别利用线性回归方程得到回归直线l1和l2,己知两人计算过程中,分别相同,则下列说法正确的是( )
A.l1与l2一定平行
B.l1与l2重合
C.l1与l2相交于点(,)
D.无法判断l1和l2是否相交
答案 C
解析 回归直线一定过样本点的中心(,),故C正确.
2.甲、乙、丙、丁四位同学在建立变量x, y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好?( )
A.甲 B.乙 C.丙 D.丁
答案 A
解析 相关指数R2越大,表示回归模型的拟合效果越好.
3.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
答案 A
解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
答案 D
解析 回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,A正确;由回归方程系数的意义可知回归直线过样本点的中心(,),B正确;依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,C正确;用回归方程对总体进行估计不能得到肯定的结论,故D错误.
5.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=x+,则( )
A.>0,<0 B.>0,>0
C.<0,<0 D.<0,>0
答案 A
解析 由散点图知<0,>0,故选A.
6.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
答案 B
解析 样本点的中心是(3.5,42),
则=-=42-9.4×3.5=9.1,
所以回归直线方程是=9.4x+9.1,
把x=6代入得=65.5.
二、填空题
7.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为 .
答案 1
解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为1.
8.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R2为 .
答案 0.25
解析 R2=1-=0.25.
9.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:
=,=71,=79,iyi=1 481.
则销量每增加1 000箱,单位成本约下降 元.
答案 1.818 2
解析 由题意知,=≈-1.818 2,
销量每增加1千箱,则单位成本下降1.818 2元.
10.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据(个数)对比结果如下:
与实际相符
数据个数
与实际不符
数据个数
合计
甲回归方程
32
8
40
乙回归方程
40
20
60
合计
72
28
100
则从表中数据分析, 回归方程更好(即与实际数据更贴近).
答案 甲
解析 可以根据表中数据分析,两个回归方程对数据预测的正确率进行判断,甲回归方程的数据准确率为=,而乙回归方程的数据准确率为=.显然甲的准确率高些,因此甲回归方程好些.
三、解答题
11.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图.
(2)求出y关于x的线性回归方程=x+,并在坐标系中画出回归直线.
(3)试预测加工10个零件需要多少时间?
(注:=,=-)
解 (1)散点图如图.
(2)由表中数据得iyi=52.5,
=3.5,=3.5,=54,
所以==0.7.
所以=- =1.05.
所以=0.7x+1.05.
回归直线如图中所示.
(3)将x=10代入回归直线方程,得=0.7×10+1.05=8.05(小时),
所以预测加工10个零件需要8.05小时.
12.为了研究某种细菌随时间x变化繁殖个数y的变化情况,收集数据如下:
时间x(天)
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图.
(2)求y与x之间的回归方程.
(3)计算相关指数R2,并描述解释变量与预报变量之间的关系.
解 (1)散点图如图所示:
(2)由散点图看出样本点分布在一条指数曲线y=c1ec2x的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
所以=0.69x+1.112,则有=e0.69x+1.112.
(3)
6.06
12.09
24.09
48.04
95.77
190.9
y
6
12
25
49
95
190
=(yi-)2=3.164 3,
(yi-)2=-62≈24 642.83,
R2=1-
≈1-≈0.999 9,
即解释变量时间对预报变量繁殖细菌的个数解释了99.99%.
13.已知x,y之间的一组数据如下表:
x
1
3
6
7
8
y
1
2
3
4
5
(1)从x,y中各取一个数,求x+y≥10的概率.
(2)针对表中数据,甲、乙两同学给出的拟合直线分别为y=x+1与y=x+,试利用“最小二乘法”判断哪条直线拟合程度更好.
解 (1)从x,y中各取一个数组成数对(x,y),共有25对,其中满足x+y≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对,故所求概率为P=,所以使x+y≥10的概率为.
(2)用y=x+1作为拟合直线时,y的实际值与所得的y值的差的平方和为s1=2+(2-2)2+(3-3)2+2+2=.
用y=x+作为拟合直线时,y的实际值与所得的y值的差的平方和为s2=(1-1)2+(2-2)2+2+(4-4)2+2=.
∵s1>s2,∴直线y=x+拟合程度更好.