- 638.50 KB
- 2021-05-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
变量间的相关关系、回归方程
学习目标
【课前自主复习区】知识梳理,变量间的相关关系及拟合效果分析
【课堂互动探究区】 目标分解一:线性回归方程及其应用
目标分解二:非线性回归分析及应用
重难点
线性回归方程及其应用
合作探究
课堂设计
学生随堂手记
【课前自主复习区】
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是 ;与函数关系不同,相关关系是一种 关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有 ,这条直线叫 .
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为 ,点分布在左上角到右下角的区域内,两个变量的相关关系为 .
(3)线性回归方程为=x+,其中.
由此可知,回归直线必过 点,但可能所有的样本数据点都不在直线上.
(4)相关系数
当r>0时,表明两个变量 ;
当r<0时,表明两个变量 .
r的绝对值越接近于1,表明两个变量的线性相关性 .r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
9
3.非线性回归分析
如果在样本数据的散点图中,样本点并没有分布在某一条直线附近,而是分布在某一条曲线(如二次函数、指数函数、对数函数等)的周围,我们就称这两个变量之间不具有线性相关关系,而是非线性相关关系.对这样的两个变量进行回归分析,称为非线性回归分析.
(1)指数型拟合:,令,
(2)对数型拟合:,令,则,
(3)幂函数型拟合,令,再令
★4.刻画模型拟合效果的方法:残差分析和相关指数
① 残差:样本值与回归值的差叫残差,即.
② 残差分析:通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.
③ 残差图:以残差为横坐标,以样本编号,或身高数据,或体重估计值等为横坐标,作出的图形称为残差图. 观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.
(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即.
(2)残差平方和:回归值与样本值差的平方和,即.
(3)回归平方和:相应回归值与样本均值差的平方和,即.
通过比较两个模型的残差的平方和的大小来判断模型的拟合效果. 残差平方和越小的模型,拟合的效果越好.
【学习要领】
①注意、、的区别;
②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即;
③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,
它表示解释变量对预报变量变化的贡献率. 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.
9
⑤相关指数,在含有一个解释变量的线性模型中,恰好等于相关系数r的平方.
【双基自测】
1.(2009新课标全国文理3)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
2.(2012新课标全国文3)在一组样本数据(,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为 ( )
A. -1 B.0 C. D.1
x
0
1
3
4
y
2.2
4.3
4.8
6.7
3.已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为=0.95x+,则=________.
x
3
4
5
6
y
2.5
t
4
4.5
4.表中提供了某厂节能降耗技术改造后生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.根据下表提供的数据,求出y关于x的线性回归方程为=0.7x+0.35,那么表中t的值为( )
A.3 B.3.15
C.3.5 D.4.5
5.(2017·东营模拟)已知变量x与y之间的回归直线方程为=-3+2,若xi=17,则yi
9
的值等于( )
A.3 B.4
C.0.4 D.40
6. 已知回归方程,则样本点P(4,2.71)的残差为________________。
7. 已知线性相关的两变量,的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则点C 的残差是________。
8. 若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足yi=bxi+a+ei (i=1、2. …n)若ei恒为0,则R2为
9. 已知线性相关的两变量,的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则其相关指数________。
10.将非线性模型进行适当变形使之线性化。
【课堂互动探究区】
【目标分解一】线性回归方程及其应用
【例1】 (2016新课标全国三文理18)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(I)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(II)建立关于的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
9
附注:参考数据:,,,≈2.646.
参考公式:见课前案
【规律总结1】:
求解回归方程的关键是确定回归系数,,因求解的公式计算量太大,一般题目中给出相关的量,如,,x,xiyi等,便可直接代入求解.充分利用回归直线过样本中心点(,),即有=+,可确定.
[注意] 回归直线方程恒过点(,).
【对点训练】
【我会做】1.(2014新课标全国二理19)某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表:
年份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(Ⅰ)求y关于t的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:
,
9
【目标分解二】非线性回归分析及应用
【例2】(2015新课标全国一文理19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x1和年销售量y1(i=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值。
46.6
56.3
6.8
289.8
1.6
1469
108.8
表中w1 =1, ,=
(Ⅰ)根据散点图判断,y=a+bx与y=c+d 哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y关于x的回归方程;
(Ⅲ)已知这种产品的年利率z与x、y的关系为z=0.2y-x.根据(Ⅱ)的结果回答下列问题:
(i) 年宣传费x=49时,年销售量及年利润的预报值是多少?
(ii) 年宣传费x为何值时,年利率的预报值最大?
附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为:,
9
【对点训练】
【我会做】1、(2017·赣州摸底考试)在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=11,yi=13,x=21,则实数b的值为________.
★【我能做对】2、
9
【规律总结2】:
①通过散点图,判断回归模型的形式是线性的还是非线性的,若为非线性的,可以通过变化趋势选择合适的模型,求出模型后,通过相关指数判断哪个模型拟合效果较好;
②非线性回归问题可以通过变换转化为用线性回归方法去解决,转化过程中,注意数据也相应地跟着变化;
③利用变量替换转化为线性问题,解决后要再转化回来.
【课后分层巩固区】
价格x
9
9.5
m
10.5
11
销售量y
11
n
8
6
5
1.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
2.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).
第30届
伦敦
第29届
北京
第28届
雅典
第27届
悉尼
第26届
亚特兰大
中国
38
51
32
28
16
俄罗斯
24
23
27
32
26
(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图;
(2)下表是近五届奥运会中国代表团获得的金牌数之和y(从第26届算起,不包括之前已获得的金牌数)随时间x变化的数据:
时间x(届)
26
27
28
29
30
金牌数之和y(枚)
16
44
76
127
165
9
作出散点图如下:
由图可以看出,金牌数之和y与时间x之间存在线性相关关系,请求出y关于x的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:=28,=85.6,
9