- 834.11 KB
- 2021-06-24 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
1
变量的相关性
(1)会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.
(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
回归分析
了解回归分析的基本思想、方法及其简单应用.
1.相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫做相关关系.即相
关关系是一种非确定性关系.
当一个变量的值由小变大时,另一个变量的值也由小变大,则这两个变量正相关;
当一个变量的值由小变大时,而另一个变量的值由大变小,则这两个变量负相关.
【注意】相关关系与函数关系的异同点:
共同点:二者都是指两个变量间的关系.
不同点:函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不
一定是因果关系,可能是伴随关系.
2.散点图
将样本中的 n 个数据点 描在平面直角坐标系中,所得图形叫做散点图.
从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在
从左上角到右下角的区域内,两个变量的相关关系为负相关.
具有正相关关系的两个变量的散点图如图 1,具有负相关关系的两个变量的散点图如图 2.
3.回归分析
如果散点图中点的分布从整体上看大致在一条直线附近,则这两个变量之间具有线性相关关系,这条直
( )( 1, )2i ix y i n , , ,
2
线叫做回归直线.
回归直线对应的方程叫做回归直线方程(简称回归方程).
4.回归方程的求解
(1)求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.
若变量 x 与 y 具有线性相关关系,有 n 个样本数据 ,则回归方程 中
, .
其中 ,
称为样本点的中心.
(2)线性回归模型 ,其中 称为随机误差,自变量 称为解释变量,因变量 称为预报
变量.
【注意】①回归直线 必过样本点的中心 ,这个结论既是检验所求回归直线方程是否准
确的依据,也是求参数的一个依据.
②利用回归直线方程不但可以预测在 x 取某一个值时,y 的估计值,同时也能知道 x 每增加 1 个单位,
的变化量.
③在回归直线方程中, 既表示直线的斜率,又表示自变量 x 的取值每增加一个单位时,函数 y 的改变
量.
5.相关系数
(1)样本相关系数 r 的计算公式
我 们 可 以 利 用 相 关 系 数 来 定 量 地 衡 量 两 个 变 量 之 间 的 线 性 相 关 关 系 , 计 算 公 式 为
.
(2)样本相关系数 r 的性质
① ;
( )( 1, )2i ix y i n , , , ˆˆ ˆy bx a
1 1
2 2 2
1 1
( )( )
( )
ˆ
n n
i i i i
i i
n n
i i
i i
x x y y x y nx y
b
x x x nx
ˆˆa y bx
1 2
1
1 ,
n
n
i
i
x xx xn n
x
2
1
11 n
n
i
i
y yn n
y y y
( , )x y
y bx a e e x y
ˆˆ ˆy bx a ( , )x y
ˆy
ˆb
1
2 2
1 1
( )( )
( ) ( )
n
i i
i
n n
i i
i i
x x y y
r
x x y y
| | 1r
3
②当 r>0 时,表明两个变量正相关;当 r<0 时,表明两个变量负相关;
③|r|越接近于 1,表明两个变量的线性相关性越强;
④|r|越接近于 0,表明两个变量的线性相关性越弱.
6.非线性回归分析
对某些特殊的非线性关系,可以通过变量转换,把非线性回归问题转化成线性回归问题,然后用线性回
归的方法进行研究.
在大量的实际问题中,所研究的两个变量不一定都呈线性相关关系,当两变量 y 与 x 不具有线性相关关
系时,要借助散点图,与已学过的函数(如指数函数、对数函数、幂函数等)的图象相比较,找到合适的
函数模型,利用变量代换转化为线性函数关系,从而使问题得以解决.
7.刻画回归效果的方式
方式方法 计算公式 刻画效果
越接近于 1,表示回归的效果越好
残差图
称为相应于点 的
残差,
残差点比较均匀地落在水平的带状区域中,
说明选用的模型比较合适,其中这样的带状
区域的宽度越窄,说明模型拟合精确度越高.
残差平方和 残差平方和越小,模型的拟合效果越好
考向一 相关关系的判断
判定两个变量正、负相关性的方法:
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个
变量负相关;
(2)相关系数:r>0 时,正相关;r<0 时,负相关;
2R 2R
2
1
2
1
ˆ( )
1
( )
n
i i
i
n
i
i
y y
y y
2R
ˆie ( , )i ix y
ˆie ˆi iy y
2
1
ˆ( )
n
i i
i
y y
4
(3)线性回归方程中: 时,正相关; 时,负相关.
典例 1 给出下列有关线性回归分析的四个命题:
①线性回归直线未必过样本数据点的中心 ;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关系数 时,两个变量正相关;
④如果两个变量的相关性越强,则相关系数 就越接近于 .
其中真命题的个数为
A. B.
C. D.
【答案】A
1.对两个变量 进行线性回归分析,计算得到相关系数 ,则下列说法中正确的是
A. 与 正相关 B. 与 具有较强的线性相关关系
C. 与 几乎不具有线性相关关系 D. 与 的线性相关关系还需进一步确定
2.某国际控股有限公司 2012~2017 年的年广告支出 y(单位:百万元)与年利润 x(单位:百万元)的统计资料如表
所示:
年份 2012 2013 2014 2015 2016 2017
支出 y 0.64 0.72 0.79 0.85 0.98 1.06
利润 x 11.9 13.1 15.7 17.1 19.6 21.5
根据统计资料,则
A.利润的中位数是 15.7,y 与 x 为正相关关系 B.利润的中位数是 16.4,y 与 x 为正相关关系
C.利润的中位数是 17.1,y 与 x 为负相关关系 D.利润的中位数是 16.4,y 与 x 为负相关关系
ˆ 0b ˆ 0b
( , )x y
0r
r 1
1 2
3 4
5
考向二 线性回归方程及应用
求回归直线方程的一般步骤:
(1)作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否
在一条直线附近,从而判断两变量是否具有线性相关关系. #@网
(2)当两变量具有线性相关关系时,求回归系数 ,写出回归直线方程.
(3)根据方程进行估计.
典例 2 某车间加工的零件数 与加工时间 的统计数据如下表:
零件数 (个) 10 20 30
加工时间 (分钟) 21 30 39
现已求得上表数据的回归方程 中的 值为 ,则据此回归模型可以预测,加工 个零件所需
要的加工时间约为
A. 分钟 B. 分钟
C. 分钟 D. 分钟
【答案】C
典例 3 一商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格:
ˆˆa b、
x y
x
y
ˆˆ ˆy bx a ˆb 0.9 100
84 94
102 112
6
(1)在给定的坐标系中画出表中数据的散点图,并由散点图判断销售件数 与进店人数 是否线性相关?
(给出判断即可,不必说明理由)
(2)建立 关于 的回归方程(系数精确到 0.01),并预测进店人数为 80 时,商品销售的件数(结果保留整
数).
参考数据: , , , , , .
参考公式:回归方程 ,其中 , .
【解析】(1)散点图如图所示:
由散点图可以判断,商品件数 与进店人数 线性相关.
(2)因为 , , ,
, , ,
7
2
1
5075i
i
x
7
1
3245i i
i
x y
1
2 2
1
ˆ
n
i i
i
n
i
i
x y nx y
b
x nx
ˆˆa y bx
7
1
3245i i
i
x y
25x 15.43y
7
2
1
5075i
i
x
27 4375x 7 2700x y
7
所以 ,
.
所以回归方程为 ,
当 时, .
所以预测进店人数为 80 时,商品销售的件数为 58.
3.已知线性回归方程 ,当变量 每增加一个单位时,则 的变化情况正确的是
A. 平均增加约 1.2 个单位 B. 平均增加约 3 个单位
C. 平均减少约 1.2 个单位 D. 平均减少约 3 个单位
4.炼钢是一个氧化降碳的过程,由于钢水含碳量的多少直接影响冶炼时间的长短,因此必须掌握钢水含碳
量和冶炼时间的关系.现已测得炉料熔化完毕时钢水的含碳量 与冶炼时间 (从炉料熔化完毕到出钢的
时间)的一组数据,如下表所示:
1 2 3 4 5 6 7 8 9 10
104 180 190 177 147 134 150 191 204 121
100 200 210 185 155 135 170 205 235 125
10400 36000 39900 32745 22785 18090 25500 39155 47940 15125
(1)据统计表明, 与 之间具有线性相关关系,请用相关系数 加以说明( ,则认为 与 有较
强的线性相关关系,否则认为没有较强的线性相关关系, 精确到 0.001);
(2)建立 关于 的回归方程(回归系数的结果精确到 0.01);
(3)根据(2)中的结论,预测钢水含碳量为 160 个 0.01%的冶炼时间(取整数).
参考公式:回归方程 中斜率和截距的最小二乘估计分别为 , ,相关
7
1
7
2 2
1
7 3245 2700 0.785075 437
ˆ
57
i i
i
i
i
x y x y
b
x x
ˆˆa y bx 15.43 0.78 25 4.07
1
2 2
1
ˆ
n
i i
i
n
i
i
x y nx y
b
x nx
8
系数 .
参考数据: ,
.
考向三 非线性回归方程及应用
求非线性回归方程的步骤:
1.确定变量,作出散点图.
2.根据散点图,选择恰当的拟合函数.
3.变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
4.分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.
5.根据相应的变换,写出非线性回归方程. 学@#
典例 4 某学生为了测试煤气灶烧水如何节省煤气的问题设计了一个实验,并获得了煤气开关旋钮旋转的弧
度数 与烧开一壶水所用时间 的一组数据,且作了一定的数据处理(如下表),得到了散点图(如下图).
2 2 2 2
1
1 1
( )( )
n
i
i i
i
n n
i
i
i
x nx
x y nx
y n
y
r
y
10 10 10
2 2
1 1 1
265448, 312350, 287640i i i i
i i i
x y x y
10 10
2 2 2 2
1 1
10 10 12905i i
i i
x x y y
x y
x y w
10
2
1
( )i
i
x x
10
2
1
( )i
i
w w
10
1
( )( )i i
i
x x y y
10
1
( )( )i i
i
w w y y
9
1.47 20.6 0.78 2.35 0.81 −19.3 16.2
表中 .
(1)根据散点图判断, 与 哪一个更适宜作烧水时间 关于开关旋钮旋转的弧度
数 的回归方程类型?(不必说明理由)
(2)根据判断结果和表中数据,建立 关于 的回归方程;
(3)若旋转的弧度数 与单位时间内煤气输出量 成正比,那么 为多少时,烧开一壶水最省煤气?
附:对于一组数据 ,其回归直线 的斜率和截距的最小二乘
估计分别为 .
5.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广
期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一
天使用扫码支付的人次,用 x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统
10
2
1
1 1, 10i i
ii
w w wx
y a bx 2
dy c x y
x
y x
x t x
1 1 2 2 3 3( , ),( , ),( , ), ,( , )n nu v u v u v u v ˆˆˆv u
1
2
1
( )( )
ˆ ˆˆ,
( )
n
i i
i
n
i
i
v v u u
v u
u u
10
计数据如下表所示:
根据以上数据,绘制了如图所示的散点图.
(1)根据散点图判断,在推广期内, (c,d 均为大于零的常数)哪一个适宜作为扫
码支付的人次 y 关于活动推出天数 x 的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,求 y 关于 x 的回归方程,并预测活动推出第 8 天使用扫码支
付的人次.
参考数据:
其中 .
参考公式:
对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计公式分别为:
.
7
1
1lg , 7i i i
i
y
1
2 2
1
ˆ ˆˆ ˆ,
n
i i
i
n
i
i
u nu
a u
u nu
11
1.在一组样本数据 不全相等)的散点图中,若所有样本点
都在直线 上,则这组样本数据的样本相关系数为
A.-1 B.0
C.1
2 D.1
2.废品率 x%与每吨生铁成本 y(元)之间的回归直线方程为 =234+3x,表明
A.废品率每增加 1%,生铁成本增加 3x 元
B.废品率每增加 1%,生铁成本每吨平均增加 3 元
C.废品率每增加 1%,生铁成本增加 234 元
D.废品率不变,生铁成本为 234 元
3.已知 5 个学生的数学和英语成绩如下表:
学生 A B C D E
数学 80 75 70 65 60
英语 70 66 68 64 62
则数学与英语成绩之间
A.是函数关系 B.是相关关系,但相关性很弱
C.具有较好的相关关系,且是正相关 D.具有较好的相关关系,且是负相关
4.已知变量 与 负相关,且由观测数据算得样本平均数 ,则由该观测的数据算得的线性回归
方程可能是
A. B.
C. D.
5.变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量 U 与 V 相对应的一组数据为
(10,5),(11.3,4)(11.8,3),(12.5,2),(13,1),r1 表示变量 Y 与 X 之间的线性相关系数,r2 表示变量 V 与 U 之间的线
性相关系数,则
A.r2100. 学#¥
11.【答案】D
6x 0, 7y x 0y
0, 0a b
196 197 200 203 204 2005x 1 3 6 7 17
5 5
m my
x y
ˆ110 18 ˆb a
ˆ( )ˆ,a b ˆ ˆ18a b
27
13.【答案】不一定
【解析】由回归分析可知,体重为 41.638kg 的人的身高多数在 150cm 左右.故答案为:不一定.
14.【答案】
【解析】把 代入 ,得 ,
所以残差 .
15.【答案】D
【解析】由散点图知呈带状区域时有较强的线性相关关系,故去掉 D.
16.【答案】5
【解析】∵一组数据确定的回归直线方程为 ,且 ,
∴ ,解得 ,
∴原样本点的中心为( 2,4).
0.29
160x ˆ 0.85 82.71y x ˆ 0.85 160 82.71 53.29y
ˆ ˆ 53 53.29 0.29e y y
28
17.【解析】(1)散点图如图:
(2)①计算得 ,
,
, , , ,
所以 , ,
故 关于 的线性回归方程为 .
②由上述回归方程可得高考应该是第六次考试,故 ,
则 (分),
故净提高分为 (分),
5
1
1992i i
i
x y
5
2
1
55i
i
x
5 5 3 129 1935x y
29
且 , ,
计算得 ,
∴ ,
∴z 关于 x 的线性回归方程是 ,
又 ,
∴y 关于 x 的回归方程是 .
令 ,解得 ,
即预测当某辆 A 型号二手车使用年数为 9 年时,售价约 1.46 万元.
(2)当 时, ,
∴ ,
解得 ,
因此预测在收购该型号二手车时,车辆的使用年数不得超过 11 年.
6
1
47.64i i
i
x z
6
2
1
139i
i
x
6
1
6 2
2 2
1
47.64 6 4.5 2 6.36 0.36139
ˆ
6 4.5 17.5
i i
i
i
i
x z nx z
b
x nx
30
20.【解析】(1)记事件“获得台历的三人中至少有一人的红包超过 5 元”为事件 ,5 名顾客中红包超
过 5 元的两人分别记为 ,不足 5 元的三人分别记为 ,从这 5 名顾客中随机抽取 3 人,
共有抽取情况如下:
,共 10 种.
计算得 ,
则 ,
则 关于 的线性回归方程为 ,
当 时, ,
即 2018 年 5 月份参与竞拍的人数估计为 2 万人.
(2)(i)由 ,解得 .
由频率和为 1,得 ,
解得 ,
则 200 位竞拍人员报价大于 5 万元的人数为 .
(ii)2018 年 5 月份实际发放车牌数量为 3000,
1
2
2 2
1
5
5
18.8 5 3 1.04 0.325
ˆ
5 5 3
i i
i
i
i
t y nt y
b
t nt
31
根据竞价规则,报价在最低成交价以上人数占总人数比例为 .
又由频率分布直方图知竞拍报价大于 6 万元的频率为 ,
所以根据统计思想(样本估计总体)可预测 2018 年 5 月份竞拍的最低成交价为 6 万元.
1.【答案】C
元),故 ,
所以回归直线方程为 , 学@#
当社区一户年收入为 15 万元家庭的年支出为 (万元),故选 B.
4.【答案】A
【解析】因为变量 与 正相关,所以排除选项 C,D,
又因为回归直线必过样本点的中心 ,代入检验知,直线 过点 ,故选 A.
5.【答案】B
【解析】依题意,画散点图知,两个变量负相关,所以 , .选 B.
3000 100% 15%20000
8 0.76 10 0.4a
ˆ 0.76 0.4y x
ˆ 0.76 15 0.4 11.8y
x y
(3,3.5) ˆ 0.4 2.3y x (3,3.5)
0b 0a
32
可靠.
7.【解析】(1)由折线图中数据和附注中参考数据得
, , ,
,
.
因为 与 的相关系数近似为 0.99,说明 与 的线性相关程度相当高,
从而可以用线性回归模型拟合 与 的关系.
(2)由 及(1)得 ,
.
4t
7
2
1
( ) 28i
i
t t
7
2
1
( ) 0.55i
i
y y
7 7 7
1 1 1
( )( ) 40.17 4 9.32 2.89i i i i i
i i i
t t y y t y t y
99.0646.2255.0
89.2 r
y t y t
y t
331.17
32.9 y
7
1
7
2
1
( )( ) 2.89ˆ 0.10328( )
i i
i
i
i
t t y y
b
t t
ˆˆ 1.331 0.103 4 0.92a y bt
33
所以, 关于 的回归方程为: .
将 2016 年对应的 代入回归方程得: .
所以预测 2016 年我国生活垃圾无害化处理量将约为 亿吨.
【解题必备】判断两个变量是否线性相关以及相关程度的大小通常有两种方法:
(1)利用散点图直观判断;
(2)将相关数据代入相关系数公式求出 ,然后根据 的大小进行判断.求线性回归方程时要严格按
照公式求解,一定要注意计算的准确性.
8.【解析】(1)由散点图可以判断, 适宜作为年销售量 关于年宣传费 的回归方程类
型.
∴当 ,即 时,
取得最大值.
故年宣传费为 千元时,年利润的预报值最大.
y t ty 10.092.0ˆ
9t 82.1910.092.0ˆ y
1.82
r r
y c d x y x
x 13.6 =6.82 46.24x
ˆz
46.24