- 404.50 KB
- 2021-05-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第二讲 线性回归方程
一、相关关系:
1、
2、相关系数: ,其中:
(1) ; ( 2 )
例题 1:下列两个变量具有相关关系的是( )
A.正方形的体积与棱长; B.匀速行驶的车辆的行驶距离与行驶时间;
C.人的身高和体重; D.人的身高与视力。
例题 2:在一组样本数据 的散点
图中,若所有样本点 都在直线 上,则样本相关系数为
( )
例题 3: 是相关系数,则下列命题正确的是:
(1) 时,两个变量负相关很强;(2) 时,两个变量正相关
很强;
(3) 时,两个变量相关性一般;
(4)(4) 时,两个变量相关性很弱。
3、散点图:初步判断两个变量的相关关系。
<
=
1||
1||
r
r
不确定关系:相关关系
确定关系:函数关系
∑∑
∑
==
=
−⋅−
−−
=
n
i
i
n
i
i
n
i
ii
yyxx
yyxx
r
1
2
1
2
1
)()(
))((
<
>
负相关
正相关
0
0
r
r
相关性很弱;相关性很强; 3.0||75.0|| <> rr
),,,2)(,(),,(),,( 212211 不全相等nnn xxxnyxyxyx ≥
),2,1)(,( niyx ii = 12
1 +−= xy
2
1.2
1.1.1. −− DCBA
r
]75.0,1[ −−∈r ]1,75.0[∈r
)75.0,3.0[]3.0,75.0( 或−−∈r
1.0=r
例题 4:在画两个变量的散点图时,下列叙述正确的是( )
A.预报变量在 轴上,解释变量在 轴上;
B.解释变量在 轴上,预报变量在 轴上;
C.可以选择两个变量中的任意一个变量在 轴上;
D.可以选择两个变量中的任意一个变量在 轴上;
例题 5:散点图在回归分析过程中的作用是( )
A.查找个体个数 B.比较个体数据的大小 C.研究个体分类 D.粗略判断变量是否线性相
关
二、线性回归方程:
1、回归方程:
其中 , (代入样本点的中心)
例题 1:设 是变量 个样本点,直线 是由这些样本
点通过最小二乘法得到的线性回归直线(过一、二、四象限),以下结论正确的是
( )
A.直线 过点 B.当 为偶数时,分布在 两侧的样本点的个数一定相同
C. 相关系数在 0 到 1 之间 D. 相关系数为直线 的斜率
例 题 2 : 工 人 月 工 资 ( 元 ) 依 劳 动 生 产 率 ( 千 元 ) 变 化 的 回 归 直 线 方 程 为
,下列判断正确的是( )
A.劳动生产率为 1000 元时,工资为 150 元;
B.劳动生产率提高 1000 元时,工资平均提高 150 元;
C.劳动生产率提高 1000 元时,工资平均提高 90 元;
x y
x y
x
y
axby ˆˆˆ +=
2
1
2
1
1
2
1
)(
))((
ˆ
xnx
yxnyx
xx
yyxx
b n
i
i
n
i
ii
n
i
i
n
i
ii
−
−
=
−
−−
=
∑
∑
∑
∑
=
=
=
= xbya ˆˆ −=
),(),,(),,( 2211 nn yxyxyx nyx 的和 l
l ),( yx n l
的和yx 的和yx l
y x
xy 9060ˆ +=
D.劳动生产率为 1000 元时,工资为 90 元;
例题 3:设某大学的女生体重 与身高 具有线性相关关系,根据一组样本数
据 ,用最小二乘法建立的回归方程为 ,则不正确
的是( )
A. 与 具有正的线性相关关系; B.回归直线过样本点的中心
C.若该大学某女生身高增加 1cm,则其体重约增加 0.85kg
D.若该大学某女生身高为 170cm,则可断定其体重必为 58.79kg
例题 4:为了了解儿子的身高与其父亲身高的关系,随机抽取 5 对父子的身高数据如
下:
父亲身高 174 176 176 176 178
儿子身高 175 175 176 177 177
则 对 的线性回归方程为( )A. B. C. D.
2、残差:
(1)残差图:横坐标为样本编号,纵坐标为每个编号样本对应的残差。
(2)残差图呈带状分布在横轴附近,越窄模型拟合精度越高。
(3)残差平方和 越小,模型拟合精度越高。
3、相关指数:
)(kgy )(cmx
)2,1)(,( niyx ii = 71.8585.0ˆ −= xy
y x ),( yx
y x 1−= xy 1+= xy xy 2
188+= 176=y
∑
=
−
n
i
ii yy
1
2)ˆ(
∑
∑
=
=
−
−
−= n
i
i
n
i
ii
yy
yy
R
1
2
1
2
2
)(
)ˆ(
1
(1)其中: 为残差平方和; 为总偏差平方和。
(2) ,越大模型拟合精度越高。
例题 5:下列说法正确的是( )
(1)残差平方和越小,相关指数 越小,模型拟合效果越差;
(2)残差平方和越大,相关指数 越大,模型拟合效果越好;
(3)残差平方和越小,相关指数 越大,模型拟合效果越好;
(4)残差平方和越大,相关指数 越小,模型拟合效果越差;
A.(1)(2) B.(3)(4) C.(1)(4) D.(2)(3)
例题 6:关于回归分析,下列说法错误的是( )
A.在回归分析中,变量间的关系若是非确定关系,则因变量不能由自变量唯一确定;
B.线性相关系数 可以是正的,也可以是负的
C.样本点的残差可以是正的,也可以是负的
D.相关指数 可以是正的,也可以是负的
例题 7:下列命题正确的是( )
(1)线性相关系数 越大,两个变量的线性相关性越强,反之,线性相关性越弱;
(2)残差平方和越小的模型,拟合的效果越好;
(3)用相关指数 来刻画回归效果, 越小,说明模型的拟合效果越好;
(4)随机误差 是衡量预报精确度的一个量,但它是一个不可观测的量;
(5) 表示相应于点 的残差,且 。
A.(1)(3)(5) B.(2)(4)(5) C.(1)(2)(4) D.(2)(3)
例题 8:已知 与 之间的几组数据如下表:
1 2 3 4 5 6
∑
=
−
n
i
ii yy
1
2)ˆ( ∑
=
−
n
i
i yy
1
2)(
)1,0(2 ∈R
2R
2R
2R
2R
r
2R
r
2R 2R
e
ieˆ ),( ii yx 0ˆ
1
=∑
=
n
i
ie
x y
x
0 2 1 3 3 4
假设根据上表数据所得的线性回归直线方程为 。若某同学根据上表中的前两
个数据 求得的直线方程为 ,则下列结论正确的是( )
A. B. C. D.
例题 9:关于某设备的使用年限 (年)和所支出的维修费用 (万元)有下表所示的
资料:
使用年限 2 3 4 5 6
维修费用 2.2 3.8 5.5 6.5 7.0
若由资料知, 对 呈线性相关关系,求:
(1)线性回归方程 中的回归系数 ;
(2)残差平方和与相关指数 ,作出残差图,并对该回归模型的拟合精度作出适当
判断;
(3)使用年限为 10 年时,维修费用大约是多少?
三、非线性回归模型:
例题 1:如果样本点分布在某一条指数函数曲线 的周围,其中 和 是参数,
通过两边取自然对数的方法,把指数关系式变成对数关系式后,下列哪个变换结果是
正确的( )
A. B. C. D.
例题 2:下列回归方程中, 是线性回归方程; 是非线性回归方程。
(1) (2) (3)
y
axby ˆˆˆ +=
)2,2(),0,1( axby ′+′=
aabb ′>′> ˆ,ˆ aabb ′<′> ˆ,ˆ aabb ′>′< ˆ,ˆ aabb ′<′< ˆ,ˆ
x y
y x
axby ˆˆˆ += ba ˆ,ˆ
2R
bxaey = a b
abxy lnln ⋅= abxy lnln += abxy lnlnln ⋅= abxy lnlnln +=
27.3688.0ˆ += xy 8.1225.0ˆ 2 −= xy xey 3.16.2ˆ =
(4) (5)
例题 3:某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千
元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响,对近 8 年的年宣传费
和年销售量 (i=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量
的值。
46.6 563 6.8 289.8 1.6 1469 108.8
表中 w1 = 1, , = 1
(Ⅰ)根据散点图判断, 与 哪一个适宜作为年销售量 y 关于年宣
传费 x 的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立 y 关于 x 的回归方程;
(Ⅲ)以知这种产品的年利率 z 与 x、y 的关系为 z=0.2y-x。根据(Ⅱ)的结果回答下
列问题:
(i) 年宣传费 x=49 时,年销售量及年利润的预报值是多少?
(ii) 年宣传费 x 为何值时,年利率的预报值最大?
附:对于一组数据(u1 v1),(u2 v2)…….. (un vn),其回归线 v= u 的斜率
和截距的最小二乘估计分别为:
xy 5.14ˆ −= xey
185.0
38.1ˆ
−=
x y w 8
2
1
( )i
i
x x
=
−∑ 8
2
1
( )i
i
w w
=
−∑ 8
1
( )( )i i
i
x x y y
=
− −∑ 8
1
( )( )i i
i
w w y y
=
− −∑
x w 1
8
8
1i
w
=
∑
y a bx= + y c d x= +
α β+
四、独立性检验:
例题 1:下表是一个 列联表:
21 73
2 25 27
总计 46 100
则表中 的值分别为 。
例题 2:可以粗略的判断两个分类变量是否有关系的是( )
A.散点图 B.残差图 C.等高条形图 D.以上都不对
例题 3:在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大
( )
A. B. C. D.
例题 4:在判断两个分类变量是否有关系的常用方法中,最为精确的方法是( )
A.考察随机误差 B.考察线性相关系数
C.考察相关指数 D.考察独立性检验中的
例题 5:在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()。
^ ^ ^
1
2
1
( )( )
,
( )
n
i i
i
n
i
i
u u v v
v u
u u
β α β=
=
− −
= = −
−
∑
∑
22×
1y 2y
1x a
2x
b
ba,
dc
c
ba
a
++ 与
da
c
dc
a
++ 与
cb
c
da
a
++ 与
ca
c
db
a
++ 与
e r
2R 2K
①若 的观测值满足 ,我们有 99%的把握认为吸烟与患肺病有关系,那么
在 100 个吸烟的人中必有 99 人患有肺病;
②从独立性检验可知有 99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么
他有 99&的可能患有肺病;
③从统计量中得知有 95%的把握认为吸烟与患肺病有关系,是指有 5%的可能性使得推
断出现错误。
A. ① B. ①③ C. ③ D. ②
例题 6:在调查学生数学成绩与物理成绩之间的关系时,得到如下数据(人数):
数学成绩与物理成绩之间有()把握有关。
A. B. C. D.
2k 635.62 ≥k