- 167.00 KB
- 2021-06-24 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
变量间的相关关系与统计案例
【考点梳理】
1.回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=-.其中,是回归方程的斜率,是在y轴上的截距.
3.残差分析
(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
(2)相关指数:R2=1-.
4.独立性检验
(1)利用随机变量K2 判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则随机变量K2=(其中n=a+b+c+d为样本容量).
【考点突破】
考点一、相关关系的判断
【例1】(1)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1拟合时的相关指数为R,用=x+拟合时的相关指数为R,则R>R;
③x,y之间不能建立线性回归方程.
[答案] (1)C (2)①②
[解析] (1)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z
正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1拟合比用=x+拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.
【类题通法】
1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.
2.利用相关系数判定,当|r|越趋近于1,相关性越强.
当残差平方和越小,相关指数R2越大,相关性越强.
【对点训练】
1.四名同 根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;②y与x负相关且=-3.476x+5.648;③y与x正相关且=5.437x+8.493;④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是 ( )
A.①② B.②③
C.③④ D.①④
[答案]D
[解析]由正负相关性的定义知①④一定不正确.
2.甲、乙、丙、丁四位同 各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同 的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
[答案]D
[解析]在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.
考点二、线性回归方程及应用
【例2】如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.
[解析] (1)由折线图中的数据和附注中的参考数据得
=4, (ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
所以r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103.
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
【类题通法】
1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图 确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.(1)正确运用计算,的公式和准确的计算,是求线性回归方程的关键.(2)回归直线=x+必过样本点的中心(,).
【对点训练】
某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年 份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
=,=-.
[解析] (1)由所给数据计算得=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0,5,
=-=4.3-0.5×4=2.3,
所求回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得
=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
考点三、独立性检验
【例3】某高校共有 生15 000人,其中男生10 500人,女生4
500人.为调查该校 生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位 生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到 生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校 生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95 的把握认为“该校 生的每周平均体育运动时间与性别有关”.
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
附:K2=.
[解析] (1)利用分层抽样,300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校 生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位 生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.
又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
将2×2列联表中的数据代入公式计算,得K2观测值
k==≈4.762>3.841.
所以,有95 的把握认为“该校 生的每周平均体育运动时间与性别有关”.
【类题通法】
1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=计算K2的观测值k;
(3)比较k与临界值的大小关系,作统计推断.
【对点训练】
某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;
月收入(单位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
赞成定价者人数
1
2
3
5
3
4
认为价格偏高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99 的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
月收入不低于55百元的人数
月收入低于55百元的人数
总计
认为价格
偏高者
赞成定价者
总计
附:K2=.
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
[解析] (1)“赞成定价者”的月平均收入为
x1=
≈50.56.
“认为价格偏高者”的月平均收入为
x2=
=38.75,
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).
(2)根据条件可得2×2列联表如下:
月收入不低于55百元的人数
月收入低于55百元的人数
总计
认为价格
偏高者
3
29
32
赞成定价者
7
11
18
总计
10
40
50
K2=≈6.27<6.635,
∴没有99 的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.