- 241.00 KB
- 2021-06-24 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第四节 变量间的相关关系与统计案例
[考纲传真] (教师用书独具)1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.
(对应学生用书第165页)
[基础知识填充]
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫作最小二乘法.
(2)回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a,b是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量χ2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
[知识拓展] 1.b的几何意义:体现平均增加或平均减少.
2.由回归直线求出的数据是估算值,不是精确值.
[基本能力自测]
1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.( )
[答案] (1)√ (2)√ (3)× (4)√
2.(教材改编)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( )
A.y=0.4x+2.3 B.y=2x-2.4
C.y=-2x+9.5 D.y=-0.3x+4.4
A [因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5)在回归直线上,排除B,选项A满足.]
3.下面是一个2×2列联表
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a,b处的值分别为________.
52,54 [因为a+21=73,所以a=52.又因为a+2=b,所以b=54.]
4.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到回归直线方程:y=0.254x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均约增加________万元.
0.254 [由题意知回归直线的斜率为0.254,
故家庭年收入每增加1万元,年饮食支出平均约增加0.254万元.]
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.
根据表中数据,得到χ2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
5% [χ2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
(对应学生用书第166页)
相关关系的判断
(1)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
(2)x和y的散点图如图941所示,则下列说法中所有正确命题的序号为________.
【导学号:79140333】
图941
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R,用y=bx+a拟合时的相关指数为R,则R>R;
③x,y之间不能建立线性回归方程.
(1)C (2)①② [(1)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z负相关.
(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用y=bx+a拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]
[规律方法] 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:b>0时,正相关;b<0时,负相关.
[跟踪训练] 某公司在2017年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
C [月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系.]
回归分析
(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得=xi=9.97,s==≈0.212,≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=
,≈0.09.
[解] (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数
r=
≈≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(ⅰ)由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为
(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
x≈16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为
(1 591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
[规律方法] 1.回归直线方程中系数的两种求法
(1)利用公式,求出回归系数b,a.
(2)待定系数法:利用回归直线过样本点中心求系数.
2.回归分析的两种策略
(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.
(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数B.
3.选择填空中选一组数据的线性回归直线方程的方法
(1)过定点(),验证.
(2)正、负相关看b的符号.
(3)代入数据看误差大小.
[跟踪训练] 为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表:
x
1
2
3
4
5
y
7.0
6.5
5.5
3.8
2.2
(1)求y关于x的线性回归方程y=bx+a;
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
参考公式:b==,a=-b.
[解] (1)由题知=3,=5,xiyi=62.7,x=55,
b===-1.23,
a=-b=5-(-1.23)×3=8.69,
所以y关于x的线性回归方程为y=-1.23x+8.69.
(2)年利润z=x(-1.23x+8.69)-2x=-1.23x2+6.69=-1.232+1.23×,
即当x=≈2.72时,年利润z最大.
独立性检验
(2017·皖北名校联考)某医院对治疗支气管肺炎的两种方案A,B进行比较研究,将志愿者分为两组,分别采用方案A和方案B进行治疗,统计结果如下:
有效
无效
总计
使用方案A组
96
120
使用方案B组
72
总计
32
(1)完成上述列联表,并比较两种治疗方案有效的频率;
(2)能否在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关?
附:χ2=,其中n=a+b+c+D.
P(χ2≥k0)
0.05
0.010
0.001
k0
3.841
6.635
10.828
[解] (1)列联表如下:
有效
无效
总计
使用方案A组
96
24
120
使用方案B组
72
8
80
总计
168
32
200
使用方案A组有效的频率为=0.8;
使用方案B组有效的频率为=0.9.
(2)χ2=≈3.517<3.841,
所以不能在犯错误的概率不超过0.05的前提下认为治疗是否有郊与方案选择有关.
[规律方法] 解决独立性检验问题的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=,计算χ2的值.
(3)查表比较χ2与临界值的大小关系,作统计判断.
易错警示:应用独立性检验方法解决问题,易出现不能准确计算χ2值的错误.
[跟踪训练] (2018·江西九校联考)
随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如图.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
算得χ2=≈9.616.
附表:
P(χ2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
C [因为χ2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”,故选C.]