- 795.50 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第3讲 变量间的相关关系、统计案例
[最新考纲]
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
知 识 梳 理
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
辨 析 感 悟
1.对变量间的相关关系的认识
(1)(2018·武汉调研改编)①A项:正方体的棱长与体积是相关关系.(×)
②B项:日照时间与水稻的亩产量是相关关系.(√)
(2)(教材思考问题改编)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)
(3)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.(√)
2.对回归直线方程的理解
(4)通过回归方程=x+可以估计和观测变量的取值和变化趋势.(√)
(5)任何一组数据都对应着一个回归直线方程.(×)
(6)(2018·湖南卷改编)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,判断下列命题的正误:
①y与x具有正的线性相关关系. (√)
②回归直线过样本点的中心(,). (√)
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg.(√)
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg. (×)
3.对独立性检验的认识
(7)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.(√)
(8)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)
[感悟·提升]
1.“相关关系与函数关系”的区别
函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.如(2).
2.三点提醒 一是回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.如(5).
二是根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.如(6)中的④.
三是独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.如(8).
考点一 两个变量间的相关关系
【例1】 (2018·湖北卷)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且 =2.347x-6.423;
②y与x负相关且 =-3.476x+5.648;
③y与x正相关且 =5.437x+8.493;
④y与x正相关且 =-4.326x-4.578.
其中一定不正确的结论的序号是 ( ).
A.①② B.②③
C.③④ D.①④
解析 ①中,回归方程中x的系数为正,不是负相关;④方程中的x的系数为负,不是正相关,
∴①④一定不正确.
答案 D
规律方法 在回归直线方程=x+中,代表x每增加一个单位,y平均增加的单位数,一般来说,当回归系数>0时,说明两个变量呈正相关关系;当回归系数<0时,说明两个变量呈负相关关系.
【训练1】 对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( ).
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析 由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.
答案 C
考点二 线性回归方程及其应用
【例2】 (2018·重庆卷)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程 = x+ ;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程 = x+ 中, =, =- ,其中,为样本平均值.
审题路线 先确定=i,=i⇒计算-n 2⇒计算⇒计算⇒得到线性回归方程⇒由的符号判断相关⇒把x=7代入线性回归方程求.
解 (1)由题意知n=10,=i==8,
=i==2,
又-n2=720-10×82=80.
iyi-n =184-10×8×2=24.
由此得 ===0.3,
=- =2-0.3×8=-0.4,
故所求回归方程为 =0.3x-0.4.
(2)由于变量y的值随x值的增加而增加( =0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为 =0.3×7-0.4=1.7(千元).
规律方法 (1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程 =x+必过样本点中心(,).
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
【训练2】 (2018·南昌模拟)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.
房屋面积x/m2
115
110
80
135
105
销售价格y/万元
24.8
21.6
18.4
29.2
22
(1)求线性回归方程;
(2)据(1)的结果估计当房屋面积为150 m2时的销售价格.
解 (1)=×(115+110+80+135+105)=109,
=×(24.8+21.6+18.4+29.2+22)=23.2.
设所求回归直线方程为=x+,则
==≈0.196 2,
∴=- =23.2-109×≈1.816 6.
∴所求回归直线方程为=0.196 2x+1.816 6.
(2)由第(1)问可知,当x=150 m2时,销售价格的估计值为=0.196 2×150+1.816 6=31.246 6(万元).
考点三 独立性检验
【例3】 通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,
K2=≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( ).
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
解析 由7.8>6.635知,有1-0.010即99%以上的把握认为“爱好该项运动与性别有关”.
答案 A
规律方法 利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式K2=,计算随机变量的观测值k,k值越大,说明“两个变量有关系”的可能性越大.
【训练3】 (2018·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)
(1)根据以上数据完成下列2×2列联表:
主食蔬菜
主食肉类
合计
50岁以下
50岁以上
合计
(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.
解 (1)2×2列联表如下:
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
(2)因为K2==10>6.635,
所以有99%的把握认为其亲属的饮食习惯与年龄有关.
1.求回归方程,关键在于正确求出系数,,由于,的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.
2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求线性回归方程.
3.根据K2的值可以判断两个分类变量有关的可信程度.
方法优化8——求回归直线方程的方法技巧
【典例】 (2018·安徽卷)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2002
2004
2006
2008
2010
需求量/万吨
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程=x+;
(2)利用(1)中所求出的直线方程预测该地2018年的粮食需求量.
[优美解法] (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据处理如下:
年份-2006
-4
-2
0
2
4
需求量-257
-21
-11
0
19
29
对处理的数据,容易算得=0,=3.2,
=
==6.5,
=- =3.2.由上述计算结果,知所求回归直线方程为-257=6.5(x-2 006)+3.2.
即=6.5(x-2 006)+260.2.
(2)利用所求得的直线方程,可预测2018年的粮食需求量为6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).
[反思感悟] 求回归直线方程时,重点考查的是计算能力.若本题用一般法去解,计算更繁琐(如年份、需求量不做如上处理),所以平时训练时遇到数据较大的要考虑有没有更简便的方法解决.
【自主体验】
为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x(cm)
174
176
176
176
178
儿子身高y(cm)
175
175
176
177
177
则y对x的线性回归方程为________.
解析 数据处理如下:
x′=父亲身高-176
-2
0
0
0
2
y′=儿子身高-176
-1
-1
0
1
1
计算得:=0,=0.∴==,∴=-=0,
∴所求回归直线方程为:-176=(x-176),
即=x+88.
答案 =x+88
能力提升题组
(建议用时:25分钟)
一、选择题
1.以下四个命题,其中正确的是( ).
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③在线性回归方程=0.2x+12中,当解释变量x每增加一个单位时,预报变量平均增加0.2个单位;
④对分类变量X与Y,它们的随机变量K2的观测值k越小,“X与Y有关系”的把握程度越大.
A.①④ B.②④
C.①③ D.②③
解析 ①是系统抽样;对于④,随机变量K2的观测值k越小,说明两个相关变量有关系的把握程度越小.
答案 D
2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( ).
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
解析 对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,所以选C.
答案 C
二、填空题
3.(2018·江西重点中学联考)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
解析 由已知可计算求出=30,而回归直线方程必过点(,),则=0.67×30+54.9=75,设模糊数字为a,则
=75,计算得a=68.
答案 68
三、解答题
4.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计
男
女
10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列、均值E(X)和方差D(X).
附:K2=,
P(K2≥k0)
0.10
0.05
0.01
k0
2.706
3.841
6.635
解 (1)由所给的频率分布直方图知,“体育迷”人数为100×(10×0.020+10×0.005)=25,
“非体育迷”人数为75,从而2×2列联表如下:
非体育迷
体育迷
合计
男
30
15
45
女
45
10
55
合计
75
25
100
将2×2列联表的数据代入公式计算:
K2=
=
=≈3.030.
因为2.706<3.030<3.841,所以有90%的把握认为“体育迷”与性别有关.
(2)由频率分布直方图知,抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.由题意,X~B,从而X的分布列为
X
0
1
2
3
P
E(X)=np=3×=,
D(X)=np(1-p)=3××=.