- 734.14 KB
- 2021-05-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程 = x+ 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn
)的回归方程,其中 , 是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
B
a+b
x2
c
D
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
【思考辨析】
判断下列结论是否正确(请在括号中打“√”或“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × )
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )
(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( × )
(5)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( √ )
(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( × )
1.(2015·湖北)已知变量x和y满足关系 =-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
答案 C
解析 因为 =-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设 = y+ ( >0),所以 =-0.1 x+ + ,-0.1 <0,所以x与z负相关.故选C.
2.(教材改编)下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
答案 C
解析 ∵a+21=73,∴a=52.又a+22=b,∴b=74.
3.(2017·重庆质检)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
答案 A
解析 因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.
因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A和B中的直线方程进行检验,可以排除B,故选A.
4.(2017·湖南三校联考)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:
x
16
17
18
19
y
50
34
41
31
由上表可得线性回归方程=x+中的=-4,据此模型预测零售价为15元时,每天的销售量为( )
A.51个 B.50个 C.49个 D.48个
答案 C
解析 由题意知=17.5,=39,代入线性回归方程得
=109,109-15×4=49,故选C.
5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X和Y是否有关系,通过查阅下表来确定“X和Y有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得K2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
答案 95
解析 根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95%
的把握认为用电脑时间与视力下降有关系.
题型一 相关关系的判断
例1 (1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用拟合时的相关系数的平方为r,用=x+拟合时的相关系数的平方为r,则r>r;
③x、y之间不能建立线性回归方程.
答案 (1)D (2)①②
解析 (1)由线性回归方程=x+知当>0时,y与x正相关,当<0时,y与x负相关,∴①④一定错误.
(2)①显然正确;由散点图知,用拟合的效果比用 = x+ 拟合的效果要好,故②正确;x,y之间能建立线性回归方程,只不过预报精度不高,故③不正确.
思维升华 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中: >0时,正相关; <0时,负相关.
(1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
(2)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
答案 (1)D (2)C
解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.
(2)对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.
题型二 线性回归分析
例2 (2016·全国丙卷)
下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码17分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:
=,=- .
解 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28, =0.55.
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
所以r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t
的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.
思维升华 线性回归分析问题的类型及解题方法
(1)求线性回归方程
①利用公式,求出回归系数,.②待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为
=,=-.
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
===68,
=- =563-68×6.8=100.6,
所以y关于w的线性回归方程为 =100.6+68w,因此y关于x的回归方程为 =100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值 =100.6+68=576.6,
年利润z的预报值 =576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
题型三 独立性检验
例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作的积极性和对待企业改革的态度的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人.
(1)根据以上数据建立一个2×2列联表;
(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系?
参考公式:K2=(其中n=a+b+c+d)
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解 (1)根据题设条件,得2×2列联表如下:
支持企业改革
不太赞成企业改革
总计
工作积极
46
4
50
工作一般
35
15
50
总计
81
19
100
(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关.
根据(1)中的数据,可以求得
K2=≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.
思维升华 (1)比较几个分类变量有关联的可能性大小的方法
①通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
(2)独立性检验的一般步骤
①根据样本数据制成2×2列联表.
②根据公式K2=计算K2的观测值k.
③比较k与临界值的大小关系,作统计推断.
(2017·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名.
(1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系?
(2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率.
附:K2=
P(K2≥k0)
0.010
0.005
0.001
k0
6.635
7.879
10.828
解 (1)由题意可得2×2列联表如下:
不常吃零食
常吃零食
总计
不患龋齿
60
100
160
患龋齿
140
500
640
总计
200
600
800
根据2×2列联表中数据,得K2的观测值为
k=≈16.667>10.828.
∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系.
(2)设其他工作人员为丙和丁,4人分组的所有情况如下表.
小组
1
2
3
4
5
6
收集数据
甲乙
甲丙
甲丁
乙丙
乙丁
丙丁
处理数据
丙丁
乙丁
乙丙
甲丁
甲丙
甲乙
由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P==.
21.求线性回归方程的方法技巧
典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2006
2008
2010
2012
2014
需求量/万吨
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的线性回归方程=x+;
(2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.
思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.
规范解答
解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.
年份-2010
-4
-2
0
2
4
需求-257
-21
-11
0
19
29
对处理的数据,容易算得=0,=3.2,[4分]
=
==6.5,
=- =3.2.[6分]
由上述计算结果,知所求线性回归方程为
-257=6.5(x-2010)+3.2,
即=6.5(x-2010)+260.2.[8分]
(2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]
1.(2016·衡水质检)具有线性相关关系的变量x,y满足一组数据如下表所示.若y与x的线性回归方程为=3x-,则m的值是( )
x
0
1
2
3
y
-1
1
m
8
A.4 B. C.5 D.6
答案 A
解析 由已知得=,=+2,
又因为点(,)在直线=3x-上,
所以+2=3×-,得m=4.
2.(2016·湖南师大附中月考)已知x,y的取值如下表:
x
0
1
4
5
6
8
y
1.3
1.8
5.6
6.1
7.4
9.3
从所得散点图中分析可知:y与x线性相关,且 =0.95x+ ,则x=13时,y等于( )
A.1.45 B.13.8 C.13 D.12.8
答案 B
解析 由题意,=×(0+1+4+5+6+8)=4,
=×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25,
∵y与x线性相关,且 =0.95x+ ,
∴5.25=0.95×4+ ,∴ =1.45,
从而当x=13时,有y=13.8.故选B.
3.(2017·泰安月考)为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:
优秀
非优秀
总计
A班
14
6
20
B班
7
13
20
总计
21
19
40
附:参考公式及数据:
(1)统计量:K2=(n=a+b+c+d).
(2)独立性检验的临界值表:
P(K2≥k0)
0.050
0.010
k0
3.841
6.635
则下列说法正确的是( )
A.有99%的把握认为环保知识测试成绩与专业有关
B.有99%的把握认为环保知识测试成绩与专业无关
C.有95%的把握认为环保知识测试成绩与专业有关
D.有95%的把握认为环保知识测试成绩与专业无关
答案 C
解析 因为K2=≈4.912,
3.8410,∴y与x正相关,∴A正确;
∵回归直线经过样本点的中心(,),∴B正确;
∵Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,
∴C正确.故选D.
5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
合计
附:
P(K2≥k0)
0.05
0.025
0.010
0.005
k0
3.841
5.024
6.635
7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”
答案 C
解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c=20,b=45,选项A、B错误.
根据列联表中的数据,
得到K2=≈6.109>5.024,
因此有97.5%的把握认为“成绩与班级有关系”.
6.已知数组(x1,y1),(x2,y2),…,(x10,y10)满足线性回归方程=x+,则“(x0,y0)满足线性回归方程=x+”是“x0=,y0=”的( )
A.充分不必要条件 B.必要不充分条件
C.充要条件 D.既不充分也不必要条件
答案 B
解析 x0,y0为这10组数据的平均数,根据公式计算线性回归方程=x+的以后,再根据=- (,为样本平均数)求得.因此(,)一定满足线性回归方程,但满足线性回归方程的除了(,)外,可能还有其他样本点.
7.以下四个命题,其中正确的序号是________.
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③在线性回归方程 =0.2x+12中,当解释变量x每增加一个单位时,预报变量 平均增加0.2个单位;
④对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.
答案 ②③
解析 ①是系统抽样;对于④,随机变量K2的观测值k越小,说明两个相关变量有关系的把握程度越小.
8.(2016·郑州模拟)对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其线性回归方程是 =x+ ,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数 的值是________.
答案
解析 依题意可知样本点的中心为,
则=×+ ,解得 =.
9.某百货公司1~6月份的销售量x与利润y的统计数据如下表:
月份
1
2
3
4
5
6
销售量x(万件)
10
11
13
12
8
6
利润y(万元)
22
25
29
26
16
12
(1)根据2~5月份的数据,画出散点图,求出y关于x的线性回归方程 = x+ ;
(2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想?
解 (1)根据表中2~5月份的数据作出散点图,如图所示:
计算得=11,=24,
xiyi=11×25+13×29+12×26+8×16=1 092,
x=112+132+122+82=498,
则 ===,
=- =24-×11=-.
故y关于x的线性回归方程为 =x-.
(2)当x=10时, =×10-=,
此时|-22|<2;
当x=6时, =×6-=,此时|-12|<2.
故所得的线性回归方程是理想的.
10.某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:K2=.
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
解 (1)300×=90,
所以应收集90位女生的样本数据.
(2)由频率分布直方图得
1-2×(0.025+0.100)=0.75,
所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得K2==≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.