- 615.00 KB
- 2021-06-15 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第3讲 变量间的相关关系、统计案例
)
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为=x+,其中=,
=-.
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)K2统计量
K2=(其中n=a+b+c+d为样本容量).
1.辨明三个易误点
(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(,)点,可能所有的样本数据点都不在直线上.
(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).
(3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.
2.求回归方程的方法
求解回归方程的关键是确定回归系数,,因求解的公式计算量太大,一般题目中给出相关的量,如,,x,xiyi等,便可直接代入求解.充分利用回归直线过样本中心点(,),即有=+,可确定.
1.有关线性回归的说法,不正确的是( )
A.具有相关关系的两个变量是非确定性关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.散点图中的点越集中,两个变量的线性相关性越强
D
2.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是( )
A.=-10x+200 B.=10x+200
C.=-10x-200 D.=10x-200
A 因为商品销售量y(件)与销售价格x(元/件)负相关,所以<0,排除B,D.
又因为x=0时,y>0,所以应选A.
3.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )
附:
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
A.0.1% B.1%
C.99% D.99.9%
C 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.
4.下面是一个2×2列联表
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a、b处的值分别为________.
因为a+21=73,所以a=52.
又因为a+2=b,所以b=54,
52、54
5.已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
由已知得=2,=4.5,因为回归方程经过点(,),所以=4.5-0.95×2=2.6.
2.6
相关关系的判断
(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
【解析】 因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
【答案】 C
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
某公司在2016年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
C 月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系.
线性回归方程及其应用(高频考点)
线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.
高考中对线性回归问题的考查主要有以下三个命题角度:
(1)由回归直线方程求参数值;
(2)求回归直线方程;
(3)利用回归方程进行预测.
(2016·高考全国卷丙)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32, tiyi=40.17, =0.55,≈2.646.
参考公式:相关系数,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:
【解】(1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28,
=40.17-4×9.32=2.89,
r=≈0.99.
因为y与t的相关系数近似 为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得=≈0.103,
=-=1.331-0.103×4≈0.92.
所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
最小二乘估计的三个步骤
(1)作出散点图,判断是否线性相关.
(2)如果是,则用公式求,,写出回归方程.
(3)根据方程进行估计.
回归直线方程恒过点(,).
角度一 由回归直线方程求参数值
1.表中提供了某厂节能降耗技术改造后生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.根据下表提供的数据,求出y关于x的线性回归方程为=0.7x+0.35,那么表中t的值为( )
x
3
4
5
6
y
2.5
t
4
4.5
A.3 B.3.15
C.3.5 D.4.5
A 因为线性回归方程过样本中心点,所以由回归方程=0.7x+0.35,知=0.7+0.35,又==,==,所以=0.7×+0.35,解得t=3.故选A.
角度二、三 求回归直线方程并进行预测
2.(2017·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表:
x
1
2
3
4
5
y
7.0
6.5
5.5
3.8
2.2
(1)求y关于x的线性回归方程=x+;
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
参考公式:==,
=-.
(1) =3,=5,
xiyi=62.7,x=55,
解得=-1.23,=8.69,
所以=8.69-1.23x.
(2)年利润z=x(8.69-1.23x)-2x
=-1.23x2+6.69x,
所以当x≈2.72时,年利润z最大.
独立性检验
(2017·云南省第一次统一检测)某校高二年级共有1 600名学生,其中男生960名,女生640名.该校组织了一次满分为100分的数学学业水平模拟考试.根据研究,在正式的学业水平考试中,本次成绩在的学生可取得A等(优秀),在七组加以统计,绘制成如图所示的频率分布直方图.
(1)估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数;
(2)请你根据已知条件将下列2×2列联表补充完整.并判断是否有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”?
数学成绩优秀
数学成绩不优秀
合计
男生
a=12
b=
女生
c=
d=34
合计
n=100
【解】 (1) 设抽取的100名学生中,本次考试成绩不合格的有x人,根据题意得x=100×=2.
据此估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数为×1 600=32.
(2)根据已知条件得2×2列联表如下:
数学成绩优秀
数学成绩不优秀
合计
男生
a=12
b=48
60
女生
c=6
d=34
40
合计
18
82
100
因为K2=≈0.407<2.706,
所以没有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”.
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=计算K2的值;
(3)查表比较K2与临界值的大小关系,作出统计判断.
(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,
女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.
分数段
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
男
3
9
18
15
6
9
女
6
4
5
10
13
2
(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;
(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.
优分
非优分
合计
男生
女生
合计
100
(1) 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,
女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,
从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.
(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:
优分
非优分
合计
男生
15
45
60
女生
15
25
40
合计
30
70
100
可得K2=≈1.79,
因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.
1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
D 正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④.
2.(2017·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=150,由最小二乘法求得回归直线方程为=0.67x+54.9,则y1+y2+y3+y4+y5的值为( )
A.75 B.155.4
C.375 D.466.2
C 由x1+x2+x3+x4+x5=150,得=30,代入回归直线方程=0.67x+54.9,得=75,则y1+y2+y3+y4+y5=375.
3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
合计
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
由K2=,
算得K2=≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
C 根据独立性检验的定义,由K2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
4.(2017·东营模拟)已知变量x与y之间的回归直线方程为=-3+2,若xi=17,则yi的值等于( )
A.3 B.4
C.0.4 D.40
B 依题意==1.7,
而直线=-3+2x一定经过样本点的中心(,),
所以=-3+2x=-3+2×1.7=0.4,
所以yi=0.4×10=4.
5.春节期间,某销售公司每天销售某种取暖商品的销售额y(单位:万元)与当天的平均气温x(单位:℃)有关.现收集了春节期间这个销售公司4天的x与y的数据列于下表:
平均气温(℃)
-2
-3
-5
-6
销售额(万元)
20
23
27
30
根据以上数据,用线性回归的方法,求得y与x之间的线性回归方程=x+的系数=-,则=________.
由表中数据可得=-4,=25,所以线性回归方程=-x+过点(-4,25),代入方程得25=-×(-4)+,解得=.
6.(2017·赣州摸底考试)在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=11,yi=13,x=21,则实数b的值为________.
令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==,==,代入y=bt-,得=b×-,解得b=.
7.(2017·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为.
优秀
非优秀
合计
甲班
10
乙班
30
合计
110
(1)请完成上面的列联表;
(2)根据列联表的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”.
参考公式与临界值表:K2=.
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
(1)
优秀
非优秀
合计
甲班
10
50
60
乙班
20
30
50
合计
30
80
110
(2)根据列联表中的数据,得到
K2=≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.
8.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:
天数t(天)
3
4
5
6
7
繁殖个数y(千个)
2.5
3
4
4.5
6
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,预测t=8时,细菌繁殖个数.
(1)由表中数据计算得,=5,=4,
所以回归方程为=0.85t-0.25.
(2)将t=8代入(1)的回归方程中得=0.85×8-0.25=6.55.
故预测t=8时,细菌繁殖个数为6.55千个.
9.(2017·郑州第二次质量预测)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程为=-4x+.若在这些样本点中任取一点,则它在回归直线左下方的概率为( )
A. B.
C. D.
B 由表中数据得=6.5,=80,由=-4+,得=106,故线性回归方程为=-4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程可知有6个基本事件,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为=.
10.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
m
10.5
11
销售量y
11
n
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
==8+,==6+,回归直线一定经过样本中心(,),即6+=-3.2+40,
即3.2m+n=42.
又因为m+n=20,即解得故n=10.
10
11.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).
第30届
伦敦
第29届
北京
第28届
雅典
第27届
悉尼
第26届
亚特兰大
中国
38
51
32
28
16
俄罗斯
24
23
27
32
26
(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图;
(2)下表是近五届奥运会中国代表团获得的金牌数之和y(从第26届算起,不包括之前已获得的金牌数)随时间x变化的数据:
时间x(届)
26
27
28
29
30
金牌数之和y(枚)
16
44
76
127
165
作出散点图如下:
由图可以看出,金牌数之和y与时间x之间存在线性相关关系,请求出y关于x的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?
参考数据:=28,=85.6,
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:
(1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:
(2)
=-=85.6-38.1×28=-981.2,
所以金牌数之和y关于时间x的线性回归方程为
=38.1x-981.2.
当x=32时,中国代表团获得的金牌数之和的预报值
=38.1×32-981.2=238,
故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.