- 333.50 KB
- 2021-07-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第四节 变量间的相关关系、统计案例
[最新考纲] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.
1.相关性
(1)线性相关
若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的.
(2)非线性相关
若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关的.
(3)不相关
如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.
2.最小二乘估计
(1)最小二乘法
如果有n个点(x1,y1),(x2,y2),…,(xn,yn)可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2.
使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.
(2)线性回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的线性回归方程,其中a,b是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,(,)称为样本点的中心.
(3)相关系数r
①r=;
②当r>0时,称两个变量正相关.
当r<0时,称两个变量负相关.
当r=0时,称两个变量线性不相关.
4.独立性检验
若一个2×2列联表为:
B
A
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
则统计量χ2为:
χ2=.
(1)当χ2≤2.706时,可以认为变量A,B是没有关联的;
(2)当χ2>2.706时,有90%的把握判定变量A,B有关联;
(3)当χ2>3.841时,有95%的把握判定变量A,B有关联;
(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.
1.线性回归方程y=bx+a一定过样本点的中心(,).
2.由回归直线求出的数据是估算值,不是精确值.
一、思考辨析(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ( )
(2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(3)回归直线方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.
( )
(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小. ( )
[答案](1)√ (2)√ (3)× (4)×
二、教材改编
1.下面是2×2列联表:则表中a,b的值分别为( )
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
A.94,72 B.52,50
C.52,74 D.74,52
C [∵a+21=73,∴a=52.又a+22=b,∴b=74.]
2.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
A [因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A满足.]
3.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
2.6 [∵回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.]
4.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
理科
文科
男
13
10
女
7
20
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.根据表中数据,得到χ2
的观测值为≈4.844.则认为选修文科与性别有关系出错的可能性为________.
5% [χ2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
⊙考点1 变量间的相关关系的判断
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
1.观察下列各图形,
① ② ③ ④
其中两个变量x,y具有相关关系的图是( )
A.①② B.①④ C.③④ D.②③
C [图形③具有正线性相关关系,图形④具有非线性相关关系,故选C.]
2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.]
3.某统计部门对四组数据进行统计分析后,获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A.r4<r2<0<r1<r3 B.r2<r4<0<r1<r3
C.r2<r4<0<r3<r1 D.r4<r2<0<r3<r1
C [根据散点图的特征,数据大致呈增长趋势的是正相关,数据呈递减趋势的是负相关;数据越集中在一条直线附近,说明相关性越强,
由题中数据可知:(1)(3)为正相关,(2)(4)为负相关;
故r1>0,r3>0;r2<0,r4<0;又(1)与(2)中散点图更接近于一条直线,故r1>r3,r23.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
对于“估计概率”问题,一般是用频率代替概率.
[教师备选例题]
有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:
冷漠
不冷漠
总计
多看电视
68
42
110
少看电视
20
38
58
总计
88
80
168
附表:
P(χ2≥k)
0.050
0.010
k
3.841
6.635
则在犯错误的概率不超过多少的前提下认为多看电视与人冷漠有关系( )
A.0.01 B.0.025
C.0.05 D.0.10
A [∵χ2的观测值k=≈11.377,又11.377>6.635,∴在犯错误的概率不超过0.01的前提下认为多看电视与人变冷漠有关系,故选A.]
(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
χ2=.
[解](1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
χ2的观测值k=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50
kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.