- 367.00 KB
- 2021-07-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第 66 讲 变量间的相关关系与统计案例
考纲要求 考情分析 命题趋势
1.会作两个有关联变量的数据的
散点图,并利用散点图认识变量间的相
关关系.
2.了解最小二乘法的思想,能根
据给出的线性回归方程系数公式建立
线性回归方程.
3.了解常见的统计方法,并能应
用这些方法解决一些实际问题.
4.了解独立性检验(只要求 2×2
列联表)的基本思想、方法及其简单应
用.
5.了解回归分析的基本思想、方
法及其简单应用.
2017·全国卷
Ⅰ,19
2016·全国卷
Ⅲ,18
2015·全国卷
Ⅱ,3
2015·福建卷,4
1.散点图与相关关系、线
性回归方程与独立性检验在
实际生活中的应用.
2.有关统计内容及方法
主要以选择题、填空题的形式
呈现,属容易题;抽样方法和
各种统计图表与概率的有关
内容相结合或与统计案例相
结合也会出现在解答题中,属
中档题.
分值:5~12 分
1.相关关系与回归方程
(1)相关关系的分类
①正相关:从散点图上看,点散布在从__左下角__到__右上角__的区域内.
②负相关:从散点图上看,点散布在从__左上角__到__右下角__的区域内.
(2)线性相关关系
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间
具有线性相关关系,这条直线叫__回归直线__.
(3)回归方程
①最小二乘法:使得样本数据的点到回归直线的__距离的平方和__最小的方法叫最小二
乘法.
②回归方程:两个具有线性相关关系的变量的一组数据为(x1,y1),(x2,y2),…,(xn,
yn),其回归方程为y
^
=b
^
x+a
^
,其中错误!其中( x , y )称为样本点的中心.
(4)样本相关系数 r=错误!,用它来衡量两个变量间的线性相关关系的强弱.
①当 r>0 时,表明两个变量__正相关__;
②当 r<0 时,表明两个变量__负相关__;
③r 的绝对值越接近 1,表明两个变量的线性相关性__越强__;r 的绝对值越接近 0,表
明两个变量的线性相关性__越弱__,通常当|r|>0.75 时,认为两个变量有很强的线性相关关
系.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量 X 和 Y,
它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)如下.
y1 y2 总计
x1 a b a+b
x2 c d c+d
总
计
a
+c
b
+d
a+b+c
+d
K2= nad-bc2
a+ba+cb+dc+d(其中 n=__a+b+c+d__为样本容量),则利用独立性检验
判断表来判断“X 与 Y 的关系”.
1.思维辨析(在括号内打“√”或打“×”).
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × )
(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表
示.( √ )
(3)通过回归方程y
^
=b
^
x+a
^
可以估计和观测变量的取值和变化趋势.( √ )
(4)任何一组数据都对应着一个回归直线方程.( × )
(5)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大.( √ )
2.观察下列各图:
其中两个变量 x,y 具有相关关系的图是( C )
A.①② B.①④
C.③④ D.②③
解析 由散点图知③④具有相关关系.
3.已知 x,y 的取值如下表,从散点图可以看出 y 与 x 线性相关,且回归方程为y
^
=0.95x
+a
^
,则a
^
=( B )
x 0 1 3 4
y
2
.2
4
.3
4
.8
6
.7
A.3.25 B.2.6
C.2.2 D.0
解析 由已知得 x =2, y =4.5,因为回归方程经过点( x , y ),所以 a=4.5-0.95×2
=2.6.
4.若回归直线方程为y^=2-1.5x^,则变量 x 增加一个单位,y( C )
A.平均增加 1.5 个单位 B.平均增加 2 个单位
C.平均减少 1.5 个单位 D.平均减少 2 个单位
解析 因为回归直线方程为 y^=2-1.5x,所以b^=-1.5,则变量 x 增加一个单位,y 平均
减少 1.5 个单位.
5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( C )
A.若 K2 的观测值为 k=6.635,我们有 99%的把握认为吸烟与患肺病有关系,那么在
100 个吸烟的人中必有 99 人患有肺病
B.从独立性检验可知,有 99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那
么他有 99%的可能患有肺病
C.若从统计量中求出有 95%的把握认为吸烟与患肺病有关系,是指有 5%的可能性使
得推断出现错误
D.以上三种说法都不正确
解析 根据独立性检验的思想知 C 项正确.
一 相关关系的判断
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右
下角,两个变量负相关.
(2)相关系数:r>0 时,正相关;r<0 时,负相关.
(3)线性回归方程中:b
^
>0 时,正相关;b
^
<0 时,负相关.
(4)相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个
变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相
关性.
【例 1】 (1)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的
两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y
^
=b
^
x+a
^
近似
地刻画其相关关系,根据图形,以下结论最有可能成立的是( B )
A.线性相关关系较强,b
^
的值为 1.25
B.线性相关关系较强,b
^
的值为 0.83
C.线性相关关系较强,b
^
的值为-0.87
D.线性相关关系较弱,无研究价值
(2)已知变量 x 和 y 满足关系 y=-0.1x+1,变量 y 与 z 正相关,下列结论中正确的是
( C )
A.x 与 y 正相关,x 与 z 负相关
B.x 与 y 正相关,x 与 z 正相关
C.x 与 y 负相关,x 与 z 负相关
D.x 与 y 负相关,x 与 z 正相关
解析 (1)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较
强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的
斜率应该比 y=x 的斜率要小一些,故选 B.
(2)因为 y=-0.1x+1,x 的系数为负,故 x 与 y 负相关;而 y 与 z 正相关,故 x 与 z 负
相关.
二 线性回归分析
(1)正确理解计算b
^
,a
^
的公式并能准确的计算出结果是求线性回归方程的关键.
(2)回归直线方程y
^
=b
^
x+a
^
必过样本点中心( x , y ).
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是
否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
【例 2】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千
元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响.对近 8 年的年宣传费 xi 和年销售
量 yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x y ω
错误!(xi-
x )2
错误!(ωi-
ω )2
错误!(xi-
x )
(yi- y )
错误!(ωi-
ω )
(yi- y )
4
6.6
5
63
6.
8
289.8 1.6 1.469 108.8
其中ωi= xi, ω =1
8
错误!i.
(1)根据散点图判断 y=a+bx 与 y=c+d x哪一个适宜作为年销售量 y 关于年宣传费 x
的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程;
(3)已知这种产品的年利润 z 与 x,y 的关系为 z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费 x=49 时,年销售量及年利润的预报值是多少?
②年宣传费 x 为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线 v=α+βu 的斜率和截
距的最小二乘估计分别为β^=错误!,α^= v -β^ u .
解析 (1)由散点图可以判断 y=c+d x适宜作为年销售量 y 关于年宣传费 x 的回归方程
类型.
(2)令 w= x,先建立 y 关于 w 的线性回归方程.
由于d^=错误!=108.8
1.6
=68,
c^= y -d^ w =563-68×6.8=100.6,
所以 y 关于 w 的线性回归方程为y^=100.6+68w,因此 y 关于 x 的回归方程为y^=100.6
+68 x.
(3)①由(2)知,当 x=49 时,年销售量 y 的预报值.
y^=100.6+68 49=576.6,
年利润 z 的预报值z^=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润 z 的预报值
z^=0.2(100.6+68 x)-x=-x+13.6 x+20.12.
所以当 x=13.6
2
=6.8,即 x=46.24 时,z^取得最大值.
故年宣传费为 46.24 千元时,年利润的预报值最大.
三 独立性检验
(1)独立性检验的关键是正确列出 2×2 列联表,并计算出 K2 的值.
(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.
【例 3】 为了调查某高中学生每天的睡眠时间,现随机对 20 名男生和 20 名女生进行
问卷调查,结果如下:
女生:
睡眠时间/小
时 [4,5) [5,6) [6,7) [7,8) [8,9)
人数 2 4 8 4 2
男生:
睡眠时间/小
时 [4,5) [5,6) [6,7) [7,8) [8,9)
人数 1 5 6 5 3
(1)从这 20 名男生中随机选出 3 人,求恰有一人睡眠时间不足 7 小时的概率;
(2)完成下面 2×2 列联表,并回答是否有 90%的把握认为“睡眠时间与性别有关”?
睡眠时间少于 7 小时 睡眠时间不少于 7 小时
合
计
男
生
女
生
合
计
P(K2≥k0)
0.
15
0.
10
0.
05
0.
025
0.
010
0.
005
0.0
01
k0
2.
072
2.
706
3.
841
5.
024
6.
635
7.
879
10.
828
K2= nad-bc
a+bc+da+cb+d
,其中 n=a+b+c+d
解析 (1)设所求事件概率为 P,则 P=C112C28
C320
=28
95.
(2)
睡眠时间少于 7 小
时
睡眠时间不少于 7 小
时
合
计
男
生 12 8
2
0
女
生 14 6
2
0
合
计 26 14
4
0
K2=40×12×6-14×82
20×26×14×20
=40
91
≈0.440<2.706.
所以没有 90%的把握认为“睡眠时间与性别有关”.
1.下列四个散点图中,变量 x 与 y 之间具有负的线性相关关系的是( D )
解析 观察散点图可知,只有 D 项的散点图表示的是变量 x 与 y 之间具有负的线性相关
关系.
2.为研究变量 x 和 y 的线性相关性,甲、乙二人分别做了研究,利用回归分析的方法
得到回归直线 l1 和 l2,两人计算得 x 相同, y 也相同,则下列结论正确的是( C )
A.l1 与 l2 重合 B.l1 与 l2 一定平行
C.l1 与 l2 相交于点( x , y ) D.无法判断 l1 和 l2 是否相交
解析 因为回归直线经过样本点的中心( x , y ),故两直线都经过点( x , y ),而 x ,
y 相同不能得到a^,b^一定相同,故选 C.
3.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,
得到的数据如下.
零件的个数 x/
个 2 3 4 5
加工的时间 y/
小时
2
.5
3 4
4
.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出 y 关于 x 的线性回归方程y
^
=b
^
x+a
^
;
(3)试预测加工 10 个零件需要多少小时?
错误!
解析 (1)散点图如图.
(2)由表中数据得 错误!iyi=52.5, x-=3.5, y-=3.5,错误!2i =54,
∴b^=0.7,∴a^=1.05,∴y^=0.7x+1.05.
(3)将 x=10 代入线性回归方程,得y^=0.7×10+1.05=8.05,故预测加工 10 个零件约需
要 8.05 小时.
4.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个
学生一学期数学成绩平均分(采用百分制),剔除平均分在 40 分以下的学生后,共有男生 300
名,女生 200 名.现采用分层抽样的方法,从中抽取了 100 名学生,按性别分为两组,并将
两组学生成绩分为 6 组,得到如下所示频数分布表.
分
数段 [40,50) [50,60) [60,70) [70,80) [80,90)
[90,10
0)
男 3 9 18 15 6 9
女 6 4 5 10 13 2
(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,
数学成绩与性别是否有关;
(2)规定 80 分以上为优分(含 80 分),请你根据已知条件作出 2×2 列联表,并判断是否
有 90%以上的把握认为“数学成绩与性别有关”.
优
分
非
优分
总
计
男生
女生
总计
100
解析 (1) x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,
x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,
从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.
(2)由频数分布表可知:由抽取的 100 名学生中,“男生组”中的优分有 15 人,“女生
组”中的优分有 15 人,据此可得 2×2 列联表如下.
优
分
非
优分
总
计
男
生
1
5
45
6
0
女
生
1
5
25
4
0
总
计
3
0
70
1
00
可得 K2=100×15×25-15×452
60×40×30×70
≈1.79,因为 1.79<2.706,
所以没有 90%以上的把握认为“数学成绩与性别有关”.
易错点 数据较大,难求真值,忽略样本中心点的特点
错因分析:①数据位数较大,计算容易出错;②y
^
=b
^
x+a
^
与 y=ax+b 容易混淆.为了
避免这些容易发生的错误可将一些数据进行处理.
【例 1】 某地最近十年粮食需求量逐年上升,下表是部分统计数据.
年份 2 2 2 2 2
006 008 010 012 014
需求量/
万吨
2
36
2
46
2
57
2
76
2
86
(1)利用所给数据求年需求量与年份之间的线性回归方程y
^
=b
^
x+a
^
;
(2)利用(1)中所求出的线性回归方程预测该地 2016 年的粮食需求量.
解析 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求线性回归方
程,先将数据处理如下.
年份-2
010
-
4
-
2
0 2 4
需求-
257
-
21
-
11
0
1
9
2
9
对处理的数据,容易算得 x =0, y =3.2,
b
^
=-4×-21+-2×-11+2×19+4×29-5×0×3.2
-42+-22+22+42-5×02
=
260
40
=6.5,a
^
= y -b
^ x =3.2.
由上述计算结果,知所求线性回归方程为
y
^
-257=6.5(x-2 010)+3.2,即y
^
=6.5(x-2 010)+260.2.
(2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2 016- 2 010)
+260.2 =6.5×6+260.2=299.2(万吨).
【跟踪训练 1】 某种书每册的成本费 y(元)与印刷册数 x(千册)有关,经统计得到数据如
下.
x
2
0
1
0
5 2
y
1
.5
2
.0
2
.7
5
.4
(1)经观测每册书的成本费 y 与印刷册数的倒数1
x
之间具有明显的线性相关关系,求出 y
对 x 的回归方程;
(2)试比较(1)中的回归方程与回归模型 y= 7
x
哪一个拟合效果更好.
参考数据: 1
2
≈0.707, 1
5
≈0.447.
解析 (1)设 t=1
x
,则
t
0
.05
0
.1
0
.2
0
.5
y
1
.5
2
.0
2
.7
5
.4
t =1
4(0.05+0.1+0.2+0.5)=0.212 5, y =1
4(1.5+2.0+2.7+5.4)=2.9,
由最小二乘法得b^=错误!= 3.515-2.465
0.302 5-0.180 625
≈8.615,
a^= y -b t ≈2.9-8.615×0.212 5≈1.069,
∴y^=8.615t+1.069,即线性回归方程为y^=8.615
x
+1.069.
(2)由回归方程y^=8.615
x
+1.069 和回归方程 y= 7
x
,得以下表格.
xi 20 10 5 2
yi
1.
5
2.
0
2.
7
5.
4
y^=8.615
x
+
1.069
1.
5
1.
931
2.
792
5.
377
y= 7
x
1.
565
2.
212
3.
129
4.
949
∴对于回归方程y^=8.615
x
+1.069,错误!yi-y^2=02+0.0692+0.0922+0.0232≈0.014;
对于回归方程 y= 7
x
,错误!yi-y^2=0.0652+0.2122+0.4292+0.4512≈0.437,
∵0.014<0.437,
∴回归方程y^=8.615
x
+1.069 比回归模型 y= 7
x
的拟合效果更好.
课时达标 第 66 讲
[解密考纲]本节内容在高考中,三种题型均有考查,文字量比较大,但题目较容易.
一、选择题
1.为了了解某保温产品的用电量 y(kW·h)与气温(℃)之间的关系,随机统计了 4 次用电
量与相应的气温,并制作了对照表.
气温 x/℃ 1
8
1
3
1
0
-
1
用电量 2 3 3 6
y/kW·h 4 4 8 4
由表中数据,得到线性回归方程y^=-2x+a^(a^∈R),由此请估计出用电量 72 kW·h 时气
温的度数为( D )
A.-10 B.-8
C.-4 D.-6
解析 由题意可得 x =10, y =40,所以a^= y +2 x =40+2×10=60.所以y^=-2x
+60,当y^=72 时,有-2x+60=72,解得 x=-6,故选 D.
2.对具有线性相关关系的变量 x,y 有一组观测数据(xi,yi)(i=1,2,…,8)其回归直
线方程是y^=1
3x+a^,且 x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数a^的值是
( B )
A. 1
16 B.1
8
C.1
4 D.1
2
解析 依题意可知样本中心点为
3
4
,3
8 ,则3
8
=1
3
×3
4
+a^,解得a^=1
8
,故选 B.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn 不全相等)的
散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线 y=1
2x+1 上,则这组样本数据的
样本相关系数为( D )
A.-1 B.0
C.1
2 D.1
解析 由题设可知这组样本中的数据完全正相关,又都在 y=1
2x+1 上,故相关系数为 1,
故选 D.
4.(2018·辽宁大连双基测试)对于下列表格所示五个散点,已知求得的线性回归方程为y^
=0.8x-155,则实数 m 的值为( A )
x
1
96
1
97
2
00
2
03
2
04
y 1 3 6 7 m
A.8 B.8.2
C.8.4 D.8.5
解析 x =196+197+200+203+204
5
=200, y =1+3+6+7+m
5
=17+m
5
,将样本中
心点 200,17+m
5 代入y^=0.8x-155,可得 m=8,故选 A.
5.如表提供了某厂节能降耗技术改造后在生产 A 产品过程中记录的产量 x(吨)与相应的
生产能耗 y(吨)的几组对应数据,根据表提供的数据,求出 y 关于 x 的线性回归方程为y^=0.7x
+0.35,则下列结论错误的是( B )
x 3 4 5 6
y
2
.5
t 4
4
.5
A.产品的生产能耗与产量呈正相关
B.t 的取值必定是 3.15
C.回归直线一定过(4.5,3.5)
D.A 产品每多生产 1 吨,则相应的生产能耗约增加 0.7 吨
解析 由题意, x =3+4+5+6
4
=4.5,因为y^=0.7x+0.35,所以 y =0.7×4.5+0.35
=3.5,所以 t=4×3.5-2.5-4-4.5=3,故选 B.
6.(2018·福建泉州模拟)已知某产品连续 4 个月的广告费 xi(千元)与销售额 yi(万元),经
过对这些数据的处理,得到如下数据信息:
①错误!i=18,错误!i=14;
②广告费用 x 和销售额 y 之间具有较强的线性相关关系;
③回归直线方程为y^=b^x+a^中的b^=0.8(用最小二乘法求得).
那么广告费用为 6 千元时,可预测销售额约为( B )
A.3.5 万元 B.4.7 万元
C.4.9 万元 D.6.5 万元
解析 因为 错误!i=18,错误!i=14,所以 x =9
2
, y =7
2
,因为回归直线方程为y^=b^x+
a^中的b^=0.8,所以7
2
=0.8×9
2
+a^,所以a^=- 1
10
,所以y^=0.8x- 1
10.故 x=6 时,可预测销售
额约为 4.7 万元,故选 B.
二、填空题
7.已知 x,y 的取值如下表.
x 2 3 4 5
y
2
.2
3
.8
5
.5
6
.5
从散点图分析,y 与 x 线性相关,且回归方程为y^=1.46x+a^,则实数a^的值为__-0.61__.
解析 x =2+3+4+5
4
=3.5, y =2.2+3.8+5.5+6.5
4
=4.5,回归方程必过样本的中心
点( x , y ).把(3.5,4.5)代入回归方程,计算得a^=-0.61.
8.高三某班学生每周用于物理学习的时间 x(单位:小时)与物理成绩 y(单位:分)之间
有如下关系.
x
2
4
1
5
2
3
1
9
1
6
1
1
2
0
1
6
1
7
1
3
y
9
2
7
9
9
7
8
9
6
4
4
7
8
3
6
8
7
1
5
9
根据上表可得回归方程的斜率为 3.53,则回归直线在 y 轴上的截距为__13.5__(精确到
0.1).
解析 由已知可得
x =24+15+23+19+16+11+20+16+17+13
10
=17.4,
y =92+79+97+89+64+47+83+68+71+59
10
=74.9,
设回归直线方程为y^=3.53x+a^,则 74.9=3.53×17.4+a^,解得a^≈13.5.
9.以下四个命题:
①从匀速传递的产品生产流水线上,质检员每 20 分钟从中抽取一件产品进行某项指标
检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于 1;
③在回归直线方程y^=0.2x+12 中,当解释变量 x 每增加一个单位时,预报变量y^平均增
加 0.2 个单位;
④对分类变量 X 与 Y,它们的随机变量 K2 的观测值 k 来说,k 越小,“X 与 Y 有关系”
的把握程度越大.
其中所有正确的是__②③__(填序号).
解析 ①是系统抽样;对于④,随机变量 K2 的观测值 k 越小,说明两个变量有关系的把
握程度越小.
三、解答题
10.下表是高三某位文科生连续 5 次月考的历史、政治的成绩,结果统计如下.
月份 9
1
0
1
1
1
2
1
历史成绩
x/分
7
9
8
1
8
3
8
5
8
7
政治成绩
y/分
7
7
7
9
7
9
8
2
8
3
(1)求该生 5 次月考历史成绩的平均分和政治成绩的方差;
(2)一般来说,学生的历史成绩与政治成绩有较强的线性相关关系,根据上表提供的数
据,求两个变量 x,y 的线性回归方程y^=b^x+a^.
附:b^=错误!=错误!,a^= y -b^ x .
解析 (1) x =1
5
×(79+81+83+85+87)=83,
∵ y =1
5
×(77+79+79+82+83)=80,
∴s2y=1
5
×[(77-80)2+(79-80)2+(79-80)2+(82-80)2+(83-80)2]=4.8.
(2)∵错误!(xi- x )(yi- y )=30,错误!(xi- x )2=40,
∴b^=0.75,a^= y -b^ x =17.75,
则所求的线性回归方程为y^=0.75x+17.75.
11.(2018·河北石家庄调研)某学校高中毕业班有男生 900 人,女生 600 人,学校为了对
高三学生数学学习情况进行分析,从高三年级按照性别进行分层抽样,抽取 200 名学生成绩,
统计数据如下表所示.
分数段
/分 [50,70) [70,90)
[90,110
)
[110,13
0)
[130,15
0)
总
计
频数 20 40 70 50 20
2
00
(1)若成绩在 90 分以上(含 90 分),则成绩为合格,请估计该校毕业班平均成绩和及格学
生人数;
(2)如果样本数据中,有 60 名女生数学成绩及格,请完成如下数学成绩与性别的列联表,
并判断是否有 90%的把握认为“该校学生的数学成绩与性别有关”.
女
生
男
生
总
计
及格人
数
6
0
不及格
人数
总计
参考公式:K2= nad-bc2
a+bc+da+cb+d
P(K2≥k0)
0.
10
0.
050
0.
010
k
2.
706
3.
841
6.
635
解析 (1)高三学生数学平均成绩为 1
200
×(60×20+80×40+100×70+120×50+
140×20)=101,估计高三学生数学平均成绩为 101 分,及格学生人数为70+50+20
200
×(900
+600)=1 050.
(2)
女
生
男
生
总
计
及格人
数
6
0
8
0
1
40
不及格
人数
2
0
4
0
6
0
总计 8
0
1
20
2
00
K2 的观测值 k=200×60×40-20×802
80×120×60×140
=100
63
≈1.587<2.706,
所以没有 90%的把握认为“该校学生的数学成绩与性别有关”.
12.一家商场为了确定营销策略,进行了四次投入促销费用 x 和商场实际销售额的试验,
得到如下数据.
投入促销费用 x/万元 2 3 5 6
商场实际营销额 y/
万元
1
00
2
00
3
00
4
00
(1)在下面的直角坐标中,画出上述数据的散点图,并据此判断两个变量是否具有较好
的线性相关性;
(2)求出 x,y 之间的回归直线方程y^=b^x+a^;
(3)若该商场计划营销额不低于 600 万元,则至少要投入多少万元的促销费用?
解析 (1)散点图如图所示,从图上可以看出两个变量具有较好的线性相关性.
(2) x =2+3+5+6
4
=4, y =100+200+300+400
4
=250,
错误!(xi- x )2=(2-4)2+(3-4)2+(5-4)2+(6-4)2=4+1+1+4=10,
错误!(x1- x )(yi- y )=(-2)×(-150)+(-1)×(-50)+1×50+2×150=700,
b^=错误!=700
10
=70,
a^= y -b^ x =250-70×4=-30.
故所求的回归直线方程为y^=70x-30.
(3)令 70x-30≥600,即 x≥600+30
70
=9(万元).
故该商场计划营销额不低于 600 万元,则至少要投入 9 万元的促销费用.