- 567.50 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
10.3 变量间的相关关系、统计案例
最新考纲
考情考向分析
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.了解独立性检验的基本思想、方法及其初步应用.
4.了解回归分析的基本思想、方法及简单应用.
回归分析,独立性检验是全国卷高考重点考查的内容,必考一个解答题,选择、填空题中也会出现.主要考查回归方程,相关系数,利用回归方程进行预测,独立性检验的应用等.
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × )
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )
(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得线性回归方程=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( × )
(5)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( √ )
题组二 教材改编
2.[P97A组T2]为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
答案 C
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
3.[P97练习]下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( )
A.94,72B.52,50C.52,74D.74,52
答案 C
解析 ∵a+21=73,∴a=52.又a+22=b,∴b=74.
4.[P81例1]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
题组三 易错自纠
5.某医疗机构通过抽样调查(样本容量n=1000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关.计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95 的可能性患肺病
C.有95 的把握认为“患肺病与吸烟有关”
D.只有5 的把握认为“患肺病与吸烟有关”
答案 C
解析 由已知数据可得,有1-0.05=95 的把握认为“患肺病与吸烟有关”.
6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号i
1
2
3
4
5
数学成绩x
80
75
70
65
60
物理成绩y
70
66
68
64
62
现已知其线性回归方程为=0.36x+,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数)
答案 73
解析 ==70,
==66,
所以66=0.36×70+,=40.8,
即线性回归方程为=0.36x+40.8.
当x=90时,=0.36×90+40.8=73.2≈73.
题型一 相关关系的判断
1.观察下列各图形,
其中两个变量x,y具有相关关系的图是( )
A.①② B.①④
C.③④ D.②③
答案 C
解析 由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.
2.(2018·广州质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D
解析 从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;
2007年二氧化硫排放量较2006年降低了很多,B选项正确;
虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;
自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.
3.x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用拟合时的相关指数为R,用=x+拟合时的相关指数为R,则R>R;
③x,y之间不能建立线性回归方程.
答案 ①②
解析 在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用拟合比用=x+拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.
思维升华判定两个变量正,负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
题型二 线性回归分析
典例 (2017·全国Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尽寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得=i=9.97,s==≈0.212, ≈18.439,
(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=,≈0.09.
解 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数r=≈≈-0.18,
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)①由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均数为
(16×9.97-9.22)=10.02,
因此这条生产线当天生产的零件尺寸的均值的估计值为10.02.
≈16×0.2122+16×9.972≈1591.134,
剔除第13个数据,剩下数据的样本方差为
(1591.134-9.222-15×10.022)≈0.008,
因此这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
思维升华线性回归分析问题的类型及解题方法
(1)求线性回归方程
①利用公式,求出回归系数,.
②待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
跟踪训练以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积x(m2)
115
110
80
135
105
销售价格y(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中画出回归直线;
(3)根据(2)的结果估计当房屋面积为150m2时的销售价格.
解 (1)数据对应的散点图如图所示:
(2)=xi=109, (xi-)2=1570,
=23.2, (xi-)(yi-)=308.
设所求线性回归方程为=x+,则
==≈0.1962,
=-=23.2-109×0.1962=1.8142.
故所求线性回归方程为=0.1962x+1.8142.
(3)根据(2),当x=150时,销售价格的估计值为
=0.1962×150+1.8142=31.2442≈31.2(万元).
题型三 独立性检验
典例(2017·全国Ⅱ)海水养殖场进行某水产品的新、旧 箱养殖方法的产量对比,收获时各随机抽取了100个 箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99 的把握认为箱产量与养殖方法有关:
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
解 (1)旧养殖法的箱产量低于50kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表如下:
箱产量<50kg
箱产量≥50kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=≈15.705.
由于15.705>6.635,故有99 的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧养殖法的箱产量平均值(或中位数)
在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
思维升华 (1)比较几个分类变量有关联的可能性大小的方法
①通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
(2)独立性检验的一般步骤
①根据样本数据制成2×2列联表.
②根据公式K2=计算K2的观测值k.
③比较k与临界值的大小关系,作统计推断.
跟踪训练 (2017·石家庄质检)微信是现代生活进行信息交流的重要工具,某公司200名员工中90 的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75 是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有是青年人.
(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:
青年人
中年人
合计
经常使用微信
不经常使用微信
合计
(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9 的把握认为“经常使用微信与年龄有关”?
附:K2=.
P(K2≥k0)
0.010
0.001
k0
6.635
10.828
解 (1)由已知可得,该公司员工中使用微信的有200×90 =180(人).
经常使用微信的有180-60=120(人),
其中青年人有120×=80(人),
使用微信的人中青年人有180×75 =135(人),
故2×2列联表如下:
青年人
中年人
合计
经常使用微信
80
40
120
不经常使用微信
55
5
60
合计
135
45
180
(2)将列联表中数据代入公式可得:
K2=≈13.333,
由于13.333>10.828,所以有99.9 的把握认为“经常使用微信与年龄有关”.
求线性回归方程的方法技巧
典例(12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2006
2008
2010
2012
2014
需求量/万吨
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的线性回归方程=x+;
(2)利用(1)中所求出的线性回归方程预测该地2018年的粮食需求量.
思想方法指导回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.
规范解答
解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.
年份-2010
-4
-2
0
2
4
需求-257
-21
-11
0
19
29
对处理的数据,容易算得=0,=3.2,[4分]
=
==6.5,
=-=3.2.[6分]
由上述计算结果,知所求线性回归方程为
-257=6.5(x-2010)+3.2,
即=6.5(x-2010)+260.2.[8分]
(2)利用所求得的线性回归方程,可预测2018年的粮食需求量大约为6.5×(2018-2010)+260.2
=6.5×8+260.2=312.2(万吨).[12分]
1.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
答案 A
解析 相关指数R2越大,拟合效果越好,因此模型1拟合效果最好.
2.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是( )
A.有99 的人认为该电视栏目优秀
B.有99 的人认为该电视栏目是否优秀与改革有关系
C.有99 的把握认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
答案 D
解析 只有K2≥6.635才能有99 的把握认为该电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99 的人等无关.故只有D正确.
3.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其线性回归方程是=x+,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数的值是( )
A.B.C.D.
答案 B
解析 依题意可知样本点的中心为,
则=×+,解得=.
4.(2017·山东)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其线性回归方程为=x+.已知xi=225,yi=1600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160B.163C.166D.170
答案 C
解析 ∵xi=225,∴=xi=22.5.
∵yi=1600,∴=yi=160.
又=4,∴=-=160-4×22.5=70.
∴线性回归方程为=4x+70.
将x=24代入上式,得=4×24+70=166.故选C.
5.(2018·湖南永州模拟)已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得的线性回归方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,a′ D.a′.
6.(2018·河南开封模拟)下列说法错误的是( )
A.回归直线过样本点的中心(,)
B.线性回归方程对应的直线=x+至少经过其样本数据点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
答案 B
解析 回归直线必过样本点的中心,A正确;由残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C正确;在回归分析中,R2越接近于1,模拟效果越好,D正确;线性回归方程对应的直线=x+一定经过样本点的中心(,),但不一定经过样本的数据点,所以B错误,故选B.
7.某市居民2010~2014年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:
年份
2010
2011
2012
2013
2014
收入x
11.5
12.1
13
13.3
15
支出y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭年平均收入的中位数是______,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”)
答案 13 正
解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
8.以下四个命题,其中正确的序号是________.
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③在线性回归方程=0.2x+12中,当解释变量x每增加一个单位时,预报变量平均增加0.2个单位;
④对分类变量X与Y的统计量K2来说,K2越小,“X与Y有关系”的把握程度越大.
答案 ②③
解析 ①是系统抽样;对于④,统计量K2
越小,说明两个相关变量有关系的把握程度越小.
9.为了判断高中三年级学生选修文 是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:
理
文
总计
男
13
10
23
女
7
20
27
总计
20
30
50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844,则有________的把握认为选修文 与性别有关.
答案 95
解析 由题意,K2=≈4.844,因为5.024>4.844>3.841,所以有95 的把握认为选修文 与性别有关.
10.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得线性回归方程=x+中的=-2,预测当气温为-4℃时,用电量约为________度.
答案 68
解析 根据题意知==10,==40,因为回归直线过样本点的中心,所以=40-(-2)×10=60,所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.
11.某地区2009年至2015年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2009
2010
2011
2012
2013
2014
2015
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的线性回归方程,
分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:=,=-.
解 (1)由所给数据计算得
=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=-=4.3-0.5×4=2.3,
所求线性回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2018年的年份代号t=10代入(1)中的线性回归方程,得=0.5×10+2.3=7.3,
故预测该地区2018年农村居民家庭人均纯收入为7.3千元.
12.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单
位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
赞成定价
者人数
1
2
3
5
3
4
认为价格偏高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99 的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
月收入不低于55百元的人数
月收入低于55百元的人数
总计
认为价格偏高者
赞成定价者
总计
附:K2=.
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
解 (1)“赞成定价者”的月平均收入为
x1=
≈50.56.
“认为价格偏高者”的月平均收入为
x2=
=38.75,
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).
(2)根据条件可得2×2列联表如下:
月收入不低于55百元的人数
月收入低于55百元的人数
总计
认为价格偏高者
3
29
32
赞成定价者
7
11
18
总计
10
40
50
K2=≈6.272<6.635,
∴没有99 的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
13.(2017·赣州模拟)在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=11,yi=13,x=21,则实数b的值为________.
答案
解析 令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==,==,代入y=bt-,得=b×-,解得b=.
14.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99 的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
解 (1)调查的500位老年人中有70位需要志愿者提供帮助,所以该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为×100 =14 .
(2)K2=≈9.967.
因为9.967>6.635,所以有99 的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)
的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男,女的比例,再把老年人分成男,女两层并采用分层抽样方法,比采用简单随机抽样方法更好.
15.(2018·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的.若有95 的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
答案 12
解析 设男生人数为x,由题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
总计
男生
x
女生
总计
x
若有95 的把握认为是否喜欢韩剧和性别有关,
则k>3.841,
即k==>3.841,
解得x>10.243.
因为,为整数,所以若有95 的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.
16.(2017·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2010~2016.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2017年该企业的污水净化量;
(3)请用数据说明回归方程预报的效果.
参考数据:=54, (ti-)(yi-)=21,≈3.74,
(yi-i)2=.
参考公式:相关系数r=,
线性回归方程=+t,=,=-.
反映回归效果的公式为:R2=1-,其中R2越接近于1,表示回归的效果越好.
解 (1)由折线图中的数据得,
=4, (ti-)2=28, (yi-)2=18,
所以r=≈0.935.
因为y与t的相关系数近似为0.935,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系.
(2)因为=54,===,
所以=-=54-×4=51,
所以y关于t的线性回归方程为=t+=t+51.
将2017年对应的t=8代入得=×8+51=57,
所以预测2017年该企业污水净化量约为57吨.
(3)因为R2=1-=1-×
=1-==0.875,
所以“污水净化量的差异”有87.5 是由年份引起的,这说明回归方程预报的效果是良好的.