- 402.12 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
11.5 变量间的相关关系、统计案例
挖命题
【考情探究】
考点
内容解读
5年考情
预测热度
考题示例
考向
关联考点
1.变量间的
相关关系
①会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.
②了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程
2018课标Ⅱ,18,12分
利用回归方程进行预测
折线图
★★☆
2016课标Ⅲ,18,12分
求线性回归方程和预测值
折线图
2015课标Ⅰ,19,12分
求线性回归方程和预测值
函数最值
2.独立性
检验
了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.
①了解独立性检验(只要求2× 2列联表)的基本思想、方法及其简单应用.
②了解回归分析的基本思想、方法及其简单应用
2018课标Ⅲ,18,12分
独立性检验
茎叶图
2017课标Ⅱ,18,12分
独立性检验
频率分布
直方图
分析解读 对于回归分析,高考考查较多,主要考查求线性回归方程、利用回归方程进行预测,一般以解答题的形式出现,难度中等,有时也会以小题的形式考查变量间的相关关系;对于独立性检验,一般以解答题的一问进行考查,常与概率知识交汇命题.考查学生的数据分析能力、逻辑推理能力.
破考点
【考点集训】
考点一 变量间的相关关系
1.(2018河南焦作四模,3)已知变量x和y的统计数据如下表:
x
3
4
5
6
7
y
2.5
3
4
4.5
6
根据上表可得回归直线方程为y^=b^x-0.25,据此可以预测当x=8时,y^=( )
A.6.4 B.6.25 C.6.55 D.6.45
答案 C
2.根据如下样本数据:
x
3
4
5
6
7
y
4.0
a-5.4
-0.5
0.5
b-0.6
得到的回归方程为y^=bx+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,y就( )
A.增加1.4个单位 B.减少1.4个单位
C.增加7.9个单位 D.减少7.9个单位
答案 B
考点二 独立性检验
1.(2017湖南邵阳二模,3)假设有两个分类变量X和Y的2×2列联表:
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( )
A.a=45,c=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30
答案 A
2.(2018辽宁丹东期末教学质量监测,7)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K2=6.705,则所得到的统计学结论是:有 的把握认为“学生性别与支持该活动没有关系”.( )
附:
P(K2≥k)
0.100
0.050
0.025
0.010
0.001
K
2.706
3.841
5.024
6.635
10.828
A.99.9% B.99% C.1% D.0.1%
答案 C
炼技法
【方法集训】
方法1 回归直线方程的求解与运用
1.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为y^=-0.7x+10.3,且变量x,y
之间的一组相关数据如下表所示,则下列说法错误的是( )
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈负相关关系
B.可以预测,当x=20时,y^=-3.7
C.m=4
D.该回归直线必过点(9,4)
答案 C
2.(2017安徽皖南一模,4)下列说法错误的是( )
A.回归直线过样本点的中心(x,y)
B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1
C.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位
D.对于分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小
答案 D
方法2 独立性检验
1.(2018安徽黄山一模,3)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )
A.若K2的观测值为k=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
答案 C
2.(2017安徽池州4月模拟,18)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).
(1)求图中a的值;
(2)估计该次考试的平均分x(同一组中的数据用该组的区间中点值代表);
(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为晋级成功与性别有关.
晋级成功
晋级失败
合计
男
16
女
50
合计
参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d
P(K2≥k)
0.40
0.25
0.15
0.10
0.05
0.025
k
0.708
1.323
2.072
2.706
3.841
5.024
解析 (1)由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)×10=1,解得a=0.005.
(2)由频率分布直方图知各小组的中点值依次是
55,65,75,85,95,
对应的频率分别为0.05,0.30,0.40,0.20,0.05,
则估计该次考试的平均分x=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).
(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,
故晋级成功的人数为100×0.25=25,
填写2×2列联表如下:
晋级成功
晋级失败
合计
男
16
34
50
女
9
41
50
合计
25
75
100
K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(16×41-34×9)225×75×50×50≈2.613>2.072,
所以有85%的把握认为晋级成功与性别有关.
过专题
【五年高考】
A组 统一命题·课标卷题组
考点一 变量间的相关关系
1.(2018课标Ⅱ,18,12分)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解析 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.
方法总结 利用直线方程进行预测是对总体的估计,此估计值不是准确值;利用回归方程进行预测(把自变量代入回归直线方程)是对因变量的估计,此时,需要注意自变量的取值范围.
2.(2015课标Ⅰ,19,12分,0.349)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x
y
w
∑i=18(xi-x)2
∑i=18(wi-w)2
∑i=18(xi-x)(yi-y)
∑i=18(wi-w)(yi-y)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=xi,w=18∑i=18wi.
(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
(i)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ii)年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
β^=∑i=1n(ui-u)(vi-v)∑i=1n(ui-u)2,α^=v-β^ u.
解析 (1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2分)
(2)令w=x,先建立y关于w的线性回归方程.由于
d^=∑i=18(wi-w)(yi-y)∑i=18(wi-w)2=108.81.6=68,
c^=y-d^ w=563-68×6.8=100.6,
所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(6分)
(3)(i)由(2)知,当x=49时,年销售量y的预报值
y^=100.6+6849=576.6,
年利润z的预报值z^=576.6×0.2-49=66.32.(9分)
(ii)根据(2)的结果知,年利润z的预报值
z^=0.2(100.6+68x)-x=-x+13.6x+20.12.
所以当x=13.62=6.8,
即x=46.24时,z^取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.(12分)
思路分析 (1)根据散点图中点的分布趋势进行判断.(2)先设中间量w=x,建立y关于w的线性回归方程,进而得y关于x的回归方程.(3)(i)将x=49代入回归方程求出y的预报值,进而得z的预报值,(ii)求出z关于x的回归方程,进而利用函数方法求最大值.
考点二 独立性检验
1.(2018课标Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
解析 (1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.
因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知m=79+812=80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于 K2=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
思路分析 (1)根据茎叶图中的数据大致集中在哪个茎,作出判断;
(2)通过茎叶图确定数据的中位数,按要求完成2×2列联表;
(3)根据(2)中的列联表,将有关数据代入公式计算得K2的值,查表作出统计推断.
解后反思 独立性检验问题的常见类型及解题策略
(1)已知分类变量的数据,判断两个分类变量的相关性,可依据数据及公式计算K2,然后作出判断;
(2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解.
2.(2017课标Ⅱ,18,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
,
K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).
解析 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=200×(62×66-34×38)2100×100×96×104≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg).
解后反思 解独立性检验问题的关注点:
(1)两个明确:①明确两类主体;②明确研究的两个问题.
(2)两个关键:①准确画出2×2列联表;②准确理解K2.
B组 自主命题·省(区、市)卷题组
1.(2017山东,5,5分)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,
设其回归直线方程为y^=b^x+a^.已知∑i=110xi=225,∑i=110yi=1 600,b^=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
答案 C
2.(2015福建,4,5分)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y-b^x.
据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
答案 B
C组 教师专用题组
1.(2014湖北,4,5分)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为y^=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
答案 B
2.(2014重庆,3,5分)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )
A.y^=0.4x+2.3 B.y^=2x-2.4
C.y^=-2x+9.5 D.y^=-0.3x+4.4
答案 A
3.(2014课标Ⅱ,19,12分,0.311)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年 份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
b^=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2,a^=y-b^t.
解析 (1)由所给数据计算得
t=17×(1+2+3+4+5+6+7)=4,
y=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
∑i=17(ti-t)2=9+4+1+0+1+4+9=28,
∑i=17(ti-t)(yi-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
b^=∑i=17(ti-t)(yi-y)∑i=17(ti-t)2=1428=0.5,
a^=y-b^t=4.3-0.5×4=2.3,
所求回归方程为y^=0.5t+2.3.
(2)由(1)知,b^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
易错警示 解题时容易出现计算错误,计算时一定要仔细.
【三年模拟】
一、选择题(每小题5分,共20分)
1.(2019届湖南长沙雅礼中学高三上学期月考(一),5)已知回归直线方程的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )
A.y^=1.23x+4 B.y^=1.23x+0.8
C.y^=1.23x+0.08 D.y^=1.23x-0.08
答案 C
2.(2018广东五校联考,3)下表是我国某城市在2017年1月份至10月份10个月的最低气温与最高气温(℃)的数据一览表.
月份
1
2
3
4
5
6
7
8
9
10
最高气温
5
9
9
11
17
24
27
30
31
21
最低气温
-12
-3
1
-2
7
17
19
23
25
10
已知该城市各月的最低气温与最高气温具有相关关系,根据表格下列结论错误的是( )
A.最低气温与最高气温为正相关
B.每月最高气温和最低气温的平均值在前8个月逐月增加
C.月温差(最高气温减最低气温)的最大值出现在1月
D.1月至4月的月温差(最高气温减最低气温)相对于7月至10月,波动性更大
答案 B
月份
1
2
3
4
5
6
7
8
9
10
最高气温
5
9
9
11
17
24
27
30
31
21
最低气温
-12
-3
1
-2
7
17
19
23
25
10
温差
17
12
8
13
10
7
8
7
6
11
由表格可知最低气温大致随最高气温的增大而增大,A正确;每月最高气温与最低气温的平均值在前8个月不是逐月增加,B错;月温差(最高气温减最低气温)的最大值出现在1月,C正确;1月至4月的月温差(最高气温减最低气温)相对于7月至10月,波动性更大,D正确,故选B.
3.(2017湖南益阳调研,4)某公司2010—2015年的年利润(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:
年份
2010
2011
2012
2013
2014
2015
利润x(百万元)
12.2
14.6
16
18
20.4
22.3
支出y(百万元)
0.62
0.74
0.81
0.89
1.00
1.11
根据统计资料,则( )
A.年利润中位数是16,y与x具有正的线性相关关系
B.年利润中位数是17,y与x具有正的线性相关关系
C.年利润中位数是17,y与x具有负的线性相关关系
D.年利润中位数是18,y与x具有负的线性相关关系
答案 B
4.(2017陕西汉中一模,3)已知两个随机变量x,y之间的相关关系如下表所示:
x
-4
-2
1
2
4
y
-5
-3
-1
-0.5
1
根据上述数据得到的回归方程为y^=b^x+a^,则大致可以判断( )
A.a^>0,b^>0 B.a^>0,b^<0
C.a^<0,b^>0 D.a^<0,b^<0
答案 C
二、填空题(共5分)
5.(2018湖南师大附中月考(三),14)在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
参照附表,在犯错误的概率不超过 (填百分比)的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”.
参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
附表:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
答案 5%
三、解答题(共50分)
6.(2019届陕西四校联考模拟,18)经调查,3个成年人中就有一个人有高血压,那么什么是高血压?血压多少是正常的?经国际卫生组织对大量不同年龄的人群进行血压调查,得出随年龄变化,收缩压的正常值变化情况如下表:
年龄x(岁)
28
32
38
42
48
52
58
62
收缩压y
(单位:mmHg)
114
118
122
127
129
135
140
147
其中:b^=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a^=y-b^x,∑i=18xi2=17 232,∑i=18xiyi=47 384.
(1)请画出表中数据的散点图;
(2)请根据表中提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(a^,b^的值精确到0.01)
(3)若规定,一个人的收缩压为标准值的0.9~1.06倍,则为血压正常人群;收缩压为标准值的1.06~1.12倍,则为轻度高血压人群;收缩压为标准值的1.12~1.20倍,则为中度高血压人群;收缩压为标准值的1.20倍及以上,则为重度高血压人群.一位收缩压为180 mmHg的70岁的老人,属于哪类人群?
解析 (1)
(2)x=28+32+38+42+48+52+58+628=45,
y=114+118+122+127+129+135+140+1478=129.
b^=∑i=18xiyi-nxy∑i=18xi2-8x2=47 384-8×45×12917 232-8×452=118129≈0.91.a^=y-b^x=129-0.91×45=88.05,∴回归直线方程为y^=0.91x+88.05.
(3)根据回归直线方程的预测,年龄为70岁的老人标准收缩压约为0.91×70+88.05=151.75(mmHg),180151.75≈1.19,∴收缩压为180 mmHg的70岁老人属于中度高血压人群.
方法总结 求回归直线方程的步骤:①依据样本数据画出散点图,确定两个变量具有线性相关关系;②计算x,y,∑i=1nxi2,∑i=1nxiyi的值;③计算回归系数a^,b^;④写出回归直线方程y^=b^x+a^;回归直线过样本点的中心(x,y),利用线性回归方程可以估计总体,帮助分析两个变量的变化趋势.
7.(2019届安徽黄山11月“八校联考”,19)2018年7月24日,长春长生生物科技有限责任公司先被查出狂犬病疫苗生产记录造假,后又被测出百白破疫苗“效价测定”项不符合规定,由此引发的疫苗事件牵动了无数中国人的心.疫苗直接用于健康人群,尤其是新生儿和青少年,与人民的健康联系紧密.因此,疫苗在上市前必须经过严格的检测,并通过临床实验获得相关数据,以保证疫苗使用的安全和有效.某生物制品研究所将某一型号疫苗用在小白鼠身上进行科研和临床实验,得到统计数据如下:
未感染病毒
感染病毒
总计
未注射疫苗
20
x
A
注射疫苗
30
y
B
总计
50
50
100
现从所有实验小白鼠中任取一只,取到“注射疫苗”小白鼠的概率为25.
(1)求2×2列联表中的数据x,y,A,B的值;
(2)能否有99.9%的把握认为注射此种疫苗有效?
(3)现从感染病毒的小白鼠中任意抽取三只进行病理分析,记已注射疫苗的小白鼠只数为ξ,求ξ的分布列和数学期望.
附:K2=n(ad-bc)2(a+b)(a+c)(c+d)(b+d),n=a+b+c+d.
P(K2≥k0)
0.05
0.01
0.005
0.001
k0
3.841
6.635
7.879
10.828
解析 (1)设从所有实验小白鼠中任取一只,取到“注射疫苗”的小白鼠为事件A,
由已知得P(A)=y+30100=25,所以y=10,则x=40,A=60,B=40.
(2)K2=100×(20×10-30×40)250×50×40×60=503≈16.67>10.828.
所以有99.9%的把握认为注射此种疫苗有效.
(3)由已知得ξ的可能取值为0,1,2,3.
P(ξ=0)=C403C503=247490,P(ξ=1)=C402C101C503=195490,
P(ξ=2)=C401C102C503=45490,P(ξ=3)=C103C503=3490,
∴ξ的分布列为
ξ
0
1
2
3
P
247490
195490
45490
3490
数学期望E(ξ)=247490×0+195490×1+45490×2+3490×3=0.6.
思路分析 (1)由从所有实验小白鼠中任取一只,取到“注射疫苗”小白鼠的概率为25,根据古典概型概率公式列方程可求得y=10,进而可求得x,A,B的值;(2)利用K2=n(ad-bc)2(a+b)(a+c)(c+d)(b+d)求得K2 ,与邻界值比较,即可得到结论;(3)ξ的可能取值为0,1,2,3,结合组合知识,利用古典概型概率公式求出各随机变量对应的概率,从而可得分布列,进而利用期望公式可得ξ的数学期望.
8.(2018河南信阳二模,18)为了解某省属师范大学师范类毕业生参加工作后,从事的工作与教育是否有关的情况,随机调查了该校80位性别不都相同的2016年师范类毕业大学生,得到具体数据如下表:
与教育有关
与教育无关
合计
男
30
10
40
女
35
5
40
合计
65
15
80
(1)能否在犯错误的概率不超过5%的前提下,认为“师范类毕业生从事与教育有关的工作与性别有关”?
(2)求这80位师范类毕业生从事与教育有关工作的频率;
(3)以(2)中的频率为概率.从该校近几年毕业的2 000名师范类大学生中随机选取4名,记这4名毕业生从事与教育有关工作的人数为X,求X的数学期望E(X).
参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d).
附表:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
解析 (1)根据列联表计算得K2=80×(30×5-35×10)240×40×65×15≈2.0513,因为K2<3.841,所以在犯错误的概率不超过5%的前提下,不能认为“师范类毕业生从事与教育有关的工作与性别有关”.
(2)由题表知这80位师范类毕业生从事与教育有关工作的频率为6580=1316.
(3)由题意知X服从B4,1316,得E(X)=4×1316=134.
9.(2018河北石家庄二模,18)随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加,下表是某购物网站2017年1~8月促销费用x(万元)和产品销量y(万件)的具体数据:
月份
1
2
3
4
5
6
7
8
促销费用x
2
3
6
10
13
21
15
18
产品销量y
1
1
2
3
3.5
5
4
4.5
(1)根据数据可知y与x具有线性相关关系,请建立y关于x的回归方程y^=b^x+a^(系数精确到0.01);
(2)已知6月份该购物网站为庆祝成立1周年,特制订奖励制度:用Z(单位:件)表示日销量,若Z∈[1 800,2 000),则每位员工每日奖励100元;若Z∈[2 000,2 100),则每位员工每日奖励150元;若Z∈[2 100,+∞),则每位员工每日奖励200元.现已知该网站6月份日销量Z服从正态分布N(2 000,10 000),请你计算某位员工当月奖励金额总数大约为多少元.(当月奖励金额总数精确到百分位)
参考数据:∑i=18xiyi=338.5,∑i=18xi2=1 308,其中xi,yi分别为第i个月的促销费用和产品销量,i=1,2,3,…,8.
参考公式:①对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程y^=b^x+a^的斜率和截距的最小二乘估计分别为b^=∑i=1nxiyi-nxy∑i=1nxi2-nx 2,a^=y-b^x.
②若随机变量Z服从正态分布N(μ,σ2),
则P(μ-σ