- 500.50 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第二讲 统计与统计案例
[考情分析]
统计部分在选择、填空题中的命题热点有随机抽样、用样本估计总体以及变量的相关性,难度较低.
年份
卷别
考查角度及命题位置
2017
Ⅰ卷
样本的数字特征·T2
样本的数字特征的综合应用·T19
Ⅱ卷
频率分布直方图与独立性检验·T19
Ⅲ卷
折线图的应用·T3
2016
Ⅲ卷
统计图表的应用·T4
回归分析及应用·T18
2015
Ⅰ卷
回归分析及应用·T19
Ⅱ卷
条形图、两变量间的相关性·T3
[真题自检]
1.(2017·高考全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用 评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
解析:标准差能反映一组数据的稳定程度.故选B.
答案:B
2.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
解析:由折线图可知,各年的月接待游客量从8月份后存在下降趋势,故选A.
答案:A
3.(2016·高考全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
解析:由图形可得各月的平均最低气温都在0℃以上,A正确;七月的平均温差约为10℃,而一月的平均温差约为5℃,故B正确;三月和十一月的平均最高气温都在10℃左右,基本相同,C正确,故D错误.
答案:D
4.(2016·高考全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:yi=9.32,tiyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.
解析:(1)由折线图中的数据和附注中的参考数据得
=4, (ti-)2=28, =0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
∴r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,
从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得==≈0.103.
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为y=0.10t+0.92
将2016对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
抽样方法
[方法结论]
三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n,总体的个体数为N,则用这三种方法抽样时,每个个体被抽到的概率都是.
[题组突破]
1.(2017·荆门调研)将参加数学竞赛决赛的500名学生编号为001,002,…
,500,采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003,这500名学生分别在三个考点考试,从001到200在第一考点,从201到355在第二考点,从356到500在第三考点,则第三考点被抽中的人数为( )
A.14 B.15
C.16 D.21
解析:系统抽样的样本间隔为=10,第一个号码为003,按照系统抽样的规则,抽到的号码依次为003,013,023,033,043,053,…,493,第三考点抽到的第一个号码为363,最后一个号码为493,由等差数列的通项公式得493=363+(n-1)×10,解得n=14,故选A.
答案:A
2.(2017·云南二检)工厂生产的A、B、C三种不同型号的产品数量之比依次为2∶3∶5,为研究这三种产品的质量,现用分层抽样的方法从该工厂生产的A、B、C三种产品中抽出样本容量为n的样本,若样本中A型产品有16件,则n的值为________.
解析:由已知得n×=16,解得n=80.
答案:80
[误区警示]
利用系统抽样分段时,若分段间隔不为整数,应先随机剔除部分元素,再分组,但每个个体被抽到的概率仍为.此问题易忽视.
用样本估计总体
[方法结论]
1.在频率分布直方图中,纵轴表示,数据落在各小组内的频率用各小矩形的面积表示,各小矩形的面积总和为1,因为在频率分布直方图中组距是一个固定值,所以各小矩形高的比也就是频率比.
2.当样本数据较少时,用茎叶图表示数据效果较好,要分清何为茎,何为叶,并明确其特征数字的含义.
3.特征数字
(1)众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.在频率分布直方图中,众数的估计值是最高的矩形的中点的横坐标.
(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数.在频率分布直方图中,把使左边和右边的直方图的面积相等的直线所对应的横坐标的估计值作为中位数的值.
(3)平均数:样本数据的算术平均数,即=(x1+x2+…+xn).在频率分布直方图中,平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(4)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2],其中s为标准差.方差与标准差都反映了样本数据的稳定与波动、集中与离散的程度.s2越小,样本数据的稳定性越高,波动越小.
[典例] (1)如图所示,茎叶图记录了甲、乙两组各4名学生完成某道数学题的得分情况,该题满分为12分.已知甲、乙两组学生的平均成绩相同,乙组某个数据的个位数字模糊,记为x.则下列命题正确的是( )
A.甲组学生的成绩比乙组稳定 B.乙组学生的成绩比甲组稳定
C.两组学生的成绩有相同的稳定性 D.无法判断甲、乙两组学生的成绩的稳定性
解析:甲=×(9+9+11+11)=10,乙=×(8+9+10+x+12)=10,解得x=1.又s=×[(9-10)2+(9-10)2+(11-10)2+(11-10)2]=1,s=×[(8-10)2+(9-10)2+(11-10)2+(12-10)2]=,∴s<s,∴甲组学生的成绩比乙组稳定.选A.
答案:A
(2)海尔公司的n名员工参加“我是销售家”活动,他们的年龄在25岁至50岁之间.按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],由统计的数据得到的频率分布直方图如图所示.
下表是年龄的频数分布表:
区间
[25,30)
[30,35)
[35,40)
[40,45)
[45,50]
人数
x
100
①求实数n,x的值;
②现要从年龄较小的第1,2,3组中用分层抽样的方法抽取6人,则年龄在第1,2,3组中抽取的人数分别是多少?
③在②的条件下,从这6人中随机抽取2人参加“我是销售家”的彩排活动,求恰有1人的年龄在第3组的概率.
解析:①由频率分布直方图可知年龄在[35,40)的频率为0.08×
5=0.4,又其人数为100,所以=0.4,解得n=250.所以x=0.02×5×250=25.
②因为第1,2,3组共有25+25+100=150(人),利用分层抽样在150人中抽取6人,则第1组抽取的人数为6×=1,第2组抽取的人数为6×=1,第3组抽取的人数为6×=4,所以年龄在第1,2,3组中分别抽取的人数为1,1,4.
③由②可设第1组的1人为A,第2组的1人为B,第3组的4人分别为C1,C2,C3,C4,则从这6人中抽取2人的所有情况为{A,B},{A,C1},{A,C2},{A,C3},{A,C4},{B,C1},{B,C2},
{B,C3},{B,C4},{C1,C2},{C1,C3},{C1,C4},{C2,C3},{C2,C4},{C3,C4},共有15种情况.
其中恰有1人的年龄在第3组的所有情况为{A,C1},{A,C2},{A,C3},{A,C4},{B,C1},
{B,C2},{B,C3},{B,C4},共有8种情况.
所以恰有1人的年龄在第3组的概率为.
[类题通法]
1.用样本估计总体充分体现了数形结合思想的运用,主要考查利用茎叶图或频率分布直方图 估计总体.
2.利用频率分布直方图求众数、中位数与平均数的估计值
利用频率分布直方图求众数、中位数和平均数时,易出错,应注意区分这三者,在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
[演练冲关]
1.空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的无量纲指数.空气质量按照AQI大小分为六级:0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.一环保人士记录去年某地某月10天的AQI的茎叶图如图.利用该样本估计该地本月空气质量优良(AQI≤100)的天数(按这个月总共30天计算)为( )
A.15 B.18
C.20 D.24
解析:从茎叶图中可以发现该样本中空气质量优的天数为2,空气质量良的天数为4,故该样本中空气质量优良的频率为=,估计该地本月空气质量优良的频率为,从而估计该地本月空气质量优良的天数为30×=18.选B.
答案:B
2.(2017·高考全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得= xi=9.97,s= =≈0.212, ≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=,≈0.09.
解析:(1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r=
≈≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)①由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均数为×(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02,=16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为×(1 591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
回归分析
[方法结论]
1.方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,回归方程的截距和斜率分别为=,=-,(,)是样本中心点,回归直线过样本中心点.
2.(1)正相关与负相关就看回归直线的斜率,斜率为正则为正相关,斜率为负则为负相关.
(2)样本相关系数r具有以下性质:r>0表示两个变量正相关,r<0表示两个变量负相关;|r|≤1,且|r|越接近于1,线性相关程度越强,|r|越接近于0,线性相关程度越弱.
[典例]某家具厂对每日的原材料费支出与销售额之间的关系进行分析研究,12月1日~5日的原材料费支出x(单位:万元)与销售额y(单位:万元)之间有如下数据:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
x(单位:万元)
10
11
13
12
8
y(单位:万元)
23
25
30
26
16
该家具厂所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻2天的数据的概率;
(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程=x+,并判断该线性回归方程是否可靠.(若由线性回归方程得到的估计数据与所选取的检验数据的误差不超过2万元,则认为得到的线性回归方程是可靠的)
解析:(1)设选取的2组数据恰好是不相邻2天的数据为事件A,5组数据分别记为a,b,c,d,e,从5组数据中任选2组,总的基本事件有ab,ac,ad,ae,bc,bd,be,cd,ce,de,共10种,
事件A包含的基本事件有ac,ad,ae,bd,be,ce,共6种,所以P(A)==.
(2)==12,==27,
xiyi=11×25+13×30+12×26=977,x=112+132+122=434,
==,=-=27-×12=27-30=-3,
所以y关于x的线性回归方程为=2.5x-3,
当x=10时,=×10-3=25-3=22;
当x=8时,=×8-3=20-3=17;
|23-22|=1<2,|17-16|=1<2,
经检验估计数据与所选取的检验数据的误差均不超过2万元,所以该线性回归方程可靠.
[类题通法]
化归思想在回归分析的应用主要体现在以下两个方面
(1)如果两个变量呈非线性相关关系,则可通过恰当的变换,将其转化成线性关系,再求线性回归方程.(2)利用回归直线方程可以进行预测与估计,但要注意回归直线方程表明的是两组数据之间的相关关系,而不是函数关系,所以利用该方程求出的数值都是估计值,而不是一个确定的数值.
[演练冲关]
1.(2017·豫东、豫北十所名校联考)根据如下样本数据:
x
3
4
5
6
7
y
4.0
a-5.4
-0.5
0.5
b-0.6
得到的回归方程为=bx+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,y就( )
A.增加1.4个单位 B.减少1.4个单位
C.增加7.9个单位 D.减少7.9个单位
解析:依题意得,=0.9,故a+b=6.5①;
又样本点的中心为(5,0.9),故0.9=5b+a②,
联立①②,解得b=-1.4,a=7.9,则=-1.4x+7.9,
可知当x每增加1个单位时,y就减少1.4个单位.
答案:B
2.某火锅店为了了解气温对营业额的影响,随机记录了该店1月份其中5天的日营业额y(单位:万元)与该地当日最低气温x(单位:℃)的数据,如下表:
x
2
5
8
9
11
y
1.2
1
0.8
0.8
0.7
(1)求y关于x的回归方程=x+;
(2)判断y与x之间是正相关还是负相关,若该地1月份某天的最低气温为6℃,用所求回归方程预测该店当日的营业额.
附:回归方程=x+中,=,=-.
解析:(1)=×(2+5+8+9+11)=7,=×(1.2+1+0.8+0.8+0.7)=0.9.
x=4+25+64+81+121=295,xiyi=2.4+5+6.4+7.2+7.7=28.7,
∴====-0.056,
=-=0.9-(-0.056)×7=1.292.
∴回归方程为=-0.056x+1.292.
(2)∵=-0.056<0,∴y与x之间是负相关.
当x=6时,=-0.056×6+1.292=0.956.
∴该店当日的营业额约为9 560元.
[典例] (2017·贵阳模拟)2016年3月31日贵州省第十二届人民代表大会常务委员会第二十一次会议通过的《贵州省人口与计划生育条例修正案》全面开放二孩政策.为了解人们对于贵州省新颁布的“生育二孩放开”政策的热度,现在某市进行调查,对[5,65]岁的人群随机抽取了n人,得到如下统计表和各年龄段抽取人数的频率分布直方图:
分组
支持“生育二孩放开” 政策的人数
占本组的频率
[5,15)
4
0.8
[15,25)
5
p
[25,35)
12
0.8
[35,45)
8
0.8
[45,55)
2
0.4
[55,65]
1
0.2
(1)求n,p的值;
(2)根据以上统计数据填下面2×2列联表,并根据列联表的独立性检验,判断能否有99 的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系?
年龄不低于45岁的人数
年龄低于45岁的人数
合计
支持
不支持
合计
参考数据:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=,n=a+b+c+d
解析:(1)从[5,15)岁这一年龄段中抽取的人数为=5,频率为0.010×10=0.1,
∴n==50.由题可知,第二组的频率为0.2,
∴第二组的人数为50×0.2=10,则p==0.5.
(2)2×2列联表如下:
年龄不低于45岁的人数
年龄低于4岁的人数5
合计
支持
3
29
32
不支持
7
11
18
合计
10
40
50
K2=≈6.27<6.635,
∴没有99 的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系.
[类题通法]
求解独立性检验应用交汇问题的模型
(1)读懂列联表:明确列联表中的数据.
(2)计算K2:根据提供的公式计算K2值.
(3)作出判断:依据临界值与犯错误的概率得出结论.
(4)计算随机变量的分布列、期望:利用给定数据分析变量取值,计算概率,得分布列后求期望.
[演练冲关]
1.(2017·石家庄模拟)为了判断高中三年级学生选修文理 是否与性别有关,现随机抽取50名学生,得到2×2列联表:
理
文
总计
男
13
10
23
女
7
20
27
总计
20
30
50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2=≈4.844,则认为选修文理 与性别有关系出错的可能性约为________.
解析:由K2=4.844>3.841.故认为选修文理 与性别有关系出错的可能性约为5 .
答案:5
2.(2017·高考全国卷Ⅱ)海水养殖场进行某水产品的新、旧 箱养殖方法的产量对比,收获时各随机抽取了100个 箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
旧养殖法
新养殖法
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99 的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=.
解析:(1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99 的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.