- 467.00 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计、统计案例
[全国卷3年考情分析]
年份
全国卷Ⅰ
全国卷Ⅱ
全国卷Ⅲ
2018
统计图的识别与分析·T3
折线图、线性回归方程模型问题·T18
茎叶图的应用及独立性检验·T18
2017
频率分布直方图、独立性检验·T18
折线图的识别与分析·T3
2016
统计图表的识别与分析·T4
折线图、相关性检验、线性回归方程及其应用·T18
(1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在3~4题的位置.
(2)统计与统计案例在解答题中多出现在18或19题,多考查直方图、茎叶图及数字特征计算、统计案例的应用.
保分考点·练后讲评
1.福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为( )
81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85
06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49
A.12 B.33
C.06 D.16
解析:选C 被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.
2.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:
最喜爱
喜爱
一般
不喜欢
4 800
7 200
6 400
1 600
电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为( )
A.25,25,25,25 B.48,72,64,16
C.20,40,30,10 D.24,36,32,8
解析:选D 因为抽样比为=,
所以每类人中应抽选的人数分别为4 800×=24,7 200×=36,6 400×=32, 1 600×=8.故选D.
3.某班共有学生56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.
解析:由题意得,将56人按学号从小到大分成4组,则分段间隔为14,所以抽取的学号依次为2,16,30,44,故还有一位同学的学号为16.
答案:16
[解题方略] 系统抽样和分层抽样中的计算
(1)系统抽样
①总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
②若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n-1).
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
保分考点·练后讲评
[大稳定]
1.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:
用电量/度
120
140
160
180
200
户数
2
3
5
8
2
则这20户家庭该月用电量的众数和中位数分别是( )
A.180,170 B.160,180
C.160,170 D.180,160
解析:选A 用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.
2.甲、乙两名同学在7次数学测试中的成绩如茎叶图所示,其中甲同学成绩的众数是85,乙同学成绩的中位数是83,则成绩较稳定的是________.
解析:根据众数及中位数的概念易得x=5,y=3,故甲同学成绩的平均数为=85,乙同学成绩的平均数为=85,故甲同学成绩的方差为×(49+36+25+49+121)=40,乙同学成绩的方差为×(169+16+16+4+36+36+121)=>40,故成绩较稳定的是甲.
答案:甲
3.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.
(1)求图中a的值;
(2)估计这种植物果实重量的平均数和方差s2(同一组中的数据用该组区间的中点值作代表).
解:(1)由5×(0.020+0.040+0.075+a+0.015)=1,得a=0.050.
(2)各组中点值和相应的频率依次为
中点值
30
35
40
45
50
频率
0.1
0.2
0.375
0.25
0.075
=30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,
s2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.
[解题方略]
1.方差的计算与含义
(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.
(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.
2.从频率分布直方图中得出有关数据的方法
频率
频率分布直方图中横轴表示组数,纵轴表示,频率=组距×
频率比
频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比
众数
最高小长方形底边中点的横坐标
中位数
平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标
平均数
频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和
[小创新]
1.空气质量指数AQI是检测空气质量的重要参数,其数值越大说明空气污染状况越严重,空气质量越差.某地环保部门统计了该地区12月1日至12月24日连续24天的空气质量指数AQI,根据得到的数据绘制出如图所示的折线图.则下列说法错误的是( )
A.该地区在12月2日空气质量最好
B.该地区在12月24日空气质量最差
C.该地区从12月7日到12月12日AQI持续增大
D.该地区的空气质量指数AQI与这段日期成负相关
解析:选D 12月2日空气质量指数最低,所以空气质量最好,A正确;12月24日空气质量指数最高,所以空气质量最差,B正确;12月7日到12月12日AQI在持续增大,所以C正确;在该地区统计这段时间内,空气质量指数AQI整体呈上升趋势,所以空气质量指数与这段日期成正相关,D错误.
2.为保障食品安全,某市质量监督局对某超市进行食品安全检查,如图所示是某品牌食品中某元素含量数据的茎叶图,已知该组数据的平均数为11.75,则+的最小值为( )
A.9 B.
C.3 D.
解析:选C 根据茎叶图中的数据得,该组数据的平均数=(a+11+13+20+b)=11.75,∴a+b=3,∴+=(a+b)=≥5+2=(5+4)=3.当且仅当a=2b,即a=2,b=1时取“=”.∴+的最小值为3.故选C.
3.《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问:各几何?”其意为:今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱,则丙应出________钱(所得结果四舍五入,保留整数).
解析:甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,丙应出100×=16≈17(钱).
答案:17
增分考点·广度拓展
[分点研究]
题型一 回归分析在实际问题中的应用
[例1] 某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x为该商品的进货量,y为销售天数):
x/吨
2
3
4
5
6
8
9
11
y/天
1
2
3
3
4
5
6
8
(1)根据上表数据在如图所示的网格中绘制散点图;
(2)根据上表提供的数据,求出y关于x的线性回归方程=x+;
(3)根据(2)中的计算结果,若该商店准备一次性进货该商品24吨,预测需要销售的天数.
参考公式和数据:=,=-.
=356,iyi=241.
[解] (1)散点图如图所示:
(2)依题意,得=×(2+3+4+5+6+8+9+11)=6,
=×(1+2+3+3+4+5+6+8)=4,
又=356,iyi=241,
所以===,
=4-×6=-,
故线性回归方程为=x-.
(3)由(2)知,当x=24时,=×24-≈17,
故若该商店一次性进货24吨,则预计需要销售17天.
[解题方略] 求回归直线方程的方法
(1)若所求的回归直线方程是在选择题中,常利用回归直线=x+必经过样本点的中心(,)快速选择.
(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:
题型二 独立性检验在实际问题中的应用
[例2] (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ
)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[解题方略] 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=(其中n=a+b+c+d)计算出K2的观测值;
(3)比较K2的观测值与临界值的大小,作出统计推断.
[多练强化]
1.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t
的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)
2.(2019届高三·湖北五校联考)通过随机询问100名性别不同的大学生是否爱好某项运动,得到如下2×2列联表:
男
女
总计
爱好
40
不爱好
25
总计
45
100
(1)将题中的2×2列联表补充完整;
(2)能否有99%的把握认为是否爱好该项运动与性别有关?请说明理由.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
解:(1)题中的2×2列联表补充如下:
男
女
总计
爱好
40
20
60
不爱好
15
25
40
总计
55
45
100
(2)由(1)表中数据得K2=≈8.25>6.635,所以有99%的把握认为是否爱好该项运动与性别有关.
概率与统计的综合问题 增分考点·讲练冲关
[典例] (2018·福州质量检测)从某技术公司开发的某种产品中随机抽取200件,测量这些产品的一项质量指标值(记为Z),由测量结果得如下频率分布直方图:
(1)公司规定:当Z≥95时,产品为正品;当Z<95时,产品为次品.公司每生产一件这种产品,若是正品,则盈利90元;若是次品,则亏损30元,记ξ为生产一件这种产品的利润,求随机变量ξ的分布列和数学期望;
(2)由频率分布直方图可以认为,Z服从正态分布N(μ,σ2),其中μ近似为样本平均数,σ2近似为样本方差s2(同一组中的数据用该区间的中点值作代表).
①利用该正态分布,求P(87.8