- 227.50 KB
- 2021-06-11 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
一、考纲要求:
1.理解随机抽样的必要性和重要性.
2.会用简单随机抽样方法从总体中抽取样本.
3.了解分层抽样和系统抽样方法.
4.会用随机抽样的基本方法解决一些简单的实际问题.
5.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.
6.理解样本数据标准差的意义和作用,会计算数据标准差.
7.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.
8.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.
二、概念掌握及解题上的注意点:
1.简单随机抽样的特点
(1)抽取的个体数较少.(2)逐个抽取.(3)不放回抽取.(4)等可能抽取.只有四个特点都满足的抽样才是简单随机抽样.
2.抽签法与随机数法的适用情况
(1))抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况.
(2))一个抽样试验能否用抽签法,关键看两点:
一是制签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.
3.从总体数N中抽取一个样本容量为n的样本
(1))在整个抽样过程中,每个个体被抽到的概率是.
(2))在一次抽取中,每个个体被抽到的概率是.
4.系统抽样的三个关注点
(1))若不改变抽样规则,则所抽取的号码构成一个等差数列,其首项为第一组所抽取的号码,公差为样本间隔.故问题可转化为等差数列问题解决.
(2))抽样规则改变,应注意每组抽取一个个体这一特征不变.
(3))如果总体容量N不能被样本容量n整除,可随机地从总体中剔除余数,然后再按系统抽样的方法抽样.
5.系统抽样有一个抽样距其步骤为剔除,编号,均分,抽样.
6频率、频数、样本容量的计算方法
(1))×组距=频率.
(2))=频率,=样本容量,样本容量×频率=频数.
易错警示:绘制频率分布直方图时的3个注意点
(1))制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确;
(2))频率分布直方图的纵坐标是,而不是频率.
(3))注意中值估算法.
三、高考考题题例分析:
例1.(2018全国卷II) 如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=﹣30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【答案】见解析
(2)模型②得到的预测值更可靠;
因为从总体数据看,该地区从2000年到2016年的环境基础设施投资额是逐年上升的,
而从2000年到2009年间递增的幅度较小些,
从2010年到2016年间递增的幅度较大些,
所以,利用模型②的预测值更可靠些.
例2.(2018全国卷III)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】见解析
由此填写列联表如下;
超过m
不超过m
总计
第一种生产方式
15
5
20
第二种生产方式
5
15
20
总计
20
20
40
(3)根据(2)中的列联表,计算
K2===10>6.635,
∴能有99%的把握认为两种生产方式的效率有差异.
例10(2017山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
【答案】C
统计与统计案例练习题
一、选择题
1.下面的抽样方法是简单随机抽样的为( )
A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖
B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格
C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见
D.用抽签方法从10件产品中选取3件进行质量检验
【答案】D
【解析】:A,B选项中为系统抽样,C为分层抽样.
2.重庆市2016年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是( )
A.19 B.20
C.21.5 D.23
【答案】B
3.下列说法错误的是( )
A.回归直线过样本点的中心(,)
B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1
C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小
D.在回归直线方程=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位
【答案】C
【解析】:根据相关定义分析知A,B,D正确;C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误,故选C.
4.福利彩票“双色球”中红色球的编号有33个,分别为01,02,…,33,某彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为( )
49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64
57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
A.23 B.09
C.02 D.17
【答案】C
【解析】:从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.
5.某班一次测试成绩的茎叶图和频率分布直方图可见部分(如图),根据图中的信息可确定被抽测的人数及分数在[90,100]内的人数分别为( )
A.20,2 B.24,4
C.25,2 D.25,4
【答案】C
6.某公司在2017年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
【答案】C
【解析】:月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系.
7.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )
A.480 B.481
C.482 D.483
【答案】C
8.下列说法错误的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系
B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
【答案】B
【解析】:根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相关性越弱,故B不正确;对于一组数据拟合程度好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好;二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C,D正确,故选B.
9. 2017年2月20日,摩拜单车在济南推出“做文明骑士,周一摩拜单车免费骑”活动.为了解单车使用情况,记者随机抽取了五个投放区域,统计了半小时内被骑走的单车数量,绘制了如图所示的茎叶图,则该组数据的方差为( )
A.9 B.4
C.3 D.2
【答案】B
【解析】: 由茎叶图得该组数据的平均值为(87+89+90+91+93)=90,所以该组数据的方差为[(87-90)2+(89-90)2+(90-90)2+(91-90)2+(93-90)2]=4,故选B.
10.某工厂的三个车间在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从第一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为( )
A.800 B.1 000
C.1 200 D.1 500
【答案】C
11.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8 B.15
C.16 D.32
【答案】C
【解析】:已知样本数据x1,x2,…,x10的标准差为s=8,则s2=64,数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为=2×8=16.
12.为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图9317所示的茎叶图.
考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④
C.②③ D.②④
【答案】B
【解析】: 由茎叶图中的数据通过计算求得甲=29,乙=30,s甲=,s乙=,∴甲<乙,s甲>s乙,故①④正确.故选B. 络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
【答案】 (1)3 (2)6 000
三、解答题
17.某车间将10名技工平均分成甲、乙两组加工某种零件,在单位时间内每个技工加工的合格零件数的统计数据的茎叶图如图所示,已知两组技工在单位时间内加工的合格零件的平均数都为10.
(1)求出m,n的值;
(2)求出甲、乙两组技工在单位时间内加工的合格零件的方差s和s,并由此分析两组技工的加工水平.
【答案】(1) m=3,n=8);
(2)见解析
【解析】: (1)根据题意可知:甲=(7+8+10+12+10+m)=10,乙=(9+n+10+11+12)=10,
∴m=3,n=8.
(2)s=[(7-10)2+(8-10)2+(10-10)2+(12-10)2+(13-10)2]=5.2,
s=[(8-10)2+(9-10)2+(10-10)2+(11-10)2+(12-10)2]=2,
∵甲=乙,s>s,
∴甲、乙两组的平均水平相当,乙组更稳定一些.
18.一企业从某条生产线上随机抽取100件产品,测量这些产品的某项技术指标值x,得到如下的频率分布表:
x
[11,13)
[13,15)
[15,17)
[17,19)
[19,21)
[21,23]
频数
2
12
34
38
10
4
(1)作出样本的频率分布直方图,并估计该技术指标值x的平均数和众数;
(2)若x<13或x≥21,则该产品不合格.现从不合格的产品中随机抽取2件,求抽取的2件产品中技术指标值小于13的产品恰有一件的概率.
【答案】见解析
【解析】: (1)频率分布直方图为
19.某医院对治疗支气管肺炎的两种方案A,B进行比较研究,将志愿者分为两组,分别采用方案A和方案B进行治疗,统计结果如下:
有效
无效
总计
使用方案A组
96
120
使用方案B组
72
总计
32
(1)完成上述列联表,并比较两种治疗方案有效的频率;
(2)能否在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关?
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.05
0.010
0.001
k0
3.841
6.635
10.828
【答案】见解析
20.下表数据为某地区某种农产品的年产量x(单位:吨)及对应销售价格y(单位:千元/吨).
x
1
2
3
4
5
y
70
65
55
38
22
(1)若y与x有较强的线性相关关系,根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(2)若每吨该农产品的成本为13.1千元,假设该农产品可全部卖出,预测当年产量为多少吨时,年利润Z最大?参考公式:
【答案】见解析
【解析】: (1)∵==3,
==50,
21.某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?
选择自然科学类
选择社会科学类
合计
男生
女生
合计
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.500
0.400
0.250
0.150
0.100
0.050
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】见解析
【解析】:(1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.
(2)根据统计数据,可得2×2列联表如下:
选择自然科学类
选择社会科学类
合计
男生
60
45
105
女生
30
45
75
合计
90
90
180
则K2==≈5.142 9>5.024,
所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.
22.经国务院批复同意,郑州成功入围国家中心城市.某校学生社团针对“郑州的发展环境”对20名学生进行问卷调查打分(满分100分),得到茎叶图,如图
① ②
(1)分别计算男生、女生打分的平均分,并用数字特征评价男、女生打分的数据分布情况;
(2)如图9319②是按照打分区间[50,60),[60,70),[70,80),[80,90),[90,100]绘制的频率分布直方图,求最高矩形的高;
(3)从打分在70分以下(不含70分)的学生中抽取3人,求有女生被抽中的概率.
【答案】见解析
(2)h=÷10=0.045.
(3)设“有女生被抽中”为事件A,打分在70分以下(不含70分)的学生中女生有2人,设为a,b,男生4人,设为c,d,e,f.
基本事件有abc,abd,abe,abf,acd,ace,acf,ade,adf,aef,bcd,bce,bcf,bde,bdf,bef,cde,cdf,cef,def,共20种,其中有女生的有16种,所以P(A)==.