- 964.00 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第十一章 统 计
1.随机抽样
(1)理解随机抽样的必要性和重要性.
(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.
2.用样本估计总体
(1)了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.
(2)理解样本数据标准差的意义和作用,会计算数据标准差.
(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.
(4)会用样本的频率分布估计总体分布,会用样本的基
本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
(5)会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
3.变量的相关性
(1)会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.
(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).
4.了解回归分析的思想、方法及其简单应用.
5.了解独立性检验的思想、方法及其初步应用.
11.1 随机抽样
1.简单随机抽样
(1)简单随机抽样:一般地,设一个总体含有N个个体,从中逐个________地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会________,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样方法有两种:________法和________法.
抽签法(抓阄法):一般地,抽签法就是把总体中的N个个体________,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取______个号签,连续抽取________次,就得到一个容量为n的样本.
随机数法:随机数法就是利用______________、随机数骰子或计算机产生的随机数进行抽样.
简单随机抽样有操作简便易行的优点,在总体个数不多的情况下是行之有效的.
2.系统抽样
(1)一般地,假设要从容量为N的总体中抽取容量为n的样本,我们可以按下列步骤进行系统抽样:
①先将总体的N个个体________.有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;
②确定分段间隔k,对编号进行分段.当(n是样本容量)是整数时,取k=,如果遇到不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除;
③在第1段用______________抽样方法确定第一个个体编号l(l≤k);
④按照一定的规则抽取样本.通常是将l加上________得到第2个个体编号________,再________得到第3个个体编号________,依次进行下去,直到获取整个样本.
(2)当总体中元素个数较少时,常采用____________,当总体中元素个数较多时,常采用______________.
3.分层抽样
(1)分层抽样的概念:一般地,在抽样时,将总体分成________的层,然后按照一定的________,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)当总体是由__________的几个部分组成时,往往选用分层抽样的方法.
(3)分层抽样时,每个个体被抽到的机会是________的.
自查自纠:
1.(1)不放回 都相等
(2)抽签 随机数 编号 1 n 随机数表
2.(1)①编号 ③简单随机
④间隔k (l+k) 加k (l+2k)
(2)简单随机抽样 系统抽样
3.(1)互不交叉 比例 (2)差异明显 (3)均等
()某学校为了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )
A.抽签法 B.系统抽样法
C.分层抽样法 D.随机数法
解:按人数比例抽取,则用分层抽样最合理.故选C.
从匀速传递的新产品生产流水线上,质检员每10分钟从中抽取一件新产品进行某项指标检测,这样的抽样是( )
A.系统抽样 B.分层抽样
C.简单随机抽样 D.随机数法
解:根据定义易判断这样的抽样为系统抽样.故选A.
()采用系统抽样的方法从2 005个个体中抽取一个容量为50的样本,则抽样间隔和随机剔除的个体数分别为( )
A.40,5 B.50,5 C.5,40 D.5,50
解:因为2 005÷50=40余5,所以用系统抽样法从2 005个个体中抽取一个容量为50的样本,抽样间隔是40,且应随机剔除的个体数为5.故选A.
()某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.
解:应从一年级本科生中抽取300×=60名学生.故填60.
某单位200名职工的年龄分布情况如图所示,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号为第1组,6~10号为第2组,…,196~200号为第40组).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.
解:由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,所以第6组抽出的号码为27,第7组抽出的号码为32,第8组抽出的号码为37;易知40岁以下年龄段的职工数为200×0.5=100,所以40岁以下年龄段应抽取的人数为×100=20.故填37;20.
类型一 简单随机抽样
某大学为了支援我国西部教育事业,决定从应届毕业生报名的18名志愿者中选取6名组成志愿小组.请用抽签法和随机数表法设计抽样方案.
解:(抽签法)
第一步:将18名志愿者编号,编号为1,2,3,…,18;
第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;
第三步:将18个号签放入一个不透明的盒子里,充分搅匀;
第四步:从盒子中逐个抽取6个号签,并记录上面的编号;
第五步:所得号码对应的志愿者就是志愿小组的成员.
(随机数表法)
第一步:将18名志愿者编号,编号为01,02,03,…,18;
第二步:在随机数表中任选一数作为开始,按任意方向读数,比如从第8行第29列的数7开始,向右读;
第三步:从数7开始,向右读,每次取两位,凡不在01~18中的数或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09;
第四步:找出以上号码对应的志愿者,即是志愿小组的成员.
点拨:
考虑到总体中个体数较少,利用抽签法或随机数表法很容易获取样本,但须按这两种抽样方法的操作步骤进行.注意掌握随机数表的使用方法.
某车间工人已加工一种轴100件,为了解这种轴的直径,要从中抽出10件在同一条件下测量轴的直径(要求为(20±0.5)mm).如何采用简单随机抽样方法抽取上述样本?
解:因为100件轴的直径的全体是总体,将其中的100个个体编号00,01,02,…,
99.利用随机数表来抽取样本的10个号码,在随机数表中任选一数作为开始,任选一方向作为读数方向,比如选第20行第3列的数开始,往右读数,得到10个号码如下:16,93,32,43,50,27,89,87,19,20.将上述号码的轴在同一条件下测量直径.
类型二 系统抽样
从某厂生产的10 002辆汽车中随机抽取100辆测试某项性能,请合理选择抽样方法进行抽样,并写出抽样过程.
解:因为总体容量和样本容量都较大,可用系统抽样.
抽样步骤如下:
第一步,将10 002辆汽车用随机方式编号;
第二步,从总体中剔除2辆(剔除法可用随机数表法),将剩下的10 000辆汽车重新编号(分别为00001,00002,…,10000),并分成100段;
第三步,在第一段00001,00002,…,00100这100个编号中用简单随机抽样方法抽出一个作为起始号码(如00006);
第四步,把起始号码依次加上间隔100,可获得样本.
点拨:
①总体容量和样本容量都较大时,选用系统抽样比较合适;②系统抽样的号码成等差数列,公差为每组的容量.
()某市为了创建国家级文明城市,采用系统抽样的方法从960人中抽取32人做问卷调查,为此将这960人随机编号为1,2,…,960,分组后在第一组中采用简单随机抽样的方法抽到的号码为9.若抽到的32人中,编号落入区间的人做问卷A,编号落入区间的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为____________.
解:由题意知,将960人平均分成32组,每组30人,第k(k∈N*)组抽到的号码为(k-1)×30+9.令451≤(k-1)×30+9≤750(k∈N*),解得16≤k≤25,则满足16≤k≤25的正整数k有10个,故做问卷B的人数为10.故填10.
类型三 分层抽样
某企业共有5个分布在不同区域的工厂,职工3万人,其中职工比例为3∶2∶5∶2∶3.现从3万人中抽取一个300人的样本,分析员工的生产效率.
已知生产效率与不同的地理位置的生活习俗及文化传统有关,问应采取什么样的方法?并写出具体过程.
解:应采取分层抽样的方法.过程如下:
(1)将3万人分为五层,其中一个工厂为一层.
(2)按照样本容量的比例随机抽取各工厂应抽取的样本:
300×=60(人);300×=40(人);
300×=100(人);300×=40(人);
300×=60(人).
因此各工厂应抽取的人数分别为60人,40人,100人,40人,60人.
(3)将300人组到一起即得到一个样本.
点拨:
分层抽样的实质为按比例抽取,当总体由差异明显的几部分组成时,多用分层抽样.应认识到,在各层抽取样本时,又可能会用到简单随机抽样,系统抽样,甚至分层抽样来抽取样本.
()某公司有1 000名员工,其中,高层管理人员占5%,中层管理人员占15%,一般员工占80%,为了解公司的某种情况,现用分层抽样的方法抽取120人进行调查,则一般员工应抽取____________人.
解:应抽取一般员工120×80%=96人.故填96.
1.简单随机抽样是系统抽样和分层抽样的基础,是一种等概率的抽样,它的特点是:
(1)它要求总体个数较少;
(2)它是从总体中逐个抽取的;
(3)它是一种不放回抽样.
2.系统抽样又称等距抽样,号码序列一旦确定,样本即确定好了.但要注意,如果编号的个体特征随编号的变化呈现一定的周期性,那么样本的代表性是不可靠的,甚至会导致明显的偏向.
3.分层抽样一般在总体是由差异明显的几个部分组成时使用.
4.抽样方法经常交叉使用,比如系统抽样中均匀分段后的第一段,可采用简单随机抽样;分层抽样中,若每层中个体数量仍很大时,则可辅之以系统抽样等.
5.三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
抽样过程中每个个体被抽取的概率相等
从总体中逐个抽样
总体中的个体数较少
系统
抽样
将总体均分成几部分,按事先确定的规则在各部分抽取
在起始部分抽样时采用简单随机抽样
总体中的个体数较多
分层
抽样
将总体分成几层,分层进行抽取
分层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
1.下列抽样中不是系统抽样的是( )
A.从标有1~15号的15个球中,任选3个作样本,按从小号到大号排序,随机选起点i0,以后i0+5,i0+10(超过15则从1再数起)号入样
B.工厂生产的产品,用传送带将产品送入包装车间前,检验人员从传送带上每隔5分钟抽一件产品进行检验
C.搞某一市场调查,规定在商场门口随机抽一个人进行询问,直到调查到事先规定的调查人数为止
D.电影院调查观众的某一指标,通知每排(每排人数相同)座位号为14的观众留下来谈
解:选项C为简单随机抽样,其余选项为系统抽样.故选C.
2.()为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )
A.50 B.40 C.25 D.20
解:由=25,可得分段的间隔为25.故选C.
3.()某网络零售平台对购物情况做了一项调查,收回的有效问卷共500 000份,其中购买下列四种商品的人数统计为:服饰鞋帽198 000人,家居用品94 000人
,化妆品116 000人,家用电器92 000人.为了解消费者对商品的满意度,该平台用分层抽样的方法从中选出部分问卷进行调查,已知在购买“化妆品”这一类中抽取了116份,则在购买“家居用品”这一类中抽取的问卷份数为( )
A.92 B.94 C.116 D.118
解:在购买“化妆品”这一类中抽取了116份,设在购买“家居用品”这一类中应抽取的问卷份数为x,则=,解得x=94.故选B.
4.对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p20.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,
所以2.5≤x<3.
由0.3×(x-2.5)=0.85-0.73,解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.
点拨:
本题主要考查频率分布直方图、频率、频数的计算公式等基础知识,考查学生的分析问题和解决问题的能力.在频率分布直方图中,每个小矩形的面积就是相应的频率或概率,所有小矩形的面积之和为1,这是解题的关键,也是识图的基础.
某企业为了解下属某部门对本企业职工的服务情况,随机访问50名职工,根据这50名职工对该部门的评分,绘制频率分布直方图(如图所示),其中样本数据分组区间为.
(1)求频率分布直方图中a的值;
(2)估计该企业的职工对该部门的评分不低于80的概率;
(3)从评分在,将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6 B.8 C.12 D.18
解:由题意,第一组和第二组的频率之和为0.24+0.16=0.4,故样本容量为=50,又第三组的频率为0.36,故第三组的人数为50×0.36=18,故该组中有疗效的人数为18-6=12.故选C.
5.某科研所共有职工20人,其年龄统计表如下:
年龄
38
39
40
41
42
人数
5
3
2
由于电脑故障,有两个数字在表格中不能显示出来,则下列说法正确的是( )
A.年龄数据的中位数是40,众数是38
B.年龄数据的中位数和众数一定相等
C.年龄数据的平均数∈(39,40)
D.年龄数据的平均数一定大于中位数
解:根据表中数据,得(5×38+10×39+3×41+2×42)<<(5×38+10×40+3×41+2×42),解得39.35<<39.85,所以∈(39,40).故选C.
6.()为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④ C.②③ D.②④
解:由茎叶图可以看出,甲的平均数较小,且数据分散,乙的平均数较大,且数据集中,因此甲的标准差应大于乙的标准差,故正确的结论是①④.故选B.
7.()某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间内,其频率分布直方图如图所示.
(1)直方图中的a=____________;
(2)在这些购物者中,消费金额在区间内的购物者的人数为____________.
解:(1)由频率分布直方图及频率和等于1可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a×0.1=1,解得a=3.
(2)消费金额在区间内的频率为0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6,所以消费金额在区间内的购物者的人数为0.6×10 000=6 000.故填3;6 000.
8.抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:
运动员
第1次
第2次
第3次
第4次
第5次
甲
8.7
9.1
9.0
8.9
9.3
乙
8.9
9.0
9.1
8.8
9.2
则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.
解:甲==9.0,
乙==9.0,
s==0.04,s= =0.02,s6.635,
因此在犯错误的概率不超过0.01的前提下认为“40岁以上的人患胃病与否和生活规律有关”.
点拨:
在利用2×2列联表计算K2的值之前,应先假设两个分类变量是无关的,最后再利用K2的值的大小对二者关系进行含概率的判断.
()某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力 C.智商 D.阅读量
解:K=
=,
K=
=,
K==,
K==,
则有K>K>K>K,所以阅读量与性别关联的可能性最大.故选D.
1.线性回归分析的方法、步骤
(1)画出两个变量的散点图;
(2)求相关系数r,并确定两个变量的相关程度的高低;
(3)用最小二乘法求回归直线方程,
(4)利用回归直线方程进行预报.
注:①对于非线性(可线性化)的回归分析,一般是利用条件及我们熟识的函数模型,将题目中的非线性关系转化为线性关系进行分析,最后还原.②利用相关指数R2=1-刻画回归效果时,R2越大,意味着残差平方和越小,模型的拟合效果越好.
2.独立性检验的一般步骤
(1)假设两个分类变量x与y没有关系;
(2)计算出K2的观测值,其中
K2=;
(3)把K2的值与临界值比较,作出合理的判断.
3.独立性检验的注意事项
(1)在列联表中注意事件的对应及相关值的确定,不可混淆.
(2)在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错.
(3)对判断结果进行描述时,注意对象的选取要准确无误,应是对假设结论进行的含概率的判断,而非其他.
1.一位母亲记录了儿子3~9岁的身高,由此建立的身高y(单位:cm)与年龄x(单位:岁)的回归方程为=7.19x+73.93.用这个方程预测这个孩子10岁时的身高,则正确的叙述是( )
A.身高一定是145.83 cm
B.身高在145.83 cm以上
C.身高在145.83 cm以下
D.身高在145.83 cm左右
解:回归模型的预报值是一种估计值,故选D.
2.()甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并由回归分析法分别求得相关指数R2与残差平方和m如下表:
甲
乙
丙
丁
R2
0.85
0.78
0.69
0.82
m
103
106
124
115
则哪位同学的试验结果体现A,B两变量更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
解:因为相关指数R2越大,残差平方和m越小,拟合效果越好.故选A.
3.设,,…,是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )
A.x和y的相关系数为直线l的斜率
B.x和y的相关系数在0到1之间
C.当n为偶数时,分布在l两侧的样本点的个数一定相同
D.直线l过点(,)
解:依据最小二乘法的有关概念:样本点的中心,相关系数,线性回归方程的意义等进行判断,如下表:
选项
具体分析
结论
A
相关系数用来衡量两个变量之间的相关程度,直线的斜率表示直线的倾斜程度;它们的计算公式也不相同
不正确
B
相关系数的值有正有负,还可以是0;当相关系数在0到1之间时,两个变量为正相关,在-1到0之间时,两个变量为负相关
不正确
C
l两侧的样本点的个数分布与n是奇是偶无关,也不一定是平均分布
不正确
D
由于=-,即=+,因此回归直线l一定过样本点中心
正确
故选D.
4.在对两个分类变量A与B进行的独立性检验中,当K2>3.841时,我们认为A与B( )
A.有95%的把握有关
B.有99%的把握有关
C.没有理由说它们有关
D.不确定
解:因为K2>3.841,所以有95%的把握认为A,B有关.故选A.
5.如果女大学生身高x(cm)与体重y(kg)的关系满足线性回归模型y=0.85x-88+e,其中|e|≤4,如果已知某女大学生身高160 cm,则体重预计不会低于( )
A.44 kg B.46 kg C.50 kg D.54 kg
解:由=≤4,得0.85x-92≤y≤0.85x-84,当x=160时,44≤y≤52.故选A.
6.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程为=-20x+.若在这些样本点中任取一点,则它在回归直线左下方的概率为( )
A. B. C. D.
解:易得=8.5,=80,故=-=80-(-20)×8.5=250,∴=-20x+250,写成+20x-250=0,令f(x,y)=y+20x-250,由f(0,0)<0且点(0,0)在回归直线的左下方可知,满足f(x,y)<0的数据点均在回归直线的左下方,逐一验证可知使f(x,y)<0的是(8.2,84)和(9,68)两组数据点.故所求概率为P==.故选B.
7.()某种产品的宣传费支出x与销售额y(单位:万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
则y关于x的回归直线方程是__________.
附:==,
.
解:计算得==5,==50,
=145,=1 380.
于是可得===6.5,=50-6.5×5=17.5,因此,所求回归直线方程是=6.5x+17.5.故填=6.5x+17.5.
8.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),若ei恒为0,则R2为________.
解:此时回归方程为=bx+a,故i=yi,所以R2=1-=1.故填1.
9. 对于数据:
x
1
2
3
4
y
2
3
4
5
两位同学分别给出了拟合直线=x+1和=0.9x+1.2,试利用“最小二乘法”理论解释两条直线的拟合效果.
解:对于拟合直线=x+1:=0.
对于拟合直线=0.9x+1.2:
=(-0.1)2+02+0.12+0.22=0.06>0,
因而拟合直线=x+1的拟合效果更好.
事实上,拟合直线=x+1应是针对这组数据的所有拟合直线中最优的.
10.()某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修该课程的55名学生,得到数据如下表:
喜欢“应用
统计”课程
不喜欢“应用
统计”课程
总计
男生
20
5
25
女生
10
20
30
总计
30
25
55
(1)判断是否有99.5%的把握认为喜欢“应用统计”课程与性别有关?
(2)用分层抽样的方法从喜欢“应用统计”课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.
下面的临界值表供参考:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:
K2=,
其中n=a+b+c+d)
解:(1)因为K2=≈11.978>7.879,
所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.
(2)设所抽样本中有m个男生,则=,得m=4,∴样本中有4个男生,2个女生.从中任选2人有C=15种情形,其中恰有1个男生和1个女生的有C·C=8种情形,所求概率P=.
11.()2016年1月6日北京时间上午11时30分,朝鲜中央电视台宣布“成功进行了氢弹试验”,再次震动世界,此事件也引起了我国公民热议,其中丹东市(丹东市和朝鲜隔江)某QQ聊天群有300名网友,乌鲁木齐市某微信群有200名网友,为了解不同地区我国公民对“氢弹试验”事件的关注程度,现采用分层抽样的方法,从中抽取了100名网友,先分别统计了他们在某时段发表的信息条数,再将两地网友发表的信息条数分成5组:,分别加以统计,得到如图所示的频率分布直方图.
(1)求丹东市网友的平均留言条数(保留整数);
(2)为了进一步开展调查,从样本中留言条数不足50条的网友中随机抽取2人,求至少抽到一名乌鲁木齐市网友的概率;
(3)规定“留言条数”不少于70条为“强烈关注”.
①请你根据已知条件完成下列2×2的列联表:
强烈关注
非强烈关注
合计
丹东市
乌鲁木齐市
合计
②判断是否有90%的把握认为“强烈关注”与网友所在的地区有关?
附:临界值表及参考公式:
K2=, n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
解:(1)45×0.01×10+55×0.025×10+65×0.04×10+75×0.02×10+85×0.005×10=63.5≈64.
所以丹东市网友的平均留言条数是64条.
(2)留言条数不足50条的网友中,丹东市网友有0.01×10×100×=6(人),乌鲁木齐市网友有0.005×10×100×=2(人),
从中随机抽取2人共有C=28种可能结果,其中至少有一名乌鲁木齐市网友的结果共有CC+ C=12+1=13种情况,
所以至少抽到一名乌鲁木齐市网友的概率为 P=.
(3)①列联表如下:
强烈关注
非强烈关注
合计
丹东市
15
45
60
乌鲁木齐市
15
25
40
合计
30
70
100
②K2的观测值k==≈1.79.
因为1.79<2.706,所以没有90%的把握认为“强烈关注”与网友所在的地区有关.
()某城市随机抽取一年内100 天的空气质量指数(AQI)的监测数据,结果统计如下:
AQI
(50,100]
(100,150]
(150,200]
(200,300]
>300
空气质量
优
良
轻度污染
中度污染
重度污染
严重污染
天数
6
14
18
27
20
15
(1)若本次抽取的样本数据有30天是在供暖季,其中有8天为严重污染.根据提供的统计数据,完成下面的2×2 列联表,并判断是否有95%的把握认为“该城市本年的空气严重污染与供暖有关”?
非严重污染
严重污染
总计
供暖季
非供暖季
总计
100
(2)已知某企业本年内每天的经济损失y(单位:元)与空气质量指数x 的关系式为y=试估计该企业本年内一个月(按30 天计算)的经济损失的数学期望.
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
解:(1)根据题设中的数据得到如下2×2列联表:
非严重污染
严重污染
总计
供暖季
22
8
30
非供暖季
63
7
70
总计
85
15
100
将2×2列联表中的数据代入公式计算,得K2的观测值k=≈4.575.
因为4.575>3.841,
所以有95%的把握认为“该城市本年的空气严重污染与供暖有关”.
(2)任选一天,设该天的经济损失为X元,则
P(X=0)=P(0≤x≤100)==,P(X=400)=P(100300)==,
所以E(X)=0×+400×+2 000×=560.
故该企业本年内一个月的经济损失的数学期望为30×E(X)=16 800(元).
一、选择题:本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.现要完成下列3项抽样调查:
①从10盒酸奶中抽取3盒进行食品卫生检查.
②科技报告厅有32排,每排有40个座位,有一次报告会恰好坐满了听众,报告会结束后,为了听取意见,需要请32名听众进行座谈.
③东方中学共有160名教职工,其中一般教师120名,行政人员16名,后勤人员24名.为了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.
较为合理的抽样方法是( )
A.①简单随机抽样;②系统抽样;③分层抽样
B.①简单随机抽样;②分层抽样;③系统抽样
C.①系统抽样;②简单随机抽样;③分层抽样
D.①分层抽样;②系统抽样;③简单随机抽样
解:由各抽样方法的适用范围可知较为合理的抽样方法是:①用简单随机抽样,②用系统抽样,③用分层抽样.故选A.
2.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100
C.180 D.300
解:设样本中的老年教师人数为x,则=,解得x=180.故选C.
3.某市2016年各月的平均气温(℃)数据的茎叶图如下:
则这组数据的中位数是( )
A.19 B.20 C.21.5 D.23
解:根据茎叶图易求得这组数据的中位数是20.故选B.
4.在检验某产品直径尺寸的过程中,将尺寸数据分成若干组,内,将该班所有同学的考试分数分为七个组:,绘制出频率分布直方图如图所示,已知分数低于112分的有18人,则分数不低于120分的人数为( )
A.10 B.12 C.20 D.40
解:分数低于112分的人对应的频率/组距为0.09,分数不低于120分的人对应的频率/组距为0.05,故其人数为×0.05=10(人).故选A.
7.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如表:
性别
是否需要志愿者
男
女
需要
40
30
不需要
160
270
附:K2=
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
则( )
A.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别无关”
C.有99%以上的把握认为“需要志愿者提供帮助与性别有关”
D.有99%以上的把握认为“需要志愿者提供帮助与性别无关”
解:由于K2=≈9.967>6.635,所以有99%
的把握认为该地区的老年人是否需要帮助与性别有关.故选C.
8.()为了确定加工零件所花费的时间,进行了5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),根据收集到的数据可知x=20,由最小二乘法求得回归直线方程y^=0.6x+48,则y1+y2+y3+y4+y5=( )
A.60 B.120 C.150 D.300
解:将x=20代入回归直线方程得y=0.6× 20+48=60.所以y1+y2+y3+y4+y5=5y=300.故选D.
9.()四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
解:当y与x正相关时,应满足斜率大于0;当y与x负相关时,应满足斜率小于0,故①④一定不正确.故选D.
10.在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的下列数字特征对应相同的是( )
A.众数 B.平均数
C.中位数 D.标准差
解:样本数据每个都加2后所得数据的波动情况并没有发生改变,所以标准差不变.故选D.
11.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则下列说法正确的是( )
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
解:由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A错;甲、乙的成绩的中位数分别为6,5,B错;甲、乙的成绩的方差分别为s=× =2,s=×=,C正确;甲、乙的成绩的极差均为4,D错.故选C.
12.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,a′ D.a′.故选C.
二、填空题:本大题共4小题,每小题5分,共20分.
13.()为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得K2=≈4.844.
则认为选修文科与性别有关系出错的可能性为__________.
解:因为根据表中数据得到K2≈4.844>3.841,所以认为选修文科与性别有关系出错的可能性为5%.故填5%.
14.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.
解:分层抽样中各层的抽样比相同.样本中甲设备生产的有50件,则乙设备生产的有30件.在4 800件产品中,甲、乙设备生产的产品总数比为5∶3,所以乙设备生产的产品总数为4 800×= 1 800件.故填1 800.
15.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.
(1)若第1组抽出的号码为2,则所有被抽出的职工号码为____________;
(2)分别统计这5名职工的体重(单位:kg),获得体重数据的茎叶图如图所示,则该样本方差为____________.
解:(1)由分组可知,抽号的间隔为8,又第1组抽出的号码为2,所以所有被抽出的职工号码为2,10,18,26,34.
(2)由茎叶图知5名职工体重的平均数x==69,则该样本的方差s2= =62.故填2,10,18,26,34;62.
16.()某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生人数是____________.
解:由频率分布直方图知,随机抽取的200名学生中成绩小于60分的学生人数是(0.002+0.006+0.012)×10×200=40,设这3 000名学生中该次数学成绩小于60分的学生人数为x,则=,解得x=600.故填600.
三、解答题:解答应写出文字说明、证明过程或演算步骤.
17.(10分)从参加环保知识竞赛的学生中抽出60名,将其成绩(均为整数)整理后画出的频率分布直方图如图,观察图形,回答下列问题:
(1)[79.5,89.5)这一组的频数、频率分别是多少?
(2)估计这次环保知识竞赛的及格率(60分及以上为及格).
解:(1)频率为:0.025×10=0.25,频数:60×0.25=15.
(2)因为0.015×10+0.025×10+0.03×10+0.005×10=0.75,所以估计这次环保知识竞赛的及格率为0.75.
18.(12分)()为了促进人口的均衡发展,我国从2016年1月1日起,全国统一实施全面放开两孩政策.为了解适龄国民对放开生育二胎政策的态度,某部门选取70后和80后年龄段的人作为调查对象,进行了问卷调查,其中,持“支持生二胎”“不支持生二胎”和“保留意见”态度的人数如表所示:
支持
保留意见
不支持
80后
780
420
200
70后
120
180
300
(1)在所有参与调查的人中,用分层抽样的方法抽取n个人,
其中持“支持”态度的共36人,求n的值;
(2)在持“不支持”态度的人中,仍用分层抽样的方法抽取5人,并将其看成一个总体,从这5人中任意选取2人,求至少有1个80后的概率.
解:(1)所有参与调查的人数为780+120+420+180+200+300=2 000,
由分层抽样知n=×2 000=80.
(2)由分层抽样知抽取的5人中有2个80后,3个70后.从这5人中任取2人有C=10种情形,其中至少有1个80后的有CC+C=7种,故所求概率为P=.
19.(12分) 从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得=80,=20,=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程y=bx+a中,
b=,a=-b,
其中,为样本平均值,线性回归方程也可写为=x+.
解:(1)由题意知n=10,=i==8, =i==2,又-=720-10×82=80,-=184-10×8×2=24,
由此得b==0.3,a=y-bx=2-0.3×8=-0.4,
故所求回归方程为y=0.3x-0.4.
(2)由于变量y的值随x的值增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).
20.(12分)()记者对某城市的工薪阶层关于“义务献血”态度进行了调查,随机抽取了60人,作出了他们的月收入的频率分布直方图(如图),同时得到了他们的月收入情况与“义务献血”赞成人数统计表(如表):
月收入(百元)
赞成
人数
[15,25)
8
[25,35)
7
[35,45)
10
[45,55)
6
[55,65)
2
[65,75)
2
(1)试根据频率分布直方图估计这60人的月收入的中位数和平均数;
(2)若从月收入(单位:百元)在[65,75)的被调查者中随机选取2人进行追踪调查,求被选取的2人都不赞成的概率.
解:(1)设中位数为x,由直方图知:10×0.015+10×0.015+(x-35)×0.025=0.5,解得x=43(百元);平均数为(20×0.015+30×0.015+40× 0.025+50×0.02+60×0.015+70×0.01)×10=43.5(百元).
(2)月收入(单位:百元)在[65,75)的人数为60×10×0.01=6(人),由表格知赞成的人数为2人,则不赞成的人数为4人,从这6人中任选2人有C=15种选法,被选取的2人都不赞成有C=6种选法,故所求概率为P==.
21.(12分)()某校高二文科一班主任为了解同学们对某时政要闻的关注情况,在该班进行了一次调查,发现在全班50名同学中,对此事关注的同学有30名,该班在本学期期末考试中政治成绩(满分100分)的茎叶图如图所示.
(1)求“对此事不关注者”的政治期末考试成绩的中位数与平均数;
(2)若成绩不低于60分记为“及格”,从“对此事不关注者”中随机抽取1人,该同学及格的概率为P1,从“对此事关注者”中随机抽取1人,该同学及格的概率为P2,求P2-P1的值;
(3)若成绩不低于80分记为“优秀”,请以是否优秀为分类变量.
①补充下面的2×2列联表:
政治成绩优秀
政治成绩不优秀
合计
对此事关注者(单位:人)
对此事不关注者(单位:人)
合计
②是否有90%以上的把握认为“对此事是否关注”与政治期末成绩是否优秀有关系?
参考数据:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.042
6.635
7.879
10.828
参考公式:K2=,其中n=a+b+c+d.
解:(1)“对此事不关注者”的20名同学,成绩从低到高依次为:42,46,50,52,53,56,61,61,63,64,66,66,72,72,76,82,82,86,90,94,中位数为=65,
平均数为(42+46+50+52+53+56+61+61+63+64+66+66+72+72+76+82+82+86+90+94)=66.7.
(2)由条件可得P1==,P2==,
所以P2-P1=-=.
(3)①补充的2×2列联表如下:
政治成绩优秀
政治成绩不优秀
合计
对此事关注者(单位:人)
12
18
30
5
15
对此事不关注者(单位:人)
20
合计
17
33
50
②由2×2列联表可得K2==≈1.203 2<2.706,
所以,没有90%以上的把握认为“对此事是否关注”与政治期末成绩是否优秀有关系.
22.(12分)()心理学家发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学 (男30人,女20人), 给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
(1)能否据此判断有97.5%的把握认为视觉和空间能力与性别有关?
(2)经过多次测试后,女生甲每次解答一道几何题所用的时间在5~7分钟,女生乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;
(3)现从选择做几何题的8名女生中任意抽取两人对她们的答题情况进行全程研究,记甲、 乙两女生被抽到的人数为X,求X的分布列及数学期望E(X).
附表及公式:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
K2=.
解:(1)由表中数据得K2的观测值
k==≈5.556>5.024,所以能根据已知判断有97.5%的把握认为视觉和空间能力与性别有关.
(2)设甲、乙解答一道几何题的时间分别为x,y分钟,
则基本事件满足的区域为不等式组表示的平面区域(如图所示).
设事件A为“乙比甲先解答完此道题”,则满足的区域为x>y(图中阴影部分所示).
所以由几何概型P(A)==,即乙比甲先解答完的概率为.
(3)在选择做几何题的8名女生中任意抽取2人,抽取方法有C=28种,其中甲、乙两人没有一个人被抽到有C=15种;恰有一人被抽到有CC=12种;两人都被抽到有C=1种,所以X可能的取值为0,1,2,且P(X=0)=,P(X=1)==,P(X=2)=.
X的分布列为
X
0
1
2
P
所以E(X)=0×+1×+2×=.