- 1.72 MB
- 2021-06-17 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
§10.2 统计及统计案例
探考情 悟真题
【考情探究】
考点
内容解读
5年考情
预测热度
考题示例
考向
关联考点
抽样
方法
①理解随机抽样的必要性和重要性;②会用简单随机抽样方法从总体中抽取样本
2019课标全国Ⅰ,6,5分
系统抽样
—
★★☆
2018课标全国Ⅲ,14,5分
分层抽样
—
统计
图表
了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率分布折线图、茎叶图,体会它们各自的特点
2017课标全国Ⅲ,3,5分
认识折线图
—
★★☆
2018课标全国Ⅰ,3,5分
认识扇形统计图
—
2018课标全国Ⅰ,19,12分
用频率分布直方图解决实际问题
平均数
样本的数
字特征
①理解样本数据标准差的意义和作用,会计算数据标准差;②能从样本数据中提取基本的数字特征,并给出合理的解释;③会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;④会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题
2017课标全国Ⅰ,2,5分
理解方差或标准差
—
★★☆
2019课标全国Ⅲ,4,5分
用样本估计总体
—
2019课标全国Ⅲ,17,12分
用频率分布直方图估计数字特征
频率分布直方图
2019课标全国Ⅱ,19,12分
频数分布表及数字特征
—
变量间的
相关性
①会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系;②了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程
2016课标全国Ⅲ,18,12分
相关系数与回归方程
折线统计图
★★☆
2017课标全国Ⅰ,19,12分
相关系数
数字特征
独立性
检验
了解独立性检验的基本思想、方法及其简单应用,能通过计算判断两个变量的相关程度
2019课标全国Ⅰ,17,12分
独立性检验
用频率估计概率
★★☆
2017课标全国Ⅱ,19,12分
频率分布直方图与独立性检验
用频率估计概率
2018课标全国Ⅲ,18,12分
茎叶图与独立性检验
样本的数字特征
分析解读
从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义、频率分布直方图、平均数、方差的计算、识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的竖直方向的长度=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题.
破考点 练考向
【考点集训】
考点一 抽样方法
1.(2019河南部分省示范性高中1月份联考,7)某学校为落实学生掌握社会主义核心价值观的情况,用系统抽样的方法从全校2 400名学生中抽取30人进行调查.现将2 400名学生随机地从1~2 400编号,按编号顺序平均分成30组(1~80号,81~160号,……,2 321~2 400号),若第3组与第4组抽出的号码之和为432,则第6组抽到的号码是( )
A.416 B.432 C.448 D.464
答案 A
2.(2018安徽安庆一中、山西太原五中等五省六校(K12联盟)期末联考,3)某中学有高中生960人,初中生480人,为了了解学生的身体状况,采用分层抽样的方法,从该校学生中抽取容量为n的样本,其中高中生有24人,那么n等于( )
A.12 B.18 C.24 D.36
答案 D
考点二 统计图表
1.(2019广东东莞第二次调研考试,3)有24名投资者想到某地投资,他们年龄的茎叶图如图所示,先将他们的年龄从小到大编号为1—24号,再用系统抽样方法抽出6名投资者,邀请他们到实地进行考察.其中年龄不超过55岁的人数为( )
3
9
4
0 1 1 2 5
5
1 3 6 6 7 7 8 8 8 9
6
0 0 1 2 3 3 4 5
A.1 B.2 C.3 D.4
答案 B
2.(多选题)(2020届山东夏季高考模拟,9)下图为某地区2006年—2018年地方财政预算内收入、城乡居民储蓄年末余额折线图.
根据该折线图可知,该地区2006年—2018年( )
A.财政预算内收入、城乡居民储蓄年末余额均呈增长趋势
B.财政预算内收入、城乡居民储蓄年末余额的逐年增长速度相同
C.财政预算内收入年平均增长量高于城乡居民储蓄年末余额年平均增长量
D.城乡居民储蓄年末余额与财政预算内收入的差额逐年增大
答案 AD
考点三 样本的数字特征
1.(2018湖北华师一附中月考,3)某人到甲、乙两市各7个小区调查空置房情况,将调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为( )
A.4 B.3 C.2 D.1
答案 B
2.(2018山东济南一模,3)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x,方差为s2,则( )
A.x=4,s2<2 B.x=4,s2>2
C.x>4,s2<2 D.x>4,s2>2
答案 A
考点四 变量间的相关性
1.(2018河南焦作四模,3)已知变量x和y的统计数据如下表:
x
3
4
5
6
7
y
2.5
3
4
4.5
6
根据上表可得回归直线方程为y^=b^x-0.25,据此可以预测当x=8时,y^=( )
A.6.4 B.6.25 C.6.55 D.6.45
答案 C
2.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为y^=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是( )
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间成负相关关系
B.可以预测,当x=20时,y^=-3.7
C.m=4
D.该回归直线必过点(9,4)
答案 C
考点五 独立性检验
(2018贵州六校12月联考,18)海南大学某餐饮中心为了解新生的饮食习惯,在全校新生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?
(2)已知在被调查的北方学生中有5名中文系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
P(K2≥k0)
0.10
0.05
0.010
k0
2.706
3.841
6.635
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).
答案 (1)将2×2列联表中的数据代入公式计算,得K2=100×(60×10-20×10)270×30×80×20=10021≈4.762.
由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
(2)从5名中文系学生中任取3人的所有可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)},
其中ai表示喜欢甜品的学生,i=1,2,bj表示不喜欢甜品的学生,j=1,2,3.
Ω由10个基本事件组成,且这些基本事件的出现是等可能的.
用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}.
事件A由7个基本事件组成,因而P(A)=710.
炼技法 提能力
【方法集训】
方法1 解与频率分布直方图有关问题的方法
1.(2016山东,3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
答案 D
2.(2020届广西桂林十八中模拟,18)某家电公司销售部门共有200名销售员,每年部门对每名销售员都有1 400万元的年度销售任务.已知这200名销售员去年完成的销售额在区间[2,22](单位:百万元)内,现将其分成5组:第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22),并绘制出频率分布直方图,如图.
(1)若用分层抽样的方法从这200名销售员中抽取容量为25的样本,求a的值和样本中完成年度任务的销售员人数;
(2)从(1)中样本内完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.
答案 (1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03.∴样本中完成年度任务的人数为200×0.03=6.
(2)样本中完成年度任务的销售员中,第4组有3人,记这3人分别为A1,A2,A3;第5组有3人,记这3人分别为B1,B2,B3,从这6人中随机抽取2名,所有的基本事件为A1A2,A1A3,A1B1,A1B2,A1B3,A2A3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3,B1B2,B1B3,B2B3,
共15个,获得此奖励的2名销售员在同一组的基本事件分别为A1A2,A1A3,A2A3,B1B2,B1B3,B2B3,共6个,故所求概率为615=25.
方法2 样本的数字特征的求解及其应用
1.(2015山东,6,5分)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④ C.②③ D.②④
答案 B
2.(2018四川德阳模拟,13)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)的频数分布直方图如图所示,如果得分的中位数为a,众数为b,平均数为c,则a、b、c中的最大者是 .
答案 c
方法3 回归直线方程的求解与运用
1.(2020届河南南阳第一中学模拟,1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-15x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.1 C.-15 D.15
答案 A
2.(2018湘东五校12月联考,18)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
日期
1月10日
2月10日
3月10日
4月10日
5月10日
6月10日
昼夜温
差x(℃)
10
11
13
12
8
6
就诊人
数y
22
25
29
26
16
12
该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月数据的概率;
(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据求出y关于x的线性回归方程y^=b^x+a^;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
参考公式:b^=∑i=1nxiyi-nx y∑i=1nxi2-nx2=∑i=1n(xi-x)(yi-y)∑i=1(xi-x)2,a^=y-b^x;
参考数据:11×25+13×29+12×26+8×16=1 092,112+132+122+82=498.
答案 (1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以P(A)=515=13.
(2)由题表中数据求得x=11,y=24,由公式求得b^=187,
则a^=y-b^x=-307,
所以y关于x的线性回归方程为y^=187x-307.
(3)由(2)知,当x=10时,y^=1507,1507-22<2,当x=6时,y^=787,787-12<2,
所以,该小组所得线性回归方程是理想的.
方法4 独立性检验的思想方法
(2018山西太原五中模拟,18)网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如图所示的频数直方图.这100名市民中,年龄不超过40岁的有65人.将所抽样中周平均网购次数不少于4次的市民称为网购迷,且已知其中有5名市民的年龄超过40岁.
(1)根据已知条件完成下面的2×2列联表,能否在犯错的概率不超过0.10的前提条件下认为网购迷与年龄不超过40岁有关?
网购迷
非网购迷
合计
年龄不超过40岁
年龄超过40岁
合计
(2)现将所抽取样本中周平均网购次数不少于5次的市民称为超级网购迷,且已知超级网购迷中有2名年龄超过40岁,若从超级网购迷中任意挑选2名,求至少有1名市民年龄超过40岁的概率.
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).
答案 (1)根据已知条件完成2×2列联表如下:
网购迷
非网购迷
合计
年龄不超过40岁
20
45
65
年龄超过40岁
5
30
35
合计
25
75
100
K2=100×(20×30-5×45)225×75×65×35≈3.297,因为3.297>2.706,所以据此列联表判断,在犯错误的概率不超过0.10的前提下,认为网购迷与年龄不超过40岁有关.
(2)由频数分布直方图知,超级网购迷共有10人,记其中年龄超过40岁的2名市民为A、B,其余8名市民记为c、d、e、f、g、h、m、n,现从10人中任取2人,基本事件有AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn、cd、ce、cf、cg、ch、cm、cn、de、df、dg、dh、dm、dn、ef、eg、eh、em、en、fg、fh、fm、fn、gh、gm、gn、hm、hn、mn,共有45种,其中至少有1名市民年龄超过40岁的基本事件有AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn,共17种,
故所求的概率P=1745.
【五年高考】
A组 统一命题·课标卷题组
考点一 抽样方法
1.(2019课标全国Ⅰ,6,5分)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是 ( )
A.8号学生 B.200号学生
C.616号学生 D.815号学生
答案 C
2.(2018课标全国Ⅲ,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是 .
答案 分层抽样
考点二 统计图表
1.(2018课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
答案 A
2.(2017课标全国Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
答案 A
3.(2015课标Ⅱ,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D
4.(2018课标全国Ⅰ,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
1
5
13
10
16
5
(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
答案 (1)
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
x1=150×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
x2=150×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
考点三 样本的数字特征
1.(2019课标全国Ⅲ,4,5分)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5 B.0.6 C.0.7 D.0.8
答案 C
2.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
答案 B
3.(2019课标全国Ⅲ,17,12分)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
答案 本题主要考查频率分布直方图的含义,以及用频率分布直方图估计样本的数字特征,通过实际问题的应用考查学生的运算求解能力,考查了数学运算的核心素养,体现了应用意识.
(1)由已知得0.70=a+0.20+0.15,故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
4.(2019课标全国Ⅱ,19,12分)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:74≈8.602.
答案 本题考查了统计的基础知识、基本思想和方法,考查学生对频数分布表的理解与应用,考查样本的平均数,标准差等数字特征的计算方法,以及对现实社会中实际数据的分析处理能力.
(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.
产值负增长的企业频率为2100=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)y=1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=1100∑i=15ni(yi-y)2
=1100[2×(-0.40)2+24×(-0.20)2+53×02+14×0.202+7×0.402]=0.029 6,
s=0.029 6=0.02×74≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
考点四 变量间的相关性
1.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得x=116∑i=116xi=9.97,s=116∑i=116(xi-x)2=116(∑i=116xi2-16x 2)≈0.212,∑i=116(i-8.5)2≈18.439,∑i=116(xi-x)(i-8.5)=-2.78,
其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ii)在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数
r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2.
0.008≈0.09.
答案 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r=∑i=116(xi-x)(i-8.5)∑i=116(xi-x)2∑i=116(i-8.5)2
=-2.780.212×16×18.439≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)由于x=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x-3s,x+3s)以外,因此需对当天的生产过程进行检查.
(ii)剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
∑i=116xi2=16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为
115×(1 591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.
2.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:∑i=17yi=9.32,∑i=17tiyi=40.17,∑i=17(yi-y)2=0.55,7≈2.646.
参考公式:相关系数r=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2∑i=1n(i-y)2,
回归方程y^=a^+b^t中斜率和截距最小二乘估计公式分别为:
b^=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2,a^=y-b^t.
答案 (1)由折线图中数据和附注中参考数据得
t=4,∑i=17(ti-t)2=28,∑i=17(yi-y)2=0.55,
∑i=17(ti-t)(yi-y)=∑i=17tiyi-t∑i=17yi=40.17-4×9.32=2.89,
r≈2.890.55×2×2.646≈0.99.(4分)
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(6分)
(2)由y=9.327≈1.331及(1)得b^=∑i=17(ti-t)(yi-y)∑i=17(ti-t)2=2.8928≈0.10,
a^=y-b^t=1.331-0.10×4≈0.93.
所以y关于t的回归方程为y^=0.93+0.10t.(10分)
将2016年对应的t=9代入回归方程得:y^=0.93+0.10×9=1.83.
所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.(12分)
考点五 独立性检验
1.(2019课标全国Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
答案 本题通过对概率与频率的关系、统计案例中两变量相关性检验考查学生的抽象概括能力与数据处理能力,重点考查数学抽象、数据分析、数学运算的核心素养;倡导学生关注生活,提高数学应用意识.
(1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2=100×(40×20-30×10)250×50×70×30≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
2.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表;
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
答案 (1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知m=79+812=80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于 K2=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
3.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
,
K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).
答案 (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=200×(62×66-34×38)2100×100×96×104≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
B组 自主命题·省(区、市)卷题组
考点一 抽样方法
1.(2015湖南,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )
A.3 B.4 C.5 D.6
答案 B
2.(2017江苏,3,5分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取 件.
答案 18
考点二 统计图表
1.(2015湖北,14,5分)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a= ;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为 .
答案 (1)3 (2)6 000
2.(2017北京,17,13分)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
答案 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×5100=20.
(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×12=30.
所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
考点三 样本的数字特征
1.(2017山东,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7
答案 A
2.(2019江苏,5,5分)已知一组数据6,7,8,8,9,10,则该组数据的方差是 .
答案 53
3.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为 .
8
9 9
9
0 1 1
答案 90
4.(2016江苏,4,5分)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是 .
答案 0.1
考点四 变量间的相关性
1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关
答案 C
2.(2015重庆,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2010
2011
2012
2013
2014
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归方程y^=b^t+a^;
(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
附:回归方程y^=b^t+a^中,b^=∑i=1ntiyi-nty∑i=1nti2-nt2,a^=y-b^t.
答案 (1)列表计算如下:
i
ti
yi
ti2
tiyi
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
∑
15
36
55
120
这里n=5,t=1n∑i=1nti=155=3,y=1n∑i=1nyi=365=7.2.
又ltt=∑i=1nti2-nt2=55-5×32=10,lty=∑i=1ntiyi-nt y=120-5×3×7.2=12,从而b^=ltyltt=1210=1.2,a^=y-b^t=7.2-1.2×3=3.6,
故所求回归方程为y^=1.2t+3.6.
(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y^=1.2×6+3.6=10.8(千亿元).
C组 教师专用题组
考点一 抽样方法
1.(2015湖北,2,5分)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )
A.134石 B.169石 C.338石 D.1 365石
答案 B
2.(2015北京,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100 C.180 D.300
答案 C
3.(2014四川,2,5分)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )
A.总体 B.个体
C.样本的容量 D.从总体中抽取的一个样本
答案 A
4.(2014重庆,3,5分)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( )
A.100 B.150 C.200 D.250
答案 A
5.(2014广东,6,5分)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )
A.50 B.40 C.25 D.20
答案 C
6.(2014湖南,3,5分)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p219时,y=3 800+500(x-19)=500x-5 700,
所以y与x的函数解析式为
y=3 800, x≤19,500x-5 700,x>19(x∈N).(4分)
(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.(5分)
(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800元,20台的费用为
4 300元,10台的费用为4 800元,
因此这100台机器在购买易损零件上所需费用的平均数为1100(3 800×70+4 300×20+4 800×10)=4 000(元).(7分)
若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000元,10台的费用为4 500元,因此这100台机器在购买易损零件上所需费用的平均数为1100(4 000×90+4 500×10)=4 050(元).(10分)
比较两个平均数可知,购买1台机器的同时应购买19个易损零件.(12分)
3.(2016北京,17,13分)某市居民用水拟实行阶梯水价.每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.
答案 (1)由用水量的频率分布直方图知,
该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.(3分)
所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.(5分)
依题意,w至少定为3.(6分)
(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:
组号
1
2
3
4
5
6
7
8
分组
[2,4]
(4,6]
(6,8]
(8,10]
(10,12]
(12,17]
(17,22]
(22,27]
频率
0.1
0.15
0.2
0.25
0.15
0.05
0.05
0.05
(10分)
根据题意,该市居民该月的人均水费估计为:
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).(13分)
4.(2015课标Ⅱ,18,12分)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.
B地区用户满意度评分的频数分布表
满意度评分分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频 数
2
8
14
10
6
(1)作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
(2)根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
估计哪个地区用户的满意度等级为不满意的概率大,说明理由.
答案(1)
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
(2)A地区用户的满意度等级为不满意的概率大.
记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.
由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,
P(CB)的估计值为(0.005+0.02)×10=0.25.
所以A地区用户的满意度等级为不满意的概率大.
5.(2015安徽,17,12分)某企业为了解下属某部门对本企业职工的服务情况,随机访问50名职工,根据这50名职工对该部门的评分,绘制频率分布直方图(如图所示),其中样本数据分组区间为:[40,50),[50,60),…,[80,90),[90,100].
(1)求频率分布直方图中a的值;
(2)估计该企业的职工对该部门评分不低于80的概率;
(3)从评分在[40,60)的受访职工中,随机抽取2人,求此2人的评分都在[40,50)的概率.
答案 (1)因为(0.004+a+0.018+0.022×2+0.028)×10=1,所以a=0.006.
(2)由所给频率分布直方图知,50名受访职工评分不低于80的频率为(0.022+0.018)×10=0.4,
所以该企业职工对该部门评分不低于80的概率的估计值为0.4.
(3)受访职工中评分在[50,60)的有50×0.006×10=3(人),记为A1,A2,A3;
受访职工中评分在[40,50)的有50×0.004×10=2(人),记为B1,B2.
从这5名受访职工中随机抽取2人,所有可能的结果共有10种,它们是{A1,A2},{A1,A3},{A1,B1},{A1,B2},{A2,A3},{A2,B1},{A2,B2},{A3,B1},{A3,B2},{B1,B2},又因为所抽取2人的评分都在[40,50)的结果有1种,即{B1,B2},故所求的概率为P=110.
6.(2014重庆,17,13分)20名学生某次数学考试成绩(单位:分)的频率分布直方图如下:
(1)求频率分布直方图中a的值;
(2)分别求出成绩落在[50,60)与[60,70)中的学生人数;
(3)从成绩在[50,70)的学生中任选2人,求此2人的成绩都在[60,70)中的概率.
答案 (1)据题中直方图知组距=10,由(2a+3a+6a+7a+2a)×10=1,解得a=1200=0.005.
(2)成绩落在[50,60)中的学生人数为2×0.005×10×20=2.
成绩落在[60,70)中的学生人数为3×0.005×10×20=3.
(3)记成绩落在[50,60)中的2人为A1,A2,成绩落在[60,70)中的3人为B1,B2,B3,则从成绩在[50,70)的学生中任选2人的基本事件共有10个:
(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3),
其中2人的成绩都在[60,70)中的基本事件有3个:
(B1,B2),(B1,B3),(B2,B3),故所求概率为P=310.
7.(2014北京,18,13分)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:
组号
分组
频数
1
[0,2)
6
2
[2,4)
8
3
[4,6)
17
4
[6,8)
22
5
[8,10)
25
6
[10,12)
12
7
[12,14)
6
8
[14,16)
2
9
[16,18)
2
合计
100
(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;
(2)求频率分布直方图中的a,b的值;
(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)
答案 (1)根据频数分布表知,100名学生中一周课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生一周课外阅读时间少于12小时的频率是1-10100=0.9.
故从该校随机选取一名学生,估计其该周课外阅读时间少于12小时的概率为0.9.
(2)课外阅读时间落在组[4,6)内的有17人,频率为0.17,所以a=频率组距=0.172=0.085.
课外阅读时间落在组[8,10)内的有25人,频率为0.25,所以b=频率组距=0.252=0.125.
(3)样本中的100名学生该周课外阅读时间的平均数在第4组.
8.(2013课标Ⅱ,19,12分)经销商经销某种农产品,在一个销售季度内,每售出1 t该产品获利润500元,未售出的产品,每1 t亏损300元.根据历史资料,得到销售季度内市场需求量的频率分布直方图,如图所示.经销商为下一个销售季度购进了130 t该农产品,以X(单位:t,100≤X≤150)表示下一个销售季度内的市场需求量,T(单位:元)表示下一个销售季度内经销该农产品的利润.
(1)将T表示为X的函数;
(2)根据直方图估计利润T不少于57 000元的概率.
答案 (1)当X∈[100,130)时,
T=500X-300(130-X)=800X-39 000.
当X∈[130,150]时,T=500×130=65 000.
所以T=800X-39 000,100≤X<130,65 000,130≤X≤150.
(2)由(1)知利润T不少于57 000元当且仅当120≤X≤150.
由直方图知需求量X∈[120,150]的频率为0.7,所以下一个销售季度内的利润T不少于57 000元的概率的估计值为0.7.
考点三 样本的数字特征
1.(2015重庆,4,5分)重庆市2013年各月的平均气温(℃)数据的茎叶图如下:
0
8
9
1
2
5
8
2
0
0
3
3
8
3
1
2
则这组数据的中位数是( )
A.19 B.20 C.21.5 D.23
答案 B
2.(2014陕西,9,5分)某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均值和方差分别为x和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( )
A.x,s2+1002 B.x+100,s2+1002
C.x,s2 D.x+100,s2
答案 D
3.(2016四川,16,12分)我国是世界上严重缺水的国家,某市为了制订合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;
(3)估计居民月均用水量的中位数.
答案 (1)由频率分布直方图,可知:月均用水量在[0,0.5)的频率为0.08×0.5=0.04.
同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.
由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.
(2)由(1),100位居民月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12,
由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)设中位数为x吨.
因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,
而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5,
所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.
故可估计居民月均用水量的中位数为2.04吨.
4.(2015广东,17,12分)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
答案 (1)由已知得,20×(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)=1,解得x=0.007 5.
(2)由题图可知,面积最大的矩形对应的月平均用电量区间为[220,240),所以月平均用电量的众数的估计值为230;
因为20×(0.002+0.009 5+0.011)=0.45<0.5,
20×(0.002+0.009 5+0.011+0.012 5)=0.7>0.5,所以中位数在区间[220,240)内.
设中位数为m,则20×(0.002+0.009 5+0.011)+0.012 5×(m-220)=0.5,解得m=224.
所以月平均用电量的中位数为224.
(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.012 5×100=25,同理可得,月平均用电量为[240,260),[260,280),[280,300]的用户数分别为15,10,5.
故用分层抽样的方式抽取11户居民,月平均用电量在[220,240)的用户中应抽取11×2525+15+10+5=5(户).
5.(2014广东,17,13分)某车间20名工人年龄数据如下表:
年龄(岁)
工人数(人)
19
1
28
3
29
3
30
5
31
4
32
3
40
1
合计
20
(1)求这20名工人年龄的众数与极差;
(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;
(3)求这20名工人年龄的方差.
答案 (1)由题表中的数据易知,这20名工人年龄的众数是30,极差为40-19=21.
(2)这20名工人年龄的茎叶图如下:
1
2
3
4
9
8 8 8 9 9 9
0 0 0 0 0 1 1 1 1 2 2 2
0
(3)这20名工人年龄的平均数x=120×(19×1+28×3+29×3+30×5+31×4+32×3+40×1)=30,
故方差s2=120×[1×(19-30)2+3×(28-30)2+3×(29-30)2+5×(30-30)2+4×(31-30)2+3×(32-30)2+1×(40-30)2]=120×(121+12+3+0+4+12+100)=12.6.
6.(2014湖南,17,12分)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:
(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),
其中a,a分别表示甲组研发成功和失败;b,b分别表示乙组研发成功和失败.
(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.
答案 (1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,
其平均数为x甲=1015=23;
方差为s甲2=1151-232×10+0-232×5=29.
乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为x乙=915=35;
方差为s乙2=1151-352×9+0-352×6=625.
因为x甲>x乙,s甲2y,因此可看出A药的疗效更好.
(2)由观测结果可绘制如下茎叶图:
从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上,而B药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A药的疗效更好.
9.(2014课标Ⅰ,18,12分)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125)
频数
6
26
38
22
8
(1)作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
答案 (1)频率分布直方图如图.
(2)质量指标值的样本平均数为
x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为
0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.
考点四 变量间的相关性
1.(2014湖北,6,5分)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为y^=bx+a,则( )
A.a>0,b<0 B.a>0,b>0
C.a<0,b<0 D.a<0,b>0
答案 A
2.(2015课标Ⅰ,19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x
y
w
∑i=18(xi-x)2
∑i=18(wi-w)2
∑i=18(xi-x)(yi-y)
∑i=18(wi-w)(yi-y)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=xi,w=18∑i=18wi.
(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
(i)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ii)年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
β^=∑i=1n(ui-u)(vi-v)∑i=1n(ui-u)2,α^=v-β^ u.
答案 (1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2分)
(2)令w=x,先建立y关于w的线性回归方程.
由于d^=∑i=18(wi-w)(yi-y)∑i=18(wi-w)2=108.81.6=68,
c^=y-d^ w=563-68×6.8=100.6,
所以y关于w的线性回归方程为y^=100.6+68w,
因此y关于x的回归方程为y^=100.6+68x.(6分)
(3)(i)由(2)知,当x=49时,年销售量y的预报值
y^=100.6+6849=576.6,
年利润z的预报值z^=576.6×0.2-49=66.32.(9分)
(ii)根据(2)的结果知,年利润z的预报值
z^=0.2(100.6+68x)-x=-x+13.6x+20.12.
所以当x=13.62=6.8,即x=46.24时,z^取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.(12分)
3.(2014课标Ⅱ,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年 份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
b^=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2,a^=y-b^t.
答案 (1)由所给数据计算得
t=17×(1+2+3+4+5+6+7)=4,
y=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
∑i=17(ti-t)2=9+4+1+0+1+4+9=28,
∑i=17(ti-t)(yi-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
b^=∑i=17(ti-t)(yi-y)∑i=17(ti-t)2=1428=0.5,
a^=y-b^t=4.3-0.5×4=2.3,所求回归方程为y^=0.5t+2.3.
(2)由(1)知,b^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
考点五 独立性检验
1.(2014江西,7,5分)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力 C.智商 D.阅读量
答案 D
2.(2014安徽,17,12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
答案 (1)300×4 50015 000=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生
女生
总计
每周平均体育运动时间
不超过4小时
45
30
75
每周平均体育运动时间
超过4小时
165
60
225
总计
210
90
300
结合列联表可算得K2=300×(45×60-30×165)275×225×210×90=10021≈4.762>3.841.
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
3.(2010课标全国,19,12分)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?
说明理由.
附:
P(K2≥k)
0.050 0.010 0.001
k
3.841 6.635 10.828
K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)
答案 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.
(2)K2=500×(40×270-30×160)2200×300×70×430≈9.967.
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.
【三年模拟】
时间:70分钟 分值:85分
一、选择题(每小题5分,共25分)
1.(2019福建漳州第二次教学质量监测,7)某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,编号分别为001,002,…,599,600,从中抽取60个样本数据,如下提供随机数表的第4行到第6行:
3221 1834 2978 6454 0732 5242 0644 3812 2343 5677 3578 9056 42(第4行)
8442 1253 3134 5786 0736 2530 0732 8623 4578 8907 2368 9608 04(第5行)
3256 7808 4367 8953 5577 3489 9483 7522 5355 7832 4577 8923 45(第6行)
若从表中第6行第6列开始向右依次读取3个数据,则得到的第6个编号为( )
A.522 B.324 C.535 D.578
答案 D
2.(2019湖北武汉4月调研,4)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有A结伴步行,B自行乘车,C家人接送,D其他方式,并将收集的数据整理绘制成如下两幅不完整的统计图.根据图中信息,可知本次抽查的学生中A类人数是( )
A.30 B.40 C.42 D.48
答案 A
3.(2020届四川翠屏检测,5)某运动队由足球运动员18人,篮球运动员12人,乒乓球运动员6人组成(每人只参加一项),现从这些运动员中抽取一个容量为n的样本,若分别采用系统抽样法和分层抽样法,都不用剔除个体,那么样本容量n的最小值为( )
A.6 B.12 C.18 D.24
答案 A
4.(2018广东五校联考,3)下表是我国某城市在2017年1月份至10月份10个月的最低气温与最高气温(℃)的数据一览表.
月份
1
2
3
4
5
6
7
8
9
10
最高气温
5
9
9
11
17
24
27
30
31
21
最低气温
-12
-3
1
-2
7
17
19
23
25
10
已知该城市各月的最低气温与最高气温具有相关关系,根据表格下列结论错误的是( )
A.最低气温与最高气温为正相关
B.每月最高气温和最低气温的平均值在前8个月逐月增加
C.月温差(最高气温减最低气温)的最大值出现在1月
D.1月至4月的月温差(最高气温减最低气温)相对于7月至10月,波动性更大
答案 B
月份
1
2
3
4
5
6
7
8
9
10
最高气温
5
9
9
11
17
24
27
30
31
21
最低气温
-12
-3
1
-2
7
17
19
23
25
10
温差
17
12
8
13
10
7
8
7
6
11
由表格可知最低气温大致随最高气温的增大而增大,A中结论正确;每月最高气温与最低气温的平均值在前8个月不是逐月增加,B中结论错;月温差(最高气温减最低气温)的最大值出现在1月,C中结论正确;1月至4月的月温差(最高气温减最低气温)相对于7月至10月,波动性更大,D中结论正确,故选B.
5.(2020届吉林南关模拟,7)2019年是新中国成立七十周年,新中国成立以来,我国文化事业得到了充分发展,尤其是党的十八大以来,文化事业发展更加迅速,下图是从2013年到2018年六年间我国公共图书馆业机构个数与对应年份编号的散点图(为便于计算,将2013年编号为1,2014年编号为2,…,2018年编号为6,把每年的公共图书馆业机构个数作为因变量,把年份编号从1到6作为自变量进行回归分析),得到回归直线y^=13.743x+3 095.7,其相关指数R2=0.981 7,给出下列结论,其中正确的个数是( )
①公共图书馆业机构个数与年份的正相关性较强;
②公共图书馆业机构个数平均每年增加13.743;
③可预测2019年公共图书馆业机构个数为3 192.
A.0 B.1 C.2 D.3
答案 D
二、解答题(共60分)
6.(2020届山东夏季高考模拟,20)下面给出了根据我国2012年—2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和线性回归方程的残差图(2012年—2018年的年份代码x分别为1—7).
(1)根据散点图分析y与x之间的相关关系;
(2)根据散点图相应数据计算得∑i=17yi=1 074,∑i=17xiyi=4 517,求y关于x的线性回归方程;(精确到0.01)
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.
附:回归方程y^=a^+b^x中斜率和截距的最小二乘估计公式分别为:
b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x.
答案 (1)根据散点图可知y与x正线性相关.
(2)由所给数据计算得
x=17×(1+2+…+7)=4,
∑i=17(xi-x)2=28,
∑i=17(xi-x)(yi-y)=∑i=17xiyi-x∑i=17yi=4 517-4×1 074=221,
b^=∑i=17(xi-x)(yi-y)∑i=17(xi-x)2=22128≈7.89.
a^=y-b^x=1 0747-7.89×4≈121.87.
所以所求线性回归方程为y^=7.89x+121.87.
(3)由题中给出的残差图知历年数据的残差均在-2到2之间,说明线性回归方程的拟合效果较好.
7.(2019江西上饶重点中学六校第二次联考,19)十九大提出:坚决打赢脱贫攻坚战,做到精准扶贫.我省某帮扶单位为帮助定点扶贫村真正脱贫,坚持扶贫同扶智相结合,帮助贫困村种植脐橙,并利用互联网电商进行销售,为了更好销售,现从该村的脐橙树上随机摘下100个脐橙进行测重,其质量分布在区间[200,500](单位:克),根据统计质量的数据作出频率分布直方图如图所示:
(1)按分层抽样的方法从质量落在[350,400),[400,450)的脐橙中随机抽取5个,再从这5个脐橙中随机抽2个,求这2个脐橙质量至少有一个不小于400克的概率;
(2)以各组数据的中间数值代表这组数据的平均水平,以频率代表概率,已知该村的脐橙种植地上大约还有100 000个脐橙待出售,某电商提出两种收购方案:
A.所有脐橙均以7元/千克收购;
B.低于350克的脐橙以2元/个收购,其余的以3元/个收购.
请你通过计算为该村选择收益较好的方案.
(参考数据:225×0.05+275×0.16+325×0.24+375×0.3+425×0.2+475×0.05=354.5)
答案 (1)由题意得脐橙质量在[350,400)和[400,450)的比为3∶2,
∴应分别在质量为[350,400)和[400,450)的脐橙中各抽取3个和2个.
记抽取质量在[350,400)的脐橙为A1,A2,A3,质量在[400,450)的脐橙为B1,B2.
则从这5个脐橙中随机抽取2个的情况共有以下10种:
A1A2,A1A3,A2A3,A1B1,A2B1,A3B1,A1B2,A2B2,A3B2,B1B2,
其中质量至少有一个不小于400克的情况有7种,故所求概率为710.
(2)方案B好,理由如下:
由频率分布直方图可知,脐橙质量在[200,250)的频率为50×0.001=0.05,
同理,质量在[250,300),[300,350),[350,400),[400,450),[450,500]的频率依次为0.16,0.24,0.3,0.2,0.05,
若按方案B收购:
∵脐橙质量低于350克的个数为(0.05+0.16+0.24)×100 000=45 000,
脐橙质量不低于350克的个数为55 000,
∴收益为45 000×2+55 000×3=255 000(元).
若按方案A收购:
根据题意各段脐橙个数依次为5 000,16 000,24 000,30 000,20 000,5 000.
于是总收益为(225×5 000+275×16 000+325×24 000+375×30 000+425×20 000+475×5 000)÷1 000×7=248 150(元),
∴方案B的收益比方案A的收益高,故应该选择方案B.
8.(2020届皖江名校联盟第一次联考,18)某电器店周年庆举行为期六天的促销活动,规定消费达到一定标准的顾客可进行一次抽奖活动,随着抽奖活动的有效开展,第五天该电器店老板对前五天中参加抽奖活动的人数进行统计,y表示第x天参加抽奖活动的人数,得到统计表格如下:
x
1
2
3
4
5
y
4
6
10
23
22
(1)若y与x具有线性相关关系,请根据上表提供的数据,求出y关于x的线性回归方程y^=bx+a;
(2)预测第六天参加抽奖活动的人数(按四舍五入取到整数).
参考公式与参考数据:b^=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2,a^=y-b^·x.
答案 (1)依题意,得x=15×(1+2+3+4+5)=3,
y=15×(4+6+10+23+22)=13,(2分)
所以b^=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2
=(1-3)(4-13)+(2-3)(6-13)+(3-3)(10-13)+(4-3)(23-13)+(5-3)(22-13)(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2
=5.3,a^=13-5.3×3=-2.9,(7分)
故所求回归直线方程为y^=5.3x-2.9.(8分)
(2)将x=6代入y^=5.3x-2.9中,得y^=5.3×6-2.9=28.9≈29,
故预测第六天参加抽奖活动的人数为29.(12分)
9.(2020届河南南阳第一中学模拟,9)为了保障全国第四次经济普查顺利进行,国家统计局从东部选择江苏,从中部选择河北、湖北,从西部选择宁夏,从直辖市中选择重庆作为国家综合试点地区,然后再逐级确定普查区域,直到基层的普查小区.在普查过程中首先要进行直传培训,然后确定对象,最后入户登记.由于种种情况可能会导致入户登记不够顺利,如有些对象对普查有误解,配合不够主动;参与普查工作的技术人员对全新的操作平台运用还不够熟练等,这为正式普查提供了宝贵的试点经验.在某普查小区,共有50家企事业单位,150家个体营业户,普查情况如下表所示:
普查对象类别
顺利
不顺利
合计
企事业单位
40
50
个体经营户
50
150
合计
(1)写出选择5个国家综合试点地区采用的抽样方法;
(2)补全上述列联表,并根据列联表判断是否有90%的把握认为“此普查小区的入户登记是否顺利与普查对象的类别有关”;
(3)根据该试点普查小区的情况,为保障第四次经济普查的顺利进行,请你从统计的角度提出一条建议.
答案 (1)因为样本是由差异比较明显的几部分组成的,所以采用的是分层抽样法.
(2)根据题意填写列联表如下:
普查对象类别
顺利
不顺利
合计
企事业单位
40
10
50
个体经营户
100
50
150
合计
140
60
200
将列联表中的数据代入公式计算K2=200×(40×50-100×10)2140×60×50×150≈3.175>2.706,
所以有90%的把握认为“此普查小区的入户登记是否顺利与普查对象的类别有关”.
(3)(意思相近即可得分)建议:加大宣传力度,消除误解因素,尤其要做好个体经营户的思想工作.
10.(2020届甘肃调研,19)从集市上买回来的蔬菜仍存有残留农药,食用时需要清洗数次,统计表中的x表示清洗的次数,y表示清洗x次后1千克该蔬菜残留的农药量(单位:微克).
x
1
2
3
4
5
y
4.5
2.2
1.4
1.3
0.6
(1)在如图所示的坐标系中描出散点图,并根据散点图判断y^=b^x+a^与y^=m^e-x+n^哪一个适宜作为清洗x次后1千克该蔬菜残留的农药量的回归方程类型;(给出判断即可,不必说明理由)
(2)根据下表中的数据,建立y关于x的回归方程;
表中ωi=e-xi,ω=15∑i=15ωi.
x
y
ω
∑i=15(xi-x)2
∑i=15(ωi-ω)2
∑i=15(xi-x)(yi-y)
∑i=15(ωi-ω)(yi-y)
3
2
0.12
10
0.09
-8.7
0.9
(3)对所求的回归方程进行残差分析:
附:①线性回归方程y^=b^x+a^中系数计算公式为b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x;
②R2=1-∑i=1n(yi-y^i)2∑i=1n(yi-y)2,R2>0.95说明模拟效果非常好;
③1e≈0.37,1e2≈0.14,1e3≈0.05,1e4≈0.02,1e5≈0.01.
答案 (1)散点图如图,
用y^=m^e-x+n^作为清洗x次后1千克该蔬菜残留的农药量的回归方程类型更适宜.
(2)由题意知m^=∑i=15(ωi-ω)(yi-y)∑i=15(ωi-ω)2=0.90.09=10,n^=y-m^ω=2-10×0.12=0.8,
故所求的回归方程为y^=10×e-x+0.8.
(3)列表如下:
yi-y^i
0
0
0.1
0.3
-0.3
yi-y
2.5
0.2
-0.6
-0.7
-1.4
所以∑i=15(yi-y^i)2=0.19,∑i=15(yi-y)2=9.1,R2=1-0.199.1≈0.979,因为0.979>0.95,
所以回归模拟的拟合效果非常好.