- 1.28 MB
- 2021-07-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第十章统计与统计案例
第一节
统 计
突破点(一) 随机抽样
基础联通 抓主干知识的“源”与“流”
1.简单随机抽样
(1)定义:设一个总体含有 N 个个体,从中逐个不放回地抽取 n 个个体作为样本(n≤N),
如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽
样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
2.系统抽样
在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一
个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).
3.分层抽样
在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数
量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
4.三种抽样方法的比较
类别 共同点 各自特点 相互联系 适用范围
简单随机
抽样
均为不放
回抽样,且
抽样过程
中每个个
体被抽取
的机会相
等
从总体中逐个抽取
是后两种方法的基
础
总体中的个数较
少
系统抽样
将总体均分成几部分,
按事先确定的规则在各
部分中抽取
在起始部分抽样时
采用简单随机抽样
元素个数很多且
均衡的总体抽样
分层抽样
将总体分成几层,分层
按比例进行抽取
各层抽样时采用简
单随机抽样或系统
抽样
总体由差异明显
的几部分组成
考点贯通 抓高考命题的“形”与“神”
本节主要包括 2 个知识点:
1.随机抽样; 2.用样本估计总体.
简单随机抽样
1.抽签法的步骤
第一步,将总体中的 N 个个体编号;
第二步,将这 N 个号码写在形状、大小相同的号签上;
第三步,将号签放在同一不透明的箱中,并搅拌均匀;
第四步,从箱中每次抽取 1 个号签,连续抽取 k 次;
第五步,将总体中与抽取的号签的编号一致的 k 个个体取出.
2.随机数法的步骤
第一步,将个体编号;
第二步,在随机数表中任选一个数开始;
第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的
数字就得到样本的号码.
[例 1] (1)以下抽样方法是简单随机抽样的是( )
A.在某年明信片销售活动中,规定每 100 万张为一个开奖组,通过随机抽取的方式确
定号码的后四位为 2709 的为三等奖
B.某车间包装一种产品,在自动包装的传送带上,每隔 30 分钟抽一包产品,称其重量
是否合格
C.某学校分别从行政人员、教师、后勤人员中抽取 2 人、14 人、4 人了解对学校机构
改革的意见
D.用抽签方法从 10 件产品中选取 3 件进行质量检验
(2)总体由编号为 01,02,…,19,20 的 20 个个体组成.利用下面的随机数表选取 5 个
个体,选取方法是从随机数表第 1 行的第 5 列和第 6 列数字开始由左到右依次选取两个数字,
则选出来的第 5 个个体的编号为( )
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
A.08 B.07
C.02 D.01
[解析] (1)选项 A、B 不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项 C
不是简单随机抽样,因为总体的个体有明显的层次;选项 D 是简单随机抽样.
(2)由题意知前 5 个个体的编号为 08,02,14,07,01.
[答案] (1)D (2)D
系统抽样
系统抽样的步骤
(1)先将总体的 N 个个体编号;
(2)确定分段间隔 k(k∈N*),对编号进行分段.当N
n(n 是样本容量)是整数时,取 k=N
n
;
(3)在第 1 段用简单随机抽样确定第 1 个个体编号 l(l≤k);
(4)按照一定的规则抽取样本.通常是将 l 加上间隔 k 得到第 2 个个体编号(l+k),再加 k
得到第 3 个个体编号(l+2k),依次进行下去,直到获取整个样本.
[例 2] (1)某单位有 840 名职工,现采用系统抽样方法抽取 42 人做问卷调查,将 840 人
按 1,2,…,840 随机编号,则抽取的 42 人中,编号落入区间[481,720]的人数为( )
A.11 B.12
C.13 D.14
(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从 502 名现场观众中抽取 10%
进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,
抽样间隔为________.
[解析] (1)由系统抽样定义可知,所分组距为840
42
=20,每组抽取一人,因为包含整数个
组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.
(2)把 502 名观众平均分成 50 组,由于 502 除以 50 的商是 10,余数是 2,所以每组有
10 名观众,还剩 2 名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从 502
名观众中抽取 2 名观众,这 2 名观众不参加座谈;再将剩下的 500 名观众编号为 1,2,3,…,
500,并均匀分成 50 段,每段含500
50
=10 个个体.所以需剔除 2 个个体,抽样间隔为 10.
[答案] (1)B (2)2 10
[易错提醒]
用系统抽样法抽取样本,当N
n
不为整数时,取 k=
N
n ,即先从总体中用简单随机抽样的
方法剔除(N-nk)个个体,且剔除多余的个体不影响抽样的公平性.
分层抽样
进行分层抽样的相关计算时,常利用以下关系式巧解:
(1)
样本容量 n
总体的个数 N
=该层抽取的个体数
该层的个体数
;
(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
[例 3] (1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的
身体状况,在抽取的样本中,青年教师有 320 人,则该样本中的老年教师人数为( )
类别 人数
老年教师 900
中年教师 1 800
青年教师 1 600
合计 4 300
A.90 B.100
C.180 D.300
(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为 3∶5∶
7,现用分层抽样的方法抽出容量为 n 的样本,其中甲种产品有 18 件,则样本容量 n=( )
A.54 B.90
C.45 D.126
(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).
篮球组 书画组 乐器组
高一 45 30 a
高二 15 10 20
学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个
兴趣小组的学生中抽取 30 人,结果篮球组被抽出 12 人,则 a 的值为________.
[解析] (1)设该样本中的老年教师人数为 x,由题意及分层抽样的特点得 x
900
= 320
1 600
,故
x=180.
(2)依题意得 3
3+5+7
×n=18,解得 n=90,即样本容量为 90.
(3)由题意知 12
45+15
= 30
45+15+30+10+a+20
,解得 a=30.
[答案] (1)C (2)B (3)30
[方法技巧]
分层抽样的解题策略
(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要
小,两层之间的样本差异要大,且互不重叠.
(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.
(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.
(4)抽样比=样本容量
总体容量
=各层样本数量
各层个体数量.
能力练通 抓应用体验的“得”与“失”
1.[考点一]某工厂的质检人员对生产的 100 件产品,采用随机数法抽取 10 件检查,对 100
件产品采用下面的编号方法
①1,2,3,…,100;
②001,002,…,100;
③00,01,02,…,99;
④01,02,03,…,100.
其中正确的序号是( )
A.②③④ B.③④
C.②③ D.①②
解析:选 C 根据随机数法编号可知,①④编号位数不统一.
2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从 A,B,C
三所中学抽取 60 名教师进行调查,已知 A,B,C 三所学校中分别有 180,270,90 名教师,则
从 C 学校中应抽取的人数为( )
A.10 B.12
C.18 D.24
解析:选 A 根据分层抽样的特征,从 C 学校中应抽取的人数为 90
180+270+90
×60=10.
3.[考点二]某班共有 52 人,现根据学生的学号,用系统抽样的方法,抽取一个容量为 4
的样本,已知 3 号、29 号、42 号学生在样本中,那么样本中还有一个学生的学号是( )
A.10 B.11
C.12 D.16
解析:选 D 从被抽中的 3 名学生的学号中可以看出学号间距为 13,所以样本中还有一
个学生的学号是 16,故选 D.
4.[考点三]某市有 A、B、C 三所学校,共有高三文科学生 1 500 人,且 A、B、C 三所学
校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有
高三文科学生中抽取容量为 120 的样本,进行成绩分析,则应从 B 校学生中抽取________
人.
解析:设 A、B、C 三所学校高三文科学生人数分别为 x,y,z,由题知 x,y,z 成等差
数列,所以 x+z=2y,又 x+y+z=1 500,所以 y=500,用分层抽样方法抽取 B 校学生人数
为 120
1 500
×500=40.
答案:40
5.[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60 人中展开调查,
根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对 60 名
学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为 03,09,则抽取的
学生中最大的编号为________.
解析:由最小的两个编号为 03,09 可知,抽取时的分段间隔是 6.即抽取 10 名同学,其编
号构成首项为 3,公差为 6 的等差数列,故最大编号为 3+9×6=57.
答案:57
突破点(二) 用样本估计总体
基础联通 抓主干知识的“源”与“流”
1.频率分布直方图和茎叶图
(1)作频率分布直方图的步骤
①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④
列频率分布表;⑤画频率分布直方图.
(2)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折
线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频
率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(3)茎叶图的优点
茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带
来方便.
2.样本的数字特征
(1)众数、中位数、平均数
数字特征 定义与求法 优点与缺点
众数
一组数据中重复出现次数最多
的数
众数体现了样本数据的最大集中点,不受极端
值的影响.但显然它对其他数据信息的忽视使
得无法客观地反映总体特征
中位数
把一组数据按从小到大的顺序
排列,处在中间位置的一个数
据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几
个极端值的影响,这在某些情况下是优点,但
它对极端值的不敏感有时也会成为缺点
平均数
如果有 n 个数据 x1,x2,…,xn,
那么这 n 个数的平均数 x =
x1+x2+…+xn
n
平均数与每一个样本数据有关,可以反映出更
多的关于样本数据全体的信息,但平均数受数
据中的极端值的影响较大,使平均数在估计总
体时可靠性降低
(2)标准差、方差
① 标 准 差 : 样 本 数 据 到 平 均 数 的 一 种 平 均 距 离 , 一 般 用 s 表 示 , s =
1
n[x1- x 2+x2- x 2+…+xn- x 2].
②方差:标准差的平方
s2=1
n[(x1- x )2+(x2- x )2+…+(xn- x )2],其中 xi(i=1,2,3,…,n)是样本数据,n
是样本容量, x 是样本平均数.
③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行
了平方运算,夸大了样本的偏差程度.
(3)平均数、方差公式的推广
若数据 x1,x2,…,xn 的平均数为 x ,方差为 s2,则数据 mx1+a,mx2+a,…,mxn
+a 的平均数为 m x +a,方差为 m2s2.
考点贯通 抓高考命题的“形”与“神”
频率分布直方图
[例 1] (1)(2016·山东高考)某高校调查了 200 名学生每周的自习时间(单位:小时),制成
了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),
[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这 200 名学生中每周的自习时间不
少于 22.5 小时的人数是( )
A.56 B.60 C.120 D.140
(2)某地政府调查了工薪阶层 1 000 人的月工资收入,并根据调查结果画出如图所示的频
率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的
1 000 人中抽出 100 人做电话询访,则(30,35](百元)月工资收入段应抽出________人.
[解析] (1)由频率分布直方图知 200 名学生每周的自习时间不少于 22.5 小时的频率为 1
-(0.02+0.10)×2.5=0.7,则这 200 名学生中每周的自习时间不少于 22.5 小时的人数为
200×0.7=140,故选 D.
(2)月工资收入落在(30,35](百元)内的频率为 1-(0.02+0.04+0.05+0.05+0.01)×5=1-
0.85=0.15,所以(30,35](百元)月工资收入段应抽出 100×0.15=15(人).
[答案] (1)D (2)15
[方法技巧]
1.绘制频率分布直方图时需注意的两点
(1)制作好频率分布表后,可以利用各组的频率之和是否为 1 来检验该表是否正确;
(2)频率分布直方图的纵坐标是频率
组距
,而不是频率.
2.与频率分布直方图计算有关的两个关系式
(1)
频率
组距
×组距=频率;
(2)
频数
样本容量
=频率,此关系式的变形为频数
频率
=样本容量,样本容量×频率=频数.
茎叶图
1.茎叶图的绘制需注意:
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;
(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
2.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组
数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,
数据分布是否均匀等.
[例 2] 某良种培育基地正在培育一小麦新品种 A,将其与原有的一个优良品种 B 进行
对照试验,两种小麦各种植了 25 亩,所得亩产数据(单位:千克)如下.
品种 A:
357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,44
5,445,451,454
品种 B:
363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,41
5,416,422,430
(1)作出数据的茎叶图;
(2)通过观察茎叶图,对品种 A 与 B 的亩产量及其稳定性进行比较,写出统计结论.
[解] (1)画出茎叶图如图所示:
(2)通过观察茎叶图可以看出:①品种 A 的亩产平均数(或均值)比品种 B 高;②品种 A
的亩产标准差(或方差)比品种 B 大,故品种 A 的亩产稳定性较差.
[方法技巧]
茎叶图问题的求解策略
(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充
分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.
(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字
特征,进一步估计总体情况.
样本的数字特征
1.用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实
际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.
2.若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);
另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据
的波动性比较方差(标准差)的大小.
考法(一) 与频率分布直方图交汇命题
[例 3] (2016·北京高考)某市居民用水拟实行阶梯水价,每人月用水量中不超过 w 立方
米的部分按 4 元/立方米收费,超出 w 立方米的部分按 10 元/立方米收费.从该市随机调查了
10 000 位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.
(1)如果 w 为整数,那么根据此次调查,为使 80%以上居民在该月的用水价格为 4 元/
立方米,w 至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替.当 w=3 时,估计该市居民该月
的人均水费.
[解] (1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],
(1.5,2],(2,2.5],(2.5,3]内的频率依次为 0.1,0.15,0.2,0.25,0.15.
所以该月用水量不超过 3 立方米的居民占 85%,用水量不超过 2 立方米的居民占 45%.
依题意,w 至少定为 3.
(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如
下:
组号 1 2 3 4 5 6 7 8
分组 [2,4] (4,6] (6,8] (8,10] (10,12] (12,17] (17,22] (22,27]
频率 0.1 0.15 0.2 0.25 0.15 0.05 0.05 0.05
根据题意,该市居民该月的人均水费估计为
4×0.1 + 6×0.15 + 8×0.2 + 10×0.25 + 12×0.15 + 17×0.05 + 22×0.05 + 27×0.05 =
10.5(元).
[方法技巧]
频率分布直方图与众数、中位数、平均数的关系
(1)最高的小长方形底边中点的横坐标为众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘
以小长方形底边中点的横坐标之和.
考法(二) 与茎叶图交汇命题
[例 4] (1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成
绩(单位:分),已知甲组数据的中位数为 17,乙组数据的平均数为 17.4,则 x,y 的值分别为
( )
甲组 乙组
9 0 9
9 y 6 1 6 6 x
6 2 9
A.7,8 B.5,7 C.8,5 D.7,7
(2)将某选手的 9 个得分去掉 1 个最高分,去掉 1 个最低分,7 个剩余分数的平均分为 91.
现场作的 9 个分数的茎叶图后来有 1 个数据模糊,无法辨认,在图中以 x 表示:
8 7 7
9 4 0 1 0 x 9 1
则 7 个剩余分数的方差为________.
[解析] (1)甲组数据的中位数为 17, 故 y=7,
乙组数据的平均数为3×10+20+9+6+6+x+9
5
=17.4,
解得 x=7.
(2)由图可知去掉的两个数是 87,99,所以 87+90×2+91×2+94+90+x=91×7,解得
x=4.s2=1
7[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=36
7 .
[答案] (1)D (2)36
7
[易错提醒]
在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉
了数据,也不要混淆茎叶图中茎与叶的含义.
考法(三) 与优化决策问题交汇
[例 5] 甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如
下表所示:
甲 乙 丙 丁
平均环数 x 8.3 8.8 8.8 8.7
方差 s2 3.5 3.6 2.2 5.4
从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )
A.甲 B.乙 C.丙 D.丁
[解析] 由题目表格中数据可知,丙平均环数最高,且方差最小,说明成绩好,且技术
稳定,选 C.
[答案] C
[方法技巧]
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的
大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离
散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
能力练通 抓应用体验的“得”与“失”
1.[考点一]在样本的频率分布直方图中,共有 7 个小长方形,若中间一个小长方形的面
积等于其他 6 个小长方形的面积的和的1
4
,且样本容量为 80,则中间一组的频数为( )
A.0.25 B.0.5 C.20 D.16
解析:选 D 设中间一组的频数为 x,依题意有 x
80
=1
4
1- x
80 ,解得 x=16.
2.[考点二]在一次马拉松比赛中,35 名运动员的成绩(单位:分钟)的茎叶图如图所示.
13
14
15
0 0 3 4 5 6 6 8 8 8 9
1 1 1 2 2 2 3 3 4 4 5 5 5 6 6 7 8
0 1 2 2 3 3 3
若将运动员按成绩由好到差编为 1~35 号,再用系统抽样方法从中抽取 7 人,则其中成
绩在区间[139,151]上的运动员人数是( )
A.3 B.4 C.5 D.6
解析:选 B 35÷7=5,因此可将编号为 1~35 的 35 个数据分成 7 组,每组有 5 个数据,
在区间[139,151]上共有 20 个数据,分在 20÷5=4 个小组中,每组取 1 人,共取 4 人.
3.[考点一]某班 50 位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组
区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中 x 的值等于( )
A.0.12 B.0.012 C.0.18 D.0.018
解析:选 D 依题意,0.054×10+10×x+0.01×10+0.006×10×3=1,解得 x=0.018.
4.[考点三·考法二]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的
茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )
7 9
8 4 4 6 4 7
9 3
A.84,4.84 B.84,1.6
C.85,1.6 D.85,4
解析:选 C 依题意,所剩数据的平均数是 80+1
5
×(4×3+6+7)=85,所剩数据的方
差是1
5
×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.
5.[考点三·考法三]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击
了 5 次,成绩如下表(单位:环):
甲 10 8 9 9 9
乙 10 10 7 9 9
如果甲、乙两人中只有 1 人入选,则入选的最佳人选应是________.
解析: x-
甲= x-
乙=9,s2甲=1
5
×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=2
5
,
s2乙=1
5
×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=6
5>s2甲,故甲更稳定.
答案:甲
6.[考点三·考法一](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励
居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准 x(吨),
一位居民的月用水量不超过 x 的部分按平价收费,超出 x 的部分按议价收费.为了了解居民
用水情况,通过抽样,获得了某年 100 位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),
[0.5,1),…,[4,4.5]分成 9 组,制成了如图所示的频率分布直方图.
(1)求直方图中 a 的值;
(2)设该市有 30 万居民,估计全市居民中月均用水量不低于 3 吨的人数,并说明理由;
(3)若该市政府希望使 85%的居民每月的用水量不超过标准 x(吨),估计 x 的值,并说明
理由.
解:(1)由频率分布直方图可知,月均用水量在[0,0.5)中的频率为 0.08×0.5=0.04.同理,
在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为 0.08,0.20,0.26,0.06,0.04,0.02.
由 0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得 a=0.30.
(2)由(1)知 100 位居民每人的月均用水量不低于 3 吨的频率为 0.06+0.04+0.02=0.12.由
以上样本的频率分布,可以估计全市 30 万居民中月均用水量不低于 3 吨的人数为 300
000×0.12=36 000.
(3)因为前 6 组的频率之和为 0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前 5
组的频率之和为 0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以 2.5≤x<3.由 0.30×(x-2.5)
=0.85-0.73,解得 x=2.9.
所以,估计月用水量标准为 2.9 吨时,85%的居民每月的用水量不超过标准.
7.[考点三·考法二]某车间 20 名工人年龄数据如下表:
年龄(岁) 工人数(人)
19 1
28 3
29 3
30 5
31 4
32 3
40 1
合计 20
(1)求这 20 名工人年龄的众数与极差;
(2)以十位数为茎,个位数为叶,作出这 20 名工人年龄的茎叶图;
(3)求这 20 名工人年龄的方差.
解:(1)由题可知,这 20 名工人年龄的众数是 30,极差是 40-19=21.
(2)这 20 名工人年龄的茎叶图如图所示:
(3)这 20 名工人年龄的平均数为 x = 1
20(19+3×28+3×29+
5×30+4×31+3×32+40)=30,
∴这 20 名工人年龄的方差为 s2= 1
20
∑20
i=1 (xi- x )2=112+6×22+7×12+5×02+102
20
=252
20
=12.6.
[全国卷 5 年真题集中演练——明规律]
1.(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均
最高气温和平均最低气温的雷达图.图中 A 点表示十月的平均最高气温约为 15 ℃,B 点表
示四月的平均最低气温约为 5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在 0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于 20 ℃的月份有 5 个
解析:选 D 由图形可得各月的平均最低气温都在 0 ℃以上,A 正确;七月的平均温
差约为 10 ℃,而一月的平均温差约为 5 ℃,故 B 正确;三月和十一月的平均最高气温都
在 10 ℃左右,基本相同,C 正确;故 D 错误.
2.(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学
生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情
况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是
( )
A.简单随机抽样 B.按性别分层抽样
C.按学段分层抽样 D.系统抽样
解析:选 C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项 A;
由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,
而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除 B 和 D.故选 C.
3.(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取 100 件,测量这些产品的一
项质量指标值,由测量结果得如下频数分布表:
质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125)
频数 6 26 38 22 8
(1)作出这些数据的频率分布直方图
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代
表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于
95 的产品至少要占全部产品的 80%”的规定?
解:(1)如图所示:
(2)质量指标值的样本平均数为
x =80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为 100,方差的估计值为 104.
(3)质量指标值不低于 95 的产品所占比例的估计值为
0.38+0.22+0.08=0.68.
由于该估计值小于 0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于 95
的产品至少要占全部产品的 80%”的规定.
4.(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了 50 位市
民.根据这 50 位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于 90 的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
解:(1)由所给茎叶图知,50 位市民对甲部门的评分由小到大排序,排在第 25,26 位的是
75,75,故样本中位数为 75,所以该市的市民对甲部门评分的中位数的估计值是 75.
50 位市民对乙部门的评分由小到大排序,排在第 25,26 位的是 66,68,故样本中位数为
66+68
2
=67,所以该市的市民对乙部门评分的中位数的估计值是 67.
(2)由所给茎叶图知,50 位市民对甲、乙部门的评分高于 90 的比率分别为 5
50
=0.1, 8
50
=
0.16,故该市的市民对甲、乙部门的评分高于 90 的概率的估计值分别为 0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且
由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市
市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
5.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为 A 药,B 药)的疗效,
随机地选取 20 位患者服用 A 药,20 位患者服用 B 药,这 40 位患者在服用一段时间后,记
录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:
服用 A 药的 20 位患者日平均增加的睡眠时间:
0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5
2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4
服用 B 药的 20 位患者日平均增加的睡眠时间:
3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4
1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?
A 药 B 药
0.
1.
2.
3.
解:(1)设 A 药观测数据的平均数为 x-,B 药观测数据的平均数为 y-.由观测结果可得
x-= 1
20
×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8
+2.9+3.0+3.1+3.2+3.5)=2.3,
y-= 1
20
×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1
+2.4+2.5+2.6+2.7+3.2)=1.6.
由以上计算结果可得 x-> y-,因此可看出 A 药的疗效更好.
(2)由观测结果可绘制如下茎叶图:
A 药 B 药
6 0. 5 5 6 8 9
8 5 5 2 2 1. 1 2 2 3 4 6 7 8 9
9 8 7 7 6 5 4 3 3 2 2. 1 4 5 6 7
5 2 1 0 3. 2
从以上茎叶图可以看出,A 药疗效的试验结果有 7
10
的叶集中在茎 2,3 上,而 B 药疗效的
试验结果有 7
10
的叶集中在茎 0,1 上,由此可看出 A 药的疗效更好.
[课时达标检测] 重点保分课时——一练小题夯双基,二练题点过高考
[练基础小题——强化运算能力]
1.某学校为了了解某年高考数学的考试成绩,在高考后对该校 1 200 名考生进行抽样调
查,其中有 400 名文科考生,600 名理科考生,200 名艺术和体育类考生,从中抽取 120 名
考生作为样本,记这项调查为①;从 10 名家长中随机抽取 3 名参加座谈会,记这项调查为
②,则完成①,②这两项调查宜采用的抽样方法依次是( )
A.分层抽样法,系统抽样法
B.分层抽样法,简单随机抽样法
C.系统抽样法,分层抽样法
D.简单随机抽样法,分层抽样法
解析:选 B 在①中,文科考生、理科考生、艺术和体育类考生会存在差异,采用分层
抽样法较好;在②中,抽取的样本个数较少,宜采用简单随机抽样法.
2.某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一 600 人、
高二 780 人、高三 n 人中,抽取 35 人进行问卷调查.已知高二被抽取的人数为 13,则 n=( )
A.660 B.720 C.780 D.800
解析:选 B 由已知条件,抽样比为 13
780
= 1
60
,
从而 35
600+780+n
= 1
60
,解得 n=720.
3.某中学初中部共有 110 名教师,高中部共有 150 名教师,
其性别比例如图所示,则该校女教师的人数为( )
A.93 B.123 C.137 D.167
解析:选 C 初中部的女教师人数为 110×70%=77,高中部的女教师人数为 150×(1
-60%)=60,该校女教师的人数为 77+60=137,故选 C.
4.为比较甲、乙两地某月 14 时的气温情况,随机选取该月
中的 5 天,将这 5 天中 14 时的气温数据(单位:℃)制成如图所示
的茎叶图.考虑以下结论:
①甲地该月 14 时的平均气温低于乙地该月 14 时的平均气温;
②甲地该月 14 时的平均气温高于乙地该月 14 时的平均气温;
③甲地该月 14 时的气温的标准差小于乙地该月 14 时的气温的标准差;
④甲地该月 14 时的气温的标准差大于乙地该月 14 时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④ C.②③ D.②④
解析:选 B ∵ x 甲=26+28+29+31+31
5
=29,
x 乙=28+29+30+31+32
5
=30,
∴ x 甲< x 乙;
又 s2甲=9+1+0+4+4
5
=18
5
,s2乙=4+1+0+1+4
5
=2,
∴s 甲>s 乙.故可判断结论①④正确.
5.从某小区抽取 100 户居民进行月用电量调查,发现其用电量都在 50 至 350 度之间,
频率分布直方图如图所示.
(1)直方图中 x 的值为________;
(2)在这些用户中,用电量落在区间[100,250)内的户数为________.
解析:(1)由频率分布直方图总面积为 1,得(0.001 2+0.002 4×2+0.003 6+x+0.006
0)×50=1,解得 x=0.004 4;
(2)用电量在[100,250)内的频率为(0.003 6+0.004 4+0.006 0)×50=0.7,故户数为
100×0.7=70.
答案:(1)0.004 4 (2)70
[练常考题点——检验高考能力]
一、选择题
1.从甲、乙两个城市分别随机抽取 16 台自动售货机,
对其销售额进行统计,统计数据用茎叶图表示(如图所示).设
甲、乙两组数据的平均数分别为 x 甲、 x 乙,中位数分别为
m 甲、m 乙,则( )
A. x 甲< x 乙,m 甲>m 乙 B. x 甲< x 乙,m 甲 x 乙,m 甲>m 乙 D. x 甲> x 乙,m 甲b>c B.b>c>a
C.c>a>b D.c>b>a
解析:选 D 依题意,a=(15+17+14+10+15+17+17+16+14+12)× 1
10
=14.7.这些
数据由小到大依次是 10,12,14,14,15,15,16,17,17,17,因此 b=15,c=17,c>b>a.
5.(2016·九江二模)已知一组数据 x1,x2,…,xn 的方差为 2,若数据 ax1+b,ax2+b,…,
axn+b(a>0)的方差为 8,则 a 的值为( )
A.1 B. 2 C.2 D.4
解析:选 C 根据方差的性质可知,a2×2=8,故 a=2.
6.(2017·邢台模拟)样本中共有五个个体,其值分别为 0,1,2,3,m.若该样本的平均值为 1,
则其方差为( )
A. 10
5 B. 30
5 C. 2 D.2
解析:选 D 依题意得 m=5×1-(0+1+2+3)=-1,样本方差 s2=1
5(12+02+12+22
+22)=2,即所求的样本方差为 2.
二、填空题
7.某中学高三从甲、乙两个班中各选出 7 名学生参加数学竞赛,他们
取得的成绩(满分 100 分)的茎叶图如图所示,其中甲班学生成绩的众数是
85,乙班学生成绩的中位数是 83,则 x+y 的值为________.
解析:由甲班学生成绩的众数是 85,知 x=5,由乙班学生成绩的中位数是 83,得 y=3.
所以 x+y=8.
答案:8
8.某公司 300 名员工 2016 年年薪情况的频率分布直方图如图所示,由图可知,员工中
年薪在 1.4~1.6 万元的共有________人.
解析:由频率分布直方图知年薪低于 1.4 万元或者高于 1.6 万元的频率为(0.2+0.8+0.8
+1.0+1.0)×0.2=0.76,因此,年薪在 1.4~1.6 万元间的频率为 1-0.76=0.24,所以 300 名
员工中年薪在 1.4~1.6 万元间的员工人数为 300×0.24=72.
答案:72
9.某学校共有教师 300 人,其中中级教师有 192 人,高级教师与初级教师的人数比为 5∶
4.为了解教师专业发展需求,现采用分层抽样的方法进行调查,在抽取的样本中有中级教师
64 人,则该样本中的高级教师人数为________.
解析:由题意可知,高级教师有(300-192)× 5
5+4
=60 人,抽样比 k=n
N
= 64
192
=1
3.故该
样本中高级教师的人数为 60×1
3
=20.
答案:20
10.某校甲、乙两个班级各有 5 名编号为 1,2,3,4,5 的学生进行投篮练习,每人投 10 次,
投中的次数如表:
学生 1 号 2 号 3 号 4 号 5 号
甲班 6 7 7 8 7
乙班 6 7 6 7 9
若以上两组数据的方差中较小的一个为 s2,则 s2=________.
解析:由数据表可得出乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,
其方差较小,其平均值为 7,方差 s2=1
5(1+0+0+1+0)=2
5.
答案:2
5
三、解答题
11.为检查某工厂所生产的 8 万台电风扇的质量,抽查了其中 20 台的无故障连续使用
时限(单位:小时)如下:
248 256 232 243 188 268 278 266 289 312
274 296 288 302 295 228 287 217 329 283
(1)完成下面的频率分布表,并作出频率分布直方图;
分组 频数 频率 频率/组距
[180,200)
[200,220)
[220,240)
[240,260)
[260,280)
[280,300)
[300,320)
[320,340]
合计 0.05
(2)估计 8 万台电风扇中有多少台无故障连续使用时限不低于 280 小时;
(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时
限.
解:(1)频率分布表及频率分布直方图如下所示:
分组 频数 频率 频率/组距
[180,200) 1 0.05 0.002 5
[200,220) 1 0.05 0.002 5
[220,240) 2 0.10 0.005 0
[240,260) 3 0.15 0.007 5
[260,280) 4 0.20 0.010 0
[280,300) 6 0.30 0.015 0
[300,320) 2 0.10 0.005 0
[320,340] 1 0.05 0.002 5
合计 20 1.00 0.05
(2)由题意可得 8×(0.30+0.10+0.05)=3.6,所以估计 8 万台电风扇中有 3.6 万台无故障
连续使用时限不低于 280 小时.
(3)由频率分布直方图可知
x = 190×0.05 + 210×0.05 + 230×0.10 + 250×0.15 + 270×0.20 + 290×0.30 +
310×0.10+330×0.05=269(小时),所以样本的平均无故障连续使用时限为 269 小时.
12.随着移动互联网的发展,与餐饮美食相关的手机应用软件层出不穷.现从使用 A 和
B 两款订餐软件的商家中分别随机抽取 50 个商家,对它们的“平均送达时间”进行统计,
得到频率分布直方图如下:
(1)试估计使用 A 款订餐软件的 50 个商家的“平均送达时间”的众数及平均数;
(2)根据以上抽样调查数据,将频率视为概率,回答下列问题:
①能否认为使用 B 款订餐软件“平均送达时间”不超过 40 分钟的商家达到 75%?
②如果你要从 A 和 B 两款订餐软件中选择一款订餐,你会选择哪款?说明理由.
解:(1)依题意可得,使用 A 款订餐软件的 50 个商家的“平均送达时间”的众数为 55.
使用 A 款订餐软件的 50 个商家的“平均送达时间”的平均数为 15×0.06+25×0.34+
35×0.12+45×0.04+55×0.4+65×0.04=40.
(2)①使用 B 款订餐软件“平均送达时间”不超过 40 分钟的商家的比例估计值为 0.04+
0.20+0.56=0.80=80%>75%.
故可以认为使用 B 款订餐软件“平均送达时间”不超过 40 分钟的商家达到 75%.
②使用 B 款订餐软件的 50 个商家的“平均送达时间”的平均数为 15×0.04+25×0.2+
35×0.56+45×0.14+55×0.04+65×0.02=35<40,
所以选 B 款订餐软件.
第二节
统计案例
突破点(一) 回归分析
基础联通 抓主干知识的“源”与“流”
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系
不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为
正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,
称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为y^=b^x+a^,其中b^=错误!, a^= y--b^ x-.
(3)通过求错误!的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距
离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当 r>0 时,表明两个变量正相关;当 r<0 时,表明两个变量负相关.
r 的绝对值越接近于 1,表明两个变量的线性相关性越强;r 的绝对值越接近于 0,表明
两个变量之间几乎不存在线性相关关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相
关性.
考点贯通 抓高考命题的“形”与“神”
相关关系的判断
[例 1] (1)下列四个散点图中,变量 x 与 y 之间具有负的线性相关关系的是( )
本节主要包括 2 个知识点:
1.回归分析; 2.独立性检验.
(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是
( )
A.r210.828.
所以至少有 99.9%的把握认为疫苗有效.
[易错提醒]
(1)独立性检验的关键是正确列出 2×2 列联表,并计算出 K2 的值.
(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判
断.
能力练通 抓应用体验的“得”与“失”
1.通过随机询问 110 名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天
桥进行抽样调查,得到如下所示的 2×2 列联表:
男 女 总计
走天桥 40 20 60
走斑马线 20 30 50
总计 60 50 110
由 K2= nad-bc2
a+bc+da+cb+d
,
算得 K2=110×40×30-20×202
60×50×60×50
≈7.8.
附表:
P(K2≥k0) 0.050 0.010 0.001
k0 3.841 6.635 10.828
参照附表,得到的正确结论是( )
A.有 99%以上的把握认为“选择过马路的方式与性别有关”
B.有 99%以上的把握认为“选择过马路的方式与性别无关”
C.在犯错误的概率不超过 0.1%的前提下,认为“选择过马路的方式与性别有关”
D.在犯错误的概率不超过 0.1%的前提下,认为“选择过马路的方式与性别无关”
解析:选 A 由 K2≈7.8.得 P(K2≥6.635)=0.01=1-99%,所以有 99%以上的把握认为
“选择过马路的方式与性别有关”.
2.已知某班 n 名同学的数学测试成绩(单位:分,满分 100 分)的频率分布直方图如图所
示,其中 a,b,c 成等差数列,且成绩在[90,100]内的有 6 人.
(1)求 n 的值;
(2)规定 60 分以下为不及格,若不及格的人中女生有 4 人,而及格的人中,男生比女生
少 4 人,借助独立性检验分析是否有 90%的把握认为“本次测试的及格情况与性别有关”?
附:
P(K2≥k0) 0.10 0.05 0.010 0.005
k0 2.706 3.841 6.635 7.879
K2= nad-bc2
a+bc+da+cb+d
解:(1)依题意得
100.035+0.025+c+2b+a=1,
2b=a+c,
解得 b=0.01.
因为成绩在[90,100]内的有 6 人,所以 n= 6
0.01×10
=60.
(2)由于 2b=a+c,而 b=0.01,可得 a+c=0.02,则不及格的人数为 0.02×10×60=12,
及格的人数为 60-12=48,
设及格的人中,女生有 x 人,则男生有 x-4 人,于是 x+x-4=48,解得 x=26,故及
格的人中,女生有 26 人,男生有 22 人.
于是本次测试的及格情况与性别的 2×2 列联表如下:
及格 不及格 总计
男 22 8 30
女 26 4 30
总计 48 12 60
结合列联表计算可得 K2=60×22×4-8×262
30×30×48×12
=1.667<2.706,故没有 90%的把握认为
“本次测试的及格情况与性别有关”.
[全国卷 5 年真题集中演练——明规律]
1.(2016·全国丙卷)下图是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨)的
折线图.
(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;
(2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量.
参考数据:错误!i=9.32,错误!iyi=40.17, 错误!=0.55, 7≈2.646.
参考公式:相关系数 r=错误!,回归方程y^=a^+b^t 中斜率和截距的最小二乘估计公式分
别为b^=错误!,a^= y -b^ t .
解:(1)由折线图中的数据和附注中的参考数据得
t =4,错误!(ti- t )2=28, 错误!=0.55,
错误!(ti- t )(yi- y )=错误!iyi- t 错误!i=40.17-4×9.32=2.89,
∴r≈ 2.89
0.55×2×2.646
≈0.99.
因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线
性回归模型拟合 y 与 t 的关系.
(2)由 y =9.32
7
≈1.331 及(1)得
b^=错误!=2.89
28
≈0.103.
a^= y -b^ t ≈1.331-0.103×4≈0.92.
所以 y 关于 t 的回归方程为y^=0.92+0.10t.
将 2016 年对应的 t=9 代入回归方程得y^=0.92+0.10×9=1.82.
所以预测 2016 年我国生活垃圾无害化处理量约为 1.82 亿吨.
2.(2015·新课标全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣
传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响.对近 8 年的年宣
传费 xi 和年销售量 yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的
值.
x y w
错误!(xi-
x )2
错误!(wi-
w )2
错误!(xi- x )(yi
- y )
错误!(wi-
w )(yi- y )
46.6 563 6.8 289.8 1.6 1 469 108.8
表中 wi= xi, w =1
8
错误!i.
(1)根据散点图判断,y=a+bx 与 y=c+d x哪一个适宜作为年销售量 y 关于年宣传费 x
的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程.
(3)已知这种产品的年利润 z 与 x,y 的关系为 z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费 x=49 时,年销售量及年利润的预报值是多少?
②年宣传费 x 为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线 v=α+βu 的斜率和截
距的最小二乘估计分别为β
^
=错误!,α
^
= v -β
^ u .
解:(1)由散点图可以判断,y=c+d x适宜作为年销售量 y 关于年宣传费 x 的回归方程
类型.
(2)令 w= x,先建立 y 关于 w 的线性回归方程.
由于d
^
=错误!=108.8
1.6
=68,
c^= y -d
^ w =563-68×6.8=100.6,
所以 y 关于 w 的线性回归方程y^=100.6+68w,
因此 y 关于 x 的回归方程为y^=100.6+68 x.
(3)①由(2)知,当 x=49 时,
年销售量 y 的预报值y
^
=100.6+68 49=576.6,
年利润 z 的预报值z
^
=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润 z 的预报值
z
^
=0.2(100.6+68 x)-x=-x+13.6 x+20.12.
所以当 x=13.6
2
=6.8,即 x=46.24 时,z
^
取得最大值.
故年宣传费为 46.24 千元时,年利润的预报值最大.
3.(2014·新课标全国卷Ⅱ)某地区 2007 年至 2013 年农村居民家庭纯收入 y(单位:千元)
的数据如下表:
年份 2007 2008 2009 2010 2011 2012 2013
年份代号 t 1 2 3 4 5 6 7
人均纯收入 y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)求 y 关于 t 的线性回归方程;
(2)利用(1)中的回归方程,分析 2007 年至 2013 年该地区农村居民家庭人均纯收入的变化
情况,并预测该地区 2015 年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
b^=错误!,a^= y -b^ t
解:(1)由所给数据计算得 t =1
7(1+2+3+4+5+6+7)=4, y =1
7(2.9+3.3+3.6+4.4
+4.8+5.2+5.9)=4.3,错误!(ti- t )2=9+4+1+0+1+4+9=28,
错误!(ti- t )(yi- y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5
+2×0.9+3×1.6=14,b^=错误!=14
28
=0.5,
a^= y -b^ t =4.3-0.5×4=2.3,
所求回归方程为y^=0.5t+2.3.
(2)由(1)知,b^=0.5>0,故 2007 年至 2013 年该地区农村居民家庭人均纯收入逐年增加,
平均每年增加 0.5 千元.
将 2015 年的年份代号 t=9 代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,
故预测该地区 2015 年农村居民家庭人均纯收入为 6.8 千元.
[课时达标检测] 重点保分课时——一练小题夯双基,二练题点过高考
[练基础小题——强化运算能力]
1.设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据一组
样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列
结论中不正确的是( )
A.y 与 x 具有正的线性相关关系
B.回归直线过样本点的中心( x-, y-)
C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg
D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg
解析:选 D 由于线性回归方程中 x 的系数为 0.85,因此 y 与 x 具有正的线性相关关系,
故 A 正确.又线性回归方程必过样本点的中心( x-, y-),故 B 正确.由线性回归方程中系数
的意义知,x 每增加 1 cm,其体重约增加 0.85 kg,故 C 正确.当某女生的身高为 170 cm 时,
其体重估计值是 58.79 kg,而不是具体值,因此 D 不正确.
2.某医疗机构通过抽样调查(样本容量 n=1 000),利用 2×2 列联表和 K2 统计量研究患
肺病是否与吸烟有关.计算得 K2=4.453,经查对临界值表知 P(K2≥3.841)≈0.05,现给出四
个结论,其中正确的是( )
A.在 100 个吸烟的人中约有 95 个人患肺病
B.若某人吸烟,那么他有 95%的可能性患肺病
C.有 95%的把握认为“患肺病与吸烟有关”
D.只有 5%的把握认为“患肺病与吸烟有关”
解析:选 C 由已知数据可得有 1-0.05=95%的把握认为“患肺病与吸烟有关”.
3.某产品的广告费用 x 与销售额 y 的统计数据如下表:
广告费用 x(万元) 4 2 3 5
销售额 y(万元) 49 26 39 58
根据上表可得回归方程y^=b^x+a^中的b^=10.6,据此模型预测广告费用为 10 万元时销售
额为( )
A.112.1 万元 B.113.1 万元
C.111.9 万元 D.113.9 万元
解析:选 C 由题意知 x-=4+2+3+5
4
=3.5, y-=49+26+39+58
4
=43,将( x-, y-)代
入y^=10.6x+a^中得 43=10.6×3.5+a^,解得a^=5.9,所以y^=10.6x+5.9,当 x=10 时,y^=
111.9.
4.对具有线性相关关系的变量 x,y 有一组观测数据(xi,yi)(i=1,2,…,8),其回归直
线方程是y^=1
3x+a,且 x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数 a 的值为
________.
解析:依题意可知样本点的中心为
3
4
,3
8 ,则3
8
=1
3
×3
4
+a,解得 a=1
8.
答案:1
8
[练常考题点——检验高考能力]
一、选择题
1.某产品生产厂家的市场部在对 4 家商场进行调研时,获得该产品售价 x(单位:元)和
销售量 y(单位:件)之间的四组数据如下表:
售价 x 4 4.5 5.5 6
销售量 y 12 11 10 9
为决策产品的市场指导价,用最小二乘法求得销售量 y 与售价 x 之间的线性回归方程为
y^=-1.4x+a^,那么方程中的a^值为( )
A.17 B.17.5
C.18 D.18.5
解析:选 B x-=4+4.5+5.5+6
4
=5, y-=12+11+10+9
4
=10.5,∵回归直线过样本点
的中心( x-, y-),代入线性回归方程y^=-1.4x+a^,得a^=10.5+1.4×5=17.5.故选 B.
2.已知变量 x 和 y 满足关系 y=-0.1x+1,变量 y 与 z 正相关.下列结论中正确的是
( )
A.x 与 y 正相关,x 与 z 负相关
B.x 与 y 正相关,x 与 z 正相关
C.x 与 y 负相关,x 与 z 负相关
D.x 与 y 负相关,x 与 z 正相关
解析:选 C 因为 y=-0.1x+1 的斜率小于 0,故 x 与 y 负相关.因为 y 与 z 正相关,
可设 z=b^y+a^,b^>0,则 z=b^y+a^=-0.1b^x+b^+a^,故 x 与 z 负相关.
3.根据如下样本数据:
x 3 4 5 6 7
y 4.0 a-5.4 -0.5 0.5 b-0.6
得到的回归直线方程为y^=b^x+a^.若样本点的中心为(5,0.9),则当 x 每增加 1 个单位时,
y 就( )
A.增加 1.4 个单位 B.减少 1.4 个单位
C.增加 7.9 个单位 D.减少 7.9 个单位
解析:选 B 依题意得,a^+b^-2
5
=0.9,故a^+b^=6.5①,又样本点的中心为(5,0.9),故
0.9=5b^+a^②,联立①②,解得b^=-1.4,a^=7.9,则y^=-1.4x+7.9,可知当 x 每增加 1 个
单位时,y 就减少 1.4 个单位.
4.某考察团对 10 个城市的职工人均工资 x(千元)与居民人均消费 y(千元)进行调查统计,
得出 y 与 x 具有线性相关关系,且回归方程为y^=0.6x+1.2.若某城市职工人均工资为 5 千元,
估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
解析:选 D 因为 y 与 x 具有线性相关关系,满足回归方程y^=0.6x+1.2,该城市居民
人均工资为 x=5,所以可以估计该城市的职工人均消费水平 y=0.6×5+1.2=4.2,所以可以
估计该城市人均消费额占人均工资收入的百分比为4.2
5
=84%.
5.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问 100 名性别
不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘” 能做到“光盘”
男 45 10
女 30 15
则下面的正确结论是( )
附表及公式
P(K2≥k0) 0.100 0.050 0.010 0.001
k0 2.706 3.841 6.635 10.828
K2= nad-bc2
a+bc+da+cb+d
A.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别无
关”
C.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别有
关”
D.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:选 A 由 2×2 列联表得到 a=45,b=10,c=30,d=15,则 a+b=55,c+d=
45,a+c=75,b+d =25,ad=675,bc= 300,n=100,计算得 K2 的观测值 k=
nad-bc2
a+bc+da+cb+d
=100×675-3002
55×45×75×25
≈3.030.因为 2.706<3.030<3.841,所以有 90%以
上的把握认为“该市居民能否做到‘光盘’与性别有关”.
6.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区 5 户家庭,得
到如下统计数据表:
收入 x(万元) 8.2 8.6 10.0 11.3 11.9
支出 y(万元) 6.2 7.5 8.0 8.5 9.8
根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^= y -b^ x .据此估计,该社区
一户年收入为 15 万元家庭的年支出为( )
A.11.4 万元 B.11.8 万元
C.12.0 万元 D.12.2 万元
解析:选 B 由题中数据可得, x =10.0, y =8.0,又b^=0.76,所以a^= y -b^ x =8
-0.76×10=0.4,所以回归方程为y^=0.76x+0.4,把 x=15 代入上式得,y^=0.76×15+0.4
=11.8(万元).
二、填空题
7.经调查某地若干户家庭的年收入 x(万元)和年饮食支出 y(万元)具有线性相关关系,并
得到 y 关于 x 的回归直线方程:y^=0.245x+0.321,由回归直线方程可知,家庭年收入每增
加 1 万元,年饮食支出平均增加________万元.
解析:x 变为 x+1,y^=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每
增加 1 万元,年饮食支出平均增加 0.245 万元.
答案:0.245
8.某单位为了了解用电量 y 千瓦·时与气温 x ℃之间的关系,随机统计了某 4 天的用电
量与当天气温.
气温/℃ 14 12 8 6
用电量/(千瓦·时) 22 26 34 38
由表中数据得线性方程y^=b^x+a^中b^=-2,据此预测当气温为 5 ℃时,用电量的千瓦·时
数约为________.
解析:因为回归直线经过样本点的中心,故由已知数表可得 x-=10, y-=30,即(10,30)
在回归直线上,代入方程可得a^=50,即回归直线方程为y^=50-2x,故可预测当气温为 5 ℃
时,用电量的度数约为 50-2×5=40.
答案:40
9.某工厂为了调查工人文化程度与月收入之间的关系,随机调查了部分工人,得到如
下表所示的 2×2 列联表(单位:人):
月收入 2 000 元以下 月收入 2 000 元及以上 总计
高中文化以上 10 45 55
高中文化及以下 20 30 50
总计 30 75 105
由 2×2 列联表计算可知,我们有________以上的把握认为“文化程度与月收入有关
系”.
附:K2= nad-bc2
a+bc+da+cb+d
P(K2>k0) 0.15 0.10 0.05 0.025 0.01 0.001
k0 2.072 2.706 3.841 5.024 6.635 10.828
解析:由表中的数据可得 K2=105×10×30-45×202
55×50×30×75
≈6.109,由于 6.109>5.024,所以
我们有 97.5%以上的把握认为“文化程度与月收入有关系”.
答案:97.5%
10.某炼钢厂废品率 x(%)与成本 y(元/吨)的线性回归方程为y^=105.492+42.569x.当成本
控制在 176.5 元/吨时,可以预计生产的 1 000 吨钢中,约有________吨钢是废品(结果保留两
位小数).
解析:因为 176.5=105.492+42.569x,解得 x≈1.668,即当成本控制在 176.5 元/吨时,
废品率约为 1.668%,所以生产的 1 000 吨钢中,约有 1 000×1.668%=16.68 吨是废品.
答案:16.68
三、解答题
11.某学生对其亲属 30 人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示 30
人的饮食指数(说明:图中饮食指数低于 70 的人,饮食以蔬菜为主;饮食指数高于 70 的人,
饮食以肉类为主).
(1)根据以上数据完成下列 2×2 列联表:
主食蔬菜 主食肉类 总计
50 岁以下
50 岁以上
总计
(2)能否有 99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.
解:(1)2×2 列联表如下:
主食蔬菜 主食肉类 总计
50 岁以下 4 8 12
50 岁以上 16 2 18
总计 20 10 30
(2)因为 K2=30×4×2-8×162
12×18×20×10
=10>6.635,
所以有 99%的把握认为其亲属的饮食习惯与年龄有关.12.(2017·合肥模拟)某品牌手机厂
商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)和市场占有率
(y%)的几组相关对应数据:
x 1 2 3 4 5
y 0.02 0.05 0.1 0.15 0.18
(1)根据上表中的数据,用最小二乘法求出 y 关于 x 的线性回归方程;
(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过
多少个月,该款旗舰机型市场占有率能超过 0.5%(精确到月).
附:b^=错误!,a^= y--b^ x-.
解:(1)由题意知 x-=3, y-=0.1,错误!iyi=1.92,错误!2i =55,
所以b^=错误!=1.92-5×3×0.1
55-5×32
=0.042,
a^= y--b^ x-=0.1-0.042×3=-0.026,
所以线性回归方程为y^=0.042x-0.026.
(2)由(1)中的回归方程可知,上市时间与市场占有率正相关,
即上市时间每增加 1 个月,市场占有率约增加 0.042 个百分点.
由y^=0.042x-0.026>0.5,
解得 x≥13,
故预计上市 13 个月时,该款旗舰机型市场占有率能超过 0.5%.