- 582.85 KB
- 2021-05-14 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统 计(4课时)
高考《考试大纲》的要求:
(1)随机抽样
① 理解随机抽样的必要性和重要性.
② 会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.
(2)用样本估计总体
① 了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.
② 理解样本数据标准差的意义和作用,会计算数据标准差.
③ 能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.
④ 会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
⑤ 会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
(3)变量的相关性
① 会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.
② 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
[知识整合]
1.三种抽样及联系与区别:
抽样分为 、 、 .
(1) 一般地,从一个总体含有N个个体中 作为样本(n≤N),如果每次抽取时 ,这种抽样方法叫做简单随机抽样.最常用的简单随机抽样方法有两种: 和 .
(2) 一般地,要从容量为N的总体中抽取容量为n(n较大)的样本,可将总体 ,然后按照预先制定的规则,从每一部分 ,得到所需要的样本,这种抽样的方法叫做系统抽样.系统抽样与简单抽样的联系在于: 。
(3) 在抽样时,将总体分成 ,然后按照一定的比例,从各层 ,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样.当总体是由 组成时,往往选用分层抽样的方法。
2.样本频率分布估计总体分布、样本数字特征估计总体数字特征
(1)列出一组数据的频率分布表、频率分布直方图,步骤如下:①计算极差;② ;③ ;④列频率分布表;⑤绘制频率分布直方图.在频率分布直方图中,频率= ,把各个长方形 用线段连接起来,就得到频率分布折线图.如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于 ,它可以用一条光滑曲线来描绘,这条光滑曲线叫做 .
(2) 用茎叶图表示数据有突出的优点,一是统计图上 ;二是茎叶图可以随时记录,方便纪录与表示。
(2) 平均数代表了一组数据的 .在频率分布直方图中,平均数是直方图的 .
①众数是 ;
②中位数是 ;
(4)数据的离散程度可以用极差、方差或标准差来描述。极差是一组数据的 和 的差,他反映了一组数据的 .
(5)一般地,设样本的元素为样本的平均数 .
则样本方差
样本标准差
3.两个变量间的相关关系是指自变量取值一定时,因变量的取值带有一定 的两个变量之间的关系,叫做相关关系.相关关系是两个变量之间的一种 关系;
4.散点图的概念:将各数据在平面直角坐标系中的 画出来,得到表示
的图形,这样的图形叫做散点图
5.正相关与负相关的概念:如果散点图中的点散布在 的区域内,称为正相关;如果散点图中的点散布在 的区域内,称为负相关.
注:散点图的点如果几乎没有什么规则,则这两个变量之间不具有相关关系
6.回归直线:如果散点图中的点 ,我们就称这两个变量具有线性相关关系,这条直线叫回归直线。对具有 的两个变量进行统计分析的方法叫回归分析。
5.最小二乘法就是找到使散点到直线
归纳:利用最小二乘法求回归方程的步骤:
[典例分析]
例1.(2012年高考(山东理))采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间的人做问卷,编号落入区间的人做问卷,其余的人做问卷.则抽到的人中,做问卷的人数为 ( )
A.7 B.9 C.10 D.15
变式训练1:(2012年高考(四川文))交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数为 ( )
A.101 B.808 C.1212 D.2012
变式训练2:(2012年高考(浙江文))某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为_________.
变式训练3:要从已编号(1~60)的枚最新研制的某型导弹中随机抽取枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的枚导弹的编号可能是( )
A B
C D
变式训练4:某学校有1 6 0名教职工,其中教师1 20名,行政人员1 6名,后勤服务人员24名,今从中抽取一个容量为20的样本,采用( )较为合适.
A.简单随机抽样 B.系统抽样 C.分层抽样 D.其他抽样
变式训练5:若总体中含有1650个个体,现在要采用系统抽样,从中抽取一个容量为35的样本,分段时应从总体中随机剔除_________个个体,编号后应均分为_________ 段,每段有_________个个体.
例2.(2012年高考(福建文))一支田径队有男女运动员98人,其中男运动员有56人.按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员人数是_______.
变式训练1:(2012年高考(天津理))某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调査,应从小学中抽取_______所学校,中学中抽取_____所学校.
变式训练2:(2012年高考(江苏))某学校高一、高二、高三年级的学生人数之比为,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取____名学生.
变式训练3:(2012年高考(湖北文))一支田径运动队有男运动员56人,女运动员42人.现用分层抽样的方法抽取若干人,若抽取的男运动员有8人,则抽取的女运动员有______人
例3.(2012年高考(陕西理))从甲乙两个城市分别随机抽取16台自动售货机,
对其销售额进行统计,统计数据用茎叶图表示(如图所示),设甲乙两组数据的平均数分别为,,中位数分别为,,则
( )
A. ,
B.,
C.,
D.,
变式训练1:(2012年高考(陕西文))对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则改样本的中位数、众数、极差分别是
( )
A.46,45,56 B.46,45,53
C.47,45,56 D.45,47,53
变式训练2:(2012年高考(湖南文))图2是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为_________.
(注:方差,其中为x1,x2,,xn的平均数)
例4:(2012年高考(广东文))由正整数组成的一组数据、、、,其平均数和中位数都是2,且标准差等于1,则这组数据为_________.(从小到大排列)
变式训练1:(2012年高考(山东文)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据都加2后所得数据,则A,B两样本的下列数字特征对应相同的是 ( )
A.众数 B.平均数 C.中位数 D.标准差
例5.(2012年高考(广东文))(统计)某校100位学生期中考试语文成绩的频率分布直方图如图4所示,其中成绩分组区间是:、、、、.
(Ⅰ)求图中的值;
(Ⅱ)根据频率分布直方图,估计这100名学生语文成绩的平均分;
(Ⅲ)若这100名学生的语文成绩某些分数段的人数()与数学成绩相应分数段的人数()之比如下表所示,求数学成绩在之外的人数.
分数段
变式训练1:为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?
90
100
110
120
130
140
150
次数
o
0.004
0.008
0.012
0.016
0.020
0.024
0.028
频率/组距
0.032
0.036
变式训练2:(2012年高考(湖北文))容量为20的样本数据,分组后的频数如下表
分组
频数
2
3
4
5
4
2
则样本数据落在区间的频率为____.
变式训练3:(2012年高考(山东文))右图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5],样本数据的分组为,,,,,.已知样本中平均气温低于22.5℃的城市个数为11,则样本中平均气温不低于25.5℃的城市个数为____.
变式训练4:在抽查产品尺寸的过程中,将其尺寸分成若干组,[a,b]是其中的一组,抽查出的个体在该组上的频率为,该组上的直方图的高为,则( )
A. B. C. D.
例6.(2012年高考(安徽理))甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则 ( )
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
例7.甲、乙两种玉米苗中各抽10株,分别测得它们的株高如下(单位:cm):
甲:25 41 40 37 22 14 19 39 21 42
乙:27 16 44 27 44 16 40 40 16 40
问:(1)哪种玉米的苗长得高?(2)哪种玉米的苗长得齐?
变式训练1:某工厂甲、乙两个车间包装同一种产品,在自动包装传送带上每隔1小时抽一包产品,称其重量(单位:克)是否合格,分别记录抽查数据,获得重量数据的茎叶图如图.
(1) 根据样品数据,计算甲、乙两个车间产品重量的均值与方差,并说明哪个车间的产品的重量相对较稳定;
(2) 若从乙车间6件样品中随机抽取两件,求所抽取的两件样品的重量之差不超过2克的概率.
变式训练2:某工厂有工人1000名, 其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人),现用分层抽样方法(按A类、B类分二层)从该工厂的工人中共抽查100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数)。
(I)求甲、乙两工人都被抽到的概率,其中甲为A类工人,乙为B类工人;
(II)从A类工人中的抽查结果和从B类工人中的抽插结果分别如下表1和表2.
表1:
生产能力分组
人数
4
8
5
3
表2:
生产能力分组
人数
6
y
36
18
(i)先确定x,y,再在答题纸上完成下列频率分布直方图。就生产能力而言,A类工人中个体间的差异程度与B类工人中个体间的差异程度哪个更小?(不用计算,可通过观察直方图直接回答结论)
(ii)分别估计A类工人和B类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数,同一组中的数据用该组区间的中点值作代表)
例8.(2007广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据
x
3
4
5
6
y
2.5
3
4
4.5
(1) 请画出上表数据的散点图;
(2) 请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;
(3) 已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?
变式训练1:已知回归直线的斜率的估计值为1.23,样本点的中心是
,则回归直线的方程为
变式训练2:考察下列问题中两个变量之间的关系,是否是相关关系,
(1)商品销售收入与广告支出经费;
(2)粮食产量与施肥量;
(3)人体内的脂肪含量与年龄.
(4)人的身高和体重
变式训练3(2012年湖南高考).设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是 ( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重比为58.79kg
变式训练4:关于某设备的使用年限x和所支出的维修费用(万元),有如下的统计数据,由资料知对呈线性相关,并且统计的五组数据的平均值分别为,,若用五组数据得到的线性回归方程去估计,使用8年的维修费用比使用7年的维修费用多1.1万元.
(1)求回归直线方程;
(2)估计使用年限为10年时,维修费用是多少?
[课后作业]
A组
一、选择题
1.某学校为了了解高一年级学生对教师教学的意见,打算从高一年级2007名学生中抽取50名进行抽查,若采用下面的方法选取:先用简单随机抽样从2007人中剔除7人,剩下2000人再按系统抽样的方法进行,则每人入选的机会( )
A. 不全相等 B. 均不相等 C. 都相等 D. 无法确定
2.有20位同学,编号从1至20,现在从中抽取4人作问卷调查,用系统抽样方法确定所抽的编号为( )
A.5,10,15,20 B.2,6,10,14 C.2,4,6,8 D.5,8,11,14
3.某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点,公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为(1);在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为(2)。则完成(1)、(2)这两项调查宜采用的抽样方法依次是( )
A.分层抽样法,系统抽样法 B.分层抽样法,简单随机抽样
C.系统抽样法,分层抽样法 D.简单随机抽样法,分层抽样法
4.频率分布直方图中,小长方形的面积等于( )
A.相应各组的频数 B.相应各组的频率 C.组数 D.组距
5.从一群学生中抽取一个一定容量的样本对他们的学习成绩进行分析,已知不超过70分的人数为8人,其累计频率为0.4,则这样的样本容量是 ( )
A. 20人 B. 40人 C. 70人 D. 80人
6.在下列各图中,每个图的两个变量具有相关关系的图是( )
(1) (2) (3) (4)
A.(1)(2) B.(1)(3) C.(2)(4) D.(2)(3)
7. 下表是某小卖部一周卖出热茶的杯数与当天气温的对比表:
气温/℃
18
13
10
4
-1
杯数
24
34
39
51
63
若热茶杯数y与气温x近似地满足线性关系,则其关系式最接近的是( )
A. B. C. D.
8.根据某水文观测点的历史统计数据,得到某条河流水位的频率分布直方图如下.从图中可以看出,该水文观测点平均至少一百年才遇到一次的洪水的最低水位是( )
A.48米 B.49米 C.50米 D.51米
0.5%
1%
2%
水位(米)
30 31 32 33
48 49 50 51
9.由小到大排列的一组数据:,其中每个数据都小于,则样本,的中位数可以表示为( )
A. B. C. D.
二、填空题
11.管理人员从一池塘内捞出30条鱼,做上标记后放回池塘。10天后,又从池塘内捞出50条
鱼,其中有标记的有2条。根据以上数据可以估计该池塘内共有 条鱼。
12.某校高中部有三个年级,其中高三有学生1000人,现采用分层抽样法抽取一个容量为185的样本,已知在高一年级抽取了75人,高二年级抽取了60人,则高中部共有__ __学生。
时速(km)
0 01
0 02
0 03
0 04
频率
组距
40
50
60
70
80
13 已知辆汽车通过某一段公路时的时速
的频率分布直方图如右图所示,则时速在
的汽车大约有_________辆.
14.已知与之间的一组数据为
0
1
2
3
1
3
5-a
7+a
则与的回归直线方程必过定点______
15. 已知样本的平均数是,标准差是,则
三、解答题:(本大题分3小题共40分)
16.(本题13分)在生产过程中,测得纤维产品的纤度(表示纤维粗细的一种量)
共有100个数据,将数据分组如右表:
分组
频数
合计
(1)画出频率分布表,并画出频率分布直方图;
(2)估计纤度落在中的概率及纤度小于的概率是多少?
(3)从频率分布直方图估计出纤度的众数、中位数和平均数.
17.(本题13分)在2007全运会上两名射击运动员甲、乙在比赛中打出如下成绩:
甲:9.4,8.7,7.5,8.4,10.1,10.5,10.7,7.2,7.8,10.8;
乙:9.1,8.7,7.1,9.8,9.7,8.5,10.1,9.2,10.1,9.1;
(1)用茎叶图表示甲,乙两个成绩;并根据茎叶图分析甲、乙两人成绩;
(2)分别计算两个样本的平均数和标准差s,并根据计算结果估计哪位运动员的成绩比较稳定。
B组
一、选择题
1 名工人某天生产同一零件,生产的件数是设其平均数为,中位数为,众数为,则有( )
A B C D
2.某学校有1 6 0名教职工,其中教师1 20名,行政人员1 6名,后勤服务人员24名,今从中抽取一个容量为20的样本,采用( )较为合适.
A.简单随机抽样 B.系统抽样 C.分层抽样 D.其他抽样
3 某同学使用计算器求个数据的平均数时,错将其中一个数据输入为,那么由此求出的平均数与实际平均数的差是( )
A B C D
4 要从已编号()的枚最新研制的某型导弹中随机抽取
枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的枚导弹的编号可能是( )
A B
C D
5、样本容量为200的频率分布直方图如图所示.根据样本的频率分布直方图估计,样本数据落在内的频数为( ),
A.16 B.32
C.64 D.160
6.在下列各图中,每个图的两个变量具有相关关系的图是( )
5题
(1) (2) (3) (4)
A.(1)(2) B.(1)(3) C.(2)(4) D.(2)(3)
7 容量为的样本数据,按从小到大的顺序分为组,如下表:
组号
1
2
3
4
5
6
7
8
频数
10
13
x
14
15
13
12
9
第三组的频数和频率分别是 ( )
A 和 B 和 C 和 D 和
12题
8. 已知数据的平均数为,方差为,则数据的平均数和方差为( )
A. B. C. D.
9.某初级中学共有学生2000名,各年级男、女生人数如下表:
初一年级
初二年级
初三年级
女生
373
380
男生
377
370
现用分层抽样的方法在全校抽取48名学生,应在初三年级抽取( )名?
A.10 B.12 C.14 D.与和的值有关
10、在抽查产品尺寸的过程中,将其尺寸分成若干组,[a,b]是其中的一组,抽查出的个体在该组上的频率为,该组上的直方图的高为,则( )
A. B. C. D.
二、填空题
11 为了了解参加运动会的名运动员的年龄情况,从中抽取名运动员;就这个问题,下列说法中正确的有 ;
①名运动员是总体;②每个运动员是个体;③所抽取的名运动员是一个样本;④样本容量为;⑤这个抽样方法可采用按年龄进行分层抽样;⑥每个运动员被抽到的概率相等
12.抽取辆汽车通过某一段公路时的时速的频率分布直方图
如右图所示,估计此200辆汽车的平均时速为 .
13.某单位200名职工的年龄分布情况如下图所示,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1-200编号,并按编号顺序分为40组(1 ~ 5号,6 ~ 10号,…,196~200号).若第1组抽出的号码为2则第8
组抽出的号码应是 .若用分层抽样方法,则40岁以下年龄段应抽取 人
2400 2700 3000 3300 3600 3900 体重
0
0 001
频率/组距
14.观察新生婴儿的体重,其频率分布直方图如下图所示,则新生婴儿体重在的频率为 。
50岁以上
40~50岁
40岁以下
30%
20%
50%
13题
14题
15.随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的
15题
乙班
甲班
2
18
1
9
9
1
0
0
16
3
6
8
9
17
8
8
3
2
5
8
8
9
15
2
茎叶图为如图.
(1)根据茎叶图判断哪个班的平均身高较高;
(2)计算甲班的样本方差;
16. (本小题满分12分)某高校在2009年的自主招生考试成绩中随机抽取100名学生的笔试成绩,按成绩分组,得到的频率分布表如下左图所示.
(Ⅰ)请先求出频率分布表中①、②
位置相应的数据,再在答题纸上完成下列频率分布直方图;
(Ⅱ)为了能选拔出最优秀的学生,高校决定在笔试成绩高的第3、4、5组中用分层抽样抽取6名学生进入第二轮面试,求第3、4、5组每组各抽取多少名学生进入第二轮面试?
组号
分组
频数
频率
第1组
5
0.050
第2组
①
0.350
第3组
30
②
第4组
20
0.200
第5组
10
0.100
合计
100
1.00
17.(本小题满分14分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据
2
5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(参考数值:)
A组参考答案
一、选择题: CABBA, DCCCB
二、填空题:11、750 12、3700 13、80 14、 15、96
三、解答题:
16.(Ⅰ)
分组
频数
频率
样本数据
频率/组距
1.30
1.34
1.38
1.42
1.46
1.50
1.54
4
0.04
25
0.25
30
0.30
29
0.29
10
0.10
2
0.02
合计
100
1.00
(2)纤度落在中的概率约为,
纤度小于1.40的概率约为.
(Ⅲ)总体数据的众数:1.40 中位数:1.408
平均数:
.
17.(1)如图所示,茎表示成绩的整数环数,叶表示小数点后的数字。
甲 乙
8 2 5 7 1
4 7 8 7 5
4 9 1 8 7 2 1
8 7 5 1 10 1 1
由上图知,甲中位数是9.05,乙中位数是9.15,乙的成绩大致对称,
可以看出乙发挥稳定性好,甲波动性大。
(2)解:(3)甲=×(9.4+8.7+7.5+8.4+10.1+10.5+10.7+7.2+7.8+10.8)=9.11
S甲==1.3
乙=×(9.1+8.7+7.1+9.8+9.7+8.5+10.1+9.2+10.1+9.1)=9.14
S乙==0.9
由S甲>S乙,这说明了甲运动员的波动大于乙运动员的波动,所以我们估计,乙运动员比较稳定。
B组参考答案
选项
D
C
B
B
C
D
A
D
B
A
题号
1
2
3
4
5
6
7
8
9
10
选项
D
C
B
B
C
D
A
D
B
A
11. ④ ⑤ ⑥ , 12. 62 , 13. 37,20 , 14. 0.3
15. 【解】(1)由茎叶图可知:甲班身高集中于之间,而乙班身高集中于 之间.因此乙班平均身高高于甲班;
(2)
甲班的样本方差为
16解:(Ⅰ)由题可知,第2组的频数为人,
第3组的频率为,
频率分布直方图如下:
(Ⅱ)因为第3、4、5组共有60名学生,所以利用分层抽样在60名学生中抽取6名学生,每组分别为:
第3组:人,
第4组:人,
第5组:人,
所以第3、4、5组分别抽取3人、2人、1人。
17.