- 698.66 KB
- 2021-06-10 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
2020 年高二数学下学期期末统计知识点
1.简单随机抽样
(1)定义:一般地,设一个总体含有 N 个个体,从中逐个不放回地抽取 n 个个体作为样本
(n≤N),且每次抽取时各个个体被抽到的机会都相等,就称这样的抽样方法为简单随机抽样.
(2)常用方法:抽签法和随机数法.
2.分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽
取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)适用范围:适用于总体由差异比较明显的几个部分组成时.
(3)在分层抽样中: 样本容量 n
总体的个数 N
=该层抽取的个体数
该层的个体数
.
3.简单随机抽样和分层抽样的异同点
相同点:等概率性。两种抽样方法的共同点都是等概率不放回抽样.若样本容量为 n,总
体的个体数为 N,则用这两种方法抽样时,每个个体被抽到的概率都是n
N
.
不同点:
(1)简单随机抽样:总体容量较少,尤其是样本容量较少.
(2)分层抽样:适用于总体由差异明显的几部分组成的情形.
例 1.(2019·山东泰安模拟)某校数学教研组为了解学生学习数学的情况,采用分层抽样
的方法从高一 600 人、高二 780 人、高三 n 人中,抽取 35 人进行问卷调查.已知高二被抽取
的人数为 13,则 n=( )
A.660 B.720
C.780 D.800
【答案】B [由题意知, 13
780
= 35
600+780+n
,解得 n=720.]
练习.(2019·山东德州检测) 2018 年 11 月 11 日的“双十一”又掀购物狂潮,淘宝网站
对购物情况做了一项调查,收回的有效问卷共 500 000 份,其中购买下列四种商品的人数统计
如下:服饰鞋帽 198 000 人;家居用品 94 000 人;化妆品 116 000 人;家用电器 92 000 人.为
了解消费者对商品的满意度,淘宝网站用分层抽样的方法从中选出部分问卷进行调查,已知在
购买“化妆品”这一类中抽取了 116 人,则在购买“家居用品”这一类中应抽取的问卷份数
为( )
A.92 B.94
C.116 D.118
【答案】B [设在购买“家居用品”这一类中应抽取的问卷份数为 x,因为在购买“化妆
品”这一类中抽取了 116 人,所以 116
116 000
= x
94 000
,解得 x=94.]
4.常用统计图表
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=极差
组数
;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图.
①横轴表示样本数据,纵轴表示频率
组距
,每个小矩形的面积表示样本落在该组内的频率.
②频率分布直方图中的常见结论
1)众数的估计值为最高矩形的中点对应的横坐标.
2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐
标之和.
3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
例 2. (2018·全国卷Ⅰ)某家庭记录了未使用节水龙头 50 天的日用水量数据(单位:m3)
和使用了节水龙头 50 天的日用水量数据,得到频数分布表如下:
未使用节水龙头 50 天的日用水量频数分布表
日用 [0,0.1) [0.1, [0.2, [0.3, [0.4, [0.5, [0.6,
水量 0.2) 0.3) 0.4) 0.5) 0.6) 0.7)
频数 1 3 2 4 9 26 5
使用了节水龙头 50 天的日用水量频数分布表
日用
水量
[0,0.1)
[0.1,
0.2)
[0.2,
0.3)
[0.3,
0.4)
[0.4,
0.5)
[0.5,
0.6)
频数 1 5 13 10 16 5
(1)在下图中作出使用了节水龙头 50 天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于 0.35 m3 的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按 365 天计算,同一组中的数
据以这组数据所在区间中点的值作代表)
解 (1)如图所示.
(2)根据以上数据,该家庭使用节水龙头后 50 天日用水量小于 0.35 m3 的频率为 0.2×0.1
+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后,日用水量小于 0.35 m3 的概率的估计值为 0.48.
(3)该家庭未使用节水龙头 50 天日用水量的平均数为 x-
1= 1
50
×(0.05×1+0.15×3+
0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后 50 天日用水量的平均数为 x-
2= 1
50
×(0.05×1+0.15×5+
0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
(3)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线
图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率
折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(4)茎叶图的画法:
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将各个数据的茎按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
例 3.(2019 年武汉月考)为了解某校教师使用多媒体进行教学的情况,采用简单随机
抽样的方法,从该校 400 名授课教师中抽取 20 名,调查了他们上学期使用多媒体进行教学的
次数,结果用茎叶图表示如图所示.据此可估计该校上学期 400 名教师中,使用多媒体进行
教学次数在[16,30)内的人数为( )
0 7 9
1 3 3 5 6 7
2 1 2 4 5 8 8
3 0 1 4 7
4 1 1 2
A.100 B.160
C.200 D.280
【答案】B [观察茎叶图,抽取的 20 名教师中使用多媒体教学次数在[16,30)内的有 8 人,
所以该区间段的频率为 8
20
=0.4,因此全校 400 名教师使用多媒体教学次数在[16,30)内的有
400×0.4=160(人).]
5.样本的数字特征
(1)标准差是样本数据到平均数的一种平均距离.
(2)标准差:s= 1
n
[x1- x-2+x2- x-2+…+xn- x-2].
(3)方差:s2=1
n
[(x1- x-)2+(x2- x-)2+…+(xn- x-)2].
(xn 是样本数据,n 是样本容量, x-是样本平均数).
6.平均数、方差的公式推广
(1)若数据 x1,x2,…,xn 的平均数为 x-,那么 mx1+a,mx2+a,mx3+a,…,mxn+
a 的平均数是 m x-+a.
(2)数据 x1,x2,…,xn 的方差为 s2.
①数据 x1+a,x2+a,…,xn+a 的方差也为 s2;
②数据 ax1,ax2,…,axn 的方差为 a2s2.
例 4.(2019·山东青州模拟)已知一组数据 4.7,4.8,5.1,5.4,5.5,则该组数据的方差是
____________.
【答案】0.1 [这组数据的平均数
x-=4.7+4.8+5.1+5.4+5.5
5
=5.1,则方差 s2=
0.42+0.32+02+0.32+0.42
5
=0.16+0.09+0+0.09+0.16
5
=0.1.]
练习 (1)(2018·江苏卷)已知 5 位裁判给某运动员打出的分数的茎叶图如图所示,那么这
5 位裁判打出的分数的平均数为____________.
【答案】90 [这 5 位裁判打出的分数分别是 89,89,90,91,91,因此这 5 位裁判打出的分
数的平均数为89+89+90+91+91
5
=90.]
(2)(2019·齐鲁名校联考)为比较甲、乙两地某月 14 时的气温状况,随机选取该月中的 5
天,将这 5 天中 14 时的气温数据(单位:℃)制成如图所示的茎叶图,考虑以下结论:
甲 乙
9 8 6 2 8 9
1 1 3 0 1 2
①甲地该月 14 时的平均气温低于乙地该月 14 时的平均气温;
②甲地该月 14 时的平均气温高于乙地该月 14 时的平均气温;
③甲地该月 14 时的气温的标准差小于乙地该月 14 时的气温的标准差;
④甲地该月 14 时的气温的标准差大于乙地该月 14 时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④
C.②③ D.②④
【答案】B [由题中茎叶图,知 x-
甲=26+28+29+31+31
5
=29,
s 甲= 1
5
[-32+-12+02+22+22]=3 10
5
;
x-
乙=28+29+30+31+32
5
=30,
s 乙= 1
5
[-22+-12+02+12+22]
= 2. 所以 x-
甲< x-
乙,s 甲>s 乙.]
7.两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关
关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系
称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相
关关系,这条直线叫做回归直线.
8.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,
yn)的回归方程,其中a^,b^是待定参数.b^= 22
1
1
xnx
yxnyx
n
i
i
n
i
ii
,a^= y -b x
9.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中( x-, y-)称为样
本点的中心.
(3)相关系数
当 r>0 时,表明两个变量正相关;
当 r<0 时,表明两个变量负相关.
r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两
个变量之间几乎不存在线性相关关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相关
性.
例 5.(2019·山东临沂模拟)x 和 y 的散点图如图所示,则下列说法中所有正确命题的序
号为____________.
①x,y 是负相关关系;
②在该相关关系中,若用 y=c1ec2x 拟合时的相关系数的平方为 r2
1,用y^=b^x+a^拟合时
的相关系数的平方为 r2
2,则 r2
1>r2
2;
③x,y 之间不能建立线性回归方程.
【答案】①② [由相关关系定义知①②正确.]
例 6.(2019·山东泰安月考)某车间为了规定工时定额,需要确定加工零件所花费的时间,
为此进行了 5 次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+
54.9.
零件数 x(个) 10 20 30 40 50
加工时间 y(min) 62 75 81 89
现发现表中有一个数据看不清,请你推断出该数据的值为____________.
【答案】68 [由 x-=30,得 y-=0.67×30+54.9=75.设表中的“模糊数字”为 a,则
62+a+75+81+89=75×5,∴a=68.]
练习. (2018·全国卷Ⅱ)下图是某地区 2000 年到 2016 年环境基础设施投资额 y(单位:亿
元)的折线图.
为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回归
模型.根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,…,17)建立模型①:y^=
-30.4+13.5t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2,…,7)建立模型
②:y^=99+17.5t.
(1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,可得该地区 2018 年的环境基础设施投资额的预测值为y^=-30.4+
13.5×19=226.1(亿元).
利用模型②,可得该地区 2018 年的环境基础设施投资额的预测值为y^=99+17.5×9=
256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-
30.4+13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环
境基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010
年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资
额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y^=99+17.5t
可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测
值更可靠.
(ⅱ)从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型①得到的预
测值 226.1 亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型
②得到的预测值更可靠.
(以上给出了 2 种理由,考生答出其中任意一种或其他合理理由均可得分)