- 195.50 KB
- 2021-05-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计与统计案例
1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题.
1. 随机抽样
(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少.
(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.
(3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成.
2. 常用的统计图表
(1)频率分布直方图
①小长方形的面积=组距×=频率;
②各小长方形的面积之和等于1;
③小长方形的高=,所有小长方形的高的和为.
(2)茎叶图
在样本数据较少时,用茎叶图表示数据的效果较好.
3. 用样本的数字特征估计总体的数字特征
(1)众数、中位数、平均数
数字特征
样本数据
频率分布直方图
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
平均数
样本数据的算术平均数
每个小矩形的面积乘以小矩形底边中点的横坐标之和
(2)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2].
标准差:
s=.
4. 变量的相关性与最小二乘法
(1)相关关系的概念、正相关和负相关、相关系数.
(2)最小二乘法:对于给定的一组样本数据(x1,y1),(x2,y2),…,(xn,yn),通过求Q=(yi-a-bxi)2最小时,得到线性回归方程=x+的方法叫做最小二乘法.
5. 独立性检验
对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
n
则K2=(其中n=a+b+c+d为样本容量).
考点一 抽样方法
例1 (2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为 ( )
A.7 B.9 C.10 D.15
答案 C
解析 由系统抽样的特点知:抽取号码的间隔为=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729=459+(n-1)×30,解得n=10.所以做问卷B的有10人.
在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为(N为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值.
(1)(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 ( )
7816
6572
0802
6314
0702
4369
9728
0198
3204
9234
4935
8200
3623
4869
6938
7481
A.08 B.07 C.02 D.01
(2)某单位200名职工的年龄分布情况如图所示,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.
答案 (1)D (2)37 20
解析 (1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.
(2)由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,即第n组抽取的号码为5n-3,所以第8组抽出的号码为37;40岁以下年龄段的职工数为200×0.5=100,则应抽取的人数为×100=20人.
考点二 用样本估计总体
例2 (1)(2013·四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是 ( )
(2)(2013·江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:
运动员
第1次
第2次
第3次
第4次
第5次
甲
87
91
90
89
93
乙
89
90
91
88
92
则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.
答案 (1)A (2)2
解析 (1)由于频率分布直方图的组距为5,去掉C、D,又[0,5),[5,10)两组各一人,去掉B,应选A.
(2)甲=(87+91+90+89+93)=90,
乙=(89+90+91+88+92)=90,
s=[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,
s=[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.
(1)反映样本数据分布的主要方式有:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.
(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.
在“2012魅力新安江”青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图,据此回答以下问题:
(1)求参赛总人数和频率分布直方图中[80,90)之间的矩形的高,并完成直方图;
(2)若要从分数在[80,100]之间任取两份进行分析,在抽取的结果中,求至少有一份分数在[90,100]之间的概率.
解 (1)由茎叶图知,分数在[50,60)之间的频数为2.
由频率分布直方图知,分数在[50,60)之间的频率为
0.008×10=0.08.
所以参赛总人数为=25(人).
分数在[80,90)之间的人数为25-2-7-10-2=4(人),
分数在[80,90)之间的频率为=0.16,
得频率分布直方图中[80,90)间矩形的高为=0.016.
完成直方图,如图.
(2)将[80,90)之间的4个分数编号为1,2,3,4;[90,100]之间的2个分数编号为5和6.
则在[80,100]之间任取两份的基本事件为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6),共15个,
其中至少有一个在[90,100]之间的基本事件为(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6),共9个.
故至少有一份分数在[90,100]之间的概率是=.
考点三 统计案例
例3 (2013·重庆)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程y=bx+a中,b=,a=-b ,其中,为样本平均值,线性回归方程也可写为=x+.
解 (1)由题意知n=10,=i==8,
=i==2,
又lxx=-n 2=720-10×82=80,
lxy=iyi-n =184-10×8×2=24,
由此得b===0.3,
a=-b =2-0.3×8=-0.4,
故所求线性回归方程为y=0.3x-0.4.
(2)由于变量y的值随x值的增加而增加(b=0.3>0),
故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).
(1)对具有线性相关关系的两个变量可以用最小二乘法求线性回归方程,求是关键,其中==.
(2)在利用统计变量K2(χ2
)进行独立性检验时,应该注意数值的准确代入和正确计算,最后把计算的结果与有关临界值相比较.
(1)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2(χ2)=算得,
K2(χ2)=≈7.8.
附表:
P(K2(χ2)≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
参照附表,得到的正确结论是 ( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
(2)已知x、y取值如下表:
x
0
1
4
5
6
8
y
1.3
1.8
5.6
6.1
7.4
9.3
从所得的散点图分析可知:y与x线性相关,且=0.95x+,则等于 ( )
A.1.30 B.1.45 C.1.65 D.1.80
答案 (1)C (2)B
解析 (1)根据独立性检验的定义,由K2(χ2)≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
(2)依题意得,=×(0+1+4+5+6+8)=4,
=(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;
又直线=0.95x+必过样本点中心(,),即点(4,5.25),于是有5.25=0.95×4+,由此解得=1.45.
1. 用样本估计总体
(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.
(2)众数、中位数及平均数的异同
众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.
(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.
①总体期望的估计,计算样本平均值=xi.
②总体方差(标准差)的估计:
方差= (xi-)2,标准差=,
方差(标准差)较小者较稳定.
2. 线性回归方程 = x+ 过样本点中心(,),这为求线性回归方程带来很多方便.
3. 独立性检验
(1)作出2×2列联表.
(2)计算随机变量K2(χ2)的值.
(3)查临界值,检验作答.
1. 经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的学生比持“不喜欢”的学生多12人,按分层抽样的方法(抽样过程中不需要剔除个体)从全班选出部分学生进行关于摄影的座谈.若抽样得出的9位同学中有5位持“喜欢”态度的同学,1位持“不喜欢”态度的同学和3位持“一般”态度的同学,则全班持“喜欢”态度的同学人数为 ( )
A.6 B.18 C.30 D.54
答案 C
解析 由题意设全班学生为x人,持“喜欢”、“不喜欢”和“一般”态度的学生分别占全班人数的、、,所以x(-)=12,解得x=54,所以全班持“喜欢”态度的人数为54×=30.故选C.
2.
某校从参加高三年级期中考试的学生中随机抽取60名学生,将其数学成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图的频率分布直方图,请你根据频率分布直方图中的信息,估计出本次考试数学成绩的平均分为________.
答案 71
解析 由频率分布直方图得每一组的频率依次为0.1,0.15,0.15,0.3,0.25,0.05,又由频率分布直方图,得每一组数据的中点值依次为45,55,65,75,85,95.
所以本次考试数学成绩的平均分为=45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71.
故填71.
3. 随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单
位:cm),获得身高数据的茎叶图如图.
(1)根据茎叶图判断哪个班的平均身高较高;
(2)计算甲班的样本方差;
(3)现从乙班这10名同学中随机抽取两名身高不低于173 cm
的同学,求身高为176 cm的同学被抽中的概率.
解 (1)由茎叶图可知:甲班身高集中于160 cm~179 cm之间,而乙班身高集中于170 cm~180 cm之间,因此乙班平均身高高于甲班,其中
甲=
=170,
乙=
=171.1.
(2)甲班的样本方差为[(158-170)2+(162-170)2+(163-170)2+(168-170)2+(168-170)2+(170-170)2+(171-170)2+(179-170)2+(179-170)2+(182-170)2]=57.2.
(3)设身高为176 cm的同学被抽中的事件为A.
从乙班10名同学中抽取两名身高不低于173 cm的同学有:(181,173)、(181,176)、(181,178)、(181,179)、(179,173)、(179,176)、(179,178)、(178,173)、(178,176)、(176,173),共10个基本事件,而事件A含有4个基本事件,
∴P(A)==.
(推荐时间:60分钟)
一、选择题
1. 要完成下列两项调查:①从某肉联厂的火腿肠生产线上抽取1 000根火腿肠进行“瘦肉精”检测;②从某中学的15名艺术特长生中选出3人调查学习负担情况.适合采用的抽样方法依次为 ( )
A.①用分层抽样,②用简单随机抽样
B.①用系统抽样,②用简单随机抽样
C.①②都用系统抽样
D.①②都用简单随机抽样
答案 B
解析 ①中总体容量较大,且火腿肠之间没有明显差异,故适合采用系统抽样;②中总体容量偏小,故适合采用简单随机抽样.
2. (2012·四川)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为 ( )
A.101 B.808 C.1 212 D.2 012
答案 B
解析 由题意知抽样比为,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,
故有=,解得N=808.
3. (2013·福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为 ( )
A.588 B.480 C.450 D.120
答案 B
解析 少于60分的学生人数600×(0.05+0.15)=120(人),
∴不少于60分的学生人数为480人.
4.
甲、乙两位运动员在5场比赛的得分情况如茎叶图所示,记甲、乙两人的平均得分分别为甲,乙,则下列判断正确的是 ( )
A.甲>乙;甲比乙成绩稳定
B.甲>乙;乙比甲成绩稳定
C.甲<乙;甲比乙成绩稳定
D.甲<乙;乙比甲成绩稳定
答案 D
解析 由茎叶图可知
甲==25,
乙==26,
∴甲<乙.
又s=[(17-25)2+(16-25)2+(28-25)2+(30-25)2+(34-25)2]=52,
s=[(15-26)2+(28-26)2+(26-26)2+(28-26)2+(33-26)2]=35.6,
∴乙比甲成绩稳定.
5. 一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{an},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是 ( )
A.13,12 B.13,13 C.12,13 D.13,14
答案 B
解析 设等差数列{an}的公差为d(d≠0),a3=8,a1a7=a=64,(8-2d)(8+4d)=64,(4-d)(2+d)=8,2d-d2=0,又d≠0,故d=2,故样本数据为4,6,8,10,12,14,16,18,20,22,样本的平均数为=13,中位数为=13,故选B.
6. 2011年6月,台湾爆出了食品添加有毒塑化剂的案件,令世人震惊.我国某研究所为此开发了一种用来检测塑化剂的新试剂,把500组添加了该试剂的食品与另外500组未添加该试剂的食品作比较,提出假设H0:“这种试剂不能起到检测出塑化剂的作用”,并计算出P(K2≥6.635)≈0.01.对此,四名同学做出了以下的判断:
p:有99%的把握认为“这种试剂能起到检测出塑化的作用”;
q:随意抽出一组食品,它有99%的可能性添加了塑化剂;
r:这种试剂能检测出塑化剂的有效率为99%;
s:这种试剂能检测出塑化剂的有效率为1%.
则下列命题中为真命题的是 ( )
A.p∧q B.綈p∧q
C.(綈p∧綈q)∧(r∨s) D.(p∨綈r)∧(綈q∨s)
答案 D
解析 提出假设H0“这种试剂不能起到检测出塑化剂的作用”,并计算出P(K2≥6.635)≈0.01,因此,在一定程度上说明假设不合理,我们就有99%的把握拒绝假设.由题设可知命题p,r为真命题,q,s为假命题,依据复合命题的真值表可知D为真命题.
二、填空题
7. (2013·湖北)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.
(1)直方图中x的值为 __________;
(2)在这些用户中,用电量落在区间[100,250)内的户数为________.
答案 (1)0.004 4 (2)70
解析 (1)(0.002 4+0.003 6+0.006 0+x+0.002 4+0.001 2)×50=1,
∴x=0.004 4.
(2)(0.003 6+0.004 4+0.006 0)×50×100=70.
8. 下表提供了某厂节能减排技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:
x
3
4
5
6
y
2.5
t
4
4.5
根据上表提供的数据,求出y关于x的线性回归方程为=0.7x+0.35,那么表中t的值为________.
答案 3
解析 ∵样本点中心为,
∴=0.7×4.5+0.35,解得t=3.
9. 某校高三考生参加某高校自主招生面试时,五位评委给分如下:
9.0 9.1 8.9 9.2 8.8
则五位评委给分的方差为________.
答案 0.02
解析 评委给分的平均数为
×(9.0+9.1+8.9+9.2+8.8)=9.0,
方差为×[(9.0-9.0)2+(9.1-9.0)2+(8.9-9.0)2+(9.2-9.0)2+(8.8-9.0)2]==0.02.
10.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A
给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分
后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中
的x)无法看清,若
记分员计算无误,则数字x应该是__________.
答案 1
解析 当x≥4时,=≠91,
∴x<4,∴=91,
∴x=1.
三、解答题
11.(2013·陕西)有7位歌手(1至7号)参加一场歌唱比赛,由500名大众评委现场投票决定歌手名次,根据年龄将大众评委分为五组,各组的人数如下:
组别
A
B
C
D
E
人数
50
100
150
150
50
(1)为了调查评委对7位歌手的支持情况,现用分层抽样方法从各组中抽取若干评委,其中从B组中抽取了6人.请将其余各组抽取的人数填入下表.
组别
A
B
C
D
E
人数
50
100
150
150
50
抽取人数
6
(2)在(1)中,若A,B两组被抽到的评委中各有2人支持1号歌手,现从这两组被抽到的评委中分别任选1人,求这2人都支持1号歌手的概率.
解 (1)由题设知,分层抽样的抽取比例为6%,所以各组抽取的人数如下表:
组别
A
B
C
D
E
人数
50
100
150
150
50
抽取人数
3
6
9
9
3
(2)记从A组抽到的3位评委为a1,a2,a3,其中a1,a2支持1号歌手;从B组抽到的6位评委为b1,b2,b3,b4,b5,b6,其中b1,b2支持1号歌手.从{a1,a2,a3}和{b1,b2,b3,b4,b5,b6}中各抽取1人的所有结果为:
由以上树状图知所有结果共18种,其中2人都支持1号歌手的有a1b1,a1b2,a2b1,a2b2共4种,故所求概率P==.
12.(2012·辽宁)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计
男
女
合计
(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
附:
P(K2≥k)
0.05
0.01
k
3.841
6.635
解 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成2×2列联表如下:
非体育迷
体育迷
合计
男
30
15
45
女
45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,得
K2=
=≈3.030.
因为3.030<3.841,所以我们没有理由认为“体育迷”与性别有关.
(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,
b2),(a3,b1),(a3,b2),(b1,b2)},其中ai表示男性,i=1,2,3,bj表示女性,j=1,2.
Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.
用A表示“任选2人中,至少有1人是女性”这一事件,则
A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=.