- 248.50 KB
- 2021-06-10 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计与统计案例
抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三种抽样方法各自适用于不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.
[题组练透]
1.(2016·兰州模拟)为了解城市居民的环保意识,某调查机构从一社区的120名年轻人、80名中年人、60名老年人中,用分层抽样方法抽取了一个容量为n的样本进行调查,其中老年人抽取了3名,则n=( )
A.13 B.12 C.10 D.9
解析:选A 由分层抽样可得×60=3,解得n=13,选A.
2.高三某班有学生56人,现将所有同学随机编号,用系统抽样的方法,抽取一个容量为4的样本,已知5号、33号、47号学生在样本中,则样本中还有一个学生的编号为( )
A.13 B.17 C.19 D.21
解析:选C 从56名学生中抽取4人,用系统抽样方法,则分段间隔为14,若第一段抽出的号码为5,则其他段抽取的号码分别为:19,33,47.
3.(2016·兰州模拟)采用系统抽样方法从1 000人中抽取50人做问卷调查,将他们随机编号1,2,…,1 000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.若抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为( )
A.12 B.13 C.14 D.15
解析:选A 根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差d==20的等差数列{an},∴通项公式an=8+20(n-1)=20n-12,令751≤20n-12≤1 000,得≤n≤,又∵n∈N*,∴39≤n≤50,∴做问卷C的共有12人,故选A.
[技法融会]
解决抽样问题的策略
(1)随机抽样的方法有三种,其中简单随机抽样适用于总体中的个体数量不多的情况,当总体中的个体数量较多且差别不大时要使用系统抽样,当总体中的个体具有明显的层次
时使用分层抽样.
(2)在系数抽样的过程中,要注意分段间隔,需要抽取n个个体,样本就需要分成n个组,则分段间隔即为(N为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.
1.频率分布直方图中横坐标表示组距,纵坐标表示,频率=组距×.
2.频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者的含义:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
[题组练透]
1.(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60
C.120 D.140
解析:选D 由直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不少于22.5小时的人数为0.7×200=140.故选D.
2.(2016·湖南东部六校联考)如图是某学校一名篮球运动员在10场比赛中所得分数的茎叶图,则该运动员在这10场比赛中得分的中位数为________.
解析:把10场比赛的所得分数按顺序排列:5,8,9,12,14,16,16,19,21,24,中间两个为14与16,故中位数为=15.
答案:15
3.(2016·江苏高考)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.
解析:5个数的平均数x==5.1,所以它们的方差s2=[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.
答案:0.1
4.(2015·湖北高考)某电子商务公司对10 000名 络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
解析:(1)由0.1×1.5+0.1×2.5+0.1a+0.1×2.0+0.1×0.8+0.1×0.2=1,解得a=3.
(2)区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故[0.5,0.9]内的频率为1-0.4=0.6.
因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.
答案:(1)3 (2)6 000
[技法融会]
1.方差的计算与含义
(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.
(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.
2.(易错提醒)混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.
1.回归分析
方程=x+称为线性回归方程,其中=,=y-x;(,)称为样本点的中心.
2.独立性检验
2=,
若 0>3.841,则有95 的把握认为两个事件有关;
若 0>6.635,则有99 的把握认为两个事件有关.
[题组练透]
1.(2016·河南八市联考)为了研究某大型超市开业天数与销售额的情况,随机抽取了5天,其开业天数与每天的销售额的情况如下表所示:
开业天数
10
20
30
40
50
销售额/天(万元)
62
75
81
89
根据上表提供的数据,求得y关于x的线性回归方程为=0.67x+54.9,由于表中有一个数据模糊看不清,请你推断出该数据的值为( )
A.67 B.68 C.68.3 D.71
解析:选B 设表中模糊看不清的数据为m.因为x==30,又样本点的中心(x,y)在回归直线=0.67x+54.9上,所以y==0.67×30+54.9,得m=68,故选B.
2.(2016·重庆模拟)为了判定两个分类变量X和Y是否有关系,应用独立性检验算得 2的观测值为5,又已知P( 2≥3.841)=0.05,P( 2≥6.635)=0.01,则下列说法正确的是( )
A.有95 的把握认为“X和Y有关系”
B.有95 的把握认为“X和Y没有关系”
C.有99 的把握认为“X和Y有关系”
D.有99 的把握认为“X和Y没有关系”
解析:选A 依题意, 2=5,且P( 2≥3.841)=0.05.因此有95 的把握认为“X和Y有关系”,选A.
[技法融会]
1.求回归直线方程的关键
(1)正确理解,的计算公式并能准确地进行运算.
(2)根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.独立性检验的关键
(1)根据2×2列联表准确计算 2,若2×2列联表没有列出来,要先列出此表.
(2) 2的观测值 0越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.
一、选择题
1.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100 C.180 D.300
解析:选C 设该样本中的老年教师人数为x,由题意及分层抽样的特点得=,故x=180.
2.以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )
A.2,5 B.5,5 C.5,8 D.8,8
解析:选C 由于甲组的中位数是15,可得x=5,由于乙组数据的平均数为16.8,得y=8.
3.(2016·山西四校联考)某学校组织学生参加数学测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是( )
A.45 B.50 C.55 D.60
解析:选B ∵[20,40),[40,60)的频率为(0.005+0.01)×20=0.3,∴该班的学生人数是=50.
4.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,
得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析:选B 由题意知,==10,
==8,
∴=8-0.76×10=0.4,
∴当x=15时,=0.76×15+0.4=11.8(万元).
5.(2016·贵州模拟)一组样本数据的频率分布直方图如图所示,试估计此样本数据的中位数为( )
A.13 B.12 C.11.52 D.
解析:选D 由频率分布直方图可得第一组的频率是0.08,第二组的频率是0.32,第三组的频率是0.36,则中位数在第三组内,估计样本数据的中位数为10+×4=,选项D正确.
6.某月月底,某商场想通过抽取发票存根的方法估计该月的销售总额.先将该月的全部销售发票的存根进行了编号:1,2,3,…,然后拟采用系统抽样的方法获取一个样本.若从编号为1,2,3,…,10的前10张发票的存根中随机抽取1张,然后再按系统抽样的方法依编号顺序逐次产生第2张、第3张、第4张、……,则抽样中产生的第2张已编号的发票存根,其编号不可能是( )
A.13 B.17 C.19 D.23
解析:选D 因为第一组的编号为1,2,3,…,10,
所以根据系统抽样的定义可知第二组的编号为11,12,13,…,20,故第2张已编号的发票存根的编号不可能为23.
7.(2016·山西质检)某同学将全班某次数学考试成绩整理成频率分布直方图后,将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示),据此估计此次考试成绩的众数是( )
A.100 B.110 C.115 D.120
解析:选C 分析频率分布折线图可知众数为115.
8.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,三个营区被抽中的人数依次为( )
A.26,16,8 B.25,17,8 C.25,16,9 D.24,17,9
解析:选B 依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第 ( ∈N*)组抽中的号码是3+12( -1).
令3+12( -1)≤300,得 ≤,
因此A营区被抽中的人数是25.
令300<3+12( -1)≤495,得< ≤42,
因此B营区被抽中的人数是42-25=17.结合各选项知,选B.
9.(2016·南昌一模)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,得到4组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4).根据收集到的数据可知x1+x2+x3+x4=160,由最小二乘法求得回归直线方程为=0.75x+62,则y1+y2+y3+y4的值为( )
A.75 B.155.4 C.368 D.466.2
解析:选C 由x1+x2+x3+x4=160,得x=40,代入回归直线方程=0.75x+62,得y=92,则y1+y2+y3+y4=368.
10.在某次测量中得到的A样本数据如下:42,43,46,52,42,50,若B样本数据恰好是A样本数据每个都减5后所得数据,则A,B两样本的下列数字特征对应相同的是( )
A.平均数 B.标准差 C.众数 D.中位数
解析:选B A样本数据的平均数x=,B样本数据的平均数x′=x-5.A样本数据的方差s2=[(42-x)2+(43-x)2+…+(50-x)2],B样本数据的方差s′2=[(42-x)2+(43-x)2+…+(50-x)2],∴A,B两样本的标准差相同.
11.某班主任对全班50名学生进行了作业量的调查,数据如下表:
认为作业量大
认为作业量不大
总计
男生
18
9
27
女生
8
15
23
总计
26
24
50
若推断“学生的性别与认为作业量大有关”,则这种推断犯错误的概率不超过( )
A.0.01 B.0.025 C.0.10 D.0.05
解析:选B 2=≈5.059>5.024,因为P( 2>5.024)=0.025,所以这种推断犯错误的概率不超过0.025.
12.(2016·开封模拟)下列说法错误的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系
B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
解析:选B 根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相关性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好.二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C,D正确,故选B.
二、填空题
13.(2016·海口调研)如图是某班8位学生诗词比赛得分的茎叶图,那么这8位学生得分的众数和中位数分别为________.
解析:依题意,结合茎叶图,将题中的数由小到大依次排列得到:86,86,90,91,93,93,93,96,因此这8位学生得分的众数是93,中位数是=92.
答案:93,92
14.(2016·广州模拟)一个总体中有60个个体,随机编号0,1,2,…,59,依编号顺序平均分成6个小组,组号依次为1,2,3,…,6.现用系统抽样方法抽取一个容量为6的样本,若在第1组随机抽取的号码为3,则在第5组中抽取的号码是________.
解析:∵间隔为=10,∴在第5组中抽取的号码是3+(5-1)×10=43.
答案:43
15.(2016·湖北优质高中联考)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表如下:
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得回归直线方程=x+中=-2,预测当气温为-4 ℃时,用电量为________.
解析:回归直线过(x,y),根据题意得x==10,y==40,将(10,40)代入=-2x+,解得=60,所以=-2x+60,当x=-4时,=(-2)×
(-4)+60=68,所以用电量为68度.
答案:68度
16.为了研究雾霾天气的治理,某课题组对部分城市进行空气质量调查,按地域特点把这些城市分成甲、乙、丙三组,已知三组城市的个数分别为4,y, ,依次构成等差数列,且4,y, +4成等比数列,若用分层抽样抽取6个城市,则乙组中应抽取的城市个数为________.
解析:由题意可得即解得 =12,或 =-4(舍去),故y=8.所以甲、乙、丙三组城市的个数分别为4,8,12.因为一共要抽取6个城市,所以抽样比为=.故乙组城市应抽取的个数为8×=2.
答案:2