- 1.35 MB
- 2021-05-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第十一编 统计、统计案例
§11.1 抽样方法
基础自测
1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 .
答案 200个零件的长度
2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 .
答案 ①②③
3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 .
答案 3,9,18
4.(2008·广东理)某校共有学生2 000名,各年级男、女生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为 .
一年级
二年级
三年级
女生
373
x
y
男生
377
370
z
答案 16
5.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= .
答案 80
例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请
用抽签法和随机数表法设计抽样方案.
解 抽签法:
第一步:将18名志愿者编号,编号为1,2,3,…,18.
第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;
第三步:将18个号签放入一个不透明的盒子里,充分搅匀;
第四步:从盒子中逐个抽取6个号签,并记录上面的编号;
第五步:所得号码对应的志愿者,就是志愿小组的成员.
随机数表法:
第一步:将18名志愿者编号,编号为01,02,03,…,18.
第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;
第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.
第四步:找出以上号码对应的志愿者,就是志愿小组的成员.
例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施.
解 (1)将每个人随机编一个号由0001至1003.
(2)利用随机数法找到3个号将这3名工人剔除.
(3)将剩余的1 000名工人重新随机编号由0001至1000.
(4)分段,取间隔k==100将总体均分为10段,每段含100个工人.
(5)从第一段即为0001号到0100号中随机抽取一个号l.
(6)按编号将l,100+l,200+l,…,900+l共10个号码选出,这10个号码所对应的工人组成样本.
例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人
的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.
解 应采取分层抽样的方法. 3分
过程如下:
(1)将3万人分为五层,其中一个乡镇为一层. 5分
(2)按照样本容量的比例随机抽取各乡镇应抽取的样本.
300×=60(人);300×=40(人);
300×=100(人);300×=40(人);
300×=60(人), 10分
因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分
(3)将300人组到一起即得到一个样本. 14分
例4 为了考察某校的教学水平,将抽查这个学校高三年级的部分学生本年度的考试成绩.为了全面反映实际情况,采
取以下三种方式进行抽查(已知该校高三年级共有20个班,并且每个班内的学生已经按随机方式编好了学号,假定该校每班学生的人数相同):①从高三年级20个班中任意抽取一个班,再从该班中任意抽取20名学生,考察他们的学习成绩;②每个班抽取1人,共计20人,考察这20名学生的成绩;③把学生按成绩分成优秀、良好、普通三个级别,从其中共抽取100名学生进行考察(已知该校高三学生共1 000人,若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人).
根据上面的叙述,试回答下列问题:
(1)上面三种抽取方式的总体、个体、样本分别是什么?每一种抽取方式抽取的样本中,样本容量分别是多少?
(2)上面三种抽取方式各自采用的是何种抽取样本的方法?
(3)试分别写出上面三种抽取方式各自抽取样本的步骤.
解 (1)这三种抽取方式的总体都是指该校高三全体学生本年度的考试成绩,个体都是指高三年级每个学生本年度的考试成绩.其中第一种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第二种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第三种抽取方式的样本为所抽取的100名学生本年度的考试成绩,样本容量为100.
(2)三种抽取方式中,第一种采用的是简单随机抽样法;
第二种采用的是系统抽样法和简单随机抽样法;
第三种采用的是分层抽样法和简单随机抽样法.
(3)第一种方式抽样的步骤如下:
第一步,首先用抽签法在这20个班中任意抽取一个班.
第二步,然后从这个班中按学号用随机数表法或抽签法抽取20名学生,考察其考试成绩.
第二种方式抽样的步骤如下:
第一步,首先用简单随机抽样法从第一个班中任意抽取一名学生,记其学号为a.
第二步,在其余的19个班中,选取学号为a的学生,加上第一个班中的一名学生,共计20人.
第三种方式抽样的步骤如下:
第一步,分层,因为若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本时,应该把全体学生分成三个层次.
第二步,确定各个层次抽取的人数.因为样本容量与总体的个体数之比为:100∶1 000=1∶10,所以在每个层次中抽取的个体数依次为,,,即15,60,25.
第三步,按层次分别抽取.在优秀生中用简单随机抽样法抽取15人;在良好生中用简单随机抽样法抽取60人;在普通生中用简单随机抽样法抽取25人.
1.有一批机器,编号为1,2,3,…,112,为调查机器的质量问题,打算抽取10台入样,问此样本若采用简单随机抽样方法将如何获得?
解 方法一 首先,把机器都编上号码001,002,003,…,112,如用抽签法,则把112个形状、大小相同的号签放在同一个箱子里,进行均匀搅拌,抽签时,每次从中抽出1个号签,连续抽取10次,就得到一个容量为10的样本.
方法二 第一步,将原来的编号调整为001,002,003,…,112.
第二步,在随机数表中任选一数作为开始,任选一方向作为读数方向.比如:选第9行第7个数“3”,向右读.
第三步,从“3”开始,向右读,每次读取三位,凡不在001~112中的数跳过去不读,前面已经读过的也跳过去不读,依次可得到074,100,094,052,080,003,105,107,083,092.
第四步,对应原来编号74,100,94,52,80,3,105,107,83,92的机器便是要抽取的对象.
2.某单位在岗职工共624人,为了调查工人用于上班途中的时间,该单位工会决定抽取10%的工人进行调查,请问如何采用系统抽样法完成这一抽样?
解 (1)将624名职工用随机方式编号由000至623.
(2)利用随机数表法从总体中剔除4人.
(3)将剩下的620名职工重新编号由000至619.
(4)分段,取间隔k==10,将总体分成62组,每组含10人.
(5)从第一段,即为000到009号随机抽取一个号l.
(6)按编号将l,10+l,20+l,…,610+l,共62个号码选出,这62个号码所对应的职工组成样本.
3.某电台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为12 000人,其中持各种态度的人数如下表:
很喜爱
喜爱
一般
不喜爱
2 435
4 567
3 926
1 072
电视台为进一步了解观众的具体想法和意见,打算从中抽取60人进行更为详细的调查,应当怎样进行抽样?
解 可用分层抽样方法,其总体容量为12 000.“很喜爱”占,应取60×≈12(人);“喜爱”占,应取60×≈23(人);“一般”占,应取60×≈20(人);“不喜爱”占,应取60×≈5(人).因此采用分层抽样在“很喜爱”、“喜爱”、“一般”和“不喜爱”的2 435人、4 567人、3 926人和1 072人中分别抽取12人、23人、20人和5人.
4.某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270,使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段,如果抽得号码有下列四种情况:
①7,34,61,88,115,142,169,196,223,250;
②5,9,100,107,111,121,180,195,200,265;
③11,38,65,92,119,146,173,200,227,254;
④30,57,84,111,138,165,192,219,246,270.
关于上述样本的下列结论中,正确的是 (填序号).
(1)②、③都不能为系统抽样
(2)②、④都不能为分层抽样
(3)①、④都可能为系统抽样
(4)①、③都可能为分层抽样
答案 (4)
一、填空题
1.(2008·安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .
答案 15,10,20
2.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .
答案 系统抽样,简单随机抽样
3.下列抽样实验中,最适宜用系统抽样的是 (填序号).
①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样
②某厂生产的2 000个电子元件中随机抽取5个入样
③从某厂生产的2 000个电子元件中随机抽取200个入样
④从某厂生产的20个电子元件中随机抽取5个入样
答案 ③
4.(2008·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .
答案 分层抽样法
5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是 (填序号).
①高一学生被抽到的概率最大
②高三学生被抽到的概率最大
③高三学生被抽到的概率最小
④每名学生被抽到的概率相等
答案 ①②③
6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .
答案 6
7.(2008·天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人.
答案 10
8.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 .
答案 0795
二、解答题
9.为了检验某种作业本的印刷质量,决定从一捆(40本)中抽取10本进行检查,利用随机数表抽取这个样本时,应按怎样的步骤进行?
分析 可先对这40本作业本进行统一编号,然后在随机数表中任选一数作为起始号码,按任意方向读下去,便会得到10个号码.
解 可按以下步骤进行:
第一步,先将40本作业本编号,可编为00,01,02,…,39.
第二步,在附录1随机数表中任选一个数作为开始.如从第8行第4列的数78开始.
第三步,从选定的数78开始向右读下去,得到一个两位数字号码59,由于59>39,将它去掉;继续向右读,得到16,由于16<39,将它取出;继续读下去,可得到19,10,12,07,39,38,33,21,后面一个是12,由于在前面12已经取出,将它去掉;再继续读,得到34.至此,10个样本号码已经取满,于是,所要抽取的样本号码是16,19,10,12,07,39,38,33,21,34.
10.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取?
解 用分层抽样抽取.
(1)∵20∶100=1∶5,
∴=2,=14,=4
∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.
(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.
(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.
11.从某厂生产的10 002辆电动自行车中随机抽取100辆测试某项性能,请合理选择抽样方法进行抽样,并写出抽样过程.
解 因为总体容量和样本容量都较大,可用系统抽样.
抽样步骤如下:
第一步,将10 002辆电动自行车用随机方式编号;
第二步,从总体中剔除2辆(剔除法可用随机数表法),将剩下的10 000辆电动自行车重新编号(分别为00001,00002,…,10000)并分成100段;
第三步,在第一段00001,00002,…,00100这100个编号中用简单随机抽样抽出一个作为起始号码(如00006);
第四步,把起始号码依次加间隔100,可获得样本.
12.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容
量n.
解 总体容量为6+12+18=36.当样本容量是n时,由题意知,系统抽样的间隔为,分层抽样的比例是,抽取工程师×6=(人),
抽取技术人员×12=(人),
抽取技工×18=(人).
所以n应是6的倍数,36的约数即n=6,12,18,36.
当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为,因为必须是整数,所以n只能取6,即样本容量为6.
§11.2 总体分布的估计与总体特征数的估计
基础自测
1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 .
答案 5
2.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 .
答案 303.6
3.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a,b)是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h,则|a-b|= .
答案
4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .
分数
5
4
3
2
1
人数
20
10
30
30
10
答案
5.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg),得到频率分布直方图如下:
根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 .
答案 40
例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交
作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:
(1)本次活动共有多少件作品参加评比?
(2)哪组上交的作品数量最多?有多少件?
(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高?
解 (1)依题意知第三组的频率为
=,
又因为第三组的频数为12,
∴本次活动的参评作品数为=60.
(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×=18(件).
(3)第四组的获奖率是=,
第六组上交的作品数量为
60×=3(件),
∴第六组的获奖率为=,显然第六组的获奖率高.
例2 对某电子元件进行寿命追踪调查,情况如下:
寿命(h)
100~200
200~300
300~400
400~500
500~600
个数
20
30
80
40
30
(1)列出频率分布表;
(2)画出频率分布直方图;
(3)估计电子元件寿命在100 h~400 h以内的概率;
(4)估计电子元件寿命在400 h以上的概率.
解 (1)样本频率分布表如下:
寿命(h)
频数
频率
100~200
20
0.10
200~300
30
0.15
300~400
80
0.40
400~500
40
0.20
500~600
30
0.15
合计
200
1
(2)频率分布直方图
(3)由频率分布表可以看出,寿命在100 h~400 h的电子元件出现的频率为0.65,所以我们估计电子元件寿命在
100 h~400 h的概率为0.65.
(4)由频率分布表可知,寿命在400 h以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h以上的概率为0.35.
例3 为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程数(单位:1 000 km)
轮胎A 96, 112, 97, 108, 100, 103, 86, 98
轮胎B 108, 101, 94, 105, 96, 93, 97, 106
(1)分别计算A,B两种轮胎行驶的最远里程的平均数,中位数;
(2)分别计算A,B两种轮胎行驶的最远里程的极差、标准差;
(3)根据以上数据你认为哪种型号的轮胎性能更加稳定?
解 (1)A轮胎行驶的最远里程的平均数为:
=100,
中位数为: =99;
B轮胎行驶的最远里程的平均数为:
=100,
中位数为:=99.
(2)A轮胎行驶的最远里程的极差为:112-86=26,
标准差为:
s==≈7.43;
B轮胎行驶的最远里程的极差为:108-93=15,
标准差为:
s= =≈5.43.
(3)由于A和B的最远行驶里程的平均数相同,而B轮胎行驶的最远里程的极差和标准差较小,所以B轮胎性能更加
稳定.
例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别
记录抽查数据如下:
甲:102, 101, 99, 98, 103, 98, 99;
乙:110, 115, 90, 85, 75, 115, 110.
(1)这种抽样方法是哪一种?
(2)将这两组数据用茎叶图表示;
(3)将两组数据比较,说明哪个车间产品较稳定.
解 (1)因为间隔时间相同,故是系统抽样. 2分
(2)茎叶图如下:
5分
(3)甲车间:
平均值:
=(102+101+99+98+103+98+99)=100, 7分
方差:s12=[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6. 9分
乙车间:
平均值:=(110+115+90+85+75+115+110)=100, 11分
方差:s22=[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4. 13分
∵=,s12<s22,∴甲车间产品稳定. 14分
1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.
4,第一小组的频数为5.
(1)求第四小组的频率;
(2)参加这次测试的学生人数是多少?
(3)在这次测试中,学生跳绳次数的中位数落在第几小组内?
解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2.
(2)设参加这次测试的学生人数是n,
则有n==5÷0.1=50(人).
(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内.
2.从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分)
[40,50),2;[50,60),3;[60,70),10;[70,80),15;
[80,90),12;[90,100],8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)估计成绩在[60,90)分的学生比例;
(4)估计成绩在85分以下的学生比例.
解 (1)频率分布表如下:
成绩分组
频数
频率
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
2
3
10
15
12
8
0.04
0.06
0.20
0.30
0.24
0.16
合计
50
1.00
(2)频率分布直方图如图所示.
(3)成绩在[60,90)的学生比例即为学生成绩在[60,90)的频率,即为(0.20+0.30+0.24)×100%=74%.
(4)成绩在85分以下的学生比例即为学生成绩不足85分的频率.
设相应的频率为b.
由=,故b=0.72.
估计成绩在85分以下的学生约占72%.
3.有甲、乙两位射击运动员在相同条件下各射击10次,记录各次命中环数;
甲:8,8,6,8,6,5,9,10,7,4
乙:9,5,7,8,7,6,8,6, 8,7
(1)分别计算他们环数的标准差;
(2)谁的射击情况比较稳定.
解 (1)甲=(8+8+6+8+6+5+9+10+7+4)=7.1,
乙=(9+5+7+8+7+6+8+6+8+7)=7.1,
=[(8-7.1)2+(8-7.1)2+(6-7.1)2+(8-7.1)2+(6-7.1)2+(5-7.1)2+(9-7.1)2+(10-7.1)2+(7-7.1)2+(4-7.1)2]=3.09,
∴s甲≈1.76.
=[(9-7.1)2+(5-7.1)2+(7-7.1)2+(8-7.1)2+(7-7.1)2+(6-7.1)2+(8-7.1)2+(6-7.1)2+(8-7.1)2+(7-7.1)2]=1.29,
∴s乙≈1.14.
(2)∵甲=乙,s乙<s甲,∴乙射击情况比较稳定.
4.(2008·海南、宁夏理,16)从甲、乙两品种的棉花中各抽测了25根棉花的纤维长度(单位:mm),结果如下:
甲品种:271 273 280 285 285 287 292 294 295
301 303 303 307 308 310 314 319 323
325 325 328 331 334 337 352
乙品种:284 292 295 304 306 307 312 313 315
315 316 318 318 320 322 322 324 327
329 331 333 336 337 343 356
由以上数据设计了如下茎叶图:
根据以上茎叶图,对甲、乙两品种棉花的纤维长度作比较,写出两个统计结论:
① ;
② .
答案 ①乙品种棉花的纤维平均长度大于甲品种棉花的纤维平均长度(或:乙品种棉花的纤维长度普遍大于甲品种棉花的纤维长度).
②甲品种棉花的纤维长度较乙品种棉花的纤维长度更分散.(或:乙品种棉花的纤维长度较甲品种棉花的纤维长度更集中(稳定).甲品种棉花的纤维长度的分散程度比乙品种棉花的纤维长度的分散程度更大).
③甲品种棉花的纤维长度的中位数为307 mm,乙品种棉花的纤维长度的中位数为318 mm.
④乙品种棉花的纤维长度基本上是对称的,而且大多集中在中间(均值附近).甲品种棉花的纤维长度除一个特殊值(352)外,也大致对称,其分布较均匀.
一、填空题
1.下列关于频率分布直方图的说法中不正确的是 .
①直方图的高表示取某数的频率
②直方图的高表示该组上的个体在样本中出现的频率
③直方图的高表示该组上的个体数与组距的比值
④直方图的高表示该组上的个体在样本中出现的频率与组距的比值
答案 ①②③
2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定.
答案 甲 乙
3.某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用条形图表示如下:
根据条形图可得这50名学生这一天平均每人的课外阅读时间为 h.
答案 0.9
4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分
成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;……
第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图.
设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学
生人数为y,则从频率分布直方图中可分析出x和y分别为 .
答案 0.9,35
5.(2009·启东质检)为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图所示,由于不慎,部分数据丢失,但知道前四组的频数成等比数列,后六组的频数成等差数列,设最大频率为a,视 力在4.6到5.0之间的学生数为b,则a,b的值分别为 .
答案 0.27,78
6.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩
分别是x甲、x乙,则x甲 x乙, 比 稳定.
答案 < 乙 甲
7.(2008·上海理,9)已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a、b的取值分别是 .
答案 10.5、10.5
8.某教师出了一份共3道题的测试卷,每道题1分,全班得3分,2分,1分,0分的学生所占比例分别为30%,40%,20%,10%,若全班30人,则全班同学的平均分是 分.
答案 1.9
二、解答题
9.在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制如图所示的频率分布直方图.已知图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二小组的频数是40.
(1)求第二小组的频率,并补全这个频率分布直方图;
(2)求这两个班参赛的学生人数是多少?
(3)这两个班参赛学生的成绩的中位数应落在第几小组内?(不必说明理由)
解 (1)各小组的频率之和为1.00,第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05.
∴第二小组的频率为:
1.00-(0.30+0.15+0.10+0.05)=0.40.
∴落在59.5~69.5的第二小组的小长方形的高===0.04.则补全的直方图如图所示.
(2)设九年级两个班参赛的学生人数为x人.
∵第二小组的频数为40人,频率为0.40,
∴=0.40,解得x=100(人).
所以九年级两个班参赛的学生人数为100人.
(3)因为0.3×100=30,0.4×100=40,0.15×100=15,0.10×100=10,0.05×100=5,
即第一、第二、第三、第四、第五小组的频数分别为30,40,15,10,5,所以九年级两个班参赛学生的成绩的中位数应落在第二小组内.
10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?
(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.
解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,
因此第二小组的频率为:
=0.08.
又因为频率=,
所以样本容量===150.
(2)由图可估计该学校高一学生的达标率约为
×100%=88%.
(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.
11.观察下面表格:
(1)完成表中的频率分布表;
(2)根据表格,画出频率分布直方图;
(3)估计数据落在[10.95,11.35)范围内的概率约为多少?
分组
频数
频率
[10.75,10.85)
3
[10.85,10.95)
9
[10.95,11.05)
13
[11.05,11.15)
16
[11.15,11.25)
26
[11.25,11.35)
20
[11.35,11.45)
7
[11.45,11.55)
4
[11.55,11.65)
2
合计
100
解 (1)频率依次为:0.03,0.09,0.13,0.16,0.26,0.20,0.07,0.04,0.02,1.00.
(2)频率分布直方图如图所示
(3)数据落在[10.95,11.35)范围的频率为
0.13+0.16+0.26+0.20=0.75.
12.某赛季甲、乙两名篮球运动员每场比赛得分情况如下:
甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50;
乙的得分:8,13,14,16,23,26,28,33,38,39,59.
(1)制作茎叶图,并对两名运动员的成绩进行比较;
(2)计算上述两组数据的平均数和方差,并比较两名运动员的成绩和稳定性;
(3)能否说明甲的成绩一定比乙好,为什么?
解 (1)制作茎叶图如下:
从茎叶图上可看出,甲运动员发挥比较稳定,总体得分情况比乙好.
(2)甲=33,≈127.23,乙=27,≈199.09,
∴甲>乙, <,
∴甲运动员总体水平比乙好,发挥比乙稳定.
(3)不能说甲的水平一定比乙好,因为上述是甲、乙某赛季的得分情况,用样本估计总体也有一定的偶然性,并不能说一定准确反映总体情况.
§11.3 线性回归方程
基础自测
1.下列关系中,是相关关系的为 (填序号).
①学生的学习态度与学习成绩之间的关系;
②教师的执教水平与学生的学习成绩之间的关系;
③学生的身高与学生的学习成绩之间的关系;
④家庭的经济条件与学生的学习成绩之间的关系.
答案 ①②
2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是 (填序号).
①直线l1,l2有交点(s,t)
②直线l1,l2相交,但是交点未必是(s,t)
③直线l1,l2由于斜率相等,所以必定平行
④直线l1,l2必定重合
答案 ①
3.下列有关线性回归的说法,正确的是 (填序号).
①相关关系的两个变量不一定是因果关系
②散点图能直观地反映数据的相关程度
③回归直线最能代表线性相关的两个变量之间的关系
④任一组数据都有回归直线方程
答案 ①②③
4.下列命题:
①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归直线=+及回归系数,可以估计和预测变量的取值和变化趋势.
其中正确命题的序号是 .
答案 ①②③
5.已知回归方程为=0.50x-0.81,则x=25时,的估计值为 .
答案 11.69
例1 下面是水稻产量与施化肥量的一组观测数据:
施化肥量 15 20 25 30 35 40 45
水稻产量 320 330 360 410 460 470 480
(1)将上述数据制成散点图;
(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?
解 (1)散点图如下:
(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化 肥施用量的增加而增长.
例2 (14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出
的关系,该市统计部门随机调查了10个家庭,得数据如下:
家庭编号
1
2
3
4
5
6
7
8
9
10
xi(收入)千元
0.8
1.1
1.3
1.5
1.5
1.8
2.0
2.2
2.4
2.8
yi(支出)千元
0.7
1.0
1.2
1.0
1.3
1.5
1.3
1.7
2.0
2.5
(1)判断家庭平均收入与月平均生活支出是否相关?
(2)若二者线性相关,求回归直线方程.
解 (1)作出散点图:
5分
观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分
(2)= (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,
=(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42, 9分
=≈0.813 6,
=1.42-1.74×0.813 6≈0.004 3, 13分
∴回归方程=0.813 6x+0.004 3. 14分
例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨)标准煤的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解 (1)散点图如下图:
(2)==4.5,==3.5
=3×2.5+4×3+4×5+6×4.5=66.5.
=32+42+52+62=86
∴===0.7
=-=3.5-0.7×4.5=0.35.
∴所求的线性回归方程为=0.7x+0.35.
(3)现在生产100吨甲产品用煤
y=0.7×100+0.35=70.35,
∴降低90-70.35=19.65(吨)标准煤.
1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.
年平均气温
12.51
12.84
12.84
13.69
13.33
12.74
13.05
年降雨量
748
542
507
813
574
701
432
(1)试画出散点图;
(2)判断两个变量是否具有相关关系.
解 (1)作出散点图如图所示,
(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.
2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:
温度(x)
0
10
20
50
70
溶解度(y)
66.7
76.0
85.0
112.3
128.0
由资料看y与x呈线性相关,试求回归方程.
解 =30,==93.6.
=≈0.880 9.
=-=93.6-0.880 9×30=67.173.
∴回归方程为=0.880 9x+67.173.
3.某企业上半年产品产量与单位成本资料如下:
月份
产量(千件)
单位成本(元)
1
2
73
2
3
72
3
4
71
4
3
73
5
4
69
6
5
68
(1)求出线性回归方程;
(2)指出产量每增加1 000件时,单位成本平均变动多少?
(3)假定产量为6 000件时,单位成本为多少元?
解 (1)n=6,=21,=426,=3.5,=71,
=79,=1 481,
===-1.82.
=-=71+1.82×3.5=77.37.
回归方程为=+x=77.37-1.82x.
(2)因为单位成本平均变动=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有:
产量每增加一个单位即1 000件时,单位成本平均减少1.82元.
(3)当产量为6 000件时,即x=6,代入回归方程:
=77.37-1.82×6=66.45(元)
当产量为6 000件时,单位成本为66.45元.
一、填空题
1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .
答案 a,c,b
2.回归方程=1.5x-15,则下列说法正确的有 个.
①=1.5-15
②15是回归系数a
③1.5是回归系数a
④x=10时,y=0
答案 1
3.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为=8.25x+60.13,下列叙述正确的是 .
①该地区一个10岁儿童的身高为142.63 cm
②该地区2~9岁的儿童每年身高约增加8.25 cm
③该地区9岁儿童的平均身高是134.38 cm
④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高
答案 ②
4.三点(3,10),(7,20),(11,24)的回归方程是 .
答案 =1.75x+5.75
5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y与x有相关关系,得到回归直线方程=0.66x+1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 .
答案 83%
6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,得=52, =228, =478, =1 849,则其线性回归方程为 .
答案 =11.47+2.62x
7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 .
答案 ①③④
8.已知关于某设备的使用年限x与所支出的维修费用y(万元),有如下统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若y对x呈线性相关关系,则回归直线方程=x+表示的直线一定过定点 .
答案 (4,5)
二、解答题
9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:
学生
学科
A
B
C
D
E
数学
80
75
70
65
60
物理
70
66
68
64
62
(1)数学成绩和物理成绩具有相关关系吗?
(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点.
解 (1)数学成绩和物理成绩具有相关关系.
(2)以x轴表示数学成绩,y轴表示物理成绩,可得相应的散点图如下:
由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近.
10.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积x(m2)
115
110
80
135
105
销售价格y(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线.
解 (1)数据对应的散点图如图所示:
(2)=109,=23.2,=60 975,
=12 952,
=≈0.196 2
=-≈1.814 2
∴所求回归直线方程为
=0.196 2x+1.814 2.
11.某公司利润y与销售总额x(单位:千万元)之间有如下对应数据:
x
10
15
17
20
25
28
32
y
1
1.3
1.8
2
2.6
2.7
3.3
(1)画出散点图;
(2)求回归直线方程;
(3)估计销售总额为24千万元时的利润.
解 (1)散点图如图所示:
(2)=(10+15+17+20+25+28+32)=21,
=(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,
=102+152+172+202+252+282+322=3 447,
=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,
==≈0.104,
=-=2.1-0.104×21=-0.084,
∴=0.104x-0.084.
(3)把x=24(千万元)代入方程得,
=2.412(千万元).
∴估计销售总额为24千万元时,利润为2.412千万元.
12.某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)求回归直线方程;
(3)试预测广告费支出为10百万元时,销售额多大?
解 (1)根据表中所列数据可得散点图如下:
(2)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
因此,==5,= =50,
=145, =13 500, =1 380.
于是可得:===6.5;
=-=50-6.5×5=17.5.
因此,所求回归直线方程为:=6.5x+17.5.
(3)根据上面求得的回归直线方程,当广告费支出为10百万元时,=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.
§11.4 统计案例
基础自测
1.对有线性相关关系的两个变量建立的回归直线方程=+x中,回归系数与0的大小关系为 .(填序号)
①大于或小于 ②大于 ③小于 ④不小于
答案 ①
2.如果有90%的把握说事件A和B有关系,那么具体计算出的数据2 2.706.(用“>”,“<”,“=”填空)
答案 >
3.对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是 .
①模型Ⅰ的相关系数r为0.98
②模型Ⅱ的相关系数r为0.80
③模型Ⅲ的相关系数r为0.50
④模型Ⅳ的相关系数r为0.25
答案 ①
4.下列说法中正确的有:①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 .
答案 ①③
例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:
患慢性气管炎
未患慢性气管炎
总计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
试问:(1)吸烟习惯与患慢性气管炎是否有关?
(2)用假设检验的思想给予证明.
(1)解 根据列联表的数据,得到
2= 2分
==7.469>6.635 6分
所以有99%的把握认为“吸烟与患慢性气管炎有关”. 9分
(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={2≥6.635}≈0.01,即A为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%. 14分
例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有
缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺
点的零件数y(件)
11
9
8
5
(1)对变量y与x进行相关性检验;
(2)如果y与x有线性相关关系,求回归直线方程;
(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?
解 (1)=12.5, =8.25,
=438,4=412.5,
=660,=291,
所以r=
=
=≈≈0.995 4.
因为r>r0.05,所以y与x有很强的线性相关关系.
(2)=0.728 6x-0.857 1.
(3)要使≤100.728 6x-0.857 1≤10,
所以x≤14.901 3.
所以机器的转速应控制在14.901 3转/秒以下.
例3 下表是某年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,y表示相应的年均价格,求y关于x的回归
方程.
使用年数x
1
2
3
4
5
6
7
8
9
10
年均价格
y(美元)
2 651
1 943
1 494
1 087
765
538
484
290
226
204
解 作出散点图如图所示.
可以发现,各点并不是基本处于一条直线附近,因此,y与x之间应是非线性相关关系.与已学函数图象比较,用=e 来刻画题中模型更为合理,令=ln,则=x+,题中数据变成如下表所示:
x
1
2
3
4
5
6
7
8
9
10
z
7.883
7.572
7.309
6.991
6.640
6.288
6.182
5.670
5.421
5.318
相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.
由表中数据可得r≈-0.996.|r|>r0.05.认为x与z之间具有线性相关关系,由表中数据得≈-0.298,≈8.165,所以=-0.298x+8.165,最后回代=ln,即=e-0.298x+8.165为所求.
1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:
积极参加班级工作
不太主动参加班级工作
合计
学习积极性高
18
7
25
学习积极性一般
6
19
25
合计
24
26
50
(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?
(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.
解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P1==,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P2=.
(2)由统计量的计算公式得=≈11.538,由于11.538>10.
828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.
2.某个体服装店经营某种服装,一周内获纯利y(元)与该周每天销售这种服装的件数x之间的一组数据如下:
x
3
4
5
6
7
8
9
y
66
69
73
81
89
90
91
已知=280, =45 309, =3 487,此时r0.05=0.754.
(1)求,;
(2)判断一周内获纯利润y与该周每天销售件数x之间是否线性相关,如果线性相关,求出回归直线方程.
解 (1)=(3+4+5+6+7+8+9)=6,
= (66+69+73+81+89+90+91)≈79.86.
(2)根据已知=280, =45 309, =3 487,
得相关系数
r=≈0.973.
由于0.973>0.754,所以纯利润y与每天销售件数x之间具有显著线性相关关系.
利用已知数据可求得回归直线方程为
=4.746x+51.386.
3.某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x
1
2
3
5
10
20
30
50
100
200
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
检验每册书的成本费y与印刷册数的倒数之间是否具有线性相关关系,如有,求出y对x的回归方程.
解 首先作变量置换,令u=,题目所给数据变成如下表所示的10对数据:
u
1
0.5
0.33
0.2
0.1
0.05
0.03
0.02
0.01
0.005
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
然后作相关性检验.经计算得r≈0.999 8>0.75,从而认为u与y之间具有线性相关关系.
由公式得≈1.125,≈8.973,
所以=1.125+8.973u,
最后回代u=,
可得=1.125+,
这就是题目要求的y对x的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.
一、填空题
1.对于独立性检验,下列说法中正确的是 .
①的值越大,说明两事件相关程度越大
②的值越小,说明两事件相关程度越小
③≤2.706时,有90%的把握说事件A与B无关
④>6.635时,有99%的把握说事件A与B有关
答案 ①②④
2.工人月工资y(元)依劳动生产率x(千元)变化的回归方程为=50+80x,下列判断正确的是 .
①劳动生产率为1 000元时,工资为130元
②劳动生产率提高1 000元时,工资平均提高80元
③劳动生产率提高1 000元时,工资平均提高130元
④当月工资为210元时,劳动生产率为2 000元
答案 ②
3.下面是2×2列联表:
y1
y 2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为 .
答案 52,74
4.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为 .
答案 =x+1
5.在一次试验中,当变量x的取值分别为1,,,时,变量y的值分别为2,3,4,5,则y与的回归曲线方程为 .
答案 =+1
6.在一次对性别与说谎是否有关的调查中,得到如下数据:
说谎
不说谎
合计
男
6
7
13
女
8
9
17
合计
14
16
30
根据表中数据,得到如下结论中不正确的是 .
①在此次调查中有95%的把握认为是否说谎与性别有关
②在此次调查中有99%的把握认为是否说谎与性别有关
③在此次调查中有99.5%的把握认为是否说谎与性别有关
④在此次调查中没有充分的证据显示说谎与性别有关
答案 ①②③
7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(≥3.841)≈0.05,P(≥5.024)≈0.025.
根据表中数据,得到=≈4.844.
则认为选修文科与性别有关系出错的可能性为 .
答案 5%
8.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后14天的结果如下表所示:
死亡
存活
合计
第一种剂量
14
11
25
第二种剂量
6
19
25
合计
20
30
50
进行统计分析时的统计假设是: .
答案 小白鼠的死亡与剂量无关
二、解答题
9.在一次飞机航程中调查男女乘客的晕机情况,其二维条形图如图:
(1)写出2×2列联表;
(2)判断晕机与性别是否有关?
解 (1)
晕机
不晕机
合计
男
10
70
80
女
10
20
30
合计
20
90
110
(2)=≈6.366>5.024,故有97.5%的把握认为“晕机与性别有关”.
10.某地10户家庭的年收入和年饮食支出的统计资料如下表:
年收入
x(万元)
2
4
4
6
6
6
7
7
8
10
年饮食支出
y(万元)
0.9
1.4
1.6
2.0
2.1
1.9
1.8
2.1
2.2
2.3
(1)根据表中数据,确定家庭的年收入和年饮食支出之间是否具有相关关系;若具有相关关系求出y与x的回归直线
方程;
(2)如果某家庭年收入为9万元,预测其年饮食支出.
解 (1)由题意知,年收入x为解释变量,年饮食支出y为预报变量,作散点图(如图所示).从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用回归直线方程刻画它们之间的关系.
∵=6, =1.83,
=406,=35.13,=117.7,
∴≈0.172,=- =1.83-0.172×6=0.798.
从而得到回归直线方程为=0.172x+0.798.
(2)当x=9时,=2.346.因此,某家庭年收入9万元,其年饮食支出大约为2.346万元.
11.测得某国家10对父子身高(单位:英寸)如下:
父亲身高(x)
60
62
64
65
66
67
68
70
72
74
儿子身高(y)
63.6
65.2
66
65.5
66.9
67.1
67.4
68.3
70.1
70
(1)对变量y与x进行相关性检验;
(2)如果y与x之间具有线性相关关系,求回归直线方程;
(3)如果父亲的身高为73英寸,估计儿子的身高.
解 (1)=66.8,=67.01,
=44 794,=44 941.93,
=4 476.268,=4 462.24,
≈4 490.34, =44 842.4.
所以r=
=
=≈0.980 4.
因为r>r0.05,所以y与x之间具有线性相关关系.
(2)设回归直线方程为.
由=
=≈0.464 6.
=67.01-0.464 6×66.8≈35.974 7.
故所求的回归直线方程为=0.464 6x+35.974 7.
(3)当x=73英寸时,=0.464 6×73+35.974 7≈69.9,
所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.
12.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?
解 根据题目所给的数据作出如下的列联表:
色盲
不色盲
合计
男
38
442
480
女
6
514
520
合计
44
956
1 000
根据列联表作出相应的二维条形图:
从二维条形图来看,在男人中患色盲的比例为,要比女人中患色盲的比例大.
其差值为≈0.068,差值较大.
因而,我们可以认为“患色盲与性别是有关的”.
根据列联表所给的数据可以有
a=38,b=442,c=6,d=514,a+b=480,c+d=520,
a+c=44,b+d=956,n=1 000,
由=
=≈27.1.
由27.1>10.828,所以我们有99.9%的把握认为患色盲与性别有关系,这个结论只对所调查的480名男人和520名女人有效.
单元检测十一
一、填空题(本大题共14小题,每小题5分,共70分)
1.某班的78名同学已编号1,2,3,…
,78,为了解该班同学的作业情况,老师收取了学号能被5整除的15名同学的作业本,这里运用的抽样方法是 .
答案 系统抽样法
2.一组数据的方差为s2,将这组数据中的每个数据都扩大3倍,所得到的一组数据的方差是 .
答案 9s2
3.某地区有300家商店,其中大型商店有30家,中型商店有75家,小型商店有195家,为了掌握各商店的营业情况,要从中抽取一个容量为20的样本,若采用分层抽样的方法,抽取的中型商店数有 家.
答案 5
4.下图是某中学高一年级1 200名学生身高的频率分布直方图的一部分,则身高在[160,170]的学生大约有 名.
答案 510
5.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为 .
答案 4
6.有以下两个问题:(1)某社区有1 000个家庭,其中高收入家庭有250户,中等收入家庭有560户,低收入家庭有190户,为了了解社会购买力的某项指标,要从中抽取一个容量为200的样本;(2)从20人中抽取6人参加座谈会,给出下列抽样方法:a随机抽样;b系统抽样;c分层抽样.上述两个问题应采用的抽样方法分别为 (填代号).
答案 c,a
7.下图为甲、乙两名篮球运动员每场比赛得分情况的茎叶图,则甲和乙得分的中位数的和是 分.
答案 57
8.下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位;
③线性回归方程=必过(,);
④曲线上的点与该点的坐标之间具有相关关系;
⑤在一个2×2列联表中,由计算得=13.079,则其两个变量间有关系的可能性是90%.
其中错误的个数是 .
答案 3
9.(2008·陕西文)某林场有树苗30 000棵,其中松树苗4
000棵,为调查树苗的生长情况,采用分层抽样的方法抽取一个容量为150的样本,则样本中松树苗的数量为 .
答案 20
10.甲、乙、丙三名射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表
甲的成绩
环数
7
8
9
10
频数
5
5
5
5
乙的成绩
环数
7
8
9
10
频数
6
4
4
6
丙的成绩
环数
7
8
9
10
频数
4
6
6
4
s1、s2、s3分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有s1,s2,s3的大小关系为 .
答案 s2>s1>s3
11.在样本的频率分布直方图中,一共有4个小长方形,这4个小长方形的面积由小到大构成等差数列{an},且a2=2a1,若样本容量为400,则小长方形中面积最大的一组的频数等于 .
答案 160
12.(2008·广东文,11)为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量,产品数量的分组区间为[45,55),[55,65),[65,75),[75,85),[85,95).由此得到频率分布直方图如图所示,则这20名工人中一天生产该产品数量在[55,75)的人数是 .
答案 13
13.如果数据x1,x2,…,xn的平均数为,方差为s2,则2x1+3,2x2+3,…,2xn+3的平均数和方差为 , .
答案 2+3 4s2
14.(2008·湖南文,12)从某地区15 000位老人中随机抽取500人,其生活能否自理的情况如下表所示.
能
活
生
理
自
否
数
人
别
性
男
女
能
178
278
不能
23
21
则该地区生活不能自理的老人中男性比女性约多 人.
答案 60
二、解答题(本大题共6小题,共90分)
15.(14分)一次科技知识竞赛,两组学生成绩统计如下:
分数
50
60
70
80
90
100
人数
甲组
2
5
10
13
14
6
乙组
4
4
16
2
12
12
已经算得两个组的平均分都是80分,请你根据所学过的统计知识,进一步判断两个组在这次竞赛中的成绩谁优谁次?并说明理由.
解 (1)从众数看,甲为90分,乙为70分,甲组成绩较好;
(2)从中位数看,两组中位数都为80分,但在80分(含80分)以上,甲组有33人,乙组有26人,甲组人数多于乙组人数,甲组成绩较好;
(3)从方差看,=172,=256,甲组成绩波动较小,较稳定;
(4)从得满分情况来看,甲组人数6人,乙组人数12人,成绩较好者应为乙组.
16.(14分)某重点中学高中各班级学生人数如下表所示:
年级
班
高一年级
高二年级
高三年级
1班
45
46
48
2班
48
54
55
3班
52
50
52
学校计划召开学生代表座谈会.请根据上述基本数据,设计一个容量为总体容量的的抽样方案.
解 由表中基本数据可知,高一学生总数为145人,高二学生总数为150人,高三学生总数为155人,
第一步:确定高一、高二、高三的被抽个体数.由于总体容量与样本容量之比为20,所以样本中包含的各年级个体数应为145÷20≈7,150÷20≈8,155÷20≈8.
第二步:将高一年级被抽到的个体数分配到各班.由于抽样比为,所以1班、2班、3班被抽到的人数分别为
×45≈2,×48≈2,×52≈3.
第三步:将高二年级被抽到的个体数分配到各班.由于抽样比为,所以1班、2班、3班被抽到的人数分别为×46≈2,×54≈3,×50≈3.
第四步:将高三年级被抽到的个体数分配到各班.由于抽样比为,所以1班、2班、3班被抽到的人数分别为
×48≈2,×55≈3,×52≈3.
17.(14分)甲、乙两个车间分别制作一种零件,在自动包装传送带上每隔10分钟抽取一件产品,测其质量,分别记录抽查的数据如下:
甲:102, 101, 99, 98, 103, 98, 99;
乙:105, 102, 97, 92, 96, 101, 107;
(1)这种抽样方法是什么抽样?
(2)估计甲、乙两个车间产品质量的平均值与方差,并分析哪个车间的产品较稳定;
(3)如果产品质量在区间(95,105)内为合格,那么这个工厂生产的产品合格率是多少?
解 (1)系统抽样.
(2)甲车间
=(102+101+99+98+103+98+99)=100,
=[(102-100)2+(101-100)2+…+(99-100)2]=.
乙车间
= (105+102+97+92+96+101+107)=100,
=[(105-100)2+(102-100)2+…+(107-100)2]=24.
因为=,<,所以甲车间的产品稳定.
(3)共抽查了14件产品,其中合格的有102,101,99,98,103,98,99,102,97,96,101共11件,所以合格率为.
18.(16分)从甲、乙两种玉米苗中各抽10株,分别测得它们的株高如下(单位:cm)
甲:25 41 40 37 22 14 19 39 21 42
乙:27 16 44 27 44 16 40 40 16 40
问:(1)哪种玉米的苗长得高?
(2)哪种玉米的苗长得齐?
解 (1)甲=(25+41+40+37+22+14+19+39+21+42)=×300=30 (cm),
乙=(27+16+44+27+44+16+40+40+16+40)
=×310=31(cm).
∴甲<乙,即乙种玉米的苗长得高.
(2)=[(25-30)2+(41-30)2+(40-30)2+(37-30)2+(22-30)2+(14-30)2+(19-30)2+(39-30)2+(21-30)2+(42-30)2]
= (25+121+100+49+64+256+121+81+81+144)
=×1 042=104.2 (cm2),
=[(27-31)2×2+(16-31)2×3+(44-31)2×2+(40-31)2×3]
=×1 288=128.8 (cm2).
∴<.
即乙种玉米的苗长得高,甲种玉米的苗长得整齐.
19.(16分)假设关于某设备的使用年限x和所支出的维修费用y(万元)有如下的统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知y对x呈线性相关关系;
试求:(1)线性回归方程y=x+的回归系数,;
(2)估计使用年限为10年时,维修费用是多少?
解 (1)制表如下:
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
xiyi
4.4
11.4
22.0
32.5
42.0
112.3
4
9
16
25
36
90
=4;=5
;
于是===1.23;
=-=5-1.23×4=0.08.
(2)回归直线方程为y=1.23x+0.08,
当x=10年时,
y=1.23×10+0.08=12.3+0.08=12.38(万元),
即估计使用10年时,维修费用是12.38万元.
20.(16分)对某校学生进行心理障碍测试得到如下列联表.
焦虑
说谎
懒惰
总计
女生
5
10
15
30
男生
20
10
50
80
总计
25
20
65
110
试说明在这三种心理障碍中哪一种与性别关系最大?
解 对于上述三种心理障碍分别构造三个随机变量
,,.
由表中数据可得
=≈0.863<2.706,
=≈6.366>5.024,
=≈1.410<2.706.
所有没有充分的证明显示焦虑与性别有关,
有97.5%的把握认为说谎与性别有关,
没有充分的证明显示懒惰与性别有关.