- 1.41 MB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
§10.1 随机抽样
[知识梳理]
1.抽样调查
(1)抽样调查
通常情况下,从调查对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标作出推断,这就是抽样调查.
(2)总体和样本
调查对象的全体称为总体,被抽取的一部分称为样本.
(3)抽样调查与普查相比有很多优点,最突出的有两点:
①迅速、及时;
②节约人力、物力和财力.
2.简单随机抽样
(1)简单随机抽样时,要保证每个个体被抽到的概率相同.
(2)通常采用的简单随机抽样的方法:抽签法和随机数法.
3.分层抽样
(1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样.
(2)分层抽样的应用范围:
当总体是由差异明显的几个部分组成时,往往选用分层抽样.
4.系统抽样
系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照
简单随机抽样抽取第一个样本,然后按分组的间隔(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机械抽样.
【思考辨析】
判断下面结论是否正确(请在括号中打“√”或“×”)
(1)简单随机抽样是一种不放回抽样.( )
(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( )
(3)系统抽样在起始部分抽样时采用简单随机抽样.( )
(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )
(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )
答案:(1)√ (2)× (3)√ (4)× (5)×
[基础自测]
1.(教材改编)某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( )
A.33人,34人,33人 B.25人,56人,19人
C.20人,40人,30人 D.30人,50人,20人
解析:选B.因为125∶280∶95=25∶56∶19,
所以抽取人数分别为25人,56人,19人.
2.(2015·高考四川卷)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )
A.抽签法 B.系统抽样法
C.分层抽样法 D.随机数法
解析:选C.根据年级不同产生差异及按人数比例抽取易知应为分层抽样法.
3.(2017·山东青岛模拟)某工厂生产A,B,C三种不同型号的产品,产品的数量之比依次为3∶4∶7,现在用分层抽样的方法抽出容量为n的样本,样本中A型号产品有15件,那么样本容量n为( )
A.50 B.60
C.70 D.80
解析:选C.由分层抽样方法得×n=15,解得n=70,故选C.
4.(2017·重庆高三联考)某高中共有1 200人,其中高一、高二、高三年级的人数依次成等差数列.现用分层抽样的方法从中抽取48人,那么高二年级被抽取的人数为________.
解析:设高一、高二、高三年级的人数分别为a-d,a,a+d,则有3a=1 200,所以a=400,则高二年级被抽取的人数为48×=16.
答案:16
类型一 简单随机抽样
第十章 统计与统计案例大一轮复习 BSD数学(文)[例1] (1)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
A.08 B.07
C.02 D.01
解析 由题意知前5个个体的编号为08,02,14,07,01.
答案 D
(2)下列抽取样本的方式不属于简单随机抽样的有________.
①从无限多个个体中抽取100个个体作为样本;
②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;
③从20件玩具中一次性抽取3件进行质量检验;
④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.
解析 ①不是简单随机抽样.
②不是简单随机抽样.由于它是放回抽样.
③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.
④
不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.
答案 ①②③④
[方法引航] 应用简单随机抽样应注意的问题
(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.
(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.
1.(1)(2017·陕西西工大附中模拟训练)某班级有男生20人,女生30人,从中抽取10人作为样本,其中一次抽样结果是:抽到了4名男生、6名女生,则下列命题正确的是( )
A.这次抽样可能采用的是简单随机抽样
B.这次抽样一定没有采用系统抽样
C.这次抽样中每个女生被抽到的概率大于每个男生被抽到的概率
D.这次抽样中每个女生被抽到的概率小于每个男生被抽到的概率
解析:选A.利用排除法求解.这次抽样可能采用的是简单随机抽样,A正确;这次抽样可能采用系统抽样,男生编号为1~20,女生编号为21~50,间隔为5,依次抽取1号,6号,…,46号便可,B错误;这次抽样中每个女生被抽到的概率等于每个男生被抽到的概率,C和D均错误,故选A.
(2)(2017·河北唐山二模)用简单随机抽样的方法从含有100个个体的总体中抽取一个容量为5的样本,则个体M被抽到的概率为( )
A. B.
C. D.
解析:选C.一个总体含有100个个体,某个个体被抽到的概率为,用简单随机抽样方法从该总体中抽取容量为5的样本,则某个个体被抽到的概率为×5=.
类型二 系统抽样
[例2] (1)(2015·高考湖南卷)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )
A.3 B.4
C.5 D.6
解析 对数据进行分组,在区间[139,151]上有几组就有几个运动员.
35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.
答案 B
(2)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )
A.11 B.12
C.13 D.14
解析 由=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为==12.
答案 B
[引申探究]
1.本例(2)中条件不变,若第三组抽取的号码为44,则在第八组中抽得的号码是________.
解析:在第八组中抽得的号码为(8-3)×20+44=144.
答案:144
2.本例(2)中条件不变,若在编号为[481,720]中抽取8人,则样本容量为________.
解析:因为在编号[481,720]中共有720-480=240人,又在[481,720]中抽取8人,
所以抽样比应为240∶8=30∶1,又因为单位职工共有840人,所以应抽取的样本容量为=28.
答案:28
[方法引航] (1)系统抽样适用的条件是总体容量较大,样本容量也较大.
(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.
(3)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定.
2.(1)(2017·吉林模拟)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )
A.7 B.9
C.10 D.15
解析:选C.采用系统抽样方法从960人中抽取32人,将整体分成32组,每组30人,第k组的号码为(k-1)30+9,令451≤(k-1)30+9≤750,而k∈Z,解得16≤k≤25,则满足16≤k≤25的整数k有10个.
(2)(2017·安徽宿州模拟)一个总体中有100个个体,随机编号为0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样的方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是________.
解析:∵m=6,k=7,m+k=13,∴在第7组中抽取的号码是63.
答案:63
类型三 分层抽样
[例3] (1)某初级中学有学生270人,其中七年级108人,八、九年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按七、八、九年级依次统一编号为1,2,…,270;使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段.如果抽得号码有下列四种情况:
①7,34,61,88,115,142,169,196,223,250;
②5,9,100,107,111,121,180,190,200,265;
③11,38,65,92,119,146,173,200,227,254;
④30,57,84,111,138,165,192,219,246,270;
关于上述样本的下列结论中,正确的是( )
A.②③都不能为系统抽样
B.②④都不能为分层抽样
C.①④都可能为系统抽样
D.①③都可能为分层抽样
解析 对于系统抽样,应在1~27,28~54,55~81,82~108,109~135,136~162,163~189,190~216,217~243,244~270中各抽取1个号;对于分层抽样,七年级编号1~108,八年级编号109~189,九年级编号190~270,利用分层抽样可知,七年级抽取×10=4(人),八年级应抽取×10=3(人),九年级应抽取×10=3(人),所以应在1~108中抽取4个号,109~189中抽取3个号,190~270中抽取3个号.
答案 D
(2)某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.
解析 ∵分层抽样也叫按比例抽样,由题知学校总数为250所,∴应从小学中抽取×30=×30=18(所),同理可得从中学中抽取×
30=×30=9(所).
答案 18 9
[方法引航] 分层抽样问题类型及解题思路
(1)求某层应抽个体数量:按该层所占总体的比例计算.
(2)已知某层个体数量,求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算.
(3)确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.
3.(1)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.200,20
B.100,20
C.200,10
D.100,10
解析:选A.该地区中小学生总人数为
3 500+2 000+4 500=10 000,
则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A.
(2)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为____件.
解析:设乙设备生产的产品总数为x件,则甲设备生产的产品总数为(4 800-x)件.由分层抽样特点,结合题意可得=,解得x=1 800.
答案:1 800
[审题路线图系列]
五审图表找规律(五)
典例 (12分)某单位有2 000名职工,老年、中年、青年分布在管理、技术开发、营销、生产各部门中,如下表所示:
人数
管理
技术开发
营销
生产
共计
老年
40
40
40
80
200
中年
80
120
160
240
600
青年
40
160
280
720
1 200
共计
160
320
480
1 040
2 000
(1)若要抽取40人调查身体状况,则应怎样抽样?
(2)若要开一个25人的讨论单位发展与薪金调整方面的座谈会,则应怎样抽选出席人?
(3)若要抽20人调查对广州亚运会举办情况的了解,则应怎样抽样?
审题路线图
抽取40人调查身体状况
↓(观察图表中的人数分类统计情况)
样本人群应受年龄影响
↓(表中老、中、青分类清楚,人数确定)
要以老、中、青分层,用分层抽样
↓要开一个25人的座谈会
↓(讨论单位发展与薪金调整)
样本人群应受管理、技术开发、营销、生产方面的影响
↓(表中管理、技术开发、营销、生产分类清楚,人数确定)
要以管理、技术开发、营销、生产人员分层,用分层抽样
↓要抽20人调查对广州亚运会举办情况的了解
↓(可认为亚运会是大众体育盛会,一个单位人员对情况
了解相当)
将单位人员看作一个整体
↓(从表中数据看总人数为2 000人)
人员较多,可采用系统抽样
规范解答
(1)按老年、中年、青年分层,用分层抽样法抽取,1分
抽取比例为=.2分
故老年人、中年人、青年人各抽取4人、12人、24人.4分
(2)按管理、技术开发、营销、生产分层,用分层抽样法抽取,5分
抽取比例为=,6分
故管理、技术开发、营销、生产各部门抽取2人、4人、6人、13人.8分
(3)用系统抽样,
对全部2 000人随机编号,号码从0001~2000,每100号分为一组,从第一组中用简单随机抽样抽取一个号码,然后将这个号码分别加100,200,…,1 900,共20人组成一个样本.12分
温馨提醒 (1)本题审题的关键有两点,一是对图表中的人员分类情况和数据要审视清楚;二是对样本的功能要审视准确.
(2)本题易错点是,对于第(2)问,由于对样本功能审视不准确,按老、中、青三层分层抽样.
思想方法 感悟提高
[方法与技巧]
1.简单随机抽样的特点:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小;用简单随机抽样法抽取的个体带有随机性;个体间无固定间距.
2.系统抽样的特点:适用于元素个数很多且均衡的总体;各个个体被抽到的机会均等;总体分组后,在起始部分抽样时,采用简单随机抽样.
3.分层抽样的特点:适用于总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.
[失误与防范]
进行分层抽样时应注意以下几点:
(1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是层内样本的差异要小,两层之间的样本差异要大,且互不重叠.
(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.
课时规范训练[单独成册]
[A组 基础演练]
(时间:25分钟)
1.已知某中学高三文科班学生共有800人参加了数学与地理的水平测试,学校决定利用随机数表法从中抽取100人进行成绩抽样调查,先将800人按001,002,…,800进行编号.如果从第8行第7列的数开始向右读,请你依次写出最先检查的3个人的编号(下面摘取了第7行到第9行)( )
84 42 17 53 31 57 24 55 06 88 77 04
74 47 67 21 76 33 50 25 83 92 12 06
76(第7行)
63 01 63 78 59 16 95 56 67 19 98 10
50 71 75 12 86 73 58 07 44 39 52 38
79(第8行)
33 21 12 34 29 78 64 56 07 82 52 42
07 44 38 15 51 00 13 42 99 66 02 79
54(第9行)
A.785,667,810 B.785,667,199
C.785,566,719 D.785,169,556
解析:选B.从第8行第7列的数开始向右读,依次检查的编号分别为785,916(舍),955(舍),667,199,….故最先检查的3个人的编号为785,667,199.
2.一个单位有职工800人,其中具有高级职称的有160人,具有中级职称的有320人,具有初级职称的有200人,其余人员120人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是( )
A.12,24,15,9 B.9,12,12,7
C.8,15,12,5 D.8,16,10,6
解析:选D.因为=,故各层中依次抽取的人数分别是=8,=16,=10,=6.故选D.
3.某城市修建经济适用房.已知甲、乙、丙三个社区分别有低收入家庭360户、270户、180户,若首批经济适用房中有90套住房用于解决住房紧张问题,采用分层抽样的方法决定各社区户数,则应从乙社区中抽取低收入家庭的户数为( )
A.40 B.36
C.30 D.20
解析:选C.利用分层抽样的比例关系,
设从乙社区抽取n户,则=.
解得n=30.
4.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100
C.180 D.300
解析:选C.设该样本中的老师教师人数为x,由题意及分层抽样的特点得=,故x=180.
5.某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50号,并分组,第一组1~5号,第二组6~10号,…
,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为________的学生.
解析:因为12=5×2+2,即第三组抽出的是第二个同学,所以每一组都相应抽出第二个同学.所以第8组中抽出的号码为5×7+2=37.
答案:37
6.某校共有学生2 000名,各年级男、女学生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为________.
一年级
二年级
三年级
女生
373
x
y
男生
377
370
z
解析:依题意可知二年级的女生有380人,那么三年级的学生人数应该是2 000-373-377-380-370=500,即总体中各个年级的人数比为3∶3∶2,故在分层抽样中应在三年级抽取的学生人数为64×=16.
答案:16
7.用系统抽样法从160名学生中抽取容量为20的样本,将160名学生从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为123,则第2组中应抽出个体的号码是________.
解析:由题意可知,系统抽样的组数为20,间隔为8,设第1组抽出的号码为x,则由系统抽样的法则可知,第n组抽出个体的号码应该为x+(n-1)×8,所以第16组应抽出的号码为x+(16-1)×8=123,解得x=3,所以第2组中应抽出个体的号码为3+(2-1)×8=11.
答案:11
8.某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.
解析:由题意及分层抽样的方法可得,从一年级本科生中抽取的学生人数为300×=60.
答案:60
9.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人.上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,请具体实施抽取.
解:用分层抽样方法抽取.
具体实施抽取如下:
(1)∵20∶100=1∶5,∴=2,=14,=4,
∴从副处级以上干部中抽取2人,从一般干部中抽取14人,从工人中抽取4人.
(2)副处级以上干部与工人的人数较少,他们分别按1~10编号与1~20编号,然后采用抽签法分别抽取2人和4人;对一般干部70人采用00,01,02,…,69编号,然后用随机数法抽取14人.
(3)将2人,4人,14人的编号汇合在一起就取得了容量为20的样本.
[B组 能力突破]
(时间:25分钟)
10.某工厂的三个车间在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从第一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为( )
A.800 B.1 000
C.1 200 D.1 500
解析:选C.因为a,b,c成等差数列,所以2b=a+c.
所以=b.所以第二车间抽取的产品数占抽样产品总数的.根据分层抽样的性质,可知第二车间生产的产品数占总数的,即为×3 600=1 200.
11.福利彩票“双色球”中红色球的号码由编号为01,02,…,33的33个个体组成,某彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为( )
49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64
57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
A.23 B.09
C.02 D.17
解析:选C.从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.
12.某学校三个兴趣小组的学生人数分布如下表(每名学生只参加一个小组)(单位:人)
篮球组
书画组
乐器组
高一
45
30
a
高二
15
10
20
学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.
解析:由分层抽样知识,得12∶(45+15)=(30-12)∶(30+10+a+20),∴a=30.
答案:30
13.一个总体中有90个个体,随机编号0,1,2,…,89,依从小到大的编号顺序平均分成9个小组,组号依次为1,2,3,…,9.现用系统抽样方法抽取一个容量为9的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同,若m=8,则在第8组中抽取的号码.
解:由题意知:m=8,k=8,则m+k=16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.
14.某公路设计院有工程师6人,技术员12人,技工18人,要从这些人中抽取n个人参加市里召开的科学技术大会.如果采用系统抽样和分层抽样的方法抽取,不用剔除个体,如果参会人数增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,求n.
解:总体容量为6+12+18=36.
当样本容量是n时,由题意知,系统抽样的间隔为,分层抽样的比例是,抽取的工程师人数为×6=,技术员人数为×12=,技工人数为×18=,
所以n应是6的倍数,36的约数,即n=6,12,18.
当样本容量为(n+1)时,总体容量是35人,系统抽样的间隔为,因为必须是整数,所以n只能取6.即样本容量n=6.
§10.2 统计图表、用样本估计总体
[知识梳理]
1.统计图表
统计图表是表达和分析数据的重要工具,常用的统计图表有条形统计图、扇形统计图、折线统计图、茎叶图等.
2.数据的数字特征
(1)众数、中位数、平均数
众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.
中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数.
平均数:样本数据的算术平均数,即=(x1+x2+…+xn).
在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(2)样本方差、标准差
标准差s=,其中xn是样本数据的第n项,n是样本容量,是平均数.标准差是刻画数据的离散程度的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.
3.用样本估计总体
(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的频率分布,另一种是用样本的数字特征估计总体的数字特征.
(2)在频率分布直方图中,纵轴表示,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.
(3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图.
(4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且可以随时记录,方便表示与比较.
【思考辨析】
判断下面结论是否正确(请在括号中打“√”或“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( )
(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( )
(6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( )
答案:(1)√ (2)× (3)√ (4)× (5)√ (6)×
[基础自测]
1.(2015·高考陕西卷)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )
A.93 B.123
C.137 D.167
解析:选C.由题干扇形统计图可得该校女教师人数为:110×70%+150×(1-60%)=137.故选C.
2.(2016·高考山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60
C.120 D.140
解析:选D.由频率分布直方图可知,每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,所以每周的自习时间不少于22.5小时的人数是200×0.7=140.
3.(2016·高考全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
解析:选D.根据图中的数据结合选项逐一判断.
从题中提供的信息及图中标注的数据可以看出:深色的图案是一年十二个月中各月份的平均最低气温,颜色稍微浅一点的图案是一年十二个月中各月份的平均最高气温,结合四个选项可以确定D不正确.因为从图中可以看出,平均最高气温高于20 ℃的只有七、八两个月份.故应选D.
4.(教材改编)某赛季,甲、乙两名篮球运动员都参加了11场比赛,他们每场比赛得分的情况用如图所示的茎叶图表示,则甲、乙两名运动员得分的中位数分别为________.
答案:19,13
5.(2017·陕西汉中模拟)某中学为了了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生数是________.
解析:由频率分布直方图易得数学考试中成绩小于60分的频率为(0.002+0.006+0.012)×10=0.2,所以所求分数小于60分的学生数为3 000×0.2=600.
答案:600
类型一 频率分布直方图的绘制与应用
[例1] (2016·高考四川卷)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.
解 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04,同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.
由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,
解得a=0.30.
(2)由(1),100位居民每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.
由0.3×(x-2.5)=0.85-0.73,解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.
[方法引航] (1)明确频率分布直方图的意义,即图中的每一个小矩形的面积是数据落在该区间上的频率,所有小矩形的面积和为1.
(2)对于统计图表类题目,最重要的是认真观察图表,从中提炼有用的信息和数据.
1.(1)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6 B.8
C.12 D.18
解析:选C.志愿者的总人数为=50,
所以第三组人数为50×0.36=18,
有疗效的人数为18-6=12.
(2)某校从参加高一年级期中考试的学生中随机抽出60名学生,将其物理成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图所示的频率分布直方图,观察图形的信息,回答下列问题:
①求分数在[70,80)内的频率,并补全这个频率分布直方图;
②统计方法中,同一组数据常用该组区间的中点值作为代表,据此估计本次考试中的平均分.
解:①设分数在[70,80)内的频率为x,根据频率分布直方图,有(0.010+0.015×2+0.025+0.005)×10+x=1,可得x=0.3,所以频率分布直方图如图所示.
②平均分:45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71(分).
类型二 茎叶图的应用
[例2] (1)(2015·高考山东卷)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④
C.②③ D.②④
解析 甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.
答案 B
(2)以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).
已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )
A.2,5 B.5,5
C.5,8 D.8,8
解析 由茎叶图及已知得x=5,又乙组数据的平均数为16.8,即=16.8,解得y=8.
答案 C
[引申探究]
1.本例(2)中条件不变,试比较甲、乙两组哪组成绩较好.
解:由原题可知x=5,
则甲组平均分为=17.4.
而乙组平均分为16.8,所以甲组成绩较好.
2.在本例(2)条件下:①求乙组数据的中位数、众数;②求乙组数据的方差.
解:①由茎叶图知,乙组中五名学生的成绩为9,15,18,18,24.
故中位数为18,众数为18.
②s2=[(9-16.8)2+(15-16.8)2+(18-16.8)2×2+(24-16.8)2]=23.76.
[方法引航] 茎叶图的优缺点
由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐.
2.某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为
=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(注:考生利用其他统计量进行分析,结论合理的同样给分.)
类型三 用样本的数字特征估计总体的数字特征
[例3] (2015·高考广东卷)某工厂36名工人的年龄数据如下表.
(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;
(2)计算(1)中样本的均值和方差s2;
(3)36名工人中年龄在-s与+s之间有多少人?所占的百分比是多少(精确到0.01%)?
解 (1)36人分成9组,每组4人,其中第一组的工人年龄为44,所以它在组中的编号为2,
所以所有样本数据的编号为4n-2(n=1,2,…,9),
其年龄数据为:44,40,36,43,36,37,44,43,37.
(2)由均值公式知:==40,
由方差公式知:s2=[(44-40)2+(40-40)2+…+(37-40)2]=.
(3)因为s2=,s=,
所以36名工人中年龄在-s和+s之间的人数等于年龄在区间[37,43]上的人数,
即40,40,41,…,39,共23人.
所以36名工人中年龄在-s和+s之间的人数所占的百分比为×100%≈63.89%.
[方法引航] 平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.
3.(1)(2015·高考湖北卷)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得
米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )
A.134石 B.169石
C.338石 D.1 365石
解析:选B.254粒和1 534石中夹谷的百分比含量是大致相同的,可据此估计这批米内夹谷的数量.
设1 534石米内夹谷x石,则由题意知=,解得x≈169.故这批米内夹谷约为169石.
(2)设样本数据x1,x2,…,x10的均值和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的均值和方差分别为( )
A.1+a,4 B.1+a,4+a
C.1,4 D.1,4+a
解析:选A.=1,yi=xi+a,所以y1,y2,…,y10的均值为1+a,方差不变仍为4.故选A.
学科培优——高频微考点
高考中频率分布直方图的应用(九)
典例 (12分)(2015·高考广东卷)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图所示.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
[解] (1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1得x=0.007 5,
∴直方图中x的值为0.007 5.[3分]
(2)月平均用电量的众数是=230.[4分]
因为(0.002+0.009 5+0.011)×20=0.45<0.5,所以月平均用电量的中位数在[220,240)内,设中位数为a,由(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5,得:a=224,所以月平均用电量的中位数是224.[8分]
(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户),月平均用电量为[240,260)的用户有0.007 5×20×100=15(户),月平均用电量为[260,280)的用户有0.005×20×100=10(户),月平均用电量为[280,300]的
用户有0.002 5×20×100=5(户),抽取比例==,所以月平均用电量在[220,240)的用户中应抽取25×=5(户).[12分]
温馨提醒
本题的难点是对频率分布直方图意义的理解以及利用这个图提供的数据对所提问题的计算,频率分布直方图中纵轴上的数据是频率除以组距,组距越大该数据越小,在解答这类问题时要特别注意.
思想方法 感悟提高
[方法与技巧]
1.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致.通过频率分布表和频率分布直方图可以对总体作出估计.
2.茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.茎叶图由所有样本数据构成,没有损失任何样本信息,可以随时记录;而频率分布表和频率分布直方图则损失了样本的一些信息,必须在完成抽样后才能制作.
3.若取值x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均值为x1p1+x2p2+…+xnpn;若x1,x2,…,xn的平均数为,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数为a+b,方差为a2s2.
[失误与防范]
频率分布直方图的纵坐标为频率/组距,每一个小长方形的面积表示样本个体落在该区间内的频率;条形图的纵坐标为频数,把直方图视为条形图是常见的错误.
课时规范训练[单独成册]
[A组 基础演练]
(时间:35分钟)
1.在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据都加2后所得数据,则A,B两样本的下列数字特征对应相同的是( )
A.众数 B.平均数
C.中位数 D.标准差
解析:选D.B样本数据恰好是A样本数据都加2后所得数据,众数、中位数、平均数比原来的都多2,而标准差不变.
2. 如图所示的茎叶图是甲、乙两位同学在期末考试中的六科成绩,已知甲同学的平均成绩为85,乙同学的六科成绩的众数为84,则x,y的值为( )
A.2,4 B.4,4
C.5,6 D.6,4
解析:选D.甲==85,解得x=6,由图可知y=4.
3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )
A.45 B.50
C.55 D.60
解析:选B.由频率分布直方图,知低于60分的频率为(0.01+0.005)×20=0.3.
∴该班学生人数n==50.
4.样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其方差为( )
A. B.
C. D.2
解析:选D.依题意得m=5×1-(0+1+2+3)=-1,样本方差s2=(12+02+12+22+22)=2,即所求的样本方差为2.
5. 右图为某商场一天营业额的扇形统计图,根据统计图你能得到下列错误的信息为( )
A.该商场家用电器销售额为全商场营业额的40%
B.服装鞋帽和百货日杂共售出29 000元
C.副食的销售额为该商场营业额的10%左右
D.家用电器部所得利润最高
解析:选D.由扇形图知一天营业额中40%的家用电器,但是不能确定其利润最高,故D错误.
6.如图是某青年歌手大奖赛上七位评委为甲、乙两名选手打出的分数的茎叶图(其中m为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1、a2,则一定有( )
A.a1>a2 B.a2>a1
C.a1=a2 D.a1,a2的大小与m的值有关
解析:选B.去掉一个最高分和一个最低分后,甲选手叶上的数字之和是20,乙选手叶上的数字之和是25,故a2>a1.故选B.
7. 某一段公路限速60公里/小时,现抽取200辆通过这一段公路的汽车的时速,其频率分布直方图如图所示,则这200辆汽车中在该路段超速的有_____辆.
解析:由频率分布直方图可得超速的频率为0.04×10+0.02×10=0.6,所以该路段超速的有200×0.6=120(辆).
答案:120
8. 某校开展“爱我无锡、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应该是________.
解析:若茎叶图中的x对应的分数为最高分,则有平均分=≈91.4≠91.故最高分应为94.
故去掉最高分94,去掉最低分88,其平均分为91,
∴=91,解得x=1.
答案:1
9.某车间20名工人年龄数据如下表:
(1)求这20名工人年龄的众数与极差;
(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;
(3)求这20名工人年龄的方差.
解:(1)由题表中的数据易知,这20名工人年龄的众数是30,极差为40-19=21.
(2)这20名工人年龄的茎叶图如下:
(3)这20名工人年龄的平均数=(19×1+28×3+29×3+30×5+31×4+32×3+40×1)=30,
故方差s2=[1×(19-30)2+3×(28-30)2+3×(29-30)2+5×(30-30)2+4×(31-30)2+3×(32-30)2+1×(40-30)2]=×(121+12+3+0+4+12+100)=12.6.
[B组 能力突破]
(时间:20分钟)
10. 已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值=________.
解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m=3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以有=33,所以n=8,所以=.
答案:
11.某初一年级有500名同学,将他们的身高(单位:cm)数据绘制成频率分布直方图(如图),若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取30人参加一项活动,则从身高在[130,140)内的学生中选取的人数应为________.
解析:由频率分布直方图可得,频率之和为10×(0.035+a+0.020+0.010+0.005)=1,解得a=0.030,由此可得身高在[120,130),[130,140),[140,150]的频率分别为10×0.030=0.3,10×0.020=0.2,10×0.010=0.1,由此可得此三组的人数分别为150,100,50,共300人,要从中抽取30人,则每一个个体被抽入样的概率为=,其中身高在[130,140)内的学生中选取的人数为100×=10.
答案:10
12.某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=__________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为__________.
解析:(1)利用各小矩形的面积和为1,建立关于a的方程,解方程求a.
由0.1×1.5+0.1×2.5+0.1a+0.1×2.0+0.1×0.8+0.1×0.2=1,解得a=3.
(2)计算[0.5,0.9]内的频率,利用频数=总体容量×频率求解.
区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故[0.5,0.9]内的频率为1-0.4=0.6.
因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.
答案:(1)3 (2)6 000
13.某校高三年级文科学生600名,从参加期末考试的学生中随机抽出某班学生(该班共有50名同学),并统计了他们的数学成绩(成绩均为整数且满分为150分),数学成绩分组及各组频数如下表:
分组
频数
频率
[45,60)
2
0.04
[60,75)
4
0.08
[75,90)
8
0.16
[90,105)
11
0.22
[105,120)
15
0.30
[120,135)
a
b
[135,150]
4
0.08
合计
50
1
(1)写出a,b的值;
(2)估计该校文科生数学成绩在120分以上学生人数;
(3)该班为提高整体数学成绩,决定成立“二帮一”小组,即从成绩在[135,150]中选两位同学,来帮助成绩在[45,60)中的某一位同学.已知甲同学的成绩为56分,乙同学的成绩为145分,求甲、乙在同一小组的概率.
解:(1)因为频率总和是1,
所以b=1-(0.04+0.08+0.16+0.22+0.30+0.08)=0.12.∴第6行的频数为50×0.12=6.
∴a,b的值分别为6,0.12.
(2)成绩在120分以上的有6+4=10(人).
所以估计该校文科生数学成绩在120分以上的学生有×600=120(人).
(3)[45,60)内的有2人,记为甲、A;[135,150]内的有4人,记为乙、B、C、D.
“二帮一”小组有以下6种分组办法:(甲乙B,ACD)、(甲乙C,ABD),(甲乙D,ABC),(甲BC,A乙D),(甲BD,A乙C),(甲CD,A乙B).
其中甲、乙两同学被分在同一小组有3种办法:(甲乙B,ACD),(甲乙C,ABD),(甲乙D,ABC).
所以甲、乙在同一小组的概率为P==.
§10.3 相关性、最小二乘估计、回归分析与独立性检验
[知识梳理]
1.相关性
(1)通常将变量所对应的点描述出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.
(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.
(3)在两个变量x和y的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.
2.线性回归方程
(1)最小二乘法
如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2来刻画这些点与直线y=a+bx的接近程度,使得上式达到最小值的直线y=a+bx就是所要求的直线,这种方法称为最小二乘法.
(2)线性回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的线性回归方程,其中a,b是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,(,
eq o(y,sup12(-)))称为样本点的中心.
(3)相关系数
①r=
=
②当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关;
当r=0时,表明两个变量线性不相关.
r的绝对值越接近于1,表明两个变量之间的线性相关程度越高.r的绝对值越接近于0,表明两个变量之间的线性相关程度越低.
4.独立性检验
设A,B为两个变量,每一个变量都可以取两个值,
变量A:A1,A2=1;变量B:B1,B2=1;
2×2列联表:
构造一个随机变量
χ2=.
利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B没有关联的;
当χ2>2.706时,有90%的把握判定变量A,B有关联;
当χ2>3.841时,有95%的把握判定变量A,B有关联;
当χ2>6.635时,有99%的把握判定变量A,B有关联.
【思考辨析】
判断下面结论是否正确(请在括号中打“√”或“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得线性回归方程y=-2.352x+147.767,则气温为2 ℃时,一定可卖出143杯热饮.( )
(5)变量A、B关系越密切,则由观测数据计算得到的χ2的值越大.( )
(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
答案:(1)× (2)√ (3)√ (4)× (5)√ (6)×
[基础自测]
1.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查对临界值表知P(χ2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
解析:选C.由已知数据可得有1-0.05=95%的把握认为“患肺病与吸烟有关”.
2.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归直线方程是y=x+a,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数a的值是( )
A. B.
C. D.
解析:选B.依题意可知样本点的中心为,
则=×+a,解得a=.
3.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是( )
A.有99%的人认为该电视栏目优秀
B.有99%的人认为该电视栏目是否优秀与改革有关系
C.有99%的把握认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
解析:选D.只有χ2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使χ2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.
4.(2017·湖南三校联考)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:
x
16
17
18
19
y
50
34
41
31
由上表可得线性回归方程y=bx+a中的b=-4,据此模型预测零售价为15元时,每天的销售量为( )
A.51个 B.50个
C.49个 D.48个
解析:选C.由题意知=17.5,=39,代入线性回归方程得a=109,109-15×4=49,故选C.
5.(教材改编)在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填“有关”或“无关”).
答案:有关
类型一 相关关系的判断
[例1] (1)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r20,则z=by+a=-0.1bx+b+a,故x与z负相关.
答案 C
[方法引航] 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:b>0时,正相关;b<0时,负相关.
1.(1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:
①y与x负相关且y=2.347x-6.423;
②y与x负相关且y=-3.476x+5.648;
③y与x正相关且y=5.437x+8.493;
④y与x正相关且y=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
解析:选D.由线性回归方程y=bx+a知当b>0时,y与x正相关,当b<0时,y与x负相关,∴①④一定错误.
(2)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r20;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,所以选C.
类型二 线性回归分析
[例2] (2016·高考全国丙卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,
回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为:b=,a=-b.
解 (1)由折线图中的数据和附注中的参考数据得
=4, (ti-)2=28, =0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
b==≈0.103,
a=-b≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为y=0.92+0.10t.
将2016年对应的t=9代入回归方程得
y=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.
2.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程y=bx+a,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少小时?
(注:b=,a=-b)
解:(1)散点图如图.
(2)由表中数据得:iyi=52.5,
=3.5,=3.5,=54,
∴b=0.7,∴a=1.05,
∴y=0.7x+1.05,回归直线如图所示.
(3)将x=10代入线性回归方程,
得y=0.7×10+1.05=8.05,
故预测加工10个零件约需要8.05小时.
类型三 独立性检验
[例3] (2017·江西南昌模拟)大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞.某高校文学社从男女生中各抽取50名同学调查他们对莫言作品的了解程度,结果如下:
阅读过
莫言的
作品数(篇)
0~25
26~50
51~75
76~100
101~130
男生
3
6
11
18
12
女生
4
8
13
15
10
(1)试估计该校学生阅读莫言作品超过50篇的概率;
(2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了解”,否则为“一般了解”.根据题意完成下表,并判断能否有75%的把握认为对莫言作品非常了解与性别有关?
非常了解
一般了解
总计
男生
女生
总计
附:χ2=
P(χ2
≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
解 (1)由抽样调查得阅读莫言作品在50篇以上的频率为=,据此估计该校学生阅读莫言作品超过50篇的概率约为.
(2)
非常了解
一般了解
总计
男生
30
20
50
女生
25
25
50
总计
55
45
100
根据列联表数据得
χ2=≈1.010<1.323,
所以没有75%的把握认为对莫言作品非常了解与性别有关.
3.心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
根据以上数据能否判断有97.5%的把握认为视觉和空间想象能力与性别有关?
附表及公式:
P(χ2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
χ2=
解:由2×2列联表中数据得χ2==≈5.556>5.024,
所以有97.5%的把握认为视觉和空间想象能力与性别有关.
[思想与方法系列]
求线性回归方程的方法技巧(二十)
典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2006
2008
2010
2012
2014
需求量/万吨
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的线性回归方程y=bx+a;
(2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.
[解] (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求线性回归方程,先将数据处理如下:
年份-2010
-4
-2
0
2
4
需求-257
-21
-11
0
19
29
对处理的数据,容易算得=0,=3.2,[4分]
b=
==6.5,
a=-b=3.2.[6分]
由上述计算结果,知所求线性回归方程为
y-257=6.5(x-2010)+3.2,
即y=6.5(x-2010)+260.2.[8分]
(2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]
[警示] 求线性回归方程时,重点考查的是计算能力.若本题用一般法去解,计算更烦琐(如年份、需求量,不做如上处理),所以平时训练时遇到数据较大的题目时,要考虑有没有更简便的方法解决.
思想方法 感悟提高
[方法与技巧]
1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.
2.根据χ2的值可以判断两个分类变量有关的可信程度.
[失误与防范]
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
2.独立性检验中统计量χ2
的值的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.
课时规范训练[单独成册]
[A组 基础演练]
(时间:45分钟)
1.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的线性回归方程为y=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析:选B.作出散点图如下:
观察图像可知,回归直线y=bx+a的斜率b<0,
当x=0时,y=a>0.故a>0,b<0.
2.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
则下面的正确结论是( )
附表及公式
P(χ2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
χ2=
A.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’
与性别无关”
C.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:选A.由2×2列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得χ2=≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:选D.由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(,),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.
4.根据如下样本数据:
x
3
4
5
6
7
y
4.0
a-5.4
-0.5
0.5
b-0.6
得到的回归直线方程为y=bx+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,y就( )
A.增加1.4个单位 B.减少1.4个单位
C.增加7.9个单位 D.减少7.9个单位
解析:选B.依题意得,=0.9,故a+b=6.5①,又样本点的中心为(5,0.9),故0.9=5b+a②,联立①②,解得b=-1.4,a=7.9,则y=-1.4x+7.9,可知当x每增加1个单位时,y就减少1.4个单位.
5.已知某产品连续4个月的广告费用为xi(i=1,2,3,4)千元,销售额为yi(i=1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x1+x2+x3+x4=18,y1+y2+y3+y4=14;②广告费用x和销售额y之间具有较强的线性相关关系;③回归直线方程y=bx+a中的b=0.8(用最小二乘法求得),那么,当广告费用为6千元时,可预测销售额约为( )
A.3.5万元 B.4.7万元
C.4.9万元 D.6.5万元
解析:选B.依题意得=4.5,=3.5,由回归直线必过样本中心点得a=3.5-0.8×4.5=-0.1.当x=6时,y=0.8×6-0.1=4.7.
6.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归方程为y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.b>b′,a>a′ B.b>b′,aa′ D.ba′.
7.以下四个命题,其中正确的序号是________.
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③在线性回归方程y=0.2x+12中,当解释变量x每增加一个单位时,预报变量y平均增加0.2个单位;
④对分类变量X与Y的随机变量χ2来说,χ2越小,“X与Y有关系”的把握程度越大.
解析:①是系统抽样;对于④,随机变量χ2越小,说明两个相关变量有关系的把握程度越小.
答案:②③
8.某企业为了增强自身竞争力,计划对职工进行技术培训,以提高产品的质量.为了解某车间对技术培训的态度与性别的关系,对该车间所有职工进行了问卷调查,利用2×2列联表计算得χ2≈3.918,经查对临界值表知P(χ2≥3.841)≈0.05.由此,三位领导得出以下判断:
p:有95%的把握认为“对技术培训的态度与性别有关”;
q:没有95%的把握认为“对技术培训的态度与性别有关”;
r:有5%的把握认为“对技术培训的态度与性别有关”.
则下列结论中,正确结论的序号是________.(把你认为正确的命题序号都填上)
①p且(綈q);②(綈p)或q;③(綈p)且(綈q);④p或r.
解析:由题意,得χ2≈3.918,P(χ2≈3.841)≈0.05,所以只有p的判断正确,即有95%的把握认为“对技术培训的态度与性别有关”.由真值表知①④为真命题.
答案:①④
9.假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下表的统计资料:
使用年限x(年)
2
3
4
5
6
维修费用y(万元)
2.2
3.8
5.5
6.5
7.0
若由资料可知y对x呈线性相关关系,试求:
(1)线性回归方程;
(2)根据线性回归方程,估计使用年限为12年时,维修费用是多少?
解:(1)列表
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
xiyi
4.4
11.4
22.0
32.5
42.0
112.3
x
4
9
16
25
36
90
=4,=5;
=90;iyi=112.3
b===1.23,
于是a=-b=5-1.23×4=0.08,
所以线性回归方程为y=1.23x+0.08.
(2)当x=12时,y=1.23×12+0.08=14.84(万元),
即估计使用12年时,维修费用是14.84万元.
10.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填下面2×2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异?”
甲厂
乙厂
总计
优质品
非优质品
总计
附
P(χ2≥k)
0.05
0.01
k
3.841
6.635
解:(1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为×100%=72%;乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为×100%=64%.
(2)完成的2×2列联表如下:
甲厂
乙厂
总计
优质品
360
320
680
非优质品
140
180
320
总计
500
500
1 000
由表中数据计算得,
χ2==7.352>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
[B组 能力突破]
(时间:30分钟)
11.下列说法:
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程y=3-5x,变量x增加1个单位时,y平均增加5个单位;
③设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越强;
④在一个2×2列联表中,由计算得χ2的值,则χ2的值越大,判断两个变量间有关联的把握就越大.
以上,错误结论的个数为( )
A.0 B.1
C.2 D.3
解析:选C.方差反应一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差不变,故①正确;在线性回归方程y=3-5x中,变量x增加1个单位时,y平均减小5个单位,故②不正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r,|r|越接近于1,相关程度越强,故③不正确;对分类变量x与y的随机变量χ2来说,χ2越大,“x与y有关系”的可信程度越大,故④正确.综上所述,错误结论的个数为2,故选C.
12.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x(单位:元)和销售量y(单位:件)之间的四组数据如下表:
售价x
4
4.5
5.5
6
销售量y
12
11
10
9
为决策产品的市场指导价,用最小二乘法求得销售量y与售价x之间的线性回归方程为y=-1.4x+a,那么方程中的a值为( )
A.17 B.17.5
C.18 D.18.5
解析:选B.==5,
==10.5,
∵回归直线过样本点的中心,
∴a=10.5+1.4×5=17.5.故选B.
13.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①有95%的把握认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%;
④这种血清预防感冒的有效率为5%.
解析:χ2≈3.918≥3.841,而P(χ2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.
答案:①
14.某百货公司1~6月份的销售量x与利润y的统计数据如下表:
月份
1
2
3
4
5
6
销售量x(万件)
10
11
13
12
8
6
利润y(万元)
22
25
29
26
16
12
(1)根据2~5月份的数据,画出散点图,求出y关于x的线性回归方程y=bx+a;
(2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想?
解:(1)根据表中2~5月份的数据作出散点图,如图所示:
计算得=11,=24,
iyi=11×25+13×29+12×26+8×16=1 092,
=112+132+122+82=498,
则b=
==,
a=-b=24-×11=-.
故y关于x的线性回归方程为y=x-.
(2)当x=10时,y=×10-=,
此时<2;
当x=6时,y=×6-=,
此时<2.故所得的线性回归方程是理想的.
15.2016年4月14日,某财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关数据如下表:
(1)根据表中数据,求出s,t的值,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下认为使用淡化海砂与混凝土耐久性是否达标有关?
(2)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐久性都达标的概率是多少?
参考数据:
P(χ2≥k0)
0.10
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
参考公式:χ2=.
解:(1)s=30-15=15,t=30-25=5.
由已知数据可求得χ2=
=7.5>6.635.
因此,能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关.
(2)用分层抽样的方法在使用淡化海砂的样本中抽取了6个,其中应抽取“混凝土耐久性达标”的个数为×6=5.
“混凝土耐久性不达标”的个数为1.
“混凝土耐久性达标”的记为A1,A2,A3,A4,A5,“混凝土耐久性不达标”的记为B.
从这6个样本中任取2个,共有15种可能.
设“取出的2个样本混凝土耐久性都达标”为事件A,它的对立事件为“取出的2个样本至少有一个混凝土耐久性不达标”,包含(A1,B),(A2,B),(A3,B),(A4,B),(A5,B),共5种可能,所以P(A)=1-P()=1-=.故取出的2个样本混凝土耐久性都达标的概率是.