- 1.52 MB
- 2021-05-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
1
回归分析及独立性检验
一、选择题(本大题共 12 小题,共 60 分)
1. 设某中学的高中女生体重 单位: 与身高 单位: 具有线性相关关系,根据一组样本数据
2,3, , ,用最小二乘法近似得到回归直线方程为 ,则下列结论中不正确
的是
A. y 与 x 具有正线性相关关系
B. 回归直线过样本的中心点
C. 若该中学某高中女生身高增加 1cm,则其体重约增加
D. 若该中学某高中女生身高为 160cm,则可断定其体重必为
(正确答案)D
【分析】
本题考查了回归分析与线性回归方程的应用问题,是基础题目 根据回归分析与线性回归方程的意义,对选
项中的命题进行分析、判断正误即可.
【解答】
解:由于线性回归方程中 x 的系数为 ,因此 y 与 x 具有正的线性相关关系,A 正确;
由线性回归方程必过样本中心点 ,因此 B 正确;
由线性回归方程中系数的意义知,x 每增加 1cm,其体重约增加 ,C 正确;
当某女生的身高为 160cm 时,其体重估计值是 ,而不是具体值,因此 D 错误.
故选:D.
2. 为了研究某班学生的脚长 单位:厘米 和身高 单位:厘米 的关系,从该班随机抽取 10 名学生,根据
测量数据的散点图可以看出 y 与 x 之间有线性相关关系,设其回归直线方程为 ,已知 ,
, ,该班某学生的脚长为 24,据此估计其身高为
A. 160 B. 163 C. 166 D. 170
(正确答案)C
解:由线性回归方程为 ,
2
则 , ,
则数据的样本中心点 ,
由回归直线方程样本中心点,则 ,
回归直线方程为 ,
当 时, ,
则估计其身高为 166,
故选 C.
由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得 ,将 代入回归直线方程即
可估计其身高.
本题考查回归直线方程的求法及回归直线方程的应用,考查计算能力,属于基础题.
3. 为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表:
收入 x 万元
支出 y 万元
据上表得回归直线方程 ,其中 , ,据此估计,该社区一户收入为 15 万元家庭
年支出为
A. 万元 B. 万元 C. 万元 D. 万元
(正确答案)B
解:由题意可得 ,
,
代入回归方程可得 ,
回归方程为 ,
把 代入方程可得 ,
故选:B.
3
由题意可得 和 ,可得回归方程,把 代入方程求得 y 值即可.
本题考查线性回归方程,涉及平均值的计算,属基础题.
4. 下列说法错误的是
A. 回归直线过样本点的中心
B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于 1
C. 在回归直线方程 中,当解释变量 x 每增加 1 个单位时,预报变量 平均增加 个单位
D. 对分类变量 X 与 Y,随机变量 的观测值 k 越大,则判断“X 与 Y 有关系”的把握程度越小
(正确答案)D
解: 回归直线过样本点的中心 ,正确;
B.两个随机变量相关性越强,则相关系数的绝对值越接近 1,因此正确;
C.在线性回归方程 中,当 x 每增加 1 个单位时,预报量平均增加 个单位,正确;
D.对分类变量 X 与 Y 的随机变量 的观测值 k 来说,k 越大,“X 与 Y 有关系”可信程度越大,因此不正
确.
综上可知:只有 D 不正确.
故选:D.
利用线性回归的有关知识即可判断出.
本题考查了线性回归的有关知识,考查了推理能力,属于基础题.
5. 某产品的广告 费用 x 与销售额 y 的统计数据如下表:
广告费用 万元 2 3 4 5
销售额 万元 27 39 48 54
根据上表可得回归方程 中的 b 为 ,据此模型预报广告费用为 6 万元时销售额为
A. 万元 B. 万元 C. 万元 D. 万元
(正确答案)A
解: , ,
数据的样本中心点 在线性回归直线上,
回归方程 中的 b 为 ,
4
,
,
线性回归方程是 ,
广告费用为 6 万元时销售额为 ,
故选 A.
首先求出所给数据的平均数,得到样本中心点,根据线性回归直线过样本中心点,求出方程中的一个系数,
得到线性回归方程,把自变量为 6 代入,预报出结果.
本题考查线性回归方程的求法和应用,是一个基础题,本题解答关键是利用线性回归直线必定经过样本中
心点.
6. 观察下面频率等高条形图,其中两个分类变量 x,y 之间关系最强的是
A. B.
C. D.
(正确答案)D
解:在频率等高条形图中, 与 相差很大时,我们认为两个分类变量有关系,
四个选项中,即等高的条形图中 , 所占比例相差越大,则分类变量 x,y 关系越强,
故选 D.
在频率等高条形图中, 与 相差很大时,我们认为两个分类变量有关系,即可得出结论.
本题考查独立性检验内容,使用频率等高条形图,可以粗略的判断两个分类变量是否有关系,但是这种判
断无法精确的给出所的结论的可靠程度.
7. 某小卖部销售一品牌饮料的零售价 元 瓶 与销量 瓶 的关系统计如下:
零售价 元 瓶
销量 瓶 50 44 43 40 35 28
5
已知 x,y 的关系符合线性回归方程 ,其中 , 当单价为 元时,估计该小卖
部销售这种品牌饮料的销量为
A. 20 B. 22 C. 24 D. 26
(正确答案)D
解: ;
,
,
回归直线方程为: ,
当 时, ,
故选:D.
利用平均数公式计算平均数 , ,利用 求出 a,即可得到回归直线方程,把 代入回归方程求
出 y 值.
本题考查回归方程的求法,考查学生的计算能力,运算要细心.
8. 为考察 A、B 两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:
根据图中信息,在下列各项中,说法最佳的一项是
A. 药物 A、B 对该疾病均没有预防效果
B. 药物 A、B 对该疾病均有显著的预防效果
C. 药物 A 的预防效果优于药物 B 的预防效果
D. 药物 B 的预防效果优于药物 A 的预防效果
(正确答案)C
解:根据两个表中的等高条形图知,
药物 A 实验显示不服药与服药时患病的差异较药物 B 实验显示明显大,
6
药物 A 的预防效果优于药物 B 的预防效果.
故选:C.
根据两个表中的等高条形图看药物 A 的预防效果优于药物 B 的预防效果.
本题考查了等高条形图的应用问题,是基础题.
9. 下列说法错误的是
A. 回归直线过样本点的中心
B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于 1
C. 对分类变量 X 与 Y,随机变量 的观测值越大,则判断“X 与 Y 有关系”的把握程度越小
D. 在回归直线方程 中,当解释变量 x 每增加 1 个单位时预报变量 平均增加 个单位
(正确答案)C
解: 回归直线过样本点的中心 ,正确;
B.两个随机变量相关性越强,则相关系数的绝对值越接近 1,因此正确;
C.对分类变量 X 与 Y 的随机变量 的观测值 k 来说,k 越大,“X 与 Y 有关系”可信程度越大,因此不正确;
D.在线性回归方程 中,当 x 每增加 1 个单位时,预报量平均增加 个单位,正确.
综上可知:只有 C 不正确.
故选:C.
利用线性回归的有关知识即可判断出.
本题考查了线性回归的有关知识,考查了推理能力,属于中档题.
10. 在利用最小二乘法求回归方程 时,用到了如表中的 5 组数据,则表格 a 中的值为
x 10 20 30 40 50
y 62 a 75 81 89
A. 68 B. 70 C. 75 D. 72
(正确答案)A
解:由题意可得 , ,
因为回归直线方程 ,过样本点的中心点,
所以 ,解得
故选 A.
7
由题意回归直线方程 ,过样本点的中心点,即可得 a 的值.
本题考查线性回归方程,利用回归直线过样本点的中心点是解决问题的关键,属基础题.
11. 如表提供了某厂节能降耗改造后在生产 A 产品过程中记录的产量 吨 与相应的生产能耗 吨 的几组对
应数据,根据表中提供的数据,求出 y 关于 x 的线性回归方程为 ,则下列结论错误的是
x 3 4 5 6
y t 4
A. 线性回归直线一定过点
B. 产品的生产能耗与产量呈正相关
C. t 的取值必定是
D. A 产品每多生产 1 吨,则相应的生产能耗约增加 吨
(正确答案)C
解: ,
则 ,即线性回归直线一定过点 ,故 A 正确,
, 产品的生产能耗与产量呈正相关,故 B 正确,
,得 ,故 C 错误,
A 产品每多生产 1 吨,则相应的生产能耗约增加 吨,故 D 正确
故选:C
根据回归直线的性质分别进行判断即可.
本题主要考查命题的真假判断,根据回归直线的性质分别进行判断是解决本题的关键 比较基础.
12. 已知 x,y 的取值如表所示,若 y 与 x 线性相关,且 ,则
x 0 1 3 4
y
8
A. B. C. D.
(正确答案)A
解:由图表知, , ,
代入 ,得 ,解得 .
故选:A.
由图表求得 , ,代入回归直线方程得答案.
本题考查线性回归方程,关键是明确线性回归直线恒过样本中心点,是基础题.
二、填空题(本大题共 4 小题,共 20 分)
13. 给出下列命题:
线性相关系数 r 越大,两个变量的线生相关性越强;反之,线性相关性越弱;
由变量 x 和 y 的数据得到其回归直线方程 l: ,则 l 一定经过点 ;
从匀速传递的产品生产流水线上,质检员每 10 分钟从中抽取一件产品进行某项指标检测,这样的抽样是
分层抽样;
在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;
在回归直线方程 中,当解释变量 x 每增加一个单位时,预报变量 增加 个单位;
其中真命题的序号是______ .
(正确答案)
解: 线性相关系数 越大,两个变量的线性相关性越强,故 不正确;
由变量 x 和 y 的数据得到其回归直线方程 l: ,则 l 一定经过点 ,故 正确;
从匀速传递的产品生产流水线上,质检员每 10 分钟从 中抽取一件产品进行某项指标检测,这样的抽样不
是分层抽样,故 不正确;
可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故 正确;
在回归直线方 中,当解释变量 x 每增加一个单位时,预报变量 平均增加 个单位,故
正确.
故答案为: .
9
线性相关系数 越大,两个变量的线性相关性越强;
回归直线方程 l: ,一定经过样本中心点;
从匀速传递的产品生产流水线上,质检员每 10 分钟从中抽取一件产品进行某项指标检测,这样的抽样系
统抽样;
可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好;
在回归直线方 中,当解释变量 x 每增加一个单位时,预报变量 平均增加 个单位.
本题考查独立性检验,考查分层抽样方法,考查线性回归方程,考查判断两个相关变量之间的关系,是一
个综合题目,这种题考查的知识点比较多,需要认真分析.
14. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 5 次试验 根据收集到的数据
如表 :
零件数 个 10 20 30 40 50
加工时间 分钟 62 68 75 81 89
由最小二乘法求得回归方程 ,则 a 的值为______ .
(正确答案)
解:由题意,计算 ,
,
且回归直线方程 的图象过样本中心点 ,
所以 .
故答案为: .
根据回归直线方程 的图象过样本中心点 ,求出平均数代入方程即可求出 a 的值.
本题考查了回归直线方程的图象过样本中心点的应用问题,是基础题目.
10
15. 如图是一组数据 的散点图,经最小二乘法计算,得 y 与 x 之间的线性回归方
程为 ,则 ______.
(正确答案)
解:由散点图得:
,
,
将 代入 ,
解得: ,
故答案为: .
求出样本点的中心,代入回归方程求出系数 的值即可.
本题考查了回归方程,考查样本点的中心,是一道基础题.
16. 对具有线性相关关系的变量 x,y 有一组观测数据 2, , ,其回归直线方程是
,且 ,请估算 时, ______ .
(正确答案)
解: ,
, ,
样本中心点的坐标为 ,
11
代入回归直线方程得, ,
.
时, .
故答案为: .
求出横标和纵标的平均数,写出样本中心点,把样本中心点代入线性回归方程,得到关于 a 的方程,解方
程即可.
本题考查线性回归方程,解题的关键是线性回归直线一定过样本中心点,这是求解线性回归方程的步骤之
一.
三、解答题(本大题共 3 小题,共 40 分)
17. 某职称晋级评定机构对参加某次专业技术考试的 100 人的成绩进行了统计,绘制了频率分布直方图 如
图所示 ,规定 80 分及以上者晋级成功,否则晋级失败.
晋级成功 晋级失败 合计
男 16
女 50
合计
Ⅰ 求图中 a 的值;
Ⅱ 根据已知条件完成下面 列联表,并判断能否有 的把握认为“晋级成功”与性别有关?
Ⅲ 将频率视为概率,从本次考试的所有人员中,随机抽取 4 人进行约谈,记这 4 人中晋级失败的人数为
X,求 X 的分布列与数学期望 .
参考公式: ,其中
(正确答案)解: Ⅰ 由频率分布直方图各小长方形面积总和为 1,
12
可知 ,
解得 ;
Ⅱ 由频率分布直方图知,晋级 成功的频率为 ,
所以晋级成功的人数为 人 ,
填表如下:
晋级成功 晋级失败 合计
男 16 34 50
女 9 41 50
合计 25 75 100
假设“晋级成功”与性别无关,
根据上表数据代入公式可得 ,
所以有超过 的把握认为“晋级成功”与性别有关;
Ⅲ 由频率分布直方图知晋级失败的频率为 ,
将频率视为概率,则从本次考试的所有人员中,随机抽取 1 人进行约谈,
这人晋级失败的概率为 ,
所以 X 可视为服从二 项分布,即 ,
,
故 ,
,
,
,
13
,
所以 X 的分布列为
X 0 1 2 3 4
数学期望为 ,
或
Ⅰ 由频率和为 1,列出方程求 a 的值;
Ⅱ 由频率分布直方图求出晋级成功的频率,计算晋级成功的人数,
填写列联表,计算观测值,对照临界值得出结论;
Ⅲ 由频率分布直方图知晋级失败的频率,将频率视为概率,
知随机变量 X 服从二项分布,计算对应的概率值,写出分布列,计算数学期望;
本题考查了频率分布直方图与独立性检验和离散型随机变量的分布列、数学期望的应用问题,是中档题.
18. 近年来,手机已经成为人们日常生活中不可缺少的产品,手机的功能也日趋完善,已延伸到了各个领域,
如拍照,聊天,阅读,缴费,购物,理财,娱乐,办公等等,手机的价格差距也很大,为分析人们购买手
机的消费情况,现对某小区随机抽取了 200 人进行手机价格的调查,统计如下:
年龄 价格 5000 元及 以上 3000 元 元 1000 元 元 1000 元以下
45 岁及以下 12 28 66 4
45 岁以上 3 17 46 24
Ⅰ 完成关于人们使用手机的价格和年龄的 列联表,再判断能否在犯错误的概率不超过 的前提下,
认为人们使用手机的价格和年龄有关?
Ⅱ 如果用分层抽样的方法从样本手机价格在 5000 元及以上的人群中选择 5 人调查他的收入状况,再从这
5 人中选 3 人,求 3 人的年龄都在 45 岁及以下的概率.
附
14
k
(正确答案)解: Ⅰ 列联表
3000 元及以上 3000 元以下 合计
45 岁及以下 40 70 110
45 岁以上 20 70 90
合计 60 140 200
,
在犯错误的概率不超过 的前提下,认为人们使用手机的价格和年龄有关;
Ⅱ 样本手机价格在 5000 元及以上的人共 15 人,用分层抽样的方法选择 5 人,45 岁及以下的抽取 4 人,45
岁以上的抽取 1 人,从这 5 人中选 3 人,有 种情况,3 人的年龄都在 45 岁及以下,有 4 种情况,
人的年龄都在 45 岁及以下的概率为 .
Ⅰ 由题中数据可得 列联表,计算 ,从而与临界值比较,即可得到结论;
Ⅱ 样本手机价格在 5000 元及以上的人共 15 人,用分层抽样的方法选择 5 人,45 岁及以下的抽取 4 人,45
岁以上的抽取 1 人,从这 5 人中选 3 人,有 种情况,3 人的年龄都在 45 岁及以下,有 4 种情况,即
可求出 3 人的年龄都在 45 岁及以下的概率.
本题考查概率的计算,考查独立性检验知识,考查学生的计算能力,属于中档题.
19. 在“新零售”模式的背景下,某大型零售公司为推广线下分店,计划在 S 市的 A 区开设分店 为了确定
在该区开设分店的个数,该公司对该市已开设分店的其他区的数据作了初步处理后得到下列表格 记 x 表示
在各区开设分店的个数,y 表示这 x 个分店的年收入之和.
个 2 3 4 5 6
百万元 3 4 6
Ⅰ 该公司已经过初步判断,可用线性回归模型拟合 y 与 x 的关系,求 y 关于 x 的线性回归方程
;
15
Ⅱ 假设该公司在 A 区获得的总年利润 单位:百万元 与 x,y 之间的关系为 ,请结合
Ⅰ 中的线性回归方程,估算该公司应在 A 区开设多少个分店时,才能使 A 区平均每个分店的年利润最大?
参考公式: , , .
(正确答案)解: Ⅰ , , , ,
关于 x 的线性回归方程 .
Ⅱ ,
A 区平均每个分店的年利润 ,
时,t 取得最大值,
故该公司应在 A 区开设 4 个分店时,才能使 A 区平均每个分店的年利润最大
Ⅰ 求出回归系数,可得 y 关于 x 的线性回归方程;
Ⅱ 求出 A 区平均每个分店的年利润,利用基本不等式,可得结论.
本题考查回归方程,考查基本不等式的运用,正确求出回归方程是关键.