- 542.50 KB
- 2021-06-21 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第一章 统计案例复习教案
一、本章知识脉络:
统计案例
回归分析
样本点的中心
随机误差
残差分析
建立回归模型的基本步骤
回归分析
列联表
K2=
判断结论成立可能性的步骤
二、本章要点追踪:
1.样本点的中心(,)
其中=xi,= yi .
2.线性回归模型的完美表达式
3.类比样本方差估计总体方差的思想,可以用
=i=Q(,)(n>2)
作为σ2的估计量 其中=-
=
4.我们可以用相关指数R2来刻画回归的效果,其计算公式是:
R2=1-
R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.
5.建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程
y=bx+x);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。
6.作K2来确定结论“X与 Y有关系”的可信程度.
三、几个典型例题:
例1 某地区10名健康儿童头发和全血中的硒含量(1000ppm)如下,
血硒
74
66
88
69
91
73
66
96
58
73
发硒
13
10
13
11
16
9
7
14
5
10
(1)画出散点图;
(2)求回归方程;
(3)如果某名健康儿童的血硒含量为94(1000ppm)预测他的发硒含量.
解(1)散点图如下图所示:
(2)利用计算器或计算机,求得回归方程:
=0.2358x-6.9803
(3)当x=94时,≈15.2
因此,当儿童的血硒含量为94(1000ppm)时,该儿童的发硒含量约为15.2(1000ppm).
例2 某地大气中氰化物测定结果如下:
污染源距离
50
100
150
200
250
300
400
500
氰化物浓度
0.687
0.398
0.200
0.121
0.09
0.05
0.02
0.01
(1)试建立氰化物浓度与距离之间的回归方程.
(2)求相关指数.
(3)作出残差图,并求残差平方和
解析(1)选取污染源距离为变量x,氰化物浓度为自因变量y作散点图.
从表中所给的数据可以看出,氰化物浓度与距离有负的相关关系,用非线性回归方程来拟合,建立y关于x的指数回归方程.
=0.9293e-0.0094x
(2)相关指数K2=1-=0.9915
(3)
编 号
1
2
3
4
5
6
7
8
污染源距离
50
100
150
200
250
300
400
500
氰化物浓度
0.687
0.398
0.2
0.121
0.09
0.05
0.02
0.01
残 差
0.1061857
0.035
-0.027
-0.021
0.0014
-0.005
-0.002
0.0015
残差平方和(yi-)2=0.0118
例3 某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机制取了189名员工进行调查,所得数据如下表所示:
积极支持企业改革
不太造成企业改革
合 计
工作积极
54
40
94
工作一般
32
63
95
合 计
86
103
189
对于人力资源部的研究项目,根据上述数据能得出什么结论?
解:根据列联表中的数据,得到K2==10.76.
因为10.76>6.635,所以有99%的把握说:员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.
例4 有人统计了同一个省的6个城市某一年的人均国内生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:
人均GDP(万元)
10
8
6
4
3
1
患白血病的儿童数
351
312
207
175
132
180
(1)画出散点图;
(2)求对的回归直线方程;
(3)如果这个省的某一城市同时期年人均GDP为12万元,估计这个城市一年患白血病的儿童数目;
分析:利用公式分别求出的值,即可确定回归直线方程,然后再进行预测.
16题图
解:(1)作与对应的散点图,如右图所示;
(2)计算得
,
∴,,
∴对的回归直线方程是;
(3)将代入得,估计这个城市一年患白血病的儿童数目约为381.
评注:本题涉及的是一个和我们生活息息相关,也是一个愈来愈严峻的问题——环保问题.本题告诉了我们一个沉痛的事实:现如今,一个城市愈发达,这个城市患白血病的儿童愈多.原因在于,城市的经济发展大都以牺牲环境为代价的,经济发展造成了大面积的环境污染,空气、水源中含有的大量的有害物质是导致白血病患者增多的罪魁祸首,所以,我们一定要增强自我保护意识和环境保护意识.
例5 寒假中,某同学为组织一次爱心捐款,于2008年2月1日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:
天数
1
2
3
4
5
6
7
人数
7
11
21
24
66
115
325
(1)作出散点图,并猜测与之间的关系;
(2)建立与的关系,预报回归模型并计算残差;
(3)如果此人打算在2008年2月12日(即帖子传播时间共10天)进行募捐活动,根据上述回归模型,估计可去多少人.
分析:先通过散点图,看二者是否具有线性相关关系,若不具有,可通过相关函数变换,转化为线性相关关系.
解:(1)散点图略.从散点图可以看出与不具有线性相关关系,同时可发现样本点分布在某一个指数函数曲线的周围,其中是参数;
(2)对两边取对数,把指数关系变成线性关系.令,则变换后的样本点分布在直线的周围,这样就可以利用线性回归模型来建立与之间的非线性回归方程了,数据可以转化为:
天数
1
2
3
4
5
6
7
人数
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得回归直线方程为,
∴.
(3)截止到2008年2月12日,,此时(人).
∴估计可去1530人.
评注:现如今是网络时代,很多同学都会通过互联网发帖子,所以此类问题为同学们司空见惯.但如何预测发帖后的效果,这却是个新课题,通过本题你是否已明确.
例6 有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.
(1)根据以上数据建立一个2×2的列联表;
(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?
分析:按题中数据建列联表,然后根据列联表数据求出值,即可判定.
解:(1)2×2的列联表
中国人
外国人
总计
有数字
43
27
70
无数字
21
33
54
总计
64
60
124
(2)假设“国籍和邮箱名称里是否含有数字无关”.
由表中数据得,
因为,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有的把握认为“国籍和邮箱名称里是否含有数字有关”.
评注:独立性检验类似于反证法,其一般步骤为:第一步:首先假设两个分类变量几乎没有关系(几乎独立);第二步:求随机变量的值;第三步.判断两个分类变量有关的把握(即概率)有多大.
例7 针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧人数占女生人数的.
(1)若有的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人;
(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人.
分析:有的把握认为回答结果对错和性别有关,说明,没有充分的证据显示回答结果对错和性别有关,说明.设出男生人数,并用它分别表示各类别人数,代入的计算公式,建立不等式求解即可.
解:设男生人数为,依题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
总计
男生
女生
总计
(1)若有的把握认为回答结果的对错和性别有关,则,
由,解得,
∵为整数,∴若有的把握认为回答结果的对错和性别有关,则男生至少有12人;
(2)没有充分的证据显示回答结果的对错和性别有关,则,
由,解得,
∵为整数,∴若没有充分的证据显示回答结果的对错和性别有关,则男生至多有6人.
评注:这是一个独立性检验的创新问题,解答时要注意理解“至少”、“至多”的含义.
通过上面几例,大家是否已体会到了回归分析和独立性检验思想方法的应用的广泛性和重要性.其实,这两种思想方法并不神秘,你身边有很多问题可信手拈来,用它们处理,这一点还请同学们多思考、勤尝试.