- 203.50 KB
- 2021-05-14 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
线 性 回 归
重点难点讲解:
1.回归分析:
就是对具有相关关系的两个变量之间的关系形式进行测定,确定一个相关的数学表达式,以便进行估计预测的统计分析方法。根据回归分析方法得出的数学表达式称为回归方程,它可能是直线,也可能是曲线。
2.线性回归方程
设x与y是具有相关关系的两个变量,且相应于n组观测值的n个点(xi, yi)(i=1,……,n)大致分布在一条直线的附近,则回归直线的方程为。
其中
。
3.线性相关性检验
线性相关性检验是一种假设检验,它给出了一个具体检验y与x之间线性相关与否的办法。
①在课本附表3中查出与显著性水平0.05与自由度n-2(n为观测值组数)相应的相关系数临界值r0.05。
②由公式,计算r的值。
③检验所得结果
如果|r|≤r0.05,可以认为y与x之间的线性相关关系不显著,接受统计假设。
如果|r|>r0.05,可以认为y与x之间不具有线性相关关系的假设是不成立的,即y与x之间具有线性相关关系。
典型例题讲解:
例1.从某班50名学生中随机抽取10名,测得其数学考试成绩与物理考试成绩资料如表:
序号
1
2
3
4
5
6
7
8
9
10
数学成绩
54
66
68
76
78
82
85
87
90
94
物理成绩
61
80
62
86
84
76
85
82
88
96
试建立该10名学生的物理成绩对数学成绩的线性回归模型。
解:设数学成绩为x,物理成绩为,则可设所求线性回归模型为
,
计算,代入公式得
∴ 所求线性回归模型为=0.74x+22.28。
说明:将自变量x的值分别代入上述回归模型中,即可得到相应的因变量的估计值,由回归模型知:数学成绩每增加1分,物理成绩平均增加0.74分。大家可以在老师的帮助下对自己班的数学、化学成绩进行分析。
例2.假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
若由资料可知y对x成线性相关关系。试求:
(1)线性回归方程;
(2)估计使用年限为10年时,维修费用是多少?
分析:本题为了降低难度,告诉了y与x间成线性相关关系,目的是训练公式的使用。
解:(1)列表如下:
i
1
2
3
4
5
xi
2
3
4
5
6
yi
2.2
3.8
5.5
6.5
7.0
xiyi
4.4
11.4
22.0
32.5
42.0
4
9
16
25
36
于是b=,
。
∴线性回归方程为:=bx+a=1.23x+0.08。
(2)当x=10时,=1.23×10+0.08=12.38(万元)
即估计使用10年时维修费用是12.38万元。
说明:本题若没有告诉我们y与x间是线性相关的,应首先进行相关性检验。如果本身两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求出回归方程也是没有意义的,而且其估计与预测也是不可信的。
例3.某省七年的国民生产总值及社会商品零售总额如下表所示:已知国民生产总值与社会商品的零售总额之间存在线性关系,请建立回归模型。
年份
国民生产总值(亿元)
社会商品零售总额(亿元)
1985
396.26
205.82
1986
442.04
227.95
1987
517.77
268.66
1988
625.10
337.52
1989
700.83
366.00
1990
792.54
375.11
1991
858.47
413.18
合计
4333.01
2194.24
解:设国民生产总值为x,社会商品零售总额为y, 设线性回归模型为。
依上表计算有关数据后代入的表达式得:
∴ 所求线性回归模型为y=0.445957x+37.4148, 表明国民生产总值每增加1亿元,社会商品零售总额将平均增加4459.57万元。
例4.已知某地每单位面积菜地年平均使用氮肥量xkg与每单位面积蔬菜每年平均产量yt之间的关系有如下数据:
年份
1985
1986
1987
1988
1989
1990
1991
1992
x(kg)
70
74
80
78
85
92
90
95
y(t)
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
年份
1993
1994
1995
1996
1997
19987
1999
x(kg)
92
108
115
123
130
138
145
y(t)
11.5
11.0
11.8
12.2
12.5
12.8
13.0
(1)求x与y之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg时,每单位面积蔬菜的年平均产量。
分析:(1)使用样本相关系数计算公式来完成;(2)查表得出显著水平0.05与自由度15—2相应的相关系数临界值r0.05比较,若r>r0.05,则线性相关,否则不线性相关。
解:(1)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
xi
70
74
80
78
85
92
90
95
92
108
115
123
130
138
145
yi
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
11.5
11.0
11.8
12.2
12.5
12.8
13.0
xiyi
357
444
544
608.4
765
938.4
900
1140
1058
1188
1357
1500.6
1625
1766.4
1885
,.
故蔬菜产量与施用氮肥量的相关系数:
r=
由于n=15,故自由度15-2=13。由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值
r0.05=0.514,则r>r0.05,从而说明蔬菜产量与氮肥量之间存在着线性相关关系。
(2)设所求的回归直线方程为=bx+a,则
∴ 回归直线方程为=0.0931x+0.7102。
当x=150时,y的估值=0.0931×150+0.7102=14.675(t)。
说明:求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心谨慎计算,如果会使用含统计的科学计算器,能简单得到,这些量,也就无需有制表这一步,直接算出结果就行了。另外,利用计算机中有关应用程序也可以对这些数据进行处理。“概率与统计”内容分析(三)
9、什么叫做线性回归?能否举例说明
答:在实际生活中,变量之间的关系,除了如同圆面积S=pR2 这类确定性关系外,还有一类“相关”关系。例如,人的下身长与总身高这两个变量之间虽然不可能建立一个精确的解析式,但这两个变量有着密切的关系,一般说来,下身长的人长得也高。又如,中学毕业班学生毕业考试的成绩与高考成绩之间,虽然不可能建立精确的解析式,但它们的关系也非常密切,一般说来,毕业考试成绩好的学生高考成绩也好。
为了深入考察这一情形,我们再看一个例子。
下栏的表格是某省20个县城2001年的一份统计资料,其中xi表示第i个县城在2001年建成的新住宅面积(单位:103m2),yi表示第i个县城在2001年的家具销售量(万元)。
新住房当然要添置新家具,这是人们普遍的心理,因此新建成的住宅越多,家具的销售量就越大,把上面20个县城的统计资料表示在图上,横坐标表示新建成的住宅面积,纵坐标表示对应县城的家具销售量,从散点图(图6)上,我们也可以看出上述规律。
现在的问题是,如果我们要用一条直线去代表这一组散点,反映这些点的变化趋势,那么斜率b与截距a应该如何确定?
从直观上看,如果所有的点都在某条直线上,那么用这条直线去代表这一组点,反映它们的变化趋势,自然是再好不过了。这时,对于这一组点,这样的一条直线具有最好的代表性。另一个极端是,如果所有的点都不在某条直线上,且这条直线远远偏离这些点,我们自然会认为,用这条直线去代表这一组点,代表性极差。
可以证明(见教科书第42页至43页的阅读材料),给定n对数据(x1,y1),(x2,y2),…,(xn,yn),且假定能用直线去描述它们所代表的点的变化趋势,那么直线具有最好的代表性,其中
我们把这条直线称为回归直线。
回到上面的例子,由于家具销售量与新住宅落成的面积间呈现出明显的线性趋势,所以我们可以用回归直线去描述它。
由已知数据可以算出
所以即为所求回归直线。
由于我们算出的回归直线方程较好地反映了与x之间的线性相关关系,所以可以用它去进行估计与测算,例如,若给出此省某县城在2002年预计新建成的住宅面积为350×103m2,则可以大体估计出此县城当年可销售家具
这就为我们进行商品经营提供了科学的测算依据。
由此可见,教科书在这一小节只研究一元线性回归问题,处理的是两个变量之间的关系。研究的一般步骤如下:
(1)从一组数据出发,求得两个变量的相关系数r,确定二者是否具有相关关系或相关的程度;
(2)如果两者具有相关关系,确定两个变量之间的关系式,即回归直线方程(其中b是回归系数,a是常数);
(3)根据回归直线方程,由一个变量的值,预测或控制另一个变量的取值。
由于这里的计算一般十分烦琐,所以应尽量使用科学计算器。
10、如何小结本章的知识结构?
答:本章知识结构可画成右栏所示的框图。
这里上半图概率部分承接高二下学期的最后一章,下半图统计部分承接初中学过的知识,从图中可以看出上、下部分之间的联系。
虽然本章可以承接高二下学期的最后一章,但本章内容不易记忆。
11、高考对本章内容的要求目前是怎样的?
答:高考考查本章的有关内容,现转录如下。
(1)2000 两省一市
(理工农医类)某厂生产电子元件,其产品的次品率为5%,现从一批产品中任意地连续取出2件,其中次品数ξ的概率分布是
ξ
0
1
2
p
答案:(自左至右)0.9025,0.095,0.0025,
(文史财经类)从含有500个个体的总体中一次性地抽取25个个体,假定其中每个个体被抽到的概率相等,那么总体中的每个个体被抽取的概率等于_______。
答案:0.05。
(2)2001 天津
(理工农医类)一个袋子里装有大小相同的3个红球和2个黄球。从中同时取出2个,则其中含红球个数的数学期望是________。(用数字作答)
答案:1.2。
(文史财经类)一个工厂有若干个车间,今采用分层抽样方法从全厂某天的2048件产品抽取一个容量为128的样本进行质量检查。若一车间这一天生产256件产品,则从该车间抽取的产品件数为________。
答案:16。
(3)2003 江苏 河南 天津
某公司生产三种型号的轿车,产量分别为1200辆,6000辆和2000辆。为检验该公司的产品质量,现用分层抽样的方法抽取46辆进行检验,这三种型号的轿车依次应抽取________, ________, _________辆。
答:6,30,10辆。
解析:∵ 1200∶6000∶2000=3∶15∶5。
由3+15+5=23,可将抽取的46辆车分成23份,每份为2辆。
故这三种型号的轿车依次应抽取3×2=6, 15×2=30, 5×2=10。
评注:本题考查分层抽样的操作方法。
(4)2003 全国 新课程
A、B两个代表队进行乒乓球对抗赛,每队三名队员,A队队员是A1,A2,A3,B队队员是B1,B2,B3。按以往多次比赛的统计,对阵队员之间胜负概率如下:
对阵队员
A队队员胜的概率
A队队员负的概率P
A1对B1
A2对B2
A3对B3
现按表中对阵方式出场,每场胜队得1分,负队得0分。设A队、B队最后所得总分分别为ξ、η。
(I)求ξ、η的概率分布;
(II)求Eξ、Eη。
解析:(I)ξ、η的可能取值分别为3、2、1、0。
P(ξ=3)=
,
P(ξ=2)=,
P(ξ=1)=,
P(ξ=0)=;
根据题意知ξ+η=3。 所以
P(η=0)=P(ξ=3)=, P(η=1)=P(ξ=2)=,
P(η=2)=P(ξ=1)=, P(η=3)=P(ξ=0)=。
(II)Eξ=;
因为ξ+η=3, 所以。
评注:本题考查离散型随机变量分布列和数学期望等概念,考查运用概率知识解决实际问题的能力。