- 207.50 KB
- 2021-06-10 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第三课 统计案例
[核心速填]
(建议用时4分钟)
1.分析判断两个变量相关关系常用的方法
(1)散点图法:把样本数据表示的点在直角坐标系中标出,得到散点图,由散点图的形状分析.
(2)相关指数法:利用相关指数R2进行检验,在确认具有相关关系后,再求线性回归方程.
2.求线性回归方程的步骤
(1)画散点图:从直观上观察两个变量是否线性相关.
(2)计算:利用公式求回归方程的系数的值.
==,=-.
(3)写出方程:依据=+x,写出回归直线方程.
3.两种特殊可线性化回归模型的转化
(1)将幂型函数y=axm(a为正的常数,x,y取正值)化为线性函数.
如果将y=axm两边同取以10为底的对数,则有lg y=mlg x+lg a.令u=lg y,v=lg x,lg a=b,代入上式,得u=mv+b,其中m,b是常数.这是u,v的线性函数.如果以u为纵坐标,v为横坐标,则u=mv+b的图象就是一直线.
(2)将指数型函数y=cax(a>0且a≠1,c>0且为常数)化为线性函数.
将y=cax两边同取以10为底的对数,有lg y=xlg a+lg c,令lg y=u,lg a=k,lg c=b,得u=kx+b,其中,k和b是常数,与幂型函数不同的是x依然保持原来的,只是用y的对数lg y代替了y.
4.在实际问题中常用的三个数值
(1)当K2>6.635时,表示有99%的把握认为“事件A与B有关系”.
(2)当K2>3.841时,表示有95%的把握认为“事件A与B有关系”.
(3)当K2≤3.841时,认为事件A与B是无关的.
[体系构建]
7
[题型探究]
线性回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.根据两个变量的一组观测值,可以画出散点图或利用相关系数r,判断两个变量是否具有线性相关关系,若具有线性相关关系,可得出线性回归直线方程.
利用公式求回归直线方程时应注意以下几点:
(1)求时,利用公式==,先求出=(x1+x2+x3+…+xn),=(y1+y2+y3+…+yn).再由=- 求的值,并写出回归直线方程.
(2)回归直线一定经过样本点的中心(,).
(3)回归直线方程中的截距和斜率都是通过样本估计得来的,存在误差,这种误差可能导致预报结果的偏差.
(4)回归直线方程=+x中的表示x每增加1个单位时预报变量y的平均变化量,而表示预报变量y不随x的变化而变化的部分.
以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积x/m2
115
110
80
135
105
销售价格y/万元
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)若线性相关,求线性回归方程;
7
(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.
【导学号:95032252】
[解] (1)数据对应的散点图如图所示.
(2)由散点图知y与x具有线性相关关系.由表中数据知=i=109,=i=23.2,=60 975,iyi=12 952.设所求回归直线方程为=x+,则=≈0.196 2,=-≈1.814 2,故所求回归直线方程为=0.196 2x+1.814 2.
(3)根据(2),当x=150时,销售价格的估计值为=0.1962×150+1.814 2=31.244 2(万元).
[规律方法] 在散点图中样本点大致分布在一条直线附近,则利用线性回归模型进行研究,可近似地利用回归直线方程=x+来预报,利用公式求出回归系数,,即可写出回归直线方程,并用回归直线方程进行预测说明.
[跟踪训练]
1.已知某连锁经营公司的5个零售店某月的销售额和利润额资料如下表:
商店名称
A
B
C
D
E
销售额x(千万元)
3
5
6
7
9
利润额y(千万元)
2
3
3
4
5
(1)画出散点图;
(2)根据如下的参考公式与参考数据,求利润额y与销售额x之间的线性回归方程;
(3)若该公司还有一个零售店某月销售额为10千万元,试估计它的利润额是多少.
(参考公式:=,=-.
其中,iyi=112,=200)
7
[解] (1)散点图.
(2)由已知数据计算得n=5,==6,==3.4,==0.5,=3.4-0.5×6=0.4.
则线性回归方程为=0.5x+0.4.
(3)将x=10代入线性回归方程中得到=0.5×10+0.4=5.4(千万元).
即估计该零售店的利润额约为5.4千万元.
回归模型分析
对于建立的回归模型,我们必须对模型的拟合效果进行分析,也就是对利用回归模型解决实际问题的效果进行评价.一方面可以对比残差或残差平方和的大小,同时观察残差图,进行残差分析;另一方面也可以研究数据的R2(相关系数r).对模型拟合效果的分析能够帮助我们利用最优化的模型来解决实际问题.
在研究弹簧伸长长度y(cm)与拉力x(N)的关系时,对不同拉力的6根弹簧进行测量,测得如下表中的数据:
x/N
5
10
15
20
25
30
y/cm
7.25
8.12
8.95
9.90
10.9
11.8
若依据散点图及最小二乘法求出的回归直线方程为=0.18x+6.34,求R2,并结合残差说明拟合效果.
【导学号:95032253】
[解] 列表求值如下:
xi
5
10
15
20
25
30
yi
7.25
8.12
8.95
9.90
10.9
11.8
xiyi
36.25
81.2
134.25
198
272.5
354
x
25
100
225
400
625
900
yi-i
0.01
-0.02
-0.09
-0.04
0.06
0.06
yi-
-2.24
-1.37
-0.54
0.41
1.41
2.31
7
=17.5,≈9.49,iyi=1 076.2,=2 275,(yi-i)2=0.017 4,(yi-)2=14.678 4.
∴R2=1-≈0.998 81,回归模型拟合效果较好.由表中数据可以看出残差比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高.
[规律方法] 在一元线性回归模型中,相关指标R2与相关系数r都能刻画线性回归模型拟合数据的效果.|r|越大,R2就越大,用线性回归模型拟合数据的效果就越好.
[跟踪训练]
2.关于x与y有以下数据:
x
2
4
5
6
8
y
30
40
60
50
70
已知x与y线性相关,由最小二乘法得=6.5,
(1)求y与x的线性回归方程;
(2)现有第二个线性模型:=7x+17,且R2=0.82.
若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.
[解] (1)依题意设y与x的线性回归方程为=6.5x+.
==5,
==50,
∴=6.5x+经过(,),
∴50=6.5×5+,∴=17.5,
∴y与x的线性回归方程为=6.5x+17.5.
(2)由(1)的线性模型得yi-i与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
所以(yi-i)2=(-0.5)2+(-3.5)2+(-10)2+(-6.5)2+0.52=155.
7
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
所以R=1-=1-=0.845.
由于R=0.845,R2=0.82知R>R2,
所以(1)的线性模型拟合效果比较好.
独立性检验
独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.
为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.
(1)根据以上数据列出2×2列联表;
(2)判断40岁以上的人患胃病与生活规律是否有关.
【导学号:95032254】
[思路探究] (1)解决本题关键是首先弄清问题中的两个分类变量及其取值分别是什么,其次掌握2×2列联表的结构特征.
(2)利用2×2列联表计算K2的观测值,再结合临界值表来分析相关性的大小.
[解] (1)由已知可列2×2列联表如下:
患胃病
未患胃病
总计
生活规律
20
200
220
生活不规律
60
260
320
总计
80
460
540
(2)根据列联表得K2的观测值为
k=≈9.638.
因为9.638>7.879,
因此,我们在犯错误的概率不超过0.005的前提下认为40岁以上的人患胃病和生活规律有关.
[规律方法] 独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表.
7
(2)根据公式计算K2的观测值k.
(3)比较k与临界值的大小关系作统计推断.
[跟踪训练]
3.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行问卷调查得到了如下的列联表:
喜爱打篮球
不喜爱打篮球
总计
男生
5
女生
10
总计
50
已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为0.6.
(1)请将上面的列联表补充完整(不用写计算过程);
(2)能否有99%的把握认为喜爱打篮球与性别有关?说明你的理由.
(参考公式:K2=,
其中n=a+b+c+d)
[解] (1)依题意可知喜爱打篮球的学生的人数为50×0.6=30.
列联表补充如下:
喜爱打篮球
不喜爱打篮球
总计
男生
20
5
25
女生
10
15
25
总计
30
20
50
(2)因为k=≈8.333>6.635,所以,有99%的把握认为喜爱打篮球与性别有关.
7
相关文档
- 【数学】2018届一轮复习人教A版第02021-06-105页
- 高中数学选修2-3教学课件:2007_6_152021-06-1013页
- 高中数学必修2教案:4_2_1 圆与圆的2021-06-103页
- 高中数学选修2-3课件6_《二项式定2021-06-1012页
- 河南省鹤壁市综合高中2019-2020学2021-06-107页
- 辽宁省普通高中2020届高三上学期学2021-06-1016页
- 高中数学在教学设计大赛上获奖作品2021-06-1061页
- 高中数学必修3教案:1_3_1进位制 (2)2021-06-102页
- 数学卷·2018届江苏省江都中学、省2021-06-1017页
- 高中数学选修2-2课件1_1_1&1_1_22021-06-1056页