- 517.00 KB
- 2021-06-16 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程.
3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
知识点一 两个变量的相关关系
1.相关关系的分类
(1)正相关:从散点图上看,点散布在从________到______的区域内;
(2)负相关:从散点图上看,点散布在从左上角到________的区域内.
2.线性相关关系
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫________.
答案
1.(1)左下角 右上角 (2)右下角
2.回归直线
1.根据两个变量x,y之间的观测数据画成散点图如图所示,则这两个变量________线性相关关系.(填“具有”或“不具有”)
解析:图中的点分布零散,不在一条直线附近,所以不具有线性相关关系.
答案:不具有
2.(2017·泉州模拟)下列四个图象中,两个变量具有正相关关系的是( )
解析:A中两个变量之间是函数关系,不是相关关系;在两个变量的散点图中,若样本点呈直线形带状分布,则两个变量具有相关关系,对照图形:B,D样本点呈直线形带状分布,B是负相关,D是正相关,C样本点不呈直线形带状分布.所以两个变量具有正相关关系的图是D.
答案:D
知识点二 回归分析
1.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的______
最小的方法叫最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=- ,其中,是回归方程的______,是在y轴上的截距.
2.样本相关系数
r=,用它来衡量两个变量间的线性相关关系的强弱.
(1)当r>0时,表明两个变量________;
(2)当r<0时,表明两个变量________;
(3)r的绝对值越接近1,表明两个变量的线性相关性__________;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
答案
1.(1)距离的平方和 (2)斜率
2.(1)正相关 (2)负相关 (3)越强
3.最小二乘法的原理是( )
A.使得yi-(a+bxi)]最小
B.使得yi-(a+bxi)2]最小
C.使得y-(a+bxi)2]最小
D.使得yi-(a+bxi)]2最小
解析:根据回归方程表示到各点距离之和最小的直线方程,即总体偏差最小,亦即yi-(a+bxi)]2最小.
答案:D
4.当我们建立多个模型拟合某一数据组时,为了比较各个模型的拟合效果,我们可通过计算下列( )量来确定
①残差平方和 ②回归平方和
③相关指数R2 ④相关系数r
A.① B.①③ C.①②③ D.③④
解析:残差平方和越小,相关指数R2越大,拟合的效果越好.
答案:B
知识点三 独立性检验
1.分类变量:变量的不同“值”表示个体所属的________,像这类变量称为分类变量.
2.列联表:列出两个分类变量的________,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d
为样本容量),则利用独立性检验判断表来判断“X与Y的关系”.
答案
1.不同类型 2.频数表
5.在性别与吃零食这两个分类变量的计算中,下列说法正确的是________.
①若K2的观测值为k=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;
③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.
解析:由独立性检验的基本思想可得,只有③正确.
答案:③
热点一 相关关系的判断
【例1】 (1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关系数的平方为r,用=x+
拟合时的相关系数的平方为r,则r>r;
③x、y之间不能建立线性回归方程.
【解析】 (1)所有点均在直线上,则样本相关系数最大即为1,故选D.
(2)①显然正确;由散点图知,用y=c1ec2x拟合的效果比用=x+拟合的效果要好,故②正确;x,y之间能建立线性回归方程,只不过预报精度不高,故③不正确.
【答案】 (1)D (2)①②
【总结反思】
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
(1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③ C.③④ D.①④
(2)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r20时,y与x正相关,当<0时,y与x负相关,∴①④一定错误.
(2)对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,所以选C.
答案:(1)D (2)C
热点二 ,线性回归分析
【例2】 (2016·新课标全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:=,=- .
【解】 (Ⅰ)由折线图中数据和附注中参考数据得=4,(ti-)2=28, =0.55,(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,r≈
≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(Ⅱ)由=≈1.331及(Ⅰ)得==≈0.103,=- ≈1.331-0.103×4≈0.92.所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
【总结反思】
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程=x+必过样本点中心(,).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
(1)(2017·江西南昌十所省重点中学一模)某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表所示,根据表中数据可得回归方程=x+中的=10.6.据此模型预测广告费用为10万元时的销售额为( )
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
58
A.112.1万元 B.113.1万元
C.111.9万元 D.113.9万元
(2)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
①求家庭的月储蓄y对月收入x的线性回归方程=x+;
②判断变量x与y之间是正相关还是负相关;
③若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程=x+中,=,=- ,其中,为样本平均值.
解析:(1)由题表中数据得=3.5,=43.由于回归直线=x+过点(,),且=10.6,解得=5.9,所以线性回归方程为=10.6x+5.9,于是当x=10时,=111.9.
(2)解:①由题意知n=10,=i==8,=i==2,又-102=720-10×82=80.iyi-10 =184-10×8×2=24.
由此得===0.3,=-=2-0.3×8=-0.4,故所求回归方程为=0.3x-0.4.
②由于变量y的值随x值的增加而增加(=0.3>0),故x与y之间是正相关.
③将x=7代入回归方程可以预测该家庭的月储蓄为=0.3×7-0.4=1.7(千元).
答案:(1)C
热点三 独立性检验
【例3】 某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.说明:如图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.
(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;
(2)根据以上数据完成如下表所示的2×2列联表:
主食蔬菜
主食肉类
合计
50岁以下
50岁以上
合计
(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析.
【解】 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主.
(2)2×2列联表如下表所示.
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
(3)K2==
=10>6.635.
所以有99%的把握认为其亲属的饮食习惯与年龄有关.
【总结反思】
1.独立性检验的步骤:
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值.
(3)比较K2与临界值的大小关系作统计推断.
2.另外,还可利用图形来判断两个变量之间是否有关系,可以画出等高条形图,从图形上只可以粗略地估计两个分类变量的关系,可以结合所求数值来进行比较,作图时应注意单位统一,图形准确.
某班主任对全班50名学生进行了作业量多少的调查.数据如下表:
认为作业多
认为作业不多
合计
喜欢玩游戏
18
9
不喜欢玩游戏
8
15
合计
(1)请完善上表中所缺的有关数据;
(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系?
解:(1)
认为作业多
认为作业不多
合计
喜欢玩游戏
18
9
27
不喜欢玩游戏
8
15
23
合计
26
24
50
(2)将表中的数据代入公式
K2=
得到K2的观测值k=
≈5.059>5.024,查表知P(K2≥5.024)=0.025,即说明在犯错误的概率不超过0.025的前提下认为喜欢玩游戏与作业量的多少有关系.