- 3.48 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
大学体育统计学第一章绪论\n第一节体育统计及其研究对象统计的作用客观事物的特征质的特征量的特征统计活动研究\n▲统计的分类(从性质上)(一)描述性统计对事物的特征与状态进行数量描述身高=226cm体重=141kg百米速度=15s投篮命中率=52%……\n(二)推断性统计通过样本数量特征估计推断总体特征总体抽取随机样本均值X=14.6秒抽样总体平均成绩是14.6秒吗\n体育统计的概念体育统计是运用数理统计的原理和方法对体育领域里各种随机现象规律性进行研究的一门基础应用学科。属于方法论学科范畴。理解:1:用普遍的方法研究特殊领域的问题。2:无论描述统计还是推断统计,都服务于对随机现象规律性的研究。\n▲统计工作的基本过程统计资料的搜集统计资料的整理统计资料的分析\n统计资料的搜集:(基础环节)——根据研究设计的要求获取有关数据资料。统计资料的整理:(中间环节)——按照分析的要求对数据资料进行审核和分类。统计资料的分析:(决定性阶段)——按照研究目的对整理后的数据进行统计学处理。▲统计工作的基本过程\n▲体育统计的研究对象及其特征研究对象:(1)体育领域里的各种可量化的随机现象。(2)非体育领域里对体育发展有关的各种随机现象。研究范围逐渐扩大了!\n▲体育统计研究对象的特征运动性特征:——反映运动能力心理能力等方面的数量指标是具有运动性特征的。(1,与运动有关;2,是动态的)综合性特征:——兼有自然科学和社会科学的综合属性。客观性特征:——数据来源于客观事物本身,是对客观事物的反映。\n第二节体育统计在体育活动中的作用是体育教育科研活动的基础有助于训练工作的科学化能帮助研究者制定研究设计能帮助研究者有效地获取文献资料\n总体与个体1,总体的概念:根据统计研究的具体研究目的而确定的同质对象的全体。2,个体的概念:组成总体的每个基本单位。3,总体的分类:第三节体育统计中的若干基本概念总体现存总体假想总体有限总体无限总体\n有限总体:基本研究单位的边界是明晰的,并且基本研究单位的数量是有限的总体。无限总体:基本研究单位的数量是无限多个的总体。\n样本1,样本的概念:——根据研究需要与可能,从总体中抽取的部分研究对象所形成的子集为样本。2,样本的分类:随机样本和非随机样本样本随机样本非随机样本采用随机抽样方法获得的样本研究者根据研究需要,制定某些条件获得的带非随机性质的样本\n必然事件和随机事件1,必然事件:在确定的条件范围内,必然发生(或不发生)的事件。(具备可预言性)2,随机事件:在一定的实验条件下,有可能发生,也有可能不发生的事件。(具备不可预言性,只能猜)随机变量1,随机变量:随机事件的数量表现。随机变量连续型随机变量离散型随机变量至少理论上可以穷举不能穷举\n总体参数和样本统计量1,总体参数:反映总体数量特征的指标。2,样本统计量:反映样本数量特征的指标。概率1,古典概率:适用于总体明晰的情况下。2:统计概率:适用于总体状况不明的情况下。\n▲补充内容:连加和的缩写式★在高等数学中,采用连加求和缩写式形式来表示连加求和数,它的一般形式为:其中:∑连加求和号变量(一组观测数据)在中,i是下标,n是上标,i、n表示连加求和的界限,即从通项公式具体分解的第一项开始相加一直到第n项为止。各具体项根据i的取值不同而有所不同,i取1为第一项,取“n”为第n项。\n体育中常用的连加求和运算:为了避免符号过于复杂,今后凡在求和范围可以看清的条件下,通常将∑号上下标省略不写,简记为▲补充内容:连加和的缩写式\n课堂练习:展开连加和缩写式\n体育统计学第二章统计资料的收集与整理\n▲收集资料的基本要求1:资料的准确性2:资料的齐同性3:资料的随机性▲收集资料的基本方法1:日常积累2:全面普查3:专题研究第一节统计资料的收集\n▲几种常用的抽样方法简单随机抽样(完全随机抽样)抽取特点:1:不分组,不分类,不排队地抽取;2:总体中每个个体都有被抽中的机会;3:总体中每个个体被抽中的机会是均等的。抽取方法:1:抽签法2:随机数表法(见随机数表)该方法的优点:样本代表性好该方法的缺点:总体含量大时,编号困难。工作量大。\n▲几种常用的抽样方法分层抽样抽取步骤方法:1:按属性特征分成若干类型、部分或层;2:在类型、部分或层中按照比例进行简单随机抽样。分层的需注意的问题:1:层间必须有清晰的界面;(类间差异大,类内差异小)2:必须知道各类型中的个体数目和比例;3:层的数目不宜太多,但也不要极少。分层抽样的优点:1:能够提高样本代表性,又不至于给调查工作带来麻烦,在代表性和工作量之间做出了平衡;2:适用于总体情况复杂、个体数目较多的情况。\n分层抽样范例某大学体育系大一新生总体人数合计900人田径350人篮球200人足球150人网球100人体操80人游泳20人分层田径35人篮球20人足球15人网球10人体操8人游泳2人按照10%比例简单随机抽样研究样本含量为90人按照学生专项属性分层继续下一步的研究过程\n▲几种常用的抽样方法整群抽样整群抽样的特点:区别于简单随机抽样和分层抽样,抽样的单位不再是总体中的个体,是总体中的划分出来的群。划分群应注意的问题:群间差异要小,群内差异要大。讨论:调查广东省初中毕业生体质达标的情况。如何抽样?\n第二节统计资料的整理▲资料的审核1:初审——简单排误2:逻辑检查——专业知识、常识,指标关系间排误3:复核——按比例抽样复核\n▲频数整理——频数分布表的制作\n频数分布表的编制(实例)【例】某小学五年级学生跳绳成绩如下(单位:个/分钟)。对数据进行分组。117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121\n分组方法\n单变量值分组1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况\n单变量值分组表\n组距分组将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组\n组距分组的步骤(等距分组)求全距(极差)R:R=最大值-最小值确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K确定组距I:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即:组距=(最大值-最小值)÷组数(k)确定组限(组限:是指每组的起点值与终点值)\n5.根据分组整理成频数分布表★填写组限按照从上到下、从小到大的顺序填写,只写下限,不写上限★划记将数据逐个划记到相应的组中,五个为一组★计算:频数(f);频率;组中值(组中值=该组下限+组距/2)\n组距分组涉及的几个概念1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值\n课堂练习117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121【例】某小学五年级学生跳绳成绩如下(单位:个/分钟)。对数据进行分组。1.求全距(极差)R:R=最大值(Xmax)139-最小值(Xmin)107=322.确定组数:3.确定组距:组距=(最大值139-最小值107)÷组数7≈5=1+1.70/0.30=6.667≈7\n4.确定组限:第一组下限(L1)=最小值(Xmin)-组距(I)/2=107-5/2=104.5≈105其他组组限的确定:从第一组开始,每一组的下限加上组距,就得到该组的上限,此上限又是下一组的下限,于是就形成了一列左闭右开的半开区间5.根据分组整理成频数分布表:(略,参照书P17-P18)\n需要说明的几个问题关于组数的确定:1:可以依据已有的成熟的专业经验来确定;2:可参考前苏联专家制定的参考表(如右表)确定:关于图形的绘制:可以绘制直观的图形来方便了解数据的信息。较常使用的图形形式有多边形图和直方图等。图形中,一般横坐标代表组限,纵坐标代表频数。\n《作业》1.每人准备一本固定的作业本。2.教材P19第二章习题第4题,按照步骤与格式制作频数分布表及其直方图。\n体育统计学第三章样本特征数\n第一节集中位置量数集中趋势(位置)离中趋势(分散程度)偏态和峰度(形状)\n数据的分布特征及其测量指标数据特征及其测量指标分布状况集中趋势离散程度方差和标准差平均差峰度绝对差全距偏态几何平均数众数中位数算术平均数\n集中趋势(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势指标值适用于高层次的测量数据,反过来,高层次数据的集中趋势指标值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定\n中位数(Median)中位数,又称中数,中点数。符号Md(Median),定义:是指位于一组数据中较大一半与较小一半中间位置的那个数。Md50%50%\n中位数(Median)特征:此数可能是数据中的某一个,也可能根本不是原有的数据。不受极端值的影响计算方法:将数据依大小次序排列,若数据个数为奇数,则取数列中间的那个数为中数;若数据个数为偶数,则取中间两个数的平均数为中数。\n概念:样本观测值在频数分布表中频数最多的那一组的组中值。(分组数据的众数,属于引申概念)原始概念:众数,符号Mo,它指在一组数中出现次数最多的那个数。计算方法是直接找到出现次数最多的那个数。众数具有不唯一性。例如:众数(Mode)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242\n分组数据中众数的计算频数最多的那一组的组中值。如书P21-P22:练习:找找众数,利用上次所做的作业。\n几何平均数概念:样本观测值的连乘积,并以样本观测值的总数作为次数,开方所得的数据。主要适用于一组数据中有少量数据偏大或偏小,数据分布呈偏态。计算公式:举例说明:1,2,3,4,8,16,42,108见教材P22,例题3.4\n算术平均数算术平均数简称为平均数或均值,符号为M(Mean)总体算术平均数:希腊字母μ(音:miu)样本算术平均数:英文字母(音:Xbar)。算术平均数是由所有数据之和除以数据个数所得的商数,用公式表示为:\n算术平均数在应用上有如下特点:①算术平均数是一个良好的集中量数,具有反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和较小受抽样变化的影响等优点。②算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。\n第二节:离中趋势量数数据分布的另一个重要特征离中趋势的各指标值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值\n全距(极差,两极差)概念:一组数据最大值与最小值之差。公式:R=最大值(Xmax)-最小值(Xmin)特征与缺陷:1:能够了解数据的范围(区域,区间)。2:只考虑极值,容易受到异常数据的影响,属于粗略的指标值,精细程度不够。\n绝对差与平均差绝对差:平均差;\n方差和标准差1:是离散程度的测量指标值之一,最常用。2:能反映数据的分布。3:能反映各变量值与均值的平均差异。4:根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。4681012X=8.3\n总体方差和标准差的计算公式总体方差的计算公式总体标准差的计算公式\n样本方差和标准差样本方差的计算公式样本标准差的计算公式\n自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量\n平均数与标准差在体育中的应用平均数与标准差在决策中的直接应用。变异系数在稳定性研究中的应用。法在原始数据逻辑审核中的应用。\n平均数与标准差在决策中的直接应用例题:教练员要从两名标枪运动员中决定一人参加比赛,如何作出决策?队员甲:40.50;41.26;40.44;39.62;40.1242.10;39.84;40.18;38.70;39.54队员乙:40.48;42.88;40.50;39.50;38.00;43.32;38.72;41.82;36.84;40.24简单应用平局数与标准差进行数据决策的步骤:1:确定样本数据的全域。2:确定样本数据的平均水平。3:确定样本数据的离散程度。4:根据专业专项应用要求采取相应不同决策。注意:决策前提是认同所取得的数据是真实客观有效的。\n变异系数在稳定性研究中的应用例题:某运动员主项为100m跑,兼项为跳远,在竞技期内,其主、兼项目测试结果如下:100m:ss跳远:mm试比较该运动员主项、兼项成绩的稳定性。(试比较该运动员100m跑、跳远两成绩的离散程度。)解答:二者的指标单位不同且性质不同,不能够直接进行比较。依据变异系数的概念特征,可以计算CV进行比较:由于该运动员100m跑的CV<跳远的CV,故该运动员的100m跑的成绩比跳远成绩稳定。(或说100m跑成绩的离散程度小于跳远成绩)\n例题:随机抽取某市300名初中男生的身高,经检验基本服从正态分布,并得出cm,cm,在这300名学生中,有三人的身高原始数据为cm,cm,cm。试用法检查这三个数据是否为可疑数据。法进行原始数据逻辑审核的步骤:1:求的下限和上限。2:数据检验,看数据是否存在[下限,上限]区间之内。3:作出初步判定a:在区间之内,可以初步认定数据正常;b:在区间之外,需要进一步审核数据的准确性。法在原始数据逻辑审核中的应用\n《作业》1.计算教材P19第二章习题第4题中样本数据的所有集中量数指标和离散量数指标。2.教材P39第三章习题第2题。3.自习教材第三章与第四章未讲到的内容。\n体育统计学第五章正态分布\n正态分布的概念与性质100个样本数据的频率分布直方图\n200个样本数据的频率分布直方图\n总体密度曲线无穷多个样本数据的频率分布直方图\n\n正态分布的重要性1.描述连续型随机变量的最重要的分布2.可用于近似连续型的离散变量的分布3.经典统计推断的基础xf(x)\n概率密度函数f(x):随机变量X的频数:总体方差=3.14159;e=2.71828x=随机变量的取值(-0正态曲线的最高点在均值,它也是分布的中位数和众数正态分布是一簇分布,每一特定正态分布通过均值和标准差来区分。决定曲线的位置,称为位置参数;决定曲线的形状,称为形状参数。曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交正态曲线下的总面积等于1,即概率值等于1随机变量的概率由曲线下的面积给出\n和对正态曲线的影响xf(x)CAB\n正态分布的概率概率是曲线下的面积!abxf(x)\n标准正态分布▲任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布▲标准正态分布的概率密度函数\nxms一般正态分布=1u标准正态分布标准正态分布\n★标准正态分布的重要性一般正态分布的不同取决于均值和标准差计算概率时,每一个一般正态分布都需要有自己的正态概率分布表,这种表格是无穷多的。若能将一般正态分布转化为标准正态分布,计算概率时就只需查一张表(标准正态分布表)就可以了。\n先将一个一般正态分布转换为标准正态分布计算概率时,查标准正态概率分布表对于负的x,可由(-x)-x得到对于标准正态分布,即X~N(0,12),有P(aXb)baP(|X|a)2a1对于一般正态分布,即X~N(,2),有标准正态分布表的使用\n标准化的例子A(5,102)x=5=10一般正态分布6.2=1u标准正态分布00.12.0478P(5X6.2)\n标准化的例子B(5,102)一般正态分布.1664.0832.0832标准正态分布P(2.9X7.1)\n正态分布(实例)【例】设U~N(0,12),求以下概率值:(1)P(U<1.5);(2)P(U>2);(3)P(-12)=1-P(U2)=1-0.9973=0.0227(3)P(-1F,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响若FF,则不能拒绝原假设H0,表明所检验的因素(A)对观察值没有显著影响\n单因素方差分析表(基本结构)MSE\n单因素方差分析(一个例子)【例】为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的样本,其中零售业抽取7家,旅游业抽取了6家,航空公司抽取5家、家电制造业抽取了5家,然后记录了一年中消费者对总共23家服务企业投诉的次数,结果如表9.7。试分析这四个行业的服务质量是否有显著差异?(=0.05)\n单因素方差分析(一个例子)\n单因素方差分析(计算结果)解:设四个行业被投诉次数的均值分别为,m1、m2、m3、m4,则需要检验如下假设H0:m1=m2=m3=m4(四个行业的服务质量无显著差异)H1:m1,m2,m3,m4不全相等(有显著差异)Excel输出的结果如下结论:拒绝H0。四个行业的服务质量有显著差异\n★方差分析中的多重比较(作用)多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异多重比较方法有多种,这里介绍Fisher提出的最小显著差异方法,简写为LSD,该方法可用于判断到底哪些均值之间有差异LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的\n方差分析中的多重比较(步骤)提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mimj(第i个总体的均值不等于第j个总体的均值)检验的统计量为若|t|t,拒绝H0;若|t|2.096颜色1与颜色2的销售量有显著差异|x1-x3|=|27.3-26.4|=0.9<2.096颜色1与颜色3的销售量没有显著差异|x1-x4|=|27.3-31.4|=4.1>2.096颜色1与颜色4的销售量有显著差异|x2-x3|=|29.5-26.4|=3.1>2.096颜色2与颜色3的销售量有显著差异|x2-x4|=|29.5-31.4|=1.9<2.096颜色2与颜色4的销售量没有显著差异|x3-x4|=|26.4-31.4|=5>2.096颜色3与颜色4的销售量有显著差异\n体育统计学第八章相关分析\n变量间的关系(函数关系)是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上xy\n函数关系的例子圆的面积(S)与半径之间的关系可表示为:S=R2某种商品的销售额(y)与销售量(x)之间的关系可表示为:y=px(p为单价)变量间的关系(函数关系)\n变量间的关系(相关关系)变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围xy\n相关关系的例子父亲身高(y)与子女身高(x)之间的关系家庭收入状况(y)与体育消费(x)之间的关系体育用品销售额(y)与广告费支出(x)之间的关系收入水平(y)与受教育程度(x)之间的关系变量间的关系(相关关系)\n相关关系的类型相关关系非线性相关线性相关正相关正相关负相关负相关完全相关不相关\n相关关系的图示不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关\n相关系数对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数或积差相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若是根据样本数据计算的,则称为样本相关系数,记为r\n简单相关系数(积差相关系数)样本相关系数的计算公式或化简为\n相关系数取值及其意义r的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关r=0,不存在线性相关-1r<0,为负相关0t,拒绝H0若tt,拒绝H0;tt=2.201,拒绝H0,表明人均收入与人均消费之间有线性关系对前例的回归系数进行显著性检验(=0.05)\n回归系数的显著性检验(Excel输出的结果)\n预测及应用\n利用回归方程进行估计和预测根据自变量x的取值估计或预测因变量y的取值估计或预测的类型点估计y的平均值的点估计y的个别值的点估计区间估计y的平均值的置信区间估计y的个别值的预测区间估计\n利用回归方程进行估计和预测(点估计)2.点估计值有y的平均值的点估计y的个别值的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值\n利用回归方程进行估计和预测(点估计)y的平均值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点估计。根据估计的回归方程得\n利用回归方程进行估计和预测(点估计)y的个别值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计值,就是个别值的点估计2.比如,如果我们只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。根据估计的回归方程得\n利用回归方程进行估计和预测(区间估计)点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间区间估计有两种类型置信区间估计预测区间估计\n利用回归方程进行估计和预测(置信区间估计)y的平均值的置信区间估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值E(y0)的估计区间,这一估计区间称为置信区间E(y0)在1-置信水平下的置信区间为式中:Sy为估计标准误差\n利用回归方程进行估计和预测(置信区间估计:算例)【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间解:根据前面的计算结果=712.57,Sy=14.95,t(13-2)=2.201,n=13置信区间为712.5710.265人均消费金额95%的置信区间为702.305元~722.835元之间\n利用回归方程进行估计和预测(预测区间估计)y的个别值的预测区间估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,这一区间称为预测区间y0在1-置信水平下的预测区间为注意!\n利用回归方程进行估计和预测(置预测区间估计:算例)【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间解:根据前面的计算结果有=712.57,Sy=14.95,t(13-2)=2.201,n=13置信区间为712.5734.469人均消费金额95%的预测区间为678.101元~747.039元之间\n影响区间宽度的因素1.置信水平(1-)区间宽度随置信水平的增大而增大2.数据的离散程度(s)区间宽度随离散程度的增大而增大3.样本容量区间宽度随样本容量的增大而减小4.用于预测的xp与x的差异程度区间宽度随xp与x的差异程度的增大而增大\n置信区间、预测区间、回归方程xpyxx预测上限置信上限预测下限置信下限\n第三节多元线性回归一.多元线性回归模型回归参数的估计回归方程的显著性检验回归系数的显著性检验多元线性回归的预测\n多元线性回归模型\n多元线性回归模型(概念要点)一个因变量与两个及两个以上自变量之间的回归描述因变量y如何依赖于自变量x1,x2,…,xp和误差项的方程称为多元线性回归模型涉及p个自变量的多元线性回归模型可表示为b0,b1,b2,,bp是参数是被称为误差项的随机变量y是x1,,x2,,xp的线性函数加上误差项说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性\n多元线性回归模型(概念要点)对于n组实际观察数据(yi;xi1,,xi2,,xip),(i=1,2,…,n),多元线性回归模型可表示为y1=b0+b1x11+b2x12++bpx1p+e1y2=b0+b1x21+b2x22++bpx2p+e2yn=b0+b1xn1+b2xn2++bpxnp+en{……\n多元线性回归模型(基本假定)自变量x1,x2,…,xp是确定性变量,不是随机变量随机误差项ε的期望值为0,且方差σ2都相同误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立\n多元线性回归方程(概念要点)描述y的平均值或期望值如何依赖于x1,x1,…,xp的方程称为多元线性回归方程多元线性回归方程的形式为E(y)=0+1x1+2x2+…+pxpb1,b2,,bp称为偏回归系数bi表示假定其他变量不变,当xi每变动一个单位时,y的平均平均变动值\n多元线性回归方方程的直观解释二元线性回归模型(观察到的y)回归面0ix1yx2(x1,x2)}\n多元线性回归的估计(经验)方程总体回归参数是未知的,利用样本数据去估计用样本统计量代替回归方程中的未知参数即得到估计的回归方程是估计值是y的估计值\n参数的最小二乘估计\n参数的最小二乘法(要点)根据最小二乘法的要求,可得求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和达到最小来求得。即\n回归方程的显著性检验\n多重样本决定系数(多重判定系数R2)回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差等于多重相关系数的平方,即R2=(R)2\n修正的多重样本决定系数(修正的多重判定系数R2)由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值用n表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为\n回归方程的显著性检验(线性关系的检验)检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系\n回归方程的显著性检验(步骤)提出假设H0:12p=0线性关系不显著H1:1,2,,p至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F4.作出决策:若FF,拒绝H0;若FF0.05(2,7)=4.74,回归方程显著回归系数的显著性检验t=9.3548>t=0.3646,;t2=4.7962>t=2.3646;两个回归系数均显著一个含有四个变量的回归\n第三节可化为线性回归的曲线回归基本概念非线性模型及其线性化方法\n非线性回归1.因变量y与x之间不是线性关系2.可通过变量代换转换成线性关系用最小二乘法求出参数的估计值并非所有的非线性模型都可以化为线性模型\n几种常见的非线性模型指数函数线性化方法两端取对数得:lny=ln+x令:y'=lny,则有y'=ln+x基本形式:图像\n几种常见的非线性模型幂函数线性化方法两端取对数得:lgy=lg+lgx令:y'=lgy,x'=lgx,则y'=lg+x'基本形式:图像0<<11=1-1<<0<-1=-1\n几种常见的非线性模型双曲线函数线性化方法令:y'=1/y,x'=1/x,则有y'=+x'基本形式:图像<0>0\n几种常见的非线性模型对数函数线性化方法x'=lgx,则有y'=+x'基本形式:图像0<0\n几种常见的非线性模型S型曲线线性化方法令:y'=1/y,x'=e-x,则有y'=+x'基本形式:图像\n非线性回归(实例)【例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。\n非线性回归(实例)生产率与废品率的散点图\n非线性回归(实例)用线性模型:y=01x+,有y=2.671+0.0018x用指数模型:y=x,有y=4.05(1.0002)x比较直线的残差平方和=5.3371<指数模型的残差平方和=6.11。直线模型略好于指数模型\n本章小结相关系数与相关分析一元线性回归模型、回归方程与估计的回归方程多元线性回归模型、回归方程与估计的回归方程回归方程与回归系数的显著性检验非线性回归的线性化5.用Excel进行回归分析\nthankyou