- 817.50 KB
- 2022-08-19 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
浙江工商大学金融学院姚耀军讲义系列第三讲假设检验一、经典线性模型假定对于模型,利用OLS有:其证明可参见第二讲附录。在高斯-马尔科夫假定下,OLS估计量的抽样分布完全取决于误差项的分布。在高斯-马尔科夫假定中,我们要求误差项是序列无关与同方差的。现在,我们施加更强的假定,即误差项服从正态分布,即。应该注意到,当误差项服从正态分布时,序列无关与独立性是等价的。因此,我们可以把上述分布假设写为:,即误差项服从独立同正态分布。为什么要施加更强的假定呢?这是为了进行小样本下的假设检验。与高斯-马尔科夫假定一起,被称为经典线性模型假定。在经典线性模型假定下,可以证明,OLS估计量是方差最小的无偏估计量(注意此时不需要把比较范围限制在线性估计量之中,因此该结论比高斯-马尔科夫定理更强。施加更多的假设而得到更强结论,这非常自然!)。笔记:34\n浙江工商大学金融学院姚耀军讲义系列1、假设误差项服从正态分布的合理性在于,误差项是由很多因素构成的,当这些因素是独立同分布时,依照中心极限定理,那么这些因素之和应该近似服从正态分布。当然,这并不意味着用正态分布来近似误差项的分布总是恰当的,例如,各因素或许并不同分布。另外,如果y是价格这样的变量,那么假设误差项服从正态分布是不合理的,因为价格不可能是负数,不过我们可以进行变量变换,例如对价格取自然对数或者考察价格的变化率,那么经过变量变换之后,或许再假设误差项服从正态分布就变得合理了。2、如果能够对误差项是否服从正态分布进行检验,那最好不过了。一种常用的检验方法是Jarqe-Bera检验,这可以参见相关的教科书。问题是,尽管我们能观察到解释变量、被解释变量的取值,然而,由于对参数的真实取值无法确定,因此误差是观测不到的,我们或许不得不利用残差来代替误差以进行相关的检验。当然,一个前提是残差确实是对误差的良好近似,这进而要求,我们对参数的估计是合理的。3、根据公式:考虑x非随机这种简单情况,显然,当样本容量很大时,只要误差项是独立同分布的(并不需要要假定误差项服从正态分布),那么根据中心极限定理,应该34\n浙江工商大学金融学院姚耀军讲义系列近似服从正态分布。当然,为了保证误差项的独立性,抽样的随机性十分关键。一、利用标准正态分布作假设检验假定是真实模型,当然我们并不知道各参数的真实值是多少。如果某一经济经济理论预言,而现在你手中正掌握一样本,一个问题是,你所掌握的样本支持这个预言吗?笔记:由于抽样误差的存在,恰好等于的概率很小。然而,即使,我们也不能说理论被证实,因为计量经济学方法本质上是属于归纳法,并且由于其结论是基于某一样本而得到的,因此它还是属于不完全归纳,故,计量经济学不能证实经济学理论。当然,计量经济学也不能推翻经济学理论。经济学理论是逻辑推导,其正确与否需要从逻辑入手。总而言之,我们能够说的是“样本是否支持某个理论的预言”或者“样本与某个理论的预言是否一致”。在经典线性模型假定下,或者34\n浙江工商大学金融学院姚耀军讲义系列定义,则z就是所谓的z统计量。估计量是用来估计真实参数的,而统计量是用来做统计推断(或者假设检验)的;统计量是随机的,其分布也被称为抽样分布,针对特定样本,我们得到统计量值,它是非随机的。,其中,。练习:确定的分布。现在,假设经济理论的预言是正确的,那么针对特定的样本你将得到标准正态分布图横坐标上的一个点:在这里,该式是非随机的,而特别应该注意的是,分子中的是估计值,而分母中的是估计量。估计值的标准差是零!。。现在来考察标准正态分布。在该分布上,存在对称的两点:与,其中:如果把概率为5%的事件称为小概率事件,那么,当的取值大于或者小于时,我们认为小概率事件发生了!小概率事件一般是不容易发生的,现在居然发生了,因此,我们应该怀疑上述经济理论所作出的预言。34\n浙江工商大学金融学院姚耀军讲义系列笔记:举一个生活中的例子。我预先认为某一个同学十分优秀。优秀学生某一次考试考砸了非常正常,然而连续十次考试考砸了就应该是小概率事件了。如果我预先所认为的那一个优秀同学确实连续十次考试都考砸了,我是不是应该对我的先验判断产生怀疑?当然,如果我就此认为那一个同学并不优秀,我也会犯错误,此即“第一类错误”,即“弃真”的错误。但犯这个错误的概率是很小的。如果优秀学生连续十次考试考砸了其概率是5%,那么我犯“第一类错误”的概率就是5%。问题是,为什么我们取正态分布两端的区间作为小概率区间呢?为什么我们不在正态分布密度曲线中随意取一小段作为小概率区间?从直觉上看,当这个假设为真时,即使估计值与完全相等不太可能,但估计值应该接近于。然而我们也要注意到,对的估计还存在精确性问题,这通过统计量的标准差体现出来。也就是说,在原假设为真时,即使估计值与有一定的差异,然而如果较大,那么在与间存在一定的34\n浙江工商大学金融学院姚耀军讲义系列也许是正常的。不过总的来看,当原假设为真时,z统计量值是应该接近于0的,这要么是因为中的分子确实接近于0,要么是因为尽管与有一定的差异,但主要是由较大所引起的。当z统计量值与0具有较大差异时,那么这个假设的真实性是值得怀疑的!假设检验的正式步骤是:(1)建立原假设与备择假设:笔记:原假设与备择假设互斥;假设体系应该是完备的,即原假设与备择假设两者之一必为真,但两者不能同时为真。(2)确定小概率标准a。经常我们把1%、5%或者10%作为小概率标准。对a更加正式的称呼是“显著水平”。(3)考察统计量值是否落在拒绝域:之内。如果落在上述区间之内,那么在a显著水平上,我们拒绝原假设,接受备择假设;反之,我们不拒绝34\n浙江工商大学金融学院姚耀军讲义系列原假设,拒绝备择假设。笔记:1、为什么当统计量值落在拒绝域之外时我们说“不拒绝原假设”而不是说“接受原假设”?其解释是:我们可以作出很多的原假设,例如或者而我们所计算出来的一些统计量值恰好都落在之外,难道我们既接受也接受?显然更恰当的表达方式是,即不拒绝也不拒绝。2、“接受原假设”没有留有余地,而“不拒绝原假设”表明我们的结论是留有余地的,即,在另外的原假设下也可能不拒绝。“接受备择假设”留有余地吗?应该注意到,备择假设是,因此,即使说“接受备择假设”,这也是留有余地的。3、设定1%、5%或者10%为显著水平显得有点随意,为何不设2%、6%、7%等为显著水平呢?是否可以依据一个更一般的标准来进行假设检验?答案是肯定的,我们可以依据一个更一般的标准来进行假设检验!既然我们已经计算出统计量值,如果z为正,那么根据正态分布表,我们就能够确定的值(如果z值为负,那么我们能够确定34\n浙江工商大学金融学院姚耀军讲义系列的值),我们通常把这个概率值称为伴随概率,简写为P或者Prob.这个概率值很有用处!例如,假定P值是0.062,那么,显然,以任何小于6.2%的概率为小概率标准,我们并不拒绝原假设;以任何大于6.2%的概率为小概率标准,我们拒绝原假设。4、一个总结:在进行双尾检验时,当P小于给定的显著水平时,那么在给定的显著水平下应该拒绝原假设;反之,则不拒绝原假设。上述检验都属于双尾检验,即是拒绝域。如果假设体系是:那么在显著水平a下,拒绝域应该是,我们进行的是单侧(尾)检验。为了理解上述单侧检验,我们回答如下几个问题:问题一:为什么拒绝域是?答案:当原假设为真时,那么应该在0左右不远处;当备择假设为真时,在真实参数左右不远处。因此,只要真实参数远大于,则34\n浙江工商大学金融学院姚耀军讲义系列远大于0是非常可能的,而在这种情况下Z远小于0则不太可能的。因此,我们把拒绝域设定为。当Z值落在该区间内时,我们拒绝原假设,接受被择假设。问题二:为什么不是拒绝域?答案:当Z值落在该区间内时如果我们拒绝了原假设,则我们更应该拒绝被择假设。因为当备择假设为真时,Z值落在该区间内的概率更小。基于假设体系的完备性,故我们不把设定为拒绝域。问题三:设置这样的假设体系有何依据?答案:这依赖于先验的理论与判断。例如,假定是某正常商品的消费收入弹性,那么不可能为负,则我们可以通过建立如下的假设体系:并基于样本来判断是否为真。问题四:单侧检验与双侧检验相比有何特点?答案:从假设体系的形式来看,单侧检验与双侧检验明显不同。但最关键的不同在于,给定显著水平a(犯“第一类错误”的概率),上述单侧检验的拒绝域与双侧检验右端拒绝域相比更宽,因此更容易拒绝原假设,从而犯“第二类错误”(取误)的概率更低。笔记:34\n浙江工商大学金融学院姚耀军讲义系列1、一个检验如果犯“第二类错误”(取误)的概率更低,则称该检验具有更高的检验势。在检验中提高检验的势一般来说是相当重要的。如果检验势较低则很容易“取误”,而科学精神要求我们不要轻易相信某一个确定性的判断!2、从本质上看,单侧检验之所以比双侧检验具有更高的检验势,其原因在于,在建立单侧检验时我们预先接受了有关理论的指导,从而掌握了更多的信息,故在检验时我们能够做到更精细,不会轻易“上当”(取误)。3、事物往往都具有两面性。尽管单侧检验比双侧检验具有更高的检验势,但要注意,它依赖于先验理论指导的正确性。如果先验理论指导是错误的,那么我们的“挑剔”很可能是“过度”的,即我们“弃真”的概率非常大。尽管名义上的“弃真”概率是a,但实际上的“弃真”概率超过了a,这被称为显著水平扭曲。4、如果显著水平不扭曲,则给定显著水平,一个检验的检验势越高越好。不幸的是,在显著水平不扭曲的情况下,一个检验的“弃真”概率与“取误”概率其走向通常相反:如果设定较低的显著水平以降低“弃真”的概率,则拒绝域变窄,故“取误”概率增加,反之则相反。问题是我们如何取舍?本质上这涉及到比较“弃真”与“取误”所造成后果的严重性。假设现在要检验一种新药是否有效果,如果有效果则推广使用。现在的原假设是没有效果,备择假设是有效果。考虑到假药的危害,则“弃真”34\n浙江工商大学金融学院姚耀军讲义系列所带来的后果非常严重,而“取误”所造成后果相对不严重。因此我们应该保守一点,设定更低的显著水平,以降低“弃真”的概率。思考题:在假设体系:下,计量软件包计算出为正的统计量值z,而且P值为0.120(注:计量软件包默认的P值是双尾的概率,当z为正时,它计算的是)。问:在假设体系下,以10%为显著水平,我们是否拒绝原假设?一、t检验虽然在经典线性模型假定下:然而,在之中,34\n浙江工商大学金融学院姚耀军讲义系列经常是未知的,需要我们估计。在第二讲时,我们已知道,在高斯马尔可夫假定下,是对的一个无偏估计。我们记,(注:thestandarderror,se;thestandarddeviation,sd)。可以证明,服从t(N-2)分布。证明:在经典线性模型假定下有:化简可得:笔记:1、关于随机变量概率分布的知识点见本讲附录1。2、在经典线性模型假定下可证明具体可参见一些较为高级的教科书。另外,根据附录1的知识点,一个服从卡方分布的随机变量其期望值等于自由度,故。实际上在第二讲我们已经表明,这验证了该知识点。3、,如果残差是对误差的良好近似,34\n浙江工商大学金融学院姚耀军讲义系列则也服从卡方分布还是比较好理解的。由于残差自由度是N-k-1,因此所服从的卡方分布其自由度为N-k-1。接下来,检验步骤和应该注意的细节就和第二小节没有差异了,除了所利用的是t分布而不是标准正态分布。笔记:随着自由度趋于无穷大,t分布渐进于与标准正态分布,见附录1知识点4。事实上,当自由度趋于无穷大时,在概率上收敛于(前者是对后者的一致估计),因此,随着自由度趋于无穷大,渐进服从于标准正态分布。前面我们讨论的是简单线性回归模型。事实上相关结论与检验完全可以被推广到多元线性回归模型:在该模型下,思考题:一样本其容量为30,建立回归模型:34\n浙江工商大学金融学院姚耀军讲义系列等于-4,请判断在显著水平1%、5%与10%下是否拒绝原假设。笔记:通过观察t分布表可知,给定显著水平,随着自由度的增加,右侧临界值递减。当自由度为10时,有:进行回归分析时自由度一般都大于10。如果情况确实如此,那么当你得到一具体的t值时,你应该能够粗略地判断在多大的显著水平下是否拒绝原假设。在实践中,我们经常对是否为零的假设感兴趣,显然在假设体系:下,此时的t统计量是。针对特定样本,计量软件一般会自动计算出对应于上述假设体系的t值。如果原假设被拒绝,那么我们就说在某一种显著水平上x(所对应的系数估计)是统计上显著(不为零)34\n浙江工商大学金融学院姚耀军讲义系列的;如果不能被拒绝,则就说x(所对应的系数估计)在某一种显著水平上是统计上不显著的。应该注意:即使的绝对值很小(即所谓的变量x无经济显著性或者实际显著性(economicsignificance/practicalsignificance),但在统计上,它可能显著地与0不同。笔记:在这里我们说是否与零有显著差异,而不是说是否与零有显著差异。是确定性的参数,它要么等于零要么不等于零。一、置信区间在模型下,如果有:则有:。我们称为的区间估计量,而1-a是置信水平。应该注意,当样本并未指定时,是一个随机区间!我们可以说,该随机区间包含真实参数的概率为1-a。然而,当样本给定后,及其通过计算已经被获得,那么34\n浙江工商大学金融学院姚耀军讲义系列就不再是随机区间了,该区间要么包含的真实值要么不包含,故我们不能说,该确定性区间包含真实参数的概率为1-a。在这种情况下,置信区间其含义在于:在重复抽样中,很多类似的确定性区间将被获得,在这些区间中,大约有百分之100(1-a)的区间将包含的真实值。当原假设为真时,如果根据某一样本所得到的置信区间并未包含,那么小概率事件发生了,因此,我们将拒绝这个原假设。反之,则不拒绝原假设。如此看来,利用置信区间作假设检验本质上是与t检验等价的。与区间估计量有联系的一个概念是所谓的区间预测,见附录2。思考题:对于模型,根据一样本,我们得到:(1)试判断变量x在10%显著水平下是否统计显著。(2)在假设体系:及其10%显著水平下,我们是否拒绝原假设?一、F检验34\n浙江工商大学金融学院姚耀军讲义系列现在我们把简单线性回归模型扩展为多元线性模型,例如模型是:如果我们对原假设是否成立感兴趣,我们该怎么办?。第一步:估计受约束模型:,或者估计上述模型得到残差平方和RSSr;第二步:估计不受约束模型:得到残差平方和RSSur;第三步:定义F统计量:在经典线性模型假定假定下及其原假设下,该统计量服从分布。在这里,dfr是估计受约束模型时所得到的残差的自由度;dfur是估计不受约束模型时所得到的残差的自由度。在我们的例子中,34\n浙江工商大学金融学院姚耀军讲义系列。笔记:OLS要求残差平方和最小,现在我们得到了两个残差平方和,即RSSr与RSSur,显然RSSrRSSur(回忆第一讲关于局部最优与全局最优的概念),于是,上述对F的定义满足F0。回忆F分布的图形,它是在第一象限被定义的。如果原假设为真,即我们所施加的约束是正确的,那么,尽管RSSrRSSur,但RSSr与RSSur应该相差不多,因此,如果相差很大,那么我们就应该怀疑原假设了!由于RSSr与RSSur与被解释变量的测度单位有关,因此,我们把两者的差距除以RSSur,以使其“无单位化”。笔记:1、尽管RSSrRSSu,但RSSr与RSSur应该相差不多。两个模型中由于被解释变量都是y,因此TSS相同。如果RSSr与RSSur相差不多,那么这意味着ESSr与ESSur应该相差不多。为什么呢?注意到:当约束为真时,只要估计不是过于的不精确,那么34\n浙江工商大学金融学院姚耀军讲义系列应该不会偏离真实参数太远;应该不会偏离真实参数太远,应该不会偏离真实参数太远,尽管我们不知道的取值是多少。因此当约束为真时ESSr与ESSur应该相差不多。2、为了理解笔记1,在这里提供一个日常生活场景。我通过在你家对面长期观测发现,经常有五个不同的人出入你家,于是我估计你家总人口是5个(由于是长期观察,因此这个估计不会过于不精确)。现在你的一位亲戚告诉我,你家的性别构成是3男3女,于是通过该信息,我直接判断(注意不是估计)你家总人口是6个。我不会怀疑你的亲戚在撒谎,尽管我先前估计的总人口并不是6个,这是因为,你家的一个成员也许在外地上大学从而长期不在家。但如果你的亲戚告诉我,你家的性别构成是5男6女,我将怀疑你的亲戚在撒谎。因为假设你的亲戚未撒谎,那么你家的总人口是11个,这进一步意味着有6个人长期不出入家门,这应当被认为是小概率事件出现了(请问,在上述场景中,无约束估计是什么?有约束估计是什么?有约束估计是否导致估计精度提高?当约束为真时,无约束估计与有约束估计是否相差不大?)。3、施加约束意味着我们在估计时掌握了更多的先验信息,这一般意味着我们能够得到更精确的估计。但RSSr竟然大于等于RSSur,这似乎与上述结论相矛盾。事实上,估计的精度使用率估计量的标准误来恒量的。斜率系数估计量的标准误是34\n浙江工商大学金融学院姚耀军讲义系列的增函数。当施加约束后,RSS一般来说会增加(一定不会减少),但应该注意到,在该约束被施加后,待估计参数个数减少了2个,因此并不一定增加。特别是当施加约束为真时,RSS即使增加但也不会增加太多,结果很可能是减少的。4、为什么除以RSSur而不是RSSr?如果除以RSSr,那么计算所得的F值会更小,从而更容易不拒绝原假设,即犯第二类错误(取误)的概率增加,因此,为提高检验的势(降低犯第二类错误的概率),在此除以RSSur而不是RSSr,除以RSSur相当于“提供一个放大镜,以使我们对原假设更加苛刻,不会轻易相信原假设所告诉的故事”,这不正好体现了科学的怀疑精神吗?”总而言之,一个直觉是当F值远大于零时我们应该拒绝原假设。多远才算远?设定临界值,当我们依据样本所得到的F值落在时,我们说“在a显著水平下拒绝原假设”。笔记:1、在经典线性模型假定及其原假设下,与独立吗?只有两者是独立的,我们才能利用附录1知识点5。事实上,当原假设为真时RSSr与RSSur应该相差不多,这并不依赖于RSSur的取值。因此,直观看来,34\n浙江工商大学金融学院姚耀军讲义系列与应该是独立的。2、总的来看,当约束为真时,F值应该与零差异不大。再考虑到F分布在第一象限被定义,则我们不难理解为什么F检验是一个单尾检验。同样,当我们依据样本得到值时,我们也能够依据F分布表计算,计量软件包在F值后所给出的P值正是这个概率。笔记:利用R2指标,F统计量还被可以改写为另外一种形式,即所谓的R-平方型。,因此有:应该注意到,一个直观的理解是,不受约束的样本回归模型由于更具弹性因此应该拟合得更好。在实践中,我们也许对原假设最感兴趣。如果这个假设被拒绝,那么我们就说x134\n浙江工商大学金融学院姚耀军讲义系列、x2、x3在统计上是联合显著的;如果不能被拒绝,则就说x1、x2、x3在统计上是联合不显著的。针对特定样本,计量软件一般会自动计算出对应于上述假设的F值。练习:1、估计模型并获得R2,针对原假设,请推导出R-平方型的F统计量:。2、如果利用F统计量检验原假设,证明有关系:笔记:根据在原假设下的R-平方型F统计量表达式可知,此时F检验实际上也是检验R2是否显著不为0。R2是用来衡量模型拟合优度的,因此,此时F检验实际上是模型拟合优度检验。一、t检验与F检验的联系与区别(一)联系对于模型:34\n浙江工商大学金融学院姚耀军讲义系列现在我们对假设进行检验,首选检验方法是t检验,不过F检验也是可行的。可以证明,此时。为简单计,考虑简单模型,我们对是否为0感兴趣。一方面可以进行t检验:另一方面也可以进行F检验:笔记:此时受约束模型是:,根据第一讲相关知识点,。因此,。当F=0时,,因此,此时F检验实际上也是检验是否显著不为0。如果显著不为0,则表明模型具有显著的解释力,故此时F检验也被称为(整个)模型的显著性检验。接下来我们阐述证明的思路。我们实际上需要证明的是:是否成立。由于34\n浙江工商大学金融学院姚耀军讲义系列,故需证明是否成立。注意到:因此,,而是x与y的样本相关系数的平方,按照第二讲关于R2的相关结论,它与相等。我们所证明的关系仅是一个代数关系,问题是服从F分布吗?根据附录1知识点4与5,一个服从t(m)分布的随机变量其平方一定服从F(1,m)分布,进而有:因此F检验与t检验将得到完全相同的检验结论。练习:首先请查分布表验证:34\n浙江工商大学金融学院姚耀军讲义系列如果2正是你所得到的,那么对应相同原假设,F值将为4。请问在5%显著水平下,t检验与F检验各自的检验结论是什么?它们相同吗?笔记:1、对进行检验,不仅这个代数关系成立,而且t检验与F检验将得到相同的检验结论。事实上,只要t检验与F检验所对应的原假设相同,那么上述t检验与F检验的联系都是成立的。2、上述述结论的一个应用。对于模型:通过前面的练习,我们知道。现在考虑简单模型:,则根据前面的结论有:,显然,如果,则。注意到对模型:,其调整的判定系数等于0(作为一个练习请证明)。与相比较,前者增加了一个解释变量,因此,其判定系数将大于等于后者的判定系数。然而,只有当34\n浙江工商大学金融学院姚耀军讲义系列时,前者的调整的判定系数才会大于后者的调整的判定系数。这个结论可以推广:在初始的线性模型上增加解释变量,只有所增加变量所对应的t值其绝对值大于1时(在计算该t值时所对应的原假设是真实系数为0),调整的判定系数才会增加(应该注意到,t值的绝对值大于1并不意味着变量一定是显著的)。(一)区别t检验关注的单个参数的取值问题,如果需要同时关注多个参数的取值问题,那么此时我们应该利用F检验。对于模型:在实践中,我们一方面可能对是否成立感兴趣,即关注单个解释变量的显著性,此时用到的是t检验;另一方面,我们也可能对是否成立感兴趣,即关注所有解释变量的联合显著性,此时用到的是F检验。应该注意到,根据此时的R-平方型F统计量表达式可知,我们实际上是在检验R2是否显著不为0,因此,关注所有解释变量的联合显著性即关注整个模型的拟合程度。特别要注意的是,单个变量显著并不意味着变量联合显著,反之亦然(以后我们将看到,如果解释变量共线性程度很高,此时就很可能出现变量联合显著但很多变量单独来看并不显著)。笔记:34\n浙江工商大学金融学院姚耀军讲义系列与生活中的一种现象进行类比:一种药品包含两种成份,其中任何一种成份单独看来其药性都很强,但联合时使用时可能并无药效;另外一种情况是,其中任何一种成份单独看来其药性都很弱,但联合时使用时药品的药效可能很大。七、补充知识点:相关系数的假设检验(一)简单相关系数的假设检验我们想判断随机变量x与y的简单相关系数r是否为零。按照Fisher,在假设体系:下,当原假设为真时,(注:是样本相关系数),现在我们考虑另外一种思路。建立回归模型:,再考察是否与0有显著差异。上面最后一个等式之所以成立,首先是因为在简单线性回归模型中,等于y与x的样本简单相关系数的平方,其次是因为当小于零时,34\n浙江工商大学金融学院姚耀军讲义系列是负数,因此t值为负数;当大于零时,是正数,因此t值为正数。总的来看,Fisher的方法与回归检验方法等价。换句话说,如果你试图依据样本判断随机变量x与y的简单相关系数r是否为零,你可以建立简单线性回归模型然后对斜率系数进行t检验,如果与0有显著差异,则可以拒绝r为0的原假设。(二)偏相关系数的假设检验x1与x2的简单相关可能是由于两变量分别与x3相关造成的。在控制了x3之后,x1与x2还具有相关性吗?在控制了x3之后,x1与x2的相关关系被称为偏相关,记为。如何计算样本偏相关系数?步骤:第一步:把对进行回归有:(1)第二步:把对进行回归,即有:(2)第三步:计算与的样本简单相关系数,有:当然我们还可以利用变量间的样本简单相关系数来计样本偏相关系数,这是因为存在关系:34\n浙江工商大学金融学院姚耀军讲义系列,其证明见附录3。我们还能检验是否与0有显著差异。方法是对回归模型:(注:不含截距,当然你可以包含截距,但你会发现,截距的估计结果肯定为0,这是因为与其均值都为零,而基于简单线性回归截距估计量的公式,这意味着截距估计量为0),在原假设下进行t检验。值得注意的是,此时自由度应该是(N-2)-1=N-3而不是N-1!这是因为与的自由度是N-2。利用上述检验方法来检验x1与x2的偏相关关系显得太复杂了,事实上基于回归模型:,在原假设下进行t检验即可检验x1与x2的偏相关关系。为什么呢?因为b1就是控制了x3后x2对x1的影响(在第六讲,我们将证明)。(二)复相关系数的假设检验x1与(x2,x3)的相关关系被称为复相关,记为R。如何计算样本复相关系数?基于回归模型:,计算与的样本简单相关系数,并取绝对值,则得到x1与(x2,x3)的样本复34\n浙江工商大学金融学院姚耀军讲义系列相关系数。根据第一讲,与的样本简单相关系数的平方就是上述回归的判定系数R2。基于回归模型:在原假设下进行F检验,则等价于检验原假设:复相关系数R=0。回忆一下,在原假设下,,当判定系数R2=0时,F=0。笔记:对于回归模型:,在原假设下进行F检验实际上是检验x1与(x2,x3)的复相关关系;在原假设下进行t检验实际上是检验x1与x2的偏相关关系(控制了x3)。附录1:正态分布、卡方分布、t分布与F分布1.X是期望值为,标准差为的随机变量,则X所服从分布的偏度与峰度分别被定义为2.如果,则。另外,当是奇数时,3.,则34\n浙江工商大学金融学院姚耀军讲义系列4.5.,且两者独立,则。另外,当时,渐进分布于。附录2:区间预测假定真实模型是:,模型满足经典线性模型假定。以作为对yf的预测。此时预测误差是:显然,E(e1)=0,(参见第二讲补充知识点2),e1服从正态分布。即34\n浙江工商大学金融学院姚耀军讲义系列因此,在置信水平a下,对的区间预测是:与上述过程类似,我们可以得到E(yf)的区间预测。一个问题是,我们经常需要对进行估计。换句话说,我们不知Sd(e1),但我们可以获得对它的估计Se(e1)。由于,因此,即,因此,在置信水平a下,对的区间预测是:与上述过程类似,我们也可以利用t分布重新构建对E(yf)的区间预测。附录3:证明34\n浙江工商大学金融学院姚耀军讲义系列基于OLS代数有:故有:按照判定系数的定义,与34\n浙江工商大学金融学院姚耀军讲义系列分别是回归(1)与回归(2)的判定系数。而在简单线性回归中,判定系数等于被解释变量与解释变量(样本)简单相关系数的平方,因此有:34