- 909.40 KB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学原理第一章基础第一节统计的定义统计是从数据中获取信息的一种方法。第二节主要统计概念一、总体总体就是统计工作者研究对象的全体。对总体的描述性测度称为参数,如均值,最大值、最小值等。二、样本样本就是从总体中抽取的若干数据的集合。对样本的描述性测度量是统计量。三、统计推断统计推断是运用样本数据对总体进行估计、预测和决策的过程。可靠性测度共有两种:置信水平和显著性水平。三个例子:企业多元化战略:多元化企业和非多元化企业的绩效差异。普通学生和学生干部:就业和收入差异。男生和女生:成绩差异。第三节:数据的类型一、定距数据定距数据是实数:如身高、距离、收入等二、定性数据定性数据的取值是类别:如男性、女性。三、定序数据定序数据也表现为定性的,但是取值是有顺序的。例如,不好、一般、好、很好、优秀。定性数据和定序数据的区别在于后者的取值是有顺序的。第四节数据的描述方法一、图表描述方法计算机命令1.将数据输入或导入列中。2.选择数据列。3.单击图表向导(ChartWizard)、线图(Line)和完成(Finish)。4.如果想做某些改变,则鼠标右键单击图表,选择图表选项。二、数字描述方法1.中心位置的测度(1)算术平均数求和:SUM平均值:average(2)中位数:中位数是通过把观测值按顺序排列而计算得到的。处于中间位置的观测值即为中位数。中值:median,如果数据有n个,若n为单数,取值为中间的数值;若n为偶数,取值为中间两个数的均值。(3)众数:众数是出现频率最高的一个或者几个观测值。众数:mode。注意:在不只有一个众数的情况下,Exce只显示最小的,不显示是否有其它众数。最大值:max;最小值:min;平方根:sqrt31\n数据分析:分析工具库是Excel所附的一组统计函数,它可以通过菜单栏找到。单击工具,找到“数据分析”;如果“数据分析”不存在,点击“加载宏”,然后选择分析工具库。找一台安装有数据分析的电脑,进入excel安装目录(一般是C:\ProgramFiles\MicrosoftOffice)进入OFFICE10文件夹拷贝Library文件夹到你的电脑同名文件夹里,然后执行前面的加载宏步骤就可以了。所有中心位置测度以及其它统计量的Excel计算机命令:1)录入或导入数据。2)点击工具,数据分析(dataanalysis)和描述统计(descriptivestatistics)。3)指定输入范围(inputrange)4)点击标志在首行,点击汇总统计,然后点击确定。(4)几何平均数算术平均数是中心位置的唯一最通用和有用的测度;在特定情况下,中位数是中心位置的一个更好的测度。然而,在一种情况下,均值和中位数都不是最好的测度:当变量是增长率或者变化率时,比如投资回报率,我们就需要另一种测度:几何平均数。例子:假定以1000元进行一次两年的投资,第一年投资增长到2000元,第二年从2000元减少到1000元。第一年和第二年的投资回报率分别是100%和-50%。投资回报率的算术平均数为25%。这就令人产生误解。实际的投资回报率为0%。这正是几何平均数的值。几何平均数:用表示第i期的回报率。则几何平均数为当我们需要知道一个时间变量的平均增长率或者平均变化率的时候,我们使用几何平均数。然而需要强调的是,如果你打算估计将来任何特定时期的回报率(或增长率)的均值,正确的做法还是计算n个回报率的算术平均数。2.变异性的测度(1)极差:极差=最大的观测值-最小的观测值(2)方差:方差:var(3)标准差:标准差:stdev(4)变异系数:观测值的标准差除以均值第二章数据的收集与抽样第一节数据来源宏观数据:全国及各省份统计年鉴、金融统计年鉴、人口统计年鉴、《新中国60年统计资料汇编》微观数据:统计调查、上市公司年报(巨潮资讯网)、上海(深圳)证券交易所、中国证监会(银监会、保监会)等政府机构网站。第二节抽样方案一、简单随机抽样在抽样过程中,任何拥有相同数量观测值的样本被抽中的概率都相同。二、分层随机抽样分层随机抽样是通过将总体划分为互斥的子集或层,并在每个层中抽取简单随机样本得到的。例如:1.性别:男、女2.年龄:20岁以下、20-30、31-40、41-50、51-60、60岁以上3.职业4.家庭年收入三、整群抽样整群抽样是总体元素的群或族的简单随机样本。当编制完整的总体成员名单存在困难或者成本过高时,或者总体元素在地理位置上广泛分布时,整群抽样技术是非常有用的。31\n例如,假设我们想对一个大城市中家庭平均年收入进行估计。如果使用简单随机抽样方案,需要列出该城市所有家庭的名单再从中抽样;使用分层随机抽样方案,既需要列出家庭名单,还有根据其它变量对家庭进行分类以便生成层。一种相对节约成本的可选方法是将该城市的每一个街区作为一群,随机抽取群来构成样本,对这些样本群中每个家庭的收入进行调查。这样可以降低成本。但是,由于同一群中的家庭在许多方面都是类似的,因而整群抽样也就使抽样误差有所增加。将节约的成本用于增大样本规模,可以在一定程度上弥补这个缺陷。第三节抽样与非抽样误差一、抽样误差抽样误差是指样本和总体之间的差异,这个差异是由恰好被选入样本的观测值引起的。二、非抽样误差非抽样误差比抽样误差更严重,因为即使抽取更大的样本也不能减小误差的值或者发生概率。即便是普查也可能会包含非抽样误差。非抽样误差的原因:1.数据获取过程中的误差。这类误差包括计算机录入时所犯的错误,对问题解释不当而导致的数据错误记录,也可能是对一些敏感性问题的不准确回答。2.无回答误差。当存在无回答情况时,收集到的样本观测值可能对目标总体就不具有代表性,因此导致有偏的结果。3.选择偏差。当设计的抽样方案使得目标总体中的一些对象不可能被包含进样本时,就产生了选择偏差。第三章统计推断第一节估计一、估计的概念通常把样本均值叫做总体均值的估计量,一旦样本均值被计算出来,它的值叫做估计值。1.点估计:点估计用一个值来估计未知参数的值,进而对总体进行推断。2.区间估计:区间估计用区间来估计位置参数的值,并对总体进行推断。3.无偏估计:一个总体参数的无偏估计是指,其期望值等于参数真值的统计量。这意味着如果你取无数个样本,计算每个样本的估计值,估计量的平均值将会等于参数值。也就是说,样本统计量平均来说等于参数。4.一致性:如果随着样本容量的增大,估计量和参数的差变小,那么我们说这个无偏估计量具有一致性。5.相对有效性:如果一个参数有两个无偏估计量,方差较小的估计量是相对有效的。二、总体标准差已知时,对总体均值的估计减号定义置信下限,加号定义置信上限。置信区间估计的解释:区间包含总体均值的概率是。第二节假设检验入门一、假设检验的概念一个例子:对罪犯的审讯:被告无罪:被告有罪当我们进行假设检验时,存在两种可能的错误。第一类错误是当原假设正确时,我们却拒绝了它。第二类错误被定义为当原假设有错误时,我们却没有拒绝。在上面这个例子中,第一类错误就是一个无罪的人被判定有罪。当一个有罪的被告被判定无罪时,第二类错误就发生了。我们把发生第一类错误的概率记为31\n,通常它也被称作显著性水平。第二类错误发生的概率记为。两类错误发生的概率是相反的关系,试图减少某一类错误的方法都会使犯另一种错误的概率增加。在英美司法系统中,第一类错误被认为更加严重。这就要求犯第一类错误的概率很小,这意味着很小。总结:1.这里有两个假设,一个叫做原假设(或者虚拟假设),另一个叫做备择假设。2.这个检验过程从假设原假设是正确的开始。3.这个过程的目的是判定是否有足够的证据推断备择假设是正确的。4.这里有两个推断:拒绝原假设,赞成备择假设;不拒绝(不拒绝不等于接受)原假设。5.在任何的检验中,有两类可能的错误。第一类是原假设正确却拒绝它,第二类错误是当原假设不正确时却未能拒绝。二、总体标准差已知,检验总体均值例子:西方经济学成绩1.拒绝域拒绝域是一个取值范围,当检验统计量落在这个范围的时候,我们可以拒绝原假设而支持备择假设。假如我们给定样本均值恰好大到可以拒绝原假设,则拒绝域为的抽样分布是正态分布或近似正态分布,且其均值为,标准差为。标准化,可以得到:这里,,z为标准检验统计量,利用标准检验统计量构造的拒绝域为:2.p值拒绝域一个突出的缺陷在于它没有告诉我们犯第一类错误的概率。而p值具有这种功能。检验的P值是观测到检验统计量至少和原假设为真时计算出来的值那样极端的概率。以西方经济学成绩为例,如果样本均值为78,p值就是我们观测到总体均值是70时,观测到样本均值至少和78一样大的概率,即描述p值:统计学先驱经常使用下面的术语来描述p值:31\n如果p值小于1%,我们就说有一些显著证据可推断备择假设是真的,我们也说这个检验是高度显著的。如果p值位于1%到5%之间,我们就说有一些强证据可推断备择假设是真的,我们也说这个检验是显著的。如果p值位于5%到10%之间,我们就说有一些弱证据可推断备择假设是真的。当p值超过10%,我们就说没有证据可以推断备择假设是真的。3.p值和拒绝域方法如果我们能选择的话,我们可以使用p值方法推断我们采用拒绝域方法处理的那些问题。拒绝域方法首先需要推断者选择显著性水平,这样才能构建拒绝域。接下来,我们才能决定拒绝或不拒绝原假设。另一种进行假设检验推断的方法是我们利用选择的显著性水平与p值相比较。如果p值小于,那就拒绝原假设;如果p值大于,我们就不能拒绝原假设。第三节总体的推断在前两节里,我们介绍了统计推断的概念,并介绍了如何估计和检验一个总体的均值。然而我们选择的例子是不现实的,因为该统计方法要求使用总体的标准差,而通常来说标准差都是未知的。因此本节和下一节我们将引进其他统计方法,即我们首先确定要估计或检验的参数,然后确定参数的估计值以及参数的抽样分布,最后通过简单的数学运算,统计者就能获得区间估计和检验统计量。一、标准差未知时对总体均值的推断1.当未知时,的检验统计量:当总体服从正态分布且总体标准差未知时,的假设检验的检验统计量是该分布服从自由度为v=n-1的学生t分布。这里s为样本标准差。的置信区间估计为:v=n-1例1:快递公司主要在价格和服务上相互竞争。一种降低成本的方法是根据需要来雇佣或解雇员工从而保持较低的劳动力成本。这种策略要求管理者不断地雇佣和培训新员工。但新雇佣的或刚培训完的员工的工作效率远不如经验丰富的员工。因此,很难确定需要的员工人数和工作进度的安排。当前采用的工作安排建立在下面的假设基础上:刚接受培训的员工的工作效率将在一周内达到老员工的90%以上。为了检测这个数据的准确程度,一位运营经理进行了一个试验。他对50名受训员工进行了1小时的观察,并记录了他们处理和派发的包裹数。这些数据保存在Xm12-01中。已知一个熟练员工平均每小时能处理500件包裹。经理担心的是,如果他估计受训员工的工作效率的均值大于450件,而事实上并没有达到,那么一些包裹被迟递。这位经理能从这些数据得出他的判断是否正确吗?解:问题的识别问题的目标是描述一小时受训员工处理的包裹数量的总体。已有数据是定距数据,说明要检验的参数是总体均值。因为经理想知道受训一个的生产率是否能达到熟练工人的90%以上,所以备择假设是自然地,原假设就是检验统计量为v=n-1计算手工计算Excel计算机命令:31\n1.输入数据2.点击工具,数据分析附加(DataAnalysisPlus),然后选择t检验:均值(t-test:Mean)。3.确定输入范围(InputRange):A1:A51。4.确定假设均值(HypothesizedMean)的值:450。5.如果需要,点击标志(Labels)。6.确定一个值然后点击OK(确定):0.05。解释检验统计量的值为t=1.89,p值为0.0323。所以我们有足够的理由相信,受训员工的工作效率已经达到了数量员工的90%以上。这说明根据追赶战略确定的为了满足生产需求而雇佣的员工数是有效的。例2:过去10年中,美国相继设立了一些致力于提高产品和服务质量的机构,其中有许多组织每年都向那些提供高质量产品和服务的公司提供奖励。有一位投资者认为,获得奖励的上市公司的业绩要远胜于那些没有获得奖励的公司。为了分析在这样的公司中的投资回报,他从去年获奖的公司中随机抽取了83家作样本,并计算了他投资的年回报率。相关数据存储在文件Xm12-02中。这位投资者想要估算一下期望的回报率,取置信水平为95%是较为合适的。解:问题的识别问题的目标是描述购买获奖公司的股票的年回报率的总体。数据是定距数据,因此,参数为总体均值。问题要求我们估计这个参数,置信区间估计为计算:Excel命令1.输入数据2.点击工具,数据分析附加(DataAnalysisPlus),然后选择t估计:均值(t-Estimate:Mean)。3.确定输入范围(InputRange):A1:A84。4.确定假设均值(HypothesizedMean)的值:450。5.如果需要,点击标志(Labels)。6.确定一个值然后点击OK(确定):0.05。解释我们估计平均回报率在13.2%到16.83%之间。我们可以利用这个估计决定是否对获奖公司进行投资,以及如果投资的话,我们可以期望的回报率是多少。3.理解统计概念:自由度学生t分布的基础是用样本方差来估计未知的总体方差。样本方差定义如下:要计算样本方差,我们必须首先计算均值。抽样分布来源于对同一总体的重复抽样。要通过重复抽样来计算方差,我们可以从样本中任意选择前n-1个观测值。然而,不能随意选择第n个值,因为我们必须首先计算样本均值。例如:假设n=3,并知道=10.可以任意假设的值,但的值必须使=10。所以,在我们选择的样本中只有两个自由度,也就是说为了计算,损失了一个自由度。检验必要条件:当我们抽样的总体服从正态分布时,t统计量服从学生t分布。然而,统计学家已经证明,如果总体不服从正态分布,主要不是极度偏离正态分布,t检验的结果和置信区间估计就依然有效。为了检验这个说法是否正确,可以通过绘直方图来判断总体的分布状况是否与钟形差别较大。二、总体方差的推断方差是衡量风险的一个指标,方差还广泛用于运营管理中。所以,很多情况下我们需要推断总体的方差。31\n检验关于方差的检验统计量是:在总体的随机变量服从正态分布,并且方差等于时,该统计量服从自由度为v=n-1的分布。例:灌装机是用来包装各种液体的机器,包括牛奶、软饮料等。在理想状况下,每罐中的液体量的变化应该很小,因为差异太大会导致有些容器装得太少(等于欺骗顾客),而有些容器装得太满(导致浪费)。一家公司新研发了一种灌装机,该公司的总裁说这种新机器能连续平稳地灌装1公升(1000立方厘米)的容器,灌装液体量的方差低于1立方厘米。为了检验他所说的准确性,随机抽取了25灌1公升灌装作为一个样本,并记录了试验数据,保存在Xm12-03中。通过这些数据能否在5%的显著性水平上证明总裁的声明是正确的?解:问题的识别:问题的目标是描述这个机器灌装1公升液体这个总体。数据是定距数据,我们关注的是灌装液体量的差异程度。因此,要研究的参数是总体方差。由于我们向确定是否有足够的理由支持声明的正确性,所以备择假设是自然地,原假设就是检验统计量为Excel计算:1.输入数据2.点击工具,数据分析附加(DataAnalysisPlus),然后选择Chi-squaredTest:Variance。3.确定输入范围(InputRange):A1:A26。4.确定假设方差(HypothesizedVariance)的值:1。5.如果需要,点击标志(Labels)。6.确定一个值然后点击OK(确定):0.05。解释:没有足够的理由相信那个总裁所说的是正确的。结果并没有说方差比1大,它仅仅是我们无法证明方差比1小。三、总体比例的推断当数据是定性数据时,在描述总体或样本时,不能计算它们的均值和方差,我们唯一能做的就是计算每个值出现的次数,并根据次数计算比例。因此,在描述一个由定性数据构成的总体时,我们关心的参数是总体比例p。p的检验统计量:置信区间为:31\n例:美国总统选举。选举日的民意测验结束之后,媒体会竞相争先预测哪位候选人会获胜。这些预测是以某些选区的票数和选取后民意测验为基础的。选举后民意测验的方式是,询问一个刚刚投过票的人选择的是哪位候选人。在美国总统大选中,在一个州获得选票最多的候选人将获得这个州全部的选举人团选票。假设某个州的选举后民意测验的结果保存在文件Xm12-05中,其中1=民主党,2=共和党。民意测验在8:00结束。媒体能否从这些数据中推断出共和党的候选人将在本州获胜?媒体是否应该在8:01宣布共和党将获胜?问题的识别:问题的目标是描述这个州的投票的总体。数据是定性数据,因为它的值是民主党或共和党。因此要检验的参数是整个州投给共和党候选人的票数比例。因为我们想确定媒体是否可以在8:01宣布共和党将获胜,故备择假设为:原假设为:检验统计量为:Excel计算:1.输入数据2.点击工具,数据分析附加(DataAnalysisPlus),然后选择Z-Test:Propotion。3.确定输入范围(InputRange):A1:A766。4.确定代表CodeforSuccess(成功的代码):2。5.输入HypothesizedPropotion(假设比例):0.5。6.如果需要,点击标志(Labels)。7.确定一个值然后点击OK(确定):0.05。解释:四、市场营销中的应用市场细分将购买某种产品的消费者划分为不同的群体,被分在同一群体中的消费者都比较相似,而群体与群体之间的成员差异则比较大。市场细分源于这样一种认识:一种产品很少能够满足所有消费者的需求。例:一家食品制造商用健康和节食观念作为细分早餐麦片市场的变量。一共划分了四类:1.关注食用健康食品的群体。2.主要关心体重的群体。3.由于身患疾病而关心健康的群体。4.对食品没有特别要求的群体。为了区分不同的群体,生产商进行了调查。根据问卷调查,他们将人们归入以上四类之一。最近进行的一次调查随机选出了1250名美国成年人(年龄不小于20岁)来完成调查问卷,问卷的结果储存在问卷Xm12-06中。最近一次人口普查显示,美国共有194506000名年龄不低于20岁的成年人,请在95%的置信水平下,估计美国成年人中关注食用健康食品的人数。问题的识别:问题的目标是描述美国成年人的总体。数据是定性数据。于是,我们要估计的参数是美国成年人中关系食用健康食品的比例p,我们要估计的置信区间为Excel计算:z-EstimateProportion解释:我们估计群体1的人数占美国成年人总人数的比例在0.1924~0.2380之间。由于总的成年人数为194506000,我们估计属于组1的人数在以下两个值之间:置信区间下限=194506000*0.1924=37422954置信区间上限=194506000*0.2380=46292428第四节两总体对比的推断一、两总体均值差异的推断:独立样本31\n为了检验和估计两个总体均值之间的差异,研究人员需要从每个总体中随机抽样。在本部分中,我们将讨论独立样本,独立样本为相互之间完全独立的样本。抽样过程:样本容量参数统计量样本1样本2两个总体均值之间的差值最好的估计量是两个样本均值之差。当两方差相等,即时,的检验统计量为:式中,称为联合方差估计,它是对两个样本方差的加权平均。这要求两个总体的方差相等,才可以计算。当两方差相等,即时,的置信区间估计为:当两总体方差不相等时,的检验统计量为:当两总体方差不相等,的置信区间估计为:例1:尽管存在一些争议,但科学家还是普遍相信高纤维含量的谷类食品能够降低各种癌症的发病率。有个科学家认为,相对那些早饭不吃高纤维谷类食品的人而言,早餐食用高纤维谷类食品的人们在午餐中平均摄入的卡路里要少一些。如果结论属实,那些高纤维谷类食品生产厂家就可以声称,食用高纤维谷类食品具有另一个好处——对减肥者具有减肥的功效。在这个结论的初步验证中,调查者随机抽取了150人,并询问他们通常早饭和午饭都吃些什么。将受访者分为高纤维谷类食品消费者和非高纤维谷类食品消费者两类。同时他们午餐所含的卡路里含量分别被记录在文件Xm13-01的第1、2列。在5%的显著性水平下,该科学家能从中证明他的结论是正确的吗?31\n问题的识别:为了评估他的结论,这位科学家需要比较两类消费者的总体。这些数据显然是定距数据。根据问题的目标和样本的数据类型可知,要检验的参数是两个均值的差。需要检验的是,高纤维谷类食品的消费者午饭摄入的平均卡路里数是否小于非高纤维谷类食品的午饭摄入的平均卡路里数。所以,备择假设是原假设为:为了确定检验统计量,该科学家用计算机计算出了样本方差,它们分别为由此,我们有理由相信总体的方差不相等,需要使用方差不等的检验统计量。Excel计算:1.在两列中键入或者导入数据。2.点击工具,数据分析,然后选择t检验:双样本异方差假设。3.确定变量1的取值范围,A1:A44。4.确定变量2的取值范围,B1:B108。5.键入假设平均差:0。6.如果需要,点击标志。7.确定的值,点击确定。解释:统计检验量的值为-2.09。单尾p值为0.0193。可以得出:有充分证据可以推断,早餐高纤维谷类食品的食用者无法所摄入的卡路里数较少。例2:一家生产办公设备的公司的一个工厂经理试图确定一个新的为纠正人体坐姿而设计的椅子的加工流程。物料、机器和工人配备方面的问题已经决定下来了。然而,现在有两种生产方法可供参考。这两种方法的区别在于,生产过程中各个工序的顺序有所不同。为了最终决定采用哪一种生产方法,经理进行了一次试验。他随机抽出了25名工人按照方法A装配椅子,同时随机抽取25名工人按照方法B装配椅子,以分钟为单位记录下他们的装配时间。记录的数据保存在文件Xm13-02中。工厂经理想知道这两种方法的装配时间是否存在差异。在此采用5%的显著性水平是比较合适的。检查必要条件:无论是等方差还是不等方差的统计方法都要求总体服从正态分布,这可以通过直方图看出。当不满足正态分布的要求时,对独立样本我们可以采用一种非参数的统计方法——维尔科克森秩和检验来代替的等方差检验。当总体完全不服从正态分布时,没有其他的关于的不等方差检验的方法可供使用。二、观测数据和试验数据采用何种统计方法与数据是试验数据还是观测数据无关。然而,数据的获得方式是与之后对统计结果的解释相关的。三、两总体均值差的推断:配对试验例3:在过去几年中,一些提供工作安排的网络公司相继出现,其中一家公司的经理想要调查近来MBA毕业生们所获得的工作职位,她尤其想知道主修金融的学生是否比主修营销的学生获得更高的薪水。她随机抽取了50名MBA毕业生,其中一半主修金融,另一半主修营销。她调查了每个毕业生得到的最高薪水,这些数据存储在Xm13-03中。从中能否得出主修金融的MBA学生所获得的薪水比主修营销的MBA学生更高的结论?31\n例4:假设我们现在用下面的方法再次进行分析。我们查阅主修金融和营销的MBA毕业生的名册并从中随机抽取平均成绩在3.92~4之间(最高分为4.0分)的一名主修金融的学生和一名主修营销的学生。随后我们又随机抽取平均成绩在3.84~3.92之间的一名主修金融的学生和一名主修营销的学生。如此重复抽取25次,直到我们第25次抽取的学生成绩在2.0~2.08之间为止。记录下提供最高薪水的职位。这些数据存储在Xm13-04中。我们能否从这些数据中得出结论,主修金融的MBA学生获得的薪水比主修营销的MBA学生更高?解:问题的识别:例3所描述的试验是样本相互独立的试验,也就是说,两次观测的样本之间是没有联系的。在本例中,我们选择如下方法设计试验,将观测的第一个样本和第二个样本配对,配对方法是选择平均成绩相近的主修金融和营销专业的MBA学生进行调查。这样一来,再比较每组中的金融和营销专业的学生的薪水就比较合乎逻辑了。这种试验方法称为配对试验。对于每个平均成绩组,我们计算主修两门不同专业学生的收入之间的差值。这个试验的设计方式要求关注的参数是总体均值的差值,我们将它记为,。我们要检验的对象是。要被检验的假设是Excel计算:1.在两列中键入或者导入数据。2.点击工具,数据分析,然后选择t检验:平均值的成对二样本分析。3.确定变量1的取值范围。4.确定变量2的取值范围。5.键入假设平均差:0。6.如果需要,点击标志。7.确定的值,点击确定。解释:检验统计量的值是t=3.81,且其p值为0.0004,因此我们就有了足够的证据证明,主修金融的MBA学生所获得的薪水要比主修营销的MBA学生所获得的薪水高。通过配对方法重新进行试验,我们就能从数据中得到如上的信息。独立样本法或配对试验法:哪种试验设计方法更好?1.配对试验之所以在例4中有效是因为它降低了数据的差异。2.是不是配对试验法总能得出比独立样本法更大的检验统计量呢?答案是“不一定”。配对试验的自由度只有独立样本试验自由度的一半。对完全相同的检验统计量而言,t分布检验统计量较小的自由度值会产生一个较大的p值。这意味着当配对试验只能有限地降低变量差异时,统计人员就必须转而选择采用独立样本方法进行试验。3.选择配对试验还是独立样本还要考虑每对观测值之间是否存在某些内在的联系。如果存在内在联系,就可以采用配对方法进行试验;反之,采用独立样本试验。四、两总体方差比的推断的检验统计量为:只要总体服从正态分布,这个检验统计量就服从自由度为和的F分布。例5:在例1中,我们应用了不等方差的的t检验。我们首先估计出两样本的方差,之后才选择了这个检验统计量。两个样本方差的差异说明了总体方差存在差异。为了检验这个结论是否正确,我们进行如下检验。问题的识别:31\n为了确定总体方差是否存在差异,我们需要对进行F检验,检验过程如下:Excel计算:1.在两列中键入或者导入数据。2.点击工具,数据分析,然后选择F检验:双样本方差。3.确定变量1的取值范围。4.确定变量2的取值范围。5.键入假设平均差:0。6.如果需要,点击标志。7.确定的值,点击确定。解释:有足够证据证明总体方差存在显著差异,进而我们就可以证明例1中使用不等方差是正确的。五、两总体比例差异的推断当数据是定性数据时,对数据唯一有意义的计算是统计出每种结果出现的次数,然后计算每种情况的比例。本部分我们要检验和估计的参数是两个总体比例的差,即。抽样过程:样本容量参数统计量样本1样本2统计学家已经证明,统计量是对参数的无偏、一致估计量。的检验统计量:如果原假设确定为:则检验统计量为:也可以表示为:例6:约翰逊兄弟公司是一家生产和销售各种日用品的公司。由于面临残酷的竞争,该公司的一件产品——31\n肥皂的销售情况令人堪忧。为了改善该产品的销售情况,公司决定引入更加诱人的包装。公司的广告代理给出了两种新的设计方案。第一种方案是将包装改成几种艳丽夺目的颜色的组合,由此和其他公司的产品区别开来;第二种方案是在淡绿色的背景上,只有公司的标记。其中一家超市里肥皂的包装使用第一种方案,而另一家超市的包装则采用第二种方案。营销试验历时一个星期。在这个星期里。产品扫描仪将记录下所有肥皂的销售情况。如果消费者购买的产品为其他公司的产品,则记为1;如果消费者购买了约翰逊兄弟公司的肥皂,则记为2。试验期过后,扫描所得的数据被记录在文件Xm13-08中,其中第一列数据是第一家超市的销售记录,第二列的数据则是第二家超市的销售记录。由于第一种包装方案成本较高,因此经理决定,只有存在充足证据证明第一种方案更好的情况下,才使用该方案。那么经理该如何选择呢?问题的识别:问题的目标是比较两个总体。数据是定性数据。我们想知道是否有足够的证据证明,采用第一种色彩鲜艳的设计方案较为有利,所以备择假设是原假设是:检验统计量为:Excel计算:1.输入数据2.点击工具,数据分析附加(DataAnalysisPlus),然后选择Z-Test:2Propotion(z检验:两总体比例)。3.确定变量1的取值范围(InputRange):A1:A905和变量2的取值范围:B1:B1309。4.确定代表CodeforSuccess(成功的代码):2。5.输入HypothesizedDifference(假设差异):0。6.如果需要,点击标志(Labels)。7.确定一个值然后点击OK(确定):0.05。解释:检验统计量的值为z=2.90,其p值为0.0019,故有充分的证据证明鲜艳色彩的设计比简单色彩的设计更受欢迎。于是,我们推荐使用第一种设计方案。例7:假设在例6中,由于色彩鲜艳的包装带来了附加成本,所以它必须比简单包装多出3%的销售量才能获得利润。在这种条件下,该经理是否应该采用第一种方案?例8:为了估计利润的差异,例6和例7中的营销经理想估计一下两总体比例之间的差异。此处采用95%的置信水平。问题的识别:在这里,参数为,其置信区间估计为:Excel计算:1.输入数据2.点击工具,数据分析附加(DataAnalysisPlus),然后选择Z-Estimate:2Propotion(z估计:两总体比例)。3.确定变量1的取值范围(InputRange):A1:A905和变量2的取值范围:B1:B1309。4.确定代表CodeforSuccess(成功的代码):2。5.输入HypothesizedDifference(假设差异):0。31\n6.如果需要,点击标志(Labels)。7.确定一个值然后点击OK(确定):0.05。解释:通过估计我们得出,采用色彩鲜艳的包装的产品的市场份额比采用简单绿色包装的产品的市场份额高出1.6%~8.4%。第五节总结:确定统计方法的流程图一、问题目标:描述一个总体数据类型定距数据定性数据P的z检验和估计量描述指标的类型可变性中心位置的检验和估计量的t检验和估计量二、问题目标:比较两个总体数据类型定性数据定距数据的z检验和估计量描述指标的类型可变性中心位置试验设计的F检验和估计量31\n配对独立样本的t检验和估计量总体方差不等相等的t检验和估计量(等方差)的t检验和估计量(等方差)第四章方差分析一、单因素方差分析方差分析是检验判断两个或多个总体均值间是否存在差异的一个过程。31\n这里,=第j个样本的第个观测值=从总体j中抽取的样本的观测值的个数=第j个样本的均值=所有观测值的总平均SS(总体)=SST+SSE其中,SS(总体)表示全部数据的总体差异。总体差异SS(总体)被划分为两种差异:SST和SSE,SST(组间平方和)源于组间均值的差异,SSE(误差平方和)是对样本内的差异的度量。例1:某苹果汁厂家开发了一种新产品——浓缩苹果汁,一包该果汁与水混合后可配出1L的普通苹果汁。该产品有一些吸引消费者的特性:首先,它比目前市场销售的灌装苹果汁方便。其次,由于市场上的灌装苹果汁事实上也是通过浓缩果汁制造而成,因此新产品的质量至少不会差于灌装果汁。再次,新产品的生产成本要略低于灌装苹果汁。营销经理需要决定的是如何宣传这种新产品,他可以通过强调产品的便利性、高品质或价格优势的广告来推销。为了决定采用何种广告战略,他分别在三个小城市开展试验。在第一个城市他将广告的重点放在便利性,在第二个城市放在产品的质量,在第三个城市在聚焦在相对较低的价格。相关人员记录下了营销战略开始后20个星期果汁的每周销量。这些数据存储在Xm15-01中。营销经理希望了解三种不同广告战略下的销售状况是否存在差异。解:我们已知数据是定距数据,我们的目标是比较三个总体。原假设为:我们采用方差分析方法来确定是否存在足够的证据表明原假设是错误的。相应地,备择假设为:Excel计算:1.在列中键入或者导入数据。2.点击工具,数据分析,然后选择单因素方差分析。3.确定变量的取值范围。A1:C214.如果需要,点击标志。5.确定的值,点击确定。解释:检验统计量的值F=3.23,p值为0.0468,这意味着我们有证据可推出,至少有两个城市的浓缩苹果汁周销量不同。检查必要条件:方差分析的F检验要求随机变量必须服从等方差的正态分布。如果数据不服从正态分布,我们可以用非参数检验方法来取得单因素方差分析。31\nt检验与方差分析:两者能否相互替代?不能用多个t检验代替一个F检验,原因有二。第一,工作量太大。第二,更重要的是,进行多个t检验会增加犯第一类错误的可能性。例如,考虑一个比较6个完全相同的总体的问题。如果采用方差分析方法,并将显著性设为5%,那么我们将有5%的可能性拒绝合理的原假设。为替代F检验,我们需要进行15个t检验。每个检验都有5%的可能性会错误地拒绝原假设。那么犯第一类错误的概率大约为54%。方差分析也不能代替t检验。方差分析可以判断两个总体的均值是否相等。但如果我们需要通过检验判断某一总体的均值是否大于另一总体均值,就必须利用t检验。F统计量和t统计量的关系:二、双因素方差分析例2:假设在例1中,除了营销策略不同外,厂商还决定使用两种媒体中的一种来刊登广告:电视和报纸。于是试验按照如下的方法重新进行一次。选择6个不同的小城市:在城市1中,营销的重点是便利性,广告采用电视形式;在城市2,营销的重点依然是便利性,但广告采用报纸形式;在城市3和4,营销的重点是质量,广告分别采用电视和报纸形式;在城市5和6营销的重点是价格,但城市5采用电视形式,而城市6采用报纸形式。记录下每个城市10周中每周的销售情况,数据保存在Xm15-03中。识别:一共有6种处理。然而,这些处理可以分为两个不同的因素。一个是营销策略,它有3种水平;另一个是广告媒体,它有两种水平。如果我们假设只有3种广告策略和2种广告媒体,我们可以按照例1相同的过程来解答这个问题,即检验如下假设:Excel计算:如例1.解释:F检验统计量的值为2.45,p值为0.0452,所以我们可以得出6个城市的销售情况存在差异。这个统计结果带来了更多的问题,即我们能否认为各城市每周的销售情况不同是由不同的营销策略引起的?还是由电视和报纸两种不同的媒体引起的?又或者是否存在引起销售量更高或更低的营销策略和广告媒体的组合?为了说明如何检验不同类型的差异,我们需要引进一些术语。完全要因试验的数据是从所有可能因素的水平的组合中获取的。因而,在例2中,我们测量了6种组合情况下的销售量。这个试验被称为完全要因试验。如果我们忽略了某一个组合,那么我们就不能采用完全要因试验。一般来说,我们会把因素中的一个称为因素A,该因素的水平数量被标为a。另一个因素称为因素B,它的水平数量被标为b。Excel计算机命令:1.在两列中键入或者导入数据。2.点击工具,数据分析,然后选择方差分析:可重复双因素分析。3.确定变量的取值范围。4.输入重复数r(每个样本一行):105.如果需要,点击标志。6.确定的值,点击确定。解释:在方差分析表中,样本指的是因素B(媒体),列指的是因素A(广告策略),Interaction指二者的交互作用。从中不难看出,因素B的水平之间存在差异,而因素A的水平之间不存在差异,它们之间有交互作用。第五章非参数统计非参数方法不是通过检验确定总体均值是否存在差异,而是要确定总体位置是否存在差异。它主要适用于定序数据,或者数据为定距数据但不满足正态分布这一必要条件的情况。31\n一、维尔科克森秩和检验该检验方法主要用于处理具有下述特征的问题:1.问题的目标是比较两个总体。2.数据是定序数据,或者由于不满足正态分布而不能进行的均方差t检验的定距数据。3.样本相互独立。例1:假设我们想知道,在5%的显著性水平下,能否根据来自于两个总体的下列观测值,得出总体1在总体2左边的结论。样本1:221820样本2:232726我们要检验以下假设::两个总体位置相同:总体1在总体2的左边解:首先对6个观测值进行排序,最小的记为1,最大的记为6.样本1秩样本2秩223204181276232265秩和:=6秩和:=15我们可以选择、中的任意一个作为检验统计量。这里我们选择作为检验统计量并记为T,即例1中的检验统计量为T==6.T值较小表明大部分较小的观测值在样本1中,而大部分较大的观测值在样本2中。这意味着总体1处于总体2的左侧。因此,为了能够在统计学上得出这样的结论,必须证明T较小。“较小”的定义来源于T值的抽样分布,我们也可以通过列举出T的所有可能取值得到T的抽样分布。例2:一家制药公司计划推出一种新的止痛药。在一个确定此种止痛药疗效的试验中,研究人员随机挑选出30人,给其中15个人服用新药,另外15个人服用阿司匹林。30个人均被告知,当感到头痛或其它轻微疼痛时服用药物,并记录下他服药后的效果更符合下面列出的哪一种状态:5=非常有效4=相当有效3=有点效果2=效果甚微1=无效被调查者的回答数据保存在文件Xm17-02中,在5%的显著性水平下,能否得出新止痛药被认为更有效的结论?问题的识别:问题是比较两个总体新止痛药和阿司匹林的疗效,数据为定序数据。因此除了代码的次序外,用来记录结果的数字是任意的。此外,样本是相互独立的。这些因素告诉我们,采用维尔科克森秩和检验是适宜的。我们把新药的疗效定义为样本1,阿司匹林的疗效定义为样本2.因为我们想知道新止痛药的疗效是否优于阿司匹林,所以备择假设为::总体1的位置在总体2的右侧原假设为31\n:两个总体位置相同Excel命令:1.在两列中键入或者导入数据。2.点击工具,数据分析附加,然后选择维尔科克森秩和检验(WilcoxonRankSumTest)。3.确定变量的取值范围。4.如果需要,点击标志。5.确定的值,点击确定。解释:这些数据提供了充分的证据表明,新止痛药的治疗效果优于阿司匹林。我们注意到,数据来源于一个对比性试验,即服药者被安排服用新止痛药或阿司匹林。这一因素能帮助我们确定新止痛药是否确实比阿司匹林更有效。样本容量较小和测试者反应不一致这两个因素弱化了这一结论。二、符号检验和维尔科克森符号秩和检验1.符号检验适用于下述情况:(1)问题的目标是比较两个总体(2)数据为定序数据(3)试验设计为配对试验例3:在一个试验中,研究人员想确定人们认为乘坐两款车中的哪一种更舒服。挑选了25个人分别乘坐欧洲豪华车和北美中型车的后座,让每个人按照如下方式来评价乘坐的舒适程度:1=非常不舒适2=不太舒适3=模棱两可4=比较舒适5=非常舒适所得结果存储于文件Xm17-03中。在5%显著性水平下,我们能否从这些数据中推断出欧洲豪华车比北美中型车更舒适?识别:问题的目标是比较由定性数据构成的两个总体。因为是同样的25个人评价两款车,所以我们认为试验应设计为配对试验。使用符合检验,假设如下::两个总体位置相同:总体1(欧洲豪华车)在总体2(北美中型车)的右边Excel命令:1.在两列中键入或者导入数据。2.点击工具,数据分析附加,然后选择符合检验(SignTest)。3.确定变量的取值范围。4.如果需要,点击标志。5.确定的值,点击确定。解释:有充分的证据表明,人们认为乘坐欧洲轿车比乘坐北美轿车更舒适。但试验过程中的两个细节问题可能削弱乘坐欧洲轿车更舒适这一结论。其一,被调查者是否知道他们乘坐的车型?其二,每个被调查者乘坐两辆车的顺序是否一致?2.维尔科克森符号秩和检验适用情况:(1)问题的目标是比较两个总体。(2)数据为定距数据,但不服从正态分布。31\n(3)数据为配对试验。例4:道路和高速公路的交通拥堵每年给工业带来数十亿美元的经济损失,因为工人们每天上班和下班都很困难。有人提出了一些改善这种状况的建议,其中有一条叫弹性上班制,它允许雇员自己决定日程安排。这样,员工们选择的上、下班时间有可能错开交通高峰期。在一个考察这个建议的初步试验中,一家大公司的总经理想比较一下早上8:00离开家上班的员工与弹性上班制员工花在路上的时间。选择了一个包括32名员工的随机样本,让他们记录下某个周三早上8:00上班花在路上的时间(单位:分钟)和下个周三在他们自己选择的时间上班花在路上的时间。所得数据存储于文件Xm17-04中。其中第一列为早上8:00的数据,第二列为弹性上班制的数据。在5%的显著性水平下,能否得出员工早上8:00上班所花的时间和采用弹性上班制所花的时间不同的结论。识别:问题的目标是比较两个总体,数据为配对试验的定距数据。如果配对数据的差服从正态分布,就应该利用的t检验。为了判断数据是否呈正态分布,需要计算配对数据的差并做出直方图。作图可看出配对数据的差不满足正态分布要求,这表明应该用维尔科克森符号秩和检验。因为我们想知道两组时间是否不同,所以采用双尾检验,检验假设为::两个总体位置相同:总体1与总体2的位置不同Excel命令:1.在两列中键入或者导入数据。2.点击工具,数据分析附加,然后选择维尔科克森符号检验(WilcoxonSignedRankSumTest)。3.确定变量的取值范围。4.如果需要,点击标志。5.确定的值,点击确定。解释:没有足够的证据可以推断,采用弹性上班制所花的通勤时间和目前8:00上班所花的通勤时间不同。得出这样的结论,可能主要是由于试验的方式所造成的。三、KW检验(Kruskal-WallisTest)主要适用于具有下述特征的问题:(1)问题的目标是比较两个或两个以上的总体。(2)数据为定序数据或者为不服从正态分布的定距数据。(3)样本是相互独立的。例5:快餐店的管理层非常希望了解顾客对食品质量、服务速度和餐馆清洁度的评价。顾客可以填写意见卡。假设一家特许连锁店想比较顾客对3个班次的评价(4:00P.M.-午夜,午夜-8:00A.M.和8:00A.M.-4:00P.M.)。在一项初步研究中,从每个班次随机选择10张意见卡。顾客对服务速度的评价分布存储于文件Xm17-05的第1到第3列中(4=极好、3=好、2=一般、1=较差)。这些数据能否提供足够的证据表明,在5%的显著性水平下,顾客对3个班次员工的服务速度的评价不同?识别:问题的目标是比较定序数据构成的3个总体,并且样本相互独立。这些因素表明,我们员工进行KW检验。原假设和备择假设分布为::三个总体位置相同:至少有2个总体的位置不同Excel命令:1.在两列中键入或者导入数据。2.点击工具,数据分析附加,然后选择KW检验(Kruskal-WallisTest)。31\n3.确定变量的取值范围。4.如果需要,点击标志。5.确定的值,点击确定。解释:没有足够的证据推断出,不同班次员工的服务速度间存在差别,管理层应该对三个班次的评价是相同的。四、弗里德曼检验(FriedmanTest)主要适用于具有下述特征的问题:(1)问题的目标是比较两个或两个以上的总体。(2)数据为定序数据或者为不服从正态分布的定距数据。(3)数据来源于随机分组试验。例6:一家国有会计公司的人事经理因为最近雇佣的员工的素质问题而受到了上级主管的批评。所有新招收的会计人员都要经过4位经理的面试,经理会从几个方面对他们做出评价,包括学术水平、工作经历和个人的适应能力。然后4位面试经理从综合角度对每个应聘者进行评估。有如下5种可能的评估结果:1.面试者在应聘者中处于前5%2.面试者在应聘者中处于前5%-10%3.面试者在应聘者中处于前10%-25%4.面试者在应聘者中处于前25%-50%5.面试者在应聘者中处于后50%最后,把评估结果汇总,做出最终决定。人事经理认为,新员工的素质问题是由评估系统所导致的。但她需要知道,4位面试经理对应聘者的评估通常是一致的,还是存在分歧的。为了检验四位经理的差异,人事经理从对应聘者的评估中随机抽取了8份进行分析。结果保存在Xm17-06中。人事经理能从这些数据中得出什么结论?识别:问题的目标是比较经理们对应聘者的评估这4个总体,数据为定序数据。这个试验是随机分组设计的,因为8位应聘者要接受所有4位经理的评估。适用的统计方法是弗里德曼检验。原假设和备择假设分布为::4个总体位置相同:至少有2个总体的位置不同Excel命令:1.在两列中键入或者导入数据。2.点击工具,数据分析附加,然后选择弗里德曼检验(FriedmanTest)。3.确定变量的取值范围。4.如果需要,点击标志。5.确定的值,点击确定。解释:有明显的证据表明,经理们对同一个应聘者的评估存在差异。第六章回归分析一、引言回归分析是一种最为常用的统计分析方法。回归分析应用在研究经济现象方面,通常称为计量经济学。(一)什么叫计量经济学(Econometrics)?19世纪20年代挪威经济学家R.Frish将它定义为“经济理论”、“统计学”、“数学”三者的结合。(计算机科学)(二)计量经济学家的荣耀•1969年首届诺贝尔经济学奖获得者弗里斯(Frisch)31\n•1980年诺贝尔经济学奖获得者克莱因(Klein)-计量经济学鼻祖•2000年诺贝尔经济学奖获得者:在微观计量经济学作出杰出贡献的赫克曼(Heckman)和麦克法登(McFadden)•最近一届(2003)诺贝尔经济学奖获得者:计量经济学家格兰杰(Granger)和恩格尔(Engle)•半数以上的诺贝尔经济学奖授予了在计量模型上颇有建树的经济学家,诺贝尔经济学奖引领经济学发展潮流(三)经济数据的结构a.横截面数据集(cross-sectionaldataset):即给定时点对个人、家庭、企业、城市、国家或一系列其他单位采集的样本所构成的数据集(应该忽略细小的时间差别)。b.时间序列数据集(timeseriesdataset):是由一个或几个变量在不同时间的观测值所构成的。c.混合横截面数据(pooledcrosssection):有些数据既有横截面数据的特点又有时间序列的特点,但每一时点的样本不同,通常是分析政府政策效果的有力数据。d.综列数据(paneldata),也称面板数据:由横截面数据集中每个数据的一个时间序列组成。(定点长期调查)。31\n综列数据有别于混合横截面数据的关键特征是,同一横截面数据的数据单位都被跟踪了一段特定的时期。(四)回归的含义回归一词最早由F·高尔顿(FrancisGalton)提出。在一篇研究父母身高与子女身高相互关系的论文中,高尔顿发现,虽然有一个趋势,父母高,子女也高;父母矮,子女也矮,但给定父母的身高,子女的平均身高却趋向于或者回归到全体人口的平均身高。也就是说,当父母双亲都异常高或异常矮,则子女的身高有趋向于人口总体平均身高的趋势。这种现象被称为高尔顿普遍回归定律。这就是回归一词的原始含义。在现代,回归一词已演变为一种新的概念。回归分析就是研究被解释变量对解释变量的依赖关系,其目的就是通过解释变量的已知或设定值,去估计或预测被解释变量的总体均值。在下面的几个例子中,我们可以清晰地看到回归分析的实际意义。1.高尔顿普遍回归定律。高尔顿的目的在于发现为什么人口的身高分布有一种稳定性。在现代,我们并不关心这种解释,我们关心的是:在给定父辈身高的情形下,找到儿辈平均身高的变化规律。就是说,我们如果知道了父辈的身高,就可预测儿辈的平均身高。假设我们得到了一组父亲、儿子身高的数据,制成散点图。图中按统计分组的方法将父亲身高分为若干组。××××××××××××××××××××父亲身高(cm)儿子身高(cm)31\n图中对应于设定的父亲身高,儿子身高有一个分布范围。随着父亲身高的增加,儿子的平均身高也在增加,画一条通过儿子平均身高的线,说明儿子的平均身高是如何随着父亲身高的增加而增加的,这条线就是回归线。2.在经济学中,经济学家要研究个人消费支出与个人可支配收入的依赖关系。这种分析有助于估计边际消费倾向,就是可支配收入每增加一元引起消费支出的平均变化。3.在企业中,我们很想知道人们对企业产品的需求与广告费开支的关系。这种研究有助于估计出相对于广告费支出的需求弹性,即广告费支出每变化百分之一的需求变化百分比,这有助于制定最优广告策略。4.农业工作需要预计粮食产量,需要研究粮食产量与播种面积、施肥量、降雨量之间的依赖关系。这种一个变量依赖于另一个或多个变量的事例在经济系统中普遍存在。回归分析就是要研究这种变量之间的依存关系。二、一元线性回归模型(一)模型的建立及其假定条件1.一元线性回归模型的定义上式表示变量和之间的真实关系。其中称作被解释变量(或因变量、回归子),称作解释变量(或自变量、回归元),称作随机误差项,称作常数项或截距项,称作回归系数。和又统称为模型参数(回归系数)。在上式中,是影响变化的重要解释变量。回归系数和具体描述这种关系。和通常是未知的,需要估计。如果则包括除之外影响变化的众多微小因素。的变化是不可控的。2.一元线性回归模型的经济含义与特征以研究家庭支出与收入的关系为例。假设家庭支出与收入呈线性函数关系。实际上,数据来自各个不同家庭,来自各个不同收入水平,从而使收入以外的影响支出变化的其他因素维持不变是不可能的。随机误差项中包括了家庭人口数,消费习惯,不同地域的物价水平,家庭的额外收入等因素。由与数据得到的观测点也不在一条直线上,而是散步在一条直线周围,这些观测点服从统计关系。一般来说,回归模型的随机误差项中包括如下几项内容:(1)未在模型中专门列出的影响变化的非重要解释变量。(2)人的随机行为。经济活动都是人参与的,人的经济行为的变化也会对随机误差项产生影响。(3)数学模型形式欠妥。对于同一组观测值,若拟合的数学模型形式不同,则相应的随机误差项的值也不同。(4)测量误差。当对被解释变量的测量存在误差时,这种误差将包括在随机误差项中。3.模型的假定条件(1)。干扰项的零均值的意思是凡是模型不显著含有的并因而归属u的因素,对y的均值都没有系统的影响;正的u值抵销了负的u值,以至于他们对y的平均值的影响为零。•u的同方差性同时也意味着y的同方差性,即随着x的变动,y的取值的分布是一定的,是分布不变的。(2).•干扰项之间的无自相关意味着y的决定与其他期的u值无关,即不存在u(t-1)决定u (t)从而决定y的情况(3).干扰项与自变量之间的非相关,干扰项本身是独立于自变量之外的,且如果干扰项与自变量存在相关,则不能独自说明其作用31\n(4)对于含有多个解释变量的线性回归模型,解释变量之间不能完全相关或高度相关。否则呈解释变量之间存在多重共线性。(二)一元线性回归模型的参数估计1.估计方法初探对于所研究的经济问题,假定变量和之间服从线性关系。通常真实的回归直线是观测不到的。收集样本的目的就是要对这条真实的回归直线做出估计。设估计的回归直线用下式表示:其中称作y的拟合值,和分别是和的估计量。观测点到这条估计的回归直线的纵向距离用表示。称作残差,是对u的估计。称作估计的回归模型2.最小二乘估计法(OLS)原理最小二乘法的估计原理是以“残差平方和()最小”为原则确定直线位置。3.最小二乘估计量的统计性质(1)线性特性和分别是y的线性函数。(2)无偏性和具有无偏性。(3)最小方差性在所有线性无偏估计量中OLS估计量和的方差最小。高斯-马尔科夫定理:•在给定经典线性回归模型的假定下,最小二乘估计量,在无偏线性估计量一类中,有最小方差,也即BLUE(bestlinearunbiasestimator)。(三)一元线性回归模型的统计检验(评估模型)回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。1.拟合优度31\n拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。评价回归直线对观测值拟合的好坏,拟合优度是一个重要的定量分析指标。度量拟合优度的指标:判定系数(可决系数),用表示。定义为对单个观测点有其中,称作总平方和,用TSS(TotalSumofSquares);称作回归平方和,用ESS(ExplainedSumofSquares);称作残差平方和,用RSS(ResidualSumofSquares)表示。TSS=ESS+RSS可决系数的取值范围:[0,1]。R2越接近1,说明实际观测点离样本线越近,拟合优度越高。2.回归系数的显著性检验回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。变量的显著性检验所应用的方法是数理统计学中的假设检验。计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。所用统计量为t值。的检验统计量:其中N表示样本容量,2表示被估计参数个数。检验步骤:(1)对总体参数提出假设:b1=0,:b1¹0(2)以原假设构造t统计量,并由样本计算其值31\n(3)给定显著性水平a,查t分布表得临界值(4)比较,判断若|t|>,则拒绝,接受;若|t|,则不拒绝;例:当客户想利用二手车换购新车时,北美的轿车经销商通常利用《红皮书》帮助他们确定二手车的价格。这本书每月出版,包括了所有基础型号轿车的换购价格。它根据每一车型的状况和个性化特点,提供了它们的备选价格。这些价格是根据最近的二手车拍卖中的平均价格确定的,拍卖是许多二手车经销商的一个供货来源。但是,《红皮书》不是根据二手车的行驶里程数来确定其价格的,尽管这对二手车的买主来说至关重要。为了调查这一问题,一个二手车经销商在上个月拍卖的车中随机挑选了100辆使用了三年的福特Tauruses。每辆车的状况极佳,并且都配备了自动传动装置、AM/FM盒式磁带播放机和空调。经销商记录了每辆车的价格和行驶里程数,这些数据保存在Xm18-02中。经销商想确定回归方程。识别:问题的目标是分析两个定居变量之间的关系。因为我们认为里程数会影响销售价格,所以里程数为自变量,以x表示;销售价格为因变量,用y表示。Excel计算机命令:1.在两列中键入或者导入数据。2.点击工具,数据分析,然后选择回归分析:。3.确定Y的输入范围。4.确定X的输入范围5.点击标志,点击确定解释:回归系数为-0.0623,这意味着行驶里程每增加一英里,价格平均降低0.0623美元。例:市场模型市场模型假设某只股票的收益率与整个股市的收益率线性相关。这个模型的数学表达式为:式中,R为某只特定股票的收益率,为市场收益率,如某些主要股票指数的收益率。称为股票的贝塔系数,衡量该股票的收益率对整个股市收益率变化的敏感程度。过去5年中,北方电信(Nortel)股票的月收益率和用多伦多股票交易(TSE)指数衡量的整个股市的月收益率分别存储于文件Xm18-06中,试估计市场模型,并分析结果。例:回归方程的应用一位旧车销售商打算投标一辆用了3年的福特Tauruses轿车,车内配备了自动传动装置、AM/FM盒式磁带播放机和空调,行驶里程为40000英里。为了确定投标的金额,他需要预测汽车的销售价格。Excel计算机命令:1.打开文件Xm18-02.2.在任意单元格输入给定的x的值。3.点击工具,数据分析附加和预测区间(PredictionInterval)。4.指定Y的输入范围。5.指定X的输入范围。6.点击标志。31\n7.指定X的值(GivenXRange)。8.指定置信水平,点击确定。例:大多数投资于股票的美国人都购买在纽约证券交易所或纳斯达克上市的股票。然而,把权益购买局限于这种方式可能会降低潜在利润,也会导致风险增加,因为投资者不能充分利用潜在的投资多样化资源。某位投资者看好指数共同基金,它所包括的股票种类非常广泛,从而在一定程度上反映出整个交易市场的组合。这名投资者认为,持有与美国指数基金相关性较弱的国外指数基金对他比较有利。他考察了摩根斯坦利构造的日本指数,并计算了过去59个月美国指数和日本指数的月收益率,所得数据存储在文件Ch18:Index中。他决定,如果有证据表明,美国指数和日本指数的收益率之间存在线性关系,他将不会购买日本指数。识别:问题的目标是分析两个定距变量之间的关系。因为我们只想确定两个变量间是否存在线性关系,而不关心线性关系的形式,并且数据为观测数据,所以我们感兴趣的参数是相关系数。统计假设为:Excel计算机命令:1.在两列中输入数据。2.点击工具,数据分析附加和Correlation(Pearson)。3.指定输入范围4.如果需要,点击标志。5.指定,点击OK。解释:相关系数r=0.4911,检验统计量的值为t=4.26,p值为0.因此,有充分证据表明,两个指数之间存在线性关系,投资者不应该购买日本指数。三、多元回归模型形式:例:LaQuinta汽车旅馆是遍布美国的一家中等价位的汽车旅馆连锁店。它的顾客主要是经常旅行的商业人士。最近,折价连锁店想建设新的旅馆以增加其市场份额。但连锁店的管理者发现,确定新店的位置是件困难的事情。而且,如果信息不充分,往往会导致决策失误。因此,连锁店的管理者从所有LaQuinta汽车旅馆中随机抽取了100家进行研究,从而预测哪些位置困难有利可图。LaQuinta的管理者用营业利润率来衡量盈利水平,它是利润、折旧和利息费用三者之和与总收益之比。营业利润率越高,说明旅馆经营状况越好。LaQuinta的管理者把有利可图定义为营业利润率超过50%,把无利可图定义为营业利润率低于30%。同多位很有经验的经理讨论后,LaQuinta的管理者决定从竞争、市场意识、需求、人口统计学特征和外界环境这几类因素中的每一类选取一个或者两个自变量。这些数据按下列格式存储于Xm19-01中。列1:y=营业利润率(单位:%)列2:=LaQuinta汽车旅馆3英里内的旅馆客房总数,用来衡量竞争。列3:=与最近的竞争者的距离(单位:英里),用来衡量市场意识。列4:=周围社区办公场所的面积(单位:千平方英尺),用来衡量需求。列5:=临近大学和学院的注册人数(单位:千人),用来衡量需求。列6:=周围社区家庭收入的中值(单位:千美元),用来衡量人口统计学特征。31\n列7:=与市中心的距离(单位:英里),作为衡量地点的物理特征指标。Excel计算机命令:1.在两列中键入或者导入数据。2.点击工具,数据分析,然后选择回归分析:。3.确定Y的输入范围。4.确定X的输入范围5.点击标志,点击确定解释:估计回归模型为:解释系数:截距:截距为38.14,这预测的是当所有自变量都为零时的营业利润率;截距经常无多大意义。汽车旅馆客房总量:系数为-0.0076,表示在模型中其它自变量不变的条件下,在LaQuinta汽车旅馆的3英里内,竞争对手每增加一个房间,LaQuinta的营业利润率将下降0.0076%。与最近竞争者之间的距离:系数1.65表明,其它自变量不变,LaQuinta与最近的竞争者之间的距离每增加1英里,其营业利润率将增加1.65%。周边办公场所的面积:系数0.02表明,其它自变量不变,周边办公面积每增加1000平方英尺,LaQuinta的营业利润率将增加0.02%。周边大学和学院的注册人数:系数0.21表明,其它自变量不变,注册人数每增加1000人,营业利润率将增加0.21%。家庭收入的中值:系数0.41表明,其它自变量不变,家庭收入的中值每增加1000美元,LaQuinta的营业利润率将增加0.41%距市中心的距离:系数-0.23表明,其它自变量不变,距市中心的距离每增加1英里,LaQuinta的营业利润率将降低0.23%。评估模型:我们用三种方法来评估这个模型:单个变量的t检验(或p值)、判定系数和F检验。在简单线性模型中仅有一个自变量,所以用t检验也可以确定模型的有效性。当模型中的自变量不止一个时,则需要用另一种方法检验模型整体的有效性,这就是F检验。F检验:如果原假设为真,没有一个自变量与因变量相关,所以模型无效。如果拒绝了原假设,那么这个模型就有一些效果。结论:通过这个模型可以发现,汽车旅馆客房总量、与最近竞争者之间的距离、周边办公场所的面积及家庭收入中值均与营业利润率显著相关。模型没有提供足够的证据使我们可以推断,大学注册人数和距市中心的远近与营业利润率相关。t检验告诉LaQuinta的管理者,在选择新的汽车旅馆的位置时,应该选择周围旅馆较少、周边办公场所面积较大、周围居民相对富裕的地段。四、建模1.二阶模型2.虚拟变量(或定性变量)3.交互项31\n五、时间序列分析(一)时间数据的构成因素:长期趋势、周期性变动、季节性变动和随机波动。(二)平滑方法如果能明确时间序列的成分因子,我们就能够更好地进行预测。但不幸的是,随机波动的存在加大了这一工作的难度。减少随机波动的最简单方法之一是时间序列平滑法。1.移动平均法例:一位拥有五个独立加油站的运营商为了进行销量预测,记录了过去4年内汽油的季度销量,数据保存在Xm21-01中,分布计算3期和5期移动平均值,并绘制图形。Excel计算机命令:(1)在任一列输入数据(2)点击工具,数据分析和移动平均。(3)指定输入范围。如果需要,点击标志位于第一行。(4)指定时期的数目(间隔)。(5)指定输出范围。(6)如果想控制时间序列图,选中图表输出,然后点击确定。2.指数平滑法这里,=第t个时期指数平滑后的时间序列=第t个时期的时间序列w=平滑系数,其中我们首先设,则平滑系数w的选择应以所需的平滑度为依据。一个较小的w将产生较大的平滑度,而一个较大的w将产生较小的平滑度。例:分别令w=0.2和w=0.7,应用指数平滑方法处理上例中的数据,并用图形表示其结果。Excel计算机命令:(1)在任一列输入数据(2)点击工具,数据分析和指数平滑。(3)指定输入范围。如果需要,点击标志位于第一行。(4)指定阻尼系数,即1-w。(5)指定输出范围。(6)如果想控制时间序列图,选中图表输出,然后点击确定。(三)长期趋势与季节效应1.趋势分析如果我们认为长期趋势大致是线性的,可以用下述模型:如果我们认为长期趋势是非线性的,可以用多项式模型。如二次型:大部分实际应用都使用线性模型。2.季节性分析31\n例:旅游业易受季节的影响。对于大部分旅游胜地来说,春季和夏季通常被认为是旅游旺季,而秋季和冬季则是旅游淡季。百慕达群岛的一家旅馆记录了最近5年每个季度的入住率,数据保存在文件Xm21-03中。通过计算季节指数来衡量季节性变动。Excel计算机命令:(1)在任一列按年代顺序输入时间序列,代表季度的编号输入到相邻列。(2)点击工具,数据分析附加和季度指数(seasonalindexes)。(3)指定输入范围。如果需要,点击标志位于第一行。再点击确定。解释:季节指数表明,在通常情况下,第一个和第四个季度的入住率低于每年的平均值,而第二个和第三个季度的入住率高于每年的平均值。(四)自回归预测模型例:CPI是衡量通货膨胀的一个常用指标。CPI是一个重要的指标,因为过高的通货膨胀率通常需要政府采取一些调整措施。1980-1999年每年CPI的增长百分比保存在文件Xm21-06中。请预测下一年CPI的变化情况。解释:回归直线为:因为1999年CPI的变化率为2.2%,所以,预测2000CPI的变化率为即自回归模型预测,2000年的CPI增长率为1.21%。31