- 15.95 MB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第一章绪论第一节统计与统计学第二节统计学的产生与发展第三节统计学的研究对象与方法第四节统计学的要素和指标\n学习目标1.理解统计与统计学的含义2.理解统计学的对象和方法了解统计学的产生与发展过程\n第一节统计与统计学一.统计与统计学的含义二.统计学的性质和作用\n一、什么是统计?1.统计工作收集数据的活动2.统计数据对现象计量的结果3.统计学分析数据的方法与技术\n什么是统计学?1.数据搜集:例如,调查与试验2.数据整理:例如,分组3.数据展示:例如,图和表数据分析:例如,回归分析统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识\nStatistics的定义(不列颠百科全书)Statistics:thescienceofcollecting,analyzing,presenting,andinterpretingdata.Copyright1994-2000EncyclopaediaBritannica,Inc.(不列颠百科全书)\n统计数据的内在规律(一些例子)正常条件下新生婴儿的性别比为107:100投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6农作物的产量与施肥量之间存在相关关系\n统计学的应用领域统计学经济学管理学医学工程学社会学…\n应用统计的领域actuarialwork(精算)agriculture(农业)animalscience(动物学)anthropology(人类学)archaeology(考古学)auditing(审计学)crystallography(晶体学)demography(人口统计学)dentistry(牙医学)ecology(生态学)econometrics(经济计量学)education(教育学)electionforecastingandprojection(选举预测和策划)engineering(工程)epidemiology(流行病学)finance(金融)fisheriesresearch(水产渔业研究)gambling(赌博)genetics(遗传学)geography(地理学)geology(地质学)historicalresearch(历史研究)humangenetics(人类遗传学)\n应用统计的领域(续)hydrology(水文学)Industry(工业)linguistics(语言学)literature(文学)manpowerplanning(劳动力计划)managementscience(管理科学)marketing(市场营销学)medicaldiagnosis(医学诊断)meteorology(气象学)militaryscience(军事科学)nuclearmaterialsafeguards(核材料安全管理)ophthalmology(眼科学)pharmaceutics(制药学)physics(物理学)politicalscience(政治学)psychology(心理学)psychophysics(心理物理学)qualitycontrol(质量控制)religiousstudies(宗教研究)sociology(社会学)surveysampling(调查抽样)taxonomy(分类学)weathermodification(气象改善)\n补充:统计学的分科描述统计推断统计统计学的分科理论统计应用统计\n统计方法统计方法描述统计推断统计参数估计假设检验\n描述统计内容搜集数据整理数据展示数据目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=105\n推断统计内容参数估计假设检验目的对总体特征作出推断样本总体\n描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据统计学探索现象数量规律性的过程\n统计学的性质数量性有大量数据出现的地方,都要用到统计学2.方法论学科3.规律性统计学所研究的是总体的数量特征及其分布的规律性\n统计的作用一.为党和国家各级领导机构决策服务为企业单位和社会事业单位管理服务为广大人民了解社会服务为科研机构和人员进行理论研究服务为各国人民相互了解和发展国际交流服务\n第二节统计学的产生与发展一.政治算术—社会经济统计二.概率论—数理统计\n统计学家是科学家\n历史上著名的统计学家JacobBernoulli(伯努利)(1654-1705)EdmondHalley(哈雷)(1656-1742)DeMoivre(棣美佛)(1667-1754)ThomasBayes(贝叶斯)(1702-1761)LeonhardEuler(欧拉)(1707-1783)PierreSimonLaplace(拉普拉斯)(1749-1827)AdrienMarieLegendre(勒让德)(1752-1833)ThomasRobertMalthus(马尔萨斯)(1766-1834)FriedrichGauss(高斯)(1777-1855)JohannGregorMendel(孟德尔)(1822-1884)KarlPearson(皮尔森)(1857-1936)RonaldAylmerFisher(费歇)(1890-1962)JerzyNeyman(内曼)(1894-1981)EgonSharpePearson(皮尔森)(1895-1980)WilliamFeller(费勒)(1906-1970)\n统计学发展的历史线索一般认为,统计学产生于17世纪中叶统计学的发展过程基本上沿着两条主线展开以“政治算术学派”为开端形成和发展起来的、以社会经济问题为主要研究对象的社会经济统计以概率论的研究为开端、并以概率论为基础形成和发展起来的、以方法和应用研究为主的数理统计今天,社会经济统计和数理统计仍然在以各自不同的方式发展着\n政治算术—社会经济统计政治算术学派产生于17世纪中叶的英国,代表人物主要是威廉·配第(WilliamPatty,1623—1687)和约翰·格朗特(JohnGraunt,1620—1674)17世纪中叶的政治算术学派可看作是统计学的开端19世纪,沿着约翰·格朗特所开创的人口统计以及沿着威廉·配第所开创的经济统计有了进一步的发展威廉·配第为以后经济统计的发展开拓了道路;约翰·格朗特为人口统计的发展开拓了道路政治算术学派则为后来的社会经济统计的发展奠定了基础\n概率论—数理统计概率沦研究起源于17世纪中叶意大利文艺复兴时代,代表人物主要有法国的拉普拉斯和比利时的凯特勒古典统计时期的概率论基本上是独立发展的,最开始的概率论是从对赌博的研究开始。它与统计学(主要是指政治算术)没有太多的联系从19世纪中叶到20世纪中叶,概率论的进一步发展为数理统计学的形成和发展奠定了基础。主流从描述性统计学向推断统计学发展本世纪50年代以后,统计理论、方法和应用进入了一个全面发展的阶段\n第三节统计学的研究对象及方法统计学的研究对象及特点统计学的研究方法\n统计学研究对象及特点1.研究对象社会经济现象的数量方面2.特点数量性总体性社会性\n统计学的研究方法1.大量观察法对所研究事物的全部或足够数量进行观察的方法。依据是大数定律2.综合指标法从数量方面对现象总体特征的概括说明3.统计推断法在一定的置信度下,根据样本资料的特征对总体特征作出估计和预测的方法\n第四节统计学的要素和指标一.统计学的要素二.指标及指标体系\n统计学的要素总体(Population)根据一定目的确定的所要研究事物的总体2.样本(Sample)从总体中抽取出来的部分单位组成的集合体3.总体单位组成整体的各个个体\n指标及指标体系标志与指标2.统计指标的特点3.指标的分类统计指标体系\n标志与指标\n标志与指标的概念1.标志说明总体单位属性和特征的名称2.指标运用一定的统计方法对各单位的标志值进行登记、整理、汇总,形成反映总体数量特征的综合指标\n标志与指标的概念\n标志与指标的区别与联系区别指标是说明总体特征的,而标志是说明总体单位特征的标志有不能用数值表示的品质标志与能用数值表示的数量标志,而指标都是用数值表示联系很多统计指标的数值是从总体单位的数量标志值汇总而来的指标与标志之间存在变换关系\n统计指标的特点同质事物的可量性小康水平、公司绩效、满意度量的综合性许多个体现象的数量综合的结果具体性\n统计指标的分类按说明的内容特征数量指标和质量指标按具体内容和作用总量指标、相对指标和平均指标按计量单位实物指标、价格指标和劳动量指标\n统计指标体系由若干个相互联系相互制约的统计指标组成的一个统计指标系统基本统计指标体系专题统计指标体系指标类型代码指标性质流动性指标流动比率X1适度指标速动比率X2适度指标盈利性指标自有资产收益率X3正指标信托资产收益率X4正指标资本收益率X5正指标信托报酬率X6正指标成长性指标自有资产增长率X7正指标信托资产增长率X8正指标表内利润增长率X9正指标信托收入增长率X10正指标安全性指标不良资产率X11逆指标资本负债率X12适度指标\n几种常用的统计软件(Software)典型的统计软件SASSPSSMINITABSTATISTICAExcelMINITABSTATISTICAExcelSASSPSS\n第二章统计调查PowerPoint统计学\n第二章统计调查第一节统计调查的种类与技术第二节统计调查的方案第三节统计调查的问卷第四节统计调查的组织方式\n学习目标了解统计调查的种类了解统计调查方式掌握调查方案的设计掌握调查问卷的设计\n第一节统计调查的种类与技术一.统计调查的意义二.统计调查的种类三.统计调查技术\n统计调查的意义\n统计调查的意义基本要求准确性及时性完整性\n统计调查的种类\n统计调查的种类全面调查非全面调查调查种类登记时间对象范围组织方式一次性经常性统计报表专门调查\n统计调查的技术\n统计调查的技术数据的搜集方法询问调查访问调查观察实验电话调查邮寄调查观察电脑辅助座谈会个别深访实验\n访问调查(概念要点)1.调查者与被调查者通过面对面地交谈而获得资料2.有标准式访问和非标准式访问标准式访问通常按事先设计好的问卷进行非标准式访问事先一般不制作问卷对不起,打扰了!\n邮寄调查(概念要点)也称邮寄问卷调查是一种标准化调查调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种\n电话调查(概念要点)调查者利用电话与被调查者进行语言交流以获得信息时效快、成本低问题的数量不宜过多您好!我是××调查公司的调查员…\n电脑辅助调查(概念要点)又称电脑辅助电话调查电脑与电话相结合完成调查的全过程一般需借助专门的软件进行硬件设备要求较高\n座谈会(概念要点)1.也称集体访谈2.将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料3.参加座谈会的人数不宜过多,一般为6~10人4.侧重于定性研究\n个别深度访问(概念要点)一次只有一名受访者参加、针对特殊问题的调查适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题侧重于定性研究\n观察法(概念要点)1.就调查对象的行动和意识,调查人员边观察边记录以收集所需信息2.调查人员不是强行介入3.能够在被调查者不察觉的情况下获得资料\n实验法(概念要点)1.在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料2.有室内实验法和市场实验法\n统计数据的间接来源1.公开出版物:《中国统计年鉴》、《中国统计摘要》、《中国社会统计年鉴》、《中国工业经济统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》、《世界经济年鉴》、《国外经济统计资料》、《世界发展报告》……Internet2.网络中国统计年鉴2001中国人口统计年鉴中国市场统计年鉴世界发展报告世界经济年检工业普查数据中国统计出版社\n第二节调查方案设计一.确定调查目的二.确定调查对象和调查单位三.设计调查项目和调查表四.方案设计中的其他内容\n调查方案设计调查方案的内容调查目的调查对象调查单位调查项目和调查表其他\n调查目的1.调查要达到的具体目标回答“为什么调查?”调查之前必须明确\n调查对象和调查单位调查对象:调查研究的现象总体或调查范围调查单位:调查项目的承担者。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)区别调查单位与报告单位回答“向谁调查?”调查对象调查单位?\n调查提纲和调查表1.调查提纲:调查提纲由调查项目构成,及调查的具体内容2.调查表:表现调查项目的表格或问卷3.回答“调查什么?”Q1…………Q2…………Q3…………Q4…………\n方案设计中的其他问题1.明确调查所采用的方法2.确定调查资料的所属时间和调查工作的期限3.调查的组织与实施计划\n第三节统计调查问卷一.问卷的类型与结构问卷的设计程序和形式问卷设计应注意的问题\n问卷的类型与结构\n调查问卷的基本类型按填写方式划分:1.自填式问卷,标准化语句。例如:网络问卷访问式问卷,口头回答。例如:入户调查\n调查问卷的基本结构题目说明信被调查者的基本情况调查事项的问题和答案:开放式问题和封闭式问题填写说明和解释\n问卷的设计程序和形式\n问卷的设计程序1.主要环节:初步探索、设计初稿、试用和修改2.方法:先分后合的卡片法和先合后分的框图法\n问卷的设计形式1.自由询问式:自由发表意见二项选择:using“yes”or“no”toreply多项选择式顺位式:定出先后次序赋值评价式:K点量表问卷样板\n第四节统计调查的组织方式一.普查抽样调查统计报表重点调查和典型调查\n统计调查方式\n统计调查方式统计调查方式普查抽样调查统计报表重点调查典型调查\n普查(概念要点)为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄总体\n抽样调查(概念要点)1.从总体中随机抽取一部分单位(样本)进行调查总体随机样本4.具有经济性、时效性强、适应面广、准确性高等特点2.目的是推断总体的未知数字特征3.最常用的调查方式一次失败的抽样调查\n统计报表(概念要点)1.统计调查方式之一2.过去曾经是我国主要的数据收集方式3.按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据4.有各种各样的类型\n重点调查和典型调查(概念要点)典型调查从调查对象的全部单位中选择少数典型单位进行调查目的是描述和揭示事物的本质特征和规律调查结果不能用于推断总体重点调查从调查对象的全部单位中选择少数重点单位进行调查调查结果不能用于推断总体\n本章小结1.统计调查的基本任务2.统计调查方案3.统计调查问卷调查问卷的基本结构统计调查的方式\n结束\n第三章统计资料整理PowerPoint统计学\n第三章统计数据的整理与显示第一节统计资料整理的一般问题第二节统计分组第三节分配数列第四节数据显示\n学习目标了解统计整理在统计活动中的作用了解统计整理的内容、组织形式了解统计资料审核与汇总的技术掌握统计分组的基本理论与方法懂得统计表的构成和制表规范用Excel作频数分布表和形图\n第一节统计资料整理的一般问题一.统计整理统计整理的内容统计资料的审核和汇总\n统计整理统计整理的概念:根据统计研究的目的要求,对统计调查所得的原始资料进行科学的分类、汇总,或对已初步加工的资料进行再加工,使之成为系统化、条理化的综合资料,已反映现象总体特征的工作过程\n统计整理的内容资料审核划类分组资料汇总编制统计表、统计图\n资料的审核数据的审核发现数据中的错误数据的筛选找出符合条件的数据数据排序发现数据的基本特征升序和降序\n资料的审核(原始数据)审核的内容完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全及时性审核检查数据是否及时报送3.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等\n资料的审核(汇总后的资料)审核的方法复计审核对每个指标数值进行复核计算表表审核检查不同统计表出现的同一指标数值是否一致对照审核表实审核\n统计汇总基本组织形式逐级汇总自下而上逐级对资料进行汇总:GDP集中汇总将资料集中在最高机关或指定机构进行汇总综合汇总基本资料逐级汇总,其他资料集中汇总\n第二节统计分组一.统计分组的概念和作用统计标志的选择统计分组的方法\n统计分组的概念根据统计研究的需要,按照一定的标志,将统计总体划分为若干个组成部分的一种统计方法。相对于总体的“分”,个体的“合”\n统计分组的作用区分社会经济现象的类型银行、保险公司、信托投资公司、证券投资公司等等反映社会经济现象总体的内部结构性别结构、学历结构、年龄结构、地区结构反映社会经济现象之间的依存关系收入与长相之间的关系、股票价格与公司业绩的关系\n分组标志的选择根据统计研究的目的选择选择现象中最具有本质特征的标志学生:男、女;大学:1本、2本、3本、大专结合被研究对象所处的历史条件合经济状况选择封建社会与资本主义社会发展中国家与发达国家\n统计分组的方法\n分组方法分组方法单项式分组组距式分组品质标志分组数量标志分组\n品质标志分组例:对我校学生按品质标志进行分组按性别分组按学院分组按来源地分组是否可以按照年纪来分组?\n分组方法分组方法单项式分组组距式分组品质标志分组数量标志分组\n单项式分组(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况\n单项式分组表(实例)表3-1某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112\n组距分组(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~\n组距分组(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K确定各组的组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数根据分组整理成频数分布表\n组距分组(几个概念)1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值\n等距分组表(上下组限重叠)表3-2某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100\n等距分组表(上下组限间断)表3-3某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计50100\n等距分组表(使用开口组)表3-4某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~114115~119120~124125~129130~134135以上358141064610162820128合计50100\n统计分组的形式\n统计分组形式分组形式简单分组复合分组分组体系\n简单分组(举例)表3-5某城市居民关注广告类型的频数分布广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100\n复合分组(举例)表3-6某大学在校学生人数表指标人数(人)比例频率(%)大一男女大二男女大三男女大四男女合计\n分配数列的概念和种类\n第三节分配数列分配数列的概念和分类数量数列分布表与分布图次数分布的一般特征\n几个概念1.分配数列:用来反映总体单位在各组中分布状况的统计数列2.频数:落在各组中的统计单位个数3.频率:某一组单位个数占总体单位的比重\n变量数列分布表\n编制频数分布表的步骤排列数据编制频数分布表的步骤确定组数计算频数编制表格确定组距\n次数分布表的编制(实例)117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121【例3.1】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。\n单变量值分组表表3-7某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112\n等距分组表(上下组限重叠)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100\n等距分组表(上下组限间断)表3-8某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计50100\n等距分组表(使用开口组)表3-9某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~114115~119120~124125~129130~134135以上358141064610162820128合计50100\n次数分布图\n简单次数分布图示用Excel作图以下图形均由计算机绘制!ExcelSTATISTICA\n单项式数列次数分布图(折线图的制作)以横轴代表变量值,以纵轴代表次数。用折线连接各组变量相应的分配次数所对应的坐标点。即得到分布曲线(Frequencyploygon)\n分组数据—直方图(直方图的制作)以横轴代表变量值,以纵轴代表次数。以各组组距为宽,以各组次数为高,绘出对应的矩形。So各组矩形面积占矩形面积和的百分数与该组频率相同。即直方图(Histogram)\n分组数据—直方图(直方图的绘制)频数(人)1512963105110115120125130135140日加工零件数(个)图3-10某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120~125之间!\n分组数据—折线图(折线图的制作)折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的\n1512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!分组数据—折线图(折线图的绘制)图3-11某车间工人日加工零件数的折线图\n累计次数分布意义:知道截至某一组变量值以下或以上的对应分配次数是多少计算:计算累计次数和累计频率方法:以下累计和以上累计\n累计次数分布图人均月消费性支出(元)累计次数图3-12家庭月人均消费性支出累计次数分布图\n次数分布的类型\n次数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布图3-17几种常见的频数分布\n第四节数据显示一.统计表的构成二.统计表的设计\n统计表的结构表3-1997~1998年城镇居民家庭抽样调查资料项目单位1997年1998年一、调查户数二、平均每户家庭人口数三、平均每户就业人口数四、平均每人全部收入五、平均每人实际支出#消费性支出非消费性支出六、平均每人居住面积户人人元元元元平方米378903.191.835188.544945.874185.64755.9411.90390803.161.805458.345322.954331.61987.1712.40资料来源:《中国统计摘要1999》,中国统计出版社,1999,第79页。注:1.本表为城市和县城的城镇居民家庭抽样调查材料。2.消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。行标题表头列标题数字资料附加\n要合理安排统计表的结构表中的合计栏可以排在前面,也可以排在最后,如果只列出其中部分项目时,则合计栏必须排在前面数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“—”表示必要时可在表的下方加上注释统计表的设计\n圆形图(补充)(由Excel绘制的圆形图)其他广告1.0%房地产广告8.0%商品广告56.0%金融广告4.5%服务广告25.5%招生招聘广告5.8%图3-某城市居民关注不同类型广告的人数构成\n本章小结统计整理的概念和内容统计分组的作用及分组方式分配数列用Excel作次数分布表和图形统计表的编制\n结束\n第五章时间序列分析PowerPoint统计学\n第五章时间序列分析第一节时间数列的概述第二节时间序列的对比分析第三节长期趋势分析第四节季节变动分析\n学习目标1.掌握时间序列对比分析的方法2.掌握长期趋势分析的方法及应用3.掌握季节变动分析的原理与方法\n第一节时间数列的概述一.时间数列的概念二.时间数列的种类三.时间序列的编辑原则\n时间序列(概念)1.同一现象在不同时间上的相继观察值排列而成的数列2.形式上由现象所属的时间和现象在不同时间上的观察值两部分组成3.排列的时间可以是年份、季度、月份或其他任何时间形式\n时间序列(一个例子)表11-1国内生产总值等时间序列年份国内生产总值(亿元)年末总人口(万人)人口自然增长率(‰)居民消费水平(元)19901991199219931994199519961997199818547.921617.826638.134634.446759.458478.167884.674772.479552.811433311582311717111851711985012112112238912362612481014.3912.9811.6011.4511.2110.5510.4210.069.538038961070133117812311272629443094\n时间序列的种类\n时间序列的分类时间序列平均数序列绝对数序列相对数序列时期序列时点序列\n时间序列的分类绝对数时间序列一系列绝对数按时间顺序排列而成时间序列中最基本的表现形式反映现象在不同时间上所达到的绝对水平分为时期序列和时点序列时期序列:现象在一段时期内总量的排序时点序列:现象在某一瞬间时点上总量的排序相对数时间序列一系列相对数按时间顺序排列而成平均数时间序列一系列平均数按时间顺序排列而成\n时间序列的编制原则\n时间数列(编制原则)时间长短统一总体范围统一计算方法、价格和计量单位的统一\n第二节时间序列的对比分析一.时间序列的水平分析二.时间序列的速度分析\n时间序列的水平分析\n发展水平与平均发展水平(概念要点)发展水平现象在不同时间上的观察值说明现象在某一时间上所达到的水平表示为Y1,Y2,…,Yn或Y0,Y1,Y2,…,Yn平均发展水平现象在不同时间上取值的平均数,又称序时平均数说明现象在一段时期内所达到的一般水平不同类型的时间序列有不同的计算方法\n绝对数序列的序时平均数(计算方法)计算公式:【例11.1】根据表11.1中的国内生产总值序列,计算各年度的平均国内生产总值时期序列\n绝对数序列的序时平均数(计算方法)时点序列—间隔不相等Y1Y2Y3YnY4Yn-1T1T2T3Tn-1\n绝对数序列的序时平均数(计算方法)计算步骤计算出两个点值之间的平均数用相隔的时期长度(Ti)加权计算总的平均数\n绝对数序列的序时平均数(计算方法)当间隔相等(T1=T2=…=Tn-1)时,有时点序列—间隔相等Y1Y2Y3YnYn-1\n绝对数序列的序时平均数(实例)表11-2某种股票1999年各统计时点的收盘价统计时点1月1日3月1日7月1日10月1日12月31日收盘价(元)15.214.217.616.315.8【例11.2】设某种股票1999年各统计时点的收盘价如表11-2,计算该股票1999年的年平均价格\n绝对数序列的序时平均数(实例)【例11.3】根据表11-1中年末总人口数序列,计算1991~1998年间的年平均人口数\n相对数序列的序时平均数(计算方法)先分别求出构成相对数或平均数的分子ai和分母bi的平均数再进行对比,即得相对数或平均数序列的序时平均数基本公式为\n相对数序列的序时平均数(计算方法与实例)【例11.4】已知1994~1998年我国的国内生产总值及构成数据如表11-3。计算1994~1998年间我国第三产业国内生产总值占全部国内生产总值的平均比重表11-3我国国内生产总值及其构成数据年份19941995199619971998国内生产总值(亿元)其中∶第三产业(亿元)比重(%)46759.414930.031.958478.117947.230.767884.620427.530.174772.424033.332.179552.826104.332.8\n相对数序列的序时平均数(计算结果)解:第三产业国内生产总值的平均数全部国内生产总值的平均数第三产业国内生产总值所占平均比重\n增长量(概念要点)报告期水平与基期水平之差,说明现象在观察期内增长的绝对数量有逐期增长量与累积增长量之分逐期增长量报告期水平与前一期水平之差计算形式为:Δi=Yi-Yi-1(i=1,2,…,n)累积增长量报告期水平与某一固定时期水平之差计算形式为:Δi=Yi-Y0(i=1,2,…,n)各逐期增长量之和等于最末期的累积增长量\n平均增长量(概念要点)1.观察期内各逐期增长量的平均数2.描述现象在观察期内平均增长的数量3.计算公式为\n时间序列的速度分析\n发展速度(要点)报告期水平与基期水平之比说明现象在观察期内相对的发展变化程度有环比发展速度与定期发展速度之分\n环比发展速度与定基发展速度(要点)环比发展速度报告期水平与前一期水平之比定基发展速度报告期水平与某一固定时期水平之比\n环比发展速度与定基发展速度(关系)观察期内各环比发展速度的连乘积等于最末期的定基发展速度两个相邻的定基发展速度,用后者除以前者,等于相应的环比发展速度\n增长速度(要点)增长量与基期水平之比又称增长率说明现象的相对增长程度有环比增长速度与定期增长速度之分计算公式为\n环比增长速度与定基增长速度(要点)环比增长速度基报告期水平与前一时期水平之比定基增长速度报告期水平与某一固定时期水平之比\n发展速度与增长速度的计算(实例)表11-4第三产业国内生产总值速度计算表年份19941995199619971998国内生产总值(亿元)14930.017947.220427.524033.326104.3发展速度(%)环比定基—100120.2120.2113.8136.8117.7161.0108.6174.8增长速度(%)环比定基——20.220.213.836.817.761.08.674.8【例11.5】根据表11-3中第三产业国内生产总值序列,计算各年的环比发展速度和增长速度,及以1994年为基期的定基发展速度和增长速度\n平均发展速度(要点)观察期内各环比发展速度的平均数说明现象在整个观察期内平均发展变化的程度通常采用几何法(水平法)计算计算公式为\n平均发展速度与平均增长速度(算例)平均发展速度平均增率【例11.6】根据表11.4中的有关数据,计算1994~1998年间我国第三产业国内生产总值的年平均发展速度和年平均增长率\n从最初水平Y0出发,每期按平均发展速度发展,经过n期后将达到最末期水平Yn按平均发展速度推算的最后一期的数值与最后一期的实际观察值一致只与序列的最初观察值Y0和最末观察值Yn有关如果关心现象在最后一期应达到的水平,采用水平法计算平均发展速度比较合适平均发展速度(几何法的特点)\n年度化增长率(要点)增长率以年来表示时,称为年度化增长率或年率可将月度增长率或季度增长率转换为年度增长率计算公式为m为一年中的时期个数;n为所跨的时期总数季度增长率被年度化时,m=4月增长率被年度化时,m=12当m=n时,上述公式就是年增长率\n年度化增长率(实例)【例11.7】已知某地区的如下数据,计算年度化增化增长率1999年1月份的社会商品零售总额为25亿元,2000年1月份在零售总额为30亿元1998年3月份财政收入总额为240亿元,2000年6月份的财政收入总额为为300亿元2000年1季度完成的国内生产总值为500亿元,2季度完成的国内生产总值为510亿元1997年1季度完成的国内生产总值为500亿元,2季度完成的国内生产总值为510亿元\n速度的分析与应用(需要注意的问题)当时间序列中的观察值出现0或负数时,不宜计算速度例如:假定某企业连续五年的利润额分别为5、2、0、-3、2万元,对这一序列计算速度,要么不符合数学公理,要么无法解释其实际意义。在这种情况下,适宜直接用绝对数进行分析在有些情况下,不能单纯就速度论速度,要注意速度与绝对水平的结合分析\n速度的分析与应用(一个例子)表11-5甲、乙两个企业的有关资料年份甲企业乙企业利润额(万元)增长率(%)利润额(万元)增长率(%)1996500—60—1997600208440【例11.8】假定有两个生产条件基本相同的企业,各年的利润额及有关的速度值如表11-5\n速度的分析与应用(增长1%绝对值)速度每增长一个百分点而增加的绝对量用于弥补速度分析中的局限性计算公式为甲企业增长1%绝对值=500/100=5万元乙企业增长1%绝对值=60/100=0.6万元\n第二节长期趋势分析时间序列的构成要素与模型线性趋势非线性趋势趋势线的选择\n时间序列的构成要素与模型(构成要素与测定方法)线性趋势时间序列的构成要素循环波动季节变动长期趋势剩余法移动平均法移动中位数法线性模型法不规则波动非线性趋势趋势剔出法按月(季)平均法Gompertz曲线指数曲线二次曲线修正指数曲线Logistic曲线\n时间序列的构成要素与模型(要点)构成因素长期趋势(Seculartrend)季节变动(SeasonalFluctuation)循环波动(CyclicalMovement)不规则波动(IrregularVariations)模型乘法模型:Yi=Ti×Si×Ci×Ii加法模型:Yi=Ti+Si+Ci+Ii\n长期趋势(概念要点)现象在较长时期内持续发展变化的一种趋向或状态由影响时间序列的基本因素作用形成时间序列的主要构成要素有线性趋势和非线性趋势\n线性趋势\n线性趋势现象随时间的推移呈现出稳定增长或下降的线性变化规律测定方法有移动平均法移动中位数法线性模型法\n线性模型法(概念要点与基本形式)现象的发展按线性趋势变化时,可用线性模型表示线性模型的形式为—时间序列的趋势值t—时间标号a—趋势线在Y轴上的截距b—趋势线的斜率,表示时间t变动一个单位时观察值的平均变动数量\n线性模型法(a和b的最小二乘估计)趋势方程中的两个未知常数a和b按最小二乘法(Least-squareMethod)求得根据回归分析中的最小二乘法原理使各实际观察值与趋势值的离差平方和为最小最小二乘法既可以配合趋势直线,也可用于配合趋势曲线根据趋势线计算出各个时期的趋势值\n线性模型法(a和b的最小二乘估计)1.根据最小二乘法得到求解a和b的标准方程为取时间序列的中间时期为原点时有t=0,上式可化简为解得:解得:\nt值设计2.奇数项t1-2t2-1t30t41t523.偶数项t1-5t2-3t3-1t41t53t651.基本方法t11t22t33t44t55\n线性模型法(实例及计算过程)表11-8汽车产量直线趋势计算表年份时间标号t产量(万辆)Yit×Ytt2趋势值19811982198319841985198619871988198919901991199219931994199519961997199812345678910111213141516171817.5619.6323.9831.6443.7236.9847.1864.4758.3551.4071.42106.67129.85136.69145.27147.52158.25163.0017.5639.2671.94126.56218.60221.88330.26515.76525.15514.00785.621280.041688.051913.662179.052360.322690.252934.001491625364964811001211441691962252562893240.009.5019.0028.5038.0047.5057.0066.5076.0085.5095.00104.51114.01123.51133.01142.51152.01161.51合计1711453.5818411.9621091453.58【例11.10】利用表11-6中的数据,根据最小二乘法确定汽车产量的直线趋势方程,计算出1981~1998年各年汽车产量的趋势值,并预测2000年的汽车产量,作图与原序列比较\n线性模型法(计算结果)根据上表得a和b结果如下汽车产量的直线趋势方程为$Yt=-9.4995+9.5004t$Y2000=-9.4995+9.5004×20=180.51(万辆)2000年汽车产量的预测值为\n线性模型法(趋势图)05010015020019811985198919931997汽车产量趋势值图11-2汽车产量直线趋势(年份)汽车产量(万辆)\n移动平均法(MovingAverageMethod)测定长期趋势的一种较简单的常用方法通过扩大原时间序列的时间间隔,并按一定的间隔长度逐期移动,计算出一系列移动平均数由移动平均数形成的新的时间序列对原时间序列的波动起到修匀作用,从而呈现出现象发展的变动趋势移动步长为K(11,增长率随着时间t的增加而增加若b<1,增长率随着时间t的增加而降低若a>0,b<1,趋势值逐渐降低到以0为极限\n指数曲线(a、b的求解方法)取时间序列的中间时期为原点,上式可化简为采取“线性化”手段将其化为对数直线形式根据最小二乘法,得到求解lga、lgb的标准方程为\n指数曲线(实例及计算结果)【例11.12】根据表11-6中的资料,确定1981~1998年我国汽车产量的指数曲线方程,求出各年汽车产量的趋势值,并预测2000年的汽车产量,作图与原序列比较汽车产量的指数曲线方程为2000年汽车产量的预测值为\n指数曲线(趋势图)05010015020025019811985198919931997汽车产量趋势值图11-4汽车产量指数曲线趋势(年份)汽车产量(万辆)\n指数曲线与直线的比较比一般的趋势直线有着更广泛的应用可以反应出现象的相对发展变化程度上例中,b=1.14698表示1981~1998年汽车产量趋势值的平均发展速度不同序列的指数曲线可以进行比较比较分析相对增长程度\n在一般指数曲线的基础上增加一个常数K一般形式为修正指数曲线(Modifiedexponentialcurve)K、a、b为未知常数K>0,a≠0,00,00,a>0,05,n(1-)=60>5,=0.95,Z/2=1.96ppp我们可以95%的概率保证该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%~76.4%之间【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。\n样本容量的确定\n根据均值区间估计公式可得样本容量n为估计总体均值时样本容量的确定样本容量n与总体方差2、允许误差、可靠性系数Z之间的关系为与总体方差成正比与允许误差成反比与可靠性系数成正比其中:\n样本容量的确定(实例)解:已知2=1800000,=0.05,Z/2=1.96,=500应抽取的样本容量为【例】一家广告公想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?\n根据比例区间估计公式可得样本容量n为估计总体比例时样本容量的确定若总体比例P未知时,可用样本比例来代替p^其中:\n样本容量的确定(实例)【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)。解:已知=0.05,=0.05,Z/2=1.96,当p未知时用最大方差0.25代替^应抽取的样本容量为\n第四节两个总体均值及两个总体比例之差估计一.两个总体均值之差估计二.两个总体比例之差估计\n两个总体均值之差的估计\n两个样本均值之差的抽样分布m1s1总体1s2m2总体2抽取简单随机样样本容量n1计算X1抽取简单随机样样本容量n2计算X2计算每一对样本的X1-X2所有可能样本的X1-X2m1-m2抽样分布\n两个总体均值之差的估计(12、22已知)1.假定条件两个样本是独立的随机样本两个总体都服从正态分布若不是正态分布,可以用正态分布来近似(n130和n230)两个独立样本均值之差的抽样分布服从正态分布,其期望值为其标准误差为\n两个总体均值之差的估计(12、22已知)两个总体均值之差1-2在1-置信水平下的置信区间为使用正态分布统计量Z\n两个总体均值之差的估计(实例)【例】一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由25个储户组成的随机样本,样本均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为A2=2500和B2=3600的正态分布。试求A-B的区间估计(1)置信度为95%(2)置信度为99%BA\n两个总体均值之差的估计(计算结果)解:已知XA~N(A,2500)XB~N(B,3600)xA=4500,xB=3250,A2=2500B2=3600nA=nB=25(1)A-B置信度为95%的置信区间为(2)A-B置信度为99%的置信区间为\n两个总体均值之差的估计(12、22未知,但相等)假定条件两个总体都服从正态分布12、12未知,但12=12总体方差2的联合估计量为估计量x1-x2的标准差为\n两个总体均值之差的估计(12、22未知,但相等)使用t分布统计量两个总体均值之差1-2在1-置信水平下的置信区间为\n两个总体均值之差的估计(实例)【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别给两位职员随机安排了10位顾客,并记录下为每位顾客办理账单所需的时间(单位:分钟),相应的样本均值和方差分别为:x1=22.2,s12=16.63,x2=28.5,s22=18.92。假定每位职员办理账单所需时间均服从正态分布,且方差相等。试求两位职员办理账单的服务时间之差的95%的区间估计。21\n两个总体均值之差的估计(计算结果)解:已知X1~N(1,2)X2~N(2,2)x1=22.2,x2=28.5,s12=16.63s22=18.92n1=n2=1012=121-2置信度为95%的置信区间为\n两个总体均值之差的估计(12、22未知,且不相等)假定条件两个总体都服从正态分布12、12未知,且1212使用的统计量为自由度\n两个总体均值之差的估计(12、22未知,且不相等)两个总体均值之差1-2在1-置信水平下的置信区间为\n两个总体均值之差的估计(续前例)【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别给两位职员随机安排了10位顾客,并记录下了为每位顾客办理账单所需的时间(单位:分钟),相应的样本均值和方差分别为:x1=22.2,s12=16.63,x2=28.5,s22=18.92。假定每位职员办理账单所需时间均服从正态分布,但方差不相等。试求两位职员办理账单的服务时间之差的95%的区间估计。12\n两个总体均值之差的估计(计算结果)自由度f为1-2置信度为95%的置信区间为解:已知X1~N(1,2)X2~N(2,2)x1=22.2,x2=28.5,s12=16.63s22=18.92n1=n2=101212\n两个总体比例之差的估计\n1.假定条件两个总体是独立的两个总体服从二项分布可以用正态分布来近似2.两个总体比例之差P1-P2在1-置信水平下的置信区间为两个总体比例之差的区间估计\n两个总体比例之差的估计(实例)【例】某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过广告的比例分别为p1=0.18和p2=0.14。试求两城市成年人中看过广告的比例之差的95%的置信区间。^^绿色健康饮品\n两个总体比例之差的估计(计算结果)P1-P2置信度为95%的置信区间为解:已知p1=0.18,p2=0.14,1-=0.95,n1=n2=1000^^我们有95%的把握估计两城市成年人中看过该广告的比例之差在0.79%~7.21%之间\n第五节正态总体方差及两正态总体方差比的估计一.正态总体方差的区间估计二.两个正态总体方差比的区间估计\n正态总体方差的区间估计\n正态总体方差的区间估计(要点)1.估计一个总体的方差或标准差2.假设总体服从正态分布总体方差2的点估计量为S2,且4.总体方差在1-置信水平下的置信区间为\n正态总体方差的区间估计(实例)【例】对某种金属的10个样品组成的一个随机样本作抗拉强度试验。从实验数据算出的方差为4。试求2的95%的置信区间。\n正态总体方差的区间估计(计算结果)解:已知n=10,s2=4,1-=95%2置信度为95%的置信区间为\n两个正态总体方差比的区间估计\n两个正态总体方差比的区间估计(要点)1.比较两个总体的方差比用两个样本的方差比来判断如果S12/S22接近于1,说明两个总体方差很接近如果S12/S22远离1,说明两个总体方差之间存在差异总体方差比在1-置信水平下的置信区间为\n两个正态总体方差比的区间估计(实例)【例】用某一特定工序生产的一批化工产品中的杂质含量的变异依赖于操作过程中处理的时间长度。某生产商拥有两条生产线,为了降低产品中杂质平均数量的同时降低杂质的变异,对两条生产线进行了很小的调整,研究这种调整是否确能达到目的。为此从两条生产线生产的两批产品中各随机抽取了25个样品,它们的均值和方差为x1=3.2,S12=1.04x2=3.0,S22=0.51试确定两总体方差比12/12的90%的置信区间。\n两个正态总体方差比的区间估计(计算结果)解:已知x1=3.2,S12=1.04x2=3.0,S22=1.04F1-/2(24,24)=F0.95=1.98F/2(24,24)=F0.05=0.5112/22置信度为90%的置信区间为\n本章小结1.抽样的有关概念抽样分布点估计和区间估计的有关概念4.确定样本容量5.区间估计\n第十章相关与回归分析PowerPoint统计学\n第十章相关与回归分析第一节变量间的相关关系第二节一元线性回归第三节多元线性回归第四节可化为线性回归的曲线回归\n学习目标1.掌握相关系数的含义、计算方法和应用2.掌握一元线性回归的基本原理和参数的最小二乘估计方法掌握回归方程的显著性检验利用回归方程进行预测掌握多元线性回归分析的基本方法了解可化为线性回归的曲线回归用Excel进行回归分析\n第一节变量间的相关关系一.变量相关的概念二.相关系数及其计算\n变量相关的概念\n变量间的关系(函数关系)是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上xy\n变量间的关系(函数关系)函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3\n变量间的关系(相关关系)变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围xy\n变量间的关系(相关关系)相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系\n相关关系的类型相关关系非线性相关线性相关正相关正相关负相关负相关完全相关不相关\n相关关系的图示不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关\n相关系数及其计算\n相关关系的测度(相关系数)对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若是根据样本数据计算的,则称为样本相关系数,记为r\n相关关系的测度(相关系数)样本相关系数的计算公式或化简为\n相关关系的测度(相关系数取值及其意义)r的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关r=0,不存在线性相关关系相关-1r<0,为负相关0t,拒绝H0若tt(13-2)=2.201,拒绝H0,人均消费金额与人均国民收入之间的相关关系显著\n相关系数的显著性检验(相关系数检验表的使用)若IrI大于表上的=5%相应的值,小于表上=1%相应的值,称变量x与y之间有显著的线性关系若IrI大于表上=1%相应的值,称变量x与y之间有十分显著的线性关系若IrI小于表上=5%相应的值,称变量x与y之间没有明显的线性关系根据前例的r=0.9987>=5%(n-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著的线性相关关系\n第二节一元线性回归一.一元线性回归模型参数的最小二乘估计回归方程的显著性检验预测及应用\n什么是回归分析?(内容)从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归方程一词是怎么来的\n回归分析与相关分析的区别相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制\n回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归\n回归模型与回归方程\n回归模型回答“变量之间是什么样的关系?”方程中运用1个数字的因变量(响应变量)被预测的变量1个或多个数字的或分类的自变量(解释变量)用于预测的变量3.主要用于预测和估计\n一元线性回归模型(概念要点)当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系描述因变量y如何依赖于自变量x和误差项的方程称为回归模型\n一元线性回归模型(概念要点)对于只涉及一个自变量的简单线性回归模型可表示为y=b0+b1x+e模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数\n一元线性回归模型(基本假定)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=0+1x对于所有的x值,ε的方差σ2都相同误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关\n回归方程(概念要点)描述y的平均值或期望值如何依赖于x的方程称为回归方程简单线性回归方程的形式如下E(y)=0+1x方程的图示是一条直线,因此也称为直线回归方程0是回归直线在y轴上的截距,是当x=0时y的期望值1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值\n估计(经验)的回归方程简单线性回归中估计的回归方程为其中:是估计的回归直线在y轴上的截距,是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数和是未知的,必需利用样本数据去估计\n参数0和1的最小二乘估计\n最小二乘法(概念要点)使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小\n最小二乘法(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^\n最小二乘法(和的计算公式)根据最小二乘法的要求,可得求解和的标准方程如下\n估计方程的求法(实例)【例】根据例10.1中的数据,配合人均消费金额对人均国民收入的回归方程根据和的求解公式得\n估计(经验)方程人均消费金额对人均国民收入的回归方程为y=54.22286+0.52638x^\n估计方程的求法(Excel的输出结果)\n回归方程的显著性检验\n离差平方和的分解因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示\n离差平方和的分解(图示)xyy{}}离差分解图\n离差平方和的分解(三个平方和的关系)2.两端平方后求和有从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){\n离差平方和的分解(三个平方和的意义)总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和\n样本决定系数(判定系数r2)回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2=(r)2\n回归方程的显著性检验(线性关系的检验)检验自变量和因变量之间的线性关系是否显著具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系\n回归方程的显著性检验(检验的步骤)提出假设H0:线性关系不显著2.计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:若FF,拒绝H0;若Ft,拒绝H0;tt=2.201,拒绝H0,表明人均收入与人均消费之间有线性关系对前例的回归系数进行显著性检验(=0.05)\n回归系数的显著性检验(Excel输出的结果)\n预测及应用\n利用回归方程进行估计和预测根据自变量x的取值估计或预测因变量y的取值估计或预测的类型点估计y的平均值的点估计y的个别值的点估计区间估计y的平均值的置信区间估计y的个别值的预测区间估计\n利用回归方程进行估计和预测(点估计)2.点估计值有y的平均值的点估计y的个别值的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值\n利用回归方程进行估计和预测(点估计)y的平均值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点估计。根据估计的回归方程得\n利用回归方程进行估计和预测(点估计)y的个别值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计值,就是个别值的点估计2.比如,如果我们只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。根据估计的回归方程得\n利用回归方程进行估计和预测(区间估计)点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间区间估计有两种类型置信区间估计预测区间估计\n利用回归方程进行估计和预测(置信区间估计)y的平均值的置信区间估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值E(y0)的估计区间,这一估计区间称为置信区间E(y0)在1-置信水平下的置信区间为式中:Sy为估计标准误差\n利用回归方程进行估计和预测(置信区间估计:算例)【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间解:根据前面的计算结果=712.57,Sy=14.95,t(13-2)=2.201,n=13置信区间为712.5710.265人均消费金额95%的置信区间为702.305元~722.835元之间\n利用回归方程进行估计和预测(预测区间估计)y的个别值的预测区间估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,这一区间称为预测区间y0在1-置信水平下的预测区间为注意!\n利用回归方程进行估计和预测(置预测区间估计:算例)【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间解:根据前面的计算结果有=712.57,Sy=14.95,t(13-2)=2.201,n=13置信区间为712.5734.469人均消费金额95%的预测区间为678.101元~747.039元之间\n影响区间宽度的因素1.置信水平(1-)区间宽度随置信水平的增大而增大2.数据的离散程度(s)区间宽度随离散程度的增大而增大3.样本容量区间宽度随样本容量的增大而减小4.用于预测的xp与x的差异程度区间宽度随xp与x的差异程度的增大而增大\n置信区间、预测区间、回归方程xpyxx预测上限置信上限预测下限置信下限\n第三节多元线性回归一.多元线性回归模型回归参数的估计回归方程的显著性检验回归系数的显著性检验多元线性回归的预测\n多元线性回归模型\n多元线性回归模型(概念要点)一个因变量与两个及两个以上自变量之间的回归描述因变量y如何依赖于自变量x1,x2,…,xp和误差项的方程称为多元线性回归模型涉及p个自变量的多元线性回归模型可表示为b0,b1,b2,,bp是参数是被称为误差项的随机变量y是x1,,x2,,xp的线性函数加上误差项说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性\n多元线性回归模型(概念要点)对于n组实际观察数据(yi;xi1,,xi2,,xip),(i=1,2,…,n),多元线性回归模型可表示为y1=b0+b1x11+b2x12++bpx1p+e1y2=b0+b1x21+b2x22++bpx2p+e2yn=b0+b1xn1+b2xn2++bpxnp+en{……\n多元线性回归模型(基本假定)自变量x1,x2,…,xp是确定性变量,不是随机变量随机误差项ε的期望值为0,且方差σ2都相同误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立\n多元线性回归方程(概念要点)描述y的平均值或期望值如何依赖于x1,x1,…,xp的方程称为多元线性回归方程多元线性回归方程的形式为E(y)=0+1x1+2x2+…+pxpb1,b2,,bp称为偏回归系数bi表示假定其他变量不变,当xi每变动一个单位时,y的平均平均变动值\n多元线性回归方方程的直观解释二元线性回归模型(观察到的y)回归面0ix1yx2(x1,x2)}\n多元线性回归的估计(经验)方程总体回归参数是未知的,利用样本数据去估计用样本统计量代替回归方程中的未知参数即得到估计的回归方程是估计值是y的估计值\n参数的最小二乘估计\n参数的最小二乘法(要点)根据最小二乘法的要求,可得求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和达到最小来求得。即\n回归方程的显著性检验\n多重样本决定系数(多重判定系数R2)回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差等于多重相关系数的平方,即R2=(R)2\n修正的多重样本决定系数(修正的多重判定系数R2)由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值用n表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为\n回归方程的显著性检验(线性关系的检验)检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系\n回归方程的显著性检验(步骤)提出假设H0:12p=0线性关系不显著H1:1,2,,p至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F4.作出决策:若FF,拒绝H0;若FF0.05(2,7)=4.74,回归方程显著回归系数的显著性检验t=9.3548>t=0.3646,;t2=4.7962>t=2.3646;两个回归系数均显著一个含有四个变量的回归\n第三节可化为线性回归的曲线回归基本概念非线性模型及其线性化方法\n非线性回归1.因变量y与x之间不是线性关系2.可通过变量代换转换成线性关系用最小二乘法求出参数的估计值并非所有的非线性模型都可以化为线性模型\n几种常见的非线性模型指数函数线性化方法两端取对数得:lny=ln+x令:y'=lny,则有y'=ln+x基本形式:图像\n几种常见的非线性模型幂函数线性化方法两端取对数得:lgy=lg+lgx令:y'=lgy,x'=lgx,则y'=lg+x'基本形式:图像0<<11=1-1<<0<-1=-1\n几种常见的非线性模型双曲线函数线性化方法令:y'=1/y,x'=1/x,则有y'=+x'基本形式:图像<0>0\n几种常见的非线性模型对数函数线性化方法x'=lgx,则有y'=+x'基本形式:图像0<0\n几种常见的非线性模型S型曲线线性化方法令:y'=1/y,x'=e-x,则有y'=+x'基本形式:图像\n非线性回归(实例)【例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。废品率与生产率的关系生产率(周/单位)x1000200030003500400045005000废品率(%)y5.26.56.88.110.210.313.0\n非线性回归(实例)生产率与废品率的散点图\n非线性回归(实例)用线性模型:y=01x+,有y=2.671+0.0018x用指数模型:y=x,有y=4.05(1.0002)x比较直线的残差平方和=5.3371<指数模型的残差平方和=6.11。直线模型略好于指数模型\n本章小结相关系数与相关分析一元线性回归模型、回归方程与估计的回归方程多元线性回归模型、回归方程与估计的回归方程回归方程与回归系数的显著性检验非线性回归的线性化5.用Excel进行回归分析\n结束