- 3.65 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
《统计学》教学课件(PowerPoint)制作人:徐国祥马俊玲赵宁教育部普通高等教育“十一五”国家级规划教材\n目录《统计学》第1章总论第7章抽样和抽样分布第6章概率分布第2章统计资料的搜集和整理第3章集中趋势和离散趋势第4章相对指标和指数第5章概率第10章非参数统计第8章参数估计第9章假设检验第13章统计决策第11章相关分析与回归分析第12章时间序列分析和预测教育部普通高等教育“十一五”国家级规划教材\n第1章总论返回总目录\n统计学的产生和发展最早的统计是作为国家重要事项的记录。从统计学的产生和发展过程来看,可以把统计学划分为三个时期:统计学的萌芽期、统计学的近代期、统计学的现代期返回本章返回总目录\n1.统计学的萌芽期统计学的萌芽期始于17世纪中叶至18世纪中、末叶,当时主要有国势学派和政治算术学派。(1)国势学派国势学派对统计学的创立和发展所作的贡献:为统计学这门学科起了一个至今仍为世界公认的名词“统计学”(Statistics),并提出了一些仍为统计学者采用的术语:如“显著事项”等。国势学派在研究各国的显著事项时,主要是系统运用对比的方法来研究各国实力和强弱,实际上是“对比”思想的形象化的产物。返回本章返回总目录\n(2)政治算术学派政治算术学派在统计发展史上的作用:在数量统计资料的基础上进行全面系统的总结,并从中提炼出理论原则。同时,政治算术学派第一次有意识地运用可度量的方法,力求把自己的论证建筑在具体的、有说服力的数字上面,依靠数量的观察来解释与说明社会经济生活。主要的代表人物:威廉·配第(W.Petty)、约翰·格朗特(J.Graunt)政治算术学派在很大程度上毕竟还处于统计核算的初创阶段,它只能从简单的、粗略的算术方法来对社会经济现象进行计量和比较。返回本章返回总目录\n2.统计学的近代期统计学的近代期始于18世纪末至19世纪末,在这时期的统计学主要有数理统计学派和社会统计学派。(1)数理统计学派主要代表人:拉普拉斯(P.S.Laplace)凯特勒(A.Quetelet)——统计学之父,他把统计学发展中的三个主要源泉,即德国的国势学派、英国的政治算术派和意大利、法国的古典概率派加以统一、改造并融合成具有近代意义的统计学,促使统计学向新的境界发展。返回本章返回总目录\n(2)社会统计学派社会统计学派由德国大学教授尼斯(K.G.A.Knies)首创,主要代表人物为恩格尔(C.K.E.Engel)和梅尔(G.V.Mayr)他们认为,统计学的研究对象是社会现象,目的在于明确社会现象内部的联系和相互关系;统计方法应当包括社会统计调查中资料的搜集、整理,以及对其分析研究。同时,他们还认为,在社会统计中,全面调查,包括人口普查和工农业调查,居于重要地位;以概率论为根据的抽样调查,在一定的范围内具有实际意义和作用。返回本章返回总目录\n3.统计学的现代期从世界范围看,自20世纪60年代以后,统计学的发展有3个明显的趋势:第一,随着数学的发展,统计学依赖和吸收数学营养的程度越来越迅速;第二,向其他学科领域渗透,或者说,以统计学为基础的边缘学科不断形成;第三,随着应用的日益广泛和深入,特别是借助电子计算机后,统计学所发挥的功效日益增强。返回本章返回总目录\n统计学的研究对象和研究方法1.统计的涵义统计一词由英语“Statistics”翻译过来。统计一般具有统计学、统计工作和统计资料三种涵义。统计工作是对社会、经济以及自然现象的总体数量方面进行搜集、整理和分析的活动过程。统计资料是统计工作的成果,是统计工作过程所取得的各项数字和有关情况的资料,它反映现象的规模、水平、速度和比例关系等等,以表明现象发展的特征。统计工作的好坏直接影响统计资料的数量和质量。统计学是研究如何进行统计工作,是统计工作经验的理论概括,又用理论和方法指导统计工作,推动统计工作的不断提高。随着统计工作的进一步发展,统计学不断地充实和提高,两者是理论和实践的关系。返回本章返回总目录\n2.统计学的研究对象由统计学的发展史可知,统计学是从研究社会经济现象的数量开始的,随着统计方法的不断完善,统计学得以不断发展。因此,统计学的研究对象为大量现象的数量方面。就其性质来说,它是一门适用于自然现象和社会现象的方法论学科。返回本章返回总目录\n3.统计学的研究方法统计学的研究对象和性质决定着统计学的研究方法。统计学的研究方法主要有大量观察法、综合指标法和统计推断法。(1)大量观察法是指对研究的事物的全部或足够数量进行观察的方法。大量观察的意义在于可使个体与总体之间在数量上的偏误相互抵消。大量观察法的数学依据是大数定律。大数定律是随机现象出现的基本规律,也是在随机现象大量重复中出现的必然规律。大数定律的本质意义在于,经过大量观察,把个别的、偶然的差异性相互抵消,而必然的、集体的规律性便显示出来。返回本章返回总目录\n(2)综合指标法综合指标就是从数量方面对现象总体的规模及其特征的概括说明。所谓综合指标法,就是运用各种综合指标对现象的数量关系进行对比分析的方法。(3)统计推断法在一定置信程度下,根据样本资料的特征,对总体的特征作出估计和预测的方法称为统计推断法。统计推断是现代统计学的基本方法,在统计研究中得到了极为广泛的应用,它既可以用于对总体参数的估计,也可以用作对总体的某些假设检验。返回本章返回总目录\n统计学的要素和内容1.统计要素统计的要素包括:总体、样本、推断以及推断的可靠性(1)总体就是要调查或统计的某一现象(如工商业中某一经济现象)的全部数据的集合,就任何一个统计问题而言,总体是最基本的要素。(2)样本就是从总体中随机抽取的若干数据的子集。返回本章返回总目录\n就是对以样本所包含的信息为基础,对总体的某些特征作出决策、预测和估计。(4)推断的可靠性推断的可靠性测度是统计问题的最重要的要素,也是统计对企业决策最重要的贡献,它使统计的推断与“算命”截然分开。(3)推断统计问题的4个要素小结:明确调查的总体;从总体中抽取样本并对样本的信息加以分析;根据样本信息对总体作出推断;对推断的可靠性加以测度。返回本章返回总目录\n2.统计学的内容统计学的内容由描述统计和推断统计组成。(1)描述统计就是指如何从一直的观察资料,搜集、整理、分析、研究并提供统计的资料的理论和方法,用以说明研究现象的情况和特征。描述统计包括各种数据处理,主要是用来总括或描述数据的重要特征,而不必深入一层地去试图推论数据本身以外的任何事情。其主要作用就是通过对现象进行调查,然后将所得到的大量数据加以整理、简缩、制成统计图表,并就这些数据的分布特征计算出一些概括性的数字。返回本章返回总目录\n(2)推断统计是指凭样本资料来推断总体特征的技术和方法。推断统计可以利用样本资料来代替总体资料,在观察资料的基础上深入一步地分析、研究和推断,以推知资料本身以外的情况和数量关系,从而对不肯定的事物作出决断,为进行决策提供数据依据。推断统计主要有两种类型,即参数估计和假设检验。必须指出,描述统计是推断统计的前提,而推断统计是描述统计的发展。返回本章返回总目录\n统计在管理决策中作用的流程图管理问题的提出现实问题管理问题的确立统计问题的提出管理问题的解决管理问题的答案统计问题的答案统计分析新问题问题的再次提出返回总目录返回本章\n第2章统计资料的搜集和整理返回总目录\n统计调查的概念和方案的设计统计调查就是对统计资料的搜集。它是根据统计研究的目的和要求,有组织、有计划地向调查对象搜集原始资料和次级资料的过程。原始资料又称为初级资料,是指为了研究某个问题而进行实地观察或通过调查所获得的第一手资料。次级资料是指借用原来已经加工的现成资料。由于次级资料一般都是从原始资料过渡而来的,所以统计调查所搜集的资料主要是指原始资料。统计调查按照资料的组织方式不同,可以分为专门调查和统计报表两类。1.统计调查的概念返回本章返回总目录\n一个完整的统计调查方案,应该包括以下五个方面的内容。2.统计调查方案的设计(1)确定调查的目的(2)确定调查对象、调查单位和填报单位这是制定统计调查方案的首要问题。即首先要明确所搜集的资料要解决什么问题。调查对象是被研究对象的总体。调查单位是指构成总体的每一个单位。填报单位是指受征集资料的单位。返回本章返回总目录\n(3)明确调查项目和制定调查表格(4)确定调查时间(5)制定调查的组织实施计划调查项目是进行调查时要向被调查者所要询问的问题。调查表是把确定好的调查项目按一定的逻辑顺序排列在一定的表格上,凡是以文字作为答案的,可以采取问答式;凡是以数字作为答案的,则必须制定调查表。调查时间包含两个方面的含义:一是调查资料所属的时间;二是调查工作的起止时间。返回本章返回总目录\n统计调查的方式和方法1.专门调查是指为了某些特定目的而专门进行的调查。这种调查多属一次性调查,一般有普查、重点调查、抽样调查和典型调查四种。(1)普查是专门组织的一次性全面调查。普查所搜集的资料表明某一现象在某一时点或某一时期的情况,时间性要求很强。一、统计调查的方式返回本章返回总目录\n(2)重点调查是指在调查对象中选择一部分重点单位进行调查,借以了解总体基本情况的一种非全面调查。重点调查既可以用于经常性调查,也可以用于一次性调查。重点单位是指在总体中具有举足轻重的单位,这些单位数量小,但是它们调查的标志值在总体指标值中占有绝大的比重。(3)抽样调查是指根据随机原则从调查总体中抽取部分单位进行观察并根据其结果推断总体数量特征的一种非全面调查的方法。(4)典型调查是指根据调查的目的和要求,在对研究对象进行全面分析的基础上,有意识地选择部分有代表性的单位进行调查,它是一种非全面调查。返回本章返回总目录\n抽样调查、重点调查和典型调查之间是有区别的:最大的不同点是,抽样调查是从总体中随机地抽取部分单位尽心调查,而重点调查和典型调查则是从总体中有意识地选择部分单位作为调查的对象。2.统计报表统计报表是我国搜集统计资料的主要方式之一,是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供统计资料的一种统计调查方法。返回本章返回总目录\n统计报表的分类:按调查范围的不同:分为全面和非全面统计报表按报表内容和实施范围的不同:分为国家统计报表、部门统计报表和地方统计报表按保送周期长短:分为日报、旬报、月报、季报、半年报和年报按填报单位的不同:分为基层统计报表和综合统计报表统计报表的资料来源于基层单位的原始记录。从原始记录到统计报表,中间还要经过统计台账和企业内部报表。返回本章返回总目录\n1.直接观察法是指调查人员到现场对调查对象进行观察、计量和登记以取得资料的方法。二、统计调查的方法2.报告法是指报告单位以各种原始记录和核算资料为依据,向有关单位提供统计资料的方法。返回本章返回总目录\n3.采访法是指调查员和应答者之间的一种对话。目的在于准确地搜集资料。它主要是按照事先印刷好的调查表由调查员逐一提问的方法进行的调查。4.邮寄调查法是指通过邮政系统分发和收回调查表的调查方法,它是一种典型的被调查者自填法。返回本章返回总目录\n问卷的设计1.问卷的概念和作用问卷,就是有问有答的调查表。问卷调查的作用在于:(1)可以使调查研究规范化。(2)可以使调查研究程序化。(3)可以使调查研究科学化。返回本章返回总目录\n2.问卷的基本要素问卷的基本要素有四个:前言、问题和答案、编码、资料登录地址。(1)前言,是给应答者的简短信函,一般写在问卷的首页或封面上。(2)问题和答案,是问卷的核心内容。(3)编码,就是用自然数给各种答案编上号码。(4)登录地址,是指明每一项资料在汇总时,登录在什么地方,实际上起着资料索引的作用。返回本章返回总目录\n3.设计问卷时应注意的问题(1)对每个问题和答案的设计,应充分考虑到问题的统计方法。(2)提问的意义要准确、清楚。(3)问题要适用于调查对象的最低文化程度。(4)问题应当短小,便于作明确的答复。(5)问题的排列应当具有逻辑性。(6)对敏感性问题设计问卷时应遵守保密的原则。返回本章返回总目录\n统计分组1.统计分组的意义统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干组成部分的一种统计方法。统计分组的作用在于:(1)划分现象的类型,并反映各类型组的数量特征;(2)按照某一标志将性质不同的单位进行分组,以说明现象的内部结构;(3)通过分组可以揭示现象与现象之间的依存关系。返回本章返回总目录\n2.统计分组的标志在进行统计分组时,最关键的问题就是如何选择分组的标志和确定各组的界限。分组标志,是将总体区分为不同组别的标准和根据。分组标志有品质标志和数量标志2种。(1)按品质标志分组就是按事物的品质特征进行分组。(2)按数量标志分组就是按事物的数量特征进行分组。返回本章返回总目录\n3.统计分组体系为了从不同侧面反映总体的特征,就必须运用几个标志对总体进行分组,形成一个完整的体系,这就是统计分组体系。统计分组体系有以下两种不同的形式:(1)平行分组体系如果总体按照一个标志进行分组,就称为简单分组。同一总体的几个简单分组按某一规定排列起来就构成一个平行分组体系。按性别分组男女按民族分组汉族组藏族组回族组……按年龄分组0~6岁组7~17岁组18~59岁组60岁以上组返回本章返回总目录\n(2)复合分组体系如果总体同时按两个或两个以上的标志层叠起来分组,就称为复合分组,由复合分组形成的分组系列就称为复合分组体系。高等学校学生总体文科学生组本科学生组专科学生组理科学生组本科学生组专科学生组男生组女生组男生组女生组男生组女生组男生组女生组返回本章返回总目录\n频数分布1.频数分布的概念在统计分组的基础上,将总体中所有单位按一定标志进行分组整理,形成总体中各单位数在各组间的分布,称为频数分布,又称分布数列,它是统计整理的结果。分布在各组的个体单位数称为频数,又称次数。各组次数与总次数之比称为频率,又称为比率。根据分组标志特征的不同,分布数列可分为属性分布数列和变量分布数列两种。返回本章返回总目录\n(1)属性分布数列是指按品质标志分组所形成的分布数列,简称品质数列。对于品质数列来讲,如果分组标志选择得好、分组标准定得恰当,则事物的差异就表现得比较明确,总体中各组如何划分就较易解决。属性分布数列一般也比较稳定,通常均能准确地反映总体的分布特征。返回本章返回总目录\n(2)变量分布数列是指按数量标志形成的分布数列,简称变量数列。变量数列往往因人的主观认识不同而不同,因此,按同一数量标志分组是有出现多种分布数列的可能。变量数列按照用以分组的变量的表现形式,可以分为单项式变量数列和组距变量数列。单项式变量数列是指数列中每个组的变量值都只有一个,即一个变量值就代表一组。单项式变量数列一般是在离散型变量变异幅度不太大的情况下所采用。组距式变量数列是指按一定的变化范围或距离进行分组的变量数列。编制组距数列适用于变量值个数较多、变动范围较大的资料。返回本章返回总目录\n2.频数分布表的编制(1)整理原始资料:确定最大最小值,并计算全距(2)确定变量数列的形式:对于离散型变量,可以按一定的次序一一列举数值;对于连续型变量,不能编制单项式变量数列,而只能贬值组距式变量数列。(3)编制组距式变量数列应注意的问题①确定组距:组距的大小要适度,要能正确地反映总体的分布特征及其规律。如果资料分布比较均匀,就可采用等距分组,否则应采用不等距分组。②确定组限:基本原则是,按这样的组限分组后,要能是性质相同的单位归入同一组内,使不同性质的单位按不同的组别划分。返回本章返回总目录(4)频数分布表的具体编制\n3.频数分布表示方法频数分布表示方法主要有列表法和图示法(1)列表法即用统计表来表示频数分布,并可列入累计频数。(2)图示法即用统计图形来表示频数分布的方法。常用的有直方图、折线图和曲线图三种。返回本章返回总目录\n统计汇总方法和统计表1.统计汇总的组织方法统计汇总的组织方法基本上有两种:逐级汇总法和集中汇总法。(2)集中汇总法是一种把全部调查资料集中到某一机构进行一次性汇总的方法。(1)逐级汇总法就是一种从基层取得调查资料,按照一定的领导系统,自下而上逐级整理综合的方法。返回本章返回总目录\n2.统计汇总的技术方法在我国的统计实践中,常用的有手工汇总和电子计算机汇总两种。3.次级资料的汇总整理方法从统计角度来讲,对刺激资料的汇总整理主要有三种方法:调整法、推算法、再分组。返回本章返回总目录\n4.统计表统计表是纵横线交叉所组成的一种表格,表格内所列的是整理后系统的统计资料。其优点在于:资料易于条理化,简单明了,且可以节省大量文字叙述,便于比较分析、检查数值的完整性和准确性。(2)统计表的内容统计表是由总标题、横行标题、纵栏标题、纵横表格线和数字资料等基本内容构成。(1)统计表的形式统计表分为主词栏和宾词栏两部份。返回本章返回总目录\n第3章集中趋势和离散趋势返回总目录\n集中趋势的测度集中趋势是对频数分布资料的集中状况和平均水平的综合测度。而离散趋势是对频数分布资料的差异程度和离散程度的测度,用来衡量集中趋势所册书之的代表性,或者反映变量值的稳定性和均匀性。常用来表达数列集中趋势的测度有算术平均数、调和平均数、几何平均数、中位数和众数。这些测度在统计学中也称为平均指标或平均数,可以用来反映标志值的典型水平和标志值分布的中心位置或集中趋势。返回本章返回总目录\n1.算术平均数算术平均数是平均指标中最重要的一种,一般不特别说明时,所称的“平均数”就是指算术平均数,其定义的公式为:算术平均数=总体标志总量/总体单位总量计算算术平均数时,标志总量和单位总量必须属于同一总体,分子分母所包含的口径必须一致。否则,计算出来的平均数指标便失去了科学性。算术平均数,可以分为简单算术平均数和加权算术平均数两种。返回本章返回总目录\n(1)简单算术平均数将总体的各个单位标志值简单相加,然后除以单位个数,求出的平均标志值,叫做简单算术平均数。简单算术平均数的计算公式为:式中:——算术平均数——第i个单位的标志值,i=1,2,3,…,n——总体单位数——总和返回本章返回总目录\n(2)加权算术平均数加权算术平均数的计算公式为:式中:——标志值出现的次数或权数——标志值——组数——标志总量返回本章返回总目录\n2.调和平均数调和平均数又称“倒数平均数”,它是根据各标志值的倒数来计算的平均数,即各个标志值倒数的算术平均数的倒数。调和平均数也分简单调和平均数和加权调和平均数。简单调和平均数的计算公式为:即设m为权数,则加权调和平均数的计算公式为:则返回本章返回总目录\n3.几何平均数几何平均数是计算平均比率和平均速度最适用的一种方法。几何平均数有简单几何平均数和加权几何平均数之分。简单几何平均数是次方根。个标志值连乘积的其计算公式为:在用几何平均数法计算平均数时,如果大于2,可采用对数法计算。计算公式为:返回本章返回总目录\n需要指出的是,当把几何平均数应用于经济现象时,必须注意经济现象本身的特点。只有当标志总量表现为各个标志值的连乘积时,才适合采用几何平均数方法来计算平均标志值。一般来说,计算社会经济现象在各个时期的平均发展速度时,要采用几何平均数。例如,工农业总产值年平均发展速度、全国人口年平均发展速度等。返回本章返回总目录\n4.中位数中位数是一种按其在数列中的特殊位置而决定的平均数。把总体各单位标志值按大小顺序排列后,处在中点位次的标志值就是中位数,它将全部标志值分成两个部分,一半标志值比它大,一半标志值比它小,而且比它大的标志值个数和比它小的标志值个数相等。要求得中位数,首先要确定中位数的位次。未分组资料时,中位数位次=当总体位数为奇数时,中位数就是中位数位次上的那个数据;当为偶数时,中位数是中位数位次上2项数据的算术平均数。返回本章返回总目录\n分组资料时,中位数位次可以利用中位数所在组的下限来测算中位数,即中位数的下限公式为:——中位数——中位数所在组的下限——中位数所在组的次数——总次数即各组次数总和——小于中位数组的各组次数之和——中位数所在组的组距式中:返回本章返回总目录\n也可以利用中位数所在组的上限来测算中位数,即中位数的上限公式为:式中:——中位数所在组的上限——大于中位数组的各组次数之和中位数最大的特点是:它是序列中间1项或2项的平均数,不受极端值的影响,所以在当一个变量数列中含有特大值与特小值的情况下,采用中位数较为适宜。正式由于中位数的这一特点,在统计研究中,当遇到掌握统计资料不多而且各标志值之间差异程度较大或频数分布有偏态时,为避免计算标志值所得的算术平均数偏大或偏小,就可利用中位数来表示现象的一般水平。返回本章返回总目录\n5.众数众数是一种位置平均数。众数是总体单位中,标志值出现次数最多的那个数值。为了确定众数的具体数值,可以利用下限公式或上限公式加以计算。计算众数的下限公式为:式中:——众数——众数组的下限——众数组次数与上一组次数之差——众数组次数与下一组次数之差——众数组的组距返回本章返回总目录\n计算众数的上限公式为:式中:——众数组的上限众数的计算只适用于单位数较多,且存在明显的集中趋势的情况,否则,计算众数时没有意义的。返回本章返回总目录\n离散趋势的测度离散趋势的测度,在统计学中也称为指标变异指标,是用来描述数列中指标值的离散趋势与离散程度的。常用的标志变异指标有极差、平均差和标准差等。1.极差极差是指一个数列中两个极端值即最大值与最小值之间的差异。根据极差的大小能说明标志值变动范围的大小。其计算公式为:极差=最大标志值-最小标志值根据组距数列求极差的计算公式为:极差=最高组上限-最低组下限在实际工作中,极差可以用于检查产品质量的稳定性和进行质量控制。在正常生产的条件下,产品质量稳定,极差在一定范围内波动,若极差超过给定的范围,就说明有不正常情况产伤。但极差受到极端是的影响,测定结果往往不能反映数据的实际离散程度。返回本章返回总目录\n2.四分位差四分位差是根据四分位数计算的。首先把变量各单位标志值从小到大排序,再将数列四等分,处于四分位点位次的标志值就是四分位数,记作,为第一四分位数(也称为下四分位数),为第二四分位数,就是中位数,为第三四分位数。四分位差的计算公式为:四分位差的计算步骤为:先寻找四分位数,然后根据四分位差的计算公式计算。返回本章返回总目录\n四分位数的计算(1)由未分组资料计算四分位数。是整数,则位次对应的标志值即为相应的四分位数。首先确定四分位数的位次,再找出对应位次的标志值即为四分位数。设样本容量为n,不是整数,则用相邻位次上的标志值的加权算术平均数插值法计算四分位数。返回本章返回总目录\n(2)由分组资料计算四分位数。——第四分位数所在组的下限;——第四分位数所在组的次数;——总次数,即各组次数总和;——小于第四分位数所在组的各组次数之和;——第四分位数所在组的组距。式中:第四分位数的计算公式为:返回本章返回总目录\n四分位差是对极差的一种改进。与极差相比,四分位差因不受极值的影响,在反映数据的离散程度方面比极差准确,具有较高的稳定性;同时,对于存在开口的组距数列,不能计算极差,但可以计算四分位差。四分位差与极差相比较:四分位差和极差一样,不能充分利用数据的全部信息,也无法反映标志值的一般变动。返回本章返回总目录\n3.平均差平均差是各单位标志值对平均数的离差绝对值的平均数。平均差仅反映总体各单位标志值对其平均数的平均离差量。平均差越大,表明标志变异程度越大;反之,则表明标志变异程度越小。平均差通常用字母表示。未分组资料时,其计算公式为:分组资料时,其计算公式为:返回本章返回总目录\n4.方差和标准差未分组资料时,方差的公式为:标准差的公式为:分组资料时,方差的公式为:标准差的公式为:式中:——算术平均数——总体单位数返回本章返回总目录——各组次数——方差——标准差——变量值\n需要指出的是,是总体标准差,而样本标准差为。当样本较大时,由于几乎等于,因此常用公式代替公式来计算样本标准差S,并用于估计总体标准差。在小样本的情况下,较为总体标准差的更优良的估计量。返回本章返回总目录\n5.离散系数上述的各种标志变异度指标,都是对总体中各单位指标值变异测定的绝对量指标。而离散系数是测定总体中各单位标志值变异的相对量指标,以消除不同总体之间在计量单位、平均水平方面的不可比因素。常用的离散系数主要有平均差离散系数和标准差离散系数其公式分别为:返回本章返回总目录\n6.偏度和峰度(1)偏度偏度是用来反映变量数列分布偏斜程度的指标。变量数列的单峰钟形分布对称分布非对称分布(或称偏态分布)右偏分布(或称正偏分布)左偏分布(或称负偏分布)返回本章返回总目录\n偏态分布情况下平均数、中位数、众数有近似的关系:XfXfXf对称分布右偏分布左偏分布利用平均数、中位数、众数的位置关系大致判断分布是否对称:返回本章返回总目录\n用偏度系数准确地测定分布的偏斜程度和进行比较分析。※Pearson偏度系数,用SK表示。SK为无量纲的系数,通常取值在-3~+3之间。绝对值越大,说明分布的倾斜程度越大。SK=0对称分布SK>0右偏分布SK<0左偏分布返回本章返回总目录\n※动差法(或称矩法)计算偏度系数,用表示。定义变量X关于A的K阶矩(对未分组资料):当A=0,即以原点为中心,M称为K阶原点矩,用MK表示。K=1,2,3时,有:一阶原点矩M1=∑(X-0)1/n=∑X/n二阶原点矩M2=∑(X-0)2/n=∑X2/n三阶原点矩M3=∑(X-0)3/n=∑X3/n当A=,即以为中心,M称为K阶原点矩,用mK表示。K=1,2,3时,有:一阶中心矩二阶中心矩三阶中心矩M=∑(X-A)K/n返回本章返回总目录\n偏度系数的计算公式:=0对称分布;>0右偏分布,值越大,右偏程度越高;<0左偏分布,值越小,左偏程度越高。返回本章返回总目录\n(2)峰度峰度是用来反映变量数列曲线顶端尖峭或扁平程度的指标,用表示。峰度系数的计算公式:=3变量数列的曲线为正态曲线;>3尖顶曲线,值越大,顶部尖峭程度越高;<3平顶曲线,值越小,顶部越平坦;=1.8变量数列的曲线呈矩形分布;<1.8变量数列的曲线呈U形分布;返回本章返回总目录\n第4章相对指标和指数返回总目录\n对比是一种重要的统计分析法。相对指标和指数,都属于对比分析法。通过两个相互联系的事物之间数量关系的对比,来说明事物发展程度、结构,以及两个相联系事物之间的关系的指标,称为相对指标。指数是一种特殊的相对数,在本章中是专指不能直接相加现象在不同时期比较的综合相对数。返回本章返回总目录\n相对指标1.相对指标概述相对指标又称相对数,是指两个相互联系的统计指标之比。相对指标的作用主要在于能使原来不能直接相比较的数量指标具有可比性。不同总体的总量指标所代表的事物的性质、规模是不相同的,往往无法直接对比。在这种情况下,只有将它们转化成适当的相对数,才能进行对比。相对数的种类很多,根据其表现形式的不同可分为2类:(1)有名数;(2)无名数。返回本章返回总目录\n(1)有名数凡是由两个性质不同而又有联系的绝对数或平均数指标对比计算所得到的相对数,一般都是有名数,且多用复合计量单位。如人口密度,单位为“人/平方公里”;平均每人分摊的粮食产量,单位为“千克/人”。(2)无名数无名数可以根据不同的情况分别采用倍数、百分数和千分数来表示。其中百分数是相对指标中最常用的一种表现形式。返回本章返回总目录\n2.几种常见的相对指标(1)计划完成相对数计划完成相对数也称为疾患完成百分数,是将实际完成量与计划指标进行对比,对比结果一般用百分数表示。计算公式为:检查计划完成情况,一般从两个方面进行:①检查报告期计划完成情况,在报告期终了时,检查整个报告期完成了本期计划的多少;②累计完成计划百分数,就是从报告其的期初开始,截至目前止完成本期计划的程度。返回本章返回总目录\n(2)结构相对数计算各部分在总体终所占的比重,这样的相对数,就说结构相对数。它是总体构成部分的数值对总体数值之比,也就是部分与全体之比。结构相对数常用百分数来表示,而且各部分比重的总和应等于100%,其计算公式为:结构相对数的主要作用有:通过结构相对数说明一定时间、空间条件下总体结构的特征;通过不同时期结构相对数的变化,可以看出事物的变化过程及其发展趋势;通过结构相对数分析研究各构成部分所占的比重是否合理,为改进工作提供依据。返回本章返回总目录\n(3)比较相对数比较相对数,是指同一时期不同地区、不同单位之间同类指标之比,用以反映事物发展不平衡的相对差异程度。一般用倍数或百分数表示,其计算公式为:返回本章返回总目录\n(4)动态相对数动态相对数,是表明同一现象不同时期的2个指标之比,又称为发展速度。通常用来作为比较指标所属的时期叫做基期,与基期对比的时期叫做报告期。对比的结果,可用百分数或倍数来表示。其计算公式为:返回本章返回总目录\n(5)强度相对数强度相对数是说明现象发展的强度、密度或普遍程度。它是由两个性质不同但又有联系的总量指标进行对比,用来反映社会现象之间的相互关系。其计算公式为:强度相对数有正、逆两种指标,一般视哪一个指标更能清楚地说明所研究的问题而加以使用,如研究人口密度时,应使用正指标。返回本章返回总目录\n(6)比例相对数比例相对数,是同一总体中两个部分之比。其计算公式为:返回本章返回总目录\n不同时期同一现象比较动态相对数强度相对数比较相对数部分与部分比较部分与总体比较实际与计划比较比例相对数结构相对数计划完成相对数不同现象比较不同总体比较同一时期比较同类现象比较同一总体中六种相对数指标的比较返回本章返回总目录\n3.计算和运用相对数时应注意的问题(1)注意保持对比指标数值的可比性;(2)注意同绝对数相结合应用;(3)注意各种相对数的结合应用。返回本章返回总目录\n指数的概念和分类1.指数的概念从广义上讲,凡是能说明现象变动的相对数都是指数。从狭义上讲,指数是专指不能直接相加现象在不同时期间比较的综合相对数。2.指数的分类(1)数量指数和质量指数按所反映现象的特征不同,可分为数量指数和质量指数。数量指数反映现象的总规模、水平或工作总量的变化;质量指数反映工作质量的变化情况。返回本章返回总目录\n(2)定基指数和环比指数按计算指数时所用的基期不同,可分为定基指数和环比指数。定基指数的基期是固定不变的,环比指数的基期是随着报告期的变化而变化的,一般是以上一年的同期作为基期。(3)个体指数和总指数按所反映现象的范围不同,可分为个体指数和总指数。个体指数是说明单个事物或现象在不同时期上的变动程度,总指数是说明多种事物或现象在不同时期上的综合变动程度。返回本章返回总目录\n3.个体指数的编制个体指数是反映单个事物或现象报告期相对于基期变动的相对指标。个体指数的编制是把反映该现象的报告期指标和基期指标直接对比。返回本章返回总目录\n总指数的编制方法总指数是反映多种现象或事物报告期相对于基期的综合变动相对指标。总指数的编制方法主要分为综合指数法和平均指数法。数量指数的编制有两种:一种是综合指标,可直接相加,只要分别汇总报告期的指标和基期的指标,然后加以对比即可;另一种是非综合指标,不能直接相加,要通过同度量的质量因素把指标过渡到具有可加性,然后分子分母的指标相加后再对比。这种通过同度量因素综合分子分母的指标再对比求总指数的方法,称为综合指数法。返回本章返回总目录\n(1)数量指数的编制1.综合指数法数量指数的编制有两种:一种是综合指标,可直接相加,只要分别汇总报告期的指标和基期的指标,然后加以对比即可;另一种是非综合指标,不能直接相加,要通过同度量的质量因素把指标过渡到具有可加性,然后分子分母的指标相加后再对比。这种通过同度量因素综合分子分母的指标再对比求总指数的方法,称为综合指数法。综合指数法中按不同时期的因素取同度量因素主要有两种,拉氏指数公式,派氏指数公式。拉氏指数公式是同度量因素取基期,派氏指数公式是同度量因素取报告期。返回本章返回总目录\n(2)质量指数的编制在编制质量指数的过程中,采用相应的数量因素作为同度量因素固定在某一时期上。①同度量因素与指数化因素相乘后必须是有实际经济意义的总量指标;②数量指标指数一般以质量指标为同度量因素,质量指标指数一般以数量指标为同度量因素;③同度量因素的固定时期必须以指数的经济意义为依据。(3)编制综合指数的一般方法原则可以概括为:返回本章返回总目录\n2.平均数指数法以个体指数为基础采取平均数形式编制总指数的方法称为平均数指数法。习惯上,把用综合指数法求出的指数称为综合指数,而把通过平均数指数法求出的指数称为平均数指数,实际上这两者都是总指数。平均数指数有两种表现形式:一种是算术平均数指数;一种是调和平均数指数。返回本章返回总目录\n(2)调和平均数指数的编制调和平均数指数是对个体指数按调和平均数形式进行加权计算。这种指数形式实际上是派氏综合指数公式的变形。在所掌握的是个体指数和报告期资料的情况下,则应用调和平均数指数。(1)算术平均数指数的编制算术平均数指数是对个体指数的算术加权平均。这种指数形式实际上是拉氏综合指数公式的变形。在只掌握个体指数和基期资料的情况下,运用算术平均数指数公式编制总值数就比较方便。返回本章返回总目录\n我国物价指数的编制和应用零售物价指数和居民消费者价格指数是我国政府统计部门所编制的两种重要指数。编制零售物价指数和居民消费者价格指数的目的主要在于观察市场价格水平的涨跌程度,分析物价变动所引起的经济后果,研究居民实际收入的变化,以便为有关部门制定物价政策、进行宏观调控和抑制通货膨胀等提供依据。返回本章返回总目录\n1.零售物价指数的编制我国的零售物价指数是全面反映市场零售物价总水平变动趋势和程度的相对数。它可反映零售商品的平均价格水平,为国家制定经济政策提供依据。各类零售物价指数的计算步骤如下:(1)计算各个代表品个体零售物价指数;(2)把各个体指数乘上相应的权数后相加,再计算其算术平均数,即得小类指数;(3)把各小类指数乘上相应的权数后,再计算其算术平均数,即得中类指数;(4)把各中类指数乘上相应的权数后,计算其算术平均数,即得大类指数;(5)把各大类指数乘上相应的权数后,计算其算术平均数即得总指数。返回本章返回总目录\n在编制零售物价指数时,应注意以下问题:(1)代表各规格品种的选择问题;(2)价格资料的调查和平均价格的计算问题;(3)权数资料的来源和各类零售价格指数编制问题。2.居民消费价格指数编制居民消费价格指数,对于观察居民生活消费品及服务项目价格的变动对城乡居民生活的影响,对于各级部门掌握居民消费价格状况和研究并制定居民消费价格政策、工资政策,以及测定通货膨胀等,具有重要的现实意义。返回本章返回总目录\n居民消费价格指数是由居民用于日常生活的消费的全部用品和服务项目所构成的。居民消费价格指数与零售物价指数的调查方法和计算公式是相同的,但两者存在区别,表现在:(1)编制的角度不同。(2)包括的范围不同编制居民消费价格指数的类权数和大部分商品和服务项目的权数是根据住户调查中居民的实际消费构成计算,部分在住户调查中不编码汇总计算的商品和服务项目,其权数可根据典型调查资料推算。返回本章返回总目录\n3.零售物价指数和居民消费价格指数的应用零售物价指数和居民消费价格指数的具体应用有:(1)可用于反映通货膨胀如果通货膨胀率大于0,则说明存在通货膨胀;如果小于0,则说明出现通货紧缩现象,即物价下跌,币值提高。返回本章返回总目录\n(2)可用来反映货币购买力变动货币购买力是指单位货币能够购买到的消费品和服务的数量。货币购买力的变动与消费品和劳务价格的变动呈反比关系。所以,居民消费价格指数的倒数就称为货币购买力指数。从100%中减去货币购买力指数,就是货币比基期贬值的百分比。货币购买力指数的计算公式为:返回本章返回总目录\n(3)可用来反映对职工实际工资的影响实际工资指数是指两个不同时期实际工资的对比,它说明职工在不同时期得到的货币工资额实际能够买到的消费品和服务项目在数量上的增减变化。(4)可用来作为其他经济时间序列的紧缩因子如果将居民消费价格指数对工资、个人消费支出、零售额以及投资额等进行调整后,这些经济时间序列值就不再受通货膨胀因素的影响。返回本章返回总目录\n指数因素分析法的评价、改进及其应用1.指数因素分析法的评价指数体系中,同度量因素选择的基准不同,可产生三种指数体系。下面以例说明。返回本章返回总目录\n某商店商品销售情况如下:返回本章返回总目录品名计量单位销售量销售价(元)销售额(元)基期q0报告期q1基期p0报告期p1基期p0q0报告期p1q1p0q1p1q0甲乙件千克50100601202.01.02.41.2100100144144120120120120合计200288240240\n以报告期销售量计算销售价格总指数绝对数:返回本章返回总目录以基期销售价格计算销售量总指数指数体系(1)相对数:\n以基期销售量计算销售价格总指数返回本章返回总目录以报告期销售价格计算销售量总指数指数体系(2)相对数:绝对数:\n以基期销售量计算销售价格总指数返回本章返回总目录以基期销售价格计算销售量总指数指数体系(3)相对数:绝对数:\n返回本章返回总目录从上例对指数体系(1)—指数体系(3)比较和评价指数体系(1)指数体系(2)相对数分析绝对数分析价格和销售量变化幅度一样销售价格是主要影响因素销售量是主要影响因素价格和销售量变化幅度一样指数体系(3)销售量和销售价格影响值相同,且交互影响值反映出对销售额有影响。价格和销售量变化幅度一样且交互影响指数的变动没有影响总结:利用相对数和绝对数分析时常会出现矛盾,因此,有必要提高指数因素分析法的精度,从而探索新的途径,使因素分析法日臻完善。\n2.增量因素分析法(1)增量因素分析法的基本理论返回本章返回总目录\n(2)在运用增量分析模型时应考虑的几个问题返回本章返回总目录\n第5章概率返回总目录\n随机试验和随机事件从广义上讲从某一研究目的出发,对随机现象进行观察均称为随机试验。基本概念严格意义上的随机试验应该满足一下3个条件:(1)试验可以在相同的条件下重复进行;(2)试验的所有可能结果是明确可知的,并且不止一个;(3)每次试验总是恰好出现这些可能结果中的一个,但试验之前不能肯定这次试验会出现哪一个结果。在一定条件下,一种事物可能出现这种结果,可能出现另一种结果,呈现一种偶然性,这种现象称为随机现象。返回本章返回总目录\n1.随机试验和随机事件随机试验中可能出现或可能不出现的事情称为随机事件。在生产活动和日常生活中,有些事情时必然发生的,这种事件成为必然事件;有些时间是肯定不发生的,这种事情称为不可能事件。在随机试验中可能出现也可能不出现,在事先无法确认其结果的事件称为随机事件。随机试验的每一个可能结果称为基本事件,所有基本事件的全体称为基本事件组,由若干基本事件组合而称的事件称为符合事件。\n2.样本空间对应于每一随机试验的每一个基本事件可用只包含1个元素的单点集{}表示,也称样本点。由若干基本事件组成的复合事件,则用包含若干元素的集合表示,由所有基本事件对应的全部元素所组成的集合,称为样本空间,常用S表示。\n3.事件关系(1)设有两个事件A和B,如果事件A发生必然导致事件B发生,则称事件A含于事件B,或称事件B包含事件A,记作。BAAB(2)事件A与B中至少有一个发生这一事件,称为事件A与B的和,或称为A与B的并,记作。\n(3)事件A与事件B同时发生这一事件,称为A与B的积,或A与B的交,记作。(4)事件A发生而事件B不发生这一事件称为A与B之差,记作。ABAB\n(5)样本空间S与事件A之差这一事件称为A的逆事件、对立事件或互补事件,记作。(6)如果2个事件A与B不可能同时发生,则称事件A与B为互不相容事件,或称互斥事件。AABA、B不相容\n概率的定义1.古典概率的定义:如果随机试验具有下列两个特点,则称这类试验为古典概型:(1)样本空间包含有限个样本点,即:(2)各样本点发生的可能性相等。在古典概型中,事件A包含m个样本点,则定义A的概率为,这个定义称为概率的古典定义。返回本章返回总目录\n2.概率的统计定义:为了确定某一事件的概率,通过大量观察或重复试验的方法求出事件的频率,再根据频率随试验次数变化的趋势来确定概率,这就是概率的统计定义。3.主观概率的定义:主观概率,也称为个人判断概率,它是指一个有理智和丰富经验的人对某一事件发生的可能性作出主观判断的量度。返回本章返回总目录\n概率的基本运算法则1.概率的加法定理(1)互斥事件的加法定理:(2)相容事件的加法定理:如果两个事件A和B同时出现,则事件A和B称为相容事件,也称为联合事件。2个相容事件A与B之和的概率为:。若事件A与B互斥,则A和B就不可能同时出现,则,且。这一公式被称为加法的特殊定理,只适用于互斥时间的合并。总和不仅包含中全部样本点的概率之和,而且包含交AB中全部样本点的概率的重复计算,因此,只有减去才能得到正确的结果。返回本章返回总目录\n2.概率的乘法定理如果事件A的概率与事件B是否出现有关,则称事件A与B为相依事件。在已知事件B出现的条件下,决定事件A出现的概率,就称为B出现情况下A出现的条件概率,用表示。而表示,在A出现情况下B出现的条件概率。相依事件的条件概率公式为:或或为事件A、B同时发生的概率,即联合概率。或为事件A或B的边缘概率。返回本章返回总目录(1)相依事件的概率\n①相依事件条件概率的计算:相依事件的条件概率公式为:或②相依事件联合概率的计算:由概率的乘法定理可知,在1次试验中事件A与事件B同时出现的概率等于其中一事件的概率与另一事件在前一事件出现下的条件概率的乘积,即:或③相依事件边缘概率的计算:相依事件的边缘概率等于包含单一事件出现的那些联合概率的总和。即,其中:是必然事件。返回本章返回总目录\n(2)独立事件的概率若在事件A对事件B不相依的情形下,事件B的出现并不影响事件A的出现。这时,就称事件A对事件B独立。独立事件的条件概率为:①独立事件的条件概率:一般来说,条件概率不等于。即事件B的出现对于A出现的概率是有影响的。但是若在事件A对B不相依的情形下,事件B的出现并不影响事件A的出现。这时,就称事件A对事件B独立。返回本章返回总目录\n一般地,n个独立事件的联合概率公式为:为事件A和B同时发生的联合概率分别为事件A和B发生的边缘概率。②独立事件的联合概率:由独立事件的乘法定理可知,若两事件A和B独立,则两个独立事件乘积的概率,等于两个事件的概率的乘积。返回本章返回总目录\n1.全概率公式返回本章返回总目录全概率公式和贝叶斯定理的定义\n2.贝叶斯定理注意:在应用贝叶斯决策理论时,要指定主观先验概率,贝叶斯定理则是修正这些指定概率的手段。在具体应用中,这就意味着经验的直觉、主观的判断和当前情况的数量都是以先验概率的形式而占有的,一旦搜集到有关的经验数据,就要进行修正。返回本章返回总目录\n贝叶斯定理实例:某公司用一个“销售能力测试”来帮助公司选择销售人员。过去经验表明:在所有申请销售人员一职的人中,仅有65%的人在实际销售中“符合要求”,其余则“不符合要求”。“符合要求”的人在能力测试中有80%成绩合格,“不符合要求”的人中,及格的仅30%。在这些信息的基础上,给定一投考者在能力考试中成绩合格,那么,他将是1个“符合要求”的销售员的概率是多少?返回本章返回总目录\n解:如果A1代表1个“符合要求”的销售员,B代表通过考试。那么,给定1个投考者在能力考试中成绩合格,他将是1个“符合要求”的销售员的概率为:因此,这个考试对于筛选投考者是有价值的。假定对销售人员一职来说,提出申请的投考者的类型没有变化,从申请人中随机挑选1个人,他“符合要求”的概率是65%;另一方面,如果公司只接受通过考试的申请人,这个概率就提高到0.83。返回本章返回总目录\n第6章概率分布返回总目录\n随机变量及其概率分布的基本问题1.随机变量的概念随机变量就是按一定的概率取值的变量,通常用X、Y、Z等表示。随机变量有以下两个特征:①取值的不确定性②随机变量的取值虽是不确定的,但由于随机变量出现的可能性大小是遵循一定规律的,因此,随机变量的取值也是有规律的。返回本章返回总目录\n我们可以把随机变量看作一个函数,它对样本空间中的每一个元素都赋予一个实际值,它的定义域集合就是这个样本空间,值域集合则是一个实数集合。2.随机变量的概率分布随机变量的概率分布是一个函数,它把随机变量的每一个值与一个实数(概率)相对应。概率分布反映了随机变量的取值或随机事件中各种结果的分布状况和分布特征。返回本章返回总目录\n概率必须满足概率分布的两个条件:①非负,小于等于1②随机变量的各个值的概率总和等于13.离散型和连续型随机变量以及概率分布(1)离散型随机变量及其概率分布当随机变量所有可能取值的集合只包含有限个元素或当随机变量可能取的值的集合是无穷可数集合时,就称为离散型随机变量。返回本章返回总目录\n用来指定某一离散型随机变量的所有可能值及其相应概率的表格﹑图形﹑公式或其他设计,称为这一离散型随机变量的概率分布。X取其中一个值的概率记为随机变量的累积概率分布:累积概率记作返回本章返回总目录\n(2)连续型随机变量及其概率分布当一个随机变量可能取值的集合为无穷不可数集合时,该随机变量就是连续型随机变量。每当一个概率问题包含的可能结果可以是任意实数时,它就要采用连续型随机变量。这样的问题是极为普遍的,例如,人的身高、等候公车的时间、距离、体积等都是连续型随机变量。概率密度函数是指用来代表连续型随机变量的概率分布的一种公式或运算。返回本章返回总目录\n连续型随机变量X的概率分布图如果函数的曲线与X轴所围成的面积等于1,则称为连续型随机变量X的概率分布(或称概率密度函数);而的曲线与X轴以及由X轴上任意两点a和b引出的两条垂线所围的面积,给出X处在a和b之间的概率。返回本章返回总目录\n4.随机变量的均值和方差(1)随机变量的数学期望值反映随机变量集中趋势的最常见的指标是期望值。离散型随机变量的期望值可以看作为随机变量的可能取值与其相应的概率作为权数的一个加权平均数。定义如下:返回本章返回总目录\n连续型随机变量的期望值:如果它的概率密度函数是,那么它的数学期望是与实数x的乘积在无穷区间上的积分,即:期望值在计算上的一些基本性质:常数的期望值是常数自身返回本章返回总目录\n(2)随机变量的方差反映随机变量离散趋势的最常见的指标是方差若X是某一概率分布为、期望值为的随机变量,其方差被定义为:返回本章返回总目录\n5.切贝谢夫不等式切贝谢夫不等式的基本思想可以表述为:返回本章返回总目录\n三种常用的离散型随机变量的概率分布1.二项分布产生二项分布的过程称为贝努里试验。每一次试验只有两个结果的重复试验称为贝努里试验。贝努里试验的特点:(1)每次试验只有两种可能结果:成功或失败、是或否…(2)不管进行多少次,任何一次试验结果的概率是固定的(3)试验是相互独立的返回本章返回总目录\n二项分布的概率分布表达式:随机变量X服从参数n和p的二项分布,记为:,其期望值等于,其方差等于。返回本章返回总目录\n从理论上讲,二项分布只能用于当样本取自无限总体的情形,然而,在工商管理的实际应用中,样本往往来自有限总体。因此,在实践中,如果当n相对于总体容量N很小时,那么二项模型就被认为是合理的,即把p值作为常数这一要求不会受到严重影响,经验的做法是,只要N至少是n的10倍,就可以认为n相对N是很小了。根据二项分布公式,不仅可以知道随机变量整个概率分布的全貌,而且还可以推算出变量取值在某一区间内的概率:事件A至多出现m次的概率为:返回本章返回总目录\n事件A至少出现m次的概率为:事件A出现次数不少于a,不大于b的概率为:当样本容量很大时,用二项分布的公式计算就显得十分冗长,因此,已针对不同的n,p和x值的概率编成了数值表,通过查表就可以得到所需的结果。返回本章返回总目录\n2.泊松分布泊松分布是一种描述离散型随机变量的概率分布。若代表离散型随机变量,值可以取,用小写的表示变量可能取的某个具体值,则事件恰好发生次的泊松分布公式为:式中:——是的期望和方差——是自然对数的底,约等于2.71828——是的阶乘返回本章返回总目录\n=2=3=5=10=15泊松分布图一般是正偏斜的,值越小,偏斜度越大,随着的值的增大,偏斜度逐渐缩小。如左图所示。返回本章返回总目录\n当二项试验中样本容量很大而成功的概率很小时,那么,二项概率一般可以采用泊松分布所产生的相应概率来逼近。为了逼近二项概率分布,可以令。当很大而又很小(为最佳)时,泊松分布就成了二项概率的良好近似方法。当要研究在指定时间或空间区间内随机现象发生的问题时,比如说,单位时间、单位长度或单位面积上观察到的次品数,或在某一固定时间区间内到达某加油站的顾客数,以及某企业每月发生的工伤事故次数等等,就产生了泊松分布的重要应用。泊松分布可以用于解决指定时间或空间区间内随机现象发生的问题。返回本章返回总目录\n3.超几何分布二项分布主要用于计算有限总体重复抽样的概率,而如果在有限总体中进行不重复抽样,就会破坏有关贝努里试验独立性的条件。而超几何分布就是研究不重复抽样的适当的模型。若随机变量具有下述概率密度函数,则称为服从超几何分布返回本章返回总目录\n超几何分布的数学期望和方差分别为:超几何分布与二项分布的区别:在于抽取样本的方式不同。当时,超几何分布中修正系数趋近于1,这时超几何分布趋近于二项分布,因此,当很小时,二项分布的概率可以作为超几何分布概率的近似值。将超几何分布推广到将总体分成两类以上的情况:返回本章返回总目录\n正态分布1.正态分布在统计学中的地位正态分布是统计和抽样的基础,在统计中具有极其重要的理论意义和实践意义,主要表现在:(1)客观世界中有许多随机现象都服从或近似服从正态分布;(2)正态分布具有很好的数学性质,根据中心极限定理,很多分布的极限是正态分布,在抽样时有些总体虽然不知道其确定的分布,但随着样本容量的增大,很多统计量可以看作近似正态分布;(3)尽管经济管理活动中的有些变量是正偏斜的,但并不影响正态分布在抽样应用中的地位。返回本章返回总目录\n2.正态分布的密度函数及其数学性质正态随机变量的密度函数为:式中:正态随机变量的分布函数为:返回本章返回总目录\n从左图中可以看出正态密度曲线具有如下的特征:(1)服从正态分布的随机变量,取值区域是整个x轴,曲线无论向左或向右延伸均以x轴为渐进线。(2)密度曲线都在x轴的上方,它和x轴所围成的区域,其总面积为1。(3)在处,曲线达到最高点。曲线的形状呈钟形,“中间大,两头低”。返回本章返回总目录\n(4)曲线以为对称轴,在距离对称轴两边相同距离处,各有一个曲线上升和下降的转折点,即拐点。参数称为均值,称为标准差,称为方差。(5)均值是正态分布密度曲线的位置参数,的数值不同,曲线最高点的横坐标则不同。如果,则密度曲线的对称轴就与y轴重合。越大,曲线“矮而胖”,随机变量在均值附近出现的密度越小;越小,曲线“高而瘦”,随机变量在均值附近出现的概率越大。返回本章返回总目录\n3.标准正态分布、正态分布表及其应用的正态分布称为标准正态分布概率密度函数为分布函数为利用正态分布表,可简捷求出标准正态分布函数的数值,也可通过随机变量的标准化变换,求得任何正态分布的分布函数值。返回本章返回总目录\n若,可作变换则且返回本章返回总目录\n第7章抽样和抽样分布返回总目录\n基本概念抽样是从研究的对象中随机地抽出其中一部分来观察,由此而获得有关总体的信息抽样的特点1.遵守随机原则,即在抽样时每个单位有同等被抽中的机会2.推断被调查现象的总体特征3.计算推断的准确性和可靠性抽样在工商管理领域有及其广泛的应用返回本章返回总目录\n总体与样本名称样本总体定义从总体中抽出的部分单位研究对象的全部单位特征统计量参数符号样本容量样本平均数样本比率样本方差样本标准差总体容量总体平均数总体比率总体方差总体标准差返回本章返回总目录\n随机抽样与判断抽样随机抽样:是按随机原则,即按概率规律抽取样本,在总体中所有单位单位被抽中的机会是均等的。被抽中的样本单位数不带任何个人或集体的主观意见。被选的概率可以事先确定。判断抽样:是一种非随机抽样,是根据个人或集体的设想或经验,从总体中有目的地抽取样本。其抽样结果不能用概率方法来加以分析。随机原则:机会均等原则(抽样时避免主观倾向,以保证样本的代表性)返回本章返回总目录\n非抽样误差和抽样误差非抽样误差登记性误差偏差抽样误差总体内部差异度样本容量抽样方法抽样调查中的误差抽样误差是进行抽样调查所固有的误差,是具有随机性质的误差。但是,一般说来,抽样误差受到大数定律的支配,可以运用概率统计的理论和方法把误差控制到最小的限度,从而对总体参数作出科学的推断或估计。返回本章返回总目录\n1.纯随机抽样(简单随机抽样)对总体不做任何分类或排序,完全按随机原则抽样。适用范围:总体规模不大,内部差异较小。例:一个班组有A、B、C、D、E5个工人,随机抽取2个工人的日工资数作为了解整个班组平均工资水平的样本。可能的结果是有放回抽样:25个样本不放回抽样:20个样本随机抽样设计样本号ABCDEABCDE返回本章返回总目录\n2.等距抽样(机械抽样或系统抽样)将总体按某一标志值顺序排列,然后相等距离或相等间隔抽取样本单位。间隔距离:N:总体单位数n:需要抽取的样本单位数例:从某企业5000名职工中抽取100人进行家庭收入水平调查。样本的距离=起点的选择:按姓氏排序,在第一个间隔中随机选取。排序标志无关标志有关标志返回本章返回总目录\n优点:1.能保证被抽取的单位在总体中均匀分布2.能使抽样过程简化应用中的注意事项:注意抽样间隔或样本距离和现象本身的节奏性和循环周期相重合的问题返回本章返回总目录\n3.类型抽样(分类抽样或分层抽样)先将总体中的所有单位按某个标志分组,然后从各组按纯随机抽样或等距抽样方式抽样。采用这种方法,由于各单位之间的差异因划类或分层而缩小,这就比较容易选出有代表性的样本适用范围:总体情况复杂,各类型或层次之间的差异较大而总体容量又较大。优点:比简单纯随机抽样更精确,能以较少的抽样单位数得到较准确的推断结果。特别是当总体各单位变量值大小悬殊、各组标志变动程度很大时,划分类型能保证各组都有选中的机会。返回本章返回总目录\n类型抽样分类类型比例抽样:按统一的比例来确定各类型组应抽选的样本单位数,即各类型中抽取的样本单位数占各类型组所有单位数的比例是相等的,等同于样本单位总数n占总体单位数N的比例类型适宜抽样:考虑各类型标志变动程度不同,变动程度大的组要多抽样,变动程度小的类型组可少抽样,使得各类型组的变动程度在所有类型变动程度之和中的比例相同,等同于或返回本章返回总目录\n例:某项粮食播种面积20000亩,其中有平原和山区两种地形。以类型抽样的方法了解平均粮食产量。地形全部面积(Ni)样本面积(ni)平原山区140006000合计20000总体N比例抽样适宜抽样N1N2N3n1n2n3类型抽样确定各组样本的方法:返回本章返回总目录\n4.整群抽样将总体按某个标志分为多个群,按纯随机抽样方式或等距抽样方式,抽取若干群,然后对所抽中的各群中的全部单位一一进行调查。适宜范围:不适合单个抽样的场合,就可采用整群抽样方式。优缺点:调查方便,但抽样误差较大。例:从某县100个村中抽出10个村,进行全面调查,就可以大致了解农村家庭副业发展情况。总群数R=13CDGK样本数r=4样本容量n=nc+nd+ng+nkADCFGHIJKLMBE返回本章返回总目录\n5.多阶段抽样总体包含的单位很多,分布很广,要通过一次抽样抽选样本很困难,此时,可以将其分成若干阶段,然后逐阶段进行抽样,以完成整个抽样过程。特点:多个阶段、多种方法综合抽样,优点是降低抽样成本。例:对某山区的林采蓄积量作抽样调查。将总体50块面积相等的地划为10个区,每个区包括5个地块。采用两阶段抽样,先从10个区选中30%,再从选中的区域中抽取60%的地块组成样本进行调查。返回本章返回总目录\n重复抽样:已经抽取出来的单位仍放回原来的一般总体中,总体单位数始终不变,各个单位被抽中的机会也先后相等不重复抽样:已经抽取出来的单位不再放回去,而从剩下的总体中抽选,抽样总体逐次减少,总体中的每个单位只能被抽中一次,不会被重复抽取出来抽样技术重复抽样和非重复抽样返回本章返回总目录\n抽样分布样本统计量的概率分布(理论分布)返回本章返回总目录构造抽样分布的步骤:①②③样本统计量全部可能的数值对应的频数分布,即抽样分布。\n样本平均数的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差返回本章返回总目录\n现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)返回本章返回总目录\n计算出各样本的均值,如下表。并给出样本均值的抽样分布。3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5返回本章返回总目录\n样本均值的分布与总体分布的比较(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x返回本章返回总目录\n样本平均数的抽样分布数字特征抽样分布数学期望方差1当总体服从正态分布时,从该总体中取样所得到的样本均值仍然服从正态分布。2从非正态总中抽取的样本,只要容量足够大,根据中心极限定理可知,样本均值的分布也趋向正态分布。一般认为样本容量足够大的标准为:n大于等于30返回本章返回总目录\n两个样本均值之差的抽样分布两个正态总体两个非正态总体返回本章返回总目录则为则为样\n样本比率的抽样分布当样本容量n足够大并且np和n(1-p)都大于5时,根据中心极限定理可知,样本比率的抽样分布近似服从正态分布,其特征值为:两个样本比率之差的抽样分布(大样本)从两个总体中分别抽取容量为n1和n2的2个独立随机样本,当样本容量足够大时两个样本比率之差的抽样分布就近似正态分布,其特征值为:返回本章返回总目录则记\n样本比率的抽样分布实例假定已知办公室人员所填写的表格中有5%至少包含一处笔误,如果检查一个由475份表格组成的简单随机样本,其中至少含一处笔误的表格所占的比例在3%到7.5%之间的概率有多大?由于n较大,p较小,np>5,因此可利用正态近似处理,即认为样本比率的抽样分布近似服从均值和方差的正态分布。将值变换为服从正态分布的z值,即将例题中的数据代入上述公式,得:于是所求得概率为:返回本章返回总目录\n两个样本比率之差的抽样分布实例某公司市场研究人员的调查报告表明,在A市场有15%的人喜欢该公司生产的某种牌号的牙膏,而在B市场则有9%的人喜欢该产品。如果从A、B两个市场中各抽取由120人组成的独立随机样本,问样本比率之差的数值大于或等于0.14的概率有多大?此例中没有说明总体服从何种分布,但因其样本容量足够大,n1和n2都为120,因此根据中心极限定理,可认为近似服从正态分布于是所求的概率为:计算结果表明值大于或等于0.14的概率为2.74%。返回本章返回总目录\nt分布、分布和F分布t分布t分布是小样本分布,小样本指n<30。t分布适用于当总体标准差未知时用样本标准差代替总体标准差,由样本平均数推断总体平均数以及两个小样本之间差异的显著性检验等。t分布的性质:1.t分布是对称分布,均值为0。2.样本容量大于或等于30时,t分布接近于标准正态分布,这是可用标准正态分布来代替t分布。3.t分布是一个分布族,不同的样本容量对应不同的t分布。4.与标准正态分布相比,t分布的中心部分较低,两个尾部较高。5.变量t的取值范围在与之间。返回本章返回总目录\nt分布的图形(红色的曲线是标准正态分布)n=1n=15n=2不同的样本容量对应不同的自由度,因此对应的t分布也不同。自由度概念可以自由选择的数值的个数。返回本章返回总目录\nt分布表的使用:t/2(n-1)-t/2(n-1)••/2/2t(n-1)-t(n-1)••返回本章返回总目录\n分布分布是一种抽样分布,自由度为n。适用于对拟合优度检验和独立性检验,以及对总体方差的估计和检验等。分布的性质:1.分布是一个以自由度n为参数的分布族,不同的n对应不同的分布。2.分布是一种非对称分布,为正偏分布。自由度n达到相当大时,分布接近于正态分布。3.分布的变量值始终为正。返回本章返回总目录\nn=2n=3n=5n=10n=15分布图返回本章返回总目录\n分布表的使用:•••返回本章返回总目录\nF分布F分布定义为两个独立的分布被各自的自由度除以后的比率,这一统计量的分布,可用于方差分析、协方差分析和回归分析等。F分布的性质:1.F分布是非对称分布。2.F分布有两个自由度,相应的分布为F(n1-1,n2-1)。3.返回本章返回总目录\nF分布图F(10,15)F(10,10)F(10,4)返回本章返回总目录\nF分布表的使用:••F(n,m)返回本章返回总目录\n第8章参数估计返回本目录\n估计值:就是样本估计量的具体观察值例如100个女生的平均身高是1.62米,这个1.62米就是一个估计值。常用的估计量参数估计概述1.点估计和区间估计样本平均数是总体平均数的估计量样本方差(或样本标准差)是总体方差(或样本标准差)的估计量样本比率为总体比率的估计量,其中为样本中具有规定特征的单位数返回本章返回本目录\n就是根据样本数据计算的一个估计值特点:能够明确地估计总体参数,但一般该值不会等于总体参数的真值。一般的,在点估计中,我们用某个统计量作为总体参数的估计值。对于点估计量来说,其优良与否的判别标准:无偏性、一致性、有效性点估计返回本章返回本目录\n是通过样本来估计总体参数可能位于的区间例如,我们说某批产品的平均使用寿命为1000个小时,这是对该产品平均寿命的点估计值;如果我们说该产品的平均使用寿命在800小时~1200小时之间,这就是它的区间估计值。区间估计点估计是根据样本数据计算的一个估计值。点估计的优点在于它能够明确的估计总体参数,但它与真值的误差,估计可靠性如何无法知道,区间估计能弥补这种不足。返回本章返回本目录\n置信概率(置信水平/置信系数)置信区间返回本章返回本目录\n无偏性:样本的统计量的期望值等于该统计量所估计的总体参数,无偏性就是没有系统的偏差,是从平均意义上讲的,即如果这种估计方法重复进行,则从估计量所获得得平均数等于总体参数。一致性:当样本容量n增大时,如果估计量越来越接近总体参数的真值,则称这个估计量为一致估计量。当样本容量n增大时,估计量的一致性会增强。有效性:指估计量的离散程度,如果两个估计量都是无偏的,其中方差较小的就可认为相对来说更有效。2.估计量的优良标准返回本章返回本目录\n的数学期望等于总体参数,即该估计量称为无偏估计。无偏性有效性当为的无偏估计时,方差越小,无偏估计越有效。一致性对于无限总体,如果对任意则称的一致估计。是估计量点估计评价准则返回本章返回本目录\n上述的三个标准并不是孤立的,而应该联系起来看,如果一个估计量满足这三个标准,这个估计量就是一个好的估计量。用样本平均数来估计总体平均数和用样本比率来估计总体比率时,它们都是无偏、一致和有效的。返回本章返回本目录\n总体平均数的区间估计1.样本取自总体方差已知的正态分布如果总体服从正态分布,且已知时,总体平均数的置信区间为:总体平均数区间估计的步骤:(1)确定置信水平,即可靠性或把握程度。一般来说对于估计要求比较精确的话,置信程度也要求高些,在社会经济现象中通常用95%就可以了(2)根据置信度并利用标准正态分布表确定z值返回本章返回本目录\n(3)抽取一个容量为n的样本(4)算出样本平均数和标准差。在重复抽样时,样本平均数的标准差为:,有限总体不重复抽样时,(5)构造置信区间2.样本取自总体方差已知的非正态分布返回本章返回本目录\n3.总体方差未知且小样本时的总体平均数的置信区间注意:小样本估计的理论依据时总体应视为正态分布返回本章返回本目录\n4.未知且大样本时总体平均数的区间估计返回本章返回本目录\n两个总体平均数之差的区间估计1.两个正态总体且方差已知已知的两个正态总体的置信区间为返回本章返回本目录\n2.两个总体服从正态分布,它们的方差未知但相等3.两个总体均服从正态分布,它们的方差未知且不等返回本章返回本目录\n4.两个总体均不服从正态分布且方差未知返回本章返回本目录\n总体均值的区间估计列表待估计参数已知条件置信区间正态总体,σ2已知,小样本总体均值μ两个正态总体,已知两个正态总体,未知但相等两个非正态总体,两个总体均值之差μ1-μ2非正态总体,σ2已知,大样本正态总体,σ2未知,小样本非正态总体,σ2未知,大样本两个正态总体,未知且不等未知有限总体不重复抽样且抽样比例n/N>0.05时,考虑有限总体校正系数:返回本章返回本目录\n总体比率和两个总体比率之差的区间估计1.总体比率的区间估计返回本章返回本目录\n返回本章返回本目录\n2.两个总体比率之差的区间估计两个总体比率之差的区间估计返回本章返回本目录\n总体比率的区间估计列表待估计参数已知条件置信区间总体比率p两个总体比率之差p1-p2np和nq都大于5,并且n相对N很小对有限总体,np和nq都大于5,且n/N>0.05两个总体样本都是大样本返回本章返回本目录\n样本容量的确定决定样本大小的因素:(1)总体方差值大小的影响。总体方差大,抽样误差大,则应多抽一些样本容量,反之可以少抽一些。可以做试验性调查或根据历史资料来估计总体方差。(2)可靠性程度的高低。要求的可靠性越高,所需的样本容量越大,即为获得所需精度而指定的概率越大,所需的样本容量就越大。(3)允许误差的大小。若允许误差可以大一些,则样本容量可以少一些,反之,样本容量要求多一些。返回本章返回本目录\n1.估计总体平均数时样本容量的确定返回本章返回本目录\n2.估计总体比率时样本容量的确定重复抽样条件下不重复抽样时返回本章返回本目录\n(1)用以往的资料估计(3)当对某一总体比率有很大把握时,可用它作为的估计值返回本章返回本目录\n正态总体方差和两个正态总体方差比的区间估计正态总体方差的区间估计两个正态总体方差比的区间估计返回本章返回本目录\n第9章假设检验返回总目录\n1.假设检验就是对总体参数所作的一个假设开始,然后搜集样本数据,计算出样本统计量,进而运用这些数据测定假设的总体参数在多大程度上是可靠的,并作出承认还是拒绝该假设的判断原假设H0(Nullhypothesis)备择假设H1(Alternativehypothesis)返回本章返回总目录\n原假设H0是关于总体参数的表述,它是接受检验的假设备择假设H1是当原假设被否定时另一种可成立的假设原假设和备择假设是相互对立的,在任何情况下只能有一个成立。如果接受H0就必须拒绝H1;拒绝H0就必须接受H1就对总体平均数的假设而言有三种情况:(2)H0:;H1:(1)H0:返回本章返回总目录;H1:;H1:(3)H0:\n2.第I类错误、第II类错误对假设H0采取的行动自然状态H0为真H0为伪接受H0决断正确第II类错误拒绝H0第I类错误决断正确返回本章返回总目录\n返回本章返回总目录\n3.双侧检验和单侧检验对总体平均数的假设检验可分两类,即双侧检验和单侧检验。双侧检验返回本章返回总目录\n双侧检验的接受区域和拒绝区域返回本章返回总目录\n单侧检验单侧检验分为左侧检验和右侧检验两种,它们都只有一个拒绝域左侧检验返回本章返回总目录\n右侧检验返回本章返回总目录\n(1)根据研究问题的需要提出假设,包括原假设和备择假设。(2)找出检验的统计量及其分布。(3)规定显著性水平,即选择所允许犯第Ⅰ类错误的概率。(4)确定决策规则。(5)根据样本数据计算统计量的数值并由此作出决策。4.假设检验的一般程序返回本章返回总目录\n检验步骤建立总体假设H0,H1抽样得到样本观察值12选择统计量确定H0为真时的抽样分布3根据具体决策要求确定α确定临界点C和检验规则计算检验统计量的数值比较并作出检验判断7456返回本章返回总目录\n总体平均数的假设检验条件检验统计量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0z(2)H0:μ≤μ0H1:μ>μ0(3)H0:μ≥μ0H1:μ<μ0z0z正态总体σ2已知00返回本章返回总目录\nt拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0(2)H0:μ≤μ0H1:μ>μ0(3)H0:μ≥μ0H1:μ<μ0t0正态总体σ2未知(n<30)条件检验统计量00t返回本章返回总目录\n条件检验统计量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0(2)H0:μ≤μ0H1:μ>μ0(3)H0:μ≥μ0H1:μ<μ0z00非正态总体n≥30σ2已知或未知z0z返回本章返回总目录\n条件检验统计量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2z(2)H0:μ1≤μ2H1:μ1>μ2(3)H0:μ1≥μ2H1:μ1<μ2z0z00两个正态总体已知两个总体平均数之差的假设检验1.两个正态总体且方差已知检验统计量为:,服从标准正态分布。返回本章返回总目录\n条件检验统计量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2t(2)H0:μ≤μ2H1:μ>μ2(3)H0:μ1≥μ2H1:μ1<μ2tt00两个正态总体未知,但相等0返回本章返回总目录\n条件检验统计量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2(2)H0:μ1≤μ2H1:μ1>μ2(3)H0:μ1≥μ2H1:μ1<μ2z00两个非正态体n1≥30n2≥30已知或未知0zz返回本章返回总目录\n条件检验统计量H0、H1(1)H0:p=p0H1:p≠p0(2)H0:p≤p0H1:p>p0(3)H0:p≥p0H1:p<p0z0z00np>5nq>5拒绝域z1.单个总体比率的检验检验统计量为:,服从标准正态分布。总体比率之差的假设检验返回本章返回总目录\n条件检验统计量拒绝域H0、H1(1)H0:p1=p2H1:p1≠p2z(2)H0:p1≤p2H1:p1>p2(3)H0:p1≥p2H1:p1<p2z0z00n1p1≥5n1q1≥5n2p2≥5n2q2≥5返回本章返回总目录2.两个总体比率之差的检验()检验两个总体比率是否相等的假设,检验统计量为:其中。\n总体方差的假设检验条件检验统计量拒绝域H0、H1(1)(2)(3)正态总体返回本章返回总目录\n条件检验统计量拒绝域H0、H1(1)(2)(3)正态总体返回本章返回总目录\n第10章非参数统计返回总目录\n第8、9章讨论的参数估计和假设检验,是以总体分布已知或对分布作出某种假定为前提的,可以称为参数统计。非参数统计就是对总体分布的具体形式不必做任何限制性假定和不以总体参数具体数值估计为目的的推断统计。这种统计主要用于对某种判断或假设进行检验,所以亦称为非参数检验。非参数统计的概念和特点1.非参数统计的概念返回本章返回总目录\n(1)非参数统计方法既能适用于定名测定资料或定序测定资料,也能适用于定距测定和定比测定资料。2.非参数统计的特点(2)非参数统计方法是一种经济而有效的方法。容易理解,计算简便。(3)非参数统计方法不需要总体服从正态分布的假定,也不需要检验总体的参数,因此,结论也更具有普遍性。返回本章返回总目录\n检验1.检验的概念式中为自由度。返回本章返回总目录\n检验在非参数统计中有广泛的用途,因为:(1)有很多非参数的假设检验问题都可以转化为检验观察次数与其期望次数之间的紧密程度问题,这里的检验统计量并不依赖于总体的分布形式,而是作为检验总体分布是否为某种特定的概率分布的一种方法;(2)用这种方法搜集的资料,可以是间距测定资料,也可是定名测定资料。检验主要用于拟合优度检验和独立性检验。返回本章返回总目录\n2.拟合优度检验拟合优度检验是利用样本信息对总体分布作出推断,检验总体是否服从理论分布。其方法是把样本分成个互斥的类,然后根据要检验的理论分布算出每一类的理论频数,与实际的观察频数进行比较。拟合优度检验的步骤为:(1)确定原假设与备择假设,原假设表示总体服从设定的分布;备择假设表示总体不服从设定的分布。同时,确定显著性水平。(2)从要研究的总体中,随机抽取一个观察值样本。返回本章返回总目录\n(3)按照“原假设为真”这一假定,导出一组期望频数或者理论频数。通常这就是假定某概率分布适合于所研究的总体。(4)对观察频数与理论频数进行比较,如果它们的差异很大,以致在确定的显著水平下不能把它归之于随机波动,就拒绝原假设。返回本章返回总目录\n3.独立性检验检验也常用于判断两组或多组资料是否彼此关联的问题。若各组资料彼此不关联,就称为独立,所以这类问题也称为独立性检验。独立性检验的特点在于其理论频数不是预先设定的,而需要从样本资料中获得。的公式可写为:的自由度为:返回本章返回总目录\n成对比较检验1.符号检验符号检验是用差异的正负号而忽略具体量的差异来进行判断的一种检验方法,也称正负号检验,适用于对无法用数字计量的情况进行比较。如果从样本得到的正号同负号的数目相差较大,则有理由拒绝原假设。符号检验的优点在于:(1)两个样本可以是相关的,也可以是独立的;(2)对于分布的形状、方差均一性等等都不做限定;(3)只考虑差数的正负方向而不计具体数值。返回本章返回总目录\n符号检验的缺点在于:忽略数值差别,失去了可资利用的信息。符号检验的步骤为:返回本章返回总目录\n2.威尔科克森带符号的等级检验威尔科克森带符号的等级检验不但考虑了正负号,还采用了其差别大小的信息。威尔科克森带符号等级检验的步骤为:返回本章返回总目录\n返回本章返回总目录\n曼—惠特尼U检验1.曼—惠特尼U检验的基本原理曼—惠特尼U检验的思路与威尔科克森带符号等级检验基本一致。这种方法称为等级和检验,可用于检验两个独立样本是否来自相同均值的总体,或用于检验两个总体的相对次数分布是否相同。这种方法的特点是用顺序数据,而不是用正负号,因此它比符号检验对数据的运用更为充分。返回本章返回总目录\n曼—惠特尼U检验的步骤为:返回本章返回总目录\n游程检验1.游程和游程检验的概念游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。它既可用于检验样本的随机性,又可用于检验两个样本是否具有相同的分布。返回本章返回总目录\n2.游程检验的基本原理和方法游程检验可分为两种情况:一是如果两个样本来自两个不同的总体,可采用混合有序样本的方法,根据实际游程的个数,检验这两个样本总体分布是否相同;二是如果样本观察值来自同一总体,可以先将观察值按从小到大顺序排列,然后按中位数将观察值分为大于或小于中位数的两部分,再根据上、下两部分相互交错形成的游程个数检验样本的随机性。返回本章返回总目录\n等级相关检验1.等级相关检验的基本原理返回本章返回总目录\n等级相关系数的计算公式这一公式称为斯皮尔曼等级相关系数。等级相关系数与相关系数一样,取值-1到+1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。返回本章返回总目录\n2.等级相关检验的应用斯皮尔曼等级相关系数可用于以下假设检验:返回本章返回总目录\n多个样本的检验1.克鲁斯卡尔—沃利斯单向方差秩检验克鲁斯卡尔—沃利斯(Kruskal-Wallis)单向方差秩检验是检验k个独立样本是否来自同分布总体的最常用的非参数假设检验方法。该方法只要求样本是独立的,而不受总体分布的性质和方差是否相等的限制。k=2时,该方法就是曼—惠特尼U检验方法。返回本章返回总目录\n克鲁斯卡尔—沃利斯单向方差秩检验步骤建立假设H0:k个总体无显著差异H1:k个总体有显著差异确定检验统计量作出检验判断1.将所有样本观察值排序求秩,最小观察值秩为1,最大观察值秩为n(),如果观察值相同,则用观察值的平均秩代替;2.第i个样本观察值的秩求和,记为Ri;3.计算检验统计量(若有相同观察值,需要对H修正)在ni>5的情况下,H近似服从自由度为k-1的分布。若,则接受H0;若,则拒绝H0.(2)在ni5,且k=3的情况下,根据数值直接查表得到概率P,P,则拒绝H0;P,则拒绝H0。返回本章返回总目录\n2.费利德曼双向方差分析费利德曼双向方差分析,是检验k个相关样本是否来自同分布总体的非参数假设检验方法。这种方法要求观察值至少是定序变量。该方法将全部数据列成一个双向表,行对应各个样本,列对应各种处理。目的是检验各个样本是否来自同分布总体,即各种处理方法的效果是否相同。返回本章返回总目录\n费利德曼双向方差分析方法双向表形式处理方法样本12k12nX11X21Xi1Xn1R1X12X22Xi2Xn2R2X1jX2jXijXnjRjX1kX2kXikXnkRk返回本章返回总目录\n费利德曼检验步骤建立假设H0:k种处理方法的效果无显著差异H1:k种处理方法的效果有显著差异确定检验统计量作出检验判断1.对每一个样本下的k个观察值排序求秩;2.每种处理方法下n个样本观察值的秩求和,记为Rj;3.计算检验统计量在n,k不是特别小的情况下,近似服从自由度为k-1的分布。若,则接受H0;若,则拒绝H0.(2)在n,k特别小的情况下,根据数值直接查表,根据该表做出判断。返回本章返回总目录\n第11章相关分析与回归分析返回总目录\n相关分析1.相关关系的概念及分类(1)相关关系的概念变量之间的依存关系可以分为函数关系和相关关系两种。函数关系是指变量之间保持着严格的依存关系,呈现一一对应的特征。而相关关系是指变量之间保持着不确定的依存关系。返回本章返回总目录\n(2)相关关系的分类变量间的相关关系可以按照不同的标志进行分类:①按相关的程度可分为完全相关、不完全相关和不相关三种当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为完全相关;当变量之间存在不严格的依存关系时,称为不完全相关;当两个变量的变化相互独立、互不影响时,称两个变量不相关(或零相关);②按相关的方向可分为正相关和负相关当一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变化时,称为正相关;当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化,称为负相关。返回本章返回总目录\n③按相关的形式可分为线性相关和非线性相关两种当变量间的依存关系大致呈现线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动,就称之为线性相关;当变量间的关系不按固定比例变化时,就称之为非线性相关。④按研究变量的多少可分为单相关、偏向关和复相关三种两个变量之间的相关,称为单相关;一个变量与两个或两个以上其他变量之间的相关,称为复相关;在多个变量的相关研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时就称其为偏相关。并非所有的变量之间都存在相关关系,因此需要用相关分析方法来识别和判断。相关分析,就是借助于图形和若干分析指标(如相关关系、相关指数等)对变量之间的依存关系的密切度进行测定的过程。返回本章返回总目录\n2.相关关系的识别(1)散点图识别变量间相关关系最简单的方法就是图形法。图形法就是将所研究变量的观测值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。(2)相关系数单相关系数(简称相关系数),是衡量两个变量之间线性相关关系的重要指标返回本章返回总目录\n相关系数的计算公式:总体相关系数(一般记为):式中:——是变量X和Y的协方差——是变量X的标准差——是变量Y的标准差样本相关系数的计算公式:样本相关系数是根据样本观测值计算的,随着取样的不同,相关系数的值也会有所变化。可以证明,样本相关系数是总体相关系数的一致估计量。返回本章返回总目录\n相关系数的特点:①相关系数的符号代表着变量间的相关方向,r>0说明两个变量之间正相关,r<0则表明两个变量之间负相关。②相关关系的取值介于-1和1之间,它的绝对值越接近于1,意味着变量之间的线性相关程度越强。r=1或r=-1时,说明两个变量之间完全线性相关,r=0,说明两个变量之间不存在线性相关,r的绝对值介于0和1之间时,则说明两个变量之间存在一定程度的线性相关。返回本章返回总目录\n相关系数的检验:提出假设:计算t检验统计量:返回本章返回总目录\n一元线性回归分析1.回归分析概述(1)回归分析的概念在相关分析确定了变量之间相关关系的基础上,采用一定的计算方法,建立起变量间变动关系的公式,并根据一个变量的变化来估计或预测另一个变量发展变化的研究方法,就是回归分析。返回本章返回总目录\n回归分析和相关关系之间的区别与联系:回归分析和相关分析都是对变量之间不严格依存关系的分析,在理论基础和方法上具有一致性。只有存在相关关系的变量才能进行回归分析,相关程度越高,回归分析结果越可靠。但是两者之间也存在差别:第一,相关分析研究的是变量之间的依存关系,这些变量地位对等,不区分为主从因素或因果关系。回归分析却是在控制或给定一个(或多个)变量条件下来观察对应的某一变量的变化,给定的变量为自变量,不是随机变量,被观察的变量称为因变量,是随机变量,因此回归分析中必须根据研究的目的来确定自变量和因变量。返回本章返回总目录\n(2)回归分析的种类按研究中使用的自变量的多少可分为一元回归和多元回归;按变量之间变动关系的形式分为线性回归和非线性回归,等等。其中,一元线性回归是最简单、最基本的形式。第二,相关关系主要测定的是变量之间关系的密切程度。回归分析则着重于变量之间的具体变动关系,通过建立回归模型,控制或给定自变量对因变量及进行估计和预测。返回本章返回总目录\n2.一元线性回归模型的建立(1)一元线性回归模型当两个变量之间存在显著的线性相关关系时,可以建立一元线性回归模型来表述这种关系。总体一元线性回归模型为:式中:——代表因变量的第i个观测值——代表自变量的第i个观测值——是模型的参数(又称回归系数),分别为回归直线的截距和斜率——是随机误差项(或称随机扰动项)返回本章返回总目录\n(2)参数估计现实问题的研究中往往难以掌握研究对象的全部资料,从而在回归分析中速要通过样本资料来估计总体模型的参数。根据样本数据建立的回归模型称为样本回归模型,一般表述为:其中是的估计值(或称理论值),分别是的估计值,代表样本回归直线的截距和斜率。返回本章返回总目录\n线性回归模型参数的估计方法通常有两种:普通最小二乘法和最大似然估计法。最常用的是普通最小二乘法。最小二乘法的意义在于使达到最小。得到的的两个公式为:返回本章返回总目录\n3.一元线性回归模型的检验在回归模型估计出来以后,首先要对其进行一系列的检验,只有通过了检验的模型才能用于对总体变量的估计或预测。(1)拟合优度的检验可决系数:因变量的样本观测值与其均值的离差称为总离差,记为。按其来源,总离差可以分解为两个部分:一是因变量的回归值与其样本均值之间的离差,记为,它代表能够由回归方程所解释的部分,称为回归离差;二是样本观测值与回归值之间的离差,记为,它表示的是不能由回归方程解释的部分,称为剩余离差(残差)。返回本章返回总目录\n可决系数是衡量自变量对因变量变动的解释程度的指标,它取决于回归方程所解释的y的总离差的百分比。可决系数的公式定义为:的取值介于0和1之间。在实践中,常用与模型的比较,往往采用最高的模型,因为高,就意味着该模型把y的变动解释得好。返回本章返回总目录\n估计标准误差(SE)估计标准误差是回归模型(即估计值)与因变量观测值之间得平均平方误差。这个误差的值越小,说明估计值越接近真实值,回归模型的拟合度越好。估计标准误差的计算公式为:作为回归模型拟合优度的评价指标,估计标准误差显然不如可决系数。因为可决系数是无量纲的系数,并且有确定的取值范围(0~1),便于对不同资料回归模型拟合优度的比较。返回本章返回总目录\n(2)显著性检验通常回归模型的显著性检验包括系数的检验和方程整体的检验两个部分。回归系数的显著性检验是指根据样本计算结果对总体回归系数有关假设所进行的检验,它的主要目的是了解总体自变量与因变量之间是否真正存在样本回归模型所表述的相关关系。的检验方法是相同的,以为例来说明回归系数显著性检验的基本内容。回归系数的检验返回本章返回总目录\n提出假设(双侧检验):计算检验统计量:回归系数的检验统计量为:其中,确定临界值:设定显著水平之后,就可以确定显著性检验的相应临界值。得出检验结论:如果,就否定原假设,表明总体回归系数是不为零的;反之,就不能否定原假设。返回本章返回总目录\n方程整体的检验——F检验除了逐个检验回归系数的显著性以外,还要检验回归模型整体的显著性。其基本步骤如下:提出假设(双侧检验):计算检验统计量:其中,F服从F(1,n-2)分布确定临界值:根据显著性水平和自由度就可以确定临界值F。得出检验结论:如果,就否定原假设,表明回归模型是显著的;反之,就不能否定原假设。返回本章返回总目录\n一元线性回归方差分析表平方和自由度均方差F值回归离差1剩余离差n-2总离差n-1值得注意的是,在一元线性回归分析中,回归系数的显著性检验与回归模型的显著性检验是等价的,因此t检验和F检验的结论是一致的。但在多元回归分析中,它们是不等价的,t检验只检验方程中各个系数的显著性,而F检验则检验的是整个方程的显著性。返回本章返回总目录\nP值检验P值检验通过比较P值与给定的显著性水平的大小,来决定是否否定原假设。P值检验的判断准则是:若P值小于给定的,则否定原假设;若P值大于给定的,则接受原假设。(3)德宾—沃森统计量(D-W)检验德宾—沃森统计量(D-W)是检验模型是否存在自相关的一种有效方法。其公式为:将上式计算的D-W值与德宾—沃森给出的不同显著水平D-W值的上限和下限进行比较判别。返回本章返回总目录\n4.用一元线性回归模型进行估计(1)点估计只要将给定的自变量值带入所建立的一元线性回归模型,便可以得到因变量的一个对应的估计值。(2)区间估计估计因变量的平均水平的的置信区间:大样本:小样本:返回本章返回总目录\n估计特定的因变量的预测区间:大样本:小样本:其中:返回本章返回总目录\n多元线性回归分析在线性相关的基础上,研究两个或两个以上自变量的回归分析称为多元线性回归。1.多元线性回归模型的建立多元线性回归模型参数的估计以二元回归模型为例返回本章返回总目录\n估计参数采用最小二乘法,可以通过解如下联立方程得出:2.多元线性回归模型的检验(1)拟合优度的检验度量简单一元线性回归模型的精确度指标,也适用于多元线性回归模型。可决系数:修正的可决系数,n为样本容量,k为自变量的个数返回本章返回总目录\n估计标准误越小,说明估计值越接近真实值。估计标准误差(SE)(2)显著性检验回归系数的显著性检验回归模型的显著性检验返回本章返回总目录\n(3)德宾—沃森统计量(D-W)检验(4)多重共线性检验多重共线性是多元回归分析中特有的问题,简单回归不存在此问题。用于检验各个自变量之间是否是无关的。任意两个自变量和之间的相关系数为:返回本章返回总目录\n3.用多元线性回归模型进行估计(1)点估计(2)区间估计返回本章返回总目录\n4.复相关系数与偏相关系数(1)复相关系数在多变量情况下,复相关系数是用来测定因变量与一组自变量之间相关程度的指标。其计算公式为:复相关系数的值域在0到1之间,它的值为1,表明与之间存在严密的线性关系;它的值为0,则表明与之间不存在任何线性相关关系;它的取值在0和1之间时,表明变量之间存在一定的线性相关关系。返回本章返回总目录\n(2)偏相关系数在多变量情况下,偏相关系数是用来测定当其他变量保持不变的情况下,任意两个变量之间相关程度的指标。它主要考察两个变量之间的净相关关系,从而反映现象之间的真实联系。以两个自变量的情形为例,返回本章返回总目录\n非线性回归分析1.适配曲线问题选配曲线通常可以分为下列两个步骤:(1)确定变量间的依存关系,根据实际资料做散点图,按照图形的分布形状选择合适的模型。(2)确定回归模型中的未知参数。2.相关指数非线性回归分析中,变量之间的相关关系难以用单相关系数来测定。在这种情况下,通常使用相关指数,即对非线性回归模型进行拟合时所得到的可决系数,作为判断变量之间是否存在某种非线性关系的尺度。返回本章返回总目录\n3.一些常见的函数返回本章返回总目录\n应用回归预测时应注意的问题1.关于定性分析的问题进行回归分析时,应当重视相应的理论分析,来确定变量之间的相关关系及其影响程度。2.关于回归预测不能任意外推的问题3.关于对数据资料的要求问题(1)数据资料的准确性(2)数据资料的可比性和独立性(3)社会经济现象基本稳定的问题返回本章返回总目录\n第12章时间序列分析和预测返回总目录\n(1)时间序列的基本概念:时间序列是社会经济指标按时间顺序排列而成的一种数列。它反映社会经济现象发展变化的过程和特点,是研究现象发展变化趋势、规律和对未来状态进行预测的重要依据。1.时间序列的基本概念和构成要素(2)时间序列的两个基本要素:一是统计指标所属的时间;二是统计指标在特定时间的具体指标值。时间序列分解法返回本章返回总目录\n2.时间序列的因素分解(1)长期趋势因素(T)长期趋势因素(T)反映了经济现象在一个较长时间内的发展方向,可以在一个相当长的时间内表现为一种近似直线的持续向上或持续向下或平稳的趋势;在某种情况下,它也可以表现为某种类似指数或者其他曲线的形式。经济现象的长期趋势一旦形成,总能延续一段相当长的时期。经济时间序列的变化受到长期趋势、季节变动、周期变动和不规则变动这四个因素的影响。其中:(2)季节变动因素(S)季节变动因素(S)是经济现象受季节变动影响所形成的一种长度和幅度固定的周期波动。季节变动因素既包括受自然季节影响所形成的波动,也包括受工作时间规律如每周5天工作制度所形成的波动。返回本章返回总目录\n(3)周期变动因素周期变动因素(C)也称循环变动因素,它是受各种经济因素影响形成的上下起伏不定的波动。季节变动和周期变动的区别在于季节变动的波动长度固定,而周期变动的长度则一般是不一样的。(4)不规则变动因素(I)不规则变动又称随机变动,它是受各种偶然因素影响所形成的不规则变动。返回本章返回总目录\n3.时间序列的分解模型时间序列分解的方法有很多,较常用的模型有加法模型和乘法模型。将时间序列分解成长期趋势、季节变动、周期变动和不规则变动四个因素后,可以认为时间序列是Y是这四个因素的函数,加法模型为:乘法模型为:相对而言,乘法模型用的较为广泛。返回本章返回总目录\n4.时间序列的分解方法(1)季节指数的计算季节指数的计算是先运用移动平均法剔除长期趋势和周期变化,得到序列,然后再用按月(季)平均法求出季节指数。移动平均的项数取决于周期变动的时间长度。但是按偶数项计算的平均数对应的是原序列移动平均期的两项中间,所以需做两次移动。由此得到了不含季节因素和不规则因素的序列(移动平均也消除了不规则变动),它可以大致地体现现象发展的长期趋势。将Y除以,得到的是只含季节因素和不规则变动因素的序列,在此基础上采用按季平均法可求出各年的同季节平均数。时间序列的分解分析中,一般先计算季节指数,然后计算长期趋势和周期变动。以乘法模型为例返回本章返回总目录\n(2)长期趋势T的计算可以用回归模型来描述,做散点图,选择适合的趋势模型拟合序列的长期趋势,得到长期趋势T。(4)不规则变动I的计算将时间序列的T,S,C分解出来后,剩余的即为不规则变动,即:I=Y/(TSC)(3)周期变动因素C的计算用序列TC除以T,即可得周期变动因素C。返回本章返回总目录\n5.用时间序列分解法进行预测(1)建立预测模型以乘法模型为例,在时间序列分解中,一般无法预测不规则变动因素I,因此,它的预测模型可以表达为:在求解出时间序列各个因素之后,便可以建立模型进行预测。(2)预测长期趋势(3)计算季节因素和周期因素对预测值的影响返回本章返回总目录\n1.趋势外推法当研究对象依时间变化呈现某种上升或下降趋势,没有明显的季节波动,且能找到一个合适的函数曲线反映这种变化趋势时,就可以用时间为自变量,时间序列数值为因变量,建立趋势模型:.如果有理由认为这种趋势能够延伸到未来时,赋予变量t所需要的值,就能得到相应的时间序列未来值,这就是趋势外推法。趋势外推法的两个假定:(1)假设事物发展过程没有跳跃式变化;(2)假定事物的发展因素也决定事物未来的发展,其条件是不变或变化不大。时间序列趋势外推法返回本章返回总目录\n(1)多项式曲线模型一次(线性)预测模型:二次(二次抛物线)预测模型:三次(三次抛物线)预测模型:n次(n次抛物线)预测模型:趋势外推法的实质就是利用某种函数方程来分析研究对象的发展趋势。以时间作为自变量,有下列四种趋势模型最为常用:2.趋势外推分析法的模型返回本章返回总目录\n(2)指数曲线模型:(3)对数曲线模型:指数曲线模型:修正的指数曲线模型:返回本章返回总目录\n(4)生长曲线模型:皮尔曲线模型:式中:为变量的极限值;a,b为常数。龚珀兹曲线模型:返回本章返回总目录\n(1)图形识别法:这种方法又称为直接观察法,是通过绘制散点图来进行的,即将时间序列的数据绘制成以时间为横轴,时序观察值为纵轴的图形,观察散点的分布并将其变化曲线与各类函数曲线模型的图形进行比较,以便选择较为合适的模型。在实际中,有可能同时有几种模型都较为接近而无法通过图形直观确认为某种模型,这就必须同时对几种模型进行试算,最后选择标准误差最小的模型作为研究对象的趋势模型。3.趋势外推模型的选择返回本章返回总目录\n(2)差分法二阶向后差分的定义为:k阶向后差分的定义为:由于模型种类很多,为了根据历史数据正确选择模型,常常利用差分法把数据修匀,使非平稳序列达到平稳序列。其中最常用的是一阶向后差分。其定义为:把所计算的时间序列的差分与各类模型的差分特点比较,就可以找到适宜的模型。返回本章返回总目录\n一次(线性)模型差分计算表时序()一阶差分()1234…由上表可知,当时间序列各期数值的一阶差分相等或大致相等,就可以适用一次(线性)模型。返回本章返回总目录\n二次(抛物线)模型差分计算表由上表可知,当时间序列各期数值的二阶差分相等或大致相等,就可以适用二次(抛物线)模型。时序()一阶差分二阶差分1234返回本章返回总目录\n指数曲线模型差分计算表时序()一阶差分()1234由上表可知,当时间序列各期数值的一阶比率相等或大致相等,就可以适用指数曲线模型。返回本章返回总目录\n修正指数曲线模型差分计算表由上表可知,当时间序列各期数值的一阶差的一阶比率相等或大致相等,就可以适用修正指数曲线模型。时序()一阶差分一阶差的一阶比率1234返回本章返回总目录\n4.用趋势外推法进行预测(1)多项式曲线模型的趋势外推预测法多项式曲线模型的一般形式为:当时,为直线模型;当时,为二次多项式模型;当时,为n次多项式模型。返回本章返回总目录\n(2)指数曲线模型的趋势外推预测法指数曲线预测模型:对函数模型作线性变换得出:令,则,这样指数曲线模型转化为直线模型。返回本章返回总目录\n(3)修正的指数曲线模型的趋势外推预测修正的指数曲线模型:式中a、b和c为待定参数。求解方法是:将时间序列分成相等项数的三个组,以三个组的变量总数联系起来求导。可按时间先后把数据分为三组:Ⅰ,Ⅱ,Ⅲ,各组序列项数为n,则:很多新产品投入市场后,需求量常常呈现出初期迅速增加,一段时间后逐渐降低增加的速度,而增长量的环比速度又大体上各期相等,最后发展水平趋向于某一个正的常数极限。修正指数曲线模型正式用来描述这种发展趋势的理想工具。返回本章返回总目录\n(4)龚珀兹曲线模型的趋势外推预测法龚珀兹曲线模型:用分组法求解龚珀兹曲线中的参数的步骤为:做对数变换:①所搜集的历史统计数据,要能够被3整除,即是以3n为时序的数,n为一组的数据点个数。②y值代表预测对象所对应于各时序的数值,并将各y值变换成对数。③将第一组n个数据点的各相加,求得;第二组n个数据点的相加,求得;最后一组n个数据点的相加,求得。返回本章返回总目录\n④式中的t代表时序的顺序,取⑤将有关数据带入下列公式:或⑥查反对数表,求出参数k,a,b的值,便得到了龚珀兹预测模型。多用于新产品的研制、发展、成熟和衰退分析。工业产品寿命一般可分为四个时期:萌芽期、畅销期、饱和期、衰退期。龚珀兹曲线特别使用于对处在成熟期的商品进行预测,以掌握市场需求和销售的饱和量。返回本章返回总目录\n(5)皮尔曲线模型趋势外推预测法皮尔曲线模型:式中:L为变量的极限值;a,b为常数。求解参数的方法:可采用时间序列相邻两项倒数之差建立方程式(罗兹方程式)。皮尔曲线多用于生物繁殖、人口发展统计,也适用于对产品生命周期作出分析,尤其适用于处在成熟期的商品的市场需求饱和量(即市场最大潜力)的分析和预测。返回本章返回总目录\n1.时间序列的自相关性时间序列的指标值随着时间变化而变化,后期水平是在前期水平的基础上发展而来的,因此前后期水平之间存在一定程度的依存关系,称为时间序列的自相关性。自相关性强度一般由自相关系数来测定。时滞为k的自相关系数的计算公式为:,且。2.时间序列的自回归模型一个阶的样本自回归模型可以表述为:返回本章返回总目录时间序列自回归预测法\n第13章统计决策返回总目录\n统计决策的一般问题1.决策的概念和种类(1)决策的概念决策就是为了实现特定的目标,根据客观的可能性,在占有一定信息和经验的基础上,借助一定的工具、技巧和方法,对影响未来目标实现的诸因素进行准确的计算和判断选优后,对未来行动做出决定。统计决策有广义和狭义之分,凡是使用统计方法进行决策的方法称为广义的统计决策;狭义的统计决策是指在不确定条件下的决策。返回本章返回总目录\n不确定情况下的决策需要具备以下几个条件:(1)决策人要求达到的一定目的(2)存在两个或两个以上可供选择的方案(3)存在着不以决策人主观意志为转移的客观状态,即自然状态(4)在不同情况下采取不同方案所产生的结果是可以计量的,所有的结果构成一个结果空间。(2)决策的种类按决策问题所处的条件不同,可分为确定型决策、不确定型决策和对抗型决策三种。返回本章返回总目录\n确定型决策:确定型决策是指可供选择方案的条件已确定。不确定型决策:不确定型决策是指决策时的条件是不确定的,细分起来又可以分成两种。一种是已知各种可能情况出现的概率,因此可以结合概率来作出判断,选择方案,称为风险型决策。另一种是未知任何信息的决策,称为完全不确定情况下的决策。对抗型决策:对抗性决策的特点是包含了两个或几个人之间的竞争,并且不是所有的决策都在决策人的直接控制下,而要考虑到对方的策略。返回本章返回总目录\n2.决策的作用和步骤(1)决策的作用决策的作用体现在:科学的统计决策起着由决策目标到结果的中间媒介作用;科学的统计决策提供有事实根据的最优行动方案,起着避免盲目性、减少风险性的导向效应;统计决策在市场、经济、管理等诸多领域中有广泛的用途。(2)决策的步骤一个完整的决策包括以下步骤①确定目标和搜集资料,包括必要的调整计算②辨认自然状态和可能采取的行动返回本章返回总目录\n③计算全部损益值④对全部行动进行筛选,淘汰不可接受的行动,保留可以接受的行动⑤用适当的方法确定先验概率,进行必要的概率计算⑥用先验概率和各种行动方案种的损益值,计算期望损益值,据以评价各种行动的可能结果⑦进行择优决策分析,选出最优行动方案若要做后验决策,还要继续进行以下步骤:⑧搜集补充材料,包括抽样的或非抽样的,计算所需要的条件概率和联合概率,利用先验概率和联合概率,按贝叶斯公式计算后验概率返回本章返回总目录\n⑨用后验概率和各种行动中的损益值,计算期望损益值,据以评价各种行动的可能结果⑩进行择优决策,选出最优行动方案3.决策的公理和原则(1)决策的公理决策的公理是所有理智健全的决策者都能接受或承认的基本原理,是许许多多决策者长期决策实践经验的总结。返回本章返回总目录\n决策的公理有两个基本点:(1)决策者通常对自然状态出现的可能性有一个大致的估计,即存在“主观概率”;(2)决策者对于每一行动方案的结果根据自己的兴趣、爱好等价值标准有自己的评价,这个评价叫做行动方案的“效用”。返回本章返回总目录\n(2)决策的原则做出正确的决策应遵循的三条原则:可行性原则;经济性原则;合理性原则。统计决策的6条公理:①方案的优劣是可比较和判别的;②方案必须具有独立存在的价值;③在分析方案时只有不同的结果才需要加以比较;④主观概率和方案结果之间不存在联系;⑤效用的等同性;⑥效用的替换性。返回本章返回总目录\n风险型决策方法1.风险型决策的基本问题(1)风险型决策的概念风险型决策,是根据预测各种事件可能发生的先验概率,然后再采用期望效果最好的方案作为最优决策方案。因此,这种决策具有一定的风险。先验概率就是根据过去、经验或主观判断而形成的对各自然状态的风险程度的测算值。简而言之,原始的概率就是先验概率。返回本章返回总目录\n(2)损益矩阵可行方案自然状态及其发生的概率各种行动方案的可能结果损益矩阵包括三部分内容可行方案是由各方面专家根据决策目的,综合考虑资源条件及实现的可能性,经充分讨论研究制定出来的。自然状态是指各种可行方案可能遇到的客观情况和状态。这些情况和状态来自系统的外部环境,一般决策者不能控制。各种自然状态发生的概率有主观概率和客观概率之分,满足。它是根据不同可行方案在不同自然状态下资源的条件、生产能力的状况,应用综合分析的方法计算出来的收益值或损失值。损益矩阵三部分内容在一个表上表现出来,该表就称为损益矩阵表。返回本章返回总目录\n损益矩阵表返回本章返回总目录d1d2dmL11L12L1nL21L22L2nLm1Lm2Lmn自然状态及先验概率损益值行动方案\n2.不同标准的决策方法在风险型决策中,可以选用不同标准为依据进行决策,在实践中常用的方法有:以期望值为标准的决策方法;以等概率(合理性)为标准的决策方法;以最大可能性为标准的决策方法。返回本章返回总目录\n(1)以期望值为标准的决策方法是以收益和损失矩阵为依据,分别计算各可行方案的期望值,选择其中期望收益值最大(或期望收益值最小)的方案作为最优方案。期望收益值的计算公式:第i个方案的期望值第j种状态的概率第i个方案第j种状态的损益值返回本章返回总目录\n(2)以等概率为标准的决策方法(3)以最大可能性为标准的决策方法此方法是以一次试验中事件出现的可能性大小作为选择方案的标准,而不是考虑其经济的结果。由于各种自然状态出现的概率无法预测,因此假定几种自然状态的概率相等,即,然后求出各方案的期望损益值,最后选择收益值最大(或期望损失值最小)的方案作为最优决策方案。返回本章返回总目录\n(4)各种方法的适用场合①以期望值为标准的决策方法一般适用于几种情况:②以等概率(合理性)为标准的决策方法适用于各种自然状态出现的概率无法得到的情况。概率的出现具有明显的客观性质,而且比较稳定;决策不是解决一次性问题,而是解决多次重复的问题;决策的结果不会对决策者带来严重的后果。③以最大可能性为标准的决策方法适用于各种自然状态中其中某一状态的概率显著地高于其他方案所出现的概率,而期望值又相差不大的情况。返回本章返回总目录\n3.决策树(1)决策树的意义决策树是对决策局面的一种图解。它是把各种备选方案、可能出现的自然状态及各种损益值简明地绘制在一张图表上。用决策树可以使决策问题形象化。决策树的意义:决策树便于管理人员审度决策局面,分析决策过程,尤其对那些缺乏所需数学知识从而不能胜任运算的管理人员。返回本章返回总目录\n决策树决策法:就是按一定的方法绘制好决策树,然后用反推决策树方式进行分析,最后选定合理的最佳方案。(2)决策树制作的步骤及其应用决策点和方案枝机会点和概率枝标出损益值绘出决策点和方案枝,在方案枝上标出对应的备选方案;绘出机会点和概率枝,在概率枝上标出对应的自然状态出现的概率值;在概率枝的末端标出对应的损益值,这样就得出一个完整的决策树。返回本章返回总目录\n决策树图P1P2Pn…L11L12L1n…P1P2Pn…L21L22L2n…P1P2Pn…Lm1Lm2Lmn…d1d2dm…决策点和方案枝机会点和概率枝损益值返回本章返回总目录\n4.完全信息价值(1)完全信息价值的概念完全信息是指对决策问题做出某一具体决策行动时所出现的自然状态及其概率,能提供完全确切、肯定的情报。也称完全情报。完全信息价值等于利用完全情报进行决策所得到的期望值减去没有这种情报而选出的最优方案的期望值。它代表我们应该为这种情报而付出的代价的上限。返回本章返回总目录\n完全信息价值的意义:①通过计算信息价值,可以判断出所做决策方案的期望利润值随信息量增加而增加的程度。②通过计算信息价值,可使决策者在重大问题的决策中,能够明确回答对于获取某些自然状态信息付出的代价是否值得的问题。返回本章返回总目录\n5.连续型变量的风险型决策方法(1)连续型变量风险型决策中的几个概念连续性变量的风险型决策方法是解决连续型变量,或者虽然是离散型变量,但可能出现的状态数量很大的决策问题的方法。连续性变量的风险型决策方法可以应用边际分析法和标准正态概率分布等进行决策。返回本章返回总目录\n边际费用是指增加一个单位产品所需增加的费用。边际收入是生产和出售一个单位产品所得到的收入增量。边际利润是指存有并卖出一追加单位产品所得到的利润值。期望边际利润是边际利润乘以其中的追加产品能被卖出的概率。边际损失是指由于存有一追加单位产品而卖不出去所造成的损失值。期望边际损失是边际损失乘以其中的追加产品卖不出去的概率。(2)边际分析法的应用边际分析法是令期望边际利润等于期望边际损失,求出转折概率,根据转折概率对应结果进行决策。返回本章返回总目录\n(3)应用标准正态概率分布进行决策返回本章返回总目录\n贝叶斯决策方法1.贝叶斯决策的一般问题(1)贝叶斯决策的概念和步骤贝叶斯决策方法是根据预测各种事件可能发生的先验概率,然后采用期望值标准或最大可能性标准等来选择最佳决策方案。一般来说,利用贝叶斯定理求得后验概率,据以进行决策的方法,称为贝叶斯决策方法。返回本章返回总目录\n已具备先验概率的情况下,贝叶斯决策过程的步骤为:①进行预后验分析,决定是否值得搜集补充资料以及从补充资料可能得到的结果和如何决定最优对策;②搜集补充资料,取得条件概率,包括历史概率和逻辑概率,对历史概率要加以检验,辨明其是否适合计算后验概率;③用概率的乘法定理计算联合概率,用概率的加法定理计算边际概率,用贝叶斯定理计算后验概率;④用后验概率进行决策分析。返回本章返回总目录\n(2)贝叶斯决策的优点及其局限性①贝叶斯决策能对信息的价值或是否需要采集新的信息做出科学的判断;②它能对调查结果的可能性加以数量化的评价,而不是像一般的决策方法那样,对调查结果或者是完全相信,或者是完全不相信;③如果说任何调查结果都不可能完全准确,先验知识或主观概率也不是完全可以相信的,那么贝叶斯决策则巧妙地将这两种信息有机地结合起来了;④它可以在决策过程中根据具体情况不断地使用,使决策逐步完善和更加科学。贝叶斯决策的优点:返回本章返回总目录\n贝叶斯决策的局限性:①它需要的数据多,分析计算比较复杂,特别在解决复杂问题时,这个矛盾就更为突出;②有些数据必须使用主观概率,有些人不太相信,这也妨碍了贝叶斯决策方法的推广使用。2.贝叶斯决策方法的类型和应用(1)先验分析和预后验分析先验分析是指决策者详细列出各种自然状态及其概率、各种备选行动方案与自然状态的损益值,并根据这些信息对备选方案做出抉择的过程。返回本章返回总目录\n预后验分析是后验概率决策分析的一种特殊形式的演算。它有两种形式:扩大型预后验分析和常规型预后验分析。扩大型预后验分析,是一种反推决策树分析;常规型预后验分析,是一种正向分析。(2)后验分析根据预后验分析,如果认为采集信息和进行调查研究是值得的,那么就应该决定去做这项工作,一旦取得了新的信息,决策者就结合这些新信息进行决策分析。结合运用这些信息并修正先验概率,称为后验分析。返回本章返回总目录\n预后验分析与后验分析十分相似,只是在预后验分析阶段从未进行调查研究,只是分析采集信息和调查研究是不是值得。后验分析是进行过调查研究以后取得新信息以后分析的过程。(3)序贯分析序贯分析是包括有多阶段的信息搜集和数值计算的情况。它包括一系列的先验分析和预后验分析、采集新的信息和作出后验分析和决策。返回本章返回总目录\n不确定型决策方法当决策者只能掌握可能出现的各种状态,而各种状态发生的概率无从可知。这类决策就是不确定型决策,或叫概率未知情况下的决策。风险型决策方法从合理行为假设出发,有严格的推理和论证;不确定型决策方法是人为制定的原则,带有某种程度上的主观随意性。不确定型决策与风险型决策方法的区别:返回本章返回总目录\n不确定型的决策方法有:①“好中求好”的决策方法;②“坏中求好”的决策方法;③系数决策方法;④“最小的最大后悔值”决策方法;⑤等概率决策方法。返回本章返回总目录\n1.“好中求好”决策方法“好中求好”决策准则,又叫乐观决策准则,或称“最大最大”决策准则,这种决策准则就是充分考虑可能出现的最大利益,在各最大利益中选取最大者,将其对应的方案作为最优方案。(1)确定各种可行方案;(2)确定决策问题将面临的各种自然状态。“好中求好”决策方法的一般步骤为:返回本章返回总目录\n(3)将各种方案在各种自然状态下的损益值列于决策矩阵表中。“好中求好”决策矩阵表d1d2dmL11L12L1nL21L22L2nLm1Lm2Lmn自然状态损益值行动方案决策返回本章返回总目录\n(4)求出每一方案在各自然状态下的最大损益值。(5)取对应的方案di为最佳决策方案。如果决策矩阵表是损失矩阵,则应采取“最小最小”决策准则,即取对应的方案di为最佳决策方案。返回本章返回总目录\n2.“坏中求好”决策方法“坏中求好”决策准则,又叫“小中取大”准则,或称悲观决策准则,这种决策准则就是充分考虑可能出现的最坏情况,从每个方案的最坏结果中选择一个最佳值,即在所有最不利的收益中,选取一个收益最大的方案作为最优方案。返回本章返回总目录\n设有一非确定型决策,备选方案为,自然状态有n种(其出现概率未知),损益值为,若表示采取行动方案di时的最小收益(最大损失),即()则满足:的方案d*,就是“坏中求好”决策的最优方案。()返回本章返回总目录\n3.系数决策方法返回本章返回总目录\n设有一非确定型决策,备选方案为,自然状态有n种(其出现概率未知),损益值为,若令()则满足:的方案d*,就是“系数”决策的最优方案。()对损失矩阵返回本章返回总目录\n4.“最小的最大后悔值”决策方法后悔值是所选方案的收益值与该状态下真正的最优方案的收益值之差。“最小的最大后悔值”决策方法是决策者先计算出各方案在不同自然状态下的后悔值,然后分别找出各方案对应不同自然状态下的后悔值中最大值,最后从这些最大后悔值中找出最小的最大后悔值,将其对应的方案作为最优方案。返回本章返回总目录\n则在这一状态下各方案的后悔值为:设有一非确定型决策,备选方案为,自然状态有n种(),损益值为。在状态下,必有一个方案的收益值最大,这个最大收益值为返回本章返回总目录\n对于每一个方案来说,都各有一个这样的最大后悔值,故m个方案就共有m个最大后悔值,m个最大后悔值中的最小值,即:在每一种自然状态下,各备选方案都有一个后悔值。对每一个方案,对应n种自然状态都有n种后悔值。某一方案的n种后悔值中的最大者,叫做该方案的最大后悔值。若用表示方案中的最大后悔值,则:其对应的方案,就是“最小的最大后悔值”决策的最优方案。返回本章返回总目录\n5.各种决策方法的比较和选择(1)各种决策方法的比较实际工作中采用哪一种决策方法有相当程度的主观随意性。“坏中求好”决策方法主要由那些比较保守稳妥并害怕承担较大风险的决策者所采用;“好中求好”决策方法主要是由那些对有利情况的估计比较有信心的决策者所采用;系数决策方法主要由那些对形势判断既不乐观也不太悲观的决策者所采用;“最小的最大后悔值”决策方法主要由那些对决策失误的后果看得较重的决策者所采用。返回本章返回总目录\n(2)各种决策方法在应用时的选择对于同一决策问题,采用不同决策方法可以得出不同的决策方案,理论上也不能证明对于解决不确定型决策问题应采取何种评选标准,但这并不表明在解决不确定型决策问题时可以任意选择决策准则,而应该根据实际情况,选择合适的决策方案。返回本章返回总目录