《旅游统计学》讲义 153页

  • 475.85 KB
  • 2022-08-13 发布

《旅游统计学》讲义

  • 153页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
《旅游统计学》讲义刁明碧2007.9目录第一章绪论………………………………………2第二章统计描述………………………………………9第三章抽样推断……………………………75第四章相关与回归……………………………………86第五章动态数列………………………………………47第六章统计指数…………………………………….61第七章统计决策……………………………………99第八章旅游统计核算…………………………100第1章绪论第1节统计学的性质和特点一、对“统计”一词的解释(统计的涵义)Statistics统计语源最早出自中世纪拉丁语的Statas(各种现象的状态和状况),由这一词根组成的意大利语Stato,表示国家的概念及关于国家结构和国情这方面知识的总称。\n统计一词作为学科名称最早使用的是18世纪德国哥丁根大学政治学教授阿亨瓦尔,他把国势学称为Statistik,即统计学。在英国,早在17世纪就出现用数字来说明社会的科学,但使用的是另一个完全不同的名称:“政治算术”(Politicalarithmetic),直到18世纪未,英语Statistics才作为德语Statistik的译文传入英国,即用数字表示事实。汉语中,“统”的意思是指丝绪的总束,“计”原指计算。统计就是总计的意思。随着社会经济和统计学自身的发展,“统计”的涵义已经起了变化,它包含三种意义:统计工作:即统计实践。是指对社会、政治、经济、文化等现象的数量方面进行调查、整理和分析的工作活动过程的总称,即一种调查研究活动,如“统计”一下。统计资料:是统计工作的成果。是指用来反映各种社会经济现象和过程的数字资料,也可称为统计指标。它反映在统计资料汇编、统计年鉴、统计手册、统计图表、统计分析报告等。统计学:是阐述统计方法的一门科学理论和方法。是收集、分析数据的方法论科学,即统计理论。例如工业统计、劳动统计等。“统计”的这三种涵义既有区别又有联系,可用下图表示:统计工作与统计资料:过程与成果的关系;统计科学与统计工作:理论和实践的关系。即:统计资料是统计工作的成果,统计学是统计工作的经验总结与理论概括。二、统计学的研究对象两门论(经济统计学、数理统计学)人大的戴世光和天津财院的杨曾武为代表的两派之间展开。对“统计学研究对象是什么?”这个问题在理论界成为一个“老大难”问题,解决这个问题对于全面认识这门学科和为以后的论述铺平道路具有重要意义。国内有三种观点:第一种规律派:认为统计学是研究社会经济现象发展规律的。第二种数量派:认为统计学是研究社会经济现象的数量方面的,即其数量表现、数量关系和数量界限。第三种方法论派:这一派认为统计工作和统计科学是不同的。统计工作的研究对象是大量的社会经济现象的数量方面以及社会经济现象与自然技术因素相互影响的数量变化上。而统计学的研究对象则是社会经济统计活动的规律和方法,即社会经济统计工作的方法论。\n第三种观点与教材的观点是一致的,持这种观点的人占据多数。三、统计学的学科特点⒈统计学起源于研究社会经济问题,是收集、分析数据的方法论科学。⒉统计学是一门独立的科学,既不属于数学,也不属于实质性科学。⒊统计方法多种多样,与时俱进。四、统计学研究方法的特点⒈数量性—研究社会经济现象的数量方面⒉总体性—从总体上研究社会经济现象⒊具体性—是具体的数量关系⒋社会性—以社会经济问题作为主要研究对象⒌广泛性—应用领域非常广泛资料:1.统计工作的基本任务任何学科的实践都是为了解决主观对客观的认识问题。统计工作是对社会经济进行调查研究以认识其本质和规律性的一种工作,这种调查研究的过程是对客观事物的一种认识过程。1983年12月公布施行的,并经1996年5月八届全国人大常委会第19次会议修正的《中华人民共和国统计法》中第2条明确规定:“统计的基本任务是对国民经济和社会发展情况进行统计调查、统计分析,提供统计资料和统计咨询意见,实行统计监督。”。在社会主义市场经济的条件下,统计工作的具体任务可归纳为以下四项:(1)为制定政策和编制计划提供依据;(2)对政策和计划执行情况进行统计检查、监督;(3)为管理各项经济事业和社会事业提供资料;(4)为进行宣传教育和科学研究提供资料。2.统计的基本功能统计的基本功能是信息功能。统计信息是社会经济信息的主体。统计的基本职能为:(1)统计信息功能:就是指统计部门把有关的统计资料提供给决策部门和公众。(2)统计咨询功能:统计信息可为决策部门提供预选备用方案,起参谋作用。(3)统计监督功能:指运用统计手段对社会、经济、科技各方面进行检查、监督和预警。3.统计工作过程\n(1)统计设计:根据统计研究对象的性质和研究目的,对统计工作各个方面和各环节所作的通盘考虑和安排,它的结果表现为各种设计方案,如统计指标体系、分类目录、统计报表制度等。(2)统计调查:搜集统计资料。(3)统计整理:对调查搜集的资料进行科学的加工和分类等。(4)统计分析:在整理的基础上,对统计资料进行多种的定量和定性的分析或评价、论证,得出科学结论,达到对事物本质和规律的认识。统计工作的过程是经过统计设计(定性)到统计调查和统计整理(定量),最后通过分析而达到对事物本质和规律性的认识(定性)的,这种质-量-质的认识过程是统计认识的一个主要特点。注意:贯穿于整个统计认识过程的中心问题,是如何正确地对待量和质的关系问题。第2节统计学的产生和发展一、统计学的产生统计实践活动历史:历史较长,中国有几千年的历史,中国远在大禹时(公元前2200年)人口数为13553923人,是由社会生产的发展和国家管理的需要而产生和发展的。如人口、田亩、赋税、征兵等。3500年前,埃及王朝曾记载一次战役所俘获的战果:人员12万、牛40万头、羊1422000头。二、统计学发展的三个阶段⒈古典统计学时代大致是从17世纪中叶至19世纪初叶,其代表学派是“政治算术派”和“国势学派”。“政治算术派”创始人是英国的威廉﹒配第,他于1690年出版了《政治算术》一书,他用实际资料,用数字、重量和尺度来论述英国的经济情况;另一代表人物是英国人约翰﹒格朗特,代表作是《关于死亡的自然和政治观察》。国势学派又称记述学派或国情学派,其创始人是德国人海尔曼﹒康令,这一学说最早提出了“统计学”的名词。⒉近代统计时代大致是从18世纪末到19世纪末。著名的大数法则、最小平方法、相关与回归分析、指数分析法、时间数列分析法以及正态分布等理论都是这个时期建立和发展起来的。代表学派主要有数理统计学派和社会经济统计学派。数理统计学派产生于19世纪中叶,创始人是比利时学者阿道夫﹒凯特勒,创立大数法则,认为统计学就是数理统计学。\n社会统计学派产生于19世纪末期,首创者是德国人克尼斯,主要代表人物的梅尔、恩格尔,认为统计学的研究对象是社会现象,研究方法是大量观察法,提出统计学是一门实质性的社会科学。⒊现代统计学时代1900年,英国统计学家卡尔﹒皮尔生推导了卡一平方()检验法,1908年,“学生”(WilliamSeelyGosset戈塞特的笔名)发表t分布的论文,创立了小样本代替大样本理论,费雪又对小样本理论进一步研究,发展为实验设计理论,标志着现代统计学的开端。1930年,尼曼与小皮尔生共同对假设检验理论作了系统的研究,创立了“尼曼—皮尔生”理论,同时尼曼又创立了区间估计理论。美国统计学家瓦尔德把统计学中的估计和假设理论予以归纳,创立了“决策理论”。这些研究和发现大大充实了现代统计学的内容。资料:中国统计学的发展和现行统计制度⒈中国统计学的发展:新中国成立后,重要的大型统计有1953年及1964年的人口普查,文化大革命前,县以上统计人力有21000人,至1978年,仅有10500人。1982年第三次人口普查的成功,广受国际注目和肯定。1984年1月发布“关于加强统计工作的决定”,指明了统计工作现代化的作用及地位。我国现在曾存在社会经济统计学派与数理统计学派之争,目前要在“大统计”思想下促进学科发展。“小统计”认为社会经济统计属于经济学分支,数理统计学属于数学分支。“大统计”是一种思想。2我国现行的统计制度(1)政府统计系统(综合统计系统):它是由国家统计局、省(市.自治区)统计局、地、市、县统计局组成。(2)部门统计系统(专门统计系统)它由中央各部委、省、市、县业务部门的统计机构所组成。(3)企事业单位统计组织(基层单位的统计组织)包括企、事业单位统计组织、街道办事处统计、村乡镇统计。第3节统计学的几个基本范畴一、统计总体和总体单位⒈总体:它是指客观存在的、在同一性质基础上结合起来的许多个别事物(单位)组成的整体。同质性是统计总体的主要特征。\n按组成总体的个别事物的数量多少,统计总体可以分为无限总体和有限总体。大量连续生产的小件产品,因昼夜不停地生产,其产量是无限的,其组成的总体就是无限总体;而人口数、工业企业数,因其能够计量出总数且总体范围能够明确确定,为有限总体。2.总体单位:它是指构成统计总体的个别事物。即构成总体的各个事物。如果说统计总体是集合的概念,那么总体单位就是集合体的元素。3.总体与总体单位的相互关系确定总体和总体单位必须注意两方面:①构成总体的单位必须是同质的,不能把不同质的单位混在总体中。②总体与总体单位具有相对性,随着研究目的和任务的改变而改变。随着研究目的的不同,总体与总体单位可以互相转化。如:研究一个企业的职工人数,则企业是总体,职工是单位,若研究一个城市的企业规模时,则该市所有企业是总体,企业又成为单位,而企业的职工人数只是单位的标志。二、标志和指标⒈标志⑴概念:用来说明总体单位特征或属性的名称。如:职工性别、工资水平、所有制性质、职工人数等标志的种类标志按其表现形式的不同,可分为品质标志和数量标志。①品质标志:表示事物质(属性)的特征,其具体表现只能用文字表示。如:性别、职务、专业、民族、工种、籍贯、企业的所有制类型等。②数量标志:表示事物量(单位数量)的特征,其具体表现可以用文字和数字表示。如:年龄、产值、身高、体重、工资、成绩等。⑶标志值是数量标志的具体表现。又称变量值。如张某年龄36岁、月工资1450元,这是数量标志的具体表现,统计上称为标志值。⒉统计指标⑴概念:它是反映社会经济现象总体数量特征的概念和具体数值。其构成主要有两部分:指标名称:指标内容和所包括的范围,即指标质的规定性。指标数值:指数量的特征是指标量的规定性。统计指标离不开数值。\n举例:200X年我国进出口总额4700亿美元。则名称—进出口额,数值—4700亿美元⑵特点:①统计指标都能用数字表示;②统计指标是说明总体综合特征的;③统计指标是反映一定社会经济范畴的数量。⑶分类:①按其计量单位的特点,有实物指标、价值指标和劳动指标。②按其反映总体特征的性质不同,有数量指标和质量指标两类。数量指标:它说明总体规模大小和数量多少。反映总体某一特征的绝对量,这类指标主要说明总体的规模、工作总量和水平,一般用绝对数表示,其数值随总体范围大小而变化,如人口总数、工业企业总数等;质量指标:它说明总体内部数量对比关系和一般水平。反映总体的强度、密度、效果、工作质量等,其数值大小与总体范围大小无直接关系。这类指标一般用平均数、相对数表示,如人口密度、劳动生产率、资金利润率等,反映现象发展程度和经济效果。③按其反映的时间特点不同,有时点指标和时期指标两类。时点指标是反映总体特征在某一时点上的数量表现,常用的是期末数字,如人口数、商品库存量、企业设备台数、外汇储备额等;时期指标是反映总体特征在某一时期的数量表现,如产品产量、进出口总额、商品销售量(额)、人口增长量、人口出生(死亡)数等。④按其数值的具体表现形式不同,可分为总量指标、相对指标和平均指标①总量指标:表现形式为绝对数。②相对指标:表现形式为相对数。③平均指标:表现形式为平均数。由若干个相互联系的统计指标组成的一个整体称为统计指标体系。例:各地区城市设施水平指标体系:人均房屋使用面积、人均居住面积、城市人口用水普及率、城市煤气普及率、每万人拥有公共汽(电)车、人均拥有铺装道路面积等等。⒊指标和标志的区别和联系⑴区别:①指标是说明总体数量特征的概念,而标志是说明总体单位特征的概念。前者范围大些,后者的范围小些。②指标都是用数值表示的,而标志有的是用数字表示,有的是用文字表示。③指标是由数量标志汇总得出来的,而标志仅是某一个体现象,未经过任何汇总。\n④标志不具备时间、地点条件,而指标一定要有时间、地点。⑵联系:许多统计指标是由各单位的数量标志值汇总而来的;指标和标志之间存在转化关系。三、变异和变量1.变异:统计上标志和指标都是可变的,其具体表现各不相同,这就是变异。标志变异可分为属性变异和数量变异。如:性别标志分男、女;职工人数有60人、70人等变化。2.变量:可变的数量标志。3.变量值:变量的具体数值表现。如年龄15、16、30岁等。例如职工人数是一个变量,因为各个工厂的职工人数是不同的,甲工厂有852人,乙工厂有1686人,丙工厂有964人,都是职工人数这个变量的具体数值,也就是变量值,而它们的平均数,不能说是三个“变量”的平均数,因为这里只有“职工人数”这一个变量,并没有三个变量,而所要平均的是这一个变量的三个数值,即三个变量值。4.变量的分类:⑴按计数的特点分为:①连续变量:指其数值连续不断,在相邻的两值之间可无穷分割,表现为无穷小数。如:粮食产量有500-600公斤,600-700公斤等,身高,体重、总产值、资金、利润等。②离散变量:变量值只能表现为整数。如人口数是270人,950人,工厂数,机器台数等。⑵按其性质不同分:①确定性变量:能在事先确定下来的变量。如中奖人数等。②随机性变量:由各种因素引起,数值随机而成,有多种可能性,事先无法确定。如中奖号码等。第2章统计数据描述第1节统计调查\n一、统计调查的意义⒈统计调查的定义统计调查是按照统计任务的要求,运用科学的调查方法,有组织地向社会实际搜集各项原始资料的过程。⒉意义:统计调查担负着提供基础资料的任务,是统计工作的初始阶段,是决定整个统计工作质量的重要环节,又是统计整理和分析的前提。因此,调查工作的好坏、取得资料是否完整与正确,将直接影响到以后各个阶段工作的好坏,影响整个统计工作任务的完成。3对统计调查的要求⑴准确性—搜集的资料要符合客观实际情况。⑵及时性—时效性。及时上报各项统计资料以满足各种需要。⑶完整性—全面性。即在规定时间内对调查资料毫无遗漏地搜集起来。⑷经济性—以量少的投入获得所要求的统计资料。也即统计调查也要讲究经济效益。以上要求中,准确性是基础,要在准确中求及时、求完整、求效益。二、统计调查的种类1.按组织形式分为:⑴统计报表:根据统计法规的规定,按一定的表式和要求(指标、表格形式、计算方法等),自上而下统一部署,自下而上逐级提供统计资料的一种统计调查方法。⑵专门调查:为了研究某些专门问题而专门组织的调查。如为了解一定时点状态上的资料,而组织的人口普查,多属一次性专门调查,如普查、抽样调查;可以是全面调查,也可以是非全面调查,如重点调查、典型调查、抽样调查。2.按调查对象包括的范围分为:⑴全面调查:指对调查对象中的全部单位,都无一例外地进行登记或观察的一种调查方法。如普查和全面统计报表。⑵非全面调查:只对调查单位中的一部分进行登记或观察的一种调查方法。如重点调查、典型调查和抽样调查。进行非全面调查的必要性主要表现在:①节省人力、物力、财力和时间;\n②有时不需要全面调查,只要了解基本情况时—重点调查只要了解典型情况时—典型调查从部分推断总体时—抽样调查③很难或不可能进行全面调查,如职工家庭收支情况调查、工业产品质量检查(破坏性)等。3.按调查登记时间是否连续分为⑴经常性调查:就是随着调查对象在时间上的变化而进行连续不断地登记或观察,以了解事物在一定时期内发生、发展的全过程。这种调查在工业等物质生产活动中应用广泛,如工业产品产量调查、主要原材料、动力、燃料消耗等。①根据研究对象的特点:一定时期内现象数量上变化较大时;②根据研究目的:研究在一定时期内客观现象的全部过程。⑵一次性调查:就是对被调查对象在某一时刻的状况进行一次性登记,以反映事物在一定时点上的发展水平(状态)。是不连续的调查。如人口可隔一段时间进行一次普查。①现象在一定时期内变动不大时,如固定资产总值、一国人口数等;②研究对象在某一时间上达到产水平时(库存调查)。4.按搜集资料的方法不同分为:⑴直接观察法:调查人员深入现场对调查对象直接进行点数和计量而取得资料的方法。⑵报告法(凭证法):它是指要求被调查者以原始记录和核算资料为依据,向有关单位提供统计资料的方法。如报表制度。⑶采访法(询问法或通讯法):它是由调查人员向被调查者提问,根据被调查者的答复来搜集资料的方法。如口头询问或开调查会及被调查者自填等。⑷问卷调查法:⑸卫星遥感法:使用卫星高分辨率照片,提供地面农作物绿度资料,来估计农产量的方法。三、统计调查方案设计\n在实施统计调查之前,应当明确“由何人主持调查及向谁调查?何时开始调查?在何地进行调查?调查的内容是什么?如何进行调查?”五个问题,即统计学家通常所说的“4W1H”(Who、When、Where、What、How)。因此,调查者首先要根据需要与可能,制定科学的调查方案,它是调查工作的依据,是保证调查顺利进行的前提。调查方案主要包括下列内容:(一)确定调查目的就是明确为什么要进行调查,调查要和解决什么样的问题。调查目的决定着调查对象、调查内容和方法。例:2000年全国人口普查的目的:“为了科学地制定国民经济和社会发展战略与规划,制定人口政策,统筹安排人民的物质和文化生活,实现人口与资源、环境的协调发展。”(二)确定调查对象和调查单位解决向谁调查,由谁来具体提供资料的问题。1.调查对象:指需要调查的那些社会经济现象的总体即总体单位。说明向谁调查问题。举例:2000年人口普查规定:“人口普查对象是具有中华人民共和国国籍并在中华人民共和国境内常住的人”。2.调查单位:指调查对象中所要调查的具体单位,即总体单位。需要进行登记的标志(项目)的承担者。说明谁来提供资料的问题。举例:人口普查中上述总体中的每个人。同时需要明确:填报单位(报告单位):是指负责向上级汇报调查内容、提交统计资料的单位。填报单位一般在行政上、经济上具有一定独立性的单位,而调查单位可以是人、单位、也可以是物。两者有时一致,有时不一致。如:工业企业普查,每个工业企业既是调查单位又是填报单位;调查企业设备情况时,调查单位是企业的各种设备,而填报单位则是企业。(三)确定调查表(项目)调查项目:要调查的内容,也就是被调查单位的特征,即标志。这是调查方案的核心部分。调查表是指调查项目按照一定的顺序排列起来形成的一定的表式,这是统计工作搜集资料的基本工具。调查目的、调查对象都可以从调查表中反映出来。那么,怎样拟定调查表呢?⒈确定所要登记的标志,即调查项目,注意以下几点:⑴各调查项目必须是可行的,能够取得确切的资料;\n⑵要有科学的理论依据和统一的解释;⑶各调查项目之间尽可能做到相互联系,彼此衔接,以便于动态比较。总产值/在职人数=全员劳动生产率⒉确定表式的种类⑴单一表:每个调查单位填写一份,可以容纳较多的标志,便于整理和分类,普查、详细调查用表。⑵一览表:把许多调查单位填写在一张表上,便于合计和核对差错。单一表、一览表有应用:①看项目的多少,调查项目多时一般用单一表,反之则用一览表;②看填报单位与调查单位是否一致,一致时常用单一表,不一致时用一览表。⒊说明注意事项和项目解释、指标含义、计算方法、分类目录、统计编码等。举例:2000年人口普查中,分为短表和长表,长表为抽样10%的人填报,短表为其余人填报。短表按人填报的项目有9项,按户填报的项目有10项。长表按人填报的项目有26项,按户填报的项目有23项。(四)确定调查时间和调查期限1.调查时间:调查资料所属的时间(时期或时点)。如是时期现象,就要明确规定资料所反映的调查对象从何年月日至何年月日止的资料(起讫时间)。如调查的是时点现象,就要规定统一的标准时间。例如2000年第五次人口普查的标准时间是11月1日0时。2.调查期限:进行调查工作的时间,包括搜集资料和报送资料的整个工作所需要的时间。人口普查登记工作的期限从2000年11月1日开始,11月10日前结束。五、制定调查的组织实施计划明确调查机构、调查步骤、人员及组织训练、经费来源等,是统计过程的总方案:调查步骤日程安排:登记:2000.11.1--11.10\n复查:2000.11.15质量抽查:11.30快速汇总资料上报:2000.12.31全部汇总资料上报:2001.9.30完成全部工作:2001.12.31经费:四、主要的统计调查组织形式(一)统计报表1、统计报表的意义和作用统计报表是按照国家或上级部门统一规定的表式、统一的指标、统一的报送程序和报送时间,自下而上逐级提供基本统计资料的一种调查方式。作用:宏观和微观2、统计报表的特点(1)统一性和时效性;(2)全面性;(3)资料的相对可靠性(建立原始记录和核算数字基础之上);(4)连续性。3、统计报表的种类(1)按内容和实施范围分:国家、部门和地方统计报表(2)按主管系统分:基本与专业(3)按调查范围分:全面与非全面(4)按报送周期分:定期(日报、旬报、月报、季报、半年报)和年报(5)按填报单位分:基层和综合(6)按报送方式分:电讯和书面4、统计报表制度\n执行统计报表制度,是各地区、各部拧⒏鞯ノ话凑展业姆晒娑ū匦胂蚬衣男械囊恢忠逦瘛?我国的统计报表制度的基本内容有:(1)报表内容和指标体系的确定(2)报表表式的设计包括主栏项目、宾栏项目以及补充资料项目;表名、表号、填报单位、报告期别、报送日期、报送方式、单位负责人及填报人签署等。分为基本表式和专业表式。(3)报表的实施范围应由哪些单位填报(编报单位),汇总时包括哪些单位(编报单位)。(4)报表的报送程序和报送日期报表的报送程序,包括填报单位填报报表的份数、方式和受表单位,且要规定其报送日期。(5)填表说明具体说明填表的方法、指标说明(指标的概念、计算范围、计算方法及其他有关问题)。(6)统计目录指统计报表中主栏项目的一览表。大体可分为两类:一类是主栏中填报的统计分组用的目录,如工业部门分类目录等;另一类是主栏中填报的具体项目的目录,如工业产品目录等。我国统计报表制度近年来进行了一系列的改革,主要分为:7种基层一套表和9套综合报表制度。基层一套表:A农林牧渔企业报表B工业企业报表C建筑工企业报表\nD交通运输企业报表E批发零售贸易及餐饮业企业报表F服务业企业报表G行政事业单位报表例:地区计划报表(二)普查1.普查的概念普查:专门组织的一次性全面调查。它主要用来搜集那些不宜用经常调查能搜集的全面、准确的统计资料。⒉普查的方式方法⑴自上而下对调查单位进行登记⑵颁发调查表,由调查单位填报主要有:人口普查、工业普查、第三产业普查、基本单位普查等。3.普查的组织原则⑴规定标准时点⑵正确选择普查时期⑶同时进行调查⑷调查项目不能任意改变(三)重点调查1.重点调查的概念重点调查:就是在调查对象中,只选择一部分重点单位而进行的非全面调查。所谓重点单位:就是指在总体中举足轻重的那些单位,这些单位在总体中虽然不多,所占比重不大,但就调查的标志值而言,确在总体标志总量中占有很大比重。(四)典型调查⒈意义:就是在调查对象中有意识的选取若干具有代表性的单位进行的非全面调查。典型有三种:先进、中间、后进。2.典型调查的特点:⑴调查单位是根据调查目的有意识选择出来的,机动灵活、省时、省力。⑵是一种深入、细致的调查。(五)抽样调查抽样调查:就是按照随机原则从调查对象中抽取一部分单位作为样本进行调查,根据调查结果推断总体的一种调查方法。⒈抽样调查目的:推算总体数值。在我国商品检验中广泛应用。2.抽样调查的特点:\n⑴按随机原则来进行。排除人的有意识地选择,总体中的每个单位都有被抽取的同等机会。⑵以样本推算总体。3.应用范围:⑴在实际工作中不可能进行全面调查而又需要了解其全面资料的事物时。⑵有些资料虽可进行全面调查,但比较困难或并不必要。如:居民家庭收支情况调查。⑶对普查或全面调查统计资料的质量进行检查和修正。如:人口普查资料的正确性复查、验证等。第2节统计整理一、统计整理的概念(一)统计整理的意义统计整理是根据统计研究的任务与要求,对统计调查所搜集到的大量原始资料进行加工汇总,使其系统化、条理化、科学化,以得出反映事物总体综合特征的资料的工作过程。(二)统计整理的内容⒈对原始资料进行审核与检查。审核、检查被调查单位的资料是否齐全,有无迟报、不报、漏报的情况;如果报送已齐全,应审查有无差错。审查的办法主要有:⑴逻辑性审查。它是利用逻辑理论检查指标之间或数据之间有无矛盾。例如,人口调查中,少年、儿童年龄段的居民不应有婚姻情况,文化程度不应是大学毕业以上,职务不应是こ淌σ陨系取H绻鱿忠鸦椤⒏呒豆こ淌Γ匀辉诼呒鲜遣豢赡艿模徊讲槭怠⒏?⑵比较审查法。它是指标之间进行数据比较方式审查。例如规定某指标的数值必须大于或小于另一指标;某几个指标之和应小于或等于总和等。比如一个地区居民户数不能大于居民人数;固定资产净值必须小于固定资产原值等。凡是不符合上述规定要求的,必然是数据有问题,必须查清。⑶设置疑问框审查。一般来说,指标之间存在一定的量值范围与比例关系,利用这种范围与比例关系,可以设置疑问框,从而审查数据是否有疑问。例如规定现价工业总产值与销售收入的比值不小于0.7,不大于1.5;工业净产值与现价总产值的比值不大于0.6,不小于0.2等。疑问框的设置不能相距过大,否则会遗漏有差错的数据;但是也不能过小,过小会使大量无差错的数据被检出来,增加审查的工作量。因此,疑问框的设计必须由对数据资料十分熟悉的人负责,不是随意设置的。\n发现数据差错以后,要分别不同情况及时纠正与处理,属于被调查单位填报错误的,应通知他们重新填报,属于汇总过程中的错误,应根据情况,予以修正。⒉录入数据,建立数据表数据表是指包含相关数据的一系列工作表的数据行。数据表可以作为数据库使用,其中行表示记录,列表示字段。⒊数据排序与分组一般来说,录入数据的数据是无序的,不能反映现象之本质与规律性。为了使用的方便,要将其进行排序、分组,以便数据按要求排列,同时使性质相同的数据归为一组,从而让它们之间的差异性显示出来。⒋编制次数分布表与累计次数分布表次数分布表可以表明各组间的单位数在总体中所出现的次数或所占比重,从而描述总体的内部结构,揭示总体中的关键因素与本质特征。累计次数分布则能够表明各标志值以上或以下所出现的次数或比重。⒌统计图各种各样的统计图可以形象、直观地表明数据的分布形态与发展变化的趋势。(三)Excel中的统计整理工具1.数据排序Excel可以根据用户的要求对数据表的行或列数据进行排序。排序时,Excel将利用指定的排序顺序重新排列行、列或各单元格,从而使现象的规则性更加简洁地表现出来。2.频数分布函数频数分布函数是Excel的一个工作表函数,是编制次数分布的主要工具,通过频数分布函数,可以对数据进行分组与归类,从而使数据的分布形态更加清楚地表现出来。3.数据透视表数据透视表是一种交互式工作表,用于对已有数据表和数据库中的数据进行汇总和分析的一种工具。4.统计图Excel可以绘制许多图表,其中大部分是统计图,可用于数据的整理与分析,能够直观形象地描述现象的数量规律性。二、统计分组与分配数列(一)统计分组的意义和作用1.统计分组的概念统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分成若干组成部分的一种统计方法。\n在第一章中我们已经讲述过“变异”的概念,就是说在一个总体中,单位的品质标志或数量标志,其标志表现可能是互不相同的,总体内部各个单位间存在许多的变异标志又是人们把总体进一步分为性质不同的几个部分的客观依据。统计分组,对总体而言是“分”(分为范围更小的总体),而对总体单位而言是“合”(合为性质相同的组);对分组标志而言是“分”(按分组标志划分总体成为标志表现不同的许多组),而对其它标志来说又是“合”(其它标志表现的差异消失了)。2.统计分组的作用(1)划分现象的类型(2)揭示现象内部结构(3)分析现象之间的依存关系(二)分组标志的选择1.按品质标志分组如按性别分组,见表3-5表3-5某班学生的性别构成情况按性别分组绝对数人数比重(%)男女30107525合计401002.按数量标志分组单项式分组见表3-6,组距式分组见表3-7。表3-6某厂第二季度工人平均日产量工人平均日产量(件)\n工人数绝对数比重(%)2345610153040208.713.026.134.817.4合计115100.0表3-7某工厂工人完成生产定额情况表工人完成生产定额分组(%)工人数绝对数比重(%)80~90\n90~100100~110110~120120~130304060302016.722.233.316.711.1合计180100.0(三)分配数列1.分配数列的概念与种类在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组间的分布,称为次数分配或分配数列。分布在各组的个体单位数叫次数或频数,各组次数占总次数的比重叫频率。2.分配数列的种类按品质标志分组—品质数列,一般是单项式分组,见表3-5。按数量标志分组—变量数列,可以是单项(式)数列,见表3-6;也可以是组距式等距数列,见表3-7、3-8,和组距式异距数列,见表3-9。表3-8某班学生考试成绩单\n考分人数(人)比重(%)50~6060~7070~8080~9090~10027111285.017.527.530.020.0合计40100.0表3-9某地区人口分布状况人口按年分组人口数(万人)1岁以下(婴儿组)1\n1~7岁(幼儿组)67~17岁(学龄儿童组)1218~55岁(有劳动能力的人口组)24.655岁以上(老年组)8.1合计51.73.组距数列的编制建立频数分布的步骤如下:先对数据进行排序,以了解全部数据的变动范围;选择全部数据的分组组数;确定分组的组限,最后对各组数值所出现的频数进行计数。例:有某班学生英语考试成绩如下(1)对数据进行排序①打开“成绩.xls”工作簿,选定“英语成绩”工作表。②利用鼠标选定单元格区域。③在菜单中选择“数据”中的“排序”选项,则弹出排序对话框。④在排序对话框窗口中,选择“主要关键字”列表中的“英语”作为排序关键字,并选择按“递增”排序。由于所选取数据中已经包含标题,所以在“当前数据清单”中选择“有标题行”,然后单击“确定”按钮,即可得到排序的结果。(2)确定组距和组数全距=上限-下限=96-48=48组数一般5-7组组距=全距/组数例如分6组,组距=48/6=8(3)确定组限和组中值每组两端的数值称为组限\n第一组下限=48第一组上限=48+8=56第二组下限=56第二组上限=56+8=64为避免重复,一般规定:上组限不在内组中值=(上限+下限)/2表示时,可写成组限组中值48~565256~646064~726872~807680~888488~9692按照习惯,成绩一般分为不及格、及格、中等、良好、优秀即组限组中值60分以下5560~706570~807580~908590分以上95开口组组中值的确定缺下限开中组组中值=上限-邻组组距/2缺上限开中组组中值=下限+邻组组距/2(4)确定频数和频率频数=每组单位数\n频率=每组频数/总单位数组限频数(人)频率(%)60分以下51060~70112270~80163280~90132690分以上510资料:利用Excel频数分布函数进行分组常用函数财务函数日期与时间函数数学和三角函数统计函数查找与引用函数数据库函数文本函数逻辑函数信息函数工程函数统计函数模块中有76个统计函数,这些函数覆盖了统计基本理论与分析方法。频数分布函数是其中的一个。频数分布函数(FREQUENCY)可以对一列垂直数组返回某个区域中数据的频数分布。频数分布函数(FREQUENCY)的语法形式为:FREQUENCY(data_array,bins_array)\n其中:Data_array为用来编制频数分布的数据,Bins_array为频数或次数的接收区间。①打开“成绩.xls”工作簿文件。②在单元格E5中输入“分组”,在单元格F5中输入“频数”。③在E6:E10区域中依次输入59,69,79,89,99,作为频数接受区域,它们分别表明成绩在60分以下的人数,成绩在60~70分之间,90分以上的人数等。④选定D3:D7区域,在“插入”菜单中单击“函数”选项,打开“粘贴函数”对话框如图所示。⑤在“函数分类”列表中选择“统计”,在“函数名”列表中选择“FREQUENCY”,单击“确定”按钮,Excel弹出“频数分布”对话窗口。⑥在数据区域“Data_array”中输入单元格B2:B51数据接受区间Bins_array中输入单元格E5:E10,在对话窗口中可以看到其相应的频数是5,11,16,13,5,。⑦由于频数分布是数组操作,所以,此处不能直接单击“确定”按钮,而应按Ctrl+Shift+回车键,得到频数分布如图所示。分组频数595691179168913995(四)统计分组体系\n在统计研究中,为了全面认识某一社会经济现象,常常运用多个分组标志对总体进行分组,形成一系列相互联系、相互补充的分组体系。就整个国民经济总体而言,通过按所有制、部门、行业、地区、管理等多种分组,形成国民经济分组体系。统计分组体系有两种形式:㈠平行分组体系:总体按一个标志进行分组称为简单分组;对同一总体选择两个或两个以上的标志分别进行简单分组,就形成平行分组体系。例如,为了认识人口总体构成,可分别选择性别、民族、文化程度、年龄等四个分组标志进行分组,得到如下分组体系:按性别分组按文化程度分组按民族分组按年龄分组平行分组体系的特点:每一个分组只能反映各总体单位在一个标志上的差异,而不能反映在其它标志上的差异,尽管在其它标志上的差异仍然存在。㈡复合分组体系:对同一总体选择两个或两个以上的标志层叠起来进行分组,叫复合分组;多个复合分组组成的体系,就是复合分组体系。如:建立复合分组体系,应根据统计分组的要求,在选择分组标志的同时,确定它们的主次顺序。首先要按照主要标志对总体单位进行第一次分组,再按次一级标志进行第二次分组,依次将所有标志分组至最后一层为止。复合分组体系的特点是:第一次分组只固定一个因素对差异的影响,第二次分组则同时反映二个标志的影响,最后一次分组时,则所有被选择的标志的影响已全部确定。三、统计图(一)Excel绘制统计图的基本步骤Excel提供“图表向导”工具,帮助创建适合于数据信息和分析目的的各种图表,下面先简单描述一下图表操作的基本步骤。①使用“图表向导”工具制作图表之前,选定数据所在的单元格,如果希望数据的行列标题显示在图表中,则选定区域还应包括含有标题的单元格。②单击“插入”菜单中的“图表”选项,按照“图表向导”中4个步骤的指令进行操作。\n第1步“图表类型”:每种类型的图表都有两种以上的子类型,选中所需要的图形以及它的子图形,单击“下一步”按钮。第2步“图表数据源”:选定包含数据和行列标志的工作表单元格,即便工作表包含多个行列标志,也能在图表中显示它们。生成图表时,应将各行列标志包含到选定区域中。若预览图表看去很合适,则表示所选数据区正确。单击“下一步”按钮。第3步“图表选项”:为选定的图表设置某些标准选项。修改这些设置时,随时查看预览图表可以帮助我们确定设置是否合适。单击“下一步”按钮。第4步,“图表位置”:可以将图表放置在工作表上,或者单独置于一张新的图表工作表上,在这一步中,我们为图表工作表命名,或者选择现有工作表的名称,单击“完成”按钮。(二)条形图与柱形图条形图和柱形图可交换使用。Excel的条形图是水平条形,Excel柱形图为竖直条形。两种图表都可以用来表示与一组或几组分类相关的数值,它可用于不同现象的比较,也可以采用时间顺序描述现象的发展趋势。在条形图或柱形图中,各长条或柱的宽度与各长条间的距离彼此均等,条的长度与所代表的变量值成比例。⒈打开“成绩.xls“工作簿,选分组工作表。⒉在Excel的“插入”菜单中选择“图表”选项,Excel会启动图表向导,弹出“图表向导”对话框窗口。在“图表类型”列表中选择“柱形图”,在“子图表类型”列表中选择“三维簇状柱形图”,单击“下一步”按钮,进入数据源对话框。⒊在“数据区域”中选A1:B6⒋在图表选项中输入相应内容⒌图表位置选“作为对象插入”⒍在得到的图表中点其中一个柱,按右键,在“数据点格式”“选项”中将“间隔宽度”设置为0(三)饼形图例:中国人如何看WTO。由中国社会调查事务所组织的一次问卷调查显示:有58.4%的被调查者对中国加入WTO非常有信心;有19.3%的被调查者没有态度;有9.2%的被调查者表示担心;有13.1%的被调查者反对中国加入WTO,试用饼形图描述一下中国人对加入WTO的看法。①打开“统计整理.xls”工作簿,选择“WTO”工作表。\n②打开“插入”菜单,并单击“插入”菜单中的“图表”选项,Excel会启动图表向导。③在步骤1的“图表类型”中选择“饼图”,并在“子类型图表”中选择“三维饼图”,单击“下一步”按钮,进入向导2。④如图所示,在步骤2中的数据区域中输入A3:B6单元格,单击“下一步”,进入向导3。步骤3中单击“标题”页面,输入标题“中国人看WTO”;单击“图例”页面,取消显示图例;单击“数据标志”页面,在“数据标志”列表中选择“同时显示百分比及数据标志”。如图所示。⑥如果通过图表预览,认为满意,即可单击“完成”按钮。经过修饰后,得饼形图如图所示。四、统计表(一)统计表的作用⒈使统计资料系统化、条理化⒉便于比较各项目之间的关系,便于计算⒊紧凑、简明、醒目、一目了然⒋易于检查数字的完整性和正确性(二)统计表的结构表3-121998年全国工业增加值总标题纵栏标题资料数字工业增加值项目产值(亿元)比重(%)轻业5900949.3重工业\n6068450.7合计119693100横行标题主词宾词(三)统计表的种类⒈简单表:主词未经过分组⑴按总体单位排列1998年某公司所属两企业自行车合格品数量厂别合格品数量(辆)甲厂5000乙厂7000合计12000⑵按时间排列某企业某产品产量统计表2000年1-6月单位:件月份产品产量111112980312244\n13005132161465合计7401⒉分组表:主词按某一标志分组1998年某地区工业净产值和职工人数项目净资产(万元)职工人数(人)大975045000国有中860013800小420010050大730010400集体中52007500\n小44004500⒊复合表表3-121998年全国工业增加值项目工业增加值产值(亿元)比重(%)轻工业5900949.3重工业6068450.7合计119693100(四)制统计表的编制和应注意的问题1、统计表的形式设计(1)统计表通常都应设计成纵横线交叉组成的长方形表格。(2)统计表一般采用开口式,表的左右两端不画纵线,表的上下端常用粗线封口,统计表的各栏可用⑴、⑵、⑶……统一编号。(3)为阅读方便,主词按次序排列的横行数据一般每隔五行要空一行。(4)统计表的注释、数字的资料来源等一般都写在表的下面以便核查,必要时还可附以简要文字说明,以明确统计表所反映的主要情况和问题。\n2、统计表的内容设计应注意(1)统计表中的数字要说明计量单位,如果全表只有一个统一的计量单位,可列在表的右上角;如各栏的计量单位不同时,则应将计量单位标写在纵栏标题的下方或右侧;当同行资料以同一单位计量,而各行计量单位不同时,则可在横行标题后添加一计量单位栏,用以标明各行的计量单位。(2)表中数字要填写整齐,位数对齐,同栏数字的单位、小数位要一致;如有相同数字应全部填写,不得写上“同上”字样;没有数字的格内要用“――”表示;当该栏缺资料或数据不足本表最小单位时,应用点线“……”标明,不得空栏,以示不是漏填。(3)表的下端必要时还要注明编表及发出日期、制表人及统计负责人签署等,以示对提交的数字负责,便于收表单位查询联系。(五)用EXCEL制作统计表例:某学院毕业生情况表①打开“统计表.xls”工作簿,选定“毕业生分配”工作表。②从“数据”菜单中选择“数据透视表和图表报告”选项,得到“数据透视表对话框”窗口。在第1步之中选择“数据清单或数据库”与“数据透视表”,单击“下一步”按钮。③在第2步中,确定数据区域A1:D31,单击“下一步”按钮。④在第3步中,确定数据透视表的位置,如图所示,但将其位置调整到“H1”单元格。然后,单击“版式”按钮,打开“版式”对话框如图所示。⑤将对话框右边的“分配单位”字段拖到左边的“行”区作为分组变量,再将右边的“性别”和“年龄字段拖到“列”区,作为交叉分析的变量,最后将右边的“分配单位”字段拖放到“数据”区域中,并选择计数项。最后,单击“确定”按钮,又回到“版式”对话框。⑥单击“确定”按钮,回到第3步,要注意数据透视表的位置,最后,单击“完成”按钮,得到交叉表如图所示。练习:有40名患者就诊等候时间如下:要求:将数据整理成组距数列,绘制次数分布直方图和次数分布曲线图患者就诊等候时间(分钟)1172139\n533442223233362923325537324311263237416418301844121712232521134237\n第3节综合指标用统计指标去概括和分析现象总体的数量特征和数量关系的方法,就叫综合指标法,简称综合指标。综合指标从它们的作用和方法特点的角度可概括为三类:总量指标(又称绝对指标)、相对指标和平均指标。一、总量指标(一)总量指标的概念和作用总量指标是反映社会经济现象在一定时间、地点、条件下的总规模或总水平的统计指标。也称为绝对指标或绝对数。表现形式:绝对数,有名数。例:1999年我国国内生产总值GDP为8964亿元,财政收入2004.8亿元,粮食产量37911万吨。(二)总量指标的种类⒈按反映内容分:⑴总体单位总量:总体单位数,如企业数、学校数、职工人数、学生人数等。⑵总体标志总量:总体单位数量标志值之和,如总产量、总产值、工资总额、税金总额等。⒉按反映时间状况不同分:⑴时期指标:在某一时期发展过程的总数量,如某种产品的产量、商品销售量(额)、工资总额、国民(内)生产总值、人口增长量、人口出生数等。⑵时点指标:在某一时刻上状况的总量,如人口数、商品库存量、固定资产的价值等。时期指标和时点指标的区别:⑴时期指标连续计数,时点指标间断计数;⑵时期指标具有累加性,时点指标不具有累加性;⑶时期指标受时期长短影响,时点指标不受时点间隔影响。(三)总量指标的计算⒈总量指标计算应注意的问题⑴同类现象才能加总;⑵明确总量指标的含义;⑶在统计汇总时,必须有统一的计量单位。\n⒉计量单位⑴实物单位①自然单位:人、辆②度量衡单位:千克、吨③双重单位或多重单位:千瓦/台、吨/马/艘④复合单位:吨公里、千瓦时(度)⑵货币单位①现行价②不变价⑶劳动单位:工时、工日二、相对指标(一)相对指标的概念和作用⒈概念相对指标是两个有联系的指标数值对比的结果。⒉作用⑴综合反映社会经济现象之间的比例关系;⑵使不能直接对比的事物进行比较;⑶便于记忆。⒊相对指标的表现形式⑴有名数:以分子、分母的双重单位表示例:人口密度(人/平方公里)人均国民生产总值(元/人)⑵无名数①系数②倍数③成数:1成=10%④百分数:%1/100⑤千分数:‰1/1000(二)相对指标的种类和计算方法1、计划完成程度相对指标(1)计划完成相对数的一般公式(2)计划完成相对数的计算1)根据总量指标计算某厂计划完成工业增加值200万元,实际完成220万元,则:\n2)根据相对指标计算计划完成程度例:某厂计划2000年劳动生产率要比上年提高4%,实际提高5%,则即:超额0.96%完成计划。例:某企业计划返ノ怀杀颈壬夏杲档?%,实际降低6%,则即:成本降低率比计划多完成1.05%。例单位:万元商场1996年1995年实际销售额1996年1995年增长(%)计划实际完成计划(%)销售额比重(%)销售额比重(%)甲120030122430.9102110011.27乙1000\n25102625.9102.690014.0丙180045171043.295.016404.3合计40001003960100――3640――(3)长期计划的检查1)水平法例某钢铁公司“八五”计划规定钢产量达到年产钢材630万吨,计划的执行情况如下表:某钢铁公司计划执行情况表时间1991年1992年1993年1994年1995年\n上半年下半年一季度二季度三季度四季度一季度二季度三季\n度四季度产量(万吨)420448238266140140147154161178182182合计(万吨)602合计(万吨)640合计(万吨)\n703该公司1995年共产钢材703万(161+178+182+182),所以其计划完成程度计算如下:表明超额11.59%完成了计划。这类计划完成的时间是以整个计划期内连续一年(够12个月,可以跨年度)的实际完成数达到计划规定水平的时间为准,以后的时间即为提前完成计划的时间了。如以1994年第三季度到1995年的第二季度这四个季度里,钢总产量已达640万吨,表明到此已超额完成了计划,这就意味着提前期超过了两个季度,那么是两个季度零多少天呢?现假定多x天,则提前完成计划的时间为:2个季度+X得x=232)累计法例某钢铁公司“八五”计划规定钢产量达2400万吨,计划的执行情况如下表:某钢铁公司计划执行情况表时间1991年1992年1993年1994年1995年上半年下\n半年一季度二季度三季度四季度一季度二季度三季度四季\n度产量(万吨)420448238266140140147154161178182182合计(万吨)2474合计(万吨)2656该公司“八五”期间共产钢材2646万吨,其计划完成程度为:2656/2400=11.67%其提前完成时间为:1个季度+XX=74÷182×90=36.59≈37天2、结构相对指标(1)定义(2)计算:例某班学生的性别构成情况按性分组绝对数人数比重(%)男3075女1025\n合计401003、比例相对指标(1)定义(2)计算:例在上例中某班男女生比例为3:1。4、比较相对指标(1)定义(2)计算:例,中国国土面积为960万平方公里,美国为937万平方公里,两者之比为5、强度相对指标(1)定义⒉计算:例,1998年末我国人口密度6、动态相对指标(1)定义温州市1-3季度工业总产值同比增度17%(三)正确运用相对指标的原则⒈注意可比性;⒉总量指标和相对指标结合起来使用;⒊多种相对指标结合使用。三、平均指标(一)平均指标的概念和作用1、概念:平均指标是指在同质总体内将各单位的数量差异抽象化,反映总体一般水平的代表值。在社会经济统计中常用的平均指标有:2、特点:\n(1)将数量差异抽象化;(2)必须具有同质性;(3)反映总体变量值的集中趋势。3、作用:(1)可用于同类现象在不同空间的比;(2)可用于同类现象在不同时间的比。(二)算术平均数1、算术平均数的基本公式:在计算算术平均数时,分子与分母必须同属一个总体,在经济内容上有着从属关系,即分子数值是分母各单位标志值的总和。也就是说,分子与分母具有一一对应的关系,有一个总体单位必有一个标志值与之对应。只有这样计算出的平均指标才能表明总体的一般水平。正是这点上,平均数与强度相对数表现出性质上的差异。强度相对数是两个有联系的不同总体的总量指标对比,这两个总量指标没有依附关系,而只是在经济内容上存在客观联系。以此标准来衡量,职工平均工资、农民人均粮食产量等是平均数;而人均收入、人均粮食产量是强度相对数。例:5名工人日产零件数为12,13,14,14,15件,计算平均每人日产量。算法:⒈用存储功能算:12,M+,13,M+,14,M+,14,M+,15,M+,RM,÷,5,=计算结果13.6注意:每次开机后按x→M键,清内存。⒉用统计功能计算开机,2ndF,ON,在0的上方出现STAT12,M+,13,M+,14,M+,14,M+,15,M+,X→M出现结果13.62、算术平均数的计算方法例,某车间24名工人对某种零件的生产情况如下表所示,求人无日产量。日产量(件)1819202122合计\n工人数(人)4395324各组产量(件)725718010566480平均日产量:拓展:这就是加权算术平均数的基本公式。例,表4-6某厂工人生产情况按日产零件分组x工人人数f20121422623824122510\n267272合计502ndF,ON,20,M+,21,×,4,M+,22,×,6,M+,23,×,8,M+,24,×,12,M+,25,×,10,M+,26,×,7,M+,27,×,2,M+,X→M结果为23.88在分组资料时,x用组中值代替。可见,加权算术平均数不但受各组标志值x的影响,而且也受各组次数f的影响。次数越多对标志总量的影响越大,次数越少对标志总量的影响越小。各组标志次数的多少在平均数的计算中具有权衡轻重的作用,因此,在统计上又称为权数。权数有两种形式:一种是以绝对数表示,称次数或频数;另一种是以比重表示,称频率。同一总体资料,用这两种权数所计算的加权算术平均数完全相同。权数采用频率形式计算平均数时,表现为:例略当各个标志值的权数都完全相等时,权数就失去了权衡轻重的作用,这时候,加权算术平均数就成为简单算术平均数。即:当时,则这就是简单算术平均数的计算公式。例题如前。(三)调和平均数1、简单调和平均数例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1斤,求平均价格。例2:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1元,求平均价格。\n在例1中,用简单算术平均数在例2中,先求早、中、晚购买的斤数。早1/0.5=2(斤)中1/0.4=2.5(斤)晚1/0.25=4(斤)实际上,例2是用下列公式计算:这就是简单调和平均数的公式。2、加权调和平均数例3:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买2元、3元、4元,求平均价格。这就是加权调和平均数公式:调和平均数是各个算术平均数倒数的算术平均数的倒数,是在资料受到限制的条件下算术平均数的一种变形。那么,如何判断在什么情况下可以采用算术平均数或调和平均数呢?关键在于以算术平均数的基本公式为依据如果缺分子资料,可用简单或加权算术平均数形式计算,如缺分母资料,可用简单或加权调和平均数计算。总之,根据所掌握产资料条件来决定。在已知每种价格x、销售量f时,求平均价格用加权算术平均数。在已知每种价格x、销售额m时,求平均价格用加权调和平均数。(四)几何平均数几何平均数是n项变量值连乘积的n次方根。1、简单几何平均数例:1994-1998年我国工业品的产量分别是上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这5年的平均发展速度。1.067,×,1.025,×,1.006,×,1.027,×,1.022,=,2ndf,,5,=出现结果:1.0309即103.1%2、加权几何平均数\n例:某投资银行25年的年利率分别是:1年3%,4年5%,8年8%,10年10%,2年15%,求平均年利率。1.03,×,(,1.05,,4,),(,1.08,,8,),(,1.1,,10,),(,1.15,,2,),=,2ndf,,25,=出现结果:1.086即108.6%四、众数(M0)㈠众数的概念众数是总体中出现次数最多的标志值。它能直观地说明客观现象分配中的集中趋势,用字母M0表示。例如某车间80名工人中技术等级为4级的有58人,人数最多,则4级为众数。用它表示该车间工人技术等级的一般水平。如果总体中出现次数最多的标志值不是一个,而是两个,那么,合起来就是复(双)众数。由众数的定义可看出众数存在的条件:就是总体的单位数较多,各标志值的次数分配又有明显的集中趋势时才存在众数;如果总体单位数很少,尽管次数分配较集中,那么计算出来的众数意义就不大;如果总体单位数较多,但次数分配不集中,即各单位的标志值在总体分布中出现的比重较均匀,那么也无所谓众数。众数是由标志值出现次数多少决定的,不受资料中极端数值的影响,这样增强了众数对总体一般水平的代表性。根据变量数列的不同种类,确定众数可采用不同的方法。㈡众数的计算方法单项数列确定众数—观察次数,出现次数最多的标志值就是众数。这种方法比较简单。如下表所列:表某种商品的价格情况价格(元)销售数量(公斤)2.002.403.00\n4.00206014080合计上面数列中价格为3.00元的商品销售量最多,即出现次数最多,则众数M0=3.00元。组距数列确定众数—观察次数,首先由最多次数来确定众数所在组,然后再用比例插值法推算众数的近似值。其计算公式为:下限公式:上限公式:式中:、分别表示众数所在组的下限、上限;表示众数所在组与以前一组次数之差;表示众数所在组与以后一组次数之差;d表示众数所在组的组距。由于各组次数可以用绝对数表示,亦可以用相对数表示,因而,根据次数来确定众数时,既可以根据绝对次数计算,也可以根据相对次数计算。例,某班学生统计学考试成绩情况表学生成绩x学生人数f学生人数比重(%)50以下50~6060~70\n70~8080~9090以上2414461042.55.017.557.512.55.0合计80100.0按绝对数计算:下限公式:按相对数计算:上限公式:㈢众数的特点从众数的计算可看到众数的特点:\n⒈众数是一个位置平均数,它只考虑总体分布中最频繁出现的变量值,而不受极端值和开口组数列的影响,从而增强了对变量数列一般水平的代表性。⒉众数是一个不容易确定的平均指标,当分布没有明显的集中趋势而趋均匀分布时,则无众数可言;当变量数列是不等距分组时,众数的位置也不好确定。五、中位数(Me)㈠中位数的概念:中位数是将各单位标志值按大小排列,居于中间位置的那个标志值就是中位数。㈡中位数的计算:⒈未分组资料:先将数据按从小到大顺序排列,如项数为奇数,居于中间的哪个单位标志值。中位数位次:例:有9个数字,2,3,5,6,9,10,11,13,14中位数为第5个,即9。先将数据按从小到大顺序排列,如项数为偶数,中位数为居于中间的那2个单位标志值的平均值。例:有10个数字,2,3,5,6,9,10,11,13,14,15中位数为第5个和第6个的平均值,即9.5。⒉如为单项式分组资料,要将次数进行累计,中位数为居于中间位置所对应的标志值。中位数的位次:由分组资料确定中位数与由未分组确定不同,这是因为由分组资料确定中位数,一般要通过累计次数计算,而累计次数有两种表示方法:向上累计和向下累计。如果按照确定中位数的位次,则在组距数列的情况下,根据向上累计次数和向下累计次数所计算的中位数不一致,而中位数只有一个。因而,确定中位数的位次通常采用而不采用。例:某厂工人日产零件中位数计算表按日产零件分组(件)工人数(人)向上累计次数26\n3132343641310142718831327547280合计80中位数位置=80/2=40按向上累计次数,到34所在组为54,到32所在组为27,故中位数应在34所在组,即中位数=34。⒊如分组资料为组距式,应先按的公式求出中位数所在组的位置,然后再用比例插值法确定中位数的值。其计算公式如下:\n下限公式(向上累计时用):上限公式(向下累计时用):式中:、分别表示中位数所在组的下限、上限;中位数所在组的次数;中位数所在组以前各组的累计次数;中位数所在组以后各组的累计次数;总次数;d中位数所在组的组距。例:某班学生统计学期末考试成绩情况表学生成绩(分)学生人数(人)人数向上累计人数向下累计50以下50~6060~7070~8080~9090以上2414\n46104262066768080787460144合计80――――中位数位次∵20﹤40﹤66∴中位数在70~80这一组代入下限公式计算:六、各种平均数之间的关系\n㈠算术平均数、几何平均数和调和平均数之间的关系⒈可以证明:设有两个不等的数值、,则:又即:也即:因此,这种关系,推广到有限的几个变量值也同样成立。例:假定5个工人,他们的劳动生产率水平分别是:10件/小时?2件/小时、15件/小时、20件/小时、30件/小时,则他们的劳动生产率正指标的平均数:⒉根据两个正数值计算的结果:如上例中㈡算术平均数()、众数(M0)中位数(Me)三者的关系⒈总体次数分配为对称的钟形分布时,三个平均数相等,即=Me=M0;⒉当总体分布呈右偏时,则:>Me>M0;⒊当总体分布呈右偏时,则:<Me<M0。英国统计学家卡尔·皮尔逊认为,当分布只是适当偏态时,三者之间的数量关系是:中位数Me与算术平均数的距离是众数M0与算术平均数距离的三分之一,即关系式为:。由此,可以推算出:在轻微偏态的次数分布中,一旦三者之中两者为已知时,就可以近似估计出第三者。以左偏为例:\n例如,某企业工人的月收入众数为800元,月收入的算术平均数为1100元,则月收入的中位数近似值是:∵>Me>M0∴分布为左偏。第4节离散趋势一、离散趋势指标的意义和作用㈠离散趋势指标的概念离散趋势是描述总体各单位标志值差别大小程度的指标,又称离散程度或离中程度、标志变动度。\n例某车间两个生产小组各人日产量如下:甲组:20,40,60,70,80,100,120乙组:67,68,69,70,71,72,73从下图可以看出甲组离散程度大,乙组离散程度小。㈡离散趋势指标的作用⒈离散趋势指标是评价平均数代表性的依据。⒉离散趋势指标反映社会经济活动过程的均衡性或协调性,以及产品质量的稳定性。二、全距㈠全距的概念与计算全距是总体各单位标志的最大值和最小值之差。R=Xmax-Xmin例:在第三章学生外语成绩例中,最低分为48分,最高分为96分,全距=96-48=48(分)㈡全距的特点:计算方便、易于理解、指标粗糙三、平均差\n㈠平均差的概念与计算平均差是各单位标志值对平均数离差绝对值的平均数。离差是总体各单位标志值与算术平均数之差,用公式表示为。由于各标志值与算术平均数的离差总和恒等于零,即,因此在计算平均差时,采用离差的绝对值来计算。计算公式未分组资料:分组资料:㈡平均差的特点:计算方便、易于理解、指标粗糙例:某乡耕地化肥施用量的平均差计算表按每亩耕地化肥施用量分组(千克)耕地面积(万亩)f组中值X总施肥量(万千克)Xf5~1010~1530707.512.5225875-8.85-3.85265.5269.515~2020~2525~30\n合计100501026017.522.527.5――1750112527542501.156.1511.15――115307.5111.51069⒈用加权平均数公式计算加权算术平均数2ndF,ON,7.5,×,30,M+,12.5,×70,M+,17.5,×,100,M+,22.5,×,50,M+,27.5,×,10,M+,X→M,结果为16.35⒉计算离差绝对值,分别为8.85、3.85、1.15、6.15、11.15\n⒊对离差绝对值计算加权平均数2ndF,ON,8.85,×,30,M+,3.85,×70,M+,1.15,×,100,M+,6.15,×,50,M+,11.15,×,10,M+,X→M,结果为4.11四、标准差㈠标准差的概念与计算平均差是各单位标志值与其算术平均数离差平方的算术平均数的平方根。计算公式未分组资料:分组资料:例:某企业工人日产量的标准差计算表按日产量分组(千克)工人数(人)f组中值X60以下60~7070~8080~9090~100100~110110以上101950362714855\n65758595105115-27.62-17.62-7.622.3812.3822.3832.387628.64405898.82362903.2200203.91844138.13887012.10168387.7152合计164――――36172.5616\n2ndF,ON,55,×,10,M+,65,×19,M+,75,×,50,M+,85,×,36,M+,95,×,27,M+,105,×,14,M+,115,×,8,M+,2ndF,RM,结果为14.85称为方差。五、离散系数标志变动度的数值大小,不仅受离散程度影响,而且还受平均水平高低的影响,因此,在平均数不相等时,不能简单根据标准差或平均差大小来比较离散程度。例:有两组工人日产量甲组:60、65、70、75、80乙组:2、5、7、9、12不能简单断言甲组离散程度大于乙组离散程度可以计算离散系数本例中即乙组的离散程度大于甲组。由此可见,当我们比较两组数据的离散程度时,如两组平均数相等,可以直接比较标准差;如两组平均数不等,则需比较两组的离散系数。第5节偏度与峰度资料:用EXCEL计算描述统计量用EXCEL计算平均数、标准差等描述性统计量有两种方法,一是用函数,二是用“数据分析”工具。第一次使用“数据分析”时,需在EXCEL工具菜单中选“加载宏”,选“分析工具库”。这样在“工具”菜单中就会出现“数据分析”。①打开“4数据描述.xls”工作簿,选择“网上冲浪”工作表。②打开“工具”菜单,选择“数据分析”选项,打开数据分析对话框如图所示。\n③双击“描述统计”项或先单击此项再选择“确定”按钮,描述统计对话框打开如图所示。④在“输入区域”中输入A1:A21。⑤由于所选数据范围包括一个标志名称,单击“标志位于第一行”选项边上的复选框。⑥单击“输出区域”项,旁边出现了一个输入框,单击此框出现插入符,单击C1,在输入框中出现输出地址“$B$1”,这是输出结果的左上角起始位置。⑦单击“汇总统计”,如不选此项,则Excel省略部分输出结果。⑧单击“确定”按钮,将产生输出结果,如下图所示。年龄年龄1618平均28.7519标准误差2.00246619中值2919模式1921\n标准偏差8.95529822样本方差80.1973724峰值-1.0166429偏斜度0.32571529区域2829最小值1630最大值4431求和57531计数20在上表中:平均—算术平均数标准误差—估计标准误差,在抽样调查一章会讲到中值—中位数模式—众数标准偏差—样本标准差S,分母除以n-1\n样本方差—S平方峰值—反映钟形分布峰高的一个指标偏斜度—反映偏斜程度的一个指标区域—全距,等于最大值减最小值计数—单位数案例研究“OldFaithful”间歇喷泉的喷发间歇喷泉是一种向空中喷出热水和热气的温泉,其名字的由来是因为这种喷泉要经过一段相对稳定的状态后才能喷发。有时它喷射的时间间隔不太稳定。Ohio(俄亥俄)州黄石国家公园中的“OldFaithful”间歇喷泉是世界上最著名的间歇喷泉之一。参观者们都希望到公园后不用等多久就能看到喷泉的喷发。国家公园的服务部门就在喷泉处安装了一个指示牌预报下次喷泉喷发的时间如下表所示。“OldFaithful”间歇喷泉喷发时间表开始时间持续时间预测区间预测下一次喷发时间6:351分55秒58分7:33am7:32接近4秒82分8:54am8:591分51秒58分9:57am10:124分33秒89分11:41am\n11:461分42秒58分12:44am中午吃饭2:061分41秒55分3:01am注:数据来源:《应用线性回归》第二版,作者:S.Weisberg。那么,公园是如何得到这个结果的呢?为了了解喷泉喷发间隔时间的规律,以1978年8月至1979年8月间喷泉222次喷发)的间隔时间记录为样本(见上表)进行分析。①打开”4数据描述.xls”工作簿,“喷泉“工作表。②单击“工具”菜单,选择“数据分析”选项,打开“直方图”对话框。③在输入区域输入单元格C1:C223,选择“标志”,在输出区域中输入单元格“D1”,选择“图表输出”,单击“确定”按钮。将所得的直方图进行修饰,便得到下图:从图中可以看出,喷泉喷发的间隔时间一般在40~100分钟内变动。但是,在数据中明显地存在两个子群,它们的中心大约分别在喷发间隔55分钟和80分钟,这样在图形中间形成一个缺口。然而我们利用描述统计分析工具所得的结果与此便大不一样。利用描述统计分析工具分析该喷泉的间隔时间,方法如下:①打开“4数据描述.xls”工作簿,选择“喷泉”工作表。②从“工具”菜单中选择“数据分析”选项,打开“描述统计”对话框。③在输入区域中输入“C1:C223”,选择标志位于第一行。“输出区域”选择D19。⑥选择“汇总统计”和“平均数置信度”,单击“确定”按钮,结果如下表所示。“OldFaithfaul”喷泉间隔时间描述统计表(表一)(表二)统计指标数值统计指标数值\n平均数71.00901偏度-0.48552标准误差0.859024全距53中位数75最小值42众数75最大值95标准差12.799018合计15764样本方差163.8189单位数222峰度-0.48552置信度1.692928由于描述统计指标的概括性与抽象性,容易使人对事物的真实情况产生误解。例如:从上表中可以看出平均间隔时间大约为71分钟。事实上,间歇时间大致呈现双峰分布,因而这一平均数并不能确切描述上述两个子群中任何一个子群的特征。按喷发持续的时间将观察值分成两组,可以对两种喷发的不同特性在更多细节上作出检测。下表是以喷发持续的时间是少于还是大于3分钟为依据分组,分别列出喷发间歇时间的主要统计指标。\n喷泉喷发间歇时间的主要描述统计指标间歇时间统计指标喷发时间<3分钟喷发时间>3分钟样本数67155平均数54.46378.161标准差6.29896.8911最小值42.00053.000中位数53.00078.000最大值78.00095.000根据上述统计指标和图表,可以得出一个简单的预测规律:一个持续时间少于3分钟的喷发将必然伴随着一个大约55分钟的间歇;一个持续时间大于3分钟的喷发将必然伴随着一个大约80分钟的间歇。并且,后者这种较长的间歇发生的可能性为67%。这样,通过一个非常简单的规则,国家公园的工作人员能够保证来黄石公园的游客不用等很长时间就会观看到“旧费尔斯福”间歇喷泉的喷发。\n第5章动态数列第1节动态数列的概念和种类一、动态数列的概念动态数列也称时间数列,是按时间先后顺序排列的一列数。时间数列具有两个基本要素,一是时间,二是各时间指标值。表90年代GDP(单位:亿元,当年价)199018547.9199121617.8199226638.1199334634.4199446759.4199558478.1199667884.6199774462.6199878345.2199981910.9\n二、动态数列的种类根据不同的研究任务,动态数列可用绝对数编制,也可以用相对数或平均数编制。所以,动态数列可分为绝对数动态数列、相对数动态数列和平均数动态数列三种。其中,绝对数动态数列是基本数列,其余两种不派生数列。㈠绝对数动态数列把一系列总量指标(统计绝对数)按时间先后顺序排列起来所形成的动态数列称为绝对数动态数列。如果按其所反映的社会经济现象所属的时间不同,绝对数动态数列又可分为时期数列和时点数列。⒈时期数列:各项指标反映某现象在一段时期内发展过程的总量,如工业总产值等。时期数列的特点:⑴各项数值是可加的⑵指标值大小与时期长短有关⑶每个指标数值通过连续登记而得⒉时点数列:各项指标反映某现象在一时点上所达到的水平,如职工人数、人口数等。时点数列的特点:⑴各项数值是不可加的⑵指标值大小与时期长短无关⑶每个指标数值通过一定时期登记一次而得㈡相对数动态数列把一系列同类相对指标按时间先后顺序排列起来所形成的动态数列称为相对数动态数列。例:90年代以来我国GDP指数(以上年为100%)1990103.81991109.21992114.21993113.51994112.6\n1995110.51996109.61997108.81998107.81999107.1㈢平均数动态数列把一系列同类的平均指标按时间先后顺序排列起来所形成的动态数列称为相对数动态数列。例91~98年我国职工年人平均工资(单位:元/年·人)1991234019922711199333711994453819955500199662101997642019987479\n三、动态数列的编制原则⒈⒉总体范围应该一致⒊指标的经济内容应该相同⒋计算口径(计算方法、计量单位)应该统一第2节动态数列分析指标一、动态数列水平分析指标反映现象发展水平的指标有:发展水平、平均发展水平、增长量和平均增长量。㈠发展水平发展水平是动态数列各个时期(时点)的指标数值。发展水平一般用总量指标表示,也可能用相对指标或平均指标表示。例:我国1995-1999年我国进出口总额指标19951996199719981999进出口总额(人民币亿元)23499.924133.826967.226857.729896.3如果用符号a0,a1,a2,a3,……an-1,an代表数列中各个发展水平,则在本例中,如果以1995年作为基期水平,记为a0,则1996年、1997年、1998年、1999年进出口总额分别用a1、a2、a3、a4表示,称为报告期水平或计算期水平。a0又称为最初水平;a1、a2、a3(······)又称为中间水平;a4(an)又称为最末水平。\n基期水平:作为对比基础时期的水平;报告期(计算期)水平:作为研究时期的指标水平。㈡平均发展水平(序时平均数)平均发展水平是不同时期发展水平的平均数。又称序时平均数或动态平均数。序时平均数和前面讲的一般平均数既有相同又有不同。相同点是两种平均数都是所有变量值的代表值,表现的都是现象的一般水平。不同点是序时平均数平均的是现象在不同时间上指标数值的差别,是从动态上说明现象的一般水平,是根据时间数列计算的;而一般平均数平均的是现象在同一时间上的数量差别,是从动态上说明现象的一般水平,是根据变量数列计算的。⒈由绝对数计算序时平均数⑴由时期数列计算序时平均数例如,某企业2000年上半年的月平均增加值的计算如下1月2月3月4月5月6月增加值(万元)21.418.623.539.235.728.2⑵由时点数列计算序时平均数⑴连续时点(日)数列①间隔相等(逐日登记)②间隔不等(间隔登记)例:某企业4月1日职工有300人,4月11日新进厂9人,4月16日离厂4人,则该企业4月份平均职工人数为⑵间断时点数列(月、季、年)①间隔相等:首末折半法\n某企业1998年第二季度商品库存额单位:万元日期3月4月5月6月月末库存额10086104114计算:100,÷,2,=,M+,86,M+,104,M+,114,÷,2,=,M+,RM,÷,3=,结果为99。②间隔不等:表某农场生猪存栏数日期1月1日3月1日8月1日10月1日12月1日生猪存栏数(头)14201400120012501460计算:1420,+1400,=,÷,2,=,×,2,M+,1400,+,1200,=,÷,2,=,×,5,M+,1200,+1250,=,÷,2,=,×,2,M+,1250,+1460,=,÷,2,=,×,3,M+,RM,÷,12,=结果为1319.58。⒉由相对数或计算序时平均数这里,为分子的序时平均数,为分母的序时平均数。⑴分清a、b为时期数列还是时点数列,分别求出a、b;⑵再用a、b对比。(三)增长量增长量=报告期水平-基期水平\n逐期增长量:a1-a0,a2-a1,….,an-an-1累计增长量:a1-a0,a2-a0,….,an-a0逐期增长量与累计增长量的关系是:逐期增长量之和等于累计增长量,即:累计增长量=∑各逐期增长量。用公式表示为:(an-a0)=(an-an-1)+……+(a3-a2)+(a2-a1)+(a1-a0)例:我国1994-1998年电冰箱产量年份19941995199619971998产量(万台)76891898010441060逐期增长量150626416累计增长量150212276292(四)平均增长量1994-1998年我国电冰箱年平均增长量:二、动态数列速度分析指标\n动态数列的速度分析指标,也即反映国民经济速度的主要指标有发展速度、增长速度、平均发展速度和平均增长速度。其中发展速度是基本的速度分析指标。㈠发展速度环比发展速度:,又叫作“年速度”,用X表示。定基发展速度:,又叫作“总速度”,用R表示。例:我国1994-1998年电冰箱生产发展速度年份19941995199619971998产量(万台)76891898010441060环比发展速度(%)――119.5106.8106.5101.5定基发展速度(%)100119.5127.6135.9138.0定基发展速度与环比发展速度的关系:⒈定基发展速度等于环比发展速度的连乘积⒉两个相邻的定基发展速度之比等于环比发展速度㈡增长速度增长速度=发展速度-1环比发展速度=环比发展速度-1\n定基增长速度=定期发展速度-1例:我国1994-1998年电冰箱生产发展速度与增长速度年份19941995199619971998产量(万台)76891898010441060环比发展速度(%)――119.5106.8106.5101.5定基发展速度(%)100119.5127.6135.9138.0环比增长速度(%)――19.56.86.51.5定基增长速度(%)――19.527.635.938.0\n注意①环比增长速度与定基增长速度这两个指标不能直接进行互相换算,如要进行换算,须先将环比增长速度加“1”化为环比发展速度后,再连乘得定基发展速度,然后再减“1”,才能求得定基增长速度。②发展速度大于1,则增长速度为正值,说明社会经济现象增长的程度时用“增加了”表示;反之,发展速度小于1,则增长速度为负值,说明社会经济现象降低的程度时用“降低了”表示。(三)平均发展速度式中:X1、X2…Xn代表各期环比发展速度。在什么情况下用算术平均数,什么情况下用几何平均数?例1某厂有四个车间,工序相同,一产品经过这四个车间加工,合格率分别为85%、90%、95%和80%,问该厂的平均合格率是多少?平均合格率=(85%+90%+95%+80%)/4=87.5%如四个车间工序不同,一产品在出厂前要分别经过它们加工,合格率分别为85%、90%、95%和80%,问该厂的平均合格率为是多少?例:我国1994-1998年电冰箱生产发展速度年份19941995199619971998产量(万台)76891898010441060环比发展速度(%)119.5106.8106.5101.5定基发展速度(%)100119.5\n127.6135.9138.0在上例中,1994-1998年电冰箱生产平均发展速度计算方法有以下几种:或用计算器计算开高次方如下:1.38,2ndF,,4,=,计算结果为1.084(四)平均增长速度=平均发展速度-11994年至1998年我国电冰箱生产平均增长速度为8.4%。第3节长期趋势预测一、长期趋势预测的意义⒈时间序列的影响因素⑴长期趋势T,⑵季节变动S,⑶循环变动C⑷不规则变动I。有两种分解方法加法模型:Y=T+S+C+I乘法模型:Y=T(S(C(I⒉长期趋势是研究某种现象在一个相当长时期内发展变动的趋势⒊长期趋势有两种基本形式⑴直线趋势⑵曲线趋势⒋描述长期趋势的工具:折线图或散点图将平面中的交点相继联接起来所得图形称为折线图,它一般用于描述某一变量在一段时期内的变动情况。例已知1990年至1999年各月社会商品零售总额,试观察一下社会商品零售总额的发展趋势及其变动规律。①打开“3分配数列.xls”工作簿,选择“零售额”工作表。\n②打开Excel“插入”菜单,选择“插入”菜单中的“图表”选项,Excel会启动“图表向导”。③在步骤1“图表类型”中选择“折线图”,及“数据点折线图”,单击“下一步”按钮,进入步骤2的向导窗口。④在步骤2中的数据区域中输入C1:D117,单击“下一步”按钮,进入向导“步骤3”。⑤在步骤3中单击图表“标题”页面,输入标题“社会消费品零售额趋势图”;单击“图例”页面,取消显示图例,如果通过图表预览,认为满意,即可单击“完成”按钮。经过修饰,得到下图。二、移动平均法㈠移动平均法的概念移动平均法是对原时间序列进行修匀,来测定其长期趋势的一种方法。3项移动平均,是将连续3项时间序列值的平均值作为其中间1项的移动平均值。5项移动平均,是将连续5项时间序列值的平均值作为其中间1项的移动平均值。移动(移动项数为n)平均后的数列,比原数列项数(假设为N)减少n-1项,移动后数列的项数为N-(n-1)=N=n+1。㈡移动平均法的步骤⒈用计算器算求41、42、52三项的算术平均数,放在与2月份对齐的地方,其余相同。\n灿肊XCEL作移动平均选定单元格C4,选“粘贴函数”,选AVERAGE,在对话框中输入地址“B3:B5”,回车,得到45。然后将该公式复制到C5:C13,即得到3项移动平均的结果。表某机器厂各月生产机器台数的移动平均数月份机器台数(台)3项移动平均值5项移动平均值141――――24245.00――35245.6744.644346.6746.654546.3348.865149.6746.475348.00488\n4048.0048.895146.6749.8104952.0050115653.00――1254――――三、最小平方法㈠最小平方原理设y为实际值,yc为估计值,现在要用一条曲线拟合实际值,而且要满足;为最小。例1如下图所示Yc=a+bx·········yn················y2····\ny1··EMBEDEquation.3为最小,㈡建立直线方程设直线方程为由最小平方原理,解得:在粮食产量例中,取1990年为1,1991年为2,即为t。年份粮食产量yt199019911992199319941995199619971998217230225\n248242253280309343123456789用计算器算得:n=9,,,,,,故直线方程为若预测1999年的粮食产量,t=10资料:利用Excel进行趋势预测㈠用函数⒈用LINEST建立直线方程在工作表中选择两个单元格E2、F2,在函数中选择LINEST,在对话框中输入相应的地址。\n同时按CTRL+SHIFT+回车在E2和F2出现两个参数14.267和189.44,即为b和a的参数。⒉用TREND函数进行预测在工作表中选定一个单元格,在函数中选择TREND,在对话框中输入相应的地址,按确定,即得到1999年粮食产量预测值332.11。㈡用添加趋势线作曲线方程书上P185某地区工业净产值的数据如下:从散点图可见,呈曲线趋势。曲线有以下形式:选取图中的折线,单击鼠标右键并从快捷菜单中选择“添加趋势线”选项,打开“添加趋势线”对话框如下图二次曲线:\n幂函数:指数曲线:或对数曲线:所示。选择“类型”页面,在“选项”中选择“显示公式”和“显示R平方值”。单击“确定”按钮。如下图所示。经比较,指数曲线的R平方较大,故应取指数曲线模型。如要预测1999年的工业净产值,将t=7代入模型,第4节季节变动的预测一、按月平均法㈠测定季节变动的两种方法季节变动是指在动态数列中存在季节因素。如要测定季节因素,有两种方法:⒈不考虑长期趋势影响—按月平均法⒉考虑长期趋势因素,先剔除长期趋势—移动平均趋势剔除法㈡按月平均法的步骤⒈将数据列表;⒉求出同月平均数;⒊求出总的月平均数;⒋求季节比率⒌求校正系数⒍求校正后的季节比率例:p189围巾销售量二、移动平均趋势剔除法长期趋势剔除法的计算步骤:⒈用移动平均法计算长期趋势。如为季节资料,用4项移动平均,移动平均后的值放在2、3项中间,这时需再用一次2项移动平均,移动平均后的值与原数列第3项对齐,记为T。⒉从时间数列中剔除掉T,就得到季节波动S,S=Y/T。⒊按季求S的平均数,为季节比率。⒋求校正系数。⒌求校正后的季节比率。例某厂各季度围巾销售量:\n第6章统计指数第1节指数的概念一、指数的概念㈠广义的概念:指一切说明社会经济现象数量对比关系的相对数。如动态相对数、比较相对数、计划完成相对数等都可以称为指数。㈡狭义的概念:指不能直接相加和对比的复杂现象综合变动的相对数。如:零售物价指数、股票价格指数、工业产品产量指数等。二、指数的作用㈠综合分析事物的变动方向和变动程度㈡分析多因素影响现象的总变动中,各个因素的影响大小和影响程度例:商品销售额=商品销售量×单位商品价格㈢研究事物在长时间内的变动趋势三、指数的种类由于着眼点不同,统计指数可以划分成不同的种类。㈠按照说明现象的范围不同分:⒈个体指数:说明单项事物动态比较指标,也叫单项指数。例如,说明一种商品价格动态的个体价格指数,说明一种产品产量动态的个体产量指数,以及个体销售量指数、个体成本指数等等。⒉总指数:说明多种事物综合动态比较指标。例如,说明多种商品价格综合变动的批发价格指数、零售价格总指数,说明多种产品产量综合变动的工业产品产量总指数,以及商品销售量总指数、成本总指数等等。㈡按照指标的内容不同分:⒈数量指标指数:是说明总体规模变动情况的指数。例如,工业产品物量指数,商品销售量指数,职工人数指数等。\n⒉质量指标指数:是说明总体内涵变动情况的指数。例如,价格指数,工资水平指数,单位成本指数。数量指标指数×质量指标指数=价值指标指数㈢按照指数表现形式不同分:⒈综合指数:两个总量指标对比。⒉平均指标指数:对个体指数用加权平均法算出的指数,分算术平均数指数和调和平均数指数。⒊平均指标对比指数:加权算术平均指标对比而计算的指数㈣按指数所说明的因素不同分:⒈两因素指数:商品销售额指数=商品销售量指数×商品价格指数⒉多因素指数:农产品产值指数=播种面积指数×单产指数×单价指数第2节综合指数的编制综合指数有两种:数量指标综合指数和质量指标综合指数。要编制综合指数,关键是要解决以下两个问题:⒈寻找同度量因素(与之相对:指数化指标)作用:同度量(媒介)作用,权数作用。⒉同度量因素固定在哪一期(基期还是报告期,拉斯贝尔认为:基期,派许:报告期)关于第一个问题:同度量因素的作用是把不能直接相加总的指标过渡为可以相加总的因素。例如,有下列三种商品表商品销售量和商品价格资料商品名称计量单位销售量价格(元)基期q0报告期q1基期p0报告期p1甲件48060025\n25已千克5006004036丙米2001805070假如要编制商品销售量综合指数,由于三种商品计量单位不同不能相加,用同度量因素(价格)把它过渡为销售额就可以相加了。假如要编制商品价格综合指数,因为:⒈三种商品的价格表面上看起来相同,都是“元”,但实际上不一样,甲的是“元/件”,乙的是“元/千克”,丙的是“元/米”;⒉三种商品的销售量是不同的,有的大,有的少,现在把它们的价格简单相加,无异于把它们的销售量同等看待,如此计算得出的价格综合指数,显然与事实不符,因而是不科学的;⒊商品的计量单位是人为规定的,如果把甲的计量单位改为“尺”,乙的改为“吨”,丙的改为“打”,用简单总和法得出的价格综合指数前后不同,这样,价格综合指数便没有确定的数值了,这显然不符合事实,因而也是不科学的。所以不能简单相加,用同度量因素(销售量)把单价过渡为销售额就可以相加了。由于:商品销售额=商品销售量×商品销售单价可以得出:编制商品销售量综合指数(数量指标综合指数)时,以商品价格(质量指标)为同度量因素;编制商品价格综合指数(质量指标综合指数)时,以商品销售量(数量指标)为同度量因素。即,商品销售量综合指数:商品价格综合指数:关于第一个问题:以分萍果为例,q030人q160人p02个/人p14个/人\n60个240个=180个q0×p0)(q1×p1)由于人数增加,需要增加的苹果数为:(60人-30人)×2个/人=60个(q1-q0)×p0=q1×p0-q0×p0由于每人平均苹果增加,需要增加的苹果数为:(4个/人-2个/人)×60人=120个(p1-p0)×q1=p1×q1-p0×q1或可以解释为:先有物,后有价,价不能超物出现。q1p0表示报告期的销售量按基期的价格计算,是有意义的;q0p1表示基期的销售量按报告期价格计算,是没有意义的;q1p0表示报告期的销售量按基期的价格计算,是有意义的;而q0p1表示基期的销售量按报告期价格计算,是没有意义的。一、数量指标综合指数数量指标指数是说明总体规模变动情况的相对指标指数。如商品销售量指数、产品产量指数等。例:试建立商品销售量综合指数。表商品销售量和商品价格资料商品名称计量单位销售量价格(元)基期q0报告期q1基期p0报告期p1甲件4806002525\n已千克5006004036丙米2001805070计算个体指数如下:由于同度量因素有基期和报告期,这里有个问题就是将价格固定在什么时期。如果固定在基期,称为拉式公式,计算公式为:如果固定在报告期,称为派式公式,计算公式为:可以证明,对数量指标综合指数,应将同度量因素固定在基期,即用拉式公式,计算公式为:可以解释为:先有物,后有价,q1p0表示报告期的销售量按基期的价格计算,是有意义的;而如果用派式公式,会出现q0p1表示基期的销售量按报告期价格计算,是没有意义的。商品销售量指数:二、质量指标综合指数质量指标指数是说明总体内涵数量变动情况的比较指标指数。例如:价格指数、成本指数。例:建立商品价格指数。计算个体指数如下:商品价格指数的计算公式如下:由计算商品价格指数,同度量因素为商品销售量,同样有个问题就是将销售量固定在什么时期。如果固定在基期,称为拉式公式,计算公式为:\n如果固定在报告期,称为派式公式,计算公式为:按照前面的解释,先有物,后有价,q1p0表示报告期的销售量按基期的价格计算,是有意义的;而q0p1表示基期的销售量按报告期价格计算,是没有意义的。因而对质量指标综合指数,应将同度量因素固定在报告期,即用派式公式,计算公式为:表商品销售量和商品价格资料商品名称计量单位销售量价格基期q0报告期q1基期p0报告期p1甲件4806002525已千克5006004036丙米2001805070商品销售量指数:\n第3节平均数指数的编制一、平均数指数的基本形式平均数指数实际上是综合指数公式的变形,如果因统计资料限制,不能用综合指数公式时,须改变公式形式。主要有以下两种:㈠加权算术平均数指数:主要适用于已知销售量个体指数和基期销售额的情况数量指标综合指数:质量指标综合指数:由此可得:指标名称综合指数加权算术平均加权调和平均数指数形式数指数形式数量指标质量指标由此可以看出,由综合指数变形为平均数指数的一般方法是:将综合指数变形为加权算术平均数指数时,应以相应的综合指数的分母为权数;将综合指数变形为加权调和平均数指数时,应以相应的综合指数的分子为权数。例:p217商品名称销售量个体指数kq=q1/q0基期销售额甲1.2512000乙1.220000丙0.9\n10000合计42000本例中,基期销售额是q0p0(二)加权调和平均数指数:主要适用于已知价格个体指数和报告期销售额的情况例:p218商品名称销售价格个体指数kp=p1/p0报告期销售额甲115000乙0.921600丙1.412600合计49200本例中,报告期销售额是q1p1二、平均指标指数的应用我国居民消费指数的编制,采用的是固定权数的方法,权数是以销售额来确定的。\n例:p221表某市居民消费指数商品类别和名称权数个体指数%㈠食品类46117.37㈡衣着类10108.34㈢家庭设备及用品12112㈣医疗保健类8108.42㈤交通和通讯类6124.28㈥娱乐教育文化用品类7108.54㈦居住类8110.84㈧服务项目类3106.87100\n计算公式为:把各大类指数乘以相应的权数即得到总指数:三、平均指标指数与综合指数的比较平均指标指数和综合指数是计算总指数的两种形式,它们之间既有区别,又有联系。从区别看:一是在解决复杂总体不能直接加总问题上的思路不同。综合指数是通过引进同度量因素,先计算出总体的总量,然后进行对比,即先综合,后对比。而平均指标指数是在个体指数的基础上计算总指数,即先对比,后综合。二是在运用资料的条件上不同。综合指数需要研究总体的全面资料,起综合作用的同度量因素的资料要求也比较严格,一般应采用与指数化指标有明确经济联系的指标,且应有一一对应的全面实际资料。平均指标指数则既适用于全面的资料,也适合于非全面的资料。三是在经济分析中具体作用亦有区别。综合指数的资料是总体的有明确经济内容的总量指标,因此,指数除可表明复杂总体的变动方向和程度外,还可从指数化指标变动的绝对效果上进行因素分析。平均指标指数除作为综合指数的变形加以应用的情况外,一般能通过总指数表明复杂总体的变动方向和程度,而不能对现象进行因素分析。平均指标指数和综合指数的联系主要表现在:在一定的权数条件下,两类指数间有变形关系。由于这种变形关系的存在,当掌握的资料不能直接用综合指数形式计算时,则可用它的变形的平均指标指数形式计算,这种条件下的平均指标指数与其相应的综合指数具有完全相同的经济意义和计算结果。四、几种常用的经济指数㈠固定资产投资价格指数是反映固定资产投资额价格变动趋势和程度的相对数。固定资产投资额是由建筑安装工程投资完成额、设备、工器具购置投资完成额和其他费用投资完成额三部分组成的。编制固定资产投资价格指数应首先分别编制上述三部分投资的价格指数,然后采用加权算术平均法求出固定资产投资价格总指数。㈡居民消费价格指数是反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格变动趋势和程度的相对数,是对城市居民消费价格指数和农村居民消费价格指数进行综合汇总计算的结果。利用居民消费价格指数,可以观察和分析消费品的零售价格和服务价格变动对城乡居民实际生活费支出的影响程度。㈢股票价格指数\n⒈上证综合指数:是上海证券交易所股价指数,以1990年12月19日为基期,以现有所有上市的股票为样本,以报告期股票发行量为权数进行编制。⒉深证综合指数:它是以基期的发行量作为权数来计算的,以所有在深圳证券交易所上市的股票为样本,以1991年4月3日为基日,基日指数定为100。㈣进出口贸易指数包括:进出口总值指数、进出口价格指数和进出口物量指数。进出口总值指数=进出口价格指数×进出口物量指数第4节指数体系一、指数体系的概念和作用㈠概念指数体系是由三个或三个以上有联系的指数所组成的数学关系式。例如:商品销售额指数=商品销售量指数×商品销售价格指数㈡作用⒈可用来推算体系中某一个未知的指数。⒉可以作因素分解。二、指数体系的编制和应用㈠两因素综合指数的指数体系⒈进行因素分解例:销售额=销售量×价格→m=q×p⒉写出各因素的指数销售额指数为总量动态指标,等于报告期的销售额除以基期销售额,即:销售量指数为数量指标指数销售价格指数为质量指标指数⒊建立指数体系销售额指数=销售量指数×销售价格指数上述指数体系为方便记忆,可以按如下方法记忆:首先是量在前,价在后。Σq0p0变到Σq1p1,先是量变,价不变,即Σq1p0;然后由Σq1p0变到Σq1p1变。写成指数体系有⒋进行绝对量分解例:按下列数据进行因素分解表商品销售量和商品价格资料商品名称\n计量单位销售量价格基期q0报告期q1基期p0报告期p1甲件4806002525已千克5006004036丙米2001805070销售额动动态指数:销售量指数:销售价格指数:相对数分析:117.14%=114.29%102.5%绝对数分析:(49200-42000)=(48000-42000)+(49200-48000)\n7200=6000+1200分析数字表明:销售额上升17.14%,是由于销售量上升14.29%,销售价格上升2.5%。从绝对量看:销售额增加7200元,是由于销售量影响增加6000元,销售价格上升影响增加1200元。㈡多因素指数体系⒈进行因素分解例:原材料费用总额=生产量×单位产品原材料消耗量×单位原材料价格=q×m×p注意:因素分解时,仍要注意量在前,价在后。⒉相对数分析:上述指数体系为方便记忆,可以按如下方法记忆:变到,先是q变,m、p不变,即;其次是m变,p不变,即;最后是p变,即。⒊绝对数分析例:按下列数据进行多因素分析表总量指标变动的多因素分析计算表原材料种类产品种类生产量单位产品原材料消耗量单位原材料价格Q0Q1moM1P0P1甲(千克)A(件)6008000.50.4\n2021乙(米)B(套)40040010.91514丙(米)C(套)80010002.22.33028合计⒈计算一些中间结果:=64800;=80000,=80800;=76160。⒉相对数分析:117.53%=123.46%×101%×94.26%原材料费用总额指数:生产量指数:原材料单耗指数:\n原材料单价指数:⒊绝对数分析:76160-64800=(80000-64800)+(80800-80000)+(76160-80800)11360=15200+800+(-4640)即分析数字表明:原材料费用上升17.53%,是由于产量增加影响上升23.46%,单耗增加影响上升1%,原材料单价降低影响下降5.76%。从绝对量看:原材料费用上升11360元,是由于产量增加影响上升15200元,单耗增加影响上升800元,原材料单价降低影响下降4640元。三、指数体系中的因素推算因素推算是根据已知因素推算未知因素例:用同一数量人民币,报告期比基期多购买商品5%,问物价是如何变动的?商品销售额指数=商品销售量指数×物价指数100%=105%×物价指数第3章抽样推断第1节随机抽样原理一、抽样推断涵义抽样推断是以概率分布为理论依据,按照纯随机的原则,从总体中抽取一部份单位进行研究,然后用样本统计量以一定的精度和可靠程度去判断总体有关参数及分布状况,从而达到认识总体数量特征的目的。二、抽样的基本概念(一)全及总体和抽样总体㈠总体⒈概念:研究对象的全体。⒉总体的分类总体按各单位标志性质不同,可分为:\n⑴变量总体:各单位可用数量标志计量。①无限总体:变量值无限,分为可列或连续。②有限总体:变量值有限。⑵属性总体:各单位用品质标志描述。⒊总体单位数:N㈡样本⒈概念:将从总体中抽取的部分单位称为样本⒉样本的大小:大样本超过30,小样本小于30⒊样本的容量:n(二)全及指标和抽样指标㈠总体指标:根据总体各单位标志值计算的、反映总体属性的指标。主要有:总体平均数总体方差总体标准差㈡抽样指标:根据样本各单位标志值计算的、反映样本属性的指标。主要有:样本平均数总体方差总体标准差在属性总体中,设N1个单位具有某种属性,N0个单位不具有某种属性,则,称为总体成数。称为样本成数。称为总体是非标志标准差。称为样本是非标志标准差。有些社会经济现象,只表现为两种性质上的差异,例如,产品的质量表现为合格或不合格,对某一电视节目,观众表现为收看或不收看,学生成绩表现为及格或不及格等等,这些只表现为是或否、有或无的标志称为交替标志,也称作是非标志。㈠成数。总体中,交替标志只有两种表现,我们把具有某种表现或不具有某种表现的单位数占全部总体单位数的比重称为成数。若p和q分别表示具有与不具有某种标志的成数,则同一总体两种成数之和等于1。用公式表示为:p+q=1或q=1-p\n㈡交替标志的平均数。交替标志表现了现象质的区别,因此计算期平均数首先需要将交替标志的两种表现进行量化处理。用“1”表示具有某种表现,用“0”表示不具有某种表现,则:xfxf是1pp1-p非01-p00-p合计11p-------------㈢交替标志的标准差。注意:在有些书上,样本标准差用s表示在计算器上,有σ和s按钮,σ代表总体标准差,S代表样本标准差。在EXCEL“数据分析”“描述统计”中计算的样本方差即是按上面公式计算的。三、抽样方法\n抽样方法按抽取样本的方式不同分为重复(置)抽样和不重复(置)抽样。㈠重复(置)抽样:是从全及总体抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现后,把它放回到全及总体中去,再从全及总体中随机抽取第二个样本单位,记录它的有关标志表现后,也把它放回全及总体中去,照此下去直到抽选第n个样本单位。可见重置抽样时:①总体单位数在抽选过程中始终不变;②总体中各单位被抽中的可能性前后相同;③总体中各单位有被重复抽中的可能。㈡不重复抽样:是从全及总体抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现后,这个样本单位不再放回全及总体参加下一次抽选;然后,从总体N-1个单位中随机抽取第二个样本单位,记录它的有关标志表现后,该单位也不放回全及总体中去,从总体N-2个单位中抽取第三个样本单位,照此下去直到抽选出第n个样本单位。可见,不重置抽样时:①总体单位数在抽选过程中逐渐减少;②总体中各单位被抽中的可能性前后不断变化;③总体中各单位没有被重复抽中的可能四、抽样推断的理论依据(一)大数法则随着抽样单位数n的增加,抽样平均数有接近总体平均数的趋势,几乎具有实际的必然性。(二)中心极限定理如果总体变量存在有限的平均数和方差,则不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋于正态分布。第2节抽样分布一、抽样分布的涵义二、样本平均数的抽样分布三、样本成数的抽样分布第3节抽样误差一、抽样误差的概念㈠抽样误差的一般概念。\n抽样误差是指样本指标与总体指标之间的差距。表示为:、。㈡统计调查误差种类按产生的原因分,统计调查误差可分为登记性误差和代表性误差。登记性误差是指统计调查时,由于主观原因在登记、汇总、计算、过录中所产生的误差。登记性误差不论全面调查或非全面调查都可能产生。代表性误差又可分为两种:系统性误差和随机误差。系统性误差又称偏差,它是由于抽样调查没有遵循随机原则而产生的误差。只要遵循随机原则就可以避免。随机误差又称偶然的代表性误差,它是指没有登记性误差的前提下,又遵循了随机原则所产生的误差。随机误差是抽样调查固有的误差。抽样误差是指这种随机误差。抽样误差包括抽样实际误差和抽样平均误差两种。抽样实际误差是指某一样本指标与被它估计的总体指标产差数。抽样平均误差,从一般意义上说是所有抽样实际误差的平均水平。确切地说,抽样平均误差是所有样本指标(样本平均数和样本成数)的标准差。二、抽样平均误差(一)抽样平均误差的意义抽样平均误差是一系列抽样指标的标准差。例:总体为2、3、4,从总体中按重复抽样抽出两个单位组成样本。序号样本总量样本平均数[1][2]12221\n2232.50.25324304322.50.25533306343.50.25742308433.50.259444\n110333求抽样平均误差就是求所有可能样本平均数的标准差。用计算器求2、2.5、3、2.5、3、3.5、3、3.5、4的标准差得即为抽样平均误差。(二)影响抽样平均误差的因素⒈全及总体标志的变动程度()全及总体标志变异程度大,抽样平均误差大;反之,全及总体标志变异程度小,抽样平均误差小。⒉样本单位标志的变异程度(S)⒊样本容量(n)的多少样本容量愈大,抽样平均误差愈小;反之,样本容量愈小,抽样平均误差愈小。⒋抽样组织的方式有简单随机抽样、类型抽样、整群抽样、机械抽样等。(三)抽样平均误差的计算1、抽样平均数的抽样平均误差前面已经举例说明了直接按照可能抽样平均数求标准差的方法计算,但该方法太繁。可以证明:(1)在重复抽样下抽样平均误差σ为总体标准差,n为样本单位数,在总体标准差未知,且样本单位数较大时,可以用样本标准差代替。例:从40、50、70、80中抽取3个组成样本,在重复抽样下,求抽样平均误差。1)求总体标准差,直接用计算器统计功能键可以求出:2)求抽样平均误差(2)在不重复抽样下抽样平均误差σ为总体标准差,n为样本单位数,N为总体单位数。例:从40、50、70、80中抽取3个组成样本,在不重复抽样下,求抽样平均误差。\n⒈求总体标准差,直接用计算器统计功能键可以求出:2、抽样成数的抽样平均误差前面已经介绍过抽样成数的概念,总体成数是总体中具有某种属性的单位占所有单位的比重,用P表示,不具有某种属性的比重用Q表示;样本中具有某种属性用p表示,不具有某种属性用表示。可以证明:总体平均数=P总体标准差样本标准差求样本平均数和样本成数的抽样平均误差。使用时间(小时)抽查灯泡个数(个)组中值900以下2875900~9504925950~1000119751000~10507110251050~11008410751100~11501811251150~120071175\n1200以上31225合计200(1)求灯泡平均使用时间、标准差和灯泡合格率(样本)(2)求灯泡使用时间抽样平均误差:在重复抽样下抽样平均误差在不重复抽样下抽样平均误差⒊求灯泡合格率的抽样平均误差:在重复抽样下抽样平均误差在不重复抽样下抽样平均误差三、抽样极限误差㈠概念:抽样极限误差是指总体指标和抽样指标之间误差的可能范围。⒈抽样平均数的抽样极限误差⒉抽样成数的抽样极限误差㈡总体范围的估计若有了抽样极限误差,则总体平均数和总体成数的可能范围可以用下式估计:⒈抽样平均数的范围⒉抽样成数的极限误差例:要估计一批产品的合格率,从1000件产品中抽取200件,其中有10件不合格品,如果确定抽样极限误差的范围为2%,试估计产品合格率的范围。样本成数p=190/200=95%总体成数下限=95%-2%=93%总体成数上限=95+2%=97%即该产品合格率在93%~97%之间。㈢抽样极限误差与抽样平均误差的关系抽样极限误差通常用抽样平均误差的倍数表示,即\nt称为概率度。第4节参数估计一、参数估计概述1、参数估计的涵义2、估计量与估计值3、估计量的标准二、点估计1、点估计的涵义2、总体平均数的点估计3、总体成数的点估计4、总体方差的点估计三、区间估计1、区间估计原理2、总体平均数的区间估计3、总体成数的区间估计(1)、可信程度可信程度是表示估计的可靠程度如果估计区间越大,则可靠程度越大;估计区间越小,则可靠程度越小。而估计区间又与抽样极限误差有关,在一定的抽样方式下,抽样极限误差又是由概率度t决定的。因而可靠程度与t之间有一定正比关系。概率度t与概率保证程度(可靠程度)之间的关系见表。\n概率度t误差范围(△)概率F(t)概率度t误差范围(△)概率F(t)0.50.50.38291.961.960.95001.001.000.68272.002.000.95451.501.500.86643.003.000.9973例:若概率为0.95,查表得t=1.96(2)、抽样推断抽样推断的步骤如下:A.计算抽样平均误差B.给定概率保证程度,查表得概率度tC.计算抽样极限误差D.估计总体指标区间某灯泡厂某月生产5000000个灯泡,在进行质量检查中,随机抽取500个进行检验,这500个灯泡的耐用时间见下表:耐用时间(小时)灯泡数组中值800~850\n35825850~900127875900~950185925950~10001039751000~10504210251050~110081075试求:⑴该厂全部灯泡平均耐用时间的取值范围(概率保证程度0.9973)⑵检查500个灯泡中不合格产品占0.4%,试在0.6827概率保证下,估计全部产品中不合格率的取值范围。求解如下:⑴①计算抽样平均误差②由概率保证程度0.9973,查表得概率度t=3③计算抽样极限误差④估计总体指标区间⑵p=0.4%概率保证程度为0.6827时,t=1\n第5节样本容量的确定一、影响必要样本容量的因素⒈总体各单位标志变异程度即总体方差或p(1-p)的大小。总体标志变异程度大,要求样本容量大一些;反之,总体标志变异程度小,样本容量可以小些。⒉允许的极限误差或的大小允许的极限误差越大,样本容量越小;反之,极限误差越小,样本容量越大。⒊抽样方法在其它条件相同的情况下,重置抽样比不重置抽样要抽取多一些样本单位。⒋抽样方式例如,采用类型抽样的样本容量要小于简单随机抽样的样本容量。抽样推断的可靠程度即概率度F(t)的大小推断的可靠程度要求越高即F(t)越大,样本容量越多;反之,推断的可靠程度要求越低,样本容量越少。二、必要样本容量的计算⒈重置抽样的必要样本容量⑴平均数的必要样本容量,由⑵成数的必要样本容量,由⒉不重置抽样的必要样本容量⑴平均数的必要样本容量,由⑵成数的必要样本容量,由例:从某企业400名工人中随机抽取10%进行调查,获得日产零件资料如下:日产零件数(件)工人数(人)100以下4100~20010200~30020\n300以上6合计40已知样本方差s2=300要求:⑴在不重复抽样情况下以95.45%(t=2)的可靠性估计平均每位工人的日产零件的置信区间。⑵若在其它条件不变的情况下,使极限误差减少20%,则至少应抽多少工人进行调查。已知:N=400人,n=40人,⑴在不重复抽样情况下以95.45%(t=2)的可靠性估计平均每位工人的日产零件的置信区间的区间范围:[214.72,225.28]⑵在其它条件不变的情况下,使极限误差减少20%,则至少应抽60名工人进行调查。第4章相关与回归第1节变量间的相互关系一、函数关系与相关关系现实世界中现象之间存在着两种关系㈠函数关系两个变量的关系是确定的,可以用一个数学表达式表示出来。例:圆的面积与半径的关系S=πR2L=πR\n㈡相关关系两个变量的关系确实存在,但关系数值是不固定的相互依存关系。例:身高与体重的关系、施肥量与产量的关系。㈢相关关系与函数关系的区别⒈函数关系是变量之间的一种完全确立性的关系。即某一变量发生变化,另一变量就有一个确定值与之相对应;相关关系一般是不完全确定的关系,即对自变量的一个值,与之对应的因变量值不是唯一的。⒉函数关系通常可以用数学公式准确的表示出来。二、相关关系的种类㈠根据自变量的多少划分⒈单相关:只有一个自变量。⒉复相关:有两个及两个以上的变量。㈡根据相关的形式不同划分⒈线性相关(直线相关):当一个变量变动时,另一个变量也相应发生大致均等的变动。⒉非线性相关(曲线相关):当一个变量变动时,另一个变量也相应发生变动,但这种变动是不均等的。㈢根据相关关系的方向划分⒈正相关:两个变量之间的变化方向一致,都是增长趋势或下降趋势。⒉负相关:两个变量变化趋势相反,一个下降而另一个上升,或一个上升而另一个下降。㈣根据相关关系的程度来划分⒈不相关:两个变量彼此的数量变化互相独立。⒉完全相关:一个变量和数量变化由另一个变量的数量变化所唯一确定。(函数关系)⒊不完全相关:介于不相关和完全相关。三、散点图和相关表例近年来国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季销售额的数据资料,并想根据高校的数据决策其投资规模。操作过程:①打开“8简单线性回归.xls”工作簿,选择“饭店”工作表,如下图所示,该表为相关表。\n②从“插入”菜单中选择“图表”选项,打开“图表向导”对话框如下图所示。在“图表类型”列表中选择XY散点图,单击“下一步”按钮。③在数据区域中输入B2:C11,选择“系列产生在—列”,如下图所示,单击“下一步”按钮。④打开“图例”页面,取消图例,省略标题,如下图所示。\n⑤单击“完成”按钮,便得到XY散点图如下图所示。四、相关系数的测定与应用相关系数的计算有两种方法:㈠用计算器计算例序号xy11.262228633.18043.811055115\n66.113277.213588160n=8,,,,,㈡用计算机计算⒈选取“工具”-“数据分析”⒉选“相关系数”⒊选“确定?⒋输入“输入区域”⒌输入“输出区域”⒍在“分组方式”中选“逐列”⒎选“标志位于第一行”⒏确定出现结果如下:xyx1.00000.9697y0.96971.0000五、相关系数的评价相关系数的范围在-1到1之间,即1≤r≤1,当r=1为完全正相关,r=-1,为完全负相关,r=0为不相关。r的范围在0.3-0.5是低度相关;\nr的范围在0.5-0.8是显著相关;r的范围在0.8以上是高度相关。第2节一元线性回归模型一、回归分析的概念㈠回归分析就是对具有相关关系的变量之间的数量关系进行测定,确定一个相应的数学表达式。㈡回归分析的种类:⒈按自变量x的多少,可以分为一元回归和多元回归;⒉按y与x曲线的形式,可以分为直线回归和曲线回归。二、一元线性回归模型㈠简单直线回归方程的确定⒈简单直线回归分析的特点⑴在两个变量之间,必须确定哪个是自变量,哪个是因变量⑵回归方程的主要作用是用自变量来推算因变量。⒉简单直线回归方程的确定设y为实际值,yc为估计值,现在要用一条直线拟合实际值,而且要满足为最小。由最小平方原理,可得:⑴用计算器算得:n=8,,,,,,,故直线方程为yc=51.31+12.9x例:某厂商品销售量和商品价格如下表所示\n商品销售量q(百件)商品价格p(元)pqP23382646432.59292.581261128612127123241442512.5312.5156.2523.513305.5169211429419616.516264256\n1717289289219.5112.52631.51476.25q=a+bp那么预测商品价格为20元时的销售量qc=50.51-2.09pq20=50.51-2.09×20=8.71(百件)若自变量为时间,则用t表示,此时,直线方程为:y=a+bt由最小平方原理可得:若,则那么,怎样使得年编(序)号:奇偶1990-2-51991-1-319920-119931+119943+31995+5例:某游览点历年观光游客的数量如下表,用最小平方法建立直线方程,并预2005年的游客数量。\n年份时间序号游客(万人)T2ty19931-310019100-30019942-211244224-22419953-112591375-1251996401401605600199751155\n25177515519986216836410083361999731804991260540合计280980140284302382Y=a+btYc=85.44+13.64ty2005=85.44+13.64×13=262.76万人若,则Yc=140+13.64tY2005=140+13.64×9=262.72万人\n估计标准误差:已知yc=64-1.4x=45,=7.2,试求:,r,⑵先作图表,然后添加趋势线。①用鼠标激活散点图,把鼠标放在任一数据点上,单击鼠标右键,打开菜单,在菜单栏里选择“添加趋势线”选项。②打开“类型”页面,选择“线性”选项,Excel将显示一条拟合数据点的直线。③打开“选项”页面如下图所示,在对话框下部选择“显示公式”和“显示R平方根”选项,单击“确定”按钮,便得到回归图如下图所示。关于多元线性回归:多元回归方程为要估计参数a、b1、b2手工计算较繁,可以用EXCEL数据分析功能完成。例,某地区玻璃销售量与汽车产量、建筑业产值资料如左,试建立回归模型。⒈操作过程①打开“8回归.xls”工作簿,选择“玻璃”工作表。\n②在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框如下图所示。年份玻璃销售额(万元)y汽车产量(万辆)x1建筑业产值(千万元x212803.9099.432281.55.11910.363337.56.66614.54404.55.33815.755402.14.32116.7864526.11717.447431.75.55919.778582.3\n7.9223.769596.65.81631.6110620.86.11332.1711513.64.25835.0912606.95.59136.42136296.67536.5814602.75.54337.1415656.76.93341.316778.57.63845.6217877.67.752\n47.38合计9054101.268471.1③在“分析工具”列表中选择“回归”选项,单击“确定”按钮,打开“回归”对话框如下图所示。④在Y值输入区域中输入B1:B19。⑤在X值输入区域中输入C1:D19。⑥选择“标志”,置信度选择95%。⑦在“输出选项”中选择“输出区域”,在其右边的位置输入“E1”,单击“确定”按钮。输出结果如下图所示。回归分析工具的输出解释:\nExcel的回归分析工具计算简便,但内容丰富,计算结果共分为三个模块:回归统计表方差分析表回归参数⑴回归统计表回归统计表包括以下几部分内容:MultipleR(复相关系数R):R2的平方根,又称为相关系数,它用来衡量变量x和y之间相关程度的大小。上节例中:R为0.9468,表示二者之间的关系是高度正相关。RSquare(复测定系数R2):用来说明用自变量解释因变量变差的程度,以测量同因变量y的拟合效果。上节例中:复测定系数为0.9731,表明用自变量可解释因变量变差的97.31%。AdjustedRSquare(调整复测定系数R2):仅用于多元回归才有意义,它用于衡量加入独立变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修正的R2也要增大,修正的R2仅用于比较含有同一个因变量的各种模型。标准误差:又称为标准回归误差或叫估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值越小,说明拟合程度越好。观测值:是指用于估计回归方程的数据的观测值个数。⑵方差分析表方差分析表的主要作用是通过F检验来判断回归模型的回归效果。⑶回归参数表如上图所示,回归参数表是表中最后一个部分:图中,回归参数如下:Intercept:截距β0第二、三行:β0(截距)和β1(斜率)的各项指标。第二列:回归系数β0(截距)和β1(斜率)的值。第三列:回归系数的标准误差第四列:根据原假设Ho:β0=β1=0计算的样本统计量t的值。第五列:各个回归系数的p值(双侧)第六列:β0和β195%的置信区间的上下限。\n故直线方程为:yc=19.16+35.68x1+10.86x2关于曲线回归㈠引例:有下列数据,试分析y与的x关系,并预测当x=28时的y值。销售额x流通费率y1.574.54.87.53.610.53.113.52.716.52.519.52.422.52.325.52.2㈡作散点图如下,y与x是曲线关系。㈢在“图表”中选“添加趋势线”选曲线类型在“选项”中选“显示公式”和“显示R平方值”确定㈣经试验不同模型,曲线方程如下:⒈线性y=0.165x+5.6275R2=0.7351⒉对数y=-1.713lnx+7.3979R2=0.9733⒊二次函数y=0.0132x2-0.5225x+7.246R2=0.9537⒋幂函数y=8.5173x-0.4259R2=0.9928⒌指数函数y=5.6852e-0.0437xR2=0.8502幂函数效果最好。㈤预测⑴双击趋势线,打开“趋势线格式”,单击“选项”\n⑵若预测x=28时y值,在“前推”中设置2.5⑶确定⑷在图表中可以找到x=28对应的y值,约为2。第7章统计决策第8章国民经济统计核算PAGEPAGE1图表174.83.63.1\n2.72.52.42.32.2流通费率ySheet11.574.54.87.53.610.53.113.52.716.52.519.52.422.52.325.52.2Sheet1\n流通费率ySheet2Sheet3图表1628680110115132135160生产费用\n(万元)y生产费用与产量散点图图表2628680110115132135160生产费用(万元)y生产费用与产量散点图y=12.896x+51.323R2=0.9403\n图表1\n5810588118117137157169149202饭店饭店学生人数(千人)季营业额(千元)125826105388848118512117616137720157820169922149\n1026202饭店0000000000成本产量产量(x)成本(y)yhaty-yhat(y-yhat)^2xbarx-xbar(x-xbar)^2ybary-ybar(y-ybar)^2(x-xbar)(y-ybar)1.051.524.347-2.8277.9955.452-4.40219.37917.284-15.764248.4969.3934.2113.7313.6330.0970.0095.452-1.2421.54317.284-3.55412.6284.414\n5.1013.0716.249-3.17910.1055.452-0.3520.12417.284-4.21417.7541.4846.2022.8119.4813.32911.0815.4520.7480.55917.2845.52630.5414.1338.7530.5826.9753.60512.9995.4523.29810.87617.28413.296176.79543.852.389.328.2561.0641.1325.452-3.0729.43817.284-7.96463.41824.4651.495.525.64-0.120.0155.452-3.96215.69917.284-11.764138.38246.6094.7115.2315.1030.1270.0165.452-0.7420.55117.284-2.0544.2171.5247.2122.3322.449-0.1190.0145.4521.7583.0917.2845.04625.4668.8714.8618.9615.5443.41611.6725.452-0.5920.35117.2841.6762.81-0.9939.9827.6630.589-2.9298.5795.4524.52820.50117.28410.376107.6746.9839.2027.0628.297-1.2371.535.4523.74814.04617.2849.77695.57936.6418.3324.2825.74-1.462.1335.4522.8788.28217.2846.99648.9520.135\n2.869.909.6660.2340.0555.452-2.5926.71917.284-7.38454.51719.139合计76.33241.97241.97067.33576.33-0111.158241.97-01,027.219326.648均值5.45217.284SSESXXSST截距b01.262MSE5.611斜率b12.939b1标准误0.225测定系数0.9348.206t13.079P值0用函数计算截距b01.262=INTERCEPT(C2:C15,B2:B15)斜率b12.939=SLOPE(C2:C15,B2:B15)估计标准误差2.369=STEYX(C2:C15,B2:B15)测定系数0.934=RSQ(C2:C15,B2:B15)住房\n样本面积(平方米)价格(千元)SUMMARYOUTPUT128164.9215.554.9回归统计314.569.9MultipleR0.848465656412.459.9RSquare0.71989396940.62751984AdjustedRSquare0.698347351761248.5标准误差46.5340633483732387.5观测值15817.542.5924103.5方差分析1020119.5dfSSMSFSignificanceF111669.9回归分析172348.808327838272348.808327838233.41099648630.00006381071214.958.9残差1328150.44767216182165.41905170481320.496总计14100499.2561419.5104.81522.5116.9Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%\nIntercept-140.125230828544.1500238567-3.17384269790.0073274483-235.5055401575-44.7449214996-235.5055401575-44.7449214996面积(平方米)12.78098009172.2111563075.78022460520.00006381078.004068232717.55789195078.004068232717.5578919507RESIDUALOUTPUTPROBABILITYOUTPUT观测值预测价格(千元)残差百分比排位价格(千元)1217.7422117391-52.84221173913.333333333342.5257.9799605928-3.07996059281048.5345.198980501124.701019498916.666666666754.9418.358922308641.541077691423.333333333358.95102.7133909138-18.71339091383059.9613.246530271935.253469728136.666666666769.9\n7268.8661321059118.633867894143.333333333369.9883.5419207762-41.041920776250849166.6182913723-63.118291372356.66666666679610115.49437100554.005628994563.3333333333103.51164.37045063875.529549361370104.81250.31137253788.588627462276.6666666667116.913120.6067630421-24.606763042183.3333333333119.514109.1038809596-4.303880959690164.915147.4468212347-30.546821234796.6666666667387.5住房00\n0000000000000面积(平方米)残差面积(平方米)ResidualPlot00000\n0000000000SamplePercentile价格(千元)NormalProbabilityPlot\n\n\n图表1\n827262382053411809085110657040287451396148\n134123818445459561594161144围巾销售量图表35.37.29.6\n12.917.123.2净产值趋势图图表15.37.29.612.917.123.2净产值趋势图\n\n\n图表2\n14624158981839194017113频率间隔时间频率OldFaithful时间间隔直方图

相关文档