- 11.43 MB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学教程第一章绪论第二章统计调查与整理第三章综合指标第五章参数估计和假设检验第六章相关与回归第七章非参数检验第八章时间序列第九章指数结束\n第一章绪论一、统计学的产生与发展二、统计学的研究对象和研究方法三、统计学的要素和内容四、统计测定的层次主要内容目录\n二、统计学的研究对象和研究方法(一)统计包含三种涵义,两重关系1、统计工作:调查研究。资料收集、整理和分析。2、统计资料:工作成果。包括统计数据和分析报告。3、统计学:研究如何搜集、整理、分析数据资料的一门方法论科学。统计工作统计资料统计学工作与工作成果关系实践与理论关系\n统计学的性质:是一门适用于自然现象和社会现象的方法论学科。统计学的研究对象:大量现象的数量方面。包括数量特征、数量关系、数量界限等。(二)统计学的研究对象(三)统计学的研究对象1、大量观察法是指对所研究的事物的全部或足够数量进行观察的方法。它可以使影响个体的偶然因素相互抵消,显示出现象的一般特征。其数理依据是反映随机现象基本规律的大数定律。\n2、综合指标法是从数量方面对现象总体特征的概括说明。综合指标法,就是运用各种综合指标对现象的数量特征、数量关系进行对比分析的方法。它是统计分析的基本方法。3、统计推断法是在一定置信程度(即可靠程度)下,根据样本资料的特征对总体特征作出估计和预测的方法。统计推断是现代统计学的基本方法。\n一、统计学的产生与发展产生原始社会后期:统计萌芽于计数活动;奴隶制国家产生:使统计日显重要;封建社会时期:统计已具规模;资本主义的兴起:统计扩展到社会经济各方面。统计学应运而生,统计学作为一门系统的科学,距今只有300多年的历史。\n一、统计学的产生与发展发展(三个时期)(一)统计学的萌芽期(17世纪中-18世纪中)1、德国的记述学派(国势学派〕康令(1606-1681)阿痕瓦尔(1719-1772;1764年首创统计学一词)他们在大学中开设“国势学”采用记述性材料,讲述国家“显著事项”,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。\n(二)统计学的近代期(18世纪末-19世纪末)1、数理统计学派代表人物:法国的拉普拉斯,比利时的凯特勒。拉普拉斯把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。2、政治算术学派代表人物:英国的威廉·配第、约翰·格朗特等。威廉·配第的代表著《政治算术》对当时的英、荷、法等国的“国富和力量”进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。\n凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人,有“统计学之父”之称。2、社会统计学派代表人物:德国的克尼斯、恩格尔、梅尔等。他们强调统计学是研究社会现象的科学,包括统计资料的搜集、整理和分析研究,目的是要揭示现象内部的联系。\n(三)统计学的现代期(20世纪初至今)统计学的主流从描述统计学转向推断统计学。20世纪30年代R·费希尔的推断统计理论标志着现代数理统计学的确立。60年代以后统计学发展有三个明显的趋势:1·统计学依赖和吸收数学更多;2·以统计学为基础的边缘学科不断形成;3·与电子计算机技术相结合,应用范围更广,作用更大。\n三、统计学的要素和内容1、统计总体和总体单位总体统计研究所确定的客观对象,是具有共同性质的许多单位组成的整体。无限总体:含无限多个单位范围有限总体:含有限个单位。总体单位:组成总体的各个单位(或元素),是各项统计数字的原始承担者。同质性:总体中各个单位具有某种共同的性质。大量性:总体总是包含大量的单位。(一)统计学的要素特点\n2、标志标志总体单位的属性、特征。品质标志:用文字表示属性分类数量标志:用数字表示特征不变标志:各单位具体表现相同可变标志:各单位具体表现不同指标:综合反映总体数量特征的概念和数值。构成:指标名+指标数值特点:具体性;综合性3、指标和指标体系\n分类:数量指标;质量指标描述指标;评价指标;预警指标绝对数指标;相对数指标;平均数指标在推断统计中:说明总体的指标也称参数。说明样本的指标称统计量。指标体系:具有内在联系的一系指标构成的整体。标志与指标的联系与区别:联系(1)一些数量标志汇总可以得到指标的数值。区别(1)标志是说明总体单位特征的,而指标是说统统计总体数量特征的;(2)数量标志与指标之间存在变换关系。(2)标志的具体表现,有的用数值有的用文字表示,而指标都是用数值表示的。\n4、变量和变量值变量可变的数量标志和统计指标。确定性变量分类随机性变量离散性变量连续性变量变量值:即变量的具体数值,包括标志值和指标数值社会经济现象中许多变量,既受确定性因素影响,又受随机性因素影响。要根据具体情况加以认定。\n5、样本是从总体中随机抽取部分单位所构成的集合体。必须取自所要研究的总体;特点从一个总体中可抽取许多个样本,这些样本的数值是不同的,也即存在着随机的差异;样本必须具有代表性;样本必须具有客观性,也即排除主观因素的影响6、推断:就是以样本信息为依据对总体的某些特征作出预测和估计。7、推断的可靠性:根据随机抽取的样本对总体推断所得出的结果的可靠程度,也称置信度。\n(二)统计学的内容1、描述统计指搜集、整理、分析并提供统计资料的理论和方法。主要任务:使反映客观事物的统计数据可以一目了然,条理清晰,使用方便,可以说明现象的数量特征和数量关系。2、推断统计是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。描述统计是推断统计的前提,推断统计是描述统计的发展。\n四、统计测定的层次统计测定(measurement)即对总体数量特征的量度,包括登记、分类、标示、计算等。四个测定层次的比较1234量化等级功能包容1234\n测定层次特征运算功能举例1、定名测定2、序列测定3、间距测定4、比率测定分类分类;排序分类;排序;有基本测量单位分类;排序;有基本测量单位;有绝对零点计数计数;排序计数;排序;加减计数;排序;加减乘除产业分类企业等级产品质量差异商品销售额\n第二章统计调查与整理统计调查统计整理统计分析有组织、有计划地搜集资料。要求:准确、完整、及时对调查资料去伪存真、去粗取精、科学分类、浓缩简化描述性分析推断分析、决策分析。要求:定性定量结合统计工作的三个中心阶段\n统计调查一、调查组织方式统计调查二、调查方案设计报表制度普查重点调查典型调查抽样调查方案内容调查表、问卷设计制度化的经常性调查专门组织调查全面调查非全面调查\n一、统计调查的组织方式统计报表制度由政府部门组织,采用统一的表格,自上而下布置,自下而上报告。任务:搜集国民经济和社会发展基本情况的资料,为制订国民经济和社会发展计划和检查计划执行情况服务。优点:精心周密设计、高度统一、规范。回收率高,内容相对稳定,便于资料积累、对比。层层上报、逐级汇总,可以满足各部门需要。特点:\n普查特点:工作量大,时间性强,需要大量人力和财力。任务:搜集重要的国情国力和资源状况的全面资料,为政府制定规划、方针政策提供依据。方式:建立专门机构,配备专门人员调查。利用基层单位原始记录和核算资料发表调查。原则:规定统一的标准时点。规定统一的普查期限。规定调查的项目和指标。\n重点调查特点:在总体中选择个别或部分重点单位进行调查。任务:及时了解总体基本情况,为主管部门指导工作服务。方式:一次性调查;专门设计和备配人员现场调查。重点单位指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。经常性调查;同报表制度结合,用统计报表调查。\n典型调查特点:在全面分析的基础上,有意识地选择代表性的典型单位进行现场调查。任务:为研究某种特殊的社会经济问题,搜集详细的第一手资料,借以认识事物的本质特征、因果关系、变化趋势。为理论和政策性问题研究提供依据。作用:适宜于研究处于萌芽状态事物和倾向性问题;适宜于分析事物的类型,它们之间的差别和关系。方法:“‘解剖麻雀’;‘划类选典’;‘抓两头’”。\n抽样调查特点:1·按随机原则从总体中抽取样本;2·以样本指标(统计量)为依据推断总体参数或检验总体的某种假设;3·抽样误差可以事先计算并加以控制。调查误差登记性误差代表性误差编差随机误差抽样平均误差实际误差统计推断中的抽样误差就是抽样平均误差。它是处于调查所固有的,是对抽样推断精确度的量度。\n影响抽样误差的因素样本容量抽样方式总体内部差异\n抽样调查的组织方式:1·简单随机抽样(纯随机抽样)方法:将总体单位编成抽样框,而后用抽签或随机数表抽取样本单位。适用:总体规模不大;总体内部差异小2·类型抽样(分层抽样)方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。总体N样本n等额等比例最优······\n3·等距抽样(机械抽样)方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。排序依据的标志:(1)无关标志;(2)有关标志(总体单位按某一标志排序)············4·整群抽样方法:将总体全部单位分为许多个““群”,然后随机抽取若干““群”,对被抽中的各““群”内的所有单位登记调查。例:\n总体群数R=16样本群数r=4样本容量例:ABCDEFGHIJKLMNOPLHPD\n例:在某省100多万农户抽取1000户调查农户生产性投资情况。5·多阶段抽样第一阶段:从省内部县中抽取5个县第二阶段:从抽中的5个县中各抽4个乡第三阶段:从抽中的20个乡中各抽5个村第四阶段:从抽中的100个村中各抽10户样本n=100×10=1000(户)抽样方法1·放回抽样:抽出样本单位登记后放回总体,再抽时总体不变2·不放回抽样:抽出样本单位登记后不放回总体,再抽时总体渐次减少\n二、调查方案统计调查方案的主要内容1、确定调查目的2、确定调查对象和调查单位3、拟订调查提纲4、确定调查时间5、编制调查的组织计划\n调查表与问卷设计调查表单一表一览表例:《工业企业统计报表》问卷结构:说明词+主题词句+作业记录例:《人口普查登记表》问卷设计基本要求:主题明确,形式简明,文字通俗,容易理解,便于回答。词句编排,层次分明,先易后难。问卷形式:①开放式词句②对选式词句③多项选择式词句④顺位式词句⑤标度式词句〖案例〗\n统计整理主要任务资料审核、分组、汇总、制表、制图等。分组频数分布统计表统计图\n分组分组前分组后25%33%42%1·划分现象类型作用:例:按所有制性质划分,我国现有8种经济类型:国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港澳台投资经济\n2·研究总体结构例:上海市按GDP计算的三次产业结构(%)1980年1990年1996年1997年GDP100100100100第一产业3.24.32.52.3第二产业75.763.854.552.2第三产业21.131.943.045.53·研究现象之间的依存关系例:中国农民家庭按收入分组的恩格尔系数(1984年)按收入分组(元)<200<300<400<500<600<800<1000恩格尔系数(%)64.960.256.754.450.549.943.6\n分组标志的选择与分组形式关键:服从研究任务需要,反映总体本质特征形式按分组标志性质分品质标志分组数量标志分组按分组标志个数分简单分组复合分组分组体系\n频数分布(分布数列)是一种重要的分组资料,反映总体单位在各组的分布状态。基本形式:分组单位数频率合计………100频数分布频率分布\n分类品质数列变量数列单项数列组距数列等距数列异距数列例例例例变量数列的编制1·计算极差2·确定形式单项数列:离散型且取值不多。组距数列:离散型且取值多或连续型。3·组距数列:组距;组数;4·计算各组频数,频率,累计频数,累计频率等。5·组中值的计算:闭口组;开口组\n统计表构成总表题横行标题:统计研究的对象。也称主词。纵栏标题:说明主词的指标名。也称宾词。数字资料分类主词简单表分组表复合表宾词平行形式交叉形式编制规则:\n统计图直方图等距数列:(变量,频数)异距数列:(变量,频数密度)折线图曲线图等距数列:(组中值,频数)异距数列:(组中值,频数密度)单项数列:(变量,频数)向上累计分布:(变量上限,累计频数)向下累计分布:(变量下限,累计频数)变量的组数无限增多时,折线便趋于一条光滑的曲线。P55图2-5图形\n某厂职工人数统计表按性别分组男职工女职工合计人数(人)(频数)比率(%)(频率)25311536868.7531.25100.00返回\n某厂职工家庭人口分组统计按家庭人口分组1合计职工户数(频数)比率(%)(频率)7返回23456381055431202.915.241.320.512.18.0255100\n第三章综合指标一、综合指标概述二、总量指标(绝对数指标)三、相对数指标(相对数)四、平均数指标(平均数)五、标志变异指标主要内容案例\n一、综合指标概述统计指标统计指标是综合反映统计总体数量特征的概念和数值。指标名称指标数值反映总体某一方面的质的规定性,是对总体本质特征的一种概括。是总体量的规定性在一定时间、地点、条件下的具体表现。\n统计指标重要特点:具体性;综合性描述指标评价指标监测指标分类数量指标质量指标绝对数指标相对数指标平均数指标\n指标体系具有内在联系的一系列指标所构成的整体,即称为指标体系。分类社会指标体系经济指标体系科技指标体系基本统计指标体系是针对某项社会经济问题而制定的专项指标体系,如工业经济效益指标体系、价格指标体系等。专题统计指标体系\n二、总量指标(绝对数指标)概念总量指标是反映社会经济现象总规模、总水平的总和指标。(1)反映国情、国力和企事业单位人、财、物的状况;(3)是计算相对指标和平均指标的基础。(2)是国民经济宏观管理和企业经济核算的基础性指标,是实行目标管理的工具;作用\n分类按反映总体的内容分按反映的时间状态分(1)社会总产品,(2)增加值,(3)国内生产总值(GDP)按计量单位分国民经济统计中几个重要的生产总量指标标志总量总体单位总数时期总量时点总量实物量劳动量价值量\n三、相对指标(相对数)概念相对指标是两个有联系的指标对比的比值,反映事物的数量特征和数量关系。(1)反映总体内在的结构特征(3)反映事物发展变化的过程和趋势。(2)用于不同对象的比较评价;作用种类计划完成相对数结构相对数比例相对数比较相对数强度相对数动态相对数\n六种相对数指标的比较不同时期比较动态相对数强度相对数不同现象比较不同总体比较比较相对数同一总体中部分与部分比较部分与总体比较实际与计划比较比例相对数结构相对数计划完成相对数同一时期比较同类现象比较\n应用原则(1)正确选择对比的基数;(2)必须注意统计的可比性;(3)相对指标要与总量指标相结合。\n四、平均指标(平均数)概念平均指标反映同类现象的一般水平,是总体内各单位参差不齐的标志值的代表值,也是对变量分布集中趋势的测定。数据集中区变量x\n常用的几种平均数概念计算公式特点优点:①容易理,便于计算②灵敏度高③稳定性好④和缺点:①易受极值影响②在偏斜分布和U形分布中,不具有代表性1.算术平均数()标志总量与总体单位总数的比值简单:加权:\n常用的几种平均数概念计算公式特点优点:①灵敏度高②在某种不能计算的条件下,可以代替缺点:①不易理解②易受极值影响③有“0”值时不能计算2.调和平均数()标志值倒数平均数的倒数简单:加权:\n常用的几种平均数概念计算公式特点优点:灵敏度高②受极值影响小于和③适宜于各比率之积为总比率的变量求平均缺点:①有“0”或负值时不能计算②偶数项数列只能用正根3.几何平均数()几个变量值连乘积的几次根简单:加权:\n常用的几种平均数概念计算公式特点4.中位数(Me)标志值由小到大顺序排列中居中间位置的标志值位置平均数上限公式:下限公式:优点:①容易理解,②不受极值影响③适宜于开口组资料和些不能用数字测定的事物缺点:①灵敏度和计算功能差②间断数Me\n常用的几种平均数概念计算公式特点5.众数(Mo)分配数列中出现次数最多的标志值位置平均数上限公式:下限公式:优点:①容易理解,②不受极值影响缺点:①灵敏度和计算功能差②稳定性差③具有不唯一性\n要点解释权数(Weighted),是分布数列中的频数或频率。对求平均数具有权衡轻重的作用,是影响平均数变动的两个因素之一(另一因素是变量值)。权数例(1)(2)(3)X456合计频数频率(%)10201025.050.025.040100.0X456合计频数频率(%)20402025.050.025.080100.0X456合计频数频率(%)20101050.025.025.080100.0=5=5=4.75\n调和平均数与算术平均数的区别例频率分布变了,均值也变。因此,严格地说,权数应指频率。凡是掌握被平均指标的分母资料时,用算术平均法。凡是掌握被平均指标的分子资料时,用调和平均法。平均指标分子:标志总量分母:总体单位总数=几何平均等于对数的算术平均例组矩数列求中位数是用插值法对中位数组分割的结果。例组距数列求众数是以频数之差计算的比例分割众数组组距的结果。例\n价格(元)3.32.52.0合计销售量(斤)34512算术平均求某种商品三种零售价格的平均价格调和平均价格(元)3.32.52.0合计销售额(元)10101030返回\n例求95%、93%、90%的几何平均数(计算误差:0.0007)返回\n例(书上例11的资料)返回分组:<500<800<1100<1400<1700<2000频数:4090110105705035d1=20d2=5众数组800~1100①求比例:d1/(d1+d2)=20/(20+5)=0.8②分割众数组的组距:0.8×(1100-800)=240(元)下限公式③加下限,即M0=800+240=1040(元)下页\n返回500800110014001700200050100150f(人数)月收入:元1040上页d1d2\n例(书上例11的资料)返回①求比例:250-240/(345-240)=0.095②分割中位数组的组距:1400-1100)×0.095=28.5下限公式③加下限,即Me=1100+28.5=1128.5(元)下页标志值由小到大分组:<500<800<1100<1400<1700<2000<频数:4090110105705035累计频数:40130240345415465500中位数位置:500/2=250\n返回5008001100140017002000∑f/2=250月收入:元1128.5累计人数(∑f)=50040130240345415465500上页\n位置平均数与算术平均数的关系XfXfXf(对称分布)正偏态分布(右)负偏态分布(左)在偏斜不大时1212\n应用平均指标的原则1.必须是同质的量方可平均;2.总平均数与组平均数结合分析;3.根据具体条件选择平均方法;4.平均数与典型值和分配数列结合分析;5.集中趋势与离散趋势结合分析\n某厂职工人数统计表按人数分组5~1011~16合计人数(人)(频数)比率(%)(频率)512325.051.04.0返回17~2220100\n某厂职工人数统计表按人数分组5~1011~19合计人数(人)(频数)比率(%)(频率)512325.051.04.0返回20~2220100\n上海市总人口数(1980~1991)年份1980年末总人口1146.52返回年份年末总人口198119821983198419851986198719881989199119901162.841180.511194.011204.781216.691232.331249.511262.421276.451283.351287.20\n返回\n上海市城市居民消费与投资倾向调查问卷尊敬的先生、女士:我们是上海财经大学的学生。为了积极参与贯彻国家关于扩大内需推动经济增长的方针和理论与实践相结合的教育原则,在老师指导下我们组织了这次千户居民的社会调查。请您给予支持。调查不记名,全部资料用计算机处理,绝对保密和安全,您只需在符合您的情况的答案上打个勾,化费几分钟时间。谢谢!返回下页\n(1)您家是否已经拥有下列耐用家电设备1、□彩电,2、□组合音箱,3、□VCD(或DVD),4、□冰箱,5、□空调,6、□电脑(2)您家的住房是:1、□租赁公房,2、□有产权公房,3、□新商品房,4、□其他(请注明)(3)您家今明两年是否准备以下项目支出:1、□购买家电设备5、□现有住房装修2、□购买成套家俱6、□支付子女教育费3、□购买汽车7、□国内或国际旅游4、□购买(或置换)房屋返回下页上页\n(4)您今明两年不准备上列大项目支出的主要原因是:(选填3项)1、□没有必要5、□售后服务差2、□经济不宽裕6、□价格不合理3、□品牌不中意7、□其他(请注明)4、□质量信不过(5)您购买商品考虑的主要因素是:1、□实用价值4、□品牌2、□商品质量5、□售后服务3、□价格(请按您认为的重要性□在中写上位序)返回下页上页\n(6)您家平均每月总收入是:1、□500元以下5、□2000~3000元2、□500~1000元6、□3000~5000元3、□1000~1500元7、□5000~8000元4、□1500~2000元8、□8000元以上(7)您家平均每月日常生活费开支是元A、其中用于吃(食品)支出大约是元(8)您认为您家近几年生活水平是1.□2.□3.□4.□5.□提高很多略有提高没有变化略有下降下降很多返回下页上页\n(9)您收入节余用予以下哪些项?各项约占多大比重?1.银行储蓄()%4.其他债券()%2.国债(国库卷)()%5.股票()%3.基金()%6.保险()%7.其他()%(10)您存钱的主要目的是:1、□购买设备4、□子女教育2、□购买住房5、□养老防病3、□结婚6、□旅游(请按你认为的重要性在□中写位序)返回下页上页\n(11)您是否了解现在推行的信贷消费1、□不了解,2、□了解一点,3、□了解,4、□很了解(12)您是否打算参加信贷消费:1、□是,2、□不(跳过第13问题)(13)您信贷消费的项目是()(请按第3题的编号填写)返回下页上页\n(14)您是否同意下列看法:很同无不很同意所同不意谓意同意1、信贷消费不合中国国情2、信贷消费是资本主义国家的做法3、信贷消费是先甜后苦4、借债享受有风险5、借债消费不光彩6、信贷消费是现代通行的做法7、只要量力借贷,有利无害8、发展信贷消费能促进经济增长返回下页上页\n(15)最后,了解一下您的基本情况A、您的性别:1、□男,2、□女B、您的年龄:周岁C、您的文化程度:1、□不识字或识字不多,2、□小学3、□初中4、□高中或中专,5、□大专或大学以上D、您家庭人口数人其中D(1)在业人;D(2)离退休人;D(3)失业、下岗人;D(4)在校学生人E、您的职业(见卡片)F、职务返回上页\n统学教程计上海财经大学统计系编制制作人凌洁\n五、标志变异指标(Dispession)概念标志变异指标是反映变量分布离散趋势、与平均指标相匹配的指标。(1)反映变量分布的离散趋势;(3)是对事物发展均衡性的量度。(2)是对平均数的代表性程度的量度;作用\n常用的几种标志变异指标概念计算特点数列中最大值与最小值之差1.极差(R)R=最大值-最小值优点:容易理解,计算方便缺点:不能反映全部数据分布状况2.平均差(A、D)各标志值与均值离差绝对值的算术平均简单:加权:优点:反映全部数据分布状况缺点:取绝对值,数字上不尽合理\n概念计算特点各标志值与均值离差平方的平均。方差的平方根(取正根)3.方差(σ2)和标准差(σ)优点:反映全部数据分布状况,数字上合理。缺点:受计量单位和平均水平影响,不便于比较4.标准差系数(Vσ)标准差与均值之商,是无量纲的系数简单:加权:优点:适宜不同数据集的比较缺点:对数据结构变化反应不灵敏方差(σ2)和标准差(σ)是应用最广的标志变异指标\nσ2和σ的简易计算公式由组方差(或组标准差)求总方差(或总标准差)平均组内方差组间方差\n标准差的应用测定分布的偏度1.偏度系数SK=0SK>0SK<0(对称分布)正偏态分布(右)负偏态分布(左)\n2.偏度系数(m3——三阶中心矩)定义M=∑(X-A)k/n为变量X关于A的k阶矩。当A=0,即以原点为中心,上式称为““K阶原点矩”。K=1,2,3时,有:一阶原点矩M1=∑(X-0)1/n=∑X/n二阶原点矩M2=∑(X-0)2/n=∑X2/n三阶原点矩M3=∑(X-0)3/n=∑X3/n当A=,即以为中心,上式称为“K阶中心矩”。K=1,2,3时,有:一阶中心矩二阶中心矩三阶中心矩\n所以,m3可以测定偏度。为消除量纲,转变为系数,再除以σ3。<0负偏态=0对称分布>0正偏态\n计算标准分即将原始分数X经过线性变换转变为标准分Z。反映各原始分的平均数为中心的相对位置。XO任何原始分在总体中的位置,用Z倍的σ来测定。\n计算抽样误差(以平均指标为例)设:\n抽样误差就是样本平均数分布数列的标准差。\n第五章参数估计和假设检验推断统计:利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体样本总体参数统计量推断估计参数估计检验假设检验抽样分布\n抽样分布简单随机抽样和简单随机样本的性质无限总体有限总体不放回放回样本样本放回不放回样本样本独立性和同一性同一性当n/N≤5%时,有限总体不放回抽样等同于放回抽样无限总体\n统计量与抽样分布统计量:即样本指标。样本均值样本成数样本方差如:抽样分布:某一统计量所有可能的样本的取值形成的分布。性质数字特征0≤P(Xi)1∑P(Xi)=1均值E(X)方差E[x-E(x)]2方差的平方根即抽样分布的标准差就是推断的抽样误差。\n样本均值的抽样分布(简称均值的分布)抽样总体样本均值X,(N)均值μ=∑Xi/Nx,(n)样本均值是样本的函数,故样本均值是一个统计量,统计量是一个随机变量,它的概率分布称为样本均值的抽样分布。\n均值分布的数学期望和方差抽样方法均值方差标准差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样抽样误差抽样误差\n从正态总体中抽样得到的均值的分布也服从正态分布。从非正态总体中抽样得到的均值的分布呢?中心极限定理:无论总体为何种分布,只要样本n足够大(n≥30),均值()标准化为(z)变量,必定服从标准正态分布,均值()则服从正态分布,即:\n两个样本均值之差的抽样分布抽样总体样本X1,(N1)x1,(n1)抽样总体样本X2,(N2)x2,(n2)估计(1)如:(2〕如果两个总体都是非正态总体,只要n1、n2足够大,根据中心极限定理,可知:\n样本成数(即比例)的抽样分布(简称成数的分布)抽样总体样本成数X,(N)成数P=Ni/Nx,(n)所有可能的样本的成数()所形成的分布,称为样本成数的抽样分布。\n成数分布的数学期望和方差抽样方法均值方差标准差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样根据中心极限定理,只要样本足够大,的分布就近似正态分布。(np和nq大于5时)抽样误差抽样误差\n两个样本成数之差的抽样分布抽样总体样本X1,(N1)x1,(n1)抽样总体样本X2,(N2)x2,(n2)估计当n1、n2都足够大时,样本成数都近似服从正态分布,两个样本成数之差()也近似服从正态分布。P1-P2=?\n一个样本方差的抽样分布抽样总体样本若:从一个正态总体中抽样所得到的样本方差的分布n,S2则当则\n两个样本方差之比的抽样分布抽样总体样本从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。n1,S12则抽样总体样本n2,S22\n参数估计点估计以样本指标直接估计总体参数。评价准则的数学期望等于总体参数,即该估计量称为无偏估计。无偏性有效性当为的无偏估计时,方差越小,无偏估计越有效。一致性对于无限总体,如果对任意则称的一致估计。是充分性一个估计量如能完全地包含未知参数信息,即为充分量估计量\n区间估计估计未知参数所在的可能的区间。评价准则随机区间置信度精确度随机区间包含(即可靠程度)越大越好。的概率的平均长度(误差范围)越小越好一般形式或总体参数估计值误差范围△:一定倍数的抽样误差例如:抽样误差一定时,越大,概率(可靠性)大;随之增大,精确度就差。\n抽样组织方式和参数的区间估计简单随机抽样待估计参数已知条件置信区间正态总体,σ2已知正态总体,σ2未知非正态总体,n≥30有限总体,n≥30(不放回抽样)总体均值(μ)σ未知时,用Sσ未知时,用S两个正态总体已知两个正态总体未知但相等两个非正态总体,n1,n2≥30两个总体均值之差μ1-μ2\n简单随机抽样待估计参数已知条件置信区间无限总体,np和nq都大于5总体成数(p)无限总体,N1P1>5,n1q1>5N2P2>5,n2q2>5两个总体成数之差(P1-P2)有限总体,np和nq都大于5有限总体,N1P1>5,n1q1>5N2P2>5,n2q2>5\n简单随机抽样待估计参数已知条件置信区间正态总体总体方差两个正态总体两个总体方差之比\n分层随机抽样待估计参数已知条件置信区间有限总体不放回抽样(n等比例分配于各层)各层nh≥30总体均值(μ)有限总体不放回抽样(n等比例分配于各层)各层nh≥30总体成数(P)\n总体N样本n均值:平均层内方差:置信区间抽样误差估计\n整群随机抽样待估计参数已知条件置信区间有限总体不放回抽样,样本群数r足够大总体均值(μ)有限总体不放回抽样,样本群数r足够大总体成数(P)\n总体群数RABCDEFGHIJKLMNOPLHPD样本群数r估计均值:群间方差:置信区间抽样误差\n样本数的确定待估计参数已知条件样本数的确定正态总体,σ2已知总体均值(μ)例:误差范围简单随机抽样有限总体,不放回抽样,σ2已知总体成数(P)服从正态分布有限总体,不放回抽样\n待估计参数已知条件样本数的确定总体均值(μ)分层抽样总体均值(μ)整群抽样有限总体不放回抽样,等比例分配样本有限总体不放回抽样,服从正态分布未知用未知用案例\n假设检验基本思想检验规则检验步骤常见的假设检验\n基本思想小概率原理:如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。总体(某种假设)抽样样本(观察结果)检验(接受)(拒绝)小概率事件未发生小概率事件发生\n假设的形式:H0——原假设,H1——备择假设双尾检验:H0:μ=μ0,H1:μ≠μ0单尾检验:H0:μ≥μ0,H1:μ<μ0H0:μ≤μ0,H1:μ>μ0假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。\n检验规则确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0差异临界点拒绝H0接受H0cc判断两类错误接受或拒绝H0,都可能犯错误I类错误——弃真错误,发生的概率为αII类错误——取伪错误,发生的概率为β检验决策H0为真H0非真拒绝H0犯I类错误(α)正确接受H0正确犯II类错误(β)怎样确定c?\nα大β就小,α小β就大基本原则:力求在控制α前提下减少βα——显著性水平,取值:0.1,0.05,0.001,等。如果犯I类错误损失更大,为减少损失,α值取小;如果犯II类错误损失更,α值取大。确定α,就确定了临界点c。①设有总体:X~N(μ,σ2),σ2已知。②随机抽样:样本均值③标准化:④确定α值,⑤查概率表,知临界值⑥计算Z值,作出判断0接受区拒绝区拒绝区\n当检验判断为接受原假设H0时,就有可能犯取伪的错误即II类错误。犯II类错误的概率计算:(1)先求出拒绝H0的临界值;(2)再求得在统计量真实的抽样分布下达到临界值的概率β。统计中,称不犯取伪错误的概率1-β为统计检验的能力或效力。II类错误的概率β的计算\n检验步骤建立总体假设H0,H1抽样得到样本观察值12选择统计量确定H0为真时的抽样分布3根据具体决策要求确定α确定分布上的临界点C和检验规则计算检验统计量的数值比较并作出检验判断7456\n几种常见的假设检验总体均值的检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0z(2)H0:μ≤μ0H1:μ>μ0(3)H0:μ≥μ0H1:μ<μz0z0正态总体σ2已知\n总体均值的检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0t(2)H0:μ≤μ0H1:μ>μ0(3)H0:μ≥μ0H1:μ<μt0t00正态总体σ2未知(n<30)\n总体均值的检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0z(2)H0:μ≤μ0H1:μ>μ0(3)H0:μ≥μ0H1:μ<μz0z00非正态总体n≥30σ2已知或未知\n两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2z(2)H0:μ1≤μ2H1:μ1>μ2(3)H0:μ1≥μ2H1:μ1<μ2z0z00两个正态总体已知\n两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2t(2)H0:μ1≤μ2H1:μ1>μ2(3)H0:μ1≥μ2H1:μ1<μ2t0t00两个正态总体未知,但相等\n两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2(2)H0:μ1≤μ2H1:μ1>μ2(3)H0:μ1≥μ2H1:μ1<μ20z00两个非正态体n1≥30n2≥30已知或未知zz\n一个总体方差的检验条件检验条件量拒绝域H0、H1总体服从正态分布\n两个总体方差之比的检验条件检验条件量拒绝域H0、H1总体服从正态分布FFF\n总体成数的检验条件检验条件量拒绝域H0、H1(1)H0:P=P0H1:P≠P0z(2)H0:P≤P0H1:P>P0(3)H0:P≥P0H1:P<P0z0z00np≥5nq≥5\n两个总体成数之差的检验条件检验条件量拒绝域H0、H1(1)H0:P1=P2H1:P1≠P2z(2)H0:P1≤P2H1:P1>P2(3)H0:P1≥P2H1:P1<P2z0z00n1p1≥5n1q1≥5n2p2≥5n2q2≥5案例\n相关分析回归分析第六章相关与回归相关和回归分析是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。主要内容\n相关分析概念种类线性相关变量之间关系函数关系相关关系因果关系互为因果关系共变关系确定性依存关系随机性依存关系\n种类一元相关多元相关负相关正相关线性相关曲线相关xy正相关xy负相关xy曲线相关xy不相关\n线性相关相关系数测定两变量是否线性相关?定义式:未分组:已分组:值:|r|=0不存在线性关系;|r|=1完全线性相关0<|r|<1不同程度线性相关(0~0.3微弱;0.3~0.5低度;0.5~0.8显著;0.8~1高度)符号:r>0正相关;r<0负相关计算公式相关系数的检验(t检验)检验统计量案例\n回归分析特点线性回归非线性回归回归分析和相关分析的联系和区别1·理论和方法具有一致性;2·无相关就无回归,相关程度越高,回归越好;3·相关系数和回归系数方向一致,可以互相推算。1·相关分析中,x与y对等,回归分析中,x与y要确定自变量和因变量;2·相关分析中x,y均为随机变量,回归分析中,只有y为随机变量;3·相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。\n线性回归一元线性回归模型1·一元线性回归模型的一般形式总体一元线性回归模型的一般形式Y的数学期望E(Y)随机误差也称一元线性回归方程,是对应于自变量X某一取值时因变量Y的均值。未知参数样本的一元线性回归模型和回归方程一元线性回归模型一元线性回归方程截距斜率(回归系数)\n回归系数b表明自变量x每变化一个单位因变量y的增(减)量。b与r的关系:r>0r<0r=0b>0b<0b=0是理论模型,表明x与y两变量之间的平均变动关系。(实际值):X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。随机干扰:各种偶然因素,观察误差和其他被忽视因素的影响。的理论假定值相互独立服从正态分布的数学期望E()=0的方差都相同,且\nxy2·一元线性回归模型的确定根据实际数据,用最小平方法,即使,分别对a、b求编导并令其为零,求得两个标准方程:解联立方程,得到\n3·一元线性回归模型拟合优度的评价判定系数(r2)是对回归模型拟合优度的评价。xy总偏差=回归偏差+剩余偏差r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。r的符号同b\n估计标准误(Sxy)Sxy是二元正态分布中因变量实际值(yj)对估计值()离散程度的量度。Sxy越小,拟合越好;Sxy越大,拟合越差。Sxy也是用自变量对因变量进行区间估计的抽样误差。68.27%94,45%99.73%\n4·一元线性回归模型的显著性检验回归系数b的检验设总体回归系数为βH0:β=0;H1:β≠0n≥30时检验统计量(β=0)σb是样本回归系数抽样分布的标准差。通常是未知的,用其估计量代替。给定显著性水平α,查Z表可知其临界值。n<30时(β=0)给定显著性水平α,查t表可知其临界值。\n00Zt\n回归模型整体的F检验H0:R2=0;H1:R2≠0检验统计量F检验假设案例\n5·应用一元回归模型进行区间估计n≥30时给定x0,y0的置信度(1-α)的置信区间为:n<30时xyX00给定的x0越接,y值估计的精确度越高。平均值估计n<30时特定值估计\n线性回归多元线性回归模型1·多元线性回归模型的性质与模型的确定二元线性回归模型:总体多元线性回归模型的一般形式Y的数学期望E(Y)随机误差表明自变量共同变动引起的Y的平均变动。也称总体的二元线性回归方差。常数项,和Y构成的平面与Y轴的截距偏回归系数,表示在固定时每变化一个单位引起的Y的平均变动;案例\n偏回归系数,表示在固定时每变化一个单位引起的Y的平均变动;随机误差,其理论假定与一元线性回归模型中的一样。在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关也即不得存在多重共线性。样本多元线性回归模型的一般形式二元线性回归模型为:其数学期望也称样本(或估计的)二元线性回归方程。\n二元线性回归方程的确定根据实际资料,用最小平方法,即使,分别对a、b1、b2求编导并令其为零,求得三个标准方程:解此联立方程便可得到a、b1、b2。2·多元线性回归模型的判定系数和估计标准误判定系数0<r2<1修正的判定余数:\n估计标准误(Sy(x1、x2))r2和Sy(x1、x2)都是对回归模型拟合优度的评价指标。Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误差。3·多元回归模型的显著性检验对偏回归系数的t检验H0:β1=0,H1:β1≠0;H0:β2=0,H1:β2≠0。检验统计量:\n按显著性水平α和自由度(n-3)查t表可得到临界值t0模型整体的F检验检验统计量:(k—自变量个数)或按给定的α和自由度(2)和(n-3)查F表可得到临界值Fα\n4·多元回归中的相关分析复相关:指一个因变量同多个自变量的相关关系。复相关系数恒取正值。偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。计算偏相关系数需借助相关系数矩阵表的资料。二元回归中的相关系数矩阵表yyx1x1x2x2ry1ry2r121.001.001.00x1与y的偏相关系数:x2与y的偏相关系数:案例\n5·应用多元回归方程进行区间估计Y的平均值的区间估计Y的特点值的区间估计式中,是即区间估计的抽样误差。的抽样分布的标准差,式中,是的抽样分布的标准差,即区间估计的抽样误差。\n非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如:双曲线:a>0b>0a>0b<0xxyy指数曲线:y=aebxb>0b<0xxyy\n幂函数曲线:y=axba>0b>0xyb<1b=1b>1曲线模型的判别方法:理论和经验判断;观察散点图曲线模型的确定方法:通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。\n例如:双曲线模型指数曲线模型\n第八章时间数列时间数列(动态数列)是指标数值按时间顺序排列而形成的数列。例:上海市人均国内生产总值年份人均GDP(元/人)199169551992865219931170019941520419951894319962227519972575091929394959697年100001500020000250005000实例\n时间数列的作用反映社会经济现象发展变化的过程和特点;研究现象发展变化的规律和未来趋势;不同地区、国家发展状况的比较评价和预。本章主要内容时间数列的种类和编制方法常用的动态指标时间数列的分解和测定时间数列的预测方法\n时间数列的种类和编制方法一、时间数列的种类1.按指标形式分绝对数数列相对数数列平均数数列时期数列时点数列2.按观察数据性质与形态分随机性数列非随机性数列平稳型趋势型季节型二、时间数列变量和形态的识别识别与判断方法:理论判断、经验判断、图形判断、自相关系数数列判断、差分法判断等。\n1、自相关系数自相关指时间数列前后各期数值之间的相关关系。对自相关强度的测定便是自相关系数。时间延迟为1的自相关系数:时间延迟为2的自相关系数:时间延迟为k的自相关系数:\n当n很大时(-1≤rk≤1)2.判别准则(1)时间数列所有自相关系数r1,r2……,rk都近似于零时,该时间数列为随机性时间数列。r1r2r3r4r5r6r701-1rr值原数列yt0\n(2)r1较大,r2、r3渐次减小,r4开始趋近于零,表明该时间数列为平稳型时间数列。r1r2r3r4r5r6r701-1rr值原数列yt0(3)r1最大,r2、r3等逐渐递减,但不等于零,表明该时间数列为趋势型时间数列。r1r2r3r4r5r6r701-1rr值原数列yt0\n(4)r值有周期性变化,每隔几个便有一个高峰,表明该时间数列为季节型时间数列。r1r2r3r4r5r6r701-1rr值原数列yt01季度2季度3季度4季度三、回归模型的自相关检验用时间数列建立的回归模型能否成立,必须通过误差项的自相关显著性检验才能作出判断。1·构造置信度为(1-)的自相关系数的置信区间如果延滞为1,2,···,K的自相关系数大部分都落在置信区间内,便可接受原假设,认为误差项为独立的随机变量。\n四、编制时间数列的方法原则1.注意时间单位(年、季、月等)的选择;2.注意数列前后指标的可比性(总体范围、指标涵义、计算方法、计量单位、经济内容等)。2·杜宾-沃森检验(Duibin-WatsonTest)检验统计量根据样本容量n和自回归阶数K,查D·W统计量临界值表。检验规则图示:正自相关不能确定负自相关不能确定无自相关dLdU4-dL4-du2若d值落在“不能确定”范围时,应增加样本容量或重新抽样检验。\n常用的动态指标水平动态指标1·序时平均数(平均发展水平指标)计算公式适用于时期总量指标和按日连续登记的时点指标数列。说明适用于不连续登记、间隔相等的时点指标数列。适用于不连续登记间隔不相等的时点指标数列。分子和分母按各自数列的指标形式参照上述求序时平均数。\n常用的动态指标水平动态指标2·增长量计算公式逐期增长量。说明水平法适用于多期增长量平稳变化的数列总和法适用于各期增长变化较大的数列。累计增长量3·平均增长量\n常用的动态指标速度动态指标1·发展速度计算公式环比发展速度。说明水平法-各环比发展速度的几何平均数。定基发展速度2·平均发展速度方程法可查《平均发展速度查对表》。3·(平均)增长速度=(平均)发展速度-100%\n时间数列的分解和测定一、时间数列的构成与分解1.社会经济指标的时间数列包含以下四种变动因素:(1)长期趋势(T)(2)季节变动(S)(3)循环变动(C)(4)随机变动(I)可解释的变动——不规则的不可解释的变动2.时间数列的经典模式:(1)加法模型:Y=T+S+C+I计量单位相同的总量指标是对长期趋势所产生的偏差,(+)或(-)(2)乘法模型:Y=T·S·C·I计量单位相同的总量指标是对原数列指标增加或减少的百分比\n3.变动因素的分解:(1)加法模型用减法。例:T=Y-(S+C+I)(2)乘法模型用除法。例:T=Y/(S·C·I)二、长期趋势(T)的测定(一)修匀法:1、随手法2、时距扩大法和序时平均法3、移动平均法例奇数偶数例移动项数新数列项数=原数列项数-移动项数+1(二)长期趋势的数字模型(以时间t为自变量构造回归模型)t-时期数按序随意编制例\n步骤:选择趋势模型求解模型参数对模型进行检验用自相关系数检验误差项的随机性。图形判断、差分法判断、经验判断、自相关系数数列判断等。例差分法:时间数列相继数值的差异。如:一级差分(逐期增长量)的结果大致相同。则配模型如:二级差分的结果大致相同。则配模型如:相继两期水平(环比发展速度)的比值相同。则配模型最小平方法,求参数。计算估计标准误求置信区间m为模型中的参数小样本大样本\n返回原数列新数列y1y4y2y3y5y6原数列新数列y1y4y2y3y5y6时间时期数数列t1t2t3t4t5t6t71234567y1y2y3y4y5y6y7时间时期数数列t1t2t3t4t5t6t7-3-2-10123y1y2y3y4y5y6y7时间时期数数列t1t2t3t4t5t6-5-3-1135y1y2y3y4y5y6\n三、季节变动的测定(S)(一)按月(或按季)平均法(二)长期趋势剔除法1.趋势模型增量剔除法。2.移动平均趋势剔除法。例例四、循环变动的测定方法:残余法。从数列中消除(T)Y/T=S·C·I从余值中消除(S)S·C·I/S=C·I从余值中消除(I)即移动平均,得到C五、不规则变动的测定:从CI中消除(C)CI/C=I\n时间数列的预测方法一、趋势外推法运用长期趋势模型,给定时间变量,外推指标值。选择趋势模型例:求解模型参数bo、b1、b2对模型进行检验用自相关系数检验误差项的随机性。计算估计标准误求置信区间\n对模型的有效性检验。上页下页返回实际值:估计值:误差项:.........判断是否属于随机误差?如果自相关系数...都接近于零。则是随机误差,该模型有效。检验方法:1·对...分别进行检验,检验量:2·如果是大样本,则可构造置信度为的置信区间...都落在该区间内,可判断为随机误差。若\n选择自回归模型例:求解模型参数bo、b1代入前期数值预测后期数值(按第六章进行回归模型系统分析)要点说明:1·自回归模型的选择二、自回归预测法对显著自相关的时间数列,可建立自回归模型通过前期数值预测后期数值。线性和非线性分为一级、二级、···、n级一级线性自回归二级线性自回归n级线性自回归\n三、移动平均和指数平滑法(一)移动平均法对于平稳型时间数列可取最近n期数值的算术平均作为后期的预测值。简单形式:二次曲线自回归模型对自回归模型有效性检验误差项的随机性检验作出判断。D·W检验统计量\n加权形式:(f1>f2>f3…>fn)(二)指数平滑法(由移动平均法演变而来)是本期实际值与本期预测值的加权算术平均数或也可以是本期预测值经过误差修正后的数值。(0<α<1)\n按月(或按季)平均法季度年份第一年第二年第三年三年合计同季平均数季节指数%全年12个季度合计12个季度平均100%一二四三返回\n趋势模型增量剔除法季度(2)趋势增量(1)同季平均数(4)季节指数%平均12个季度平均100%一二四三返回(3)=(1)-(2)总平均(无趋势)\n概念总指数的编制指数的因素分析指数的应用案例第九章指数指数(IndexNumber)是研究现象差异或变动的重要统计方法。它起源于18世纪欧洲关于物价波动的研究。至今,已被广泛应用于社会经济生活各方面;一些重要的指数已成为社会经济发展的晴雨表。主要内容\n概念概念广义指数:狭义指数:反映现象数量差异或变动程度的相对数。例如,动态相对数,比较相对数、计划完成程度相对数。反映不能直接相加的复杂现象综合变动程度的相对数。例如,零售物价指数,消费价格指数、股价指数。反映复杂的社会经济现象总体的综合变动;测定现象总变动中各个因素的影响;对多指标复杂现象综合测评。作用:按对象的范围分按指标的性质分按采用的基期分个体指数组指数总指数种类:数量指标指数质量指标指数定基指数环比指数\n总指数的编制一、综合指数概念:综合指数是总指数的基本形式。它是通过引入一个同度量因素将不能相加的变量转化为可相加的总量指标,而后对比所得到的相对数。综合指数指数化因素×同度量因素指数化因素×同度量因素总量指标总量指标==所要研究其变动程度的两个时期的某一经济变量引入一个同一时期的经济量,起到媒介或权数的作用综合指数平均数指数\n综合指数的编制1、数量指标的综合指数(例:销售量指数)报告期和基期的销售量,为指数化因素基期价格作为同度量因素基期实际销售额以基期价格计算的报告期销售额该指数说明多种商品销售量的综合变动程度。分子、分母之差:说明由产量变动带来的销售额的增(减)量\n2、质量指标的综合指数(例:价格指数)报告期和基期的价格,为指数化因素报告期销售量作为同度量因素报告期实际销售额以报告期销售量计算的基期销售额该指数说明多种商品价格的综合变动程度。分子、分母之差:说明由价格变动带来的销售额的增(减)量。\n3、其他形式的综合指数公式拉氏公式:派氏公式:马竭尔—艾奇沃斯公式:费暄的“理想公式”:固定价格的物量指数:固定物量的价格指数:\n编制综合指数的一般方法原则:(1)同度量因素与指数化因素相乘后必须是有实际经济意义的总量指标;(2)数量指标指数以质量指标为同度量因素;质量指标指数以数量指标为同度量因素;(3)同度量因素的固定时期必须以指数的经济意义为依据。\n二、平均数指数是以总量指标为权数对个体指数进行加权平均的总指数。概念:编制方法1、加权算求平均数指数通常用来计算数量指标指数(如销售量指数)销售量个体指数与销售量个体指数相对应的销售额占总销售额的比重\n2、加权调和平均数指数通常用来计算质量指标指数(如价格指数)价格个体指数与价格个体指数相对应的产品销售额占总销售额的比重销售量指数价格指数比较:用哪种公式好?\n实际工作中,常采用相对固定的权数。某个经济发展较稳定时期的产值或销售额的结构。\n三种指数的比较性质资料计算方法差额分析综合指数平均数指数狭义指数广义指数全面资料样本资料先综合后对比先对比后综合分子、分母之差为总量差异有经济意义分子、分母之差,不形成实际总量,无经济意义总平均数指数广义指数分组资料三种形式的总平均数对比自成体系分子、分母之差为平均数差异,有意义\n指数的因素分析一、总量指标指数的因素分析1、方法:这是利用综合指数的指数体系进行的因素分析。构造有实际经济意义的指标体系:分析对象:S=A·B(因素指标)将指标体系转换为指数体系:分析某一因素变动影响时,将其他因素固定:分析相对变动影响时,也分析绝对差额影响:方法步骤(A1-A0)B0;(B1-B0)A1A1B0A1B1A0B0A1B0______;_____\n2、举例两因素分析产值=产量×价格(资料见书P347)产值指数=产量指数×价格指数指数体系代入资料计算得到:180%=137.14%×131.25%224=104+120(万元)\n注意:(1)固定因素时期的选择要满足平衡的要求;(2)因素的排序要使相邻两变量能分能合。S=A·B·C;D·C或S=A·B·CA·E原材料支出总额指数=产量指数×单耗指数×原材料单价指数原材料支出总额=产量×单耗×原材料单价代入资料计算得到:108.53%=109.17%×88.37%×112.50%2420=2600-3600+3420(万元)指数体系多因素分析\n二、平均数指标指数的因素分析1。特点:总平均数指数是对总平均指标变动程度的测定(1)属于广义指数;(2)以组平均数为基础,突出结构因素;(3)有三种形式。可变构成指数固定构成指数结构变动影响指数2、例:某煤矿公司劳动生产率总指数(资料见书P.344)(1)可变构成指数(包含组平均数变动和结构变动双重影响)公司各矿井报告期和基期劳动生产率报告期和基期各矿井工人数所占比重\n即双重因素影响的公司平均每个工人的增产量。(2)固定构成指数(只反映各组平均数变动影响)各矿井报告期、基期劳动生产率代入资料计算代入资料计算即由于各矿井劳动生产率平均变动带来的公司平均每个工人的增产量。\n(3)结构变动影响指数代入资料计算报告期和基期各矿井工人所占比重即由于公司工人数结构变动带来的公司平均每个工人的增产量。三个指数的关系:可变构成指数=固定构成指数×结构变动影响指数\n劳动生产率变动的差额:\n三、将综合指数同平均数指数结合进行多因素分析。混合型因素分析例:某煤矿公司产量增长因素分析。(资料见书P.351)煤产量指数=劳动生产率指数×工人人数指数代入资料计算得到:207.14%=199.18%×104%1500=14440+560(千吨)式中的即劳动生产率可变构成指数\n代入产量指数分解式:代入资料计算得到:207.14%=176.62%×115.39%×104%15000=12200+2240+560(千吨)\n指数的应用一、居民消费价格指数1、是关系国计民生最重要的一种指数;可用于分析居民实际收入水平的变化,也是国民经济核算和宏观经济分析与决策的重要指标;2、采用加权算术平均方法,由代表商品个体指数逐级加权平均为总指数。即由基本分类指数,再中类、大类,最终由各大类指数加权平均为城市(或农村)居民消费价格总指数;3、关键问题:商品分类,代表品选择,价格采集,权数确定等。(一)居民消费价格指数的编制方法\n指数的应用1、测定通货膨胀率(%)计算期居民消费价格(二)居民消费价格指数的应用(举例)=_____________________基期居民消费价格指数×100-1002、测定货币购买力和职工实际工资的变动;货币购买力指数=_____________________1居民消费价格指数职工实际工资指数=职工平均工资指数/居民消费价格指数=职工平均工资指数×货币购买力指数3、计算商品需求的价格弹性系数等。\n指数的应用二、股票价格指数1、道·斯股价平均数2、标准·普尔股价指数3、香港恒生指数4、上海证交所股份指数5、深圳证交所股份指数三、工业经济效益综合指数(一)多指标综合评价的概念和方法多指标综合评价法就是将多个指标合成为一个综合数值的方法。三个关键问题:1、构建一个科学合理的评价指标体系;\n指数的应用2、指标的无量纲处理;3、确定各指标在合成中的权数。(二)工业经济效益综合指数我国现行的工业经济效益综合指标包括:1、总资产贡献率;2、资本保值增值率;3、资产负债率;4、流动资金周转率;5、成本费用利润率;6、工业全员劳动生产率;7、产品销售率。\n第七章非参数统计主要内容非参数统计(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。主要特点(1)不要求总体分布已知或对总体分布作任何限制性假定;(2)不以估计总体参数为目的;(3)能用于定性变量(即定名测定和序列测定的变量);(4)方法直观,易于理解,运算比较简单。(5)缺点是检验的功效不如参数检验方法。χ2检验成对比较检验曼—惠特尼U检验游程检验等级相关检验多个样本的检验\nχ2检验一、什么是χ2检验χ2检验是运用χ2分布作为理论工具,在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验。(一)χ2分布χ2分布是由正态分布推导出来的一种连续型随机变量的概率分布1、数学形式:设随机变量x1,x2,…,xk相互独立且都服从正态分布N(μ,σ2)。将它们标准化转变为标准正态变量Z1,Z2,…,Zk,k个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。χ2~χ2(k),k是自由度,表示定义式独立变量的个数。当k=1时,\n2.χ2分布的性质(1)χ2分布的值恒为正值(2)χ2分布的数学期望是自由度k,方差为2k;(3)χ2分布取决于自由度k,随着自由度增大而趋于对称。一般当k≥30时,χ2分布可用正态分布近似计算。k=1k=5k=15k=3(χ2)χ2(k)(二)χ2检验的原理在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断实际结果与理论是否一致。设有k个观察值,f0为它们的实际频数,fe为理论频数。构造一个统计量\n数理统计证明,在大量试验中,若f0与fe相一致时,χ2服从χ2分布。(f0-fe)比较小时,χ2值也较小;(f0-fe)比较大时,χ2也较大。当χ2值大到按χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。(χ2)k=4α=0.05χ20.05(4)=9.488例1(P.258)χ20\n1、拟合优度检验二、应用这是利用随机样本资料对总体是否服从某种理论分布的检验检验步骤(1)对总体分布建立假设H0:总体服从某种理论分布H1:总体不服从该理论分布(2)抽样并对样本资料编成频数分布(f0)(3)以“原假设H0为真”导出一组期望频数(fe)(4)计算检验统计量χ2=∑(f0-fe)2/fe(5)χ2=∑(f0-fe)2/fe给定的α查χ2表,得到临界值(6)比较χ2值与临界值作出检验判断注意事项(1)各组理论频数fe不得小于5,如不足5,可合并组;(2)为使组数不致太少,总频数n>50;(3)根据具体情况确定自由度。\n2、独立性检验二、应用是利用样本资料对总体的两个变量的数据是否彼此关联的检验,如果不关联,即为独立。检验步骤(1)对总体的两个变量建立假设H0:两变量独立H1:两变量关联(2)将样本资料编成r×c列联表,并列出实际频数Oij(3)计算理论频数(4)计算检验统计量(5)给定的α查χ2表,得到临界值(6)比较χ2值与临界值作出检验判断\n要点说明列联表形式(r×c)O11O21O31...Or1O12O22O32...Or2O13O23O33...Or3………...…O1cO2cO3c...OrcO1O2O3...Or123...r行(r)列(c)123…cxy合计n.1n.2n.3…n.cn合计X的边缘频数y的边缘频数\n理论频数Eij的计算先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P(A·B)=P(A)·P(B)。因此,某一行某一列的联合概率:自由度(df)的确定df=(r-1)(c-1)例:r·c=3×4√√√√√√○○○○○○CT1CT2CT3CT4RT1RT2RT3n总行数总列数r1r2r3Df=(3-1)(4-1)=6\nr·c=2×2的列联表资料,χ2值简算公式xy1212abcda+cb+da+bc+d合计合计n\n成对比较检验一、符号检验这是略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。1、检验内容:检验的两组数据是否有显著差异或两总体的位置特征(均值、中位数)是否相同。2、适用条件:关联样本资料;定性变量。3、方法思想:设有关联样本的两组成对的数据xi与yi,比较各对的大小。若xi>yi,记作“+”“若xi<yi,记作“-”若xi=yi,删去,并相应减少n对数据\n若两组数据没有显著差异,它们之差的“+”、““-”号的个数应大致相等。出现““+”(或““-”)的概率为0.5。如果一次抽样的随机样本的配对数据中,“+”号出现过多或过少,在一定显著性水平α条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。可见,配对符号检验是二项检验的一种应用。由于P=0.5的二项分布呈对称型,所以,只要n>25,即可按正态分布近似处理。\n4、检验步骤(1)抽样。将样本资料配对比较,计算(+)、(-)号个数(2)建立假设:H0:P=0.5H1:P≠0.05(双侧)H1:P(+)>P(-)或P(+)<P(-)(单侧)(3)计算检验统计量n≤25时;“+”个数n>25时:(4)设定显著性水平α,查表确定临界值或否定域(5)比较并作出判断\n例1:随机抽取13个单位,放映一部描述吸烟有害健康的影片,并调查得到观看电影前后各单位职工认为吸烟有害的人数的百分比。检验该电影宣传是否有效果(α=0.05)。解:H0:P=0.5H1:P≠0.5P(13)=0.000P(12)=0.002P(11)=0.010P(10)=0.035P(13)+P(12)+P(11)=0.000+0.002+0.010=0.012<0.025P(13)+P(12)+P(11)+P(10)=0.012+0.035=0.047>0.025\n0123456可见,拒绝域(双侧)应为0,1,2,11,12,13。78910111213拒绝域拒绝域现检验统计量(+)=10(即10个正号),0.035>0.025所以,原假设H0:P=0.5在5%显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著差异。\n例2:随机抽取60名消费者对甲、乙两种品牌的饮料评分,甲、乙得分之差为“+”号者35个,“-”号15个,“0”号10个。以显著性水平α=0.05检验两种饮料是否同等受欢迎。解:H0:P=0.5,H1:P≠0.5∵n>25,∴按正态分布近似处理该成数抽样分布的均值和标准差分别为2.82>1.96,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。\n二、威尔科克森带符号检验(亦称威尔科克森秩和检验)这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。1、应用条件和检验内容与符号检验相同。2、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(+)的秩和(记为T+)与负号(-)的秩和(记为T-)也应该大致相等。其中之较小者也应趋近于总秩和的平均数()。若正秩和(T+)与负秩和(T-)相差太大,其中较小者偏离总秩和的平均()较远,以致超过给定显著性水平α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。\n3.检验步骤(1)将样本数据配对并计算各对正负差值(2)按差之绝对数大小排序(等级),并按原正负号计算正秩和(T+)与负秩和(T-)(3)建立假设:H0:T+=T-H1:T+≠T-(双侧)H1:T+>T-或T+<T-(单侧)(4)计算检验统计量当n≤25时,取T+、T-中之小者当n>25时(5)设定α,并查表确定临界值Tα(或Zα/2)(6)比较统计量与临界值作出判断,对于n≤25,T≤Tα,拒绝H0;T>Tα接受H0\n曼—惠特尼U检验曼—惠特尼U检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。检验步骤:(1)从总体A、B中分别独立抽取样本nA和nB,将(nA+nB)个观察值从小到大编序(2〕分别计算两个样本,的秩和TA和TB(3)建立假设H0:两总体A和B相对次数分布相同H1:两总体相对次数分布不同(4)计算检验统计量①nA、nB<10时,取UA、UB中小者UA=nAnB+nA(nA+1)/2-TAUB=nAnB+nB(nB+1)/2-TB②nA、nB>10时(5)设定显著性水平α,查U表或Z表得到临界值(6)比较统计量与临界值,作出判断,对于nA、nB<10U≤Uα,拒绝H0,U>Uα,接受H0\n游程检验一、什么是游程检验游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。设某样本n=12人的标志表现为男、女,有以下三种排列。(i)男,男,女,女,女,男,女,女,男,男,男,男(ii)男,男,男,男,男,男,男,女,女,女,女,女(iii)男,女,男,女,男,女,男,女,男,女,男,男连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。以r表示序列中游程的个数:(i)r=5,(ii)r=2,(iii)r=11(i)是随机性序列;(ii)(iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。\n二、游程检验方法1.检验总体分布是否相同。将从两个总体中独立抽取的两个样本的观察值混合有序后,观察游程个数,进行比较。2.检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的3.检验规则(小样本。n<20)应用表La和Lb,(α=0.05,r为临界值)(1)单侧检验:观察到的游程个数ro≤临界值(La表)或ro≥临界值(Lb表)反之,接受Ho。否定Ho(2)双侧检验:观察到的游程个数ror(La)<ro<r(Lb)接受Ho下限上限反之,拒绝Ho\n4.大样本(n1或n2大于20),游程个数r近似正态分布检验统计量其中:\n等级相关检验将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。等级相关系数的计算公式其中di为两变量每一对样本的等级之差,n为样本容量。等级相关系数与相关系数一样,取值-1到+1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。二、等级相关系数的应用一、等级相关检验的基本原理利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行检验。\n(一)检验的假设(1)H0:Xi和YI相互独立;H1:Xi和Yi不独立。(此为双侧检验)(2)H0:Xi和Yi相互独立;H1:Xi和Yi是正相关。(即Xi的大值与Yi的大值相配对)(3)H0:Xi和Yi相互独立;H1:Xi和Yi是负相关。(即Xi的大值与Yi的小值相配对)(二)检验统计量:\n多个样本的检验一、克鲁斯卡尔——沃利斯(Kruskal-Wallis)单向方差秩检验1·检验内容:检验K个独立样本是否来自分布相同的总体。2·适用条件:各样本相互独立;序列变量(间距变量,比率变量可转换为序列变量)3·方法思想:与威尔科克森秩和检验相同。当K=2时,就是曼-惠特尼U检验。\n抽样和数据列表:将各样本的观察值按大小顺序排列,确定相应的。4·检验步骤:建立假设:H0:K个总体无显著差异H1:K个总体有显著差异计算检验统计量:K——样本数ni——第i个样本观察值的数目Ri——第i个样本中的秩和设定显著性水平α,查表确定临界值:(1)ni≤5,K=3时,查K-W单向方差检验统计量临界值表(2)ni>5,查x2分布表。自由度为K-1检验判断:(1)ni≤5,K=3时:若ρ≤α,拒绝H0;ρ>α,接受H0。(2)ni>5时:(1)(2)(3)(5)(4)\n5.要点说明:①整理样本数据按数值大小顺序确定相应的位序(即秩)时,对相同的观察值按相应的秩计算它们的平均秩。②若K个独立样本中有相同的观察值,要对检验统计量进行修正。修正公式:其中,ti——第i个秩包括相同观察值的个数;K——相同秩的组数。\n二、费利德曼(Friedman)双向方差分析这种检验方法适用于K个非独立样本是否来自同分布总体的检验。其他条件和特点与克鲁斯卡尔——沃利斯检验相同。检验步骤:抽样和数据列表:将ni个样本分别按它们观察大小的顺序排列确定其秩,编成的ni为行、处理方法为列的双向表;并计算各列的秩和Ri建立假设:H0:K种处理方法的效果无显著差异;H1:K种处理方法的效果有显著差异(1)(2)\n计算检验统计量:K——处理方法种类,即列数;n——区组数,即行数;Rj——第j个列的秩和设定显著性水平α,查表确定临界值:(1)n、K不很小时;查2分布表,自由度为K-1;(2)n、K很小时;直接查2分布表。(3)(4)检验判断:(1)n、K不很小时:若(2)n、K很小时:按分布表相应的临界值判断。