- 1.85 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学Statistics\n第一章总论统计学的对象与方法统计的职能与作用统计学的基本范畴\n第一节统计学的对象与方法一、统计学的对象及理论基础三大主要统计学派国势学派:政治算术学派:数理统计学派:文字叙述国家显著事项用算术方法和统计资料比较英法荷三国经济状况,证明英国实力。认为统计学是现代应用数学的分支,以数理方法研究社会经济和自然现象。(一)统计学的产生与发展社会生产实践中产生,作为一门科学则是在17世纪后期\n(二)统计的含义三种含义★统计活动:对社会经济现象的数量特征进行收集、整理和分析的全部活动过程★统计资料:统计活动过程的结果,包括数据资料和统计分析资料★统计学:指导统计活动的原理和方法论,对统计活动实践的总结\n(三)统计学的研究对象及特点1、研究对象社会经济现象总体的数量方面数量特征和数量关系2、特点★数量性:反映数量表现和数量关系规模水平结构比例关系差异程度发展速度关联度依存度★总体性:研究总体数量,对整体进行大量观察和综合分析\n★社会性:研究社会经济现象,反映人们从事社会经济活动的条件、过程和结果,以及人们之间的相互关系,包括物质资料占有关系、分配关系、交换关系及其他社会关系。(四)统计学的理论基础和方法论基础★哲学:根据辨证唯物主义,统计调查和分析必须尊重客观事实根据质和量的辨证关系,统计学需分析大量现象和发展规律性根据发展原理,统计学运用动态分析法、指数分析法\n★经济学:统计学在统计指标设计、指标体系构建、计算和分析方法方面需以经济理论范畴为依据。★数学:概率论的基本原理和方法在统计估计、推断方面起了重要作用。二、统计学的基本方法1、大量观察法:主要用于统计调查阶段强调大量性,大量性取决于以下因素:(1)分析问题的精确度精确度越高,经济现象的数量就越多(2)现象各单位间的变异程度差异程度越大,经济现象的数量就越多\n2、分组法:主要用于统计整理阶段把有关个体单位的数量现象按一定标志划分为不同类型组,同类相聚异类相分,以便进行汇总分析,确定各类型的数量状况、比例及相互关系。3、综合指标法:适用于统计分析阶段运用各种综合指标反映总体的一般数量特征,分析总体的差异和数量关系。4、归纳推断法:适用于统计分析阶段根据样本数据推断总体数量特征,用于对总体的某些假设检验。\n第二节统计的职能与作用一、统计的职能1、信息职能:系统地收集、整理和提供大量以数量描述为基本特征的社会经济信息2、咨询职能:根据丰富的统计资源,经过统计分析,为决策和管理提供咨询3、监督职能:根据统计调查分析,对经济运行状况进行定期检查、监测和预警【显示器】【参谋家】【报警器】\n二、统计的作用1、统计的基本任务对国民经济和社会发展情况进行统计调查与分析,提供统计资料和统计咨询意见,实行统计监督。2、统计的作用为宏观调控提供依据为企事业单位经营管理提供依据对政策计划执行情况进行检查监督为社会公众参与社会经济活动提供信息为科学研究提供统计资料为国际交往提供资料\n第三节统计学的基本范畴一、统计总体和总体单位集合体统计总体总体单位个别事物统计总体及总体单位的性质大量性同质性变异性相对性\n二、统计标志和标志表现统计标志标志表现共同具有的属性或特征各标志的具体表现品质标志:数量标志:文字表明属性特征数字表明数量特征【属性总体】【变量总体】不变标志:可变标志:各单位具体表现相同各单位具体表现不同品质标志和数量标志都存在变异性变异性变量与常量品质标志表现:数量标志表现:具体名称标志值或变量值\n三、统计指标和指标体系统计指标反映总体数量特征由单位标志值综合而成包括指标名称和指标数值特点:可度量性→反映总体数量综合性→表现总体特征具体性→不能脱离时间空间分类:按反映问题的数量特征数量指标质量指标按作用不同描述指标评价指标预测指标\n按内容不同客观指标主观指标按计量单位不同实物指标价值指标劳动量指标按表现形式不同总量指标相对指标平均指标指标体系一系列相互联系制约的多个统计指标形式:函数关系补充关系总产值=总产量x单位价格某国家居民健康状况指标\n思考题1、考生《统计学》成绩分别为:70、76、86、89、97。这五个数是()A指标B标志C变量D标志值2、下列属于数量标志的是()A专业B年龄C性别D住址3、某人月工资500元,“工资”是()A数量标志B品质标志C质量标志D数量指标\n4、下列指标中属于数量指标的是()A劳动生产率B产量C人口密度D资金利润率5、下列属于数量标志的是()A人口的性别B人口的常住地址C人口的年龄D人口的民族6、总体单位特征或属性的名称是()A统计指标B统计标志C统计总体D标志表现\n7、下列属于数量标志的有()A企业工人人数B企业管理人员数C企业经济类型D企业设备台数E企业所属行业8、研究某市工业企业的固定资产投资情况,统计总体单位是()A全市所有的工业企业B全市每一个工业企业C全市工业企业的所有固定资产D全市每一个工业企业的固定资产\nC统计学D统计资料A统计工作B统计方法10、可称为“统计”一词含义的是()9、统计总体和总体单位不是固定不变的,()A单位有可能变为总体,总体也可变为单位B单位能变为总体,总体不能变为单位C单位不能变为总体,总体能变为单位D任何条件下,单位和总体都可互换\n第二章统计数据统计调查统计整理综合指标\n第一节统计调查一、统计调查的意义统计调查:按统计研究的任务和要求,运用科学的调查方法,有组织有计划地向客观实际收集各种统计资料的工作过程。意义:是统计工作的基础环节,是统计整理分析的必要前提。\n※统计调查与一般社会调查研究的关系联系广义上讲,统计调查是一般社会调查研究的一种形式区别统计调查着重收集数据资料社会调查更侧重于了解情况统计调查收集大量数据资料社会调查通常收集个别资料\n二、统计调查的基本要求准确性:客观反映真实情况,不能虚报瞒报、伪造篡改。及时性:规定时间内及时完成及时上报,否则时过境迁,起不到作用。完整性:全面系统反映全貌全过程。操作性:避繁就简,设计方便,操作简捷,通俗易懂。经济性:节省投入,注重效益。\n三、统计调查的种类1、按调查对象包括的范围不同全面调查:调查所有总体单位。包括全面填报的统计报表和普查非全面调查:只调查部分总体单位。包括重点调查、典型调查、抽样调查和非全面填报的统计报表\n2、按调查登记的时间是否连续连续调查:又称经常性调查,调查总体现象在一段时期内的数量变化累计结果,用于调查时期现象。不连续调查:又称一次性调查,调查总体现象在某一时点的状态,用于调查时点现象。时期现象:现象量变过程与时期长短直接相关,可累计相加。时点现象:现象量变过程与时期长短不相关,不可累计相加。\n3、按调查的组织方式不同统计报表调查:按国家统一规定的表式要求,自下而上提供统计资料。专门调查:为研究某种问题专门组织的调查。包括普查、重点调查、典型调查、抽样调查4、按收集资料方法不同直接观察法报告法采访法问卷调查法\n四、统计调查方案的设计确定调查目的和任务确定调查对象和调查单位拟订调查项目确定调查时间、期限、地点、方法制定统计调查组织实施计划\n五、统计调查方法(组织方式)统计报表以基层企事业单位原始记录为基础,按国家统一规定表式要求、指标解释、报送时间、报送程序,自下而上收集统计资料的调查方式。特点:统一性→报表内容、报送时间、指标涵义、计算方法、口径统一可靠性→依据基层原始记录\n种类:按调查范围不同全面统计报表非全面统计报表按报送周期长短不同日报旬报月报季报半年报年报简明及时系统详尽优点:全面、统一、连续局限:缺乏灵活性、时效性较差、虚报瞒报现象\n普查一次性全面调查特点:一次性→用于调查时点现象全面性→范围广、单位多周期长→面广工作量大,不可能也没必要经常进行,应尽可能进行必要的周期性普查种类:按汇总资料特点不同一般普查:快速普查:任务布置到基层越过中间环节集中汇总\n普查工作组织原则:(1)统一普查内容:统一规定指标口径和计算方法。(2)统一普查时点:避免资料的重复或遗漏。(3)统一普查期限:普查范围内各调查点应尽可能同时进行、按期完成。(4)统一间隔时间:同类普查应按一定周期进行,便于数据动态对比。如:我国人口、第三产业、工业、农业普查每十年一次,分别在逢0、3、5、7的年份进行。\n重点调查在统计总体中选择一部分重点单位进行调查,用以反映总体基本情况的非全面调查。重点单位:单位数量在总体中只占一小部分,但调查单位的标志值在标志总量中占绝大部分。特点:着眼于标志值→能够反映总体基本情况只能反映基本情况→不能完整反映总体总量,也不能推断总体数量。\n典型调查在对统计总体有一定了解的基础上,有意识地选择少数典型单位进行的详细调查,目的是认识事物本质规律。典型单位:同类现象本质特征表现最充分、最具代表性的单位。特点:代表性→可用于对总体的推断不严格的推断→不能指出推断的把握程度,无法计算和控制推断误差,只能作发展趋势和规律性的推断\n抽样调查以概率论与数理统计为理论基础,在统计总体中按随机原则抽取一部分单位进行调查,并据以推断总体数量特征的非全面调查。特点:随机原则→受干扰的可能性小可推断总体→节省人、物、财力和时间可计算并控制抽样误差→较准确抽样误差:由随机性产生的样本指标与总体指标间的代表性误差\n★我国统计调查方法体系改革的目标模式建立以周期性普查为基础,以经常性的抽样调查为主体,以必要的统计报表、重点调查、综合分析等为补充,搜集、整理基本统计资料的统计调查方法体系。\n第二节统计整理一、统计整理的意义统计整理:根据统计研究目的和任务,对调查阶段收集到的大量资料(原始或加工)进行科学分类汇总,为统计分析提供能描述现象总体数量特征资料的工作过程。意义:中间环节起承前启后的作用统计调查的继续统计分析的前提\n二、统计整理的基本步骤制定统计整理方案对调查资料进行审核订正数据处理编制统计表绘制统计图\n三、统计整理的基本方法—统计分组统计分组:根据统计研究需要,将所有总体单位按一定统计标志分为若干个性质不同但有联系的部分。相对总体是“分”→组间差异相对个体是“合”→组内同质★作用:划分社会经济现象类型反映社会经济现象内部结构和比例关系揭示社会经济现象间相互依存关系★特点:\n★原则:科学性原则:从研究目的出发,正确选择最能说明现象本质特征的分组标志,正确划定分组界限,保证组间差异、组内同质。完备性原则:任何一个总体单位或原始数据都能归属于某一个组,而不会遗漏在外。互斥性原则:任何一个总体单位或原始数据在一种统计分组中只能归属于某一个组,而不能归属于两个或两个以上的组。\n★方法:简单分组按一个标志分组。如:工业企业按经济类型分组可分为国有、集体、私营、其他企业。国有企业集体企业复合分组按两个或以上标志多层次分组。如:按经济类型分:按规模分:大型企业中型企业小型企业大型企业中型企业小型企业………………\n四、统计整理结果的表现形式(1234)分布数列将总体各单位按一定标志分成若干组,列出各组总体单位数(次数/频数)或各组总体单位数在总体中所占的比重(频率),排列而成的数列称为分布数列(分配数列、次数分布、频数分布)。意义反映总体单位在各组间分布状况。表明总体内部构成、平均水平及变异程度。\n★分布数列基本要素标志及标志表现各组频数或频率按标志性质分类:品质分布数列(表1)变量分布数列(表2)表1某市2000年工业企业构成表经济类型单位数(个)比重(%)国有企业集体企业其他企业942489213215.7982.002.21合计5966100.00★分类\n表2某企业三月份工人日产量表日产量(件)工人人数(人)比重(%)3456710153040208.713.026.134.817.4合计115100.0\n变量分布数列按各组变量值多少及取值范围:单项数列(表2)组距数列(表3)表3某县2001年家庭平均收入表家庭年收入(元)户数(户)比重(%)6000元以下6000~70007000~80008000~90009000~1500015000元以上341043602890144065063025.532.621.610.84.84.7合计13380100.0\n组距数列按各组组据是否相等:等距数列(表4)异距数列(表3)表4某班第二学期《统计学》成绩表成绩(分)人数(人)比重(%)50~6060~7070~8080~9090~1002491146.713.330.036.713.3合计30100.0\n★组距数列基本概念组限各组两端变量值上限各组最大值下限各组最小值组距各组上下限之差全距数列中最大变量值与最小变量值之差组中值各组上下限和的一半\n开口数列闭口数列开口组开口组组距开口组组中值首末两组上下限齐全的数列首组缺下限或末组缺上限上限或下限不齐的组以相邻组距近似代替上限-邻组组距/2(缺下限)下限+邻组组距/2(缺上限)\n★组距数列的编制1、按数值大小顺序排列2、确定组数、组限和组距组数不宜过多也不宜过少组限和组距确定要体现组与组间质的区别,要体现组内同质组间差异3、连续型变量,邻组上下限必须重叠离散型变量,邻组上下限可重叠也可不重叠组限重叠时,按“上组限不在内”原则达到上限值的单位数计入下一组4、可等距、可异距\n累计分布数列各组频数或频率逐组累计相加,表明总体在某一标志值的水平上总共包含的频数或频率。如:表4中,成绩不到80分的有多少?80分以上的有多少?向上累计变量值小的组向变量值大的组逐组累计,表明各组上限以下总共包含的频数或频率向下累计变量值大的组向变量值小的组逐组累计,表明各组下限以上总共包含的频数或频率(见表5)\n表5某班第二学期《统计学》成绩表成绩人数比重(%)人数比重(%)50~6060~7070~8080~9090~100261526306.720.050.086.7100.0302824154100.093.380.050.013.3合计————向上累计向下累计\n统计表将统计调查得来的数据资料经过整理汇总,按一定结构顺序系统排列在一定表格内,此表格即统计表。分类:按用途不同调查表整理表分析表(原始数据)(分布数列)(指标分析)按分组情况简单表(表6、7)简单分组表(表8)复合分组表(表9)\n表6某公司所属企业2000年产值表企业名称产值(万元)甲乙:10001300:合计:表7我国近年地方财政收入统计表年份财政收入(万元)19951996:2985.63746.9:合计:\n表8某班学生按性别分组统计表性别人数(人)男女3028合计58表92000年某市工业企业总产值工业企业总产值(万元)一、国有企业大型小型二、集体企业大型小型:9500835085906570:合计:\n★统计表的结构表101997年我国三大产业总产值产业总产值(亿元)比重(%)第一第二第三13969367702403318.749.232.1合计74772100.0总标题横行标题纵栏标题数字资料主词宾词\n★统计表编制规则1、标题应简明确切,总标题应注明具体时间空间;2、必须注明计量单位,全表只有一种计量单位时在表的右上方;需分别注明计量单位时,横行的专设“计量单位”一栏,纵栏的与纵栏标题在一起;3、数字为0或忽略不计的要以“0”表示;无数字的要以“—”表示;缺乏资料的以“…”表示;4、表式一般是开口式\n统计图用统计图形表示分布数列。分类:按形状直方图:折线图:曲线图:钟型分布U型分布J型分布横轴为组限,纵轴为频数直方图各长方形顶端中点连线向上累计从首组下限起,各组累计频数落在各组上限向下累计从末组上限起,各组累计频数落在各组下限极限描绘曲线\n\n\n五、统计误差统计误差:统计数据与客观事物实际数值之间的差距。★分类:按误差来源登记性误差代表性误差按误差性质偶然性误差系统性误差按产生原因无意误差有意误差统计误差大部分由主观因素造成,可通过主观努力控制并消除;抽样误差是代表性误差中的偶然误差或称随机误差,不能消除,但可事先计算并控制。\n第三节综合指标一、总量指标总量指标反映一定时空条件下社会经济现象总体规模或水平的综合指标,又称绝对指标。★分类按反映内容不同总体总量:标志总量:总体单位数加总总体各单位标志值加总反映总体本身规模说明总体特征总量\n按反映的时间状况不同时期指标时点指标时期指标:反映一定时期内总量,受时期长短制约,可以累计相加。时点指标:反映某一时点上总量,与时期长短无关,不可累计相加。★计量单位实物单位价值单位:劳动时间单位:自然单位度量衡单位双重或多重单位复合单位标准单位复合单位货币计量\n★计算原则科学性原则:明确总量指标涵义、统计范围和计算方法。同类性原则:同类现象才能计算加总。可比性原则:便于动态分析。统一性原则:计算口径、计算方法、计量单位统一。\n二、相对指标相对指标社会经济现象中两个有联系的指标数值对比的比率。★作用1、相对指标本身可表明社会经济现象间关系,包括结构关系、比例关系、比较关系、动态关系、强度关系等。2、可使原本不便于直接对比的现象有了共同的比较基础。\n★表现形式无名数:系数、倍数、番数、成数、百分数、千分数等,相对指标多以无名数表示。名数:复名数(即以分子分母计量单位共同构成),主要用于强度相对指标。★计算原则1、正确选择对比基础。2、可比性原则。3、结合总量指标。4、多种相对指标结合运用。\n★种类及计算结构相对指标比例相对指标比较相对指标动态相对指标强度相对指标计划完成相对指标\n结构相对指标表明总体内部构成及分布特征。结构相对指标=总体中部分数值总体全部数值特点:在同一总体中,各部分结构相对指标加总等于100%或系数1。\n比例相对指标表明总体内部各组成部分间对比关系。比例相对指标=总体中某一部分数值总体中另一部分数值特点:属于一种结构性的比例。结构相对指标母项包含子项;比例相对指标母项与子项没有包含关系。\n比较相对指标表明同一时期同类现象在不同条件下的差异程度。比较相对指标=甲空间某类指标数值乙空间同类指标数值特点:分子与分母可以互换。\n动态相对指标表明同一总体同类指标在不同时期的数值对比。动态相对指标=报告期数值基期数值特点:比值大于1体现增加提高;比值小于1体现减少降低。分子分母不能互换基期可以是上一期,也可以是某特定时期。\n强度相对指标表明现象发展的强度、密度及普遍程度。强度相对指标=某一总量指标数值另一性质不同但有联系的总量指标数值特点:表现形式多为复名数某些强度相对指标分子分母可互换,称为正指标与逆指标。强度相对指标带有平均的意义,但不同于平均指标。\n计划完成相对指标表明一定时期某种社会经济现象计划任务完成百分比。(1)计划任务数为绝对数时计划完成相对指标=实际完成数计划任务数分子减分母表明执行计划的绝对效果。【例1】某企业计划全年总产值3500万元,实际4300万元,则计划完成相对指标为122.86%,实际比计划超额22.86%,实际产值比计划增加了800万元。\n(2)计划任务数为相对数时计划完成相对指标=实际完成百分数计划完成百分数【例2】某企业计划2000年产品合格率为97.3%,企业该年度实际产品合格率为98.6%,则计划完成相对指标为101.3%。另,计划任务数是计划提高率(降低率)形式时,需考虑原有基数100%【例3】某企业计划本期比上期劳动生产率提高3%,实际提高了5%,则计划完成相对指标为100%+5%100%+3%=101.9%\n【例4】某企业计划2001年生产成本比上年降低5%,实际降低了7%,则计划完成相对指标为100%-7%100%-5%=97.9%(3)短期计划执行情况检查当实际完成数与计划任务数时期长短为同一年度时,以年度实际数比年度计划数,说明年度计划执行结果。当实际完成数与计划任务数时期长短不同,实际完成时期只是计划任务时期的一阶段时,以此阶段内累计实际完成数比全期计划任务数,说明年度计划执行进度。\n(4)长期计划完成情况检查水平法:只规定计划期末应达到的水平。计划完成相对指标计划期末实际达到水平=计划期末计划规定水平只要计划期内有连续12个月指标数值达到计划规定最后一年的水平,余下时间就是提前完成计划时间。累计法:按计划期内各年总和规定任务。计划完成相对指标=计划全期累计实际完成数计划全期累计计划完成数只要累计实际完成数已经达到累计计划完成数,余下时间就是提前完成计划时间\n思考题1、某班第二学期《统计学》成绩(分)如下:92、85、78、51、63、88、60、71、87、70、56、97、80、68、77、75、64、72、89、87、90、81、95、76、79、73、76、79、72、86。要求:作等距分组;编制频数分布与累计频数分布表;绘制直方、折线、累计频数分布图。\n2、某工厂1999年计划产值为1080万元,计划完成程度为110%,1999年计划产值比1998年增长8%,试计算1999年实际产值比1998年增长百分之几?3、某企业2003年计划单位产品成本比上年降低2%,实际比上年降低5%,问该企业单位产品成本降低计划是否完成?4、某商店2000年计划销售收入比上年提高20%,实际销售收入为上年的1.5倍,问2000年销售收入的计划完成程度?\n5、某企业某年产值资料如下,试补全产品产值(万元)比重(%)计划完成(%)计划实际计划实际甲乙289.8103.5合计800100100104\n6、某市人口数1995年比1952年增长了1.2倍,比1972年增长了60%,那么1972年人口数比1952年增长了()倍。A0.5B0.375C0.72D2.52\n三、平均指标平均指标反映总体单位标志值的代表性指标。特点:对总体单位间数量差异的抽象化说明总体综合数量特征的一般水平具有最一般的代表性作用:可消除总体数量差异,使不同规模总体具有可比性;可反映同一总体在不同时间上的发展趋势;是统计推断的重要参数。\n分类:按时间状况静态平均数:动态平均数:按计算方法数值平均数:位置平均数:同一时间上总体各单位某数量标志的一般水平。不同时间上总体某指标的一般水平。根据各变量值计算而得的平均值根据某变量值所处的特殊位置而得的平均值\n(一)数值平均数1、算术平均数(1)简单算术平均数X=∑i=1nXin(2)加权算术平均数X=∑XiWi∑Wi=∑Xi·Wi∑Wi\n若各组总体单位数(各组权数)相等,即W1=W2=…=Wn=W,则加权算术平均数与简单算术平均数存在下列关系:X=∑XiWi∑Wi=W∑XinW=∑Xin\n【例1】某统计学家暑假在一小型统计咨询公司社会实践。该公司雇佣了数名高级顾问,周薪在700至950元;数名中级顾问,周薪在300至350元;数名公司职员,周薪为200元。每位雇员的周薪额具体如下:200,200,200,840,200,200,300,200,300,350,700,350,950元。试计算该公司雇员的平均周薪额。X=499013=383.85(元/人)\n【例2】见教材P41【例3】见教材P42【例4】某上市公司所属三个分公司产品质量有关资料如下:分公司一级品率(%)总产量(件)一公司二公司三公司908084300500200合计—1000试求:三个分公司的平均一级品率。X=∑XW∑W=8381000=83.8%【例5】见教材P43\n各变量值与算术平均数的离差之和等于零∑(X-X∑(X-X各变量值与算术平均数的离差平方之和为最小∑(X-X)=最小值【未分组】2∑(X-X)2W=最小值【分组】两独立同质变量代数和的算术平均数等于各变量算术平均数的代数和X+Y两独立同质变量乘积的算术平均数等于各变量算术平均数的乘积X·Y)=0【未分组】)W=0【分组】=X+Y=X·Y\n证明:∑(X-X)=∑X-nX=∑X-n·n∑X=0证明:设X0为任一变量,则有X0=X+C则,∑(X-X0)2=∑[X-(X+C)]2=∑[(X-X)-C]2=∑(X-X)2-2C·∑(X-X)+nC2=∑(X-X)2+nC2∵nC2≥0∴∑(X-X)2=最小值\n证明:设变量X有m个值,变量Y有n个值,X+Y=mn∑i=1m∑j=1n(X+Y)=mn∑i=1m∑j=1nX+∑i=1m∑j=1nY=mnn∑i=1mX+m∑j=1nY=m∑i=1mX+n∑j=1nY=X+Y\n证明:设变量X有m个值,变量Y有n个值,X·Y=mn∑i=1m∑j=1nX·Y=mn∑i=1mX·∑j=1nY=X·Y\n2、调和平均数各变量值倒数的算术平均数的倒数。(1)简单调和平均数各总体单位标志值倒数的简单算术平均数的倒数。H=1n1(x11x21xn1++…+)=∑xi1n\n【例1】青石桥市场某日提供三种大闸蟹,大、中、小单价分别为每公斤120元、100元、80元,问各买一公斤,平均每公斤多少钱?X=120+100+803=100(元/公斤)若每种蟹各买100元,平均每公斤多少钱?H=1201+1001+8013=97(元/公斤)\n(2)加权调和平均数各总体单位标志值倒数的加权算术平均数的倒数。H=x11·m1+x21·m2+…+xn1·mnm1+m2+…+mn1=m1+m2+…+mnx1m1+x2m2++…xnmn=∑mi∑ximi\n【例2】某产品有三种不同的规格,单位成本与总成本资料如下,求三种不同规格商品的平均单位成本。产品规格单位成本(元/件)总成本(元)产量(件)A型B型C型453822270027361936607288合计—7372220H=∑mi∑ximi=7372220=33.51(元/件)\n小结:★加权调和平均数公式中mi即为加权算术平均数公式中XiWi(各组标志总量),调和平均数是算术平均数的变形(P44)★当统计实践中,只有各组标志总量(XiWi)资料,而缺少各组总体单位数资料时,通常用调和平均数计算平均数。★若各组标志总量相等,则用简单调和平均数计算(如例1);若各组标志总量不相等,则用加权调和平均数(如例2、例3)【例3】见教材P45\n思考题1、某车间50名工人,每日生产某种零件数如下,计算平均每人日产零件数。日产零件数(件)工人数(人)8910111017158合计50\n2、某班第二学期统计学成绩调查资料如下,计算平均成绩。成绩(分)学生人数(人)60以下60~7070~8080~9090~10062226214合计79\n3、某商品的销售额及单位价格资料如下,计算该商品的平均价格。商品等级销售额(万元)价格(元/件)甲级乙级丙级162822.001.401.00合计46—4、某商店进了三批货,途中有损坏,损坏率分别为1%、1.5%、2%,三批货物占总量的比重分别为30%、50%、20%,求三批货物的平均损坏率。\n5、某公司所属分公司产品质量如下:分公司计划实际一级品率(%)一级品产量(万件)一级品率(%)全部产品产量(万件)一公司二公司三公司959098253055949598404570合计—110—155(1)分别计算计划和实际平均一级品率(2)计算总公司及分公司全部产品产量的计划完成程度\n3、几何平均数n个数值连乘积的n次方根。几何平均数在分析经济现象时要求变量值间在经济内容上具有连乘积关系,如平均速度、平均比率等。(1)简单几何平均数资料未分组情况下采用。G=nx1x2…xn=【例1】见教材P46分析:由于是前后衔接的五道工序,后一道工序的合格率受前一道影响。n∏xi\n【例2】某地区1995年至2000年六年间工业总产值增长率分别为9.8%,8.8%,7.8%,6.8%,8.8%,10.8%。求该地区六年工业总产值平均增长率。分析:由于后年增长率受上年影响,即后年增长率都是在上年基础上计算的,所以不能简单地用算术平均数,而应用几何平均数计算。又由于是增长率,所以要把原有基数100%考虑进去。G=6109.8%……110.8%=108.8%∴该地区工业总产值平均每年增长8.8%\n(2)加权几何平均数资料已分组情况下采用。G=w1+w2+…+wnx1w1·x2w2……xnwn=∑wi∏xiwi【例3】见教材P46wi为权数,即xi出现了wi次如:x1·x1……x1w1次=x1w1分析:有4年为3%,即这4年的本利率都是103%,设本金为Q,则Q+3%Q=Q(1+3%)=103%Q,这12年的本利和为4·105%2·108%Q(103%2·110%3·115%)\n(二)位置平均数1、中位数将变量值按大小排列后居中的一位数值。(1)资料未分组时若变量值个数为奇数,则中间位置的数即中位数;若变量值个数为偶数,则中间位置两个数值的算术平均数为中位数。【例1】6个工人日产量分别为26、22、30、24、28、25件,则中位数Me是(25+26)/2=25.5(件)\n(2)单项数列时先计算累计频数,然后用(n+1)/2确定中间位置,该位置所在组对应的标志值即中位数。【例2】某居民楼按家庭人口数分组资料如下,求中位数。人口数分组家庭数(户)向上累计(户)向下累计(户)1234523461259151616141171合计16——(16+1)/2=8.5∴3即中位数Me。\n(3)组距数列时先计算累计频数,然后用∑wi/2确定中间位置(没必要∑wi+1,∵是组距数列,加了1也不能直接判断中位数),再用下列公式计算中位数:Me=L+Wm2∑Wi-Sm-1·d(下限公式)Me=U-Wm∑Wi2-Sm+1·d(上限公式)\n式中:L——中位数所在组下限U——中位数所在组上限∑Wi——总频数Wm——中位数所在组频数d——中位数所在组组距Sm-1——中位数所在组前一组的向上累计频数Sm+1——中位数所在组后一组的向下累计频数\n【例3】某班《统计学》成绩如下:成绩(分)人数(人)向上累计(人)向下累计(人)50~6060~7070~8080~9090~100261019328183740403832223合计40——Me=80+19240-18×10=81.05(分)\n5060708090100\n5060708090100\n2、众数总体中出现次数最多的标志值。(1)资料未分组时次数最多的那个标志值即众数。(2)单项数列时次数最多那一组的标志值即众数。(3)组距数列时M0=L+△1+△2△1·d(下限公式)M0=U-△1+△2△2·d(上限公式)\n式中:L——众数所在组下限U——众数所在组上限d——众数所在组组距△1——众数所在组频数与其前一组频数之差△2——众数所在组频数与其后一组频数之差\n【例1】某班《统计学》成绩如下:成绩(分)人数(人)50~6060~7070~8080~9090~1002610193合计40M0=80+9+169×10=83.6(分)\n5060708090100\n★算术平均数、中位数、众数间关系M0MeX【图1】右偏(正偏)分布\nXMeM0【图2】左偏(负偏)分布\nX=Me=M0【图3】正态分布\n四、标志变异指标反映各标志值间差异程度的指标。标志变异指标越大,平均指标的代表性越小;标志变异指标越小,平均指标的代表性越大。1、全距R=Xmax-Xmin特点:简单,但忽视了中间数据的分布情况。【例1】大学生对网络时代反应不一,有的成了“网虫”整日沉迷,有的却无动于衷,以下是两寝室学生每周上网时间:\n甲室学生:0、27、28、30、29、28乙室学生:14、23、9、25、34、16R甲组=30–0=30(小时)R乙组=34–9=25(小时)尽管甲组全距大,但除一位同学不上网外,其他同学上网时间分布较均匀;而乙组虽然全距小,但同学间差异较大,所以全距衡量差异程度有局限性。2、平均差各标志值与算术平均数离差绝对值的算术平均数。\nAD=n∑|Xi-X|【未分组】AD=∑Wi∑|Xi-X|·Wi【分组】【例1】某车间共有装配工人200人,某日从中随机抽取10人,日装配工件数为:5、7、7、8、8、8、8、10、11、12件,求该样本平均差。AD=103+2×1+4×0+2+3+4=1.4(件)\n【例2】若对上述整个车间200名工人进行全面调查,日装配工件数分组资料如下,求总体平均差。日装配件数(件)工人数(人)4~66~88~1010~1212~142540853515合计200AD=200310=1.55(件)\n【例3】见教材P49【例4】某车间甲、乙两班组工人日产量资料如下,求两班组日产量平均差。甲组:16、17、18、20、21、23、25乙组:10、14、17、20、23、26、30X甲=140/7=20(件)X乙=140/7=20(件)AD甲=18/7=2.57(件)AD乙=38/7=5.43(件)虽然两班组算术平均数相等,但甲组平均差小于乙组,所以甲组算术平均数代表性比乙组强。\n3、方差与标准差方差:各标志值与其算术平均数离差平方的算术平均数。标准差:方差的平方根。σ2=n∑(Xi-X)2【未分组】σ2=∑Wi∑(Xi-X)2Wi【分组】\nσ=n∑(Xi-X)2【未分组】σ=∑Wi∑(Xi-X)2Wi【分组】【例1】见教材P51【例2】甲、乙两班组工人日产量资料如下,求两班组日产量标准差。甲组:48、49、50、51、52乙组:5、20、45、85、95X甲=X乙=250/5=50(件)\nσ甲=510=1.4(件)σ乙=56200=35.2(件)虽然两班组算术平均数相等,但甲组标准差小于乙组,所以甲组算术平均数代表性比乙组强。【例3】某大学管理学院《统计学》考试成绩资料如下,求两个专业平均成绩与方差。\n专业成绩(分)人数(人)工商管理808283859131111财务管理878034X工商=X财务=581/7=83(分)σ2工商=96/7=13.71(分)σ2财务=84/7=12(分)\n4、标志变异系数当两组数据算术平均数不等时,通常不宜直接用全距、平均差、标准差比较两组数据差异程度。由此引入标志变异系数V(全距系数、平均差系数、标准差系数),以相对数形式进行比较。VR=XRVAD=XADVσ=Xσ【例1】见教材P52\n【例2】两组数据4、5、6、7、8与40、50、60、70、80标准差分别为1.58和15.8;但由于两组数据算术平均数不等,分别为6和60,单纯由标准差判断差异程度就不合适。两组数据的标准差系数分别为:V1=1.58/6=0.26V2=15.8/60=0.26所以,两组数据的差异程度相同。\n【例3】甲、乙两车间工人平均日产量分别为8件和12件,标准差分别为2.2件和2.7件。仅从标准差来看,甲车间标准差小于乙车间,似乎甲车间工人平均日产量更有代表性;但事实上V甲=2.2/8=0.275V乙=2.7/12=0.225甲车间标准差系数大于乙车间,乙车间工人平均日产量更有代表性。\n★方差的数学性质方差等于各标志值平方的算术平均数减去各标志值算术平均数的平方σ2=X2-(X)2证明:σ2=n∑(X-X)2=n∑X2-n∑2XX+n∑X2=X2-2X2+X2=X2-X2\n思考题1、某学院2002级学生每月花钱情况如下,求算术平均数、中位数、众数。金额(元)人数(人)200元以下200~300300~400400~500500~600600元以上253472984328合计300\n第三章抽样估计基本概念抽样误差抽样估计抽样组织方式\n第一节抽样估计的基本概念一、抽样估计的意义和一般步骤1、抽样估计的概念抽样估计按随机原则从总体中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。也是一种收集资料的方法,所以也称为抽样调查。\n2、抽样估计的特点(1)按随机原则抽取调查单位。(2)调查结果可以估计和推断总体的有关数量特征。(3)以概率论和数理统计为理论基础,结果具有一定可靠程度,抽样误差可以估计和控制。3、抽样估计的意义(1)不可能进行全面调查时采用(2)不必要进行全面调查时采用(3)来不及进行全面调查时采用(4)对全面调查资料进行补充修正\n4、抽样估计的一般步骤设计抽样方案抽取样本单位收集样本资料整理样本资料推断总体指标\n(1)抽样方案设计的基本准则随机原则:确保每个总体单位都有被抽取的可能。抽样误差最小:控制和选择抽样数目及抽样组织方式费用最少:在误差达到一定要求的条件下,选择费用最少的方案。\n(2)抽样方案设计的主要内容①编制抽样框抽样框即总体单位的名单。主要形式:名单抽样框区域抽样框时间表抽样框编制要求:应包括全部总体单位总体单位不应重复应便于抽样的实施应尽量利用资料,提高抽样效果\n②确定抽样方法重复抽样:每次抽出一个单位记录后,再放回总体参加下一次抽取,每次抽取是独立的,同一总体单位有可能被重复抽中。不重复抽样:随机抽出一个单位记录后,不再放回总体,下一个样本单位再从剩余总体单位中抽取,每次抽取不是独立的,同一总体单位不可能被再次抽中。\n③确定抽样组织方式简单随机抽样:对总体单位逐一编号,但不进行任何划分或排队,然后完全按随机原则直接从总体中抽出若干单位构成样本。特点:最基本的抽样组织方式;但当总体单位很多时,对所有总体单位编号很麻烦;有可能使样本单位在总体中分布不够均匀,导致样本代表性较差。\n分层抽样:按某主要标志将总体单位分成若干层,在各层按随机原则分别抽取一定数目的单位构成样本。特点:是统计分组与抽样的结合,可提高样本代表性;可深化对现象的认识,满足分层次管理需要,不仅能用整个样本指标推断总体指标,也能用各子样本资料推断相应子总体指标。\n等距抽样:将总体单位按某一标志排队,并划分抽样间隔,在第一个间隔内确定抽样起点,按固定顺序和间隔抽取样本单位。特点:使样本单位分布均匀,样本代表性较强;按排队标志与调查内容间关系不同,可分为无关标志排队和有关标志排队等距抽样,两者抽样起点确定和抽样效果不同。\n整群抽样:将总体单位分成若干群,按随机原则抽取部分群,抽中群体的所有单位构成样本。特点:不需对各总体单位编号,只需对各群体编号,简化了工作;但样本单位较集中,分布不够均匀,样本代表性较差。\n为遵循抽样误差最小及费用最少的基本准则,统计实践工作中常常将多种抽样组织方式结合使用。∵抽样误差较小的分层抽样、有关标志排队等距抽样等费用较多;而费用较少的简单随机抽样、无关标志排队等距抽样、整群抽样等抽样误差又较大。另外,分两个以上阶段完成抽取样本的多阶段抽样,多在总体单位数量多分布广时采用。一般前阶段采用分层或有关标志排队等距抽样;后阶段采用简单随机或无关标志排队等距抽样。\n④确定抽样数目抽样数目:即样本容量、样本单位数大样本:n≥30小样本:n<30抽样数目的确定,与抽样误差、费用及抽样组织方式有直接的关系。误差小费用多时抽样数目多,误差大费用少时抽样数目少;分层抽样除确定整个样本容量外,还需确定子样本容量;整群抽样需确定样本群数;多阶段抽样需确定各阶段抽样数目。\n二、抽样估计的基本概念1、全及总体与抽样总体全及总体总体,总体单位数用N表示抽样总体样本,样本单位数用n表示2、全及指标与样本指标全及指标全及平均数X、全及成数P、全及方差σ2样本指标样本平均数x、样本成数p、样本方差S2\n成数:总体中具有某一属性的单位数占全部总体单位数的比重。是非标志的频数分布表变量值X频数W频率W/∑W具有某一属性不具有某一属性10N1N0P=N1/N1-P=N0/N合计N1是非标志的平均数X=P是非标志的方差σ2=P(1-P)\n第二节抽样误差一、抽样误差的概念抽样误差由于抽样的随机性而产生的样本指标与总体指标之间的代表性误差。统计误差登记性误差代表性误差偶然性误差系统性误差\n所有可能样本平均数的算术平均数等于总体平均数,即:x=X∵∑(x-X)=0∴∑x-∑X=0∑x-可能样本个数X=0∑x可能样本个数-X=0x-X=0\n二、抽样平均误差抽样平均误差所有可能样本的样本指标的标准差。而非所有可能样本的抽样误差的算术平均数。μx=∑(x-X)2可能样本个数μp=∑(p–P)2可能样本个数基本公式\n抽样平均误差反映的是所有可能的样本指标与其中心即相应总体指标的平均差异程度,可衡量样本对总体的代表性大小。抽样平均误差越小,样本指标对总体指标的代表性就越大;反之,抽样平均误差越大,样本指标对总体指标的代表性就越小。【例1】见教材P114\nμx=σ2nμp=P(1-P)nμx=σ2(N-n)n(N-1)μp=P(1-P)(N-n)n(N-1)计算公式\nμx=σ2n(1-nN)μp=P(1-P)n(1-nN)近似公式代替计算方法第一,大样本时,可用样本标准差S代替总体标准差σ;小样本时,用样本修正标准差S*代替总体标准差σ第二,用近期总体标准差或同类地区同类现象的总体标准差代替所研究的总体标准差\n抽样误差大小的影响因素:1、总体标准差σ2、样本单位数n3、抽样方法4、抽样组织方式σ越大,抽样误差越大。n越多,抽样误差越小;但二者增减并非等比例。不重复抽样的抽样误差较重复抽样的抽样误差小。\n三、抽样极限误差抽样极限误差一定概率下抽样误差的可能范围。|x-X|≤△x(在一定概率下)置信度、概率保证度、可信度、把握程度,用(1-α)表示。(1-α)与△x是一对矛盾实践中可根据合理置信度求相应极限误差;也可根据极限误差范围求相应置信度\n(一)大样本条件下当样本单位n充分大时,样本平均数x渐进服从均值为总体平均数X、标准差为抽样平均误差μx的正态分布,x-Xμx渐进服从标准正态分布。若给定(1-α),可由标准正态分布表查得临界值Zα/2,使得(x-X)/μx在区间(-Zα/2,Zα/2)的概率为(1-α)。\n即:x-Xμx||≤Zα/2的概率为(1-α)∴在给定概率(1-α)下,抽样极限误差△x=Zα/2μx概率度,与概率保证度一一对应常见概率保证度与相应概率度:(1-α)=0.6827Zα/2=1=0.9545=2=0.9973=3=0.95=1.96\n【例1】对某县水稻产量进行重复抽样调查,实测400亩得平均亩产620公斤,标准差90公斤,试计算当概率保证度为95.45%时平均亩产的抽样极限误差。解:重复抽样条件下抽样平均误差μx=S√n=90√400=4.5公斤∴△x=Zα/2μx=9公斤表明有95.45%的把握程度断定样本平均亩产与全县实际平均亩产之差不超过9公斤\n【例2】【例3】见教材P119(二)小样本条件下根据t分布确定抽样极限误差。若给定(1-α),可由自由度为(n-1)的t分布表查得临界值tα/2,使得(x-X)/μx在区间(-tα/2,tα/2)的概率为(1-α)。即:在给定概率(1-α)下,抽样极限误差△x=tα/2μx\n第三节抽样估计一、点估计又称定值估计,直接以样本指标作为总体指标估计值。样本指标优劣评价标准:无偏性有效性样本指标方差应比较小样本指标平均数等于总体指标一致性n→∞时,样本指标概率收敛于总体指标真实值\n样本平均数和样本成数具有上述优良性质;而样本方差和样本标准差却不是无偏估计量,而是渐进无偏的,即n充分大时,估计量的均值趋近于总体真实值。点估计优点:简单点估计缺点:无法说明抽样误差大小,无法说明估计结果有多大把握程度。\n二、区间估计根据样本指标和抽样极限误差以一定把握程度推断总体指标的可能范围。一定把握程度下总体指标的可能范围称为置信区间。(一)总体均值及其相应总量指标的区间估计∵在一定概率(1-α)下,|x–X|≤△x\n∴{X-△x≤x≤X+△x}的概率为(1-α)。也即{x-△x≤X≤x+△x}的概率为(1-α)。(二)总体成数及其相应总量指标的区间估计∵在一定概率(1-α)下,|p–P|≤△p∴{P-△p≤p≤P+△p}的概率为(1-α)。\n也即{p-△p≤P≤p+△p}的概率为(1-α)。(三)总体方差的区间估计1、大样本条件下{S-Zα/2S/√2n≤σ≤S+Zα/2S/√2n}的概率为(1-α)。2、小样本条件下{nS/χα/2(n-1)≤σ≤nS/χ1-α/2(n-1)}的概率为(1-α)。22222\n【例1】对一批电子元件10000只进行耐用性能检查,按不重复抽样方法随机抽取2%的元件,测试结果的分组资料如下:耐用时间(小时)元件数量(只)950以下950—10001000—10501050—11001100—11501150—12001200以上392054703410合计200(1)以99.73%的把握程度估计这批元件平均耐用时间的区间范围;(2)若规定耐用时间不及1000小时的元件为不合格品,在95%的把握程度下,可否认为这批元件的不合格率不超过10%,并估计不合格品数量的区间。\n解:(1)已知N=10000,n=200,(1-α)=99.73%,Zα/2=3∵x=1105.25(小时)S=61.83(小时)μx=4.33(小时)∴△x=3×4.33=12.99(小时)∴1092.26≤X≤1118.24(2)已知N=10000,n=200,(1-α)=95%,Zα/2=1.96∵p=12/200=6%μp=1.66%\n∴△p=1.96×1.66%=3.25%∴2.75%≤P≤9.25%又∵9.25%<10%∴在95%的把握程度下,可以认为这批产品的不合格率不超过10%。∵2.75%≤P≤9.25%∴275≤NP≤925\n三、抽样数目的确定通常情况下,根据规定的允许误差来确定必要的抽样数目。∵在重复抽样条件下,抽样极限误差为△x=Zα/2μx=Zα/2(σ/√n)∴抽样数目n=(Zα/2)σ/(△x)222必要抽样数目的影响因素:1、总体标准差。σ越大,n越多。2、抽样极限误差。△x越大,n越少。3、置信度。(1-α)越大,n越多。4、抽样方法。重复抽样下n多。\n思考题1、调查一批零件的合格率,根据以往资料合格率为95%。要求:如果极限不超过1%,推断的概率保证度为95%,问应抽取多少零件进行检查?2、某茶叶公司销售一种名茶,规定每包规格重量不低于150克,现抽取1%检验,结果如下:重量(克)148—149149—150150—151151—152合计包数(包)10205020100\n要求:试以99.73%的概率按重复抽样计算(1)估计这批茶叶平均每包重量的范围是否符合规格重量的要求;(2)估计这批茶叶的重量包装的合格率范围。3、在2000名工人中采取重复抽样方式随机抽取144名工人的土方工程进行测算,测量结果为每人的平均工作量为5.32m,标准差1.5m。要求:(1)以95%的概率保证度来推算抽样极限误差;(2)根据上述条件,若要求抽样极限误差不超过0.1m,Zα/2=1,应抽多少人调查?333\n4、某地区组织职工家庭生活抽样调查,已知职工家庭平均每月每人生活费收入的标准差为11.5元。要求:若可靠程度为0.9545,极限误差为1元,问应抽取多少户进行调查?5、在纯随机重复抽样中,抽样单位数增加了1倍或者3倍。问:(1)平均数的抽样平均误差是如何变化的?(2)若抽样单位数减少50%或75%,抽样平均误差又如何变化?\n6、从仓库中随机抽选了200个零件,经检查有40个零件是一级品,又知道抽样数是仓库零件总数的1%。要求:当把握程度为95.45%时,试估计该仓库这种零件一级品的区间范围。7、某洗衣机厂随机抽选100台洗衣机进行质检,发现有5台不合格。要求:(1)试计算以68.27%的概率保证度推断这批洗衣机的合格率;(2)若概率保证度提高到95.45%,则该批洗衣机的合格率将怎样变化?(3)由此例说明误差范围与概率度间关系。\n8、从以往的调查可以知道,某产品重量的标准差不超过2克。要求:抽样极限误差不超过0.2克,可靠程度为95.45%,试问需要抽多少个单位?9、某高校进行一次英语测试,为了解考试情况,随机抽选1%的学生进行调查,所得资料如下:成绩(分)50—6060—7070—8080—9090—100人数(人)102022408要求:试以95.45%的可靠性估计(1)该校学生英语考试的平均成绩;(2)成绩在80分以上的学生所占的比重。\n10、如果成数方差未知,抽样极限误差不超过2%,概率保证度为95.45%。试问在这种情况下应抽取多少单位?11、从某县小麦收获面积中随机抽选100公顷,经计算公顷产量标准差为40千克。要求:试计算该县小麦平均公顷产在442.16~457.84千克间的概率保证度是多少?12、某厂对新试制的一批产品使用寿命进测试,随机抽选100个零件,测得平均寿命为2000个小时,标准差为10小时。试计算(1)以0.6827的概率,推断其平均寿命的范围。(2)若抽样极限误差减少一半,概率不变,则应抽查多少个零件?(3)若抽样极限误差减少一半,概率提高到0.9545,则又该抽查多少个零件?通过上述条件变化与计算结果,如何理解样本单位数、抽样极限误差、概率度三者间的关系?\n第四节抽样组织方式一、分层抽样分层抽样总的抽样误差取决于各层的抽样误差,而各层的抽样误差又取决于各层内部方差和抽样数目。按各层抽样比例是否相等等比例分层抽样不等比例分层抽样等比例分层抽样抽样误差计算公式:μx=√σ2/nμx=√σ2(1–n/N)/n\n其中:σ2为层内方差平均数=∑σiNi2N公式中σi及Ni用各子样本方差Si及各子样本数目ni近似计算2分层抽样抽样误差小于简单随机抽样抽样误差,因为组内方差平均数小于总体方差。【例1】某厂甲乙两车间都生产保温瓶胆,乙车间技术先进,产量是甲车间的2倍,为调查该厂保温瓶胆的保温时间,按两车间产量比例共抽查60只瓶胆,资料如下:2\n试以95%的可靠程度推断该厂生产的全部瓶胆平均保温时间的可能范围。车间平均保温时间(小时)保温时间标准差(小时)甲乙25281.20.8解:∵n=60,n1=20,n2=40∴x=(25×20+28×40)/60=27σ=(1.44×20+0.64×40)/602=0.9067∴μx=√0.9067/60=0.12\n∴△x=0.12×1.96=0.24∴27–0.24≤X≤27+0.24【例2】某地区有10000户家庭,按城市和农村户比例,按不重复抽样方法抽取1000户进行彩电拥有量调查,试以80%的概率推断该地区彩电拥有户比重的范围。家庭户抽样户数彩电拥有户比重(%)城市农村3007008015解:∵p1=80%,p2=15%∴p=(0.8×300+0.15×700)/1000=34.5%\nP(1-P)=0.8×0.2×300+0.15×0.85×7001000=13.725%∴μp=0.137251000(1-1000/10000)=1.11%∴△p=1.28×1.11%=1.42%∴34.5%-1.42%≤P≤34.5%+1.42%【例3】见教材P133\n二、等距抽样1、无关标志排队等距抽样抽样起点可随机确定,抽样效果接近于简单随机抽样。抽样误差按简单随机抽样方法近似计算。2、有关标志排队等距抽样抽样起点一般不能随机确定。抽样效果类似于分层抽样。抽样误差按分层抽样方法近似计算。(1)半距起点等距抽样但限制了抽样的随机性。因为排队后只能抽取一个样本(2)对称等距抽样\n三、整群抽样抽样误差取决于群间差异程度大小,可忽略群内差异影响。公式见教材P136【例1】某厂每天24小时连续生产某产品,规定每隔20小时抽查1小时的产品,4月份抽查结果为优质品率85%,群间方差6%,试以95%的把握程度估计4月份产品优质品率的区间。解:R=720,r=36,p=85%,δ=6%2∴μp=0.0636(1-36/720)=3.98%\n∴△p=1.96×3.98%=7.8%∴在95%的把握程度下可推断4月份产品优质品率在77.2%~92.8%之间。【例2】见教材P136\n第四章相关回归分析相关与回归分析概述相关分析回归分析\n第一节相关与回归分析概述一、相关的概念事物或现象间在数量上存在着相互依存、相互制约的关系。可分为两种类型:确定性关系和非确定性关系。1、确定性关系:现象间存在着一一对应的严格的数量依存关系。对于某一个变量的每一个数值,都有另一个变量的确定数值与之对应,又称为函数关系。\n2、非确定性关系:现象间存在的不严格的数量依存关系。对于某一个变量的每一个数值可以有另一个变量的若干个数值与之对应,又称为相关关系,简称相关。⊙函数关系与相关关系的联系:(1)由于测量误差存在,现实生活中函数关系常表现为相关关系;(2)由于现象间数量关系规律性,相关关系常借助函数关系近似描述。\n对现象间相关关系的研究,称为相关分析。相关分析常研究现象间因果关系、共变关系、依存关系等。二、相关的分类1、按表现形式直线相关(线性)曲线相关(非线性)2、按变化方向正相关负相关3、按因素多少单相关(一元)复相关(多元)4、按相关程度完全相关不完全相关完全不相关\n完全正相关不完全正相关完全负相关不完全负相关非线性相关完全不相关\n三、回归的概念将具有相关关系的各个变量区分为自变量和因变量,研究自变量数值的变化对因变量数值的影响,根据自变量的数值推算因变量的数值,揭示相关关系现象间数量变动的统计规律性。四、回归的分类1、按自变量个数简单回归(一元)复回归(多元)2、按表现形式直线回归(线性)曲线回归(非线性)\n五、相关与回归分析的主要内容1、考察现象间是否存在相关关系2、分析现象间相关关系的种类3、分析现象间相关密切程度4、建立回归方程5、测定因变量估计值与实际值的误差程度,并作有关估计推断\n第二节相关分析一、相关分析1、相关分析定义2、相关分析目的找出现象间相关关系的密切程度和变化规律,以便进行统计预测和推算。3、相关分析步骤(1)确定现象间有无相关关系(2)确定相关关系的表现形式(3)确定相关关系的密切程度及方向\n二、相关关系的测定1、定性分析。依据研究者的理论知识、专业知识和实践经验,通过观察试验进行深入研究,才能作出正确的结论。在定性分析的基础上,进一步编制相关表、绘制相关图,便于直观判断现象间相关形态、方向及密切程度。相关表将某一变量的变量值按大小顺序排列,另一变量的变量值与之对应排列的一种统计表。\n相关图对于具有相关关系的两个变量,将其中一个作为X变量,另一个作为Y变量绘制的用来描述现象间相关关系的散点图。2、定量分析。通过相关系数和判定系数的计算,进一步了解现象间相关关系的确切情况。相关系数用来测定变量间相关密切程度的指标。有简单相关系数、复相关系数、非线性相关系数等。\n简单相关系数是用以描述在直线相关条件下,变量间相关密切程度的综合指标,用r表示(公式见教材P175)相关系数的取值范围:-1≤r≤1。r>0时,X与Y正相关;r<0时,X与Y负相关;r=0时,X与Y不相关;r=±1时,X与Y完全相关;0<|r|<1时,X与Y不完全相关;|r|越接近1时,X与Y相关程度越高。\n判定系数相关系数的平方。用以判断回归方程的拟合优度。判定系数的取值范围:0≤r≤12r=1时,观察值与回归值完全拟合;r=0时,观察值与回归值完全不拟合;r越接近1时,观察值与回归值拟合得越好;反之越差。222\n第三节回归分析一、回归分析根据回归方程式与给定的自变量,揭示因变量在数量上的平均变化以及求得因变量预测值的统计分析方法,称为回归分析。尽管在相关关系描述中,对于给定自变量的值,有若干个因变量值与之对应,但这些值总是围绕因变量的均值上下波动。\n二、一元线性回归方程的建立1、总体线性回归方程y=α+βx2、样本线性回归方程(一元线性回归方程)yc=a+bx3、观察值与回归值间存在误差yi–yci=yi–a-bxi(i=1,2,…,n)4、最小平方法:使离差平方和最小即:Q=∑(yi–a–bxi)为最小2\n根据微积分求极值原理,分别对a,b求偏导数,并令它们得零,∂Q/∂a=2∑(yi–a–bxi)(-1)=0∂Q/∂b=2∑(yi–a–bxi)(-xi)=0即:∑yi=na+b∑xi∑xiyi=a∑xi+b∑xi2∴b=n∑xy-∑x∑yn∑x-(∑x)22a=y-bx\n当x=x时,有yc=y,即回归直线必通过(x,y),即各散点的中心。∵yc=a+bx=y–bx+bx回归系数b和相关系数r的符号都取决于分子的协方差,所以同一组资料的b、r符号是一致的。b、r的计算式可互推b=r(σy/σx)r=b(σx/σy)\n三、回归估计标准差反映各实际观察值与其估计值之间的平均偏差程度。回归估计标准差计算公式和简化公式见教材P181回归估计标准差表明估计值对各实际观察值的代表性强弱。值越大,回归方程的代表性越差;反之,回归方程的代表性越强。\n四、回归估计标准差与相关系数的关系一个实际观察值差异大小可通过离差(y-y)来表示;而全部n个实际观察值的总差异可通过离差平方和∑(y-y)来表示。一个实际观察值的离差可分解为:y–y=(y-yc)+(yc-y)则全部n个实际观察值的离差平方和:∑(y-y)=∑(y-yc)+∑(yc-y)反映x以外的因素对y的影响反映x与y线性关系对y的影响2222\n回归效果好坏取决于回归平方和在总离差平方和中的比重,比重大小可衡量相关密切程度和回归拟合优度,也就是判定系数r。2判定系数r计算公式和简化公式见教材P1842∴相关系数r又可表示为r=√1-∑(y-yc)/∑(y-y)22大样本条件下,回归估计标准差与相关系数间关系见教材P184~185\n第五章时间数列时间数列分析方法概述时间数列指标分析法时间数列因素分析法\n第一节时间数列分析方法概述一、时间数列一系列按时间顺序排列的某种的统计指标数值(动态数列)两个基本要素现象所属时间各时间现象的指标数值二、时间数列种类1、按指标表现形式绝对数数列相对数数列平均数数列时期数列时点数列\n时期数列中指标数值具有可加性,数值大小与时期长短有直接关系;时点数列中指标数值具有不可加性,数值大小与时点间隔长短无直接关系。相对数数列与平均数数列中指标数值具有不可加性,相加无意义。2、按发展变化规律水平型趋势型季节型\n三、时间数列的编制原则1、各指标数值所属时间可比2、各指标数值总体范围可比3、各指标数值计算口径可比4、各指标数值经济内容可比四、时间数列分析方法1、指标分析法:2、因素分析法:通过计算时间数列分析指标揭示现象发展变化状况及程度。对构成时间数列的各因素进行分解分析,揭示现象发展的规律性。\n第二节时间数列指标分析法一、水平分析指标发展水平时间数列中的每个指标数值最初水平:a0最末水平:an中间水平:a1,a2,a3…an-1报告期水平:所研究时期的指标数值基期水平:比较基础时期的指标数值\n平均发展水平不同时间上发展水平的平均数(序时平均数)1、绝对数数列序时平均数(1)时期数列简单算术平均数a=a1+…+ann=∑ain(2)时点数列①连续时点与时期数列方法相同\n②间断时点(ⅰ)间隔相等首末折半法a=a1/2+a2+…+an-1+an/2n-1(ⅱ)间隔不等用间隔长度作权数a=2a1+a2f1+……+2an-1+anfn-1f1+f2+…+fn-1\n2、相对数数列序时平均数c=a/b(而非∑c/n)3、平均数数列序时平均数(1)一般平均数数列序时平均数与相对数数列方法相同(2)序时平均数数列序时平均数①时期相等简单算术平均数【例1】某企业上半年各月平均工人数分别为90、95、100、90、85、80人,则\n平均工人数=90+95+100+90+85+806②时期不等用时期长度加权【例2】某企业上半年工人数如下:时间1月2~3月4~6月平均工人数800700900平均工人数=800+700×2+900×31+2+3\n增长量报告期与基期发展水平之差1、逐期增长量报告期与前一期发展水平之差2、累计增长量报告期与某一固定基期(通常为第一期)发展水平之差累计增长量等于相应逐期增长量之和;相邻累计增长量之差等于相应时期逐期增长量。\n平均增长量逐期增长量的序时平均数平均增长量=∑(ai–ai-1)n=an–a0nn为逐期增长量个数,即时间数列项数减1\n二、速度分析指标发展速度报告期与基期发展水平之比1、环比发展速度报告期与前一期发展水平之比2、定基发展速度报告期与某一固定基期(通常为第一期)发展水平之比定基发展速度等于相应各期环比发展速度之积;相邻定基发展速度之商等于相应时期环比发展速度。\n平均发展速度各期环比发展速度的平均数1、几何平均法(水平法)x=√nx1·x2·……·xn=√n∏xi=√nan/a0=√nR2、方程法(累计法)x*+(x*)+……+(x*)=2n∑aii=1na0\n增长速度增长量与基期发展水平之比增长速度=发展速度-11、环比增长速度环比增长速度=环比发展速度-12、定基增长速度定基增长速度=定基发展速度-1环比增长速度连乘积不等于相应时期定基增长速度;相邻定基增长速度之商不等于相应时期环比增长速度。\n平均增长速度现象逐期增长的平均速度平均增长速度=平均发展速度-1增长1%的绝对值表明每1%的增长速度在绝对数量上所包含的实际内容,即报告期比基期每增长1%所包含的绝对数量是多少。增长1%的绝对值=基期水平/100\n第三节时间数列因素分析法一、时间数列的分解与组合(一)时间数列的构成因素长期趋势长时期内沿某方向持续稳定的变化趋势。季节变动一年以内较有规律性的周期变动。循环变动一年以上较有规律,但周期长短不固定的循环变动。不规则变动偶然因素引起的变动。\n(二)时间数列的基本模型Y=T+S+C+I(加法模型)Y=T·S·C·I(乘法模型)加法模型假定四因素相互独立,但实际上并非如此;所以乘法模型是常用模型,因为(1)乘法模型假定四因素相互影响,(2)可使四因素顺利分离。\n二、长期趋势测定目的研究趋势发展规律预测推断未来剔除趋势因素,分解研究其他因素方法移动平均法最小平方法\n三、季节因素测定目的研究季节变动规律预测未来季节变动消除季节变动因素,分解研究其他因素方法原资料平均法趋势(循环)剔除法\n四、循环因素测定目的研究循环变动规律预测未来发展变动有效遏止循环变动的不良影响方法分解法增长率法\n思考题1、某商店销售资料如下,试分析99年1月份销售额比98年12月份销售额在剔除季节因素影响后的提高或降低情况。时间销售额环比增长速度季节指数98年11月448.8—102%98年12月680.451.6%180%99年1月332.0-51.2%80%\n2、根据下表资料求上半年月平均劳动生产率。月份1234567月初工人数(人)1000105010901070110011201040总产值(万元)2002203004003603803、某市98年财政收入是45.1亿元,从99年起每年要比上年递增10.8%,问该市到2000年财政收入将达到多少?\n4、甲乙两省某种产品产量资料如下19954567400441996536142904199764834599519987060491001999871651900试计算(1)甲乙两省的平均发展速度(2)按这几年的平均发展速度还要有多少年甲省可以赶上乙省(3)如果甲省要在15年赶上乙省,其平均每年的发展速度应该为多少?\n5、某企业6年间各季度产值资料如下,试采用按季平均求季节指数。时间一季度二季度三季度四季度199410812894781995112132886819961091348473199711013160691998108135896819991061206372\n第八章统计指数统计指数概念及分类总指数的计算指数体系与因素分析\n第一节统计指数概念及分类一、概念1、广义的指数2、狭义的指数综合反映现象复杂总体数量变动状况和对比关系的特殊相对数。特点综合性、平均性。作用反映复杂总体变动方向程度用指数体系进行因素分析编制指数数列反映长期趋势\n二、分类1、按反映现象范围不同个体指数总指数类(组)指数2、按指数化指标性质不同数量指数质量指数3、按所确定基期不同环比指数定基指数4、按现象时间状况不同动态指数静态指数\n第二节总指数的计算一、总指数的综合形式—综合法指数通过两个时期的综合总量对比来计算的总指数。同度量因素使不同度量的现象过度成可以同度量的媒介因素,既有同度量作用,也有权数作用。同度量因素的水平应固定在同一时期,使现象总量的变动只反映指数化指标的变动。\n拉氏公式:将同度量因素固定在基期帕氏公式:将同度量因素固定在报告期我国统计实践中,计算数量指数时多用拉氏公式,侧重反映指数化指标的纯变动;计算质量指数时多用帕氏公式,侧重说明指数化指标变动的现实经济效益。1、数量指数Kq=∑q1p0∑q0p02、质量指数Kp=∑q1p1∑q1p0\n二、总指数的平均形式—平均法指数用平均的方法对个体指数进行加权平均来求总指数。1、加权算术平均法Kq=∑Kqq0p0∑q0p0(以q0p0为权数)2、加权调和平均法Kq=∑q1p1∑(1/Kp)q1p1(以q1p1为权数)3、固定权数平均法\n第三节指数体系与因素分析一、指数体系若干个有联系的指数形成的整体。即某一现象的指数等于其各个影响因素指数的乘积。作用可进行指数间推算可进行因素分析\n二、因素分析(一)现象总量变动的因素分析1、两因素分析2、多因素分析(二)总平均指标变动的因素分析可变构成指数=固定构成指数×结构影响指数