- 1.19 MB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统 计 学\n第一章绪论1、统计学:关于数据资料搜集、整理、分析、推断的理论和方法。(复数)2、统计工作:对数据资料搜集、整理、分析、推断的过程。(单数)3、统计资料:各种数据资料的总称。(单数)一、统计(Statistics)的含义理论与实践的关系第一节统计的特点及分科\n统计实践活动对现象的数量进行搜集、整理和分析的活动过程统计的含义之一政府统计:统计局、职能部门企事业单位统计经营统计:调查咨询公司、统计事务所等其它:如研究性统计机构等《统计学》第一章绪论\n二、统计学的特点1、数量性2、总体性3、差异性4.随机性三、统计学的分类理论统计学和应用统计学统计学描述统计学和推断统计学统计学的数学原理研究应用于某特定领域统计方法数据资料的整理、显示以及概括统计规律用样本数据推算总体数据\n描述统计(descriptivestatistics)内容搜集数据整理数据展示数据描述性分析目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=105\n推断统计(inferentialstatistics)内容参数估计假设检验目的对总体特征作出推断样本总体\n统计的应用领域统计学经济学管理学医学工程学社会学…\n统计的应用领域actuarialwork(精算)agriculture(农业)animalscience(动物学)anthropology(人类学)archaeology(考古学)auditing(审计学)crystallography(晶体学)demography(人口统计学)dentistry(牙医学)ecology(生态学)econometrics(经济计量学)education(教育学)electionforecastingandprojection(选举预测和策划)engineering(工程)epidemiology(流行病学)finance(金融)fisheriesresearch(水产渔业研究)gambling(赌博)genetics(遗传学)geography(地理学)geology(地质学)historicalresearch(历史研究)humangenetics(人类遗传学)\n统计的应用领域hydrology(水文学)Industry(工业)linguistics(语言学)literature(文学)manpowerplanning(劳动力计划)managementscience(管理科学)marketing(市场营销学)medicaldiagnosis(医学诊断)meteorology(气象学)militaryscience(军事科学)nuclearmaterialsafeguards(核材料安全管理)ophthalmology(眼科学)pharmaceutics(制药学)physics(物理学)politicalscience(政治学)psychology(心理学)psychophysics(心理物理学)qualitycontrol(质量控制)religiousstudies(宗教研究)sociology(社会学)surveysampling(调查抽样)taxonomy(分类学)weathermodification(气象改善)\n四、统计学与其它学科的关系1、统计学与数学的关系(1)统计学研究的量是具体的量,而数学研究的量 是抽象的量。(2)统计学运用归纳推理,而数学运用演绎推理。2、统计学与计算机的关系计算机是统计数据处理的工具。\n第二节统计学的基本概念总体与总体单位标志和变量指标及指标体系样本及统计推断统计学的基本概念\n一、总体与总体单位统计总体(Population)就是根据一定目的确定的所要研究对象的全体。总体单位是组成总体的个别单位。总体中的总体单位数称为总体容量(Populationsize)。用N表示。同质性差异性大量性有限总体:总体单位数目有限无限总体:总体单位数目无限总体的特点总体的分类\n总体、总体单位总体、总体单位总体或总体单位的区分不是固定的,在一定条件下可以相互转化。《统计学》第一章绪论\n二、标志和变量(一)标志是反映总体单位特征的名称。1、标志的分类品质标志:不能用数量表示数量标志:用数量表示不变标志:标志表现相同可变标志:标志表现不同\n标志性别年龄民族宗教信仰政治倾向身高体重男汉族佛教无党派43岁182cm75公斤标志表现品质标志文字表述数量标志数据表述\n总体单位标志不变标志决定总体的同质性变异标志决定总体的差异性品质标志数量标志(变量)标志和变量不变标志(标志表现无差别)变异标志(标志表现有差别)《统计学》第一章绪论\n总体单位标志不变标志决定总体的同质性变异标志决定总体的差异性品质标志数量标志(变量)标志和变量不变标志(标志表现无差别)变异标志(标志表现有差别)《统计学》第一章绪论\n2.统计测量尺度的种类定比测量(尺度、指标)定类测量(尺度、指标)定序测量(尺度、指标)定距测量(尺度、指标)《统计学》第一章绪论\n定类尺度按现象性质差异进行的辨别与区分。测量结果形成定类变量或定类指标。定类变量或指标确切的值是以文字表述的,可以用数值标识,但仅起标签作用。定类变量或指标的各类别间是平等的,没有高低、大小、优劣之分。性别、种族、运动项目等等例如:\n定序尺度按现象顺序差异进行的辨别与区分。测量结果形成定序变量或定序指标。定序变量或指标确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。定序变量或指标各类别间有高低优劣之分,不能随意排列。\n-≠-≠≠>>大学生中学生小学生\n定距尺度按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或定距指标。定距变量或指标的值以数字表述,有计量单位,可以进行加减运算。定距变量或指标各类别间自然有大小之分,但没有绝对的零点,不能乘除计算。\n天气预报:沈阳:最高温度3℃,最低-7℃大连:最高温度6℃,最低-2℃两地最高温度相差3℃沈阳最低温度较大连最低温度低5℃大连最高温度是沈阳最高温度的2倍温度\n1971年出生30岁1986年出生15岁甲乙二人年龄之差:1986-1971=15岁或30-15=15岁二人年龄之比:30÷15=2(倍)1986÷1971=1.0076(倍)\n定比尺度按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或定比指标。定比变量或指标确切的值也以数字表述,有计量单位,可以进行加减运算。定比变量或指标有绝对意义上的零点,既可以加减运算,也可以乘除运算。\n第一,决定数据的整理、显示方法第二,决定数据的分析方法第三,决定计算机的处理方法统计测量尺度的作用:\n对测量尺度层次的判断较低层次的测量尺度较高层次的测量尺度低测量精度高少计算方法多小信息数量大\n甲、乙有生命很低不能计算,只能判断=、≠甲、乙有生命定类测量甲为中年人,乙为少年人。较低=、≠、>、<甲、乙有生命甲生命时间较乙长定序测量甲生于1941年、乙生于1986年。较高=、≠、>、<、+、-甲、乙有生命甲生命时间较乙长甲比乙大45岁定距测量甲60岁、乙15岁很高=、≠、>、<、+、-、×、÷甲、乙有生命甲生命时间较乙长甲比乙大45岁甲年龄为乙的4倍定比测量《统计学》第二章统计数据的搜集测量精度计算方法信息数量某甲某乙的生命现象\n高层次低定类测量定序测量定距测量定比测量\n对于不同的现象,要注意准确性测量尺度的正确应用对宗教、种族、民族、性别、党派、国别、职业等等品质方面的差异进行测量例如:定类测量对圣亚海洋世界的评价:对于人的主观态度,定序尺度可能是最好的方法(定距以上的尺度不一定合适)\n定序测量定距测量定比测量顺序性差异顺序性差异、绝对差异距离顺序性差异、绝对差异距离、相对差异文盲半文盲、小学、初中、高中、大专、大学本科、硕士研究生、博士研究生(定序测量)对受教育程度的度量方法文盲半文盲博士研究生对数量差异的度量,要注意层次测量尺度的正确应用\n在自然或社会经济领域里,单纯的定距变量是很少的,绝大多数定距变量同时也是定比变量。定距测量与定比测量的区别只在理论上有意义,在实际工作中常将二者归为一类。注意:\n(二)变量:说明总体或个体某种特征的概念。变量值:变量的具体数值。例如,工资是变量,而工资的具体取值600、800、1200则是变量值。定性变量:不能用数量表示。按形式分定量变量:能用数量表示。确定性变量:指在一定条件下取值确定的变量。按性质分随机变量:取值不确定的变量。连续型变量:变量值连续不断。按变量值的形式离散型变量:变量值以整数位断开。如性别如年龄、工资不可一一列举可一一列举\n三、指标及指标体系(一)指标:统计指标是反映统计总体数量特征的概念。(二)指标与标志的区别与联系。区别主要是:1.标志是反映总体单位的属性和特征,而指标则是反映总体的数量特征。2.标志有不能用数值表示的品质标志与能用数值表示的数量标志两种,而指标都是可用数值表示的,没有不能用数值表示的指标。二者的联系则是有些统计指标数值是从总体单位的数量标志值汇总而来的。(三)指标体系将一系列相互联系、相互补充共同说明一个总体各方面特征的指标组成整体就构成统计指标体系。\n统计指标反映社会经济现象总体数量特征的概念及其具体数值5701999年末大连市总人口万人时间限制空间限制指标名称具体数值计量单位计算方法综合性数量性具体性构成要素:性质:《统计学》第一章绪论\n四、样本及统计推断(一)样本(Sample):从总体中抽取出来,用来代表总体的个体的集合体。样本容量(Samplesize):样本中所含个体的数量,用n表示。n大于或等于50的样本为大样本。(二)统计推断:根据样本资料对总体的分布状况和分布特征进行推断。样本总体统计推断总体的缩影样本有较高的代表性是统计推断的前提条件\n第二章统计数据的搜集与整理第一节统计调查一、统计调查的要求统计调查是根据统计研究的目的,向调查单位搜集统计资料的过程。原始资料:未经加工整理,只能说明个体特征。次级资料:经过加工整理,一定程度能说明总体特征。统计调查的要求:准确、及时、完整。调查资料\n二、统计调查的种类(一)按调查对象包括的范围不同,分为全面调查和非全面调查全面调查:对总体中的所有总体单位进行调查。例如,人口普查。非全面调查:只调查总体中的一部分总体单位。例如,抽样调查。(二)按调查登记的时间是否连续,分为经常性调查和一次性调查。经常性调查:对总体的状况进行连续不断的登记。一次性调查:对总体的状况间隔一段时间调查一次。(三)按调查的组织方式的不同,分为统计报表和专门调查。统计报表是国家统计系统和各个业务部门为了定期取得全面的统计资料而采用的一种调查方式。专门调查是指为了了解和研究某种情况或某项问题而专门组织的调查。针对时期现象针对时点现象\n统计调查的分类不是互相排斥的,而是从不同角度对同一调查进行不同的分类,它们是相互联系、相互交叉的。例如普查是一种专门组织的调查,又是一次性的调查,也是全面的调查。全面调查由调查经费、调查期限决定非全面调查经常性调查由所调查指标的时间特征决定一次性调查\n三、统计调查方案设计(一)确定调查的任务和目的。(二)确定调查对象和调查单位。(三)拟定调查提纲和编制调查表。单一表:一份表上只登记一个调查单位的调查项目调查表一览表:一份调查表同时登记若干个调查单位的调查项目(四)确定调查的方式和方法(五)确定调查时间和调查期限:调查时间是调查资料所属的时间;调查期限是调查工作的起至时间。(六)制定调查的组织实施计划总体总体单位\n四、统计调查组织形式(一)统计报表统计报表是按照国家相关法律的规定,按照统一的表式、统一的指标、统一的报送时间和报送程序自上而下统一布置,自下而上地逐级定期提供基本统计资料的一种调查方式。统计报表的种类:按调查范围不同,统计报表可以分为全面统计报表和非全面统计报表。按报送时间不同,统计报表可以分为日报、旬报、月报、季报、半年报和年报统计报表。按报送范围不同,统计报表可以分为国家报表、部门报表、地方报表。按填报单位不同,统计报表可以分为基层报表和综合报表。\n(二)普查概念:普查是专门组织的一次性的全面调查。特点:1、普查是一次性的定期调查。一般要规定统一的标准时间。如我国第五次人口普查的标准时间为2000年11月1日0时。2、普查是一种全面调查。它比其他任何一种调查形式更能掌握大量、详细、全面的统计资料。花费的人力、物力很大。3、普查是专门组织的调查,所以其数据一般比较准确,规范化程度也较高。末位数字为0的年份人口普查末位数字为3的年份第三产业普查末位数字为5的年份工业普查末位数字为7的年份农业普查搜集有关国情、国力的基本数据\n(三)重点调查概念:只对总体中的重点单位进行调查。单位数少调查的标志值在总体标志总量中占有很大的比重(四)典型调查概念:有意识地从总体中选出少数几个具有代表性的典型单位进行深入细致的调查研究。重点单位适宜变量值分布极不均衡的总体掌握总体数量方面的基本情况一般不进行数量推算侧重于对总体的定性认识凭主观抽取调查单位\n(五)抽样调查概念:按照随机原则从总体中抽取一部分单位作为样本,并根据样本指标数值推算总体指标数值的调查方式。特点:1、样本单位是按随机原则抽取的。2、要用样本数据推算总体数据。3、抽样误差可以计算并事先计算并加以控制。适用范围:1、对一些不可能或不必要进行全面调查的客观现象。2、对普查资料进行必要的修正。3、抽样调查可以用于工业生产过程的质量控制。4、利用抽样调查还可以对总体的某种假设进行检验随机抽取样本旨在提高样本代表性\n抽样调查的组织方式1、简单随机抽样按随机原则直接从总体N个单位中抽取n个单位作为样本,保证总体中每个单位在抽选时都有同等的中选机会。2、分层随机抽样先对总体各单位按主要标志加以分组,然后再从各组中按随机原则抽取一定单位构成样本。3、系统随机抽样是先将总体各单位按某一标志进行排队,然后按固定顺序和间隔来抽取样本。排队可按无关标志,也可按有关标志。例如,从200个单位中抽取10个单位,间隔为20(200/10)即将200个单位10等份,每等份抽取1个单位,从第一等份中随机抽取1个单位,以后的样本单位均按等距抽取。4、整群随机抽样是先将总体分成若干群,然后以群为单位从中随机抽取若干群,对中选群的全部单位进行全面调查。\n\n全面统计报表(定期、全面调查)全面调查普查(全面、一次性、专门调查)统计调查的组织方式抽样调查(随机抽取调查单位)典型调查非全面调查(凭主观抽取调查单位)重点调查(只调查重点单位)\n五、统计调查的具体方法(一)直接观察法调查者到现场直接对调查对象进行观察、计数、计量。资料较准确、生 动,但需要花费较大的人力、财力和时间。(二)采访法采访法是指调查者向被调查者询问,根据被询问者的答复来搜集资料的一种调查方法。包括:口头询问法;问卷法;开调查会;电话调查。问卷是有问有答的调查表,提问方式和提问次序是问卷设计应注意的问题。问卷的提问方式包括封闭式提问和开放式提问两种方式,问卷的提问次序应遵循先易后难的原则。(三)报告法调查单位向上报送统计资料的方法。如统计报表。\n六、统计调查误差统计调查误差是统计调查所得到的数据与客观真实数据之间的偏差。根据误差产生的原因不同,对统计调查误差可进行如下分类:登记性误差(计量、记录、计算等差错而引起的误差)系统性误差代表性误差(样本代表性不足) 随机性误差(抽样误差)统计调查误差全面调查只可能产生登记性误差非全面调查存在代表性误差,还可能产生登记性误差。\n第二节数据整理一、什么是数据整理:数据资料的整理是指将统计调查所得到的原始资料进行科学得分组和汇总,并用一定的方式将其显示出来,为统计分析推断提供系统化、条理化的资料的过程。数据整理的步骤:数据预处理、统计分组、汇总、显示。二、数据的预处理数据整理首先要对调查得到的数据进行审核,数据审核主要从完整性和准确性两个方面进行。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核主要是检查数据资料是否真实地反映了客观实际情况,统计调查数据是否有错误,计算是否正确等。数据审核的方法主要有逻辑检查和计算检查两种方法。逻辑检查是定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误。\n三、统计分组(一)统计分组的概念和作用统计分组是根据统计分析的目的和要求,按一定的标志将总体划分为若个不同的部分。如人口按性别分为两组,学生按成绩分为五组。统计分组的作用:(1)区分社会经济现象的类型。一个总体往往包含很多个体,通过统计分组可将性质相同的个体归为一类,从而把不同的社会经济现象区分开来。(2)反映和研究总体的内部构成。通过统计分组后,计算各组成部分的总量占总体总量的比重,从而反映总体的内部构成状(3)分析研究现象之间的依存关系。如将居民按收入分组,并计算各组的消费支出,可看出收入与消费支出的依存关系。\n(二)统计分组的原则与类型1.统计分组的原则(1)完备性原则:总体中的任何一个个体都有组可归。(2)互斥性原则:每个个体只能划归其中的一个组中。概括地讲.进行统计分组时,要使总体中的每个个体都有组可归,而且只能归入其中一个组。即采取“不重不漏”的原则。2、分组的类型按分组标志的选择不同,统计分组可分为品质标志分组与数量标志分组两种形式。(1)品质标志分组的组数和组限比较容易划定。有多少个标志表现就可划分为多少个组。对一些品质标志,其标志表现大众熟知,如性别、民族等,相应的组数和组限很容易划定;而对于另一些品质标志如行业、职业,可从国家统计局制定了统一的分类目录中查询,如《国民经济行业分类目录》、《职业分类目录》、《产品分类目录》等。不遗漏不重复\n(2)数量标志分组的组数和各组界限按数量标志分组时,组数和各组界限都较复杂,需要人为地确定。数量标志分组有两种形式:(1)单项式分组。单项式分组是每个组的组别只用一个变量值表示的分组方式。即每遇到一个不同的变量值单独列组。(2)组距式分组。组距式分组是指每个组用表示一定变动范围的两个变量值表示,即将数量标志的取值范围划分成若干个区间。如职工按工资分组如下:800-900,900-1000,1000-1100,1100-1200。在组距式分组中,每组最大的变量值叫该组的上限,最小的变量值叫该组下限,如上述工资分组中第一组的上限900,下限800。组距=上限-下限组距式分组又可分为等距分组与异距分组两种。单项式分组适宜于离散变量分组,且变量值取值个数不多的情形。组距式分组适宜于连续变量分组,或取值个数较多的离散变量分组。\n\n3、分组体系对同一个总体采用两个或两个以上的分组标志进行一系列分组所形成的体系称为分组体系。分组体系可分为平行分组体系和复合分组体系两种类型。(1)平行分组体系。在同一个分组体系中,若将各个分组标志相互独立平行地进行分组,则这种分组体系称为平行分组体系。如将工人总体按性别分,按工龄分,按工种分……。(2)复合分组体系。在一个分组体系中,若将各个分组标志层叠或交叉进行分组,则这种分组体系称为复合分组体系。各分组之间相互独立各分组之间不独立\n四、次数分布(一)次数分布的概念和类型1、概念:按某种标志对总体进行分组后,就会形成总体单位数在各组之间的分布,这就是次数分布。如某车间工人按性别分组如下:分组后就必然会形成50个总体单位在各组间的分布,这就是次数分布。次数:分布在各组的总体单位数。频率:各组次数与总次数之比。次数分布数列:将各组组别与次数依次排列所形成的数列。次数分布数列的要素:(1)组别(2)次数或频率组别 次数 频率按性别分人数比重男300.6女200.4合计501\n2、次数分布数列的类型按选择的分组标志的不同,次数分布数列可分为属性分布数列和变量分布数列两种。属性分布数列是按品质标志分组形成的数列,简称品质数列。如上述按性别分组形成的分布数列。变量分布数列是按数量标志分组形成的数列,简称变量数列。由于按数量标志分组有单项式分组与组距式分组之分,变量数列也有单项式变量数列与组距式变量数列两种。单项式分组形成的数列叫单项式变量数列;组距式分组形成的数列叫组距式变量数列,组距式变量数列根据组距的不同又可分为等距数列和异距数列。\n\n家庭人口数户数比重%1252102532562.5437.5合计40100按工资分人数比重%800-9002018.1900-10003027.41000-11004036.41100-12002018.1合计110100单项式数列等距数列按日产量分(件)人数比重%70-8082080-1001845100-1101230110-12025合计40100异距数列\n对于单项式数列和等距式数列可以通过比较各组次数或频率的大小,判断次数分布的疏与密的程度,次数或频率大的组,分布就密集,次数或频率小的组,分布相对稀疏。对于异距数列,由于各组的组距不完全相等,各组次数或频率的大小会受组距的影响,因此不能根据各组次数或频率的大小来判断分布的疏与密,为消除各组组距的影响,在分析异距数列时,需计算次数密度或频率密度,次数密度或频率密度大的组,分布就密集。次数密度和频率密度的计算公式如下:次数密度=次数/组距; 频率密度=频率/组距\n(二)次数分布数列的编制等距式数列的编制的步骤:1、确定组数。对于等距式分组,在实际应用时,一般按斯特格斯(H.A.Sturges)提出的经验公式确定组数K:2、确定各组的组距。全距=最大变量值-最小变量值一般情况下d取5或10的倍数K为组数,N为总体单位数d为组距,R为全距\n3、组限的确定和组中值的计算1、若分组变量为连续型变量,相邻两个组的组限应采用重叠的变量值,同时为遵循互斥性原则,在按组归类整理时,遵循“上限不在内原则”。2、若分组变量为离散型变量,相邻两组的组限可以重叠也可以不重叠,若重叠仍然采用“上限不在内”的原则进行归类整理。3、区分事物质的差别的数量界限应作为组限。4、首末组的组限可以略大于最大变量值或略小于最小变量值。5、组中值:组中值是组距式分组中各组变量值的代表值,用来代表各组变量值的一般水平,所以每组上限与下限的中点数值称为该组的组中值。用组中值作为各组变量值一般水平的代表值,有一个必要的假定条件,即各组数据在本组内呈均匀分布或对称分布。对于开口组,通常假定开口组的组距与邻组组距相等,然后求得组中值。\n4、各组次数或频率的计算汇总各组次数与频率,将各组组别与各组次数一一对应排列,就得到所需的分布数列。有时为了统计分析的需要,还需计算累计次数和累计频率。根据累计的方向不同可分为向上累计和向下累计。向上累计:从变量值小的组向变量值大的组累加。向下累计:从变量值大的组向变量值小的组累加。按日产量(件)工人数向上累计次数向下累计次数70-80303013080-90508010090-1004012050100-1101013010合计130\n第三节 数据资料的显示一、统计表统计表是用于显示统计数据的表格。其构成包括:总标题、横行标题、纵栏标题、数据资料、表末附注。二、统计图1、直方图2、折线图3、曲线图4、茎叶图\n第三章数据分布特征的描述总量指标和相对指标集中趋势测度离散趋势的测度偏态和峰度的测定\n第一节 总量指标和相对指标一、总量指标(一)概念:总量指标是反映总体总规模或总水平的指标,例如国内生产总值、全国人口数、粮食总产量、工业总产值等指标都是总量指标。(二)种类:1、按反映总体内容的不同,可分为标志总量和总体单位总量。标志总量是标志值之和;总体单位总量是总体单位的总个数。2、按其反映的时间状况的不同,总量指标可分为时点指标和时期指标。时点指标,也称存量指标,它反映总体在某一瞬间的现存总量。时期指标.也叫流量指标,它是反映总体在一段时期内的累计总量。相加后无意义一次性调查取得与间隔长短无关与间隔长短有关经常性调查取得可相加\n3、按其表现形式不同,可分为实物指标与价值指标。实物指标用实物单位计量。实物计量一般有自然单位计量、度量衡单位、标准实物单位三种计量形式。价值指标是指用货币单位来计量的总量指标。二、相对指标相对指标是两个有联系的统计指标对比形成的比率。1、计划完成程度相对指标2、结构相对数\n3、比例相对数4、比较相对数5、强度相对指标强度相对数=某一总量指标值/另一性质不同但有联系的指标值6、动态相对指标\n第二节集中趋势测度平均指标是变量值一般水平的代表值,它反映变量值集中趋势。常用的平均指标有算术平均数、调和平均数、几何平均数、中位数和众数五种。一、算术平均数(Arithmeticmean)算术平均数是描述集中趋势最常用的指标。其基本公式是:根据掌握的资料的不同,算术平均数有简单算术平均数和加权算术平均数两种。1、简单算术平均数(Simplemean)-针对未分组资料例 如8个工人的日产量(件)为:20,21,22,23,24,25,26,27,其平均日产量为=(20+21+…+27)/8=23.5(件)这就是简单算术平均数。公式:设总体中有N个个体,各个个体的标志值为X1,X2,X3,…,Xn,若用代表算术平均数,则其计算公式为:\n2、加权算术平均数(Weightedmean)-针对分组资料例、根据下表资料计算工人的平均日产量。平均日产量=(32×10+35×18+38×2)/30=34.2(件)此平均数就是加权算术平均数,工人数即为权数,加权算术平均数的大小受两个因素的影响:一是被平均的变量值;二是权数。权数的作用体现在:那个组的权数较大,那个组的变量值在平均数中起的作用就大,计算出的平均数就比较靠近该组的变量值。按日产量分(件)工人数32103518382合计30此平均数受日产量和工人数两个因素的影响\n公式:1.用X1,X2,X3,…,XK代表各组的变量值;用F1,F2,F3,…,FK代表各组的次数,则算术平均数的计算公式可写为:2.加权算术平均数也可以用频率做权数,其公式为:若上例以工人数比重为权数,平均日产量=32×0.33+35×0.6+38×0.07=34.2(件)\n例:某车间工人按工资分组如下:以上分组为组距式分组,组距式分组要用组中值代表被平均的变量值。即平均工资=(850×20+950×30+1050×40+1150×20)/110=1004.55(元)按工资分工人数比重%800-9002018.1900-10003027.41000-11004036.41100-12002018.1合计110100\n3、算术平均数的性质和特点(1)各变量值与其均值的离差之和等于零,即:这一性质说明了算术平均数是变量数列的分布中心。(2)各变量值与其均值的离差平方和最小,即:该性质说明,在所有平均指标中,算术平均数与各个变量值的离差平方和最小。从这一点看,算术平均数是误差最小的一般水平的代表值。(3)算术平均值易受极端数值的影响。\n二、调和平均数调和平均数又称“倒数平均数”,它是变量数列中各变量值倒数的算术平均数的倒数。根据掌握的资料的不同,调和平均数有简单调和平均数和加权调和平均数两种。1、简单调和平均数若 ,为被平均的变量值, 为调和平均数则=2、加权调和平均数设X1,X2,X3,…,XK代表各组的变量值,m1,m2,m3,…,mK代表相应的权数,即各组标志总量。若用 表示调和平均数,则其计算公式为:\n3、相对数(或平均数)的平均数调和平均数一般是作为算术平均数的变形使用。因为调和平均数本质上仍然是标志总量除以总体单位总量,只是已知的资料不同。例:根据A表和B表资料计算平均产值计划完成程度。表A平均产值计划完成程度=总实际产值/总计划产值=(85%×1200+95%×7000+105%×11000+115%×4800)/24000=103.1%按产值计划完成程度分(%)计划产值(万元)80-90120090-1007000100-11011000110-1204800合计24000加权算术平均\n按产值计划完成程度分(%)实际产值(万元)80-90102090-1006650100-11011550110-1205520合计24740加权调和平均平均产值计划完成程度=总实际产值/总计划产值=103.1%\n三、几何平均数(Geometricmean)几何平均数是n个变量值连乘积的n次方根。根据掌握的资料不同,几何平均数有简单几何平均数和加权几何平均数两种。1、简单几何平均数——针对未分组资料简单几何平均数适用于未分组资料计算平均速度和某些平均比率。设总体中有N个个体,各个个体的标志值为X1,X2,X3,…,XN,若用G代表几何平均数,则其计算公式为:2、加权几何平均数——针对分组资料加权几何平均数适用于分组资料计算平均速度和某些平均比率。设X1,X2,X3,…,XN,代表各组的变量值,F1,F2,F3,…,FN代表相应的权数,则其加权几何平均数为:\n【例】某企业生产某种产品要经过三个连续作业车间才能完成。若某月第一车间粗加工产品的合格率为97%,第二车间精加工产品的合格率为91%,第三车间最后装配的合格率为89%,计算三个车间的平均合格率为多少?几何平均数的应用范围较窄,只有当变量值的连乘积等于总比率、总速度时,求平均比率、平均速度才用几何平均数。\n四、中位数(一)概念中位数是位置平均数,若将变量值按大小顺序排列,处于中点位置的变量值即为中位数。中位数不受极端数值的影响。(二)由未分组资料确定中位数1、将变量值按大小顺序排列。2、确定中位数的位置:中间项=(n+1)/23、确定中位数(1)变量数列的项数为奇数:中间项对应的变量值即中位数。例:五个企业的利润(万元)为:5,6,8,10,12,则利润额的中位数=8(万元)(2)变量数列的项数为偶数:中间两项的算术平均数为中位数。例 六个企业的利润(万元)为:5,6,8,10,12,13,则利润额的中位数=(8+10)/2=9(万元)\n(三)由分组资料确定中位数日产量(件)工人数向上累计向下累计308830331018223572512385305合计301、由单项式数列计算中位数。首先找出中位数所在组,即用(∑f+1)/2确定中位数位置,并计算向上累计次数或向下累计次数,累计次数达到(∑f+1)/2的组即为中位数所在组,中位数所在组对应的变量值即为中位数。例:根据下表资料确定日产量的中位数。中间项=31/2=15.5即中位数是第15项和第16项的平均数。由累计次数可知:中位数在第二组,所以日产量的中位数为33件。\n2、由组距式数列计算中位数(1)确定中位数所在的组。即用(+1)/2确定中位数位置,并计算向上累计次数或向下累计次数,累计次数达到(+1)/2的组即为中位数所在组。(2)然后用下面的公式近似计算中位数的值:式中,L为中位数所在组的下限,U为中位数所在组的上限;Sm-1为中位数所在组以下各组的累计次数或频率,Sm+1为中位数所在组以上各组的累计次数或频率,fm为中位数所在组的次数或频率,d为组距。已知频率已知次数\n例某校3000名学生的月消费额资料如下,确定月消费额的中位数。月消费(元)人数向上累计向下累计500-6002402403000600-7004807202760700-800105017702280800-90060023701230900-100027026406301000-110021028503601100-120012029701501200-130030300030合计3000中间项=(3000+1)/2=1500.5由累计次数可知:中位数在第三组,即700-800之间。由中位数公式可计算:=\n五、众数(Mode)众数是变量数列中出现密度最大的变量值,众数也是分布密度曲线的高峰位置对应的变量值,是反映分布中心的指标。根据数据分布特点的不同,众数可以不存在,可以有一个,也可以有多个。对于未分组资料直接根据概念就可确定众数。如六个企业的利润(万元)为:5,6,8,8,10,12,则众数为8。对于单项式数列,次数最大的组为众数组,众数组对应的变量值即众数。对于组距式数列:1.确定众数组。次数密度或频率密度最大的组为众数组。2.然后用下面的公式近似计算中位数的值:式中,M0为众数;L为众数组的下限;U为众数组的上限;d为众数组的组距;f为众数组的次数密度或频率密度;f+1为众数组上一组的次数密度或频率密度;f-1为众数组下一组的次数密度或频率密度。\n月消费(元)人数500-600240600-700480700-8001050800-900600900-10002701000-11002101100-12001201200-130030合计3000例某校3000名学生的月消费额资料如下,确定月消费额的众数。首先,确定众数组。700-800组的密度最大,所以700-800组为众数组。由众数公式可计算:=755.9元\n六、众数、中位数和均值的比较1.如果数据的分布是对称的,则众数、中位数、和均值完全相等,即有:2、如果数据是左偏分布(分布密度曲线的尖峰位于变量较大值的一边),三者之间的关系表现为:3、如果数据是右偏分布,则有:三者的关系可用下图表示:4.当数据分布的偏斜程度不是很大时,算术平均数到众数的距离是算术平均数到中位数距离的3倍。即:\n第三节离散趋势的测度离散指标是反映变量值差异程度的指标。作用1、反映变量值的离散趋势。2、离散指标是衡量平均数代表性的尺度。离散指标值越小,平均数的代表性就越好。3、变异指标可以表明现象的均衡性常用的离散指标有:极差、四分位差、平均差、方差和标准差、离散系数等。一、极差(Range)极差也叫全距,是一组数据的最大值与最小值之差。极差越大,表明变量的变动范围越大,即离散程度越大。组距式数列的极差=最高组上限-最低组下限粗略反映离散程度\n二、四分位差(内距)四分位差是上四分位数与下四分位数之差。将变量值按大小顺排列,然后分为四等份,得到三个四分点,四分点对应的变量值为四分位数,靠近变量值大的一端的四分位数叫上四分位数,用QU表示;靠近变量值小的一端的四分位数叫下四分位数,用QL表示,若用H表示四分位差,则计算公式为:四分位差反映了中位数两侧中间一半数据的离散程度。三、平均差1、概念平均差是随机变量各个取值与其算术平均数的离差的绝对值的算术平均数。2、公式根据未分组资料根据分组资料\n四、标准差和方差1、概念标准差是各变量值与其算术平均数离差平方的算术平均数的平方根。2、公式例某公司五个企业的利润额(万元)为:2,5,7,9,12,计算平均差和标准差。根据未分组资料根据分组资料=(2+5+7+9+12)/5=7==14/5=2.8(万元)=3.41(万元)(万元)\n3、方差方差是标准差的平方。平均差、标准差能反映所有变量值与中心的偏离程度。根据未分组资料根据分组资料由方差的性质:=根据未分组资料根据分组资料\n按零件数分(个)人数组中值105-1103107.515.747.1246.49739.47110-1155112.510.753.5114.49572.45115-1208117.55.745.632.49259.92120-12514122.50.79.80.496.86125-13010127.54.34318.49184.9130-1356132.59.355.886.49518.94135-1404137.514.357.2204.49817.96合计50————312——3100.5例根据以下资料计算平均差和标准差。平均产量=6160/50=123.2(个)Md=312/50=6.24(个)\n五、离散系数离散系数是反映变量值相对离散程度的指标。是反映变量值离散程度的绝对离散指标与其算术平均数的比率。极差系数:四分位差系数:平均差系数:标准差系数:某大学文、理科学生数学统考的平均成绩和标准差为:理科:平均分数86标准差9文科:平均分数71标准差8比较文理科学生平均成绩的代表性。理科标准差系数=9/86=10.47%文科标准差系数=8/71=11.27%理科学生平均成绩代表性高。离散系数消除了计量单位和平均水平的影响\n第四节 偏态和峰度的测定一、偏态系数(Skewness)(一)经验测定法经验测定法是利用平均数之间的关系来测定随机变量的偏斜状态的,有皮尔逊(K·Pearson)偏度系数和鲍莱(A·L·Bowley)偏度系数。1、皮尔逊(K·Pearson)偏度系数2、鲍莱(A·L·Bowley)偏度系数取值在-3—+3之间取值在-1—+1之间为正表示正偏,为负表示负偏,绝对值越大表示偏度越大。\n(二)矩法偏度系数1、什么是矩?原点矩是随机变量取值K次方的数学期望,称为K阶原点矩。未分组资料:分组资料:中心矩是随机变量各取值与数学期望离差的K次方的数学期望,称为K阶中心矩。未分组资料:分组资料:2、矩法偏度系数二、峰度系数为正表示正偏,为负表示负偏,绝对值越大,表示偏度越大峰度系数越大越尖峭,大于3为尖峰分布\n第四章抽样分布与参数估计抽样分布抽样平均误差区间估计样本容量的确定\n第一节抽样及抽样分布样本总体均值比例方差容量nN一、基本概念总体参数:未知的待估计的总体指标值。记为估计量:用来估计总体指标数值的样本指标称为总体指标的估计量。通常记为常用的样本估计量与总体参数的表示符号如下表所示。重置抽样:有放回抽样不重置抽样:不放回抽样相互独立不独立\n抽样分布是样本估计量的概率分布。即由样本估计量的所有可能取值及其相应概率组成。例:设总体由4、5、6三个数字组成,从中抽取容量为2的随机样本。试列出样本均值的抽样分布。样本均值的抽样分布,与抽样的两种不同方式——重置抽样和不重置抽样有关。在重置抽样情况下,样本可能数目为Nn=32=9在不重置抽样情况下,样本可能数目为ANn=A32=6,由于两种抽样方式下样本可能数目不同,因此,样本均值的抽样分布也不同。以下以重置抽样为例。对于重置抽样,全部可能样本分别为(4,4),(4,5),(4,6),(5,4),(5,5),(5,6),(6,4),(6,5),(6,6),每个样本被抽到的概率相同,均为1/9。对于每个可能样本,均可计算出一个样本均值,并进一步可得样本均值的抽样分布如下所示。44.555.561/92/93/92/91/9\n1、样本均值的抽样分布(1)正态总体中样本均值的抽样分布如果总体服从期望为,方差为的正态分布,从中抽取样本,无论样本容量多大,则可以证明样本均值服从正态分布。即~N(E(),Var())。简言之,正态总体中样本均值服从正态分布。(2)大样本情形下样本均值的抽样分布中心极限定理:对于任意一个期望为方差为的总体,当样本容量n足够大时,样本均值近似地服从期望为E(),,方差为Var()的正态分布。E()=()重置抽样不重置抽样\n2、样本比例的抽样分布(1)什么是比例?将总体分成两部分,其中一部分占总体的比重。比例的本质是均值,是两点分布总体的均值。样本比例则是来自该总体的样本均值。样本比例是随机变量。即对于两点分布总体:==(2)样本比例的抽样分布根据中心极限定理,从服从任意分布的总体中抽取样本,只要样本容量足够大,样本均值就近似地服从正态分布,显然在大样本情形下,样本比例近似地服从正态分布,即~N(E(),V())。E()=V()=V()=重置抽样不重置抽样\n3、样本方差的抽样分布若所考察的随机变量的分布为正态分布,即X~N(,),从该总体中抽取容量为的简单随机样本,则有第二节 参数估计概述一、参数估计的两种类型(一)点估计如果根据样本资料给出总体参数的单一估计值,这种估计称为点估计。矩法估计是点估计中常用的方法。矩法估计包括两方面内容,一是用样本矩作为总体同一矩的估计量,二是用样本矩的函数作为总体相应矩同一函数的估计量。例设一总体的均值µ和方差σ2均未知,从中抽取一个容量为n的简单随机样本,求µ和σ2的矩法估计量。~=\n(二)区间估计区间估计是指在事先给定的概率保证程度之下,根据样本估计量的概率分布,确定出可能包含未知总体参数的某个区间,作为对总体参数的估计。记总体指标为,样本估计量为,事先给定的概率为1-,若根据样本估计量的概率分布可计算出一个区间(),使得该区间包含未知总体参数为概率等于事先给定的概率1-,即:置信度反映区间估计的可靠性,置信区间的长短反映区间估计的精确度。区间估计的精确度越高,可靠性就越低\n(三)有效性对总体指标进行估计时,若存在两个无偏估计量和,其中估计量的估计误差平均来说小于估计量的估计误差,则称估计量比有效。(二)无偏性用样本指标估计总体指标时,如果估计量的数学期望等于被估计的总体指标,就称该估计量为无偏估计量。设总体指标为,其估计量为,如果E()=,则就是的无偏估计量二、估计量的优良标准(一)相合性用样本指标估计总体指标时,如果随着样本容量的增大,估计量越来越接近总体指标的真值,就称这个估计量为相合估计量或一致估计量。\n平方根。若总体指标,其估计量为,全部可能的样本数目为m,则抽样平均误差为:三、抽样平均误差(一)抽样平均误差的意义抽样平均误差是估计量与总体指标真值偏差平方的算术平均数的抽样平均误差越小,表明估计量与总体指标真值的平均偏离越小;抽样平均误差越大,表明估计量与总体指标真值的平均偏离越大。(二)抽样平均误差的计算1.均值估计量的抽样平均误差==不重置抽样重置抽样\n2.比例估计量的抽样平均误差(三)影响抽样平均误差的因素1.总体中各个体之间的差异程度。2.样本容量的大小。3.抽取样本的方式。重置抽样不重置抽样\n第三节区间估计总体均值的区间估计总体比例的区间估计总体方差的区间估计\n一、总体均值的区间估计(一)大样本情形下总体均值的区间估计中心极限定理给我们提供了样本均值的抽样分布,即无论所考察的随机变量的总体分布如何,只要样本容量n足够大,样本均值。将随机变量标准化,并记标准正态分布变量为Z则有:根据给定的概率1-α,查标准正态分布概率表可得标准正态分布的上侧分位数使得:由上式可得,总体均值μ的置信区间为:以上所讲的置信区间既有置信下限又有置信上限,称为双侧置信区间。σ2未知,用或代替\n单侧置信区间:根据给定的概率1-α,查标准正态分布概率表可得正态分布α分位数,并使得:或将这两式左端括号中的不等式变换,可得大样本情形下总体均值μ的两个单侧置信区间分别为:(二)正态总体均值的区间估计1、σ2已知时。若总体所考察的变量服从正态分布,则不论样本容量多大,都有。因此,若总体方差σ2已知,则仍可用类似于上述大样本情形下总体均值的区间估计方法进行估计,得出总体均值μ的置信区间仍为:\n2、σ2未知时对于给定的置信概率1-α,查t分布表,可得t分布的上侧分位数,使得:由上式可得,总体均值μ的双侧置信区间为:同理总体均值μ的单侧置信区间为~\n例1为了解某县农户的年收入状况,从该县所有农户中随机抽取了200户进行调查,得样本每户农民的年平均收入为3600元,标准差为192元,试在95%的概率保证下,求该县农户平均年收入的双侧置信区间和单侧置信下限。由于n=200,表明该样本为大样本,显然此例属于大样本情形下总体均值的区间估计。双侧置信区间为单侧置信下限为\n例2某仓库有150箱食品,每箱食品均装100个,随机抽取10箱进行检查,得每箱食品的变质个数为:1,6,3,0,2,4,1,5,3,5,假定每箱食品变质个数的概率分布为正态分布,给定置信概率95%,求平均每箱食品变质个数的双侧置信区间和单侧置信上限。n=10,所以是小样本。由样本数据可得单侧置信上限为:平均每箱食品变质个数的双侧置信区间为:\n二、总体比例的区间估计总体比例是两点分布总体的均值,其无偏估计量样本比例是来自两点分布总体的样本均值。在大样本情形下,经标准化变换可得:对于给定的置信度1-α,查标准正态分布概率表可得标准正态分布的上侧分位数使得:即总体比例的双侧置信区间:\n由于未知,可用代替。从而有:需要说明,由于大样本情形下与相差无几,所以实践中也可用代替同理总体比例的单侧置信区间为:\n当总体服从正态分布时,服从自由度为n-1的分布,三、总体方差的区间估计记对于给定的置信度1-α,查表可得和从而有即总体方差的双侧置信区间为:\n例某电视台举办了一台大型晚会,为了了解这台晚会的收视情况,随机抽取了400人,经调查有86人收看了这台晚会,以95%的置信度求这台晚会收视率的双侧置信区间和单侧置信下限。单侧置信下限为:双侧置信区间为:=18.12%\n例为了了解某灯具厂所生产灯泡寿命的稳定性,随机从其生产的一批灯泡中抽取20个进行试验,并计算得样本标准差sn-1=260小时,假设灯泡的使用寿命服从正态分布,试以95%的可靠性求该批灯泡使用寿命方差的置信区间。由题意可知查表可知则总体方差的置信下限为:置信上限为:\n重置抽样一、估计总体均值所需的样本容量第四节样本容量的确定不重置抽样二、估计总体比例所需的样本容量重置抽样不重置抽样\n三、影响样本容量的因素1、总体中各个体标志值的差异程度。总体中各个体标志值的差异程度越大,所需的样本容量越大;总体中各个体标志值的差异程度越小,所需的样本容量越小。2、允许误差的大小。允许误差越小,估计的精确度越高,则所需的样本容量越大;反之,允许误差越大,估计的精确度越低,则所需的样本容量越小。3、估计的可靠性高低。估计的可靠性越高,所需的样本容量越大;反之,估计的可靠性越低,所需的样本容量越小。4、抽样方式。在其他条件相同的情况下,采用重置抽样方式比采用不重置抽样方式所需的样本容量大。\n确定样本容量应注意:1、按公式计算得到的样本容量是必要的样本容量即抽取样本时不能低于该样本容量。2、如果同时对总体均值和总体比例进行区间估计,运用样本容量的计算公式可计算得到两个样本容量,一般情况下这两个样本容量是不相等的,为了同时满足均值、比例估计的精确度要求,应从两个样本容量中选择较大的一个。3、在计算估计总体比例所需的样本容量时,若方差P(1-P)的资料完全缺乏,可用方差的最大值0.25代替。\n例、某高校有5000名学生,为了以95%的置信度对该校学生平均每周文体活动的时间进行估计,需首先从总体中抽取样本,假定估计的允许误差为0.15小时,由抽样前的试验调查得方差为3.01(小时)2,试确定样本容量。重置抽样不重置抽样这表明若按重置抽样方式抽取样本,应抽取514名学生,若按不重置抽样方式抽取样本,应抽取467名学生。\n例某企业收到供货方发来的一批电子元件,以往的资料表明,电子元件使用寿命的标准差为89.6小时,欲采用重置抽样方式抽取一个样本,并以95.45%的概率同时估计:(1)该批电子元件的平均使用寿命。允许误差为10小时。(2)该批电子元件的合格率。允许误差5%。估计总体均值所需的样本容量为:估计总体比例所需的样本容量为:由于要用一个样本同时估计两个目标,样本容量应取其大者,所以需抽取400件。\n第五章假设检验总体均值的假设检验总体比例的假设检验总体方差的假设检验假设检验的两类错误\n若H0为真,样本均值就应该和1000偏差不大,反过来如果样本均值与1000偏差大,就有理由怀疑H0为假。第一节假设检验的基本原理一、假设检验的概念假设:关于总体分布特征的猜测。检验:根据样本提供的信息检验假设是否成立。例某企业称其生产的电子元件平均寿命为1000小时,经销商从其生产的电子元件中随机抽取了50件,得平均寿命为980小时,能否认为这批元件的平均寿命达到了1000小时。建立假设如下:二、假设检验的基本思想\n由于样本是随机抽取的,有可能在H0为真的情况下,样本均值与1000偏差大,从而作出拒绝H0的决策。这种情况虽然可能,但其可能性非常小,即为小概率事件。小概率事件发生的概率用α表示,即P{H0为真,但被拒绝}=α小概率事件在一次试验中不可能发生。如果样本均值与1000偏差大,说明在H0为真的情况下,小概率事件发生了,从而可得出原假设H0不成立。假设检验采用的推理方法是反证法\n三、假设检验的程序1、提出原假设和备择假设。记未知的总体参数为,该参数的假设值为,则该参数的假设可表示为:H0:H1:假设H0是所要检验的假设,称为原假设或零假设,而假设H1称为备择假设或对立假设。显然原假设与备择假设是对立的,假设检验就是要在这两种对立的假设中作出抉择。\n2、确定适当的检验统计量。将样本中包含的关于总体假设有关的信息提炼出来,构造一个样本指标,这就是检验统计量。3、规定检验的显著性水平。由于假设检验是根据样本提供的信息作出决策。因此对原假设是否为真作判断时有可能犯错误,为了控制这一风险,需要用一概率表示这一风险,这个概率称为显著水平,记为。4、确定拒绝域与接受域。根据给定的显著性水平和样本估计量的概率分布,确定原假设成立条件下样本估计值偏离程度的临界值,该临界值将样本估计量的取值区间分成了两个区域即拒绝域和接受域。5、计算检验统计量的样本值,并据此做出决策。\n三、双侧检验与单侧检验双侧检验:原假设H0:,备择假设H1:从这种假设形式可看出:样本估计值从正方向与总体参数假设值偏离程度显著或从负方向与总体参数假设值偏离程度显著,都要拒绝原假设,这就是双侧检验。双侧检验的拒绝域建立在样本估计值对总体参数原假设值正负偏离超出给定的临界值的两侧。如下图:\n单侧检验:如果假设检验的拒绝域建立在样本估计值与总体参数的原假设值的偏离超出给定临界值的一侧,这种检验称为单侧检验。根据拒绝域的方向不同,单侧检验可分为左侧检验和右侧检验。左侧检验的原假设与备择假设可表示为:右侧检验的原假设和备择假设可表示为:精确假设非精确假设精确假设非精确假设\n第二节总体参数检验一、总体均值的检验(一)单一总体均值的检验单一总体均值检验的原假设和备择假设的一般形式为:由于对于不同的总体和不同的的样本容量,样本均值的概率分布不同,所以应区分不同的情形进行讨论。左侧双侧右侧\n若为单侧检验,则在给定的显著性水平之下,由标准正态分布概率表可查出上侧分位数。左侧检验的拒绝域:Z-若为双侧检验,则在给定的显著性水平之下,由标准正态分布概率表可查出相应的上侧分位数,如果,则拒绝H0若<,则接受H01.大样本情形下总体均值的检验当样本容量足够大时,无论总体分布如何,样本均值近似地服从期望为,方差为的正态分布。随机变量标准化,并记标准正态分布变量为Z,则有:右侧检验的拒绝域:Z未知时,可用或代替标准正态分布变量Z为检验统计量,称为Z检验\n2.正态总体均值的检验1、总体方差已知时总体服从正态分布,无论样本容量多大,样本均值近似地服从期望为,方差为的正态分布。显然,当总体方差已知时,构造检验统计量Z,仍可用Z检验法对总体均值假设进行检验。双侧检验拒绝域右侧检验拒绝域Z左侧检验拒绝域Z-\n左侧检验的拒绝域:t-2.总体方差未知时如果为双侧检验,在给定的显著性水平之下,由分布表可查出其上侧分位数,若,拒绝H0根据t分布的定义可构造检验统计量t:若为单侧检验,在给定的显著性水平下,查分布表可得右侧检验的拒绝域:tt为检验统计量,称为t检验\n例电视机显像管批量生产的质量标准为平均使用寿命1200小时。某电视机厂宣称其生产的显像管质量超过规定的标准,随机抽取100件为样本,检测并计算得=1245小时,标准差为300小时,问在0.01的显著姓水平下,能否认为该厂的显像管质量高于规定的标准?根据题意可建立原假设和备择假设:H0:μ≤1200,H1:μ>1200以上假设可转换成相应精确假设如下:H0:μ=1200,H1:μ>1200此例属于大样本情形下总体均值的右侧检验,可计算检验统计量Z的值为:在显著性水平α=0.01之下,由标准正态分布概率表查得Zα=Z0.01=2.33,由于Z=1.5<2.33=Zα,所以接受原假设,拒绝备择假设,即不能说该厂的产品质量高于规定的标准。\n例在正常情况下,某灯泡厂生产的灯泡的寿命服从正态分布,从该厂生产的灯泡中随机抽取了10个,测得使用寿命如下:1490,1440,1680,1610,1500,1750,1550,1420,1800,1580,问在0.05的显著性水平下,能否认为该厂生产的灯泡的平均寿命为1600小时?根据题意可建立原假设和备择假设如下:H0:μ=1600,H1:μ≠1600此例属于正态总体均值的双侧检验。根据样本观测值可计算:由于总体方差未知,所以应该用t检验对于给定的显著性水平0.05,查t分布表可得tα/2(n-1)=t0.025(9)=2.26,由于|t|=0.442<2.26=t0.025(9),所以接受原假设,即可以认为该厂生产的灯泡的平均寿命为1600小时。\nH0:μ1=μ2,H1:μ1≠μ2,或μ1>μ2或μ1<μ2(二)两总体均值比较的检验记第一个总体均值为μ1,第二个总体均值为μ2,比较两总体均值的原假设和备择假设的一般形式为:此假设等同于:H0:μ1-μ2=0,H1:μ1-μ2≠0,或μ1-μ2>0或μ1-μ2<0设是来自第一个总体的样本均值,是来自第二个总体的样本均值,则两总体均值之差μ1-μ2的估计量就是,因而两个总体均值比较的假设检验,要用来构造检验统计量由于对于不同的总体和不同的的样本容量,的概率分布不同,所以应区分不同的情形进行讨论。双侧右侧左侧\n两总体方差 和 未知时,可用 和 代替,也可分别用 和 代替。如果从两个任意总体中分别抽取容量为n1和n2的随机样本,当n1和n2充分大时,则来自两个总体中的两个样本均值之差近似地服从期望为μ1-μ2,方差为的正态分布。将两样本均值之差标准化,可得服从标准正态分布的检验统计量为:1、大样本情形下两总体均值比较的检验显然,大样本情形下两总体均值比较的检验,仍Z采用检验。\n则可用来自这两个总体的两个修正样本方差 和 来给出 的一个估计,该估计量可记为 ,其平方根s的计算公式为:1.和 均已知2、两正态总体均值比较的检验当两个总体都是正态总体,且两总体方差 和 均已知时,两正态总体均值比较的假设检验与大样本情形下两总体均值比较的假设检验方法相同,即用Z检验。2、 和 未知,但相等时即有利用此方差估计量可得到服从自由度n1-n2-2的分布的检验统计量为:此检验为t检验\n例、利用两种不同的热处理方法加工的金属材料做抗拉强度试验,得试验数据如下:甲方法:31,34,29,26,32,35,38,34,30,29,32,31,乙方法:26,24,28,29,30,29,32,26,31,29,32,28,设用两种不同的热处理方法加工的金属材料抗拉强度均服从正态分布,且两正态总体的方差相等,给定 =0.05,问两种热处理方法加工的金属材料抗拉强度有无显著差异?根据题意可建立原假设和备择假设如下:H0:μ1=μ2,H1:μ1≠μ2对于给定的显著性水平0.05,查分布表可得t0.025(22)=2.07,由于|t|=2.646>2.07=t0.025(22),所以应拒绝原假设,即认为两种热处理方法加工的金属材料抗拉强度有显著差异。\n二、总体比例的检验(一)单一总体比例的检验单一总体比例检验的原假设和备择假设的一般形式为:H0:P=P0,H1:P≠P0或P>P0或PP2或P10或P1-P2<0对于分别抽自两个总体的两个大样本来说,将两个样本比例之差标准化,得:\n因为在原假设成立的条件下,两总体比例相同,所以可将两个样本联合起来估计其总体比例P,记此联合估计量为P*,则有:将P*代入上述检验统计量的表达方式,可得:在给定的显著性水平下,利用Z统计量可进行两总体比例比较的检验。\n例在某次农村经济调查中,从甲地区随机抽取了100户农民家庭的一个样本,其中13户是贫困户;从乙地区随机抽取了200户农民家庭的一个样本,其中38户是贫困户。问在0.05的显著性水平下,两个地区农民家庭贫困户比重是否相同?根据题意可建立原假设和备择假设为:H0:P1=P2,H1:P1≠P2由于n1=100,n2=200,属于大样本,因此可采用检验。根据样本数据可计算得=13/100=0.13,=38/200=0.19,将两个样本联合可得总体比例的联合估计量:从而可得:由假设可看出,该检验为右侧检验,对于给定的显著性水平=0.05,查标准正态分布概率表可Z0.025=1.96,|Z|=1.304<1.96=Z0.025,所以接受原假设。\n三、总体方差的检验单一总体方差检验的原假设和备择假设的一般形式为:在正态总体条件下,单一总体方差检验的检验统计量为:在给定的显著性水平下,由于分布是非对称分布,所以根据分布表可确定上、下两个临界值,和双侧检验:或拒绝H0右侧检验:拒绝H0左侧检验:拒绝H0\n例 某市公共汽车各车次的乘车人数服从正态分布,过去的资料表明,各车次乘车人数的标准差为20人,现公交公司中随机抽取了30趟车次的乘车人数,得标准差为25人,问在0.05的显著性水平下,各车次乘车人数的差异性是否发生了变化?根据题意可建立原假设和备择设如下:H0:σ2=202,H1:σ2≠202检验统计量的样本值为:对于给定的显著性水平α=0.05,查分布表,可得:=45.72和=16.05,由于16.05<=45.31<45.72=,所以接受假设,即各车次乘车人数的差异性没有变化。\n第三节假设检验的两类错误与功效一、假设检验的两类错误第一类错误又称弃真错误,它是指原假设H0正确但却被拒绝了的错误。第二类错误又称纳伪错误,它是指原假设不正确但却接受原假设的错误。犯第一类错误的概率为,犯第二类错误的概率为β假设检验中犯两类错误的概率如图所示越大,β越小μ1与μ0相差越大Β越小H0:μ=μ0H1:μ=μ1\n二、假设检验的功效假设检验的功效:是指备择假设H1为真时,接受备择假设H1的概率。即假设检验的功效为1-β功效函数:由于假设检验的功效取决于备择假设的取值,假设检验的功效随备择假设的不同取值而变化,因此,检验功效是备择假设值的函数,此函数称为功效函数,功效函数的图形称为功效曲线。(1)无论是单侧检验还是双侧检验,备择假设值与原假设值的偏离程度越大,犯第二类错误的概率β越小,从而检验的功效1-β越大;反之,备择假设值与原假设值的偏离程度越小,犯第二类错误的概率β越大,从而检验的功效1-β越小。(2)双侧检验的功效曲线是对称的,即备择假设值从正负两个方向与原假设值的偏离程度相同时,检验的功效也相同。见教材p136例7-6\n感谢大家聆听!