- 10.18 MB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学第一章统计和统计数据的收集第二章统计数据的整理和展示第三章数据的描述性分析第四章概率基础第五章区间估计和假设检验第六章相关与回归分析第七章非参数统计第八章时间数列分析第九章指数结束\n第一章统计和统计数据的收集一、什么是统计二、数据三、搜集数据的组织方式四、有关数据调查的几个问题主要内容目录\n一、什么是统计?(一)统计包含三种涵义,两重关系1.统计工作:对统计数据进行搜集、整理和分析的过程。2.统计数据:统计工作所产生的成果,用以描述我们所研究现象的属性和特征。如统计图表,统计分析报告等。3.统计学:一门研究总体数量特征的方法论科学。统计工作统计资料统计学工作与工作成果关系实践与理论关系\n(二)四个重要的术语所研究的具有某些相同性质的全部单位或事件的整体。总体无限总体:含无限多个单位。范围有限总体:含有限个单位。样本:亦可称为抽样总体,是从总体中抽取部分单位所组成的整体,用以分析总体。参数:亦可称为总体指标,是综合测量的整个总体的某个数量特征。统计量:亦可称为样本指标,是根据样本数据计算的综合测量值,可用以反映或估计、推断总体的某个数量特征。\n(三)统计学的内容1.描述统计关于搜集、展示一批数据,并反映这批数据特征的各种方法,其目的是为了正确地反映总体的数量特点。2.推断统计根据样本统计量估计和推断总体参数的技术和方法。描述统计是推断统计的前提,推断统计是描述统计的发展。\n二、数据(一)为何需要数据?统计学要研究各种随机变量,通过对这些随机变量的观察所获取的数据包含了我们所需的信息,这些信息能有助于我们在许多场合中做出更为正确的决策。例如:市场研究者需要对产品的特性进行评估,以区分不同的产品。药品制造厂商需要判别一种新药是否比现在正使用着的药更有效。\n审计人员想通过查看某家公司的财务报表,以确认这家公司是否是依据了通行的会计准则做报表。财务金融分析人员想判断在未来的五年中,哪些行业中的哪些公司最具有成长性。经济学家想估计我国国内生产总值今年的增长速度。生产部门的经理按惯例要检查生产过程,以检验其生产的产品质量是否符合公司的标准。\n(二)数据分类的原则互斥原则:每一个数据只能划归到某一类型中,而不能既是这一类,又是那一类。穷尽原则:所有被观察的数据都可被归属到适当的类型中,没有一个数据无从归属。(三)数据的类型1.定性数据和定量数据定性数据:用文字描述的。如在本章的“统计引例”中消费者对永美所提供服务的总体评价等都属于文字描述的定性数据。\n定量数据:用数字描述的。如企业的净资产额、净利润额等。2.离散型数据和连续型数据变量若我们所研究现象的属性和特征的具体表现在不同时间、不同空间或不同单位之间可取不同的数值,则可称这种数据为变量。类型离散型变量:数据只能取整数。如一家公司的职工人数。连续型变量的数据可以取介于两个数值之间的任意数值。如销售额、经济增长率等。\n3.数据的四个等级定类数据例如,对人口按性别划分为男性和女性两类。也称定名数据,这种数据只对事物的某种属性和类别进行具体的定性描述。能够进行的唯一运算是计数,即计算每一个类型的频数或频率(即比重)。定序数据例如,对企业按经营管理的水平和取得的效益划分为一级企业、二级企业等。定序数据,也称序列数据,是对事物所具有的属性顺序进行描述。\n定距数据如10℃、20℃等。它不仅有明确的高低之分,而且可以计算差距,如20℃比10℃高10℃,比5℃高15℃等。也称间距数据,是比定序数据的描述功能更好一些的定量数据。定距测定的量可以进行加或减的运算,但却不能进行乘或除的运算。定比数据如产量、产值、固定资产投资额、居民货币收入和支出、银行存款余额等。也称比率数据,是比定距数据更高一级的定量数据。它不仅可以进行加减运算,而且还可以作乘除运算。\n测定层次特征运算功能举例1.定类测定2.定序测定3.定距测定4.定比测定分类分类;排序分类;排序;有基本测量单位分类;排序;有基本测量单位;有绝对零点计数计数;排序计数;排序;加减计数;排序;加减乘除产业分类企业等级温度商品销售额统计数据四个层次的概括\n4.截面数据和时间序列数据截面数据:所搜集的不同单位在同一时间的数据。例如,所有上市公司公布的2004年年度的净利润。时间序列数据:所搜集的同一总体或单位在不同时间的数据。某公司公布的1993年到2004年的年度净利润就是时间序列数据。5.原始数据和次级数据原始数据:指直接从各个调查单位搜集的、尚未经过整理的统计数据资料,也称一手数据。\n次级数据:指那些已经加工整理过的,往往是公开发表的数据,也称二手数据。如从报纸杂志、统计年鉴、会计报表上取得的数据。(四)数据的来源1.从政府机构、各种行业组织、公司和企业所公布的数据中获取。就是把政府机构、各种组织和公司所公布的数据作为来源,这种数据往往是次级数据。2.设计一次试验以获取必要的数据。例如,在检验洗衣机洗净程度的研究中,研究人员通过实际洗涤脏衣服,来研究哪种牌子的洗衣机效果最佳。\n3.从观察研究中获取。研究人员通常是在自然状态下,进行直接的观察。例如,观察路口的交通流量、观察顾客在商场的购买行为和观察流水线上的产品质量等。4.进行一次调查。它对所调查人们的行为不进行任何控制,仅提出诸如出生年月、爱好、消费习惯、对某一事件的看法和其他特征方面的问题,然后对他们回答的结果进行整理、编码、列表和分析。调查方案的主要内容确定调查目的确定调查对象和调查单位拟订调查提纲确定调查时间编制调查的组织计划\n三、数据搜集的组织方式(一)普查、抽样、统计报表制度和重点调查1.普查特点:工作量大,时间性强,需要大量人力和财力。任务:搜集重要的国情国力和资源状况的全面资料,为政府制定规划、方针政策提供依据。方式:建立专门机构,配备专门人员调查。利用基层单位原始记录和核算资料进行调查。原则:规定统一的标准时点。规定统一的普查期限。规定统一的调查的项目和指标。\n2.抽样调查特点:1.按随机原则从总体中抽取样本;2.以样本指标(统计量)为依据推断总体参数或检验总体的某种假设;3.抽样误差可以事先计算并加以控制。\n3.统计报表制度是按一定的表式和要求,自上而下统一布置,自下而上提供统计资料的一种统计调查方法。这种搜集统计数据方法是伴随着计划经济而产生的,并曾在我国占主导地位。现在,在社会主义市场经济条件下,仍是我国搜集统计数据的组织方式之一。\n4.重点调查特点:在总体中选择个别或部分重点单位进行调查。任务:及时了解总体基本情况,为主管部门指导工作服务。方式:重点单位指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。经常性调查;同报表制度结合,用统计报表调查。例如,要了解全国钢铁生产的基本情况,只要调查鞍钢、宝钢、首钢、武钢、包钢等十几家特大型的钢铁企业就可以掌握全国钢铁企业生产的基本情况。\n(二)抽样的优点1.适用的范围广。对于有限总体,从理论上讲,既可以进行普查也可以进行抽样;对于无限总体,就只能进行抽样。若理论上可以而实际上很难采用全面普查的情况,也只能采用抽样。如产品质量的破坏性检验、居民住户调查等。2.与全面普查相比,抽样最大的优点是节省人、财、物力和时间。3.随机抽样可以比普查更为精确。\n(三)抽样的类型非随机抽样随机抽样判断抽样定额抽样方便抽样简单随机抽样抽样类型系统抽样分层抽样整群抽样\n非随机抽样又称为非概率抽样,是不按照随机原则来抽取样本中的单位或个体。特点方便、快速和低成本精确性差,结论缺乏普遍性判断抽样又称为典型调查,是从事有关工作的专家按照一定的标准有意识地在总体中选择若干有代表性的单位组成样本进行调查,代表单位的选取标准应根据统计研究的目的而定。\n定额抽样是根据已定的单位数抽取样本,往往是对总体了解甚少时采用。如想获取某地区化妆品的销售情况,对该地区的5家商厦进行调查。方便抽样是为了取样方便,随意地抽取样本单位。街头偶遇式调查就是一种最为常见的方便抽样。\n随机抽样是根据随机原则来抽取样本单位.简单随机抽样方法:在抽样框中的每个单位都具有相同的被抽中的机会,每个容量相同的样本被抽中的机会也是相同的。亦称为纯随机抽样抽取样本的方法:有放回抽样和无放回抽样。适合:总体内部差异不是很大,规模也不大的情况。\n系统抽样方法:抽样框中的N个单位被分成k个系统,k等于抽样框的容量N除以所需的样本容量n,在抽样框中前面的k个个体或单位中随机抽出第一个样本单位,然后,可在其后的每隔k个单位抽取样本中其余的部分。亦可称为等距抽样编号有两种方法:············一种是利用原有的顺序或编号。如学生的注册名单,或者是从生产流水线上下来的、有编号的产品等。对所研究的总体已有所了解,则可用已知的相关变量对抽样框中的单位进行编号。\n分层抽样亦可称为类型抽样方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。总体N样本n等额等比例最优······\n整群抽样方法:首先把总体中的N个单位划分成为若干个群,并要求每个群对整个总体都具有代表性,然后对群进行简单随机抽样,并对抽中群内的所有单位进行调查研究。总体群数R=16样本群数r=4样本容量ABCDEFGHIJKLMNOPLHPD\n适合:比简单随机抽样的方法能节约更多的成本,特别当总体的分布地域非常辽阔时。\n四、有关数据调查的几个问题调查的目的判断调查误差的大小调查误差登记性误差:代表性误差系统性的代表性误差登记、汇总、过录时产生的误差,以及无回答误差和测量误差等偶然性的代表性误差即为抽样误差\n调查中的道德性问题1.调查者别有用意地、有意识地选择导向性的问题,使回答者出现有倾向性的回答。2.询问者有意识地通过语气、语调引导被询问者出现有倾向性的回答。3.回答者不重视或不愿意回答调查的内容,就很可能提供错误的信息。\n第二章统计数据的整理和展示统计数据的整理统计数据的展示排序统计分组频数分布编制统计表统计图\n一、统计数据的整理排序统计搜集到的大量资料是分散的,不系统的,只能说明各个单位的特征和属性,必须按照科学的原则加以整理,使之条理化和系统化,成为便于储存和传递的、反映总体特征的数据。就是把定量数据按从大到小或从小到大的顺序排列,把定性数据按习惯的文字顺序排列,便于我们研究其条理。\n统计分组对于定性数据就是依据属性的不同将数据划分成若干组,对于定量数据就是依据属性数值的不同将数据划分成若干组。组内同质性,组间差异性。\n频数分布编制分组的关键变量的选择,选择与研究的问题有关的变量。组限的确定。应遵循穷尽和互斥原则。定性数列编制:组限的确定一般比较简单。如人口按性别分组、企业按所有制分组等定量变量编制:分为单项数列和组距数列两种形式。单项数列:即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。组距数列:即每一组有一个上限值和一个下限值所形成的区间,适用于连续性变量,或离散型变量且变量的取值较多的情况。\n注意以下三个方面的问题1.确定组数2.确定组距:组距为上限与下限之差。等距数列-数据分布均匀。异距数列-数据分布不均匀。3.确定组限应能把现象的不同类型划分出来。要考虑到数据是连续性变量还是离散型变量。无法确定实际数据的取值范围,或者数据中存在极端数值,可采用开口组的形式。4.确定组中值:(上限+下限)/2,开口组\n二、统计数据的展示当统计数据比较多时,就应该制作表格或者图形进行展示,使数据的重要特性能从表格或者图形中直观地反映出来,这样可提高分析数据和解释数据的效率。统计表是把统计数据用表格的形式展示出来。类型:按作用分调查表按数据所属的时间分截面数据表时间序列表汇总整理表计算分析表\n按分组变量的多少分单变量分组表多变量分组表平行形式交叉形式统计图统计图形通常可比统计表格更生动地描述数据。类型:饼图是以整个圆的360度代表全部数据的总和,按照各类组所占的百分比(频率),把一个“饼”切割为各个扇形。适用于定性数据。50家门店按区域分组的饼图\n条形图中,每一分类组表示成一个条,条的长度代表了这个组中所含数据的频数或频率。适用于定性数据。50家门店数按区域分组的条形图50家门店按区域并按人数分组的分段比例条形图\n直方图与条形图相似,是在每个分组区间上绘制一个长条形而产生的图形,它可以用来描述已表示成频数或频率的数据。适用于定量数据。根据表2-5的等距数列绘制的直方图对于异距数列,以组距为宽,以频数密度为高来绘制直方图。\n折线图可以在直方图基础上,将每个长方形的顶端中点用折线连接而成,或用组中值与频数(或频率)求坐标点连接而成。根据图2-6的直方图绘制的折线图\n曲线图当变量的取值非常多,变量数列的组数无限增多时,折线便趋于一条平滑的曲线,这是一种概括描述变量数列分布特征的理论曲线。枝叶图是探索性数据分析中的一种方法,也是对一批数据进行组织整理的很有价值的一个工具,可用以了解一批数据中由所有观测值构成的数据的取值范围是如何分布的。\n第三章数据的描述性分析本章将讨论的是数据的总量和相对关系的测度,数据的集中趋势、离散趋势及其形态的测度。一、绝对数和相对数二、集中趋势的测定三、离散趋势的测定四、数据的形态测定主要内容\n一、绝对数和相对数(一)绝对数绝对数(亦称总量指标)是统计资料经过汇总整理后得到的反映总体规模和水平的总和指标。(3)是计算相对指标和平均指标的基础。作用概念例如,企业的销售收入、一个地区或国家的社会总产值、国内生产总值等。(1)反映一个国家的国情和国力,一个地区或一个企业的人力、物力、财力。(2)是进行经济核算和经济活动分析的基础。\n分类按反映总体的内容分按反映的时间状态分按计量单位分变量总值单位总数时期数时点数实物量价值量\n相对数是用两个有联系的指标进行对比的比值,可以反映现象的数量特征和数量关系,并可将现象的绝对差异抽象化,使原来不能直接相比的绝对数可以进行比较。种类计划完成相对数结构相对数比较相对数强度相对数动态相对数(二)相对数概念\n五种相对数指标的比较不同时期比较动态相对数注:又称发展速度强度相对数注:复名数有正逆指标不同现象比较不同总体比较或者同一总体的两个不同部分比较相对数同一总体中部分与总体比较实际与计划比较结构相对数计划完成相对数注:有正逆指标同一时期比较同类现象比较\n(1)正确选择对比的基数;(2)必须注意统计的可比性;(3)相对指标要与总量指标相结合。应用原则\n二、集中趋势的测定—平均数概念表明同类现象在一定时间、地点、条件下所达到的一般水平,是总体内某个变量大小各异的观察值的代表性数值。也是对变量分布集中趋势的测定。数据集中区变量x\n常用的几种平均数概念计算公式特点优点:①容易理,便于计算②灵敏度高③稳定性好④和缺点:①易受极值影响②在偏斜分布和U形分布中,不具有代表性1.算术平均数()一个变量的所有观察值相加,再除以观察值的个数简单:加权:\n权数解释权数(Weighted),是分布数列中的频数或频率。对求平均数具有权衡轻重的作用,是影响平均数变动的两个因素之一(另一因素是变量值)。(1)(2)(3)X456合计频数频率(%)10201025.050.025.040100.0X456合计频数频率(%)20402025.050.025.080100.0X456合计频数频率(%)20101050.025.025.080100.0=5=5=4.75频率分布变了,均值也变。因此,严格地说,权数应指频率。\n算术平均数的变形数学上称其为调和平均数,只是用这种形式时,变量的取值不能为0。求某种商品三种零售价格的平均价格调和平均价格(元)3.32.52.0合计销售额(元)10101030\n常用的几种平均数概念计算公式特点优点:灵敏度高②受极值影响小于和③适宜于各比率之积为总比率的变量求平均缺点:①有“0”或负值时不能计算②偶数项数列只能用正根2.几何平均数()几个变量值连乘积的n次根简单:加权:\n概念计算公式特点3.中位数(Me)是一种位置平均数,数据按大小顺序排列,处于数据序列中间位置的数值就是中位数上限公式:下限公式:优点:①容易理解②不受极值影响③适宜于开口组资料和些不能用数字测定的事物缺点:①灵敏度和计算功能差②间断数Me常用的几种平均数\n常用的几种平均数概念计算公式特点4.众数(Mo)是一种位置平均数,是一批数据中出现次数最多的那个数值.通常只用于定性数据或离散型的定量数据。上限公式:下限公式:优点:①容易理解②不受极值影响缺点:①灵敏度和计算功能差②稳定性差③具有不唯一性\n25303540455051015f(人数)月收入:元36.11d1d255\n位置平均数与算术平均数的关系1.众数适用于所有的定性数据和定量数据中位数适用于定性数据中的定序数据和定量数据算术平均数只适用于定量数据2.定量数据:若是钟形分布,三种集中趋势指标一般都可适用。而对J形分布,反J形分布和U形分布,中位数和算术平均数没有任何意义。3.在确定集中趋势指标的过程中,算术平均数比中位数和众数使用了更多的数据信息。4.对于钟形分布且数据量很大时,三种集中趋势指标有如下三种数量关系:\nXfXfXf(对称分布)正偏态分布(右)负偏态分布(左)1212\n应用平均指标的原则1.必须是同质的量方可平均;2.总平均数与组平均数结合分析;3.集中趋势与离散趋势结合分析.\n三、离散趋势的测定概念标志变异指标是反映变量分布离散趋势、与平均指标相匹配的指标。(1)反映变量分布的离散趋势;(3)是对事物发展均衡性的量度。(2)是对平均数的代表性程度的量度;作用\n常用的几种标志变异指标概念计算方法特点是非众数组所占比重1.异众比率如百得便利超市公司50家门店按区域划分的众数是A区域,该组的次数是20家,所以异众比率为60%,这说明50家门店按区域划分的离散程度比较大,众数的代表性较差。异众比率是反映定名数据离散趋势的唯一指标,这个指标越小,说明数据的离散程度越小,集中程度越大\n常用的几种标志变异指标概念计算特点数列中最大值与最小值之差2.极差(R)R=最大值-最小值R=最大组的上限-最小组的下限优点:容易理解,计算方便缺点:不能反映全部数据分布状况3.四分位差(M3-M1)/2在反映数据的离散程度方面比全距较为准确,但仍显粗略是一批数据中的第三四分位数与第一四分位数之差的二分之一\n常用的几种标志变异指标概念计算特点4.平均差(AD)各标志值与均值离差绝对值的算术平均简单:加权:优点:反映全部数据分布状况缺点:取绝对值数字上不尽合理所有观察值与平均数离差平方平均数的平方根,亦称均方差。标准差的平方即为方差。5.方差(σ2s2)和标准差(σs)优点:反映全部数据分布状况,数字上合理。缺点:受计量单位和平均水平影响,不便于比较简单:加权:\n概念计算特点6.标准差系数(Vσ)标准差与均值之商,是无量纲的两列数据的分布进行离散程度的比较,当它们的平均数不等、计量单位不同时则应消除平均数不同和计量单位不可比的影响。此时就需要用离散系数这种相对数来是测定离散趋势方差(σ2)和标准差(σ)是应用最广的标志变异指标常用的几种标志变异指标\n四、数据的形态测定偏度:是测定数据分布的偏斜程度的指标。定义M=∑(X-A)k/n为变量X关于A的k阶矩。当A=0,即以原点为中心,上式称为“K阶原点矩”。K=1,2,3时,有:一阶原点矩M1=∑(X-0)1/n=∑X/n二阶原点矩M2=∑(X-0)2/n=∑X2/n三阶原点矩M3=∑(X-0)3/n=∑X3/n当A=,即以为中心,上式称为“K阶中心矩”。K=1,2,3时,有:一阶中心矩二阶中心矩三阶中心矩\n所以,m3可以测定偏度。为消除量纲,转变为系数,再除以σ3。<0负偏态=0对称分布>0正偏态峰度:是用来反映数据分布曲线顶端的尖峭或扁平程度的指标。<3平顶曲线=3正态曲线>3尖顶曲线注:在EXCL等软件中输出的峰度是在此基础上再减3。\n五数概括:即最小值xmin、最大值xmax、第一四分位数M1、中位数Me和第三四分位数M3五个数之间的关系,确定数据分布形态的方法:数据是完全对称:数据是不对称:最小值xmin到中位数的距离等于中位数到最大值xmax的距离。从xmin到M1的距离等于M3到xmax的距离。从xmax到中位数的距离大于中位数到xmin的距离。从M3到xmax的距离大于从从xmin到M1的距离。右偏分布\n从xmin到中位数的距离大于中位数到xmax的距离。从xmin到M1的距离大于M3到xmax的距离。左偏分布箱线图:是基于五数概括的图示方式,使得集中趋势、离散趋势和偏态更为直观。\n第五章参数估计和假设检验推断统计:利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体样本总体参数统计量推断估计参数估计检验假设检验抽样分布\n抽样分布简单随机抽样和简单随机样本的性质无限总体有限总体不放回放回样本样本放回不放回样本样本独立性和同一性同一性当n/N≤5%时,有限总体不放回抽样等同于放回抽样无限总体\n统计量与抽样分布统计量:即样本指标。样本均值样本成数样本方差如:抽样分布:某一统计量所有可能的样本的取值形成的分布。性质数字特征0≤P(Xi)1∑P(Xi)=1均值E(X)方差E[x-E(x)]2方差的平方根即抽样分布的标准差就是推断的抽样误差。\n样本均值的抽样分布(简称均值的分布)抽样总体样本均值X,(N)均值μ=∑Xi/Nx,(n)样本均值是样本的函数,故样本均值是一个统计量,统计量是一个随机变量,样本均值的概率分布称为样本均值的抽样分布。\n均值分布的数学期望和方差抽样方法均值方差标准差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样抽样误差抽样误差\n从正态总体中抽样得到的均值的分布也服从正态分布。从非正态总体中抽样得到的均值的分布呢?中心极限定理:无论总体为何种分布,只要样本n足够大(n≥30),均值()标准化为(z)变量,必定服从标准正态分布,均值()则服从正态分布,即:关于均值的抽样分布有如下的一些结论:1.对于多数总体分布来说,不论其形态如何,如果样本观察值超过30个,那么均值的抽样分布将近似于正态分布。2.如果总体分布是明显对称的,那么只要样本观察值超过15个,均值的抽样分布也近似于正态分布。3.如果总体是正态分布的,则不管样本大小如何,均值的抽样分布一定是正态分布的。\n两个样本均值之差的抽样分布抽样总体样本X1,(N1)x1,(n1)抽样总体样本X2,(N2)x2,(n2)估计(1)如:(2〕如果两个总体都是非正态总体,只要n1、n2足够大,根据中心极限定理,可知:~~\n样本成数(即比例)的抽样分布(简称成数的分布)抽样总体样本成数X,(N)成数P=Ni/Nx,(n)所有可能的样本的成数()所形成的分布,称为样本成数的抽样分布。,\n成数分布的数学期望和方差抽样方法均值方差标准差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样根据中心极限定理,只要样本足够大,的分布就近似正态分布。(np和nq大于5时)抽样误差抽样误差\n两个样本成数之差的抽样分布抽样总体样本X1,(N1)x1,(n1)抽样总体样本X2,(N2)x2,(n2)估计当n1、n2都足够大时,样本成数都近似服从正态分布,两个样本成数之差()也近似服从正态分布。P1-P2=?\n一个样本方差的抽样分布抽样总体样本若:从一个正态总体中抽样所得到的样本方差的分布n,S2则当则若X~(n-1)\n两个样本方差之比的抽样分布抽样总体样本从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。n1,S12则抽样总体样本n2,S22\n参数估计点估计以样本指标直接估计总体参数。评价准则的数学期望等于总体参数,即该估计量称为无偏估计。无偏性有效性当为的无偏估计时,方差越小,无偏估计越有效。一致性对于无限总体,如果对任意满足条件则称的一致估计。是充分性一个估计量如能完全地包含未知参数信息,即为充分量.估计量\n点估计常用的求点估计量的方法1.数字特征法:当样本容量增大时,用样本的数字特征去估计总体的数字特征。例如,我们可以用样本平均数(或成数)和样本方差来估计总体的均值(或比率)和方差。2.顺序统计量法:如果把取得的样本观测值按大小排列起来,那么与排列位置有关的统计量就称为顺序统计量。常用的顺序统计量有样本中位数和极差。\n当总体服从正态分布时,用样本中位数来估计总体的数学期望:3.极大似然估计法:极大似然估计是根据样本的似然函数对总体参数进行估计的一种方法。其实质就是根据样本观测值发生的可能性达到最大这一原则来选取未知参数的估计量θ,其理论依据就是概率最大的事件最可能出现。\n区间估计估计未知参数所在的可能的区间。评价准则随机区间置信度精确度随机区间包含(即可靠程度)越大越好。的概率的平均长度(误差范围)越小越好一般形式或总体参数估计值误差范围△:一定倍数的抽样误差例如:抽样误差一定时,越大,概率(可靠性)大;随之增大,精确度就差。\n参数的区间估计简单随机抽样待估计参数已知条件置信区间正态总体,σ2已知正态总体,σ2未知非正态总体,n≥30有限总体,n≥30(不放回抽样)总体均值(μ)σ未知时,用Sσ未知时,用S两个正态总体已知两个正态总体未知但相等两个非正态总体,n1,n2≥30两个总体均值之差μ1-μ2\n简单随机抽样待估计参数已知条件置信区间无限总体,np和nq都大于5总体成数(p)无限总体,n1p1>5,n1q1>5n2p2>5,n2q2>5两个总体成数之差(P1-P2)有限总体,np和nq都大于5有限总体,n1p1>5,n1q1>5n2p2>5,n2q2>5\n简单随机抽样待估计参数已知条件置信区间正态总体总体方差两个正态总体两个总体方差之比\n样本数的确定待估计参数已知条件样本数的确定正态总体,σ2已知总体均值(μ)例:误差范围简单随机抽样有限总体,不放回抽样,σ2已知总体成数(P)服从正态分布有限总体,不放回抽样\n假设检验基本思想检验规则检验步骤常见的假设检验方差分析\n基本思想小概率原理:如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。总体(某种假设)抽样样本(观察结果)检验(接受)(拒绝)小概率事件未发生小概率事件发生\n假设的形式:H0——原假设,H1——备择假设双侧检验:H0:μ=μ0,H1:μ≠μ0单侧检验:H0:μ=μ0,H1:μ<μ0H0:μ=μ0,H1:μ>μ0假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。\n检验规则确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0差异临界点拒绝H0接受H0cc判断两类错误接受或拒绝H0,都可能犯错误I类错误——弃真错误,发生的概率为αII类错误——取伪错误,发生的概率为β检验决策H0为真H0非真拒绝H0犯I类错误(α)正确接受H0正确犯II类错误(β)怎样确定c?\nα大β就小,α小β就大基本原则:力求在控制α前提下减少βα——显著性水平,取值:0.1,0.05,0.01,等。如果犯I类错误损失更大,为减少损失,α值取小;如果犯II类错误损失更大,α值取大。确定α,就确定了临界点c。①设有总体:X~N(μ,σ2),σ2已知。②随机抽样:样本均值③标准化:④确定α值,⑤查概率表,知临界值⑥计算Z值,作出判断0接受区拒绝区拒绝区\n当检验判断为接受原假设H0时,就有可能犯取伪的错误即II类错误。确定犯第Ⅱ类错误的概率β比较困难,具体计算可根据书上的例子。统计上把称为统计检验的势,它是原假设实际上是错误的应该被拒绝的概率。II类错误的概率β的计算\n检验步骤根据具体问题的要求,建立总体假设H0,H112选择统计量确定H0为真时的抽样分布3给定显著性水平α,当原假设H0为真时,求出临界值计算检验统计量的数值与临界值比较4\n几种常见的假设检验总体均值的检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0z(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μ0z0z0正态总体σ2已知\n总体均值的检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0t(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μ0t0t00正态总体σ2未知(n<30)\n总体均值的检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0z(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μ0z0z00非正态总体n≥30σ2已知或未知\n两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2z(2)H0:μ1=μ2H1:μ1>μ2(3)H0:μ1=μ2H1:μ1<μ2z0z00两个正态总体已知\n两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2t(2)H0:μ1=μ2H1:μ1>μ2(3)H0:μ1=μ2H1:μ1<μ2t0t00两个正态总体未知,但相等\n两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2(2)H0:μ1=μ2H1:μ1>μ2(3)H0:μ1=μ2H1:μ1<μ20z00两个非正态体n1≥30n2≥30已知或未知zz\n总体成数的检验条件检验条件量拒绝域H0、H1(1)H0:P=P0H1:P≠P0z(2)H0:P=P0H1:P>P0(3)H0:P=P0H1:P<P0z0z00np≥5nq≥5\n两个总体成数之差的检验条件检验条件量拒绝域H0、H1(1)H0:P1=P2H1:P1≠P2z(2)H0:P1≤P2H1:P1>P2(3)H0:P1≥P2H1:P1<P2z0z00n1p1≥5n1q1≥5n2p2≥5n2q2≥5\n一个总体方差的检验条件检验条件量拒绝域H0、H1总体服从正态分布\n两个总体方差之比的检验条件检验条件量拒绝域H0、H1总体服从正态分布FFF\n方差分析一、问题的提出同一原材料加工产品质量产地各组产品的质量是否有显著差异?随机原则\n一个班级的学生,某门课程的成绩专业分组各组学生的成绩是否有显著差异???差异随机误差系统误差随机原则加以比较若存在显著性差异,则说明该因素的影响是显著的\n二、假定条件各组水平都服从正态分布,均值和方差未知,但方差相同(i=1,2,3,···,k)\n三、单因素方差分析H0:各水平的均值相等H1:各水平均值不全相等总离差平方和=组间离差平方和+组内离差平方和离差平方和:SST=SSB+SSE自由度:n-1=k-1+n-k方差:MSTMSBMSE检验量=系统误差/随机误差即:F=MSB/MSE检验规则\n\n因为:F=3.15<4.26或P(0.092)>(0.05)所以接受原假设,认为不同的家庭背景对学员成绩没有显著影响。\n四、不考虑交互作用的两因素方差分析H0(A):因素A的k个水平的均值相等H1(A):不全相等总离差平方和=组间离差平方和+组内离差平方和离差平方和:SST=SS(A)+SS(B)+SSE自由度:kh-1=k-1+h-1+(k-1)(h-1)方差:MSTMS(A)MS(B)MSE检验量=系统误差/随机误差即:F(A)=MS(A)/MSEF(B)=MS(B)/MSEH0(B):因素B的h个水平的均值相等H1(B):不全相等检验规则\n\n因为:F(A)=0.393<5.14F(B)=0.028<4.76或P(A)(0.69)>(0.05)P(B)(0.99)>(0.05)所以接受原假设,认为不同的机器设备和不同的工艺方法对生产量都没有显著影响。\n五、考虑交互作用的两因素方差分析H0(A):因素A的k个水平的均值相等H1(A):不全相等总离差平方和=组间离差平方和+组内离差平方和离差平方和:SST=SS(A)+SS(B)+SS(AB)+SSE自由度:khm-1=k-1+h-1+(k-1)(h-1)+kh(m-1)方差:MSTMS(A)MS(B)MS(AB)MSE检验量=系统误差/随机误差即:F(A)=MS(A)/MSEF(B)=MS(B)/MSEF(AB)=MS(AB)/MSEH0(B):因素B的h个水平的均值相等H1(B):不全相等H0(AB):AB之间不存在交互影响的作用H1(AB):有交互影响\n检验规则例:\n\n\n因为:F(A)=7.89>3.40F(B)=0.53<3.01F(AB)=7.11>2.51或P(A)(0.002)<(0.05)P(A)(0.665)>(0.05)P(AB)(0.0002)<(0.05)所以认为不同的机器设备对日产量有显著影响。不同的工艺方法对日产量没有显著影响。不同机器设备与工艺搭配的交互作用对日产量有显著的影响。\n相关分析回归分析第六章相关与回归相关和回归分析方法,是分析两个或更多变量之间的相互关系,测定它们之间联系的紧密程度,以揭示其变化的具体形式和规律性,以便用一个或几个变量,去预测另一个我们感兴趣的变量。主要内容\n相关分析概念种类线性相关变量之间关系函数关系相关关系因果关系互为因果关系共变关系确定性依存关系随机性依存关系\n种类一元相关多元相关负相关正相关线性相关曲线相关xy正相关xy负相关xy曲线相关xy不相关\n线性相关相关系数测定两变量是否线性相关?定义式:未分组:已分组:见P201页值:|r|=0不存在线性关系;|r|=1完全线性相关0<|r|<1不同程度线性相关(0~0.3微弱;0.3~0.5低度;0.5~0.8显著;0.8~1高度)符号:r>0正相关;r<0负相关计算公式相关系数的检验(t检验)检验统计量\n回归分析特点一元线性回归多元线性回归非线性回归逻辑回归种类\n特点1·理论和方法具有一致性;2·无相关就无回归,相关程度越高,回归越好;3·相关系数和回归系数方向一致,可以互相推算。1·相关分析中,x与y对等,回归分析中,x与y要确定自变量和因变量;2·相关分析中x,y均为随机变量,回归分析中,只有y为随机变量;3·相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。\n种类一元回归多元回归线性回归非线性回归自变量的多少变量之间的具体变动形式\n一元线性回归1·一元线性回归模型的一般形式总体一元线性回归模型的一般形式Y的数学期望E(Yi)随机误差也称一元线性回归方程,是对应于自变量X某一取值时因变量Y的均值。未知参数Yi=α+βXi+εi\n回归系数b表明自变量x每变化一个单位因变量y的平均增(减)量。b与r的关系:r>0r<0r=0b>0b<0b=0样本的一元线性回归模型和回归方程一元线性回归模型:一元线性回归方程:截距斜率(回归系数)\nxy2·一元线性回归模型的确定根据实际数据,用最小平方法,即使,分别对a、b求偏导并令其为零,求得两个标准方程:解联立方程,得到\n3·一元线性回归模型拟合优度的评价判定系数(r2)是对回归模型拟合优度的评价。xy总离差=回归离差+剩余离差r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。r的符号同b\n估计标准误(Syx)Syx越小,拟合越好;Syx越大,拟合越差。Syx也是用自变量对因变量进行区间估计的抽样误差。68.27%94,45%99.73%是一个测量Y的实际值与Y的预测值之间离散程度的统计量。\n4·回归分析中的假设条件和残差分析回归分析中的假设条件随机误差项ε的理论假定值相互独立服从正态分布的数学期望E()=0的方差都相同,且残差分析随机误差项ei=yi-i又称为残差,对残差进行分析,既能用来评价回归模型与实际数据的拟合优度,也能评价回归的假设能否成立。\n评价回归模型的拟合优度可通过绘制残差图直观地进行评价。残差图是以残差为纵坐标、以相应自变量的X值为横坐标的散点图。散点的分布不存在明显的变化规律,说明建立的模型对数据是合适的。\n散点的分布有明显的变化规律,说明建立的模型对数据是不合适的。\n假设条件的评估(1)等方差性:通过残差与Xi的残差图来评价残差0X0此图中,散点如扇形般地展开,即显示出X增大时残差的变异也在增大,证明了在X的每个水平上,Y缺少等方差性\n(2)正态性。可通过残差分析中计算残差的频数分布,并把其结果用直方图加以反映和评估。引例店址选择的数据,可把残差列成如表的频数分布,并把其结果可用直方图展示出来.残差频数-300到-2001-200到-1002-100到040到1004100到2004合计15\n(3)独立性。可根据数据获得的先后顺序排列的残差散点图来评估。在一段时间内收集的数据,有时观测值中会存在着自相关的影响。此时,前后之间的残差就会有某种联系。若存在这种联系,就违背了独立性假设,这将很明显地在残差对收集数据的时间散点图上反映出来。自相关的影响可用杜宾—沃特森统计量进行测度\n5·一元线性回归模型的显著性检验回归系数b的检验:设总体回归系数为βH0:β=0;H1:β≠0n≥30时检验统计量(β=0)σb是样本回归系数抽样分布的标准差。通常是未知的,用其估计量代替。给定显著性水平α,查Z表可知其临界值。n<30时(β=0)给定显著性水平α,查t表可知其临界值。\n00Zt\n回归模型整体的F检验H0:R2=0;H1:R2>0检验统计量F\n6·应用回归方程进行估计给定x0,y0的置信度(1-α)的置信区间为:xyX00给定的x0越接,y值估计的精确度越高。平均值估计n<30时特定值估计\n多元线性回归1·多元线性回归模型的确定二元线性回归模型:总体多元线性回归模型的一般形式Y的数学期望随机误差表明自变量共同变动引起的Y的平均变动。也称总体的二元线性回归方程。\n常数项,和Y构成的平面与Y轴的截距;偏回归系数,表示在固定时每变化一个单位引起的Y的平均变动;偏回归系数,表示在固定时每变化一个单位引起的Y的平均变动;随机误差,其理论假定与一元线性回归模型中的一样。偏回归系数的符号与它们所联系的自变量Xi同因变量Y的相关系数ri的符号是一致的。\n样本多元线性回归模型的一般形式二元线性回归模型为:其数学期望也称样本(或估计的)二元线性回归方程。2.二元线性回归方程的确定根据实际资料,用最小平方法,即使,分别对b0、b1、b2求编导并令其为零,求得三个标准方程:\n解此联立方程便可得到β0、β1和β2。3·多元线性回归模型的判定系数和估计标准误判定系数修正的判定系数:\n估计标准误r2和Sy(x1、x2)都是对回归模型拟合优度的评价指标。Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误差。4·多元线性回归方程的显著性检验对偏回归系数的t检验H0:β1=0,H1:β1≠0;H0:β2=0,H1:β2≠0。检验统计量:\n按显著性水平α和自由度(n-3)查t表可得到临界值t0\n模型整体的F检验检验统计量:(k—自变量个数)或按给定的α和自由度(2)和(n-3)查F表可得到临界值Fα\n5·多元回归中的相关分析复相关:指一个因变量同多个自变量的相关关系。复相关系数恒取正值。偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。x1与y的偏相关系数:x2与y的偏相关系数:\n6·应用多元回归方程进行区间估计Y的平均值的区间估计Y的特定值的区间估计式中,是即区间估计的抽样误差。的抽样分布的标准差,式中,是的抽样分布的标准差,即区间估计的抽样误差。\n7·建立多元回归模型应注意的几个问题和步骤建立多元回归模型应注意的几个问题1.变量的选择当实际问题确实有两个或两个以上因素影响其变动时,就应尽力获得这些因素的资料,构造多元回归模型。通常有两种向前逐步回归向后逐步回归2.多重共线性:如果各自变量之间存在完全相关或高度相关的情况,这在统计上称作多重共线性。\n方差膨胀因子(VIF)=若一系列自变量之间是不相关的,则VIFj等于1。若这些解释变量之间存在着高度的相关,则VIFj可大到超过10。一般的标准是VIFj的最大值超过5,则可认为此自变量与其他自变量之间存在着较高的相关,需要对回归模型进行修正。3.多元线性回归模型的残差分析需要对每个自变量与因变量的简单线性回归方程的残差图分别都进行分析\n建立回归模型的方法1.考虑一批可能入选模型的自变量。3.判别每个自变量的VIF是否大于5。4.有可能发生发下三种结果:2.拟合一个含有全部考虑过的自变量的回归模型,以便判别每个自变量的变异膨胀因子(VIF)。a.没有一个自变量的VIF>5,若产生这种情况,进入第5步。b.有一个自变量的VIF>5,若产生这种情况,剔除这个自变量,进入第5步。c.不止一个自变量的VIF>5,若产生这种情况,剔除VIF值最大的那个自变量,然后回到第2步。\n5.对余下的自变量,找出所有自变量形成的子集,进行最佳子集的回归分析,以获得给定自变量的最佳模型。具体可计算Cp统计量来选择最佳子集,有关Cp统计量的计算公式和使用方法可阅读相关的书籍。6.列出所有Cp≤(k+1)的模型。7.在第6步列出的所有模型中,选择一个最佳模型。8.对模型做一个包括残差分析在内的完整分析。9.根据残差分析的结果,增加二次项或进行变量变换(见下一节),然后分析数据。10.用选定的模型进行预测。\n虚拟变量运用虚拟变量,就能把定性自变量作为回归模型的一部分。逻辑回归若给出的定性自变量有两个分类,虚拟变量Xd的定义如下:Xd=0,若观测对象属于第一个分类Xd=1,若观测对象属于第二个分类\n逻辑回归设P(Y=1|X)=p表示自变量为X时,因变量Y=1出现的概率,对p作Logit变换,定义Logitp为Logitpi=总体一元逻辑回归模型:Logitpi=α+βXi+εi或样本的一元逻辑回归方程a+bXi其中或:\n例:在一次住房展销会上,与房地产商签定初步购房意向书的共有n=325名顾客,在随后的3个月时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客年家庭收入为自变量X,对表所示的数据,建立逻辑回归方程。解:令X为自变量,为因变量,由公式6-49可得回归方程为:-0.8863+0.1558Xi判定系数:r2=0.9243显著性检验p值约等于零,所以高度显著\n预测:年家庭收入为8万元的实际购房比例逻辑回归方程:\n非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如:双曲线模型:指数曲线模型:二次曲线回归模型:对多元非线性模型:\n非线性模型的判别方法:理论和经验判断观察散点图非线性模型的确定方法:通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。\n第七章非参数统计非参数统计(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。主要特点不要求总体分布已知或对总体分布作任何限制性假定;不以估计总体参数为目的;能适用于定性变量中的定类数据或定序数据,也能适用于定距数据和定比数据这种定量变量;方法直观,易于理解,运算比较简单;缺点是检验的功效不如参数检验方法。\n主要内容χ2检验成对比较检验曼—惠特尼U检验游程检验等级相关检验\nχ2检验一、什么是χ2检验χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。设有k(K>2)个观察值,f0为它们的实际频数,fe为理论频数。构造一个统计量:其中,k-1为自由度。皮尔生定理表明,当样本容量充分大时,样本分成K类,则χ2统计量服从χ2分布,自由度为k-1。\n1、拟合优度检验二、应用利用样本信息对总体分布作出推断,检验总体是否服从某种理论分布(如二项分布、均匀分布或正态分布等)。检验步骤抽样并对样本资料编成频数分布,形成k个互斥的类型组。(f0)对总体分布建立假设H0:总体服从某种理论分布H1:总体不服从该理论分布以“原假设H0为真”导出一组期望频数(fe)计算检验统计量比较χ2值与临界值作出检验判断\n自由度(df)=k-1-m。其中k为组数。(各组理论频数不得小于5,如不足5,可合并相邻的组,如需合并,则k为合并后的组数)m为计算理论频数时所估计参数的个数。(未指定总体的参数,需要观察值计算相应的统计量,作为未参数的估计值)。\n2、独立性检验二、应用用于判断两个变量是否存在交互影响。如果两个变量不存在交互影响,就称为独立,所以这类检验也称为独立性检验。检验步骤对总体的两个变量建立假设H0:两变量独立H1:两变量关联将样本资料编成r×c列联表,并列出实际频数Oij计算理论频数计算检验统计量比较χ2值与临界值作出检验判断\n\n要点说明列联表形式(r×c)O11O21O31...Or1O12O22O32...Or2O13O23O33...Or3………...…O1cO2cO3c...OrcO1O2O3...Or123...r行(r)列(c)123…cxy合计n.1n.2n.3…n.cn合计X的边缘频数y的边缘频数\n理论频数Eij的计算先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P(A·B)=P(A)·P(B)。因此,某一行某一列的联合概率:自由度(df)的确定df=(r-1)(c-1)\nr·c=2×2的列联表资料,χ2值简算公式xy1212abcda+cb+da+bc+d合计合计n\n成对比较检验是对两个相关样本的比较分析。有符号检验和威尔科克森带符号的等级检验两种方法。符号检验也称正负号检验,其基本思想是分析正负号出现的频率而忽略具体量的差异,以确定他们是否有显著差异的一种检验方法。\n检验步骤1.确定配对样本,分别计算差异正与负的数目,无差异则记为0,将它从样本中剔除,并相应地减少样本容量n,把正负号数目之和视为样本总个数(n)。2.建立假设:H0:p=0.5;H1:p≠0.53.观察样本容量,如果n≤25,则作为二项分布处理如果n>25,则作为正态近似处理。4.设定显著性水平α,并查表确定临界值,进行比较和作出判断。\n例1:随机抽取12个单位,放映一部描述吸烟有害健康的影片,并调查得到观看电影前后各单位职工认为吸烟有害的人数的百分比。检验该电影宣传是否有效果(α=0.05)。解:H0:P=0.5H1:P>0.5P(0)=0.0002,P(1)=0.0030,P(2)=0.0161,P(3)=0.0537P(0)+P(1)+P(2)=0.0193<0.05P(3)+0.0193=0.0537+0.0193=0.073>0.05\n0123456可见,拒绝域应为0,1,2。789101112拒绝域现检验统计量(-)=3(即3个负号),0.073>0.05所以,原假设H0:P=0.5在5%显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著提高。\n例2:随机抽取60名消费者对甲、乙两种品牌的饮料评分,甲、乙得分之差为“+”号者35个,“-”号15个,“0”号10个。以显著性水平α=0.05检验两种饮料是否同等受欢迎。解:H0:P=0.5,H1:P≠0.5∵n>25,∴按正态分布近似处理该成数抽样分布的均值和标准差分别为2.82>1.96,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。\n威尔科克森带符号的等级检验这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。1、应用条件和检验内容与符号检验相同。2、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(+)的秩和(记为T+)与负号(-)的秩和(记为T-)也应该大致相等。其中之较小者也应趋近于总秩和的平均数()。若正秩和(T+)与负秩和(T-)相差太大,其中较小者偏离总秩和的平均()较远,以致超过给定显著性水平α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。\n检验步骤将样本数据配对并计算各对正负差值将差数取绝对值按从小到大顺序排列并编上等级,即确定顺序号1、2、3等。对于相等的值,则取其位序的平均数为等级建立假设:H0:T+=T-;H1:T+≠T-(双侧)H1:T+>T-或T+<T-(单侧)计算检验统计量:当n>25时当n≤25时,取T+、T-中之小者\n设定α,并查表确定临界值Tα(或Zα/2)比较检验值与临界值作出判断,对于n≤25,T≤Tα,拒绝H0;T>Tα,接受H0接受区域拒绝区域拒绝区域Tα=5Tα=40=22.5\n曼—惠特尼U检验曼—惠特尼U检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。检验步骤:从总体A、B中分别独立抽取样本nA和nB,将(nA+nB)个观察值从小到大编序分别计算两个样本,的秩和TA和TB建立假设H0:两总体A和B相对次数分布相同H1:两总体相对次数分布不同\n计算检验统计量①nA、nB<10时,取UA、UB中小者UA=nAnB+nA(nA+1)/2-TAUB=nAnB+nB(nB+1)/2-TB②nA、nB>10时设定显著性水平α,查U表或Z表得到临界值比较统计量与临界值,作出判断,对于nA、nB<20U≤Uα,拒绝H0U>Uα,接受H0\n游程检验一、什么是游程检验游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。设某样本n=12人的标志表现为男、女,有以下三种排列。(i)男,男,女,女,女,男,女,女,男,男,男,男(ii)男,男,男,男,男,男,男,女,女,女,女,女(iii)男,女,男,女,男,女,男,女,男,女,男,男连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。以r表示序列中游程的个数:(i)r=5,(ii)r=2,(iii)r=11\n(i)是随机性序列;(ii)(iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。二、游程检验方法1.检验总体分布是否相同。将从两个总体中独立抽取的两个样本的观察值混合有序后,观察游程个数,进行比较。2.检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。\n3.检验规则(小样本,n1与n2都小于20)应用表La和Lb,(α=0.05,r为临界值)(1)单侧检验:观察到的游程个数ro≤临界值(La表)或ro≥临界值(Lb表)反之,接受Ho。(2)双侧检验:观察到的游程个数ror(La)<ro<r(Lb)接受Ho下限上限反之,拒绝Ho否定Ho\n4.大样本(n1或n2大于20),游程个数r近似正态分布检验统计量其中:\n等级相关检验将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。等级相关系数的计算公式其中di为两变量每一对样本的等级之差,n为样本容量。等级相关系数与相关系数一样,取值-1到+1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。一、等级相关检验的基本原理\n二、等级相关系数的应用利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行检验。(一)检验的假设(1)H0:rs=0,Xi和Yi相互独立;H1:Xi和Yi不独立。(此为双侧检验)(2)H0:rs=0,Xi和Yi相互独立;H1:Xi和Yi是正相关。(即Xi的大值与Yi的大值相配对)(3)H0:rs=0,Xi和Yi相互独立;H1:Xi和Yi是负相关。(即Xi的大值与Yi的小值相配对)\n(二)检验统计量:\n第八章时间数列时间数列,亦称时间序列或动态数列,是统计数据按时间先后顺序排列而形成的一种数列。时间数列可以反映现象发展变化的过程和特点,是研究现象发展变化的趋势和规律以及对未来状态进行科学预测的重要依据。本章主要内容时间数列的种类和编制方法时间数列传统分析指标长期趋势的测定季节变动、循环变动和剩余变动的测定时间数列的预测方法\n时间数列的种类和编制方法一、时间数列的种类1.按数据形式不同绝对数数列相对数数列平均数数列时期数列时点数列2.按观察数据性质与形态分纯随机性数列确定性数列平稳型趋势型季节型二、编制时间数列的方法原则1.注意时间单位(年、季、月等)的选择;2.注意数列前后指标的可比性(总体范围、指标涵义、计算方法、计量单位、经济内容等)。\n时间数列传统分析指标水平动态指标1.序时平均数(平均发展水平指标)计算公式适用于时期总量指标和按日连续登记的时点指标数列。说明适用于不连续登记、间隔相等的时点指标数列。适用于不连续登记间隔不相等的时点指标数列。分子和分母按各自数列的指标形式参照上述求序时平均数。\n时间数列传统分析指标水平动态指标2.增长量计算公式逐期增长量说明水平法适用于多期增长量平稳变化的数列总和法适用于各期增长变化较大的数列累计增长量3.平均增长量\n时间数列传统分析指标速度动态指标1.发展速度计算公式环比发展速度说明水平法——各环比发展速度的几何平均数定基发展速度2.平均发展速度方程法可查《平均发展速度查对表》3.(平均)增长速度=(平均)发展速度-100%\n长期趋势的测定一、时间数列的构成与分解1.社会经济指标的时间数列包含以下四种变动因素:(1)长期趋势(T)(2)季节变动(S)(3)循环变动(C)长期趋势(T)是由各个时期普遍和长期起作用的基本因素影响的变动,它表现为持续向上或向下的变动趋势,是对未来状况进行判断和预测的主要依据。季节变动(S)是指时间数列受自然季节变换和社会习俗等因素影响而发生的有规律的周期性波动。循环变动(C)是指社会经济发展中的一种近乎规律性的盛衰交替变动。\n(4)随机变动(I)2.时间数列的经典模式(1)加法模型:Y=T+S+C+I计量单位相同的总量指标是对长期趋势所产生的偏差,(+)或(-)(2)乘法模型:Y=T·S·C·I计量单位相同的总量指标是对原数列指标增加或减少的百分比不规则变动(I)亦称剩余变动或随机变动,它是时间数列中除了上述三种变动之外剩余的一种变动,是各种偶然的(或突发性的)因素。\n3.变动因素的分解(1)加法模型用减法。例:T=Y-(S+C+I)(2)乘法模型用除法。例:T=Y/(S·C·I)二、长期趋势(T)的测定(一)修匀法:1、随手法2、时距扩大法和序时平均法3、移动平均法移动项数新数列项数=原数列项数-移动项数+1(二)长期趋势的数字模型(以时间t为自变量构造回归模型)t-时期数按序编制例\n步骤:选择趋势模型求解模型参数图形判断、差分法判断、经验判断、自相关系数数列判断等。例差分法:时间数列相继数值的差异。如:一级差分(逐期增长量)的结果大致相同。则配模型如:二级差分的结果大致相同。则配模型如:相继两期水平(环比发展速度)的比值相同。则配模型最小平方法,求参数。\n返回原数列新数列y1y4y2y3y5y6原数列新数列y1y4y2y3y5y6时间时期数数列t1t2t3t4t5t6t71234567y1y2y3y4y5y6y7时间时期数数列t1t2t3t4t5t6t7-3-2-10123y1y2y3y4y5y6y7时间时期数数列t1t2t3t4t5t6-5-3-1135y1y2y3y4y5y6\n一、按月(或按季)平均法季节变动、循环变动和剩余变动的测定季度年份全年12个季度合计12个季度平均100%一二四三季节指数%各季平均数季节变动的测定\n二、长期趋势剔除法按月(或按季)平均法只限于时间数列中不存在明显的长期趋势时使用,若时间数列中存在着明显的长期趋势,则前后期水平会有较大的差异,用按月(或按季)平均法计算得到的季节指数就会受到长期趋势的影响,不能精确反映季节变动。这时,就要用长期趋势剔除法来计算季节指数。乘法模式分解,先剔除长期趋势,后同期平均的方法。\n时间序号tY预测的趋势值=f(t)Y/T=S·I115961560.87391.0225................3625322529.29281.0011\n月份年份12345620021.02251.01291.01531.00130.99310.998120031.00640.98980.99830.99250.99571.008720041.01171.00771.01611.01261.00531.0088三年同月合计3.04063.01043.02973.00642.99413.0156(季节指数S%)1.01351.00351.00991.00210.99791.0052\n7891011120.98960.98770.99310.97960.97790.99181.00151.00931.01031.00140.99741.00670.99580.99110.99660.98510.98781.00112.98692.988132.96612.96312.99960.99560.996010.98870.98770.9999\n循环变动的测定方法:残余法。从数列中消除(T)Y/T=S·C·I从余值中消除(S)S·C·I/S=C·I从余值中消除(I)即移动平均,得到C不规则变动的测定从CI中消除(C)CI/C=I\n序号tYY/T=C·I三项移动平均C=C·I/三项移动平均I=C·I/C12966232225.690.920446——23852137523.591.0265811.000271.0263041.00027…………………9110695108897.971.0165021.0067061.0097311.00670610126196126800.790.99523——\n时间数列的预测方法时间数列预测方法同回归预测方法不同,它是依据事物量的渐变过程的连续性,把时间数列的各期水平视为时间的函数,或者视为过去各期水平合乎规律变化的结果。因此,它对资料的要求比较单一,只需变量本身的历史数据,在实际工作中有广泛的适用性。(一)移动平均预测法移动平均法不仅能对时间数列进行修匀,还能对变动比较平稳的时间数列进行预测,即取最近n项数值的平均数作为下期的预测值简单形式:\n加权形式:(f1>f2>f3…>fn)(二)指数平滑法(由移动平均法演变而来)是本期实际值与本期预测值的加权算术平均数或也可以是本期预测值经过误差修正后的数值。(0<α<1)\n(三)趋势外推法趋势外推法亦称长期趋势预测法,它是根据本章第3节介绍的构造时间数列长期趋势方程,进行外推预测。(四)时间数列的自相关性和自回归预测法1.时间数列的自相关性设y1,y2,…,yt,…,yn为一个时间数列Y的n个观察值。把前后相邻两期的观察值一一配对,便有(n-1)对数据。y1,y2,…,yt,…,yn-1y2,y3,…,yt+1,…,ynxy\ny1,y2,…,yt,…,yn-2y3,y4,…,yt+2,…,ynxyy1,y2,…,yt,…,yn-3y4,y5,…,yt+3,…,ynxy得到:r1,r2,r3,。。。,rk自相关系数数列\n判别的准则是:(1)如果一个时间数列所有的自相关系数r1,r2,,…,rk都近似地等于零,表明该时间数列属于随机性时间数列。(2)如果一个时间数列的第一个自相关系数r11比较大,r2、r3渐次减小,从r4开始趋近于零,表明该时间数列是平稳性时间数列。(3)如果一个时间数列的自相关系数r1最大,r2、r3等多个自相关系数逐渐递减但不为零,表明该时间数列存在着某种趋势。(4)如果一个时间数列的自相关系数出现周期性的变化,每间隔若干个便有一个高峰,表明该时间数列是季节性时间数列。\nH0:ρ=0;H1:ρ≠0如果时滞为1,2,…,k的自相关系数大部分都落在置信区间内,便可接受原假设,认为该时间数列回归模型的误差项符合独立性的要求。如果这些自相关系数大部分都落在置信区间之外,则必需在回归模型的自变量中加入前期的因变量,建立自回归模型。2.自相关系数的显著性检验\n3.自回归预测当时间数列存在一定程度的自相关,就可以建立时间数列的自回归模型,通过前期数值计算后期数值或预测未来,这就是自回归预测方法。用最小平方法求解参数,可以确定预测模型。一级线性自回归二级线性自回归n级线性自回归二次曲线线性自回归\n对自回归模型有效性检验误差项的随机性检验作出判断。D·W检验统计量\n概念综合指数平均数指数几种常见的经济指数第九章指数指数(IndexNumber)是研究现象差异或变动的重要统计方法。它起源于18世纪欧洲关于物价波动的研究。至今已被广泛应用于社会经济生活各方面;一些重要的指数已成为社会经济发展的晴雨表。主要内容\n概念概念广义指数:狭义指数:反映现象数量差异或变动程度的相对数。例如,动态相对数,比较相对数、计划完成程度相对数。反映不能直接相加的复杂现象综合变动程度的相对数。例如,消费价格指数、股价指数。反映复杂的社会经济现象总体的综合变动;测定现象总变动中各个因素的影响;对多指标复杂现象综合测评。作用:\n按对象的范围分按指标的性质分按采用的基期分个体指数总指数种类:数量指标指数质量指标指数定基指数环比指数\n综合指数概念综合指数是总指数的基本形式。它是通过引入一个同度量因素将不能相加的变量转化为可相加的总量指标,而后对比所得到的相对数。综合指数指数化因素×同度量因素指数化因素×同度量因素总量指标总量指标==所要研究其变动程度的两个时期的某一经济变量引入一个同一时期的经济量,起到媒介或权数的作用\n1、法国统计学家拉斯贝尔(EtienreLaspeyres,1834~1913)于1864年提出以基期物量为权数的综合指数公式种类∑p1q0∑p0q0∑q1p0∑q0p0物量指数价格指数分子减分母=25,表示由于价格的变动,使销售额增加了25元。分子减分母=475,表示由于销售量的提高,使销售额增加了475元。\n2、1874年,法国年轻的统计学家派许(HermannPaasche,1851~1925)又提出了以报告期物量为权数的综合价格指数公式∑p1q1∑p0q1∑q1p1∑q0p1物量指数价格指数在实际编制指数时,物量指数主要采用拉氏公式,价格指数主要采用派氏公式。\n3、1887年英国经济学家马歇尔(AlfredMarshall,1842~1924)提出了以基期与报告期的实物平均量为权数的综合物价指数。∑p1(q0+q1)/2∑p0(q0+q1)/2按此公式计算的价格指数在拉氏和派氏指数之间。虽然从数量测定上似乎不偏不倚,但却失去了拉氏和派氏公式的经济意义,现在基本上已不再使用。\n4、1911年美国统计学家费雪(IrvingFisher,1867~1947)提出了交叉计算(Crossing)的公式,即拉氏与派氏公式的几何平均公式。“理想公式”同“马艾公式”一样,虽然“不偏不倚”,但同样缺乏明确的经济意义,而且所用资料更多,计算比较困难。现在使用费暄公式已比较少见。\n5、除了上述各种以实际资料为权数的价格指数公式外,还有一种固定权数公式,即以某一年份的物量构成,延续多年用于编制价格指数;或以某一年份的价格作为固定的同度量因素,延续多年用于编制物量指数。综合价格指数=∑p1qn∑p0qn综合物量指数∑q1pn/∑q0pn\n平均数指数加权算术平均数指数物量总指数价格总指数实际中最常使用的权数是基期的销售额p0q0。\n加权调和平均数指数物量总指数价格总指数实际中最常使用的权数是报告期的总额p1q1。\n注意:实际工作中用两种方法计算的指数也是不一致的。综合指数:通常采用全面资料;先综合后对比;分子分母之差具有一定的经济内容。加权平均数指数:是采用抽样资料;先对比后综合;分子分母之差却不具有价值总量;指标增减的经济内容。\n物量指数主要采用拉氏公式;价格指数主要采用派氏公式;加权算术平均数主要用于编制物量总指数;加权调和平均数主要用于编制价格总指数。\n几种常见的经济指数居民消费价格指数居民消费价格是指居民支付购买消费品和获得服务项目的价格,它同人民生活休戚相关,在整个国民经济价格体系中占有重要地位。居民消费价格指数就是反映这种消费品和服务项目价格变动趋势和程度的相对数,可用于分析居民实际收入水平和生活水平的变化,也是国民经济核算和宏观经济分析与决策的重要指标。\n一、居民消费价格指数的编制方法1、是关系国计民生最重要的一种指数;可用于分析居民实际收入水平的变化,也是国民经济核算和宏观经济分析与决策的重要指标;2、采用加权算术平均方法,由代表商品个体指数逐级加权平均为总指数。即由基本分类指数,再中类、大类,最终由各大类指数加权平均为城市(或农村)居民消费价格总指数;3、关键问题:商品分类,代表品选择,价格采集,权数确定等。\n二、居民消费价格指数的应用(举例)通货膨胀率(%)=计算结果若为正值,表明存在通货膨胀;若为负值,则表明出现通货紧缩,即价格下跌,币值提高货币购买力指数=职工实际工资指数=职工平均工资指数/居民消费价格指数=职工平均工资指数×货币购买力指数\n股票价格指数1、道·斯股价平均数2、标准·普尔股价指数3、香港恒生指数4、上海证交所股价指数5、深圳证交所股价指数