- 5.98 MB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
附件一《统计学》学习指导书上海财经大学浙江学院2013年1月14日146\n目录第一部分学习指导5第一章绪论5一、学习目的和要求5二、内容提要5三、课后习题答案6四、课外习题7五、课外习题参考答案10第二章统计调查15一、学习目的和要求15二、内容提要15三、课后习题答案16四、课外习题18五、课外习题参考答案20第三章统计数据处理24一、学习目的和要求24二、内容提要24三、课后习题答案25四、课外习题26五、课外习题参考答案29第四章学习指导33一、学习目的和要求33二、内容提要33三、课后习题答案38四、课外习题44五、课外习题参考答案49第五章概率论基础55一、学习目的和要求55二、内容提要55三、课后习题答案59第六章抽样分布62一、学习目的和要求62二、内容提要62三、课后题答案67四、课外习题72五、课外习题参考答案79第七章参数估计86一、学习目的和要求86二、内容提要86三、课后习题88四、课外习题94五、课外习题参考答案99第八章假设检验105146\n一、学习目的和要求105二、内容提要105三、课后习题112四、课外习题135五、课外习题参考答案140第九章相关分析与回归分析147一、学习目的和要求147二、内容提要147三、课后习题答案152四、课外习题183第十章学习指导191一、学习目的和要求191二、内容提要192三、课后习题答案198四、课外习题206五、课外习题参考答案214第十一章指数分析220一、学习目的和要求220二、内容提要220世界上几种著名的股票指数2221.道·琼斯股票指数222三、课后题答案222四、课外习题226五、课外习题参考答案231第二部分EXCEL统计数据处理236一、EXCEL统计数据处理概述236二、统计数据的收集(教材第二章)238三、统计数据整理(教材第三章)241(一)数据编码241(二)数据的录入242(三)数据的筛选244(四)数据排序246(五)设计条件格式247(六)数据分类汇总249(七)创建图表和增强图表250(八)透视表252(九)直方图255四、数据描述性分析(教材第四章)257(一)函数方法257(二)描述统计工具量的使用258(三)两组或两组以上数据描述统计结果分析260146\n五、概率论基础(教材第五章)261(一)二项分布概率的计算和概率曲线图的编制261(二)正态分布概率的计算和概率曲线图的编制264(三)动态概率分布曲线的编制266(四)全概率公式和贝叶斯公式的应用275六、抽样分布(教材第六章)278七、参数估计——区间估计(第七章)281(一)用公式计算出置信区间281(二)编制活动工作表进行参数的统计量估计283八、假设检验(第八章)286(一)编制活动工作表进行一个总体参数的假设检验286(二)Z—检验工具的使用288(二)T—检验工具的使用290(三)F—检验工具295(四)方差分析297146\n第一部分学习指导第一章绪论一、学习目的和要求(一)“统计”一词的渊源及其含义是什么;(二)统计学是如何产生的;(三)统计学的性质和特点有哪些;(四)统计学的内容和一些基本概念。二、内容提要(一)“统计”一词的渊源及其含义“统计”一词的渊源:“统计(Statistics)”一词最早由德国马尔堡和格丁根大学教授阿痕瓦尔(GottfriedAchenwall1719-1772)提出,意思是指各种现象的状态和状况。我国古代的“统计”一词,原为“总计、合计”之意。具有现代意义的“统计”一词,则是20世纪初从日本传过来的。统计一词的三种含义:统计活动、统计资料和统计科学。(二)统计学的产生与发展统计学是伴随着统计活动的产生发展形成的,它的发展过程始终是沿着两条主线展开的:一是以“政治算术学派”为开端形成和发展起来的以社会经济问题为主要研究对象的社会经济统计;二是以概率论的研究为开端并以概率论为基础形成和发展起来的以方法和应用研究为主的数理统计。在统计学的产生和发展过程中,产生了许多不同的统计学派,如形成于德国的“国势学派”;形成于英国的“政治算术学派”;产生于19世纪中叶的“数理统计学派”、“社会统计学派”,等等。(三)统计学的性质和特点近年来我国统计学界提倡讨论的观点,主张统计学只有一门,包括数理统计学和社会经济统计学。它既不同于数学,也不同于经济学等其他实质性科学,而是一门研究客观事物数量方面的独立的方法论科学。统计学研究的特点:1.从研究对象来看,它研究客观事物的数量方面。2.从研究方法来看,它强调对客观事物总体进行大量观察,通过归纳推理以获得总体数量方面的综合性认识。3.从学科体系来看,统计学是一门多科性的科学,是一个学科“家族”。(四)统计学的内容和一些基本概念统计的内容:描述统计学,推断统计学。146\n统计分析中的几个重要概念:总体与总体单位(个体),指标,变量。三、课后习题答案(一)思考题1.现代的“统计”一词通常包括:统计活动、统计资料和统计科学三种涵义。(1)统计活动是指人们根据一定的目的、采用相应的统计方法收集资料、整理资料和分析资料的工作过程。现在各国的政府统计,包括经济、社会和科技等方面的统计;联合国统计机构的活动,如世界经济发展和环境统计、各国经济比较等;以及工矿企业或经营服务部门对生产经营过程中的投入和产出所进行的各种计量行为都是统计活动。(2)统计资料是统计活动的最终成果,例如某报报道:“2011年某市实现国内生产总值1543.63亿元,按可比价格计算,比去年同期增长13.7%,增幅比去年同期高1.6个百分点,比全国平均增长速度约高4个百分点。……”。统计资料以较为专业的形式出现的有:联合国统计年鉴、统计月刊,各国出版发行的经济年鉴等。(3)统计学则是一门指导统计工作的方法论科学,是统计活动的经验总结。三者关系为:统计学与统计工作之间的关系是理论与实践的关系;统计资料则是统计工作的成果。2.统计学作为一门系统的科学,距今只有300多年的历史,产生于欧洲资本主义社会初期,经历了古典统计学、近代统计学和现代统计学三个时期,先后产生过政治算术学、国势学、社会统计学和数理统计学等重要学派。数理统计学从其发展的时间进程看,可分为三个时代:卡尔•彼尔逊统计时代、R•A•费歇统计时代和J.柰曼—E.S.彼尔逊统计时代。但随着1946年瑞典统计学家克拉默尔发表了《统计学的数学方法》一书,用测度论系统总结了数理统计的发展,标志着统计学开始由近代转向现代。因此,上述三个时代的后两个时代可归入现代统计学范畴。3.描述统计(descriptivestatistics)是用来描绘(describe)或总结(summarize)观察量的基本情况的统计总称。推断统计是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。描述统计与推断统计紧密联系,描述统计是推断统计的前提,推断统计是描述统计的发展。4.统计总体(简称总体population)是统计研究所确定的客观对象,它是根据一定的研究目的,由客观存在的、在同质基础上由许多个别单位所组成的一个整体。146\n总体单位(unit),又称个体,是那些具有某种共同性质并组成总体的个别单位,是各项统计数字的原始承担者。总体单位既有同质性,又有差异性。同质性是各个总体单位所具有的某一种共同的属性或特征,是总体赖以形成的客观基础;因为每一个总体单位除了具有一个和其他总体单位性质相同的属性或特征以外,还有许多其它总体单位所不具备的属性或特征,所有总体单位所具有的各种不同的数量特征、属性或数量关系构成了总体内部的差异性。5.确定性变量受确定性的因素影响,也就是说影响变量变化的因素是明确的、可解释的;在这种因素的影响下,变量的变化幅度、变化方向是可以确定的。例如职工的工资总额一般受职工人数和职工平均工资两个因素的影响,它们各自的变化及其两者之间的交互作用对工资总额的变动影响是确定的。随机变量受随机因素的影响,随机因素的变化具有不确定性和偶然性,如气候的变化、海水潮汐的涨落等。但是,变量的随机性并不意味人类对之无能为力,统计要研究的正是现象的不确定性,就是要依据不确定因素的相互抵消的特性通过大量观察来研究随机现象的某种规律性。6.离散型变量只能取整数,例如人数、企业数、学校数等,计量单位一般为自然单位如个、匹、头等。连续型变量则可以取任意小数,例如产值、销售额、固定资产投资额等,计量单位为价值单位;或可以取任意两个变量之间中的一个无限小数,大多为某种测量器具的测量结果,一般用度量衡单位表示,如某种零件的大小尺寸、直径、重量、体积、容积等。四、课外习题 (一)单项选择题 1.人们在使用“统计”一词时,通常有三种不同的含义,其中不正确的一项是( ) A.统计工作 B.统计方法 C.统计数据 D.统计学 2.统计是从社会经济现象的( )A.质的方面去研究其量的方面B.量的方面去研究其质的方面C.质与量的辨证统一中研究其量的方面 D.质与量的辨证统一中研究其质的方面 3.根据统计方法的构成,可将统计学分为( ) A.描述统计学和推断统计学 B.描述统计学和应用统计学 B.理论统计学和推断统计学 D.理论统计学和应用统计学 4.统计学研究中使用的方法是( ) A.纯粹的演绎 B.纯粹的归纳 C.演绎与归纳相结合,以归纳为主导 D.演绎与归纳相结合,以演绎为主导146\n 5.政治算术学派的创始人之一是( ) A.高尔登 B.凯特勤 C.约翰·格朗特 D.皮尔逊 6.为运用数学理论研究概率论开辟道路的论著是( )A.《政治算术》 B.《概率论书简》C.《论赌博》 D.《概率论分析》 7.在统计史上被认为有统计学之实而无统计学之名的统计学派是( ) A.数理统计学派 B.政治算术学派 C.社会统计学派 D.国势学派 8.统计对社会经济现象总体数量认识是( ) A.从定性到定量 B.从定量到定性 C.从个体到总体 D.从总体到个体 9.最早把统计学引入我国的是( ) A.横山雅男B.高野岩三郎C.田井要助 D.犹尔 10.统计认识活动的过程逻辑上就是( )的过程。 A.理性认识 B.感性认识 C.归纳推理 D.大量观察 11.( )反映的是现象总体的相对水平或工作质量,一般表现为相对数或平均数。 A.数量指标 B.质量指标 C.实物指标 D.价值指标 12.被认为是推断统计学基础理论奠基者的是( ) A.皮埃尔 B.汤姆斯·辛普森 C.皮尔逊 D.费歇 13.第一位在数量统计和概率论领域享有国家声誉的中国数学家是( ) A.许宝禄B.金国宝C.朱君毅D.魏宗舒 14.比利时统计学家、数学家和天文学家(),把德国的国势学、英国政治算术和意大利、法国的古典概率论结合起来,开创了近代统计学的新纪元。A.高尔登 B.凯特勤 C.约翰·格朗特 D.皮尔逊 15.()年提出最小二乘法、发现了正态分布,从而奠定了统计估计的理论基础。A.高斯 B.凯特勤 C.约翰·格朗特 D.皮尔逊16.设某地区有800家独立核算的工业企业,要研究这些企业的产品生产情况,总体单位是()A.全部工业企业B.800家工业企业C.每一件产品D.800家工业企业的全部工业产品17.有200家公司每位职工的工资资料,如果要调查这200家公司的工资水平情况,则统计总体为()A.200家公司的全部职工B.200家公司C.200家公司职工的全部工资D.200家公司每个职工的工资18.以产品等级来反映某种产品的质量,则该产品等级是()A.数量标志 B.数量指标 C.品质标志 D.质量指标19.某工人月工资为550元,工资是()A.品质标志 B.数量标志 C.变量值 D.指标20.某班四名学生金融考试成绩分别为70分、80分、86分和95分,这四个数字是()A.标志 B.指标值 C.指标 D.变量值146\n21.年龄是()A变量值B离散型变量C连续型变量,但在应用中常按离散型变量处理D连续型变量.22.工业企业的职工人数、职工工资是()A连续型变量B离散型变量C前者是连续型变量,后者是离散型变量D前者是离散型变量,后者是连续型变量 (二)多项选择题 1.统计的含义一般有( )( )( )( )( ) A.统计工作 B.统计会议 C.统计学 D.统计报刊 E.统计资料 2.政治算术学派的创始人有( )( )( )( )( ) A.阿罕华尔 B.凯特勤 C.威廉·配第 D.恩格尔 E.约翰·格朗特 3.根据统计方法的构成,可将统计学分为( )( )( )( )( ) A.应用统计学 B.推断统计学 C.理论统计学 D.描述统计学 E.统计数学 4.下列属于应用统计学范畴的是( )( )( )( )( ) A.生物统计学 B.农业统计学 C.卫生统计学 D.社会统计学 E.人口统计学 5.对社会经济统计的产生和发展有一定影响的人物主要有( )( )( )( )( )A.威廉·配第 B.凯特勤 C.李·普莱 D.恩格尔 E.约翰·格朗特6.下列属于描述统计中常用的图示法有( )( )( )( )( ) A.多边图 B.直方图 C.圆形图 D.散点图 E.全距7.下列属于数量指标的有( )( )( )( )( ) A.人口总数 B.平均年龄 C.国内生产总值 D.工资总额 E.平均身高8.下列属于基本统计指标的有( )( )( )( )( ) A.社会指标体系 B.能源指标体系C.经济指标体系 D.固定资产投资指标体系 E.教育指标体系9.下列属于专题统计指标的有( )( )( )( )( ) A.社会指标体系 B.能源指标体系C.经济指标体系 D.固定资产投资指标体系 E.教育指标体系10.下列属于离散型变量的有( )( )( )( )( ) A.产值 B.人数 C.学校数 D.企业数 E.销售额146\n(三)判断题 1.统计学是随着人类社会的发展和社会管理的需要而发展起来的。( ) 2.统计数据的整理是对统计数据的加工处理过程,是统计学的核心内容。( ) 3.“政治算术学派”的创始人是威廉·配第和拉普拉斯。( ) 4.比利时统计学家凯特勤对统计学的主要贡献是将自然科学的研究方法引进社会现象的研究中来。( ) 5.以社会经济问题为主要研究对象的社会经济统计是以“国势学派”为开端形成和发展起来的。( ) 6.数学和统计学一样,并不能独立地直接研究和探索客观现象的规律,而是给各学科提供了一种研究和探索客观规律的数量方法。( ) 7.概率论最初的研究是为赌徒们找出掷骰子取胜的一套办法,所以,数理统计学研究领域最早的论著为《论赌博》。( ) 8.运用统计方法可以研究各学科的规律和解决其具体问题。( )9.统计研究事物的数量方面,指的是个别事物的数量方面,而不是总体的数量方面。( )10.总供给和总需求的平衡关系属于数量界限。( )(四)名词解释1.描述统计学2.推断统计3.参数统计学4.非参数统计学5.总体6.个体7.有限总体8.无限总体9.变量10.确定性变量11.随机性变量12.离散型变量13.连续型变量14.统计指标15.国内生产总值16.数量指标17.质量指标18.基本统计指标体系19.专题统计指标体系20.正指标21.逆指标(五)简答题1.简述统计一词的含义。2.数理统计学从其发展的时间进程看,可以分为哪三个时代?3.社会经济统计研究的对象有哪些?4.统计学研究有什么特点?5.统计指标有什么特点?6.什么是指标体系?分类有哪些?7.为什么说统计学是一门多科性的科学?8.简述有限总体和无限总体的区别。9.简述统计指标的涵义。10.总体单位有哪些特性。 五、课外习题参考答案146\n (一)单项选择题1.(B) 2.(D) 3.(A) 4.(C) 5.(C) 6.(C) 7.(B) 8.(C) 9.(A) 10.(B)11.(B) 12.(D) 13.(A) 14.(B) 15.(A)16.(D) 17.(A) 18.(C) 19.(B) 20.(D)21.(C) 22.(D) (二)多项选择题1.(A)(C)(E)2.(C)(E)3.(B)(D) 4.(A)(B)(C)(D)(E) 5.(A)(C)(D)(E)6.(A)(B)(C)(D) 7.(A)(C)(D)8.(A)(C)9.(B)(D)(E)10.(B)(C)(D) (三)判断题1.(√) 2.(×) 3.(×) 4.(√) 5.(×)6.(√) 7.(√) 8.(×) 9.(×) 10.(×)(四)名词解释1.描述统计是来描绘或总结观察量的基本情况的统计总称。描述统计学的内容包括统计数据的收集、数据的加工处理、数据的显示、数据分布的特征概括等。2.推断统计是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。3.参数统计学:推论统计学依照总体条件的差异性又可分为“参数统计学和“非参数统计学”。其中参数统计学是指总体呈正态分布的统计推论方法。4.非参数统计学:推论统计学依照总体条件的差异性又可分为“参数统计学和“非参数统计学”。其他所有应用于非正态分布总体的统计推论方法,都称为非参数统计学。5.统计总体(简称总体population)是统计研究所确定的客观对象,它是根据一定的研究目的,由客观存在的、在同质基础上由许多个别单位所组成的一个整体。6.总体单位(unit),又称个体,是那些具有某种共同性质并组成总体的个别单位,是各项统计数字的原始承担者。总体单位既有同质性,又有差异性。7.有限总体是指总体所包括的总体单位是可数可列的,即这些总体单位是数得清而且可以按一定的序号排列的。社会经济总体大多是有限总体,如人口数、企业数、学校数等。8.无限总体是指总体所包括的总体单位是不可数不可列或可数不可列的。不可数不可列是指总体所包括的总体单位数不清、自然无法编号。9.变量是标志的具体表现或指标的具体数值,如职工人数、年龄、工资;国内生产总值、销售总值、固定资产投资总额等。在数学中,定量变量就是变量,任意一个变量可以有一系列的取值,一般可用X、Y、Z来表示。10.确定性变量受确定性的因素影响,也就是说影响变量变化的因素是明确的、可解释的;在这种因素的影响下,变量的变化幅度、变化方向是可以确定的。11.146\n随机变量受随机因素的影响,随机因素的变化具有不确定性和偶然性,如气候的变化、海水潮汐的涨落等。12.离散型变量只能取整数,例如人数、企业数、学校数等,计量单位一般为自然单位如个、匹、头等。13.连续型变量则可以取任意小数,例如产值、销售额、固定资产投资额等,计量单位为价值单位;或可以取任意两个变量之间中的一个无限小数,大多为某种测量器具的测量结果,一般用度量衡单位表示,如某种零件的大小尺寸、直径、重量、体积、容积等。14.统计指标是综合反映统计总体的某一方面数量特征的概念和数值。15.国内生产总值是指一个国家或一个地区在一定时期内所生产和提供的最终使用的产品和服务的总价值。16.数量指标反映了现象总体的总规模、总水平或工作总量,一般表现为绝对数,如人口总数、国内生产总值、工资总额等。17.质量指标反映的是现象总体的相对水平或工作质量,一般表现为相对数或平均数。18.基本统计指标体系是反映国民经济和社会发展基本情况的指标体系,包括社会指标体系、经济指标体系和科技指标体系等。19.专题统计指标体系是反映某一方面社会经济问题的指标体系,如能源指标体系、固定资产投资指标体系、教育指标体系等。20.正指标是指这部分指标的数值越大、其所反映现象的数量特征的效果越好;反之,其所反映的现象的数量特征的效果越差。21.逆指标是指这部分指标的数值越小、其所反映现象的数量特征的效果越好;反之,其所反映的效果越差。(五)简答题1.现代的“统计”一词通常包括:统计活动、统计资料和统计科学三种涵义。(1)统计活动是指人们根据一定的目的、采用相应的统计方法收集资料、整理资料和分析资料的工作过程。(2)统计资料是统计活动的最终成果,统计资料以较为专业的形式出现的有:联合国统计年鉴、统计月刊,各国出版发行的经济年鉴等。(3)统计学则是一门指导统计工作的方法论科学,是统计活动的经验总结。2.数理统计学从其发展的时间进程看,可以分为卡尔·彼尔逊统计时代、R·A·费歇统计时代和J.柰曼—E.S.彼尔逊统计时代。3.社会经济统计主要研究的是社会经济现象的数量方面,具体地是指社会经济现象的规模、水平、结构、比例关系、普遍程度、差异程度和发展速度等;也即数量的多少、各种数量关系、质与量互变的数量界限等。数量关系包括平衡关系、比例关系和依存关系。数量界限如职工工资总额的增长速度低于国民收入的增长速度;企业平均工资的增长速度低于企业劳动生产率的增长速度等。4.(1)从研究对象来看,统计学研究的是客观事物的数量方面。(2)从研究方法来看,统计学研究强调对客观事物总体进行大量观察,通过归纳推理以获得总体数量方面的综合性认识。(3)从学科体系上看,统计学是一门多科性的科学,是一个学科“家族”。146\n5.统计指标的特点有:(1)综合性。任何一个指标数值总是通过对总体所有单位某种标志的登记并加以汇总所得到的结果。它说明的不是个别单位或部分单位的数量特征,而是构成总体的全部单位的综合结果。因此它抽象了现象总体各单位在某一方面的差异性,从而较为集中地概括和体现了现象总体在活动过程中某一方面的数量特征和质的属性。(2)具体性。统计指标总是总体某一方面质和量的统一,说明总体在具体时间、对象范围内的数量表现。6.单一指标只能反映总体某一方面的特征和属性,这就要求设置一整套相互有联系的指标,从不同的角度来反映总体各方面特征和属性。这些根据统计研究的需要由一系列相互有联系的指标构成的整体称作指标体系。统计指标体系有多种分类,其中最主要的是按指标的作用分为基本统计指标体系和专题统计指标体系。基本统计指标体系是反映国民经济和社会发展基本情况的指标体系,包括社会指标体系、经济指标体系和科技指标体系等;专题统计指标体系是反映某一方面社会经济问题的指标体系,如能源指标体系、固定资产投资指标体系、教育指标体系等。7.统计学的主体部分包括数理统计学和应用统计学,而应用统计学又包括社会经济统计学和自然科学技术应用统计学,每一个科目又有许多具体的分支。其中,数理统计学的性质和任务偏重于应用,但其理论阐述却必须使用专门的数学知识、特别是概率论;再者数理统计学与其他数学分支有较多的依赖关系,如数学分析、涵数论、矩阵代数、组合数学、甚至测度论、泛涵分析、拓扑学和抽象代数等。此外还有统计史,包括统计工作史、统计学说史、统计思想史和国际比较统计等。因此统计学是一门多科性的科学。8.有限总体是指总体所包括的总体单位是可数可列的,即这些总体单位是数得清而且可以按一定的序号排列的。社会经济总体大多是有限总体,如人口数、企业数、学校数等。无限总体是指总体所包括的总体单位是不可数不可列或可数不可列的。不可数不可列是指总体所包括的总体单位数不清、自然无法编号。9.指标是综合反映统计总体某一方面数量特征的概念和数值。任何一个统计指标一定是抽象的指标概念和具体的指标数值的结合。指标概念的内涵是对总体本质特征的一种抽象和概括,体现了对总体“质”的规定性,它在规定总体某一方面数量特征的理论指导下界定了指标概念的外延:指标的核算范围、计算方法和计量单位。指标数值是指标在一定时间和对象范围下具体的数量表现。10.总体单位是那些具有某种共同性质并组成总体的个别单位,是各项统计数字的原始承担者。总体单位既有同质性,又有差异性。同质性是各个总体单位所具有的某一种共同的属性或特征,是总体赖以形成的客观基础;因为每一个总体单位除了具有一个和其他总体单位性质相同的属性或特征以外,还有许多其它总体单位所不具备的属性或特征,所有总体单位所具有的各种不同的数量特征、属性或数量关系构成了总体内部的差异性。146\n146\n第二章统计调查一、学习目的和要求(一)了解统计调查的概念与分类;(二)了解我国统计数据调查的组织形式有哪些;(三)了解统计调查的误差类型;(四)掌握统计调查方案的撰写方法。二、内容提要(一)统计调查的概念与分类统计调查:是指按照统计研究的目的和任务,运用科学的调查方法、有组织有计划地向客观现象收集统计资料的工作过程。从认识论的角度来看,统计调查属于认识的感性阶段,是认识的起点。按调查对象所包括的范围划分,统计调查可分为全面调查和非全面调查。按登记的时间是否连续划分,统计调查可分经常性调查和一次性调查。统计调查的方法有:直接观察法、采访法、试验法、问卷法以及报告法。(二)我国统计数据调查的组织形式统计报表制度,指由政府主管部门以统计表格形式和行政手段自上而下布置,而后由企、事业单位根据一定的原始记录和核算数据、按照规定的报送时间和程序自下而上层层汇总上报统计资料的组织形式。我国现行的国家统计报表制度由国家统计局制定,或者由国家统计局和国务院有关部门共同制定。目的是用于收集国民经济、社会和科技发展情况,用于政府管理目的的各类统计调查,是各级国家统计部门实施国家统计调查项目的业务工作方案。按制定颁发的单位不同可划分为国家统计报表制度、部门统计报表制度以及地方统计报表制度。按调查时间的性质可划分周期性普查制度、经常性调查和非经常性调查。统计报表一般可由报表目录、表式和填表说明组成。146\n抽样调查是从总体中抽取部分单位组成样本,对样本指标进行测定并据此对总体数量特征进行估计或做出判断。抽样调查分为随机抽样和非随机抽样。随机抽样是按照随机原则从总体中抽样。随机抽样又分为简单随机抽样、系统抽样、分层抽样和整群抽样。非随机抽样是不按照随机原则来抽取样本中的单位。非随机抽样可分为方便抽样、判断抽样、定额抽样和滚雪球抽样。(三)统计调查误差统计调查所得到的资料与现象总体在某一方面的数量特征的现实必定会存在一定的差距,这种差距称之为数据收集误差,又称统计调查误差简称统计误差(statisticalerror)。一般来说,这种误差有两种:登记性误差和代表性误差。代表性误差按照其产生原因又分为两种,即系统性误差和抽样误差。调查误差有两种测度,总误差率和净误差率。(四)统计调查方案一项计划周密、体系完整、结构合理的统计调查方案应包括以下内容:确定调查目的,确定调查对象,撰写调查提纲,明确调查时间以及制定实施计划。调查表是用以登记调查单位具体特征和情况的表格,以便填写和登记反映调查单位某些方面的数量特征的有关标志和项目。调查表按其调查单位的多少和调查项目的多少,可分为单一表和一览表两种形式。调查表的结构与统计表大致相同,一般由表头、表身和表脚三部分组成。问卷也是调查表的一种类型,其特点是在表中的项目以一系列选择性问答的形式出现,要求被调查人员(investigator)根据事实或对某一个问题的看法来选择问卷事先给定答案中的一个或若干个,作为被调查人员的回答。问卷设计的程序包括:前期调查、初步设计、使用问卷和修订问卷等。问卷一般由说明词、指导语、调查内容和编码四部分所组成。三、课后习题答案(一)思考题1.统计调查是指按照统计研究的目的和任务,运用科学的调查方法、有组织有计划地向客观现象收集统计资料的工作过程。从认识论的角度来看,统计调查属于认识的感性阶段,是认识的起点。统计调查到的资料可分为:原始资料和次级资料。2.按调查对象所包括的范围划分,统计调查可分为全面调查和非全面调查。按登记的时间是否连续划分,统计调查可分经常性调查和一次性调查。3.统计调查的方法有:直接观察法、采访法、试验法、问卷法以及报告法。146\n4.统计报表制度是指由政府主管部门以统计表格形式和行政手段自上而下布置,而后由企、事业单位根据一定的原始记录和核算数据、按照规定的报送时间和程序自下而上层层汇总上报统计资料的组织形式。5.普查是为某种特定目的而专门组织的一次性全面调查,用来调查社会现象的全面资料。普查的特点有:(1)专门调查(2)周期性调查(3)全面调查(4)普查对资料的准确性和实效性要求高,调查工作面广、量大,必须集中领导和统一行动,规定统一的标准时点、统一的普查期限和统一的普查项目。6.抽样调查是从总体中抽取部分单位组成样本,对样本指标进行测定并据此对总体数量特征进行估计或做出判断。7.统计调查所得到的资料与现象总体在某一方面的数量特征的现实必定会存在一定的差距,这种差距称之为数据收集误差,又称统计调查误差简称统计误差(statisticalerror)。一般来说,这种误差有两种:登记性误差和代表性误差。代表性误差按照其产生原因又分为两种,即系统性误差和抽样误差。8.调查对象就是要进行调查的社会经济现象的总体。调查单位是需要对它的标志进行登记的每一个总体单位,也就是需要进行登记的标志的承担者。9.调查表是用以登记调查单位具体特征和情况的表格,以便填写和登记反映调查单位某些方面的数量特征的有关标志和项目。调查表按其调查单位的多少和调查项目的多少,可分为单一表和一览表两种形式。调查表的结构与统计表大致相同,一般由表头、表身和表脚三部分组成。10.问卷也是调查表的一种类型,其特点是在表中的项目以一系列选择性问答的形式出现,要求被调查人员(investigator)根据事实或对某一个问题的看法来选择问卷事先给定答案中的一个或若干个,作为被调查人员的回答。问卷设计的程序包括:前期调查、初步设计、使用问卷和修订问卷等。问卷一般由说明词、指导语、调查内容和编码四部分所组成。11.净误差率为-6%,不能计算总误差率。(二)填空题1.专门调查2.一次性3.随机4.询问调查法5.无法消除6.排序(三)单选题146\n1.A2.B3.A4.C5.C(四)多选题1.(1)BCE2.ABC3.ABCDE(五)判断题1.X2.√3.√4.×四、课外习题 (一)单项选择题 1.某地区为了掌握该地区水泥生产的质量情况,拟对占该地区水泥总产量的80%的五个大型水泥厂的生产情况进行调查,这种调查方式是()。A.普查B.典型调查C.抽样调查D.重点调查2.某灯泡厂为了掌握该厂的产品质量,拟进行一次全厂的质量大检查,这种检查应选择()。A.统计报表B.重点调查C.全面调查D.抽样调查3.人口普查规定统一的标准时间是为了()。A.避免登记的重复与遗漏B.确定调查的范围C.确定调查的单位D.登记的方便4.以下哪种场合宜采用标准式访问()。A.居民入户调查B.座谈会C.当事人或知情者个别采访D.观察法5.某地进行国有商业企业经营情况调查,则调查对象是()。A.该地所有商业企业B.该地所有国有商业企业C.该地每一国有商业企业D.该地每一商业企业6.以下哪种调查的报告单位与调查单位是一致的()。A.工业普查B.工业设备调查C.职工调查D.未安装设备调查7.调查项目通常以表的形式表示,称作调查表,一般可分为()。A.单一表和复合表B.单一表和一览表C.简单表和复合表D.简单表和一览表8.通过调查大庆、胜利、辽河等油田,了解我国石油生产的基本情况。这种调查方式是()。A.典型调查B.重点调查C.抽样调查D.普查9.统计调查的基本任务是取得原始统计资料,所谓原始统计资料是()。A.统计部门掌握的资料B.对历史统计资料进行整理后取得的资料C.直接向调查单位进行登记所取得的资料D.统计年鉴或统计公报上发布的资料10.某市进行工业企业生产设备普查,要求在7月1日至7月10日全部调查完毕,则这一时间规定是()。146\nA.调查时间B.调查期限C.标准时间D.登记期限11.调查某市工业企业职工的工种、工龄、文化程度等情况()。A.填报单位是每个职工B.调查单位是每个企业C.调查单位和填报单位都是企业D.调查单位是每个职工,填报单位是每个企业12.统计调查所搜集的可以是原始资料,也可以是次级资料,原始资料与次级资料的关系是()。A.原始资料来源于基层单位,次级资料来源于上级单位B.次级资料是由原始资料加工整理而成C.原始资料与次级资料之间无必然联系D.原始资料与次级资料没有区别 (二)多项选择题 1.普查是一种()。A.非全面调查B.专门调查C.全面调查D.一次性调查E.经常性调查2.某地对集市贸易个体户的偷漏税情况进行调查,1月5日抽选5%样本检查,5月1日抽选10%样本检查,这种调查是()。A.非全面调查B.一次性调查C.不定期性调查D.定期性调查E.经常性调查3.邮寄问卷适用以下哪些调查对象()。A.企业B.机关团体C.个人D.特定的群体E.所有的人群4.询问调查法有以下几种()。A.访问调查B.邮寄调查C.电话调查D.计算机辅助调查E.观察法5.对于社会、经济和管理的统计研究而言,统计数据质量的衡量标准是()。A.效度B.及时性C.信度D.一致性E.准确度6.非全面调查是指()。A.普查B.统计报表C.重点调查D.典型调查E.抽样调查7.某市对全部工业企业生产设备的使用情况进行普查,则每—台设备是()。A.调查单位B.调查对象C.总体单位D.填报单位E.报告单位8.根据调查的不同目的,实验法可分为()。A.室内实验法B.市场实验法C.研究性实验D.应用性实验E.可靠性实验9.实验数据搜集方法有()。A.观察记录B.笔试C.自我评估D.访问和测量E.采访10.下列各调查中,调查单位和填报单位一致的是()。A.企业设备调查B.人口普查C.工业企业普查D.商业企业调查E.商品价格水平调查(三)判断题 1.重点调查是在调查对象中选择一部分样本进行的一种全面调查。()2.报告单位是指负责报告调查内容的146\n单位。报告单位与调查单位有时一致,有时不一致,这要根据调查任务来确定。()3.访问调查回答率较低,但其调查成本低。()4.当调查对象分布区域较广时宜采用邮寄调查。()5.电话调查的问题要明确且数量要少。()6.观察法是一种盲目性的被动感受。()7.观察法可获得大量真实的第一手资料,但要花费大量的人力、物力、财力和时间。()8.实验法是一种特殊的观察法。()9.一览表是指一份表格上只体现一个调查单位的情况表。()(四)名词解释1.统计调查2.原始资料3.次级资料4.统计报表制度5.抽样调查6.随机抽样7.简单随机抽样8.分层抽样9.整群抽样10.方便抽样11.判断抽样12.定额抽样13.滚雪球抽样14.统计误差15.登记性误差16.代表性误差17.系统性误差18.抽样误差(五)简答题1.简述统计调查的作用和意义。2.衡量原始资料质量的标准有哪些?3.什么是全面调查和非全面调查并举例说明。4.统计调查的方法有哪些?5.统计报表制度有哪些特点?6.随机抽样有什么优点?7.整群抽样与分层抽样有何区别?8.简述任意抽样的理论依据及其优缺点。9.定额抽样有什么优缺点?10.简述统计调查方案包含的内容。五、课外习题参考答案 (一)单项选择题1.(D) 2.(C) 3.(A) 4.(A) 5.(B) 6.(A) 7.(B) 8.(B) 9.(C) 10.(B) 11.(D) 12.(B) 13.(A) 14.(A) 15.(C) (二)多项选择题1.(B)(C)(D)2.(A)(B)(C)3.(A)(B)(C)(D) 4.(A)(B)(C)(D) 5.(A)(C)6.(C)(D)(E)146\n7.(A)(C)8.(C)(D)9.(A)(B)(C)(D) 10.(C)(D) (三)判断题1.(×) 2.(√) 3.(×) 4.(√) 5.(√)6.(×) 7.(√) 8.(√) 9.(×) (四)名词解释1.统计调查:是指按照统计研究的目的和任务,运用科学的调查方法、有组织有计划地向客观现象收集统计资料的工作过程。2.原始资料:又称初级资料,它是未经任何加工整理的第一手资料,是总体各单位有关标志的变异、变量,收集反映总体各单位的个别特征和属性的数据。3.次级资料:又称二手资料,它是由原始资料过渡过来、已经过加工整理的资料。4.统计报表制度:指由政府主管部门以统计表格形式和行政手段自上而下布置,而后由企、事业单位根据一定的原始记录和核算数据、按照规定的报送时间和程序自下而上层层汇总上报统计资料的组织形式。5.抽样调查:是从总体中抽取部分单位组成样本,对样本指标进行测定并据此对总体数量特征进行估计或做出判断。6.随机抽样:是按照随机原则从总体中抽样。所谓随机原则是根据概率的基本原理,使得总体中每一个单位都有同等被选中的机会,也称为机会均等原则。因而,总体所包括的每一个单位都有被抽中的可能性,使样本单位在总体中的分布保持均匀性,从而保证了样本的代表性。7.简单随机抽样:也称纯随机抽样,是指对总体不进行任何处理的情况下,所进行的等概率抽样。8.分层抽样:也可以称为类型抽样,即根据一些相同的特征,把总体中的N个单位分成不同的层,尽量使每一层各单位更具有相似性,层与层之间具有差异性,接着在每一层中都采用简单随机抽样,最后把每层的简单随机样本合并起来。9.整群抽样:又称聚类抽样。是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本,然后对选中的单位进行全面调查的一种抽样方式。10.方便抽样:也叫便利抽样或任意抽樣,是指调查人员本着随意性原则去选择样本的抽样方式。根据方便为原则进行抽选。11.判断抽样:又称为典型抽样或立意抽样,由调查人员的主观经验,按照一定的标准在总体中选择若干有代表性的单位组成样本进行调查。12.定额抽样:也称“配额抽样”,根据一定的身份配额抽选受访者进行调查。13.滚雪球抽样:是一种针对稀疏总体进行的抽样方法,抽选时,先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象,然后通过这些受访者找到更多符合条件的受访者,逐步外推,直至达到要求的样本数。14.统计误差:统计调查所得到的资料与现象总体在某一方面的数量特征的现实必定会存在一定的差距,这种差距称之数据收集误差,又称统计调查误差简称统计误差。15.登记性误差:它是在调查登记过程中产生的误差,这种误差在全面调查或非全面调查中都有可能发生。146\n16.代表性误差:这种误差只有在抽样调查中才有可能发生,是指根据样本去推断总体时所产生的误差。17.系统性误差:是进行抽样调查时违反了随机原则所造成的误差,所以又称随机误差。18.抽样误差:是由于用样本来推断总体时的偶然性因素所造成的误差。(五)简答题1.统计调查属于认识的感性阶段,是认识的起点。所以数据收集是整个统计工作的基础环节,以后阶段的资料整理、计算汇总和分析研究都在它的基础上进行。因此,统计调查工作的好坏、所取得的资料质量的好坏,将直接影响以后各阶段工作的好坏、影响整个统计工作成果的成败。2.(1)准确性,是指各项原始资料必须真实可靠、符合客观实际。原始资料只有真实可靠,才能对问题作出正确的判断,得出科学的结论。(2)完整性,是指各项原始资料全面、系统,能够尽最大的可能反映事物的全貌和全过程。原始资料是否全面,一般包括以下几个方面:是否包括全部调查单位,是否包括全部应登记的标志以及是否全部问题都有答案。(3)及时性,是指必须在调查规定的时间内完成调查任务、上报调查资料。由于统计是对现象的事后计量,必须抓紧时间、充分利用资料的时效性。3.全面调查是对被调查的对象所包括的单位无一遗漏的全部进行调查,目的是要取得总体的全面、系统、完整的数据资料。各种普查,如人口普查、工业普查和全国耕地面积普查等都是全面调查。非全面调查是对被调查的对象所包括的部分单位所进行的调查。例如,要了解全国或某一个地区的职工家庭生活状况,选择其中一部分有代表性的单位进行调查。4.(1)直接观察法,由调查员直接到调查现场进行盘点或计量的方法,如农产量抽样调查、牲畜头数调查等。(2)采访法,由调查员面对被调查人员提问,通过被调查人员对问题的直接回答来收集数据的方法。(3)试验法,由调研人员改变一些因素或变量,用以观察由此所引起其他因素或变量的变化的方法。(4)问卷法,是调查人员通过某种途径把统一设计的问卷分发给被调查人员、由被调查人员按表中的项目如实填报,然后由调查人员在规定的时间内收回的一种调查方法。(5)报告法,是被调查单位以各种原始记录和核算单据为依据,通过定期按规定填写报表的方法向上级有关部门提供统计资料的方法。5.(1)指标的内容和报表的报送时间由国家主管部门统一规定,报表由上至下发放,由填报单位按规定填报后再由下至上层层上报,各填报单位必须严格执行,以保证资料的时效性,便于国家计划部门制定计划、检查计划的执行情况提供依据;(2)报表中所有指标的含义、计算口径和方法也由国家主管部门统一设计和颁布,以便资料的汇总和综合,以保证资料的统一性和相对的稳定性、时间上的连续性,便于积累资料、形成时间序列,为国家决策机构和科研部门提供长期经济分析所需要的依据;(3)报表的数据应以原始记录为基础,以保证资料的可靠性。6.随机抽样是现代推断统计的核心。作为一种非全面调查、它最显著的特点也是其他非全面调查所不具备的优点是:以概率论阐明的有关分布规律为依据,可以推断总体、并具有一定的可靠性和精确度,对抽样误差可以事先加以控制。随机抽样适用于一些不可能进行全面调查,或虽可能取得全面资料,但不必进行全面调查的情况,也可用于全面调查的资料的验证和修正。146\n7.(1)分层抽样要求各层之间的差异很大,层内个体或单元差异小,而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大;(2)分层抽样的样本是从每个层内抽取若干单元或个体构成,而整群抽样则是要么整群抽取,要么整群不被抽取。8.任意抽样的基本理论依据是,认为被调查总体的每个单位都是相同的,因此把谁选为样本进行调查,其调查结果都是一样的。而事实上并非所有调查总体中的每一个单位都是一样的。只有在调查总体中各个单位大致相同的情况下,才适宜应用任意抽样法。任意抽样的优缺点:任意抽样技术简便易行,可以及时取得所需的数据,节约时间和费用。这种方法适用于探测性调查,或调查前的准备工作。一般在调查总体中每一个体都是同质时,才能采用此类方法。但是,实践中并非所有总体中每一个体都是相同的,所以抽样结果偏差较大,可信程度较低,它的样本没有足够的代表性。9.定额抽样的优点:适用于设计调查者对总体的有关特征具有一定的了解而样本数较多的情况下,实际上,定额抽样属于先“分层”(事先确定每层的样本量)再“判断”(在每层中以判断抽样的方法选取抽样个体);费用不高,易于实施,能满足总体比例的要求。定额抽样的缺点:容易掩盖不可忽略的偏差。10.(1)首先要确定调查目的,明确统计调查需要解决的具体问题,收集什么资料、采取怎样的手段或方式方法来收集资料。(2)确定调查对象就是要明确规定被调查总体的调查范围。确定调查单位的同时、还要确定填报单位。填报单位就是向上级提交报表或调查表的单位。(3)调查提纲是所要进行调查的具体内容,包括调查单位所要登记的标志和项目。(4)调查时间有两个含义,一是指调查资料所属的时间。二是整个调查工作的起止时间,包括收集资料和报送资料所经历的时间。(5)调查的组织计划是从组织上保证调查工作顺利进行的依据,其主要内容包括:调查的组织机构;参加调查的单位和人员;调查的方式方法;调查的时间和地点;调查前的准备工作,如调查的宣传、调查员的培训、调查的文件和经费预算等。对于规模大而又缺乏经验的调查,在正式调查前需要进行试点调查,这就需要明确试点调查的各项细节。以上五个方面是统计调查方案的主要内容,但调查方案应根据实际情况予以调整,不能教条主义、流于形式,一般可通过试点来进行纠正,使之更趋完善;也可在实际调查中进行检验,及时加以修改和补充,以保证调查顺利进行。146\n第三章统计数据处理一、学习目的和要求(一)了解统计数据的含义及其层次尺度;(二)了解统计数据处理的概念和内容;(三)掌握统计数据分组的方法;(四)掌握频数分布的制作方法。(五)掌握一些最基本的统计表和统计图的制作方法。二、内容提要(一)统计数据的含义及分类统计数据,简称数据,是变量(包括定性和定量变量)的取值,也就是说统计数据是对所研究对象的属性和特征的具体描述,包括定性变量的文字描述和定量变量的数字描述。调查取得的统计数据按其时空形态可分为三种形式:时间序列数据、截面数据及面板数据。数据按其内在性质可分为定性数据和定量数据。测定数据层次类型应遵循以下两个原则:互斥原则和穷尽原则。统计数据的尺度可划分为四个层次:定类尺度、定序尺度、定距尺度以及定比尺度。统计数据可划分为:定类数据、定序数据、定局数据以及定比数据。统计数据质量是一个具有丰富内涵的综合性概念。具体来说,它包括统计数据的内容质量、表述质量及约束标准这三大方面。(二)统计数据处理的概念和内容统计数据处理,是根据统计研究的目的和要求,对统计调查所得到的资料进行审核、分组、汇总,使之系统化、条理化,形成能反映总体综合特征的数据资料的工作过程。统计整理的资料包括原始资料和次级资料两个方面。统计数据处理一般包括以下几方面的内容:(1)审核和检查原始资料(2)修正统计数据的调查误差(3)编制统计数据处理方案(4)处理次级资料。(三)统计数据分组统计数据分组,是一种在定性基础上的定量分析方法,它是根据研究的目的和要求,将调查到的统计数据按其不同的变量、依据四种数据层次的划分尺度把总体划分为若干个部分的方法。146\n在统计研究中,统计分组的作用有:(1)划分社会经济现象的类型(2)揭示社会经济现象总体的内部结构(3)揭示社会现象之间的依存关系。正确选择分组变量的原则有:(1)必须根据统计研究的目的与任务来选择分组变量(2)选择能反映现象本质和主要特征的变量(3)结合历史条件、地点条件和具体的情况来选择分组变量。统计分组有多种类型,归纳起来有以下几种:(1)按分组变量的性质不同,可以分为定性变量分组和定量变量分组(2)按选择分组变量的个数不同分简单分组、复合分组和分组体系。为了便于国际间的统计对比,联合国统计委员会和有关国际组织颁布制定了各种标准分类。这些分类称作国际标准分类。(四)频数分布把总体按某一变量分组,列出该变量所表现的数据在各组出现的次数、所形成的数列叫做分配数列或分布数列。通过分配数列可以说明总体各单位在各组的分配情况,所以分配数列又叫做次数分布。被分配在各组的单位“次数”在统计上被称做“频数(frequency)”,因此次数分布也可以叫做频数分布。按分组变量的性质不同,频数分布可分为定性变量分布(或品质分布)和定量变量数列(变量分布)。由于定量变量有离散型变量和连续型变量之分,因而,按分组变量的不同又分为单项数列和组距数列。(五)统计表与统计图把经过分组、汇总的数字资料按一定的顺序在表格上反映出来,这种表格叫做统计表。从形式上看,统计表是一张由纵横交叉的直线、左右两边不封口所组成的表格。从内容上看,统计表由四部分组成:总标题、横行标目、纵栏标目以及数字资料。统计图是展示数据特征的另一种形式。常用的统计图主要有两大类,一类是反映数据总体的分布状况的图形,如表示定性分布状况的柱形图。用于描述频数、频率分布的直方图,分布折线图或多边形图,分布曲线图。另一类是反映两个变量之间关系的统计图:散点图、折线图和曲线图。三、课后习题答案(一)填空题1.排序2.组距数列3.显示统计数据4.数字资料5.U(二)单选题146\n1.C2.D3.A4.A5.D6.D(三)多选题1.AD2.CDE3.BCE4.ABCDE5.AB(四)判断题1.√2.√3.√4.×5.√(五)简答题1.从统计活动的过程来看,统计数据处理是整个统计工作过程的第三阶段。因为统计调查所得到的原始资料是分散的、凌乱的、不系统的,无法利用各种统计方法对其直接进行分析,必须对之进行汇总、分组、整理,然后才能进行下一步的统计分析。所以,统计数据处理是统计调查的继续,也是统计分析的前提。它承前启后,是统计工作的重要环节,在整个统计活动过程中具有十分重要的意义。统计数据处理的质量,不仅直接关系到调查资料能否发挥其应有的作用,而且也直接影响到统计分析能否得出正确的结论。统计数据处理一般包括以下几方面的内容:(1)审核和检查原始资料(2)修正统计数据的调查误差(3)编制统计数据处理方案(4)处理次级资料。2.需先分组,然后计算各组数据出现的次数,即可获得该数据集合的次数分组。3.统计数据处理的方法有统计数据的汇总、分组、编制频数分布和制作统计图表等,但统计数据分组是其中的核心。4.分组与频数。5.(1)必须根据统计研究的目的与任务来选择分组变量(2)选择能反映现象本质和主要特征的变量(3)结合历史条件、地点条件和具体的情况来选择分组变量。四、课外习题 (一)单项选择题 1.统计分组的关键问题是()A确定分组标志和划分各组界限B确定组距和组数C确定组距和组中值D确定全距和组距2.要准确地反映异距数列的实际分布情况,必须采用()A次数B累计频率C频率D次数密度3.按品质标志分组,分组界限的确定有时会发生困难,这是由于()A组数较多B标志变异不明显C两种性质变异间存在过渡形态D分组有粗有细4.某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为()A260B215C230D1855.已知一个数列最后一组的下限为900,其相邻的组中值为850,则最后一组的上限为()A1100B1000C900D800146\n6.已知一个数列最后一组的下限为900,其相邻的组中值为850,则最后一组的组中值分别为()A900B1000C950D8007.下列分组中按品质标志分组的是()A人口按年龄分组B产品按质量优劣分组C企业按固定资产原值分组D乡镇按工业产值分组8.对企业先按经济类型分组,再按企业规模分组,这样的分组,属于()A简单分组B平行分组C复合分组D再分组9.用组中值代表各组内的一般水平的假定条件是()A各组的次数均相等B各组的组距均相等C各组的变量值均相等D各组次数在本组内呈均匀分布10.对统计总体按两个及以上标志分组后形成的统计表叫()A简单表B简单分组表C复合分组表D汇总表11.对某地区的全部商业企业按实现的销售额多少进行分组,这种分组属于()A变量分组B属性分组C分组体系D复合分组12.在频数分布中,频率是指()A各组频数之比B各组频率之比C各组频数与总频数之比D各组频数与各组次数之比13.频数分布用来表明()A总体单位在各组的分布状况B各组变量值构成情况C各组标志值分布情况D各组变量值的变动程度14.在分组时,若有某单位的变量值正好等于相邻组的下限时,一般应将其归在()A上限所在组B下限所在组C任意一组均可D另设新组15.在编制组距数列时,当全距不变的情况下,组距与组数的关系是()A正例关系B反比例关系C乘积关系D毫无关系16.统计表的宾词是用来说明总体特征的()A标志B总体单位C统计指标D统计对象17.统计表的主词是统计表所要说明的对象,一般排在统计表的()A左方B上端中部C右方D下方18.用组中值与次数求坐标点连接而成的统计图是()A直方图B条形图C曲线图D折线图19.按字母的顺序或笔画数的多少顺序排序的统计数据一般是()A、定类型数据B定距数据C定比数据D定序数据20.多指标的图示方法是()A直方图B条形图C环行图D雷达图 (二)多项选择题 1.统计分组的作用在于()A区分现象的类型B反映现象总体的内部结构变化C比较现象间的一般水平D分析现象的变化关系E研究现象之间数量的依存关系2.指出下表表示的分布数列所属的类型()按劳动生产率分组(件/人)职工人数(人)146\n50——6060——7070——8080——10010202617总和73A品质数列B变量数列C分组数列D组距数列E等距数列3.指出下列分组哪些是属性分组()A人口按性别分组B企业按产值多少分组C家庭按收入水平分组D在业人口按文化程度分组E宾馆按星级分组4.对统计数据准确性审核的方法有()A计算检查,B逻辑检查C时间检查D调查检查E平衡检查5.统计数据的预处理,包括()A数据分类B数据筛选C数据审核D数据订正E数据排序6.从形式上看,统计表由哪些部分构成()A总标题B主词C纵栏标题D横行标题E宾词7.统计数据的审核主要是审核数据的()A准确性B及时性C完整性D科学性E代表性8.统计数据整理的内容一般有()A对原始数据进行预处理B对统计数据进行分组C对统计数据进行汇总D对统计数据进行分析E编制统计表、绘制统计图9.国民经济中常用的统计分组有()A经济成分分组B登记注册类型分组C国民经济行业分类D三次产业分类E机构部门分类10.某单位100名职工按工资额分为300以下、300-400、400-600、600-800、800以上等五个组。这一分组()A是等距分组B分组标志是连续型变量C末组组中值为800D相邻的组限是重叠的E某职工工资600元,应计在"600-800"元组内11.变量数列中频率应满足的条件是()A各组频率大于1B各组频率大于0C各组频率之和等于1D各组频率之和小于1E各组频率之和大于0(三)判断题 1.统计数据整理就是对原始资料的整理()。2.能够对统计总体进行分组,是由统计总体中各个单位所具有的差异性特点决定的()。3.统计分组的关键是正确选择分组标志和划分各组的界限()。4.简单分组涉及总体的某一个标志,复合分组则涉及总体两个以上标志,因此,将两个简单分组排列起来,就是复合分组()。5.单项式频数分布的组数等于变量所包含的变量值的种数()。6.凡是分组表都是次数分布表()。146\n7.次数密度表示单位组距上分布的次数()。8.异距数列是各组组距不都相等的组距数列()。9.统计表的主词是说明总体的各种指标()。10.品质分布数列是一种单项数列()。11.在组距相等的条件下,次数分布和次数密度的分布是一致的()。12.统计表是表达统计数据整理结果的唯一形式()。13.年代都是以数字表示的,所以按年代排列各种指标属于按数量标志分组()。14.统计数据的整理就是对统计报表数据的整理()。15.圆形图是以圆的面积或圆内各扇形的面积来表示数值大小或总体内部结构的一种图形()。16.绘制圆形结构图的关键是正确计算各扇形的面积()。(四)名词解释1.统计数据2.数据处理3.时间序列数据4.截面数据5.面板数据6.虚拟变量7.定类数据8.定序数据9.定距数据10.定比数据11.定性数据12.定量数据13.分组14.组限15.频数16.组距17.开口组18.闭口组19.频数分布20.统计表21.统计图(五)简答题1.简述统计数据的分类。2.简述测定数据层次类型应遵循的原则。3.简述四类层次测定数据之间的描述功能的关系与区别。4.简述统计数据的内容质量的主要特征。5.统计数据的表述质量有哪些。6.统计数据的约束标准有哪些。7.遗漏数据的处理方法有哪些。8.简述统计数据处理方案的内容。9.统计数据分组有哪些作用。10.常见的统计图有哪些并举例。五、课外习题参考答案 (一)单项选择题1.(A) 2.(D) 3.(C) 4.(C) 5.(B) 6.(C) 7.(B) 8.(C) 9.(D) 10.(C)11.(A) 12.(C) 13.(A) 14.(B) 15.(B) 16.(C) 17.(A) 18.(D) 19.(A) 20.(D) (二)多项选择题146\n1.(A)(B)(E)2.(B)(C)(D)3.(A)(D) 4.(A)(B) 5.(A)(C)(D)6.(A)(C)(D)7.(A)(B)(C)8.(A(B)(C)(E) 9.(A)(B)(C)(D)(E)10.(B)(D)(E) 11.(B)(C)(三)判断题1.(×) 2.(√) 3.(√) 4.(×) 5.(√)6.(×) 7.(√) 8.(√) 9.(×) 10.(×)11.(√) 12.(×) 13.(×) 14.(×) 15.(√) 16.(√) (四)名词解释1.统计数据:统计数据(statisticaldata)简称数据(data),是变量(包括定性和定量变量)的取值,也就是说统计数据是对所研究对象的属性和特征的具体描述,包括定性变量的文字描述和定量变量的数字描述。2.数据处理:是根据统计研究的目的和要求,对统计调查所得到的资料进行审核、分组、汇总,使之系统化、条理化,形成能反映总体综合特征的数据资料的工作过程。3.时间序列数据:按时间顺序排列的数据称时间序列数据(timeseriesdata),如GDP、失业、就业、货币供给、政府赤字等。4.截面数据:是指一个或多个变量在某一时点上的数据的集合。5.面板数据:是截面数据与时间序列数据综合起来的一种数据类型。它有时间序列和截面两个维度。6.虚拟变量:都是一些用文字表现的无量纲,如产品有合格、不合格之分,性别有男、女之分,季节分为春、夏、秋、冬等。7.定类数据:也称定名数据,表现为类别,但不区分顺序,是由定类尺度计量形成的,只对事物的某种属性和类别进行具体的定性描述。8.定序数据:也称序列数据,是对事物所具有的属性顺序进行描述,表现为类别,但有顺序,是按定序尺度测定的结果。9.定距数据:也称间距数据,是比定序数据的描述功能更好一些的定量数据,表现为数值,可进行加、减运算,是由定距尺度计量形成的。10.定比数据:也称比率数据,表现为数值,是由定比尺度计量形成的,是比定距数据更高一等的定量数据,它不仅可以进行加减运算,而且还可以作乘除运算。11.定性数据或品质数据:定类数据和定序数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性数据或品质数据。12.定量数据或数值型数据:定距数据和定比数据说明的是现象的数量特征,能够用数值来表现,因此统称为定量数据或数值型数据。13.统计数据分组:是一种在定性基础上的定量分析方法,它是根据研究的目的和要求,将调查到的统计数据按其不同的变量、依据四种数据层次的划分尺度把总体划分为若干个部分的方法。14.组限:组距数列各组的取值的界限称为组限,凡是各组变量取值的起点组限称为下限;反之,各组变量取值的终点则称为上限。146\n15.频数密度:是指频数与组距之比,以反映单位组距所出现的次数,即把各组的频数与其所在组的组距对比所得的商。16.开口组数列:是指数列中同时不显示第一组的下限和(或)最后一组的上限,即第一组只有上限而无下限、或者最后一组只有下限而无上限、或者两者皆无。17.闭口组数列:闭口组组距数列是指其第一组有下限、最后一组有上限的的组距数列,适用于数据不存在极端值的情况。18.频数分布或频率分布:把总体按某一变量分组,列出该变量所表现的数据在各组出现的次数、所形成的数列叫做分配数列或分布数列。通过分配数列可以说明统计数据在各组的分配情况,所以分配数列又叫做次数分布。被分配在各组的数据“次数”在统计上被称做“频数”,因此次数分布也可以叫做频数分布。19.统计表:是把经过分组、汇总的统计数据按一定的顺序列成的表格,包括统计调查表、原始记录表、统计台帐、统计综合表、统计计算与分析表等。20.统计图:是展示数据特征的另一种形式。常用的有:柱形图,直方图,折线图,曲线图,频数、频率分布图,散点图,饼图等。(五)简答题1.调查取得的统计数据按其时空形态可分为三种形式:(1)时间序列数据(2)截面数据(3)面板数据;数据按其内在性质又可分为定性数据和定量数据。2.测定数据层次类型应遵循以下两个原则:互斥原则:每一个数据只能划归到某一类型中,而不能既是这一类,又是那一类;穷尽原则:所有被观察的数据都可被归属到适当的类型中,没有一个数据无从归属。3.数据的层次运算特征举例1.定类数据计数分类产业分类2.定序数据计数排序分类排序企业等级3.定距数据计数排序加、减分类排序有基本的测量单位温度4.定比数据计数排序加、减乘、除分类排序有基本的测量单位有绝对零点商品零售额4.统计数据的内容质量是统计数据最基本的特征,它包括相关性、准确性与及时性。相关性是指统计机构所生产的数据是否正是用户感兴趣的统计数据。准确性指观测值或估计值与未知的真值之间的距离(接近程度),通常用统计误差来衡量。它是统计数据质量的基础和核心内容,及时性也是统计数据能否满足用户需求的重要特征。5.统计数据的表述质量包括可比性、可衔接性和可理解性。可比性是指同一项目的统计数据在时间上和空间上的可比程度。可衔接性是指同一统计机构内部不同统计调查项目之间、不同机构之间以及与国际组织之间统计数据的衔接程度。可理解性是指统计数据便于用户正确理解并使用的程度。6.统计数据的约束标准有可取得性和有效性。可取得性是指用户从统计部门取得统计数据的便利程度。有效性是指统计数据的利用所产生的效益要大于提供该数据的成本。7.146\n遗漏数据的处理较为复杂,一般可通过转嫁错误,采取分配或替代的方法增补。分配法是指根据前后或其他数据的启示来确定要增补的数值,因而这又称为确定法;替代法是指选择一个数据,它的大量特征与有遗漏或错误的数据具有共性,因此可从这个数据中转嫁有关遗漏的信息。所以替代法也称概率法。8.统计数据处理方案一般包括以下内容:1)拟订汇总的指标和汇总表,2)决定分组方法,3)选择汇总的方式4)确定资料审核的方法和内容。9.统计分组就是把总体内部具有某种共同特征和属性的数据归并在一起、形成一组,尽可能的缩小了组内数据在某一方面的差异,从而能明显地显示出组与组之间数据差异。鉴于统计分组的这个特点,在统计研究中,它有以下三个作用:1.划分社会经济现象的类型2.揭示社会经济现象总体的内部结构3.揭示社会经济现象之间的依存关系。10.统计图是展示数据特征的另一种形式。常用的统计图主要有两大类,一类是反映数据总体的分布状况的图形,如表示定性分布状况的柱形图。用于描述频数、频率分布的直方图,分布折线图或多边形图,分布曲线图。另一类是反映两个变量之间关系的统计图:散点图、折线图和曲线图。146\n第四章学习指导一、学习目的和要求(一)了解数据总量的定义及其分类;(二)了解数据相对量的概念及常用测度,掌握绝对数、相对数和平均数的计算方法和应用原则,能结合实际调查资料计算有关指标和进行初步的分析;(三)理解数据分布集中趋势的含义,学会测定集中趋势的指标和计算公式并能熟练运用;(四)掌握测定离散趋势的有关指标,深化对标准差的认识。(五)了解数据的形态测定方法:偏度与峰度。二、内容提要(一)数据总量描述数据总量,又称总量指标,是统计资料经过汇总整理的,反映一定时间、地点条件下,总体某一方面特征的规模、水平的数据总量,在数学上表现为有一定计量单位的绝对值。1.数据总量的分类。按数据反映总体的内容分为:总体单位总数和总体数据总值;按数据其反映总体的时间特征分为:时期总量和时点总量;按计量单位分实物总量、价值总量和劳动总量;按数据所表示的事物的性质与特点分为:流量和存量。2.数据总量的计算和运用。数据总量是通过全面调查登记,采用直接计数、点数或测量等方法,逐步计算汇总得出的。计算总量指标数值时,涉及一系列变量值或标志值的全部或部分相加。(二)数据相对量描述数据相对量,又称相对指标是把两个相互有联系的指标进行对比,以反映现象在某一方面的数量特征或属性的相对变化或对比关系的指标,形式上表现为相对数。数据相对量的计量单位有两种:无名数和名数。常用的数据相对量有:计划完成相对数、结构相对数、比例相对数、比较相对数、强度相对数和动态相对数。1.计划完成相对数。计划完成相对数也称计划完成百分数,它是将某一时期的实际完成数与同期计划数进行对比,一般用百分数表示。计算公式为:计划完成相对数(%)=(实际完成数÷同期计划数)×100%。146\n2.结构相对数。结构相对数是总体内部部分单位某一方面特征的数值与总体全部单位某一方面特征的数值之比,计量单位一般用百分数或系数表示。计算公式为:结构相对数=(总体中部分单位数值÷总体全部数值)×100%。3.比例相对数。比例相对数是比例相对数同一个总体的两个部分之间的对比,计量单位一般为系数、倍数或百分数。计算公式为:比例相对数=(总体部分数值÷总体另一部分数值)×100%。4.比较相对数。指同一指标在不同总体(不同空间范围),如不同国家、地区、对象单位间的对比,计量单位一般为系数、倍数或百分数。计算公式为:比较相对数=(某一总体某一数值÷另一总体同一数值)×100%。5.强度相对数。强度相对数指同一总体,两个性质不同但相互有联系的指标数据之比,反映现象的强度、密度以及普遍程度。计算公式为:强度相对数=(某一数值÷另一有联系的不同数值)×100%。6.动态相对数。动态相对数是将总体不同时期的同一类指标对比而计算出的数值,用于表明现象在时间上发展变动的程度。其公式为:动态相对数=(报告期数值÷基期数值)×100%。(三)数据分布集中趋势的特征描述集中趋势是描述数据分布的一个重要的特征数,指一组数据向某一中心值靠拢的程度,反映了一组数据的平均水平、中等水平和代表水平,显示了数据中心点的位置所在。数据分布集中趋势特征描述的测度就是寻找数据的代表值或中心值,常用来表示数据分布集中趋向的特征描述的测度有:算术平均数、几何平均数、中位数、众数等。其中,算术平均数、几何平均数属于高层次数据分布的集中趋势测度;中位数、众数属于低层数据分布的集中趋势测度。算术平均数、中位数、众数三者之间的关系为: 1.算术平均数。也叫均值,是全部数据的算术平均,是集中趋势的最主要测度值。主要适用于定距数据和定比数据,但不适用于定类数据和定序数据。 (1)简单平均数。对于未分组资料计算平均数,采用简单平均数计算公式: (2)加权平均数。对于经过分组的资料计算平均数,需采用加权平均数计算公式: 算术平均数具有两个重要数学性质:一是各变量值与其平均数的离差之和等于零,即:146\n;二是各变量值与其平均数的离差平方之和等于最小值,即:最小值。(3)几何平均数。是N个变量值乘积的N次方根,计算公式如下: (4)调和平均数。在计算平均数时,如果掌握基本公式的分子资料而不具备分母资料时,就需要使用调和平均数的形式进行计算: 调和平均数是算术平均数的变形,二者在本质上是一致的,唯一的区别是计算时使用了不同的数据。调和平均数适用于定比数据,不适用于定距数据。(5)平方平均数。平方平均数是2次方的广义平均数的表达式,也可称为2次幂平均数。计算公式为:2.众数。众数是一组数据中出现次数最多的变量值,用Mo表示。主要用于测度定类数据的集中趋势。由单项式数列确定众数比较简单,只需找出数列中次数出现最多的那个标志值就是众数。由组距式数列确定众数,是先根据出现次数确定众数所在组,然后利用下列公式计算众数的近似值: 从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高点所对应的数值即为众数。如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数。 3.中位数。中位数是一组数据按从小到大排序后,处于中间位置上的变量值,用Me表示。主要用于测度定序数据的集中趋势。 由未分组数据计算中位数时,先对数据进行排序,然后确定中位数的位置,其公式为:中位数位置=,最后确定中位数的具体数值。 由分组数据计算中位数时,先根据公式确定中位数所在的组,然后用下列公式计算中位数的近似值: 146\n 中位数是一个位置代表值,其数值大小不受极端数值影响,因此具有稳健性或耐抗性的特点。中位数的另一个特征是:各变量值与中位数的离差绝对值之和最小。 4.众数、中位数和算术平均数的比较 (1),数据是正态分布; (2),数据是左偏分布; (3),数据是右偏分布。(四)数据分布离散趋势的特征描述数据分布离散趋势的特征描述,是说明数据间的差异程度的指标,反映了所有数据偏离中心位置的差异程度。常用的数据分布离散趋势特征描述的测度有全距、平均差、标准差和离散系数。1.全距。全距是指整个数列中的最大值与最小值之差。计算公式为:R=最大值-最小值=。2.平均差。是各变量值与其均值离差绝对值的平均数,未分组数据计算公式为: 组距分组数据计算公式为: 平均差以均值为中心,反映了每个数据与均值的平均离差程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大。3.标准差与方差。方差是各变量值与其均值离差平方的平均数,是测度定距和定比数据离散程度的最主要方法。标准差是方差的平方根。未分组数据方差计算公式为: 组距分组数据方差计算公式为:146\n 样本方差与总体方差在计算上的区别是:总体方差的分母是总频数N,样本方差的分母是总频数减1,即n-1。4.离散系数。是消除数据水平高低影响后的纯粹反映数据间差异程度的相对指标,也即它既不受计量单位的影响,也不受数据水平高低的影响,因而便于对不同数据水平的离散程度进行比较。常用的离散系数有平均差系数和标准差系数,计算公式如下:平均差系数;标准差系数。(五)数据偏度和峰度的特征描述数据分布的偏度和峰度的特征描述,主要用于刻画数据分布的对称性,分布曲线的陡峭或平坦性特征。偏度,是指次数分布的非对称程度,分为右偏和左偏。通常可采用三阶中心矩偏度系数来测量次数分布的偏斜程度。三阶中心矩偏度系数是指三阶中心矩与之比。其计算公式为:。当,为对称分布;当,为左偏(或负偏);当,为右偏(或正偏)。峰度是衡量次数分布曲线顶峰的尖锐程度,与正态分布曲线相比较,次数分布曲线的峰度通常分为三种:常态峰度、尖顶峰度。和平顶峰度。测定峰度的测度是峰度系数,它是四阶中心矩与之比,计算公式为:。当时,次数分布曲线为正态曲线,即正态峰态;当时,次数分布曲线为平顶曲线,即低峰态;当时,次数分布曲线为尖顶曲线,即为高峰态;146\n当时,次数分布曲线为U性分布。三、课后习题答案(一)思考题1.数据总量(total),又称总量指标,是统计资料经过汇总整理的,反映一定时间、地点条件下,总体某一方面特征的规模、水平的总指标,在数学上表现为有一定计量单位的绝对值。分类:按数据反映总体的内容分为:总体单位总数和总体数据总值;按数据其反映总体的时间特征分为:时期总量和时点总量;按计量单位分实物总量、价值总量和劳动总量;按数据所表示的事物的性质与特点分为:流量和存量。计算数据总量时应注意的问题:数据总量的计算方法比较简单,但计算内容却相当复杂,涉及到一定历史条件下现象的规模和水平。因此,数据总量的计算并不是一个单纯技术性的加总问题,必须在正确规定数据总量所反映现象的概念、构成和计算范围的基础上,确定科学的计算方法,然后才能进行计算汇总,取得能真实反映现象的结果。2.数据相对量,又称相对指标,是把两个相互有联系的指标进行对比,以反映现象在某一方面的数量特征或属性的相对变化或对比关系的指标,形式上表现为相对数。数据相对量的计量单位有两种:无名数和有名数。常用的数据相对量测度有:计划完成相对数、结构相对数、比例相对数、比较相对数、强度相对数和动态相对数。计算数据相对量时必须注意:分子分母的可比性;同数据总量结合起来运用;要把各种数据相对量结合起来运用。3.时期总量有以下三个特点:(1)可加性,时间上相邻的时期总量相加能够得到另—更长时期的总量指标;(2)时期总量数值的大小与所属时期的长短直接相关。—般来讲,时期越长,时期总量数值就越大;(3)必须连续登记而得,时期总量数值的大小取决于整个时期内所有时间上的发展状况,只有连续登记得到的时期总量才会准确。时点总量具有以下三个特点:(1)不具有可加性,不同时点上的两个时点指标数值相加不具有实际意义;(2)数值大小与登记时间的间隔长短无关,时点指标仅仅反映社会经济现象在一瞬间上的数量,每隔多长时间登记一次对它没有影响;(3)时点总量数值是间断计数的,没有必要进行连续登记,有的也是不可能连续进行登记的,如:家国的人口总数。4.数据分布集中趋势的特征描述是把数据间的绝对差异抽象化,采用截长补短的方法来表示数据的一般水平,反映数据分布的集中趋势特征。数据分布集中趋势常用测度有:算术平均数、几何平均数、中位数、众数等。146\n5.算术平均数、几何平均数属于高层次数据分布的集中趋势测度;中位数、众数属于低层数据分布的集中趋势测度。数据层次类型适用的集中趋势描述值定类定序定距定比众数※众数众数众数中位数※中位数中位数四分位数四分位数算术平均数※算术平均数※几何平均数说明:※为该层次类型数据最适合用的分布集中趋势描述的测度6.在统计计算中,用来衡量总体中各单位标志值在总体中作用大小的数值叫权数。从理论上讲,权数决定指标的结构,如果权数变动,绝对指标值和平均数也变动,所以权数是影响指标数值变动的一个重要因素。权数的权衡轻重作用是体现在各组单位数占总体单位数的比重大小上,在计算平均数和指数上得到广泛的应用。7.算术平均数具有两个重要数学性质:一是各变量值与其平均数的离差之和等于零,即:;二是各变量值与其平均数的离差平方之和等于最小值,即:最小值。8.几何均值也称几何平均数,它是N个变量值乘积的N次方根。几何均值是适用于特殊数据的一种平均数,它主要用于计算比率或速度的平均。9.调和平均数又称倒数平均数,它是变量值倒数的算术平均数的倒数。是数学平均数之一,也是数据分布集中趋势特征主要的测度之一,属于高层次数据的集中趋势测度,适用于定距数据和定比数据,但不适用于定类数据和定序数据。10.以相同数据计算:调和平均数<几何平均数<算术平均数。11.众数是总体中出现次数量最多的数据,是数据分布集中趋势的描述的测度之一。众数的应用范围较广,是唯一能用于定类数据分布的集中趋势描述的测度。众数的计算:(1)定类数据计算众数;(2)定序数据计算众数;(3)定距和定比数据计算众数。12.中位数是将总体数据按大小顺序排列,处于中间位置的那个标志值,也是数据分布集中趋势的特征描述的测度之一。中位数的特点是把整个经过顺序的数据分为相等的两个部分,一半数据比它小,而另一半数据比它大。146\n确定中位数的方法一般是先确定中点位次,然后再找出中点位次所对应的那个标志值。具体计算方法则视资料而定。根据数据是否分组,中位数的计算有:(1)由未分组资料计算中位数;(2)由分组资料计算中位数。13.算术平均数、众数、中位数都是都是描述数据分布集中趋势的特征值,但它们之间既有联系也有区别。(1)算术平均数包含的信息最多、最丰富,当分布比较规则,不存在极端值时,算术平均数描述集中趋势最合适。但算术平均数易受极端值的影响,而众数和中位数则不受极端值的影响;(2)根据算术平均数、众数、中位数三者的数量关系可判别次数分布的具体形态。当时,表示数据完全对称;当时,数据存在极小值,影响了算术平均数,因而分布显示左偏;当时,数据存在极大值,影响了算术平均数,因而分布显示右偏。(3)根据黄金分割的原理,三者之间的数量关系的为:众数到中位数的距离两倍于中位数到算术平均数的距离,即:。据此,可由其中已知的两个推算出第三者,三者之间推算关系如下:。(4)算术平均数适用于定距数据或定比数据;中位数适用于定序数据;众数适用于定性数据。14.数据分布离散趋势的特征描述,是说明数据间的差异程度的指标,反映了所有数据偏离中心位置的差异程度。常用的数据分布离散趋势特征描述的测度有全距、平均差、标准差和离散系数。15.为了消除不同组别变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。16.数据分布的偏度是指次数分布的非对称程度,分为右偏和左偏。通常可采用三阶中心矩偏度系数来测量次数分布的偏斜程度。三阶中心矩偏度系数是指三阶中心矩与之比。其计算公式为:。当,为对称分布;当,为左偏(或负偏);当,为右偏(或正偏)。17.数据分布的峰度是衡量次数分布曲线顶峰的尖锐程度,与正态分布曲线相比较,次数分布曲线的峰度通常分为三种:常态峰度、尖顶峰度。和平顶峰度。146\n测定峰度的测度是峰度系数,它是四阶中心矩与之比,计算公式为:。当时,次数分布曲线为正态曲线,即正态峰态;当时,次数分布曲线为平顶曲线,即低峰态;当时,次数分布曲线为尖顶曲线,即为高峰态;当时,次数分布曲线为U性分布。(二)计算题1.(1)恩格尔系数、生活费收入、住房、汽车、出版图书、大学生属于数据相对量中强度相对数;城乡储蓄属于数据总量中的时点总量。(2)均属于数据总量。(3)金融机构总资产每年递增24.4%属于数据相对量中的动态相对数,其余为数据总量。2.2011年2010年实际完成(亿元)2011年比2010年增长(%)实际完成(亿元)比重(%)国内生产总值100.0466其中第一产业1254.2第二产业21843.6第三产业15731.41467.53.略。4.(1)水平法计划完成相对数=(484/400)×100%=121%(2)第四年1月份计划执行进度=(25/400)×100%=6.25%第四年2月份计划执行进度=(27/400)×100%=6.75%第四年3~12月份计划执行进度分别为:6%,6.5%,7.25%,7.5%,7.75%,8%,8.5%,7.75%,8.75%,8.75%。(3)第四年第5月到第五年的第4月连续12个月的产量达到400万台,所以提前完成的时间为8个月。5.结构相对数:市区土地面积占总体(587.4/2020)×100=29.1%,郊区70.9%;市区年平均人口(741.3/1275.5)×100%=58.1%,郊区41.2%;比较相对数:市区与郊区土地面积之比(587.4/1432.6)×100%=41%市区与郊区年平均人口之比(741.3/534.2)×100%=138.8%强度相对数:市区人口密度(741.3/587.4)=126.2(万人/平方公里)郊区人口密度(534.2/1432.6)=37.3(万人/平方公里)146\n6.当年产值的计划完成相对数单位成本计划完成相对数7.(1)甲、乙、丙三个企业的计划产量分别为:甲:100/120%=83.3万件;乙:150/110%=136.4万件;丙:250/80%=312.5万件所以,该公司产量计划完成百分比为: (2)实际优质品率: 8.(1)平均等级: 二季度比一季度平均等级下降0.28级。 (2)由于质量下降而带来的损失: 所以,由于产品质量下降而损失148330元。9. 146\n所以,乙菜场比甲菜场平均价格高0.16元,理由是销售量结构变动影响。10.成绩(分)组中值人数(人)xf40-5050-6060-7070-8080-9090-1004555657585955782014622538552015001190570793.55330.1566.753.35139.95476.553967.742311.04533.9966.981959.282859.29合 计-604390-9205.06(分) (分) 或17%11.日产量(只)工人数(人)X35-4545-5555-6565-75 10 20 15 54050607016901807351445-21970-540 5145 24565285610162036015417605合 计 50-40507200740850(只) (只)计算结果表明,正偏分布146\n计算结果表明,其分布曲线为平顶曲线12.算术均值:调和均值:几何均值:可见,。四、课外习题 (一)单项选择题 1.由组距数列确定众数时,如果众数组相邻两组的次数相等,则( ) A.众数为零 B.众数组的组中值就是众数 C.众数不能确定 D.众数组的组限就是众数 2.受极端数值影响最小的集中趋势测度是( ) A.算术平均数 B.调和平均数 C.几何平均数 D.众数和中位数 3.人口数与出生人数相比,( ) A.前者是时期总量,而后者是时点总量 B.前者是时点总量,而后者是时期总量 C.两者都是时点总量 D.两者都是时期总量 4.影响平均数大小的因素有( ) A.变量 B.变量值 C.变量的个数 D.数量标志 5.平均数是将总体内各单位数量差异( ) A.抽象化 B.具体化 C.一般化 D.形象化 6.已知某班学生的平均年龄为17.8岁,其中18岁的人数最多,则该分布属于( ) A.正偏 B.左偏 C.右偏 D.正态 7.加权平均数中的权数为( ) A.变量值 B.次数的总和146\n C.变量值的总和 D.次数比重 8.标准差系数抽象了( ) A.总体单位数多少的影响 B.标志变异程度的影响 C.总体指标数值大小的影响 D.均值高低的影响 9.某车间三个班生产同种产品,6月份劳动生产率分别为2、3、4(件/工日),产量分别为400、500、600件,则该车间平均劳动生产率计算式应为( ) A. B. C. D. 10.某公司2001年管理人员年均收入35000元,生产人员为25000元;2002年各类人员年均收入水平不变,但管理人员增加15%,生产人员增加25%,则两类人员平均的年收入2002年比2001年( ) A.提高 B.下降 C.持平 D.无法判断 11.某企业5月份计划要求成本降低3%,实际降低5%,则计划完成程度为( ) A.97.94% B.166.67% C.101.94% D.1.94% 12.离散程度的测度中,由总体中最大变量值和最小变量值之差决定的是( ) A.方差 B.标准差 C.平均差 D.极差 13.离散程度的测度值愈大,则( ) A.反映变量值愈分散,均值代表性愈差B.反映变量值愈集中,均值代表性愈差C.反映变量值愈分散,均值代表性愈好D.反映变量值愈集中,均值代表性愈好 14.已知甲数列的平均数为100,标准差为12.8;乙数列的平均数为14.5,标准差为3.7。由此可以断言( )A.甲数列平均数的代表性好于乙数列B.乙数列平均数的代表性好于甲数列C.两数列平均数的代表性相同D.两数列平均数的代表性无法比较 15.计算中位数公式中的Sm-1,其涵义表示( ) A.中位数所在组的频数 B.中位数所在组的累计频数 C.中位数所在组以前各组的累计频数 D.中位数所在组以后各组的累计频数 (二)多项选择题 1.加权平均数等于简单平均数的条件是( ) A.各组频数均相等 B.各组变量值不等 C.各组频数不等 D.数列为组距数列 E.各组频数都为1 2.加权平均数的大小受下列哪些因素的影响( ) A.各组变量值大小的影响 B.各组频数多少的影响146\n C.与各组变量值大小无关 D.与各组频数多少无关 E.各组变量值和频数共同影响 3.下列现象应采用调和平均数计算的有( ) A.已知各组工人月工资和相应的工资总额,求平均工资B.已知某企业各车间废品率和废品量,求平均废品率C.已知各车间计划完成百分比和计划产量,求平均计划完成百分比D.已知各车间工人劳动生产率和产品产量,求平均工人劳动生产率E.已知某企业各产品的产量和单位成本,求平均单位成本 4.平均数是( ) A.总体数量特征的代表值 B.只能根据同质总体计算 C.总体分布集中趋势的度量 D.总体分布离中趋势的度量 E.代表现象发展的一般水平 5.在计算加权平均数选择权数时,应该考虑的条件是( ) A.权数必须是单位数比重 B.权数可以是总体单位数 C.权数可以是单位数比重 D.权数必须是总体单位数 E.权数与变量值相乘具有经济意义 6.下列离散程度测度值中,用无名数表示的有( )A.极差 B.平均差 C.标准差D.平均差系数 E.标准差系数7.下列属于时期总量的有()A.职工人数 B.大学生毕业人数 C.储蓄存款余额D.折旧额 E.出生人数 8.将所有变量值都减去10,那么其( ) A.平均数不变 B.平均数也减去10 C.方差不变 D.标准差不变 E.标准差系数不变 9.位置平均数是指( ) A.算术平均数 B.调和平均数 C.几何平均数 D.众数 E.中位数 10.平均数的数学性质有( ) A. B. C. D. E. 11.众数是( )A.由变量值在数列中的位置决定的B.依据变量值出现的次数决定的 C.总体单位变量值的平均数D.总体的一般水平 E.与总体中的极端值无关 12.几何平均数的计算应满足的条件是( ) A.若干个比率的乘积等于总比率 B.相乘的各比率必须是正数 C.若干个比率之和等于总比率 D.相乘的各速度不能是负数 E.若干个速度相乘的结果是总速度 13.不同总体间的标准差不能简单进行比较,这是因为( )146\n A.平均数不一致 B.标准差不一致 C.总体单位数不一致 D.计量单位不一致 E.与平均数离差之和不一致 14.平均差的缺点是( ) A.最易受极端值的影响 B.不能反映数据的离散程度 C.在数学性质上不是最优的 D.未充分利用每个数据信息 E.数学处理中要考虑绝对值,计算中有许多不便 15.下列指标中不可能出现负值的有( ) A.众数 B.全距 C.标准差 D.平均差 E.几何平均数16.运用相对指标时应注意可比性原则,即应在( )方面保持一致。 A.指标涵义 B.包括的范围 C.计算方法 D.计量单位 E.时间跨度(三)判断题 1.根据组距式数列计算得到的均值只能是一个近似值。( ) 2.假定每一个变量值都扩大一倍,则扩大后的平均数与原平均数相等。( ) 3.对分组数据进行不同时期比较时,如果各组平均数都有不同程度的上升,则总的平均数一定也上升。( ) 4.众数的大小取决于众数组相邻组次数的多少。( ) 5.中位数是根据变量所处的中间位置来确定的,因此它不受变量数目多少和极端数值的影响。( ) 6.若已知甲数列的标准差小于乙数列,则可断言:甲数列平均数的代表性好于乙数列。( ) 7.根据同一组数据计算全距和平均差,前者大于后者。( ) 8.根据同一组数据计算的结果,若平均数大于众数,则次数分布曲线向左偏斜。( ) 9.集中趋势是指一组数据向其最大值靠拢的倾向,测度集中趋势也就是寻找数据的最大值。( ) 10.如果数据的分布没有明显的集中趋势或最高峰点,众数可能不存在。( ) 11.平均数受各组变量值大小和各组权数大小的影响。( ) 12.若A、B、C三个公司的利润计划完成程度分别为95%、100%和105%,则这三个公司平均的利润计划完成程度应为100%。( ) 13.调和平均数与算术平均数在本质上是一致的,只是计算形式不同而已。当计算平均数缺少基本公式的分子资料时可用调和平均数来解决。( ) 14.某投资者连续三年股票投资收益率分别为4%、2%和5%,则该投资者三年内平均收益率为3.66%。( ) 15.平均差是利用绝对值来消除离差的正负号的,所以它更适合于代数运算。( ) 16.离散系数最适合于不同性质或不同水平数列均值代表性的比较。( ) 17.当α=0时,表明数据分布属于对称分布。( )(四)名词解释146\n1.总体数据总量2.实物总量3.计划完成相对数4.强度相对数5.加权平均数6.众数7.平均差8.标准差9.矩10.峰度系数(五)简答题1.统计数据分布的特征,可以从哪三个方面进行测度和描述?2.如何用水平法和累积法计算计划执行进度?3.什么是比例相对数?计算公式是什么?4.算术平均数与强度相对数的区别?5.如何用组距数列计算众数?6.离散系数的作用? (六)计算题 1.某车间工人日生产零件分组资料如下:零件分组(个)工人数(人)40-5050-6060-7070-8080-902040805010 合 计 200要求(1)计算零件的众数、中位数和平均数; (2)说明该数列的分布特征。2.某酒店到三个农贸市场买草鱼,每公斤的单价分别为:9元、9.4元、10元,若各买3公斤、4公斤、5公斤,则平均价格为多少?若分别购买100元、150元、200元则平均价格又为多少? 3.某公司所属三个企业的有关资料如下:企 业计划额(万元)实际额(万元)计划完成程度(%)甲乙丙280360432420104120合计要求:填列表中所缺数字。4.某公司所属三个企业的有关资料如下:(1)企业销售利润率(%)销售额(万元)146\n甲乙丙101213150010003000要求:计算三个企业的平均利润率。(2)企业销售利润率(%)利润额(万元)甲乙丙101213150240390要求:计算三个企业的平均利润率。5.(1)某企业某种产品需经过4个车间的流水作业才能完成,如果第一车间的产品合格率为90%,第二车间的产品合格率为97%,第三车间的产品合格率为95%,第四车间的产品合格率为98%,求平均合格率;(2)某种产品的生产需经过10道工序的流水作业,有2道工序的合格率都为90%,有3道工序的合格率为92%,有4道工序的合格率为94%,有1道工序的合格率为98%,试计算平均合格率。 6.有两个生产小组,都有5个工人,某天的日产量件数如下:甲组:810111315,乙组:1012141516要求:计算各组的算术平均数、全距、平均差、标准差和标准差系数,并说明哪个组的平均数更具有代表性。7.某地区有下列资料:人均月收入(元)户数(人)400以下400~500500~600600~700700~800800~900900以上501004502001006040合计1000要求:(1)计算算术平均数、众数、中位数;(2)计算偏度系数并予以解释。五、课外习题参考答案 (一)单项选择题1.(B) 2.(D) 3.(B) 4.(B) 5.(A)146\n 6.(B) 7.(D) 8.(D) 9.(D) 10.(B) 11.(A) 12.(D) 13.(A) 14.(A) 15.(C) (二)多项选择题1.(A)(E)2.(A)(B)(E)3.(A)(B)(D) 4.(A)(B)(C)(E) 5.(B)(C)(E)6.(D)(E)7.(B)(D)(E)8.(B)(C)(D)9.(D)(E)10.(B)(C)(D)(E) 11.(B)(D)(E)12.(A)(B)(D)(E) 13.(A)(D)14.(C)(E) 15.(B)(C)(D)(E)16.(A)(B)(C)(D)(E)(三)判断题1.(√) 2.(×) 3.(×) 4.(√) 5.(×)6.(×) 7.(√) 8.(×) 9.(×) 10.(√)11.(√) 12.(×) 13.(×) 14.(√) 15.(×) 16.(√) 17.(√) (四)名词解释1.总体数据总量是指所有总体所包含的具体数据的总和,由总体所有数据汇总求和所得的结果,用以反映总体在某一方面的数量特征在一定的时间、地点条件达到的总水平。2.实物总量是根据事物的外部特征或物理属性,从使用价值的角度反映数据总量的指标,以自然单位、度量衡、复合单位、物理量和标准实物单位为计量单位的。3.计划完成相对数也称计划完成百分数,它是将某一时期反映总体某一方面数量特征的指标的实际完成数与同期计划数对比,以反映计划任务的执行情况,计量单位一般是百分数。4.强度相对数是指同一总体,两个性质不同但相互有联系的指标数据之比,反映现象的强度、密度以及普遍程度。5.加权平均数,式中,表示变量X的不同取值;表示相应Xn的权重,表示变量X的不同取值所起的作用不尽相同,需对各变量X的不同取值赋以不同的权重以表示其重要程度。6.众数是总体中出现次数量最多的数据,是数据分布集中趋势的描述的测度之一。7.平均差是指各标志值与其平均数离差的绝对值的算术平均数。8.标准差是各标志值与其平均数离差平方的平均数的平方根。9.矩表示各变量值与某一给定值的离差的平均数,它有原点矩和中心矩之分。10.峰度系数反映峰度的测度,是四阶中心矩与之比。146\n(五)简答题1.统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映所有数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的偏度和峰度,反映数据分布的形状。2.考核计划执行进度情况的方法也分为水平法和累计法两种,其计算公式分别为:水平法:累计法:3.比例相对数同一个总体的两个部分之间的对比,计量单位一般为系数、倍数或百分数,计算公式为:。4.(1)概念不同,算术平均数是总体数据总量和总体单位总数这两个绝对数之比,分子中的每一个数据都由分母的每一个总体单位来承担,反映总体数据的一般水平;而强度相对数是两个性质不同而有联系的数据总量之比。(2)作用不同,强度相对数反映现象的密度、强度和普遍程度;算术平均数反映同一现象总体的一般水平。(3)分子分母的依存关系不同,算术平均数的分子与分母间存在直接的依存关系。强度相对指标的分子、分母之间无依存关系。5.根据组距数列计算众数的步骤为:首先,根据分组数据确定众数所在组的位置,简称为众数组;然后,假定众数组内各标志值的次数成等差变化(而实际情况并不一定如此),最后,众数所在组的次数与其前后组次数的比例关系,建立近似计算公式。众数所在组的次数与其前后组次数的比例关系近似计算公式有两种:下限公式:,式中:为众数符号,为众数组的下限,为众数组次数与上一组次数之差,为众数组次数与下一组次数之差,为众数组的组距。上限公式:,式中:为众数组的上限,其他符号同下限公式。6.离散系数的作用主要用于比较不同总体或样本的离散程度,离散系数越大,说明均值的代表性越差,离散系数越小,说明均值的代表性越好。146\n (六)计算题 1.解,依题意建立计算表如下:零件分组(个)工人数(人)组中值x标志总量xf累计频数S40-5050-6060-7070-8080-90204080501045556575859002200520037508502060140190200合 计200-12900- 因为,所以,该数据分布属于左偏分布。 2.(元/公斤)(元/公斤)3.解,依题意建立计算表如下:企 业计划额(万元)实际额(万元)计划完成程度(%)甲乙丙280360350291.2432420104120120合计9901143.2115.47 4.(1) (2)146\n 5.(1)该产品总的合格率等于各车间合格率之积,故四个车间的平均合格率为: (2) 6.乙组日产量差异程度小,其平均数更有代表性。7.(1)解,依题意建立计算表如下:人均收入(元)组中值户数400以下400~500500~600600~700700~800800~900900以上350450550650750850950501004502001006040-254-154-544614624634632258002371600131220042320021316003630960478860-819353200-36522640019467200311213600893216160156869440合计-1000-178840001625328000146\n(2)(元)或计算结果说明,该地区人均月收入为正偏分配。146\n第五章概率论基础一、学习目的和要求(一)复习概率论基础知识,重点把握二项分布,正态分布,为后续各章作准备。(二)了解χ2分布、t分布、F分布与自由度的概念。二、内容提要(一)随机试验和随机事件随机试验,是指为了研究随机现象而对客观事物进行观察的过程,它具有下列三个特性:1.可在相同的条件下重复进行;2.每次试验的结果具有多种可能性,并且试验所有可能的结果是事先已知的;3.每次试验之前,不能肯定将会出现哪个结果。随机事件,是指随机试验中每一个可能结果,简称为事件。1.设有事件与,若事件发生,则事件必发生,称事件包含事件,记作。2.若事件包含事件,且事件也包含事件,则称事件与相等,记作。3.两个事件和中,至少有一个发生,即发生或发生,称为事件与B的和(或并),记作或。4.事件发生而事件不发生,称为事件与事件的差,记作。5.两个事件与同时发生,即“且”,称为事件与的积(或交),记作。6.如果事件与不能同时发生,即,称事件与互不相容(或称互斥)。显然,基本事件间是互斥(mutuallyexclusive)的。7.若事件与两者中必有一个发生且仅有一个发生,则称与B为互相对立(或互逆)事件。此时满足条件及。146\n(二)概率1.概率的统计定义在同一条件下重复进行次试验,当试验次数充分大时,事件发生的频率为(随试验次数而变化)趋向于某一数值或稳定地在值附近波动(0≤≤1),则定义为事体发生的概率,记作2.条件概率在事件已经发生的情况下,定义事件同时发生的概率3.独立事件如果,那么与相互独立。此时4.全概率公式设事件是样本空间的一个分割,即,且。从而,这里也两两互不相容,则全概率公式如下5.贝叶斯公式146\n设事件是样本空间的一个分割,即,且。则贝叶斯公式如下(三)随机变量随机变量,是对随机试验结果的数量描述,其取值有一个范围,在此范围内究竟取何值是不确定的,但取某个值或某些值却有相应的确定概率(变化规律性)。随机变量一般用等表示。1.离散型随机变量(Discreterandomvariable):所有可能取值只能是有限个或无穷可列个的随机变量。2.连续型随机变量(Continuousrandomvariable):所有可能取值是连续的随机变量。分布函数,设是随机变量,则函数称为随机变量的概率分布函数(Probabilitydistributionfunction)。数字特征1.数学期望(1),是离散型随机变量。(2),是连续型随机变量。2.方差3.协方差4.相关系数(四)常见随机变量的分布146\n1.二项分布在重伯努利试验中,设每次试验成功的概率为,则成功次数X的概率分布为此时,称X服从参数为的二项分布,记为~。2.正态分布设为连续型随机变量,它的概率密度函数为则称服从参数为和的正态分布,记~。(五)大数定律和中心极限定理1.设n次独立试验中,事件A发生的次数为m,事件A在每次试验中发生的概率为p,则对于任意正数e,有2.设随机变量X1,X2相互独立,且服从同一分布,它们的数学期望E(Xk)=m,方差D(Xk)=s2,(k=1,2,……)则对任意正数e,有:式中3.设X1,X2,…,Xn是具有相同分布且相互独立的一列随机变量,则当n®+¥时,对任意X有146\n其中.4.设是服从参数为()的两点分布的随机变量序列,即~,则对任意,有5.设随机变量相互独立,它们具有数学期望和方差,,则三、课后习题答案(一)思考题1.随机事件:随机试验中每一个可能的试验结果;基本事件:随机事件中不能分解为其它事件组合的事件;互不相容事件:设A和B分别表示两个随机事件,如果,则称事件A和事件B互不相容;对立事件:设A和B分别表示两个随机事件,如果A和B满足且,则称事件A和事件B互为对立事件;2.常见的离散型分布有二项分布、二点分布、泊松分布等。二项分布随机变量X的分布表()X0123P二点分布随机变量X的分布表()X01P0.40.6泊松分布随机变量X的分布表()146\nX0123…P3.离散型随机变量的均值和方差的计算公式分别如下,其中。第四章中整体分布的算术平均数和方差的计算分别是上述均值和方差计算的一种特殊情况,即。(二)计算题1、设A={产品为正品},B={产品经过检查为正品},则由题意知,,.从而2.(1)由题意可知所以(2)由(1)的结论可知,X服从参数的指数分布,所以它的概率密度函数为(3)由(1)的结论可知,从而(4)由(1)的结论可知,从而146\n3.(1)由题意可知,(2)设分别表示第1、2、3和4日的销售量,则即同理,运用全概率公式可以得到4.设(=1)表示随机事件{t时刻计算机中第i个终端在使用中},(=0)表示随机事件{t时刻计算机中第i个终端不在使用中},(i=1,2…150),随机变量表示t时刻计算机中运行的终端个数,则由题意可知服从和的二点分布,且服从。从而由定理4可知146\n第六章抽样分布一、学习目的和要求1.掌握抽样分布的一些基本概念。2.掌握与正态分布有关的几个重要的抽样分布以及均值、方差等几个重要统计量的分布。二、内容提要(一)抽样与抽样分布的基本概念总体和个体:通常把所要调查研究的事物或现象的全体称为总体。组成总体的每个元素称为个体,一个总体中所含的个体的数量称为总体容量。样本、样本容量与样本个数:从总体所抽取的部分个体称为样本,样本中所含个体的数量称为样本容量。从总体中可能抽取或可能构成的样本的数目称为样本个数。参数与统计量:参数是总体的数量特征,对于某个总体来说,其参数是定值。统计量是样本的数量特征,它的值是随着样本的不同而变化的,因此是个随机变量。常用的统计量有以下几种:设是从总体中抽取的一个样本,则称:(1)统计量为样本均值;(2)统计量为样本方差;(3)统计量为样本标准差;(4)统计量为样本k阶原点矩;(5)统计量为样本k阶中心矩;抽样与抽样分布:为了推断总体的某些重要特征,需要从总体中按一定抽样技术抽取若干个体,将这一抽取过程称为抽样。每个随机变量都有其概率分布,样本统计量的概率分布即抽样分布。(二)抽样方法146\n(一)抽样框与抽样单元包含所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。(二)放回与不放回抽样从总体中随机抽取样本有两种方法:放回与不放回抽样。1.放回抽样是从总体中随机抽取一个单位后,观察后再把它放回总体,然后抽取下一各单位。2.不放回抽样是从总体中随机抽取一个单位后,观察后不再把它放回总体。(三)抽样按顺序与不按顺序组成样本1.抽样按顺序组成样本抽样按顺序组成样本是指,抽取的样本单位按编码顺序(排列)组成样本。2.抽样不按顺序组成样本抽样不按顺序组成样本是指,抽取的样本单位不按编码顺序(组合)组成样本。(三)常见的抽样分布1.设是来自于标准正态分布的样本,即,令统计量,称随机变量服从自由度为的的分布,记为:。的密度函数为:2.设,,且与相互独立,令统计量146\n称服从自由度为n的t分布,记为,则的密度函数为:3.设,,且与相互独立。令统计量:称服从自由度为的分布,记为~,的密度函数为:(四)常见的抽样分布1.样本均值的抽样分布(1)设是来自于正态总体的样本,是样本均值,是总体方差,则(2)设是个相互独立的正态随机变量,且~则~(3)设~,则~(4)设是来自于正态总体的样本,是样本均值,是样本方差,则有:。146\n(1)方差均已知设总体,,且与相互独立,与分别为来自总体与的样本,,与,分别是其样本均值和样本方差,则(2)方差未知但相等,即时,其中(3)两个正态总体样本方差之比的抽样分布2.正态总体样本方差的抽样分布(1)一个正态总体样本方差的抽样分布设是来自于正态总体的简单随机样本,是样本均值,样本方差,则有,(2)二个正态总体样本方差之比的抽样分布设总体,,与独立;为取自总体的一个样本,为取自总体的一个样本。令:146\n则,3.样本比率的抽样分布(1)一个总体样本比率抽样分布定义设为取自总体的一个样本(若总体容量有限,则采用“有放回”的抽样;若总体容量充分大或无限大,也可采用“不放回”抽样)。则:(2)两个总体样本比率之差的抽样分布定义设,,且与相互独立;为取自两个总体的样本比率,则4.近似分布棣莫佛-拉普拉斯定理:若是次伯努利实验中事件A出现的次数,,则对任意有限区间,(1)当及时,一致地有(2)当时,一致地有146\n,其中林德伯格-列维定理定理表述一:设是相互独立的随机变量,。当充分大时,则:定理表述二:当是独立同分布时,,则当充分大时,有:,从而,即:其中,Φ(z)是标准正态分布的分布函数。三、课后题答案(一)思考题1.从总体中随机抽取的一部分单位的集合便称为总体的一个样本。简单随机样本必须具备的两个条件是每一个个体都与总体同分布,且相互独立。2.包含所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。3.抽样方法有随机抽样和非随即抽样。其中随机抽样包括简单随机抽样、分层抽样、系统抽样、整群抽样。非随机抽样可分为方便抽样、判断抽样、定额抽样和滚雪球抽样。随机抽样是按照随机原则从总体中抽样,使得总体中每一个单位都有同等被选中的机会,也称为机会均等原则。因而,总体所包括的每一个单位都有被抽中的可能性,使样本单位在总体中的分布保持均匀性,从而保证了样本的代表性。随机抽样适用于一些不可能进行全面调查,或虽可能取得全面资料,但不必进行全面调查的情况,也可用于全面调查的资料的验证和修正。非随机抽样又称非机率抽样法,是不按照随机原则来抽取样本中的单位。4.146\n参数是总体随机变量概率分布的特征数。统计量是样本的数量特征,它是个随机变量,随着样本的变化而发生变化。统计量一方面表示样本本身的分布状况和特征,另一方面也是总体参数的估计量,是一个不包含任何未知参数的随机样本函数。常用的统计量有以下几种:(1)样本均值;(2)样本方差;(3)样本标准差;(4)样本k阶原点矩;(5)样本k阶中心矩。5.从总体中随机抽样得到样本,获得样本观察值后可以计算一些统计量,统计量的概率分布称为抽样分布。6.与正态分布有关的重要的抽样分布有分布、t分布、F分布。分布有以下特点:分布的可加性;分布的数学期望和方差。对任意给定的,称满足条件的的为分布的上分位点。t分布有如下特点:曲线关于纵轴对称,顶部低于正态分布,而尾部高于正态分布。当n充分大的时候,t分布近似于。通常当时,用正态分布来近似,有;但对于较小的n,t分布与相差较大。对任意给定的,称满足条件的的为t分布的上分位点。对任意给定的,称满足条件的的为分布的上分位点。7.一、样本均值的抽样分布(一)正态总体,方差已知条件下的样本均值的抽样分布设是来自于正态总体的样本,是样本均值,是总体方差,则(二)正态总体、方差未知条件下的样本均值的抽样分布设是来自于正态总体的样本,是样本均值,是样本方差,则有:。(三)两个正态总体样本均值之差的抽样分布1.方差均已知。设总体,,且与相互独立,与分别为来自总体与的样本,,与,146\n分别是其样本均值和样本方差,则2.方差未知但相等,即时,其中(四)两个正态总体样本方差之比的抽样分布二、样本比率的抽样分布(一)一个总体样本比率抽样分布设为取自总体的一个样本。则:(二)两个总体样本比率之差的抽样分布设,,且与相互独立;为取自两个总体的样本比率,则(二)填空题1.总体样本总体容量2.抽样3.概率抽样非概率抽样4.样本均值5.随机原则(三)证明与推导题1.设是总体的一个样本,其中已知而未知,则以下的函数中哪些为统计量?为什么?(1);是146\n(2);是(3);是(4);是(5);不是(6);是(7);不是理由参考统计量定义。2.解:;3.解:4.证明:记(未知),易见,由于和相互独立,可见,从而146\n由正态总体样本方差的性质,知由于与独立、与以及与独立,可见与独立。于是,由服从分布的随机变量的结构,知。5.证:因为,则,其中,,那么,由于,则,因此有,即6.解:7.解:因为,则,,于是,,即,146\n由分布的定义可知,整理得8.解:(1)由于样本方差,则(2)因为,则,则9.设服从,。当时,服从分布,自由度是多少?见第3题解答四、课外习题(一)单项选择题1.设为来自的一个样本,为样本均值,记则服从自由度的分布的随机变量是()。146\n2.设是经验分布函数,基于来自总体的样本,而是总体的分布函数,则下列命题错误的为,对于每个给定的,()。A.是分布函数;B.依概率收敛于;C.是一个统计量;D.其数学期望是。3.设总体服从0-1分布,是来自总体的样本,是样本均值,则下列各选项中的量不是统计量的是()。A.;B.;C.;D..4.设为来自的一个样本,其中μ已知而未知,则下列各选项中的量不是统计量的是()。5.设为来自的一个样本,其中μ已知而未知,则下列各选项中的量不是统计量的是()。6.设和分别来自两个正态总体和的样本,且相互独立,分别为两个样本的样本方差,则服从的统计量是()。146\n7.设为来自的一个样本,和分别为样本均值和样本方差,则下面结论不成立的有()。A.和相互独立;B.和相互独立;C.和相互独立;D.和相互独立。8.设为来自的一个样本,和分别为样本均值和样本方差,则服从自由度为的-分布的随机变量是()。9.设为来自的一个样本,,则=()。10.设为来自的一个样本,和分别为样本均值和样本方差,则()(二)多项选择题1.设是从某总体中抽取的一个样本,下面哪些不是统计量?()146\n2.抽样分布是指?()A.一个样本各观测值的分布B.统计量的概率分布C.样本的分布D.样本数量的分布3.从均值为μ、方差为(有限)的任意一个总体中抽取大小为n的样本,则()A.当充分大时,样本均值的分布近似服从正态分布B.只有当时,样本均值的分布近似服从正态分布C.样本均值的分布与有关D.无论多大,样本均值的分布都为非正态分布4.下面是次序统计量的是()A.中位数B.均值C.四分位数D.方差5.假定某学校学生的年龄分布的均值为23岁,标准差为3岁。如果随机抽取100名学生,下列关于样本均值抽样分布描述正确的是()A.抽样分布的标准差等于3B.抽样分布服从卡方分布C.抽样分布的均值近似为23D.抽样分布为t分布(三)判断题1.全国第五次人口普查中全国人口数是统计总体。 ( )2.放回抽样是从总体中随机抽取一个单位后,观察后再把它放回总体,然后抽取下一各单位。( )146\n3.抽样按顺序组成样本是指,抽取的样本单位按编码顺序(排列)组成样本。( )4.设是来自于正态总体的样本,是样本均值,是样本方差,则有:。( )5.设~,则~。( )(四)填空题1.设来自总体X的一个样本观察值为:2.1,5.4,3.2,9.8,3.5,则样本均值=,样本方差=。2.设随机变量独立同分布,且,令,则__________.3.设是总体的样本,是样本均值,则当__________时,有.4.设是来自0–1分布:的样本,则__________,__________,__________.5.设总体为来自的一个样本,则_________,__________.6.设总体为的一个样本,则________,__________.7.设总体为来自的一个样本,设,则当_________时,146\n8.设是从正态总体中抽取的样本,则样本均值的标准差为。9.设为来自泊松分布的一个样本,分别为样本均值和样本方差。则=,=,=。10.设随机变量相互独立,均服从分布且与分别是来自总体的简单随机样本,则统计量服从参数为的分布。 (五)简答题1.某地电视台想了解某电视栏目在该地区的收视率情况,于是委托一家市场咨询公司进行一次电话访查。(1)该项研究的总体是什么?(2)该项研究的样本是什么?2.为了了解统计学专业本科毕业生的就业情况,我们调查了某地区50名2008年毕业的统计学专业本科生实习期满后的月薪情况。(1)什么是总体?(2)什么是样本?(3)样本量是多少?3.某厂生产的电容器的使用寿命服从指数分布,为了了解其平均寿命,从中抽出件产品测其实际使用寿命,试说明什么是总体,什么是样本,并指出样本的分布。4.设有N个产品,其中有M个次品。进行放回抽样。定义求样本的联合分布。5.设是取自总体的一个样本。在下列三种情况下,分别写出的联合概率函数6.设为来自几何分布146\n的样本,是给出的一个充分统计量。7.设为来自的一个样本。(1)在已知时给出的一个充分统计量;(2)在已知时给出的一个充分统计量。8.设为来自均匀总体的样本,试给出参数的一个充分统计量。(六)计算及证明题1.在总体中随机地抽取一个容量为36的样本,求样本均值落在50.8与53.8之间的概率。2.设是取自总体的一个样本,为样本均值。求(1);(2)。3.求总体的容量分别为10,15的两独立样本均值差的绝对值大于0.3的概率。4.设为的一个样本,求5.设总体是来自X的样本。(1)求分布律;(2)求分布律;(3)求。6.设总体X~,是来自X的样本,求。7.设在总体X~N()中抽取一容量为16的样本,这里均为未知,(1)求,其中为样本方差;(2)求.8.设为来自的一个样本,其样本均值为,求统计量的数学期望9146\n.设从两个方差相等的正态总体中分布抽取容量为15,20的样本,其样本方差分别为,试求。10.设是独立同分布的随机变量,且都服从试证:11.设是取自正态总体的一个样本,试证:五、课外习题参考答案(一)单项选择题BABCDBDADC(二)多项选择题1.CD2.BC3.AC4.AC5.AC(三)判断题1.×2.√3.√4.×5.×(四)填空题1.4.89.232.解:设为总体的样本,则为样本方差,于是,即3.解:4.解:146\n5.解:6.解:7.解:,且独立8.9.10.解:由相互独立,均服从分布,又与分别来自总体,可知与之间均相互独立,均服从分布因而,,,,且与相互独立,因而服从参数为的分布。 (五)简答题1.解:(1)该项研究的总体是该地区全体电视观众;(2)该项研究的样本是该地区被访问的电视观众。146\n2.解:(1)总体是该地区2008年毕业的统计学专业本科生实习期满后的月薪;(2)样本是被调查的50名2008年毕业的统计学专业本科生实习期满后的月薪;(3)样本量为50。3.解:总体是该厂生产的电容器的使用寿命,或者可以说总体是指数分布;样本是该厂被抽出的个电容器的使用寿命;若记被抽出的第个电容器的使用寿命为,则,样本的联合分布为。4.解:总体的分布列为,因此样本的联合分布为5.解:(1)的联合概率函数为(2)的联合概率函数为(3)的联合概率函数为6.7.(1);(2)8.(六)计算及证明题1.解:由于,146\n故所以。于是可得2.解(1)(2)3.解设容量分别为10,15的两独立样本的均值分别为,则,从而146\n4.解由于的一个样本,故于是故即由即5.解(1)X的分布律为相互独立,于是的分布律为:(2)由有有b(n,p)其分布律为(3)146\n=6.解总体,由此得7.解(1)设为总体X一个样本,则从而=上式0.01的由及反查出:(2)由有,即故8.解:146\n9.解:不妨设正态总体的方差为,则有,于是。因此所求概率为10.证明:(1)因为独立同服从分布,所以是相互独立的标准正态变量,于是有。(2)因为独立同服从分布,所以,即,于是有11.证明:(1)由题设知相互独立都服从正态总体,所以相互独立都服从标准正态分布,则,,且它们相互独立。于是有(2)由(1)知,,,且它们相互独立。所以146\n第七章参数估计一、学习目的和要求(一)了解点估计的概念,掌握几种常用的点估计求法,并理解估计量的评价准则;(二)掌握不同条件下的均值、方差等几个重要统计量的区间估计方法;(三)学会根据估计总体均值和比率确定样本容量。二、内容提要(一)点估计1.点估计的基本概念点估计:选择一个最适当的样本统计量,作为某个总体参数的估计值。2.常用点估计的方法:数字特征法、顺序统计量法、矩估计、最大似然估计和最小二乘估计。矩估计是通过让真实矩等于样本矩,得到个方程,解这个方程组成的方程组,就可以得矩估计量;最大似然估计是在样本值已知的情况下,如何使取到这一样本观察值的概率比较大;最小二乘估计是样本的观察值与总体期望的偏差不是很大,即使得下列平方和最小。3.估计量的评价准则:无偏性、有效性、一致性。(1)无偏性。估计量的数学期望等于总体参数的真值,即,则该估计量称为无偏估计量。(2)有效性。若有E(1)=q,E(2)=q,且Var(1)30,所以仍可以认为样本均值的分布服从正态分布=352s=207n=100设定1-a=0.9545查正态分布表=2于是存款户平均每户的存款余额所在范围为:=[352-2×,352+2×]=[310.6,393.4](2)n=100×58%=58>5n=100×42%>5所以样本成数的分布近似服从正态分布已知=58%1-a=95.45%查正态分布表=2所以余额在30000元以上的户数所占比重所在范围为;=[0.58-2×,0.58+2×]=[48.13%,67.87%]10.解1:P0=14.7%,n=400,Ps=57/400=0.1425,nPs=57>5,n(1-Ps)=400×(1-0.1425)343>5,则近似服从正态分布。146\n又因为,α=0.05,Z0.025=1.96,=0.1425-1.96×(0.1425×(1-0.1425))^0.514.7%在(0.108243,0.176757)的范围内,所以,支持该市老龄化率为14.7%的看法。解2:Ho:P=0.147;H1:P=/0.147检验统计量Z=0.257460.147检验统计量Z=0.257460)未知,为一相应的样本值。求的最大似然估计值。6.设总体具有分布律123其中参数未知。已知取得样本值,试求的最大似然估计值。7.设总体,,未知,已知,和分别是总体和的样本,设两样本独立。试求最大似然估计量。8.已知是来自均值为的指数分布总体的样本,其中未知。设有估计量,,。(1)指出中哪几个是的无偏估计量。(2)在上述的无偏估计量中哪一个较为有效?9.以X表示某一工厂制造的某种器件的寿命(以小时计),设146\n,今取得一容量为的样本,测得其样本均值为,求(1)的置信水平为0.95的置信区间,(2)的置信水平为0.90的置信区间。10.一农场种植生产果冻的葡萄,以下数据是从30车葡萄中采样测得的糖含量(以某种单位计)16.0,15.2,12.0,16.9,14.4,16.3,15.6,12.9,15.3,15.115.8,15.5,12.5,14.5,14.9,15.1,16.0,12.5,14.3,15.415.4,13.0,12.6,14.9,15.1,15.3,12.4,17.2,14.7,14.8设样本来自正态总体,均未知。(1)求的无偏估计值。(2)求的置信水平为90%的置信区间。11.设X是春天捕到的某种鱼的长度(以cm计),设,均未知。下面是X的一个容量为13的样本:13.1,5.1,18.0,8.7,16.5,9.8,6.8,12.0,17.8,25.4,19.2,15.8,23.0(1)求的无偏估计;(2)求的置信水平为0.95的置信区间。12.为比较两个学校同一年级学生数学课程的成绩,随机地抽取学校A的9个学生,得分数的平均值为,方差为;随机地抽取学校B的15个学生,得分数的平均值为,方差为。设样本均来自正态总体且方差相等,参数均未知,两样本独立。求均值差的置信水平为0.95的置信区间。13.设以X,Y分别表示健康人与怀疑有病的人的血液中铬的含量(以10亿份中的份数计),设,,均未知。下面是分别来自X和Y的两个独立样本:X:15,23,12,18,9,28,11,10Y:25,20,35,15,40,16,10,22,18,32求的置信水平为0.95的单侧置信上限,以及的置信水平为0.95的单侧置信上限。14.为了解鸡肉三明治中脂肪的含量,抽取了20个样本得到的脂肪含量如下(单位:克)784516202024193023302519292930304056(1)计算总体鸡肉三明治中含有脂肪均值的95%置信区间。(2)为了进行(1)中的置信区间估计,还需要什么假设条件?(3)题目样本的数据满足(2)的假设条件吗?请说明理由。146\n五、课外习题参考答案(一)单项选择题1.B2.A3.D4.D5.C6.A7.C8.D9.C10.C二、多项选择题1.ABCD2.BCD3.BC4.BC5.ABC(三)判断题1.√2.×3.×4.×5.√(四)简答题1.参数估计是在一定概率保证下由样本统计量估计总体分布中包含的未知参数的方法。2.如果把取得的样本观测值按大小排列起来,那么与排列位置有关的统计量就称为顺序统计量。3.估计量的数学期望等于总体参数的真值,即,则该估计量称为无偏估计量.在众多无偏估计量中,称具有最小方差的估计量为最佳无偏估计量。4.区间估计是指在一定的概率保证下,由样本统计量为中心,构造一个关于总体参数的估计区间。5.估计量是用来估计总体参数的统计量的名称。6.1.不同的抽样方法和组织方式(在相同的条件小,放回抽样比不放回抽样的抽样平均误差大,所需要的样本容量也就不同,放回抽样需要更多的样本容量,而不放回抽样需要的样本容量可小一些);2.总体的差异程度的高低(总体方差的大小);3.现有的人力财力和时间因素。(五)计算题1.解:因为总体,所以总体矩。根据容量为9的样本得到的样本矩。令总体矩等于相应的样本矩:,得到的矩估计量为。把样本值代入得到的矩估计值为。2.解:总体的数学期望为,令可得的矩估计量为。3.解:(1)似然函数为,相应的对数似然函数为。146\n令对数似然函数对的一阶导数为零,得到的最大似然估计值为。(2)根据(1)中结论,的最大似然估计值为。4.解:(1)因为总体的数学期望为,所以矩估计量为。似然函数为,相应的对数似然函数为。令对数似然函数对的一阶导数为零,得到的最大似然估计值为。(2)根据(1)中结论,的最大似然估计值为。5.解:(1)似然函数为,相应的对数似然函数为。令对数似然函数对的一阶导数为零,得到的最大似然估计值为。(2)似然函数为,相应的对数似然函数为146\n。令对数似然函数对的一阶导数为零,得到的最大似然估计值为。6.解:根据题意,可写出似然函数为,相应的对数似然函数为。令对数似然函数对的一阶导数为零,得到的最大似然估计值为。7.解:根据题意,写出对应于总体和的似然函数分别为,,相应的对数似然函数为,,令对数似然函数分别对和的一阶导数为零,得到,算出最大似然估计量分别为,。8.解:(1)因为146\n,。所以,是的无偏估计量。(2)根据简单随机样本的独立同分布性质,可以计算出,所以,是比更有效的无偏估计量。9.解:这是一个方差已知的正态总体均值的区间估计问题。根据标准的结论,的置信水平为的置信区间为。(1)的置信水平为0.95的置信区间为。(2)的置信水平为0.90的置信区间为10.解:(1)的无偏估计值为,。(2)的置信水平为90%的置信区间为11.解:根据题中数据计算可得。(1)方差的无偏估计即为样本方差。(2)的置信水平为0.95的置信区间为146\n,所以的置信水平为0.95的置信区间为。12.解:根据两个正态总体均值差的区间估计的标准结论,均值差的置信水平为0.95的置信区间为。13.解:根据题中数据计算得到,。的置信水平为0.95的单侧置信上限为。的置信水平为0.95的单侧置信上限为,所以,的置信水平为0.95的单侧置信上限为。14.解:(1)小样本,总体方差未知,因此用t统计量来做区间估计:(2)假设总体服从正态分布(3)可以通过计算这组数据的峰度和偏度来判断,或者通过JB统计量来检验EXCEL的结果偏度为:0.6,峰度为4.4.因此可以认为改组数据不服从正态分布。146\n146\n第八章假设检验一、学习目的和要求(一)深刻理解假设检验的逻辑思想,能正确选择检验方法进行求解;(二)掌握方差分析的基本原理,进行方差分析;(三)了解非参数检验的概念与特点,掌握几种常用的非参数检验方法。二、内容提要(一)假设检验的基本原理假设检验:首先对总体参数提出某种假设,然后根据样本观测值来验证这个假设是否成立。假设检验可看作是参数估计逻辑思维的逆向研究,依据的是小概率原理。1.假设检验的基本思想和形式小概率原理是指在一次随机试验中,事件结果几乎不可能发生的概率。人们基于小概率事件在一次试验中几乎不可能发生,所形成的一种思维习惯,而付诸于对事件发生与否所做出的判断。原假设是指在假设检验中,需要进行检验的假设;备择假设是指与原假设对立统一的假设。确定原假设的原则:(1)当目的是希望从样本观察值取得对某一论断强有力的支持时,把这一结论的否定作为原假设;(2)把陈述事实的否定作为原假设;(3)把过去资料所提供的论断作为原假设。双侧检验的形式::,:左侧检验的形式::,:,或:;:。右侧检验的形式::,:,或:;:2.假设检验规则与两类错误确定检验规则。检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝;反之,差异不显著,接受。146\n两类错误:第一类错误,原假设实际为真,而检验结果却拒绝了它,即否定(本来可能正确),这种弃真错误称为第一类错误。犯第一类错误的概率称为弃真概率。弃真概率就是显著性水平。第二类错误,原假设实际不真,而检验结果却接受了它,即接受(本来可能错误),这种取伪错误称为第二类错误(typeIIerror),犯第二类错误的概率通常用表示。确定和平衡弃真概率和取伪概率的基本原则:力求在控制前提下减少。取伪概率的计算步骤为:(1)先求出拒绝的临界值;(2)计算在统.计量真实的抽样分布下达到临界值的概率。3.假设检验的一般步骤:(1)建立总体假设:原假设和备择假设;(2)选择一个合适的显著性水平,把犯第一类类错误的概率定下来,同时确定必要的样本容量和犯第二类类错误的概率;(3)抽样得到样本观察值,并构造统计量确定为真时的抽样分布,即选择一个合适的检验统计量;(4)在原假设成立的前提下,对给定显著性水平,从构造的统计量的概率分布表上查出相应分布的临界值,确定拒绝域和接收域;(5)计算检验统计量的数值;(6)把检验统计量的数值与相应分布的临界值进行对比,并作出检验判断。(二)一个总体的假设检验类型条件检验统计量拒绝域I正态总体已知(1)146\n(2)(3)II正态总体()未知(1)(2)(3)(三)关于两个总体的假设检验1.两个正态总体均值的比较类型条件检验统计量拒绝域I两个正态总体已知(1)(2)(3)II两个正态总体未知,但相等(1)(2)(3)2.两个正态总体方差的比较类型条件检验统计量拒绝域1.一个总体方差的检验总体服从正态分布(1)或146\n(2)(3)2.两个总体方差之比两个总体均服从正态分布(1)或(2)(3)3.两个正态总体比率的比较(1)双边检验1);2)统计量及分布:3)显著水平,查表求,则的显著水平为的拒绝域为:4)检验判断:若,则拒绝,接受;否则接受(2)单侧检验①.左侧检验1)3;2)统计量及分布:3)显著水平,查表求,则的显著水平为的拒绝域为:4)检验判断:若,则拒绝,接受;否则接受②右侧检验1);146\n2)统计量及分布:3)显著水平,查表求,则的显著水平为的拒绝域为:4)检验判断:若,则拒绝,接受;否则接受(四)方差分析1.方差分析是鉴别各因素效应的一种有效统计方法,它是通过实验观察某一种或多种因素的变化对实验结果是否带来显著影响,从而选取最优方案的一种统计方法。方差分析也是一种假设检验它是对全部样本观察值的差异进行分解,将某种因素下各组样本观察值之间可能存在的系统性误差与随机误差加以比较,据以推断各总体之间是否存在显著性差异,若存在显著性差异,也就说明该因素的影响是显著的。2.单因素方差分析用于完全随机设计的多个样本均数间的比较,其统计推断是估计各样本所代表的各总体均值是否相等。(五)非参数检验1.非参数检验的概念和特点非参数统计是对总体分布的具体形式不必作任何限制性假定和不以总体参数具体数值估计为目的的推断统计。这种统计主要用于对某种判断或假设进行检验,故亦称为非参数检验。非参数统计与参数统计相比,具有以下几个特点。1).非参数统计方法它既能适用于定性变量中的定类数据(如满意和不满意、好与坏、优良品和不良品、统计引例中用工作类型进行分组所形成的数据等)或定序数据(如对商品的爱好程度可分为甲、乙、丙、丁等不同的等级、统计引例中用对自我管理工作小组的态度进行分组所形成的数据),也能适用于定距数据和定比数据这种定量变量。2).非参数统计方法是一种经济而有效的方法。它往往容易理解,计算简便,有时完全不必考虑数据的排列顺序。3).非参数统计方法不需要像参数统计方法那样假定总体的分布是正态的,也不需要检验总体的参数,使得条件容易得到满足。2.检验146\n检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。拟合优度检验是利用样本信息对总体分布作出推断,检验总体是否服从某种理论分布如二项分布、均匀分布或正态分布等。3.独立性检验独立性检验:如果两个变量不存在交互影响,就称为独立,所以这类检验也称为独立性检验。与拟合优度检验相比,独立性检验的特点在于其理论频数不是预先确定的,而需要从样本资料中获得。具体步骤为:1)确定原假设与备择假设,独立性检验的原假设和备择假设如下:H0:这两个变量是独立的(即它们之间不存在联系)H1:这两个变量是不独立的(即它们之间存在着某种联系)2)从要研究的总体中,随机抽取一批观察值作为样本,并将观察值整理成r×c列联表,r为一个变量的分类组数,c为另一个变量的分类组数,然后列出实际观察频数f0ij,简记为Oij。3)计算期望的理论频数feij,简记为Eij。4)独立性检验的统计量变化为:其自由度(df)=(r-1)(c-1)。5)在确定的显著性水平下,若检验统计量大于临界值,拒绝原假设。4.成对比较检验(1)符号检验,也称正负号检验,是常用的比较简单的一种非参数统计方法,其基本思想是分析正负号出现的频率而忽略具体量的差异,以确定他们是否有显著差异的一种检验方法。特点:1).对于总体分布和方差等都不作限制性假设;2).只考虑差数的正负方向而不计具体数值;3).忽略数值差别,因而会失去在某些情况下可资利用的信息。符号检验的步骤为:1).确定配对样本,分别计算差异正与负的数目,无差异则记为0,将它从样本中剔除,并相应地减少样本容量n,把正负号数目之和视为样本总个数;2).建立假设,H0:p=0.5;H1:p≠0.5;3).观察样本容量,如果n≤25,则作为二项分布处理,如果n>25,则作为正态近似处理。在第5章中,曾指出一般n≤30作为小样本处理,n>30,才用正态近似处理。但p=0.5的二项分布呈对称型,所以,只要n>25,即可按正态分布近似处理;4).设定显著性水平α,并查表确定临界值,进行比较和作出判断。(2)威尔科克森带符号的等级检验146\n威尔科克森带符号等级检验的步骤为:1).计算带有正负号的差数;2).将差数取绝对值按从小到大顺序排列并编上等级,即确定顺序号1、2、3等。对于相等的值,则取其位序的平均数为等级;3).给每个等级恢复差数原来的正负号,分别将正负号的等级相加,用T+和T-表示。当n≤25时,取T+、T-中之较小的T值(因为威尔科克森带符号等级检验T值的临界值表只给出了较小的临界值,);当n>25时,T近似服从正态分布,其均值和标准差分别为和,所以可取检验统计量:4).确定带正号或负号差数值的总个数n;5).设定显著性水平α;6).当n≤25时,从威尔科克森带符号等级检验T值的临界值表查出Tα的临界值,当观察值T≤临界值Tα时,就拒绝H0;当T>Tα时,接受H0。当n>25时,按标准正态分布的Z检验规则进行检验。5.曼—惠特尼U检验(1)曼—惠特尼U检验又称“曼-惠特尼秩和检验”,是由H.B.Mann和D.R.Whitney于1947年提出的。分析方法的思路与威尔科克森带符号等级检验基本一致,这种方法通常称为秩和检验、或等级和检验。不同之处在于,威尔科克森带符号等级检验适用于两组关联样本的数据,而曼—惠特尼U检验适用于来自两个独立样本的数据;(2)小样本U检验;(3)大样本U检验6.游程检验(1)游程和游程检验的概念游程检验又称序贯检验,常用于检验样本的随机性。游程是指具有相同性质的数据序列,例如将两个随机样本的观察值x1,x2,…,xn和y1,y2,…,yn混和起来,按从小到大的次序排列起来,形成类似xxyyxyxxxxyyy的序列。(2)游程检验的基本原理和步骤。游程检验可分为两种情况:一是如果两个样本来自两个不同的总体,可以采取混合有序样本的方法,根据实际游程个数,检验样本是否是从这两个总体中随机抽取的;二是如果样本观察值来自同一总体,可以先将观察值按从小到大顺序排列,然后按中位数(或平均值)将观察值分为大于或小于中位数两部分,再根据上、下两部分相互交错所形成的游程个数来检验样本的随机性。7.等级相关检验。等级相关系数rs的计算公式为:146\n三、课后习题(一)思考题1.假设检验首先对总体参数提出某种假设,然后根据样本观测值来验证这个假设是否成立。所以,假设检验是参数估计的逆向研究。2.参数估计和假设检验的相同点:(1)都是根据样本信息对总体进行推断;
(2)都是以抽样分布为依据;
(3)都是建立在概率基础上;
(4)两者可以相互转换接受原假设,则置信区间中必包含总体平均数;
如果构造的置信区间包含总体平均数,则接受原假设。参数估计和假设检验的不同点:(1)参数估计是根据样本统计量估计总体参数,假设检验是根据样本统计量来检验对总体参数的假设是否成立;
(2)参数估计(区间估计)通常求得的是置信区间,而假设检验不仅有双侧检验,还有单侧检验;
(3)参数估计立足于大概率(1-α),假设检验立足于小概率α。3.小概率是指在一次随机试验中,事件结果几乎不可能发生的概率。人们基于小概率事件在一次试验中几乎不可能发生,所形成的一种思维习惯,而付诸于对事件发生与否所做出的判断,称为小概率原理。4.在实际问题中,原假设和备择假设的建立,需要考虑事实发生逻辑顺序,一般来说,在没有显著改变的情况下,对于保持原状或现有标准的假设,通常可被选为原假设;而与现状或现有标准不符合的假设,通常可被选为备择假设。
确定原假设的原则:(1)当目的是希望从样本观察值取得对某一论断强有力的支持时,把这一结论的否定作为原假设;(2)把陈述事实的否定作为原假设;(3)把过去资料所提供的论断作为原假设。5.假设检验的步骤:(1)建立总体假设:原假设和备择假设;(2)选择一个合适的显著性水平,把犯第一类类错误的概率定下来,同时确定必要的样本容量和犯第二类类错误的概率;(3)抽样得到样本观察值,并构造统计量确定为真时的抽样分布,即选择一个合适的检验统计量;(4)在原假设成立的前提下,对给定显著性水平,从构造的统计量的概率分布表上查出相应分布的临界值,确定拒绝域和接收域;(5)计算检验统计量的数值;(6)把检验统计量的数值与相应分布的临界值进行对比,并作出检验判断。6.依据统计上的小概率原理。146\n7.当事先不能断定总体参数是大于、还是小于根据原假设对总体参数的陈述所达到给定值时,需要检验的假设指的是总体参数真值与根据原假设对总体参数的陈述所达到的给定值相等,这种检验称作双侧检验。对有些问题,人们所关心的只是总体参数是大于、还是小于根据原假设对总体参数的陈述所达到的给定值时,就需要进行单侧检验。双侧检验的备择假设为不等号,而单侧检验的备择假设大于或小于号,或不小于或不大于号。8.第一类错误:原假设实际为真,而检验结果却拒绝了它,即否定(本来可能正确),这种弃真错误称为第一类错误。第二类错误:原假设实际不真,而检验结果却接受了它,即接受(本来可能错误),这种取伪错误称为第二类错误。力求在控制前提下减少来控制犯两类错误的概率。9.总体均值、方差、比率等。11.即对于给定的样本信息,值是拒绝的最小概率值。若,则拒绝;若,则不拒绝。一般,统计软件包都会根据既定的检验,提供了相应的值,以方便判断检验的显著性。12.方差分析是鉴别各因素效应的一种有效统计方法,它是通过实验观察某一种或多种因素的变化对实验结果是否带来显著影响,从而选取最优方案的一种统计方法。方差分析也是一种假设检验它是对全部样本观察值的差异进行分解,将某种因素下各组样本观察值之间可能存在的系统性误差与随机误差加以比较,据以推断各总体之间是否存在显著性差异,若存在显著性差异,也就说明该因素的影响是显著的。13.非参数统计是对总体分布的具体形式不必作任何限制性假定和不以总体参数具体数值估计为目的的推断统计。这种统计主要用于对某种判断或假设进行检验,故亦称为非参数检验。非参数统计与参数统计相比,具有以下几个特点:(1).非参数统计方法它既能适用于定性变量中的定类数据(如满意和不满意、好与坏、优良品和不良品、统计引例中用工作类型进行分组所形成的数据等)或定序数据(如对商品的爱好程度可分为甲、乙、丙、丁等不同的等级、统计引例中用对自我管理工作小组的态度进行分组所形成的数据),也能适用于定距数据和定比数据这种定量变量。(2).非参数统计方法是一种经济而有效的方法。它往往容易理解,计算简便,有时完全不必考虑数据的排列顺序。(3).非参数统计方法不需要像参数统计方法那样假定总体的分布是正态的,也不需要检验总体的参数,使得条件容易得到满足。14.检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。拟合优度检验是利用样本信息对总体分布作出推断,检验总体是否服从某种理论分布如二项分布、均匀分布或正态分布等。146\n15.符号检验,也称正负号检验,是常用的比较简单的一种非参数统计方法,其基本思想是分析正负号出现的频率而忽略具体量的差异,以确定他们是否有显著差异的一种检验方法。特点:1).对于总体分布和方差等都不作限制性假设;2).只考虑差数的正负方向而不计具体数值;3).忽略数值差别,因而会失去在某些情况下可资利用的信息。威尔科克森符号秩检验是由威尔科克森于1945年提出的。该方法是在成对观测数据的符号检验基础上发展起来的,比传统的单独用正负号的检验更加有效。它适用T检验中的成对比较,但并不要求成对数据之差服从正态分布,只要求对称分布即可。检验成对观测数据之差是否来自均值为0的总体(产生数据的总体是否具有相同的均值)。曼—惠特尼U检验这种方法通常称为秩和检验、或等级和检验。不同之处在于,威尔科克森带符号等级检验适用于两组关联样本的数据,而曼—惠特尼U检验适用于来自两个独立样本的数据;小样本U检验;大样本U检验。16.游程检验可分为两种情况:一是如果两个样本来自两个不同的总体,可以采取混合有序样本的方法,根据实际游程个数,检验样本是否是从这两个总体中随机抽取的;二是如果样本观察值来自同一总体,可以先将观察值按从小到大顺序排列,然后按中位数(或平均值)将观察值分为大于或小于中位数两部分,再根据上、下两部分相互交错所形成的游程个数来检验样本的随机性。17.斯皮尔曼等级相关(Spearman’scorrelationcoefficientforrankeddata)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。适用范围广泛,斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。皮尔逊积矩相关系数(用r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。(二)计算题1.整体服从正态分布,总体方差已知置信区间服从Z分布由于置信区间为经查表得置信度为90%的置信区间为[1.31125,1.88875]146\n2.解:由题可知,总体有限,未知,n=80>30,,则校正系数不可省。又∵校正系数∴每户农民年平均收入的置信区间为:=3.已知两个正态总体,方差未知但相等,两个样本的容量分别为则设置信水平查t分布表,使得:从而的置信度为的置信区间为146\n其中为两个样本方差联合无偏估计,此时t分布的自由度为,代入数据得:则置信区间为4.解:由题可知,在有限总体N=72000中,∴校正系数可省.又∵给定∴总体成数的置信区间为:5.已知置信水平,虽然总体分布未知,但146\n所以可以确定两个样本成数之差近似服从正态分布样本成数之差的置信区间为代入数据,=[-0.101,0.0005]两个总体成数置信度之差为0.95的置信区间为[-0.101,0.0005]6.解:已知总体容量N=3000,则抽样应采取有限总体不重复方式,有限总体需考虑校正系数.又∵已知(分钟),(分钟),查表得∴根据公式得:∴样本应抽取122名职工.7.已知N=1000,146\nα=0.05查表得,代入数据所以样本容量至少为2891.方法一:解:未知,且n=18<30,则用检验,=820,S=60设产品重量为X,服从正态分布,假设:,:在原假设为真的条件下,统计量~又=0.01,即统计量落在决绝域,则接受原假设,拒绝备择假设。方法二:解:未知,且n=18<30,则用检验,=820,=3600设产品重量为X,服从正态分布,假设:,:146\n在原假设为真的条件下,统计量~又=0.01,故产品重量的置信区间为:因为,所以接受原假设,拒绝备择假设。9.方法一:(1)解:未知,n=81>30,=485,S=45假设:,:在原假设为真的情况下,统计量~又=0.01,又拒绝原假设,接受146\n(2)假设:,:,在原假设为真的情况下,统计量~又Q=0.05,接受原假设,拒绝。方法二:(1)解:未知,n=81>30,则用Z检验,=485,S=45假设:,:在原假设为真的条件下,统计量~又=0.01,故产品重量的置信区间为:146\n因为,所以拒绝原假设,接受备择假设。(2)假设:,:在原假设为真的条件下,统计量~又=0.05,从而置信上限为因为,接受原假设,拒绝。10.方法一:解:由题可知,假设:,在原假设为真的情况下,统计量~又∵给定查表得.,没有落在拒绝域.∴接受原假设,拒绝备择假设,即不能得出的结论.方法二:解:由题可知,146\n假设:,在原假设为真的情况下,统计量,又∵给定查表得,从而零件均值之差的置信下限为:,因为,所以接受原假设,拒绝备择假设,即不能得出的结论。11.解:已知,假设,在原假设为真的情况下,统计量服从正态分布,代查表得-,又146\n落在拒绝域,即拒绝原假设,接受备择假设,所以居民区甲中的家庭每周看电视的平均小时数比居民区乙中的家庭少12.方法一:解:由题得:,.假设,:,在原假设为真的情况下,统计量~给定,,,没有落在拒绝域∴接受原假设,拒绝,即不能证实厂家所说某市已有20%以上的家庭在使用这种商品。方法二:解:由题得:,.假设假设,:,在原假设为真的情况下,统计量~给定,从而得到的置信度为的置信下界为:由于,所以接受,拒绝,146\n即不能证实厂家所说某市已有20%以上的家庭在使用这种商品。13.方法一:解:,,因此整体服从正态分布。假设已知选择统计量及分布代入得p=0。957,,查表得因此接受,拒绝,即没有足够的理由说明这位老师的看法是正确的。方法二:解:,,因此整体服从正态分布假设已知选择统计量及分布其中显著水平,查表得,则的显著水平为的146\n置信下限为:由于,因此接受,拒绝,即没有足够的理由说明这位老师的看法是正确的。14.解:对于无限总体,未知,且n=16<30,则有,给定Q=0.05,①该大学教师的月平均收入的置信区间为:=②标准差的置信区间为(Q=0.05,)=15.方法一:解:假设:,:由题得:n=20,千小时在原假设为真的条件下,统计量~给定Q=0.05,n=20,查表得146\n接受原假设,拒绝备择假设,即不能认为显像管使用寿命的标准差有显著改善。方法二:解:假设:,:由题得:n=20,千小时,在原假设为真的条件下,统计量~给定,查表得,从而的置信度为的置信上限为:由于,所以接受原假设,即不能认为显像管使用寿命的标准差有显著改善。16.方法一:解:已知:=8,=8,,给出假设;统计量~F(-1,-1)给定显著水平=0.1,查分布表得出临界值146\n又没有落在拒绝域,即接受原假设,则不能否认这两个方案的产量的方差是相等的假设。方法二:解:已知两个正态总体,方差未知但相等,两个样本的容量分别为则提出假设;选择统计量:设置信水平,查F分布表,从而的置信度为的置信区间为由于,所以接受原假设,则不能否认这两个方案的产量的方差是相等的假设。17、把相应数据输入EXCEL后进行方差分析,结果如下所示:方差分析:单因素方差分析SUMMARY146\n组观测数求和平均方差行1521342.615.8行251503010行3522244.428.3方差分析差异源SSdfMSFP-valueFcrit组间615.62307.817.068390.000313.885294组内216.41218.03333总计83214因为P=0.00031<0.05或F>Fcrit,即水稻的品种对水稻的产量有影响。18.略19解有题意可建立假设这种特定时刻电话呼叫服从正态分布这种特定时刻电话呼叫不服从正态分布参数入可根据样本平均估计=2.76电话呼叫次数0123456记录天数573040756期望频率0.630.1750.2410.2220.1530.0840.062期望频数6.317.524.122.215.38.46.2==++++++=28.17因为参数入是由样本平均数估计的可查自由度为7-1-1=5=0.05的分布得临界值(5)=11.0705<28.17146\n所以拒绝原假设,接受备择假设,即以为这种假设特定时刻电话呼叫数不服从泊松分布。20、解:如果没有差别,那么矿泉水饮用者人数将呈均匀分布(1):不同牌子矿泉水饮用者人数服从均匀分布:不同牌子矿泉水饮用者人数不服从均匀分布(2)根据原假设,每种牌子矿泉水爱好者人数的期望频数为100/5=20现有算出的数值如下:===2.45+0.8+0.2+0.2+0.45=4.1自由度等于分类组数K减1,即5-1=4。根据=0.05和自由度为4,得(4)=9.488(3)因为=4.1<得(4)=9.488,所以接受H。所以消费者对各矿泉水的爱好是没有差别的。=0.01,因为自由度为5-4=1,查表(4)=13.2767;=4.1<(4)=13.2767,所以接受,所以爱好无差别。21.:次品类型与厂家生产是无关的;:次品类型与厂家生产存在关系元件丁次品类型ABCD甲20(16.67)45(44.44)36(38.89)100乙40(33.33)90(88.89)70(77.78)200丙15(25)65(66.67)70(58.33)150146\n总计75200175450==9.391又因为自由度为(3-1)(3-1)=4,=0.01,经查表可得临界值(4)=13.2767,由于=9.391<(4)=13.2767,所以接受,即次品类型与厂家生产是无关的。22.解:符号为“0”的个数应从样本中剔除,因此,用于检验的符号个数由10个“十”和16个“一”构成。由于此例的样本容量大于25,可以近似正态分布处理。令P表示得到正号的概率:P=0.5,:P0.5=P=0.5因为=0.05,所以若Z<-1.96或Z>1.96,则拒绝原假设所以Z===-1.173>-1.96所以接受146\n所以认为学生对两门课程讲课质量赞赏人数的比例相同23.:广告宣传没有显著效果;:广告宣传有显著效果。城市编号做广告前销售量做广告前销售量销售量之差d=-等级12230-89921619-35.55.531513+23.53.543228+47751817+11.51.561010071517-23.53.582528-35.55.591716+11.51.5101914+588合计21.523.5均值==22.5因为=0.05,所以临界值=8且为单侧检验又因为较小的T值()为9由于T>,所以接受所以广告宣传没有显著效果24由于是来自两个独立样本的数据,所以适用曼一惠特尼U检验甲.乙商品日营业额等级营业额所属商场1.547甲1.547甲343甲146\n4.542乙4.542乙641甲740乙839甲935乙1034甲1133乙1232乙14.531甲14.531甲14.531乙14.531乙1728甲1827甲19.523甲19.523乙用表示甲商场的样本容量,用表示乙商场的样本容量则=11,=9用表示样本中各项的等级和=1.5+1.5+3+6+8+10+14.5+14.5+17+18+19.5=113.5类似的=4.5+4.5+7+9+11+12+14.5+14.5+19.5=96.5所以==51.5==47.5因+==51.5+47.5=119=99146\n证明计算结果正确:甲、乙商场日营业额无差异即两种经营方式效果无差异:甲、乙商场日营业额有差异因为=0.1,=11,=9所以临界值=27又因为=47.5>=27所以接受所以两种经营方式的效果无显著差异25.:户主收入与人寿保险报保额之间是独立的:户主收入与人寿保险报保额之间不是独立的10户家庭户主收入与寿险报保额的等级户主收入报保额户主收入报保额=-1091100142066.5-0.50.25132248-4161415633914176424253010100012182.55-2.56.251625990012102.520.50.25152086.51.52.25合计38因为=0.05,n=10,所以临界中值的0.551146\n由于=1-=0.770由于>临界值=0.551,故拒绝原假设所以户主收入与人寿保险报保额间存在关系,且相关程度为77.0%。26.:人们记得广告的比例在不同媒体之间存在显著不同:人们记得广告的比例在不同媒体之间不存在显著不同杂志电视电台合计能记得广告的人数20(12)15(12)5(16)40不能记得广告的人数70(78)75(78)115(104)260合计9090120300==5.33+0.82+0.75+0.12+7.56+1.16=15.74因为自由度为(2-1)(3-1)=2,=0.05所以临界值所以=15.74>所以拒绝所以人们记得广告的比例在不同媒体间不存在显著不同146\n四、课外习题(一)单项选择题1.在假设检验中,显著性水平的意义是()A、为真,但经检验拒绝的概率。B、为真,经检验接受的概率。C、不成立,经检验拒绝的概率。D、不成立,但经检验接受的概率。2.在假设检验中,记为原假设,则()称为第二类错误A、为真,接受B、不真,拒绝C、不真,接受D、为真,拒绝3.要假设检验中,用分别表示犯第一类错误和第二类错误的概率,则当样本容量一定时,下列说法正确的是()A、减少,也减少B、增大,也增大C、与不能同时减少,其中一个减少,另一个往往会增大D、A和B同时成立4.从∽中抽取容量为10的样本,为已知常数,给定显著性水平,检验:则正确的方法和结论是()A、用U统计量,临界值为B、用U统计量,临界值为C、用U统计量,临界值为D、用U统计量,临界值为5.设是来自正态分布的样本均值和样本方差,样本容量为,为()A、:的拒绝域B、:的接受域C、的一个置信区间D、的一个置信区间6.将由显著性水平所规定的拒绝域平分为两部分,置于概率分布的两边,每边占显著性水平的二分之一,这是()。A、单侧检验B、双侧检验C、右侧检验D、左侧检验7.检验功效定义为()。146\nA、原假设为真时将其接受的概率B、原假设不真时将其舍弃的概率C、原假设为真时将其舍弃的概率D、原假设不真时将其接受的概率8.符号检验中,(+)号的个数与(-)号的个数相差较远时,意味着()。A、存在试验误差(随机误差)B、存在着条件误差C、不存在什么误差D、既有抽样误差,也有条件误差9.得出两总体的样本数据如下:甲:8,6,10,7,8乙:5,11,6,9,7,10秩和检验中,秩和最大可能值是()。A、15B、48C、45D、6610.关于检验水平的设定,下列叙述错误的是()A、的选取本质上是个实际问题,而非数学问题.B、在检验实施之前,应是事先给定的,不可擅自改动.C、即为检验结果犯第一类错误的最大概率.D、为了得到所希望的结论,可随时对的值进行修正.11.关于检验的拒绝域W,置信水平,及所谓的“小概率事件”,下列叙述错误的是()A、的值即是对究竟多大概率才算“小”概率的量化描述.B、事件为真即为一个小概率事件.C、设W是样本空间的某个子集,指事件.D、确定恰当的W是任何检验的本质问题.12.设总体未知,通过样本检验假设,此问题拒绝域形式为()A、.B、.C、.D、.13.设为来自总体的样本,若未知,,,关于此检验问题,下列不正确的是()A、检验统计量为.B、在成立时,.C、拒绝域不是双边的.D、拒绝域可以形如.14.设总体服从正态分布,是的一组样本,在显著性水平下,假设“总体均值等于75”拒绝域为,则样本容量()146\nA、36.B、64.C、25.D、81.(二)多项选择题1.显著性水平与检验拒绝域关系()A显著性水平提高(α变小),意味着拒绝域缩小B显著性水平降低,意味着拒绝域扩大B显著性水平提高,意味着拒绝域扩大D显著性水平降低,意味着拒绝域缩小E显著性水平提高或降低,不影响拒绝域的变化2.β错误()A是在原假设不真实的条件下发生B是在原假设真实的条件下发生C决定于原假设与真实值之间的差距D原假设与真实值之间的差距越大,犯β错误的可能性就越小E原假设与真实值之间的差距越小,犯β错误的可能性就越大(三)计算题1.在正常情况下,某炼钢厂的铁水含碳量(%).一日测得5炉铁水含碳量如下:4.48,4.40,4.42,4.45,4.47在显著性水平下,试问该日铁水含碳量得均值是否有明显变化.2.根据某地环境保护法规定,倾入河流的废物中某种有毒化学物质含量不得超过3ppm.该地区环保组织对某厂连日倾入河流的废物中该物质的含量的记录为:.经计算得,.试判断该厂是否符合环保法的规定.(该有毒化学物质含量X服从正态分布)3.某厂生产需用玻璃纸作包装,按规定供应商供应的玻璃纸的横向延伸率不应低于65.已知该指标服从正态分布,.从近期来货中抽查了100个样品,得样本均值,试问在水平上能否接受这批玻璃纸?4.某纺织厂进行轻浆试验,根据长期正常生产的累积资料,知道该厂单台布机的经纱断头率(每小时平均断经根数)的数学期望为9.73根,标准差为1.60根.现在把经纱上浆率降低20%,抽取200台布机进行试验,结果平均每台布机的经纱断头率为9.89根,如果认为上浆率降低后均方差不变,问断头率是否受到显著影响(显著水平α=0.05)?5.某厂用自动包装机装箱,在正常情况下,每箱重量服从正态分布.某日开工后,随机抽查10箱,重量如下(单位:斤):99.3,98.9,100.5,100.1,99.9,99.7,100.0,100.2,99.5,100.9.问包装机工作是否正常,即该日每箱重量的数学期望与100是否有显著差异?(显著性水平α=0.05)6.146\n某自动机床加工套筒的直径X服从正态分布.现从加工的这批套筒中任取5个,测得直径分别为(单位:),经计算得到,.试问这批套筒直径的方差与规定的有无显著差别?(显著性水平)7.甲、乙两台机床同时独立地加工某种轴,轴的直径分别服从正态分布、(未知).今从甲机床加工的轴中随机地任取6根,测量它们的直径为,从乙机床加工的轴中随机地任取9根,测量它们的直径为,经计算得知:,,,.问在显著性水平下,两台机床加工的轴的直径方差是否有显著差异?8.某维尼龙厂根据长期正常生产积累的资料知道所生产的维尼龙纤度服从正态分布,它的标准差为0.048.某日随机抽取5根纤维,测得其纤度为1.32,1.55,1.36,1.40,1.44.问该日所生产得维尼龙纤度的均方差是否有显著变化(显著性水平α=0.1)?9.某项考试要求成绩的标准差为12,先从考试成绩单中任意抽出15份,计算样本标准差为16,设成绩服从正态分布,问此次考试的标准差是否符合要求(显著性水平α=0.05)?10.某卷烟厂生产甲、乙两种香烟,分别对他们的尼古丁含量(单位:毫克)作了六次测定,获得样本观察值为:甲:25,28,23,26,29,22;乙:28,23,30,25,21,27.假定这两种烟的尼古丁含量都服从正态分布,且方差相等,试问这两种香烟的尼古丁平均含量有无显著差异(显著性水平α=0.05,)?对这两种香烟的尼古丁含量,检验它们的方差有无显著差异(显著性水平α=0.1)?11.某厂生产一种螺钉,标准要求长度是68mm,实际生产的产品,其长度服从,考察假设检验问题.设为样本均值,按下列方式进行假设检验:当时,拒绝原假设;当时,接受原假设.(1)当样本容量时,求犯第一类错误的概率;(2)当样本容量时,求犯第一类错误的概率;(3)当不成立时(设),又时,按上述检验法,求犯第二类错误的概率.146\n12.据专家推测:矮个子的人比高个子的人的寿命要长一些,下面给出了美国31个自然死亡的总统的寿命.矮个子(身高小于5英尺8英寸)总统ModisonVanBurenB.HarrisonJ.AdamsJ.Q.Adams身高5’4”5’6”5’6”5’7”5’7”寿命8579679080高个子(身高大于5英尺8英寸)总统W.HarrisonPlokTaylerCrantHayesTrumanFillmorePierceA.Johson身高5’8”5’8”5’8”5’8.5”5’8.5”5’9”5’9”5’10”5’10”寿命685365637088746466总统T.RooseveltCoolidgeEisenhowerClevelandWilsonHooverMonroeTyler身高5’10”5’10”5’10”5’11”5’11”5’11”6’6’寿命6060787167907371总统BuchananTaftHardingJaskonWashingtonArthurF.Roosevelt身高6’6’6’6’1”6’2”6’2”6’2”寿命77725778675663设两个寿命总体均为正态分布且方差相等,试问以上数据是否符合上述推测()?13.某型号的汽车轮胎耐用里程按正态分布,其平均耐用里程为25000公里。现在从某厂生产的轮胎随机取10个进行里程测试,结果数据如下:25400256002530024900255002480025000248002520025700根据以上数据,检验该厂轮胎的耐用里程是否存在显著性的差异(a=0.05)。再用p-值重新检验,结论是否一致。14.从某铁矿南北两段各抽取容量为10的样本,随机配成10对如下:南段含铁量28204328121648820北段含铁量2011131045151113258试用符号检验法,在a=0.05的条件下,检验“南北两段含铁量无显著差异”的假设。15.在14对条件相同的地块上分别播下种籽A和种籽B,其收获量纪录如下表,试以显著性水平a=0.05,用秩和检验法检验两种种籽的收获量是否存在显著性的差异。种籽收获量记录(单位:公斤)A种籽B种籽A种籽B种籽3348443418172537402446475022361354385327304135303920422516.某汽油站有两种商标的汽油A和B,某天售出的50桶汽油可按商标A和B排成这样的顺序:AABAABABBAAABBABBABBABBABAABBBBAABABABAAABAAAAABB试问:在显著性水平a=0.05条件下,这一序列是否有随机性?146\n五、课外习题参考答案(一)单项选择题1—5ACCAA6—10BBCCD11—14CCBA(二)多项选择题1AB2ACDE(三)计算题1.解:设铁水含碳量作为总体,则,从中选取容量为5的样本,测得.由题意,设原假设为构造检验统计量,则在显著性水平下,查表可得,拒绝原假设,即认为有显著性变化.2.解:设有毒化学物质含量作为总体,则,从中选取容量为15的样本,测得,.由题意,设原假设为,备择假设为.构造检验统计量,则,在显著性水平下,查表可得,即拒绝原假设,接受备择假设,认为该厂不符合环保的规定.3.解:设玻璃纸的横向延伸率为总体,则,从中选取容量为100的样本,测得.由题意,设原假设为,备择假设为.构造检验统计量,则146\n在显著性水平下,查表可得,即拒绝原假设,接受备择假设,不能接受该批玻璃纸.4.解:设经纱断头率为总体,则,,从中选取容量为200的样本,测得.由题意,设原假设为,备择假设为.构造检验统计量,则在显著性水平下,查表可得,即接受原假设,认为断头率没有受到显著影响.5.解:设每箱重量为总体,则,从中选取容量为10的样本,测得,.由题意,设原假设为,备择假设为.构造检验统计量,则,在显著性水平下,查表可得,即接受原假设,认为每箱重量无显著差异.6.解:设这批套筒直径为总体,则,从中选取容量为5的样本,测得,.由题意,设原假设为,备择假设为.构造检验统计量,则,在显著性水平下,查表可得,,从而.即接受原假设,认为这批套筒直径的方差与规定的无显著差别.7.解:设两台机床加工的轴的直径分别为总体,则、146\n,从总体中选取容量为6的样本,测得.从总体中选取容量为9的样本,测得由题意,设原假设为,备择假设为.构造检验统计量,则,在显著性水平下,查表可得,,从而.即接受原假设,认为两台机床加工的轴的直径方差无显著差异.8.解:设维尼龙纤度为总体,则,从中选取容量为5的样本,测得,.由题意,设原假设为,备择假设为.构造检验统计量,则在显著性水平下,查表可得.即拒绝原假设,认为维尼龙纤度的均方差有显著变化.9.解:设考试成绩为总体,则,从中选取容量为15的样本,测得.由题意,设原假设为,备择假设为.构造检验统计量,则.在显著性水平146\n下,查表可得,,从而.即接受原假设,认为此次考试的标准差符合要求.10.解:设这两种烟的尼古丁含量分别为总体,则、,从中均选取容量为6的样本,测得,,,,由题意,在方差相等时,设原假设为,备择假设为.构造检验统计量,其中.则,在显著性水平下,查表可得.即接受原假设,认为这两种香烟的尼古丁平均含量无显著差异.由题意,在方差待定时,设原假设为,备择假设为.构造检验统计量,则,在显著性水平下,查表可得,,由.即接受原假设,认为它们的方差无显著差异.146\n11.解:1)当时,,.(2)当时,.(3)当,又时,,这时犯第二类错误的概率.12.解:设矮个子总统寿命为,高个子总统寿命为,需检验.由于未知,故选用统计量,其中,.由题设样本数据可得,故,从而统计量,又当时,查分布表可得146\n,即,故拒绝原假设,即推测是正确的,认为矮个子的人比高个子的人的寿命要长一些13.解:由Excel得:里程数H0:平均里程=25000,H1:平均里程>2500025400总体平均值=2500025600样本平均值(average()函数)=2522025300样本标准差(=STDEV()函数)=332.66624900df=n-1=925500alpha=0.052480025000t统计量=2.0912924800临界值(tinv(2*0.05,n-1))=1.8331142520025700p值(tdist(t统计量,n-1,1))=0.033023可见,t=2.09129>1.833114,所以拒绝原假设。而p值=0.033023<0.05,同样要拒绝原假设。抽样说明该厂轮胎耐用里程显著增加。14.解:南段28204328121648820北段2011131045151113258差值符号++-+--++-+n+个数=6n-个数=4n个数=10临界值=9因为6<9,所以认为南段和北段含铁量无显著差异。15.解:将样本混合排序,有:AB秩A秩B131172183204225246257.5257.52793010.53010.5331234133514361537163817146\n39184019412042214422462347244825502653275428由Excel得:H0:无显著差异;H1:有显著差异取A为总体I,B为总体II,n1=n2=14总体I的秩和T=246alpha=0.05n=n1+n2=28T平均=n1*(n+1)/2=203标准差=21.76388Z统计量=1.97575临界值=1.96p值=0.048183由表可知,Z=1.97575>1.96,且p值=0.048<0.05,所以可以拒绝原假设,两种种籽的收获量存在显著差异。16.解:因为A(8个),AA(4个),AAA(2个),AAAAA(1个),B(7个),BB(6个),BBBB(1个)。n1=27,n2=23。假设检验H0:样本为随机样本,H1:样本为非随机样本。求出游程总和。R1=15,R2=14,R=29。因为,构造统计量。由于=0.05的临界值为1.96,z=0.909<1.96,所以接受原假设,序列是随机的。146