- 2.25 MB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第一章:数据与统计学思考与练习:思考题:1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。2.试举出日常生活或工作中统计数据及其规律性的例子。3.简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。4.获取直接统计数据的渠道主要有哪些?5.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。6.一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536kg。要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)描述推断。答:(1)总体:最近的一个集装箱内的全部油漆;(2)研究变量:装满的油漆罐的质量;(3)样本:最近的一个集装箱内的50罐油漆;(4)推断:50罐油漆的质量应为4.536×50=226.8kg。7.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)一描述推断。答:(1)总体:市场上的“可口可乐”与“百事可乐”\n(2)研究变量:更好口味的品牌名称;(3)样本:1000名消费者品尝的两个品牌(4)推断:两个品牌中哪个口味更好。第二章、统计数据的描述思考与练习思考题1.描述次数分配表的编制过程答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。2.解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。3.说明基尼系数的含义和用途4.一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。5.怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。6.对于比率数据的平均,为什么采用几何平均?答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均。7.简述众数、中位数和均值的特点和应用场合。答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。\n8.标准差和方差反映数据的什么特征?9.举出均值和标准差应用的例子。10.为什么要计算离散系数?答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。11.描述茎叶图和箱线图的画法,并说明它们的用途。练习题1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下:BECCADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCEDBCCBCDACBCDECEBBECCADCBAEBACDEABDDCADBCCAEDCBCBCEDBCCBC(1)指出上面的数据属于什么类型;(2)用Excel制作一张频数分布表;(3)绘制一张条形图,反映评价等级的分布。解:(1)由于表2.21中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频数)频率%A1414B2121C3232D1818E1515合计100100(3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题2.1)。即得到如下的条形图:\n2.某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元):1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率;(2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业,105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。解:(1)要求对销售收入的数据进行分组,全部数据中,最大的为152,最小的为87,知数据全距为152-87=65;为便于计算和分析,确定将数据分为6组,各组组距为10,组限以整10划分;为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值87可能落在最小组之下,最大值152可能落在最大组之上,将最小组和最大组设计成开口形式;按照“上限不在组内”的原则,用划记法统计各组内数据的个数——企业数,也可以用Excel进行排序统计(见Excel练习题2.2),将结果填入表内,得到频数分布表如下表中的左两列;将各组企业数除以企业总数40,得到各组频率,填入表中第三列;在向上的数轴中标出频数的分布,由下至上逐组计算企业数的向上累积及频率的向上累积,由上至下逐组计算企业数的向下累积及频率的向下累积。整理得到频数分布表如下:40个企业按产品销售收入分组表按销售收入分组(万元)企业数(个)频率(%)向上累积向下累积企业数频率企业数频率100以下100~110110~120120~130130~140140以上591274312.522.530.017.510.07.55142633374012.535.065.082.592.5100.04035261473100.087.565.035.017.57.5\n合计40100.0————(2)按题目要求分组并进行统计,得到分组表如下:某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业一般企业落后企业11119927.527.522.522.5合计40100.03.某百货公司连续40天的商品销售额如下(单位:万元):41252947383430384340463645373736454333443528463430374426384442363737493942323635根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。解:全部数据中,最大的为49,最小的为25,知数据全距为49-25=24;为便于计算和分析,确定将数据分为5组,各组组距为5,组限以整5的倍数划分;为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值24已落在最小组之中,最大值49已落在最大组之中,故将各组均设计成闭口形式;按照“上限不在组内”的原则,用划记法或用Excel统计各组内数据的个数——天数,(见Excel练习题2.3)并填入表内,得到频数分布表如下表中的左两列;将各组天数除以总天数40,得到各组频率,填入表中第三列;得到频数分布表如下:某百货公司日商品销售额分组表按销售额分组(万元)频数(天)频率(%)25~3030~3535~4040~4545~5046159610.015.037.522.515.0合计40100.0直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.3)\n4.为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果如下:700716728719685709691684705718706715712722691708690692707701708729694681695685706661735665668710693697674658698666696698706692691747699682698700710722694690736689696651673749708727688689683685702741698713676702701671718707683717733712683692693697664681721720677679695691713699725726704729703696717688(1)利用计算机对上面的数据进行排序;(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;(3)绘制茎叶图,并与直方图作比较。解:(1)排序:将全部数据复制到Excel中,并移动到同一列,点击:数据→排序→确定,即完成数据排序的工作。(见Excel练习题2.4)(2)按题目要求,利用已排序的Excel表数据进行分组及统计,得到频数分布表如下:(见Excel练习题2.4)100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~66022660~67055670~68066680~6901414690~7002626700~7101818710~7201313720~7301010730~74033740~75033合计100100\n制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,选择全表后,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.4)(3)制作茎叶图:以十位以上数作为茎,填入表格的首列,将百、十位数相同的数据的个位数按由小到大的顺序填入相应行中,即成为叶,得到茎叶图如下:651866145686713467968112333455588996900111122233445566677888899700011223456667788897100223356778897201225678997335674147将直方图与茎叶图对比,可见两图十分相似。5.下面是北方某城市1~2月份各天气温的记录数据:-32-4-7-11-1789-6-7-14-18-15-9-6-105-4-9-3-6-8-12-16-19-15-22-25-24-19-21-8-6-15-11-12-19-25-24-18-17-24-14-22-13-9-60-15-4-9-3-32-4-4-16-175-6-5(1)指出上面的数据属于什么类型;(2)对上面的数据进行适当的分组;(3)绘制直方图,说明该城市气温分布的特点。解:(1)由于各天气温的记录数据属于数值型数据,它们可以比较高低,且0不表示没有,因此是定距数据。\n(2)分组如下:由于全部数据中,最大的为9,最小的为-25,知数据全距为9-(-25)=34;为便于计算和分析,确定将数据分为7组,各组组距为5,组限以整5的倍数划分;为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值-25已落在最小组之中,最大值9已落在最大组之中,故将各组均设计成闭口形式;按照“上限不在组内”的原则,用划记法(或Excel排序法,见Excel练习题2.5)统计各组内数据的个数——天数,并填入表内,得到频数分布表如下表;北方某城市1~2月份各天气温分组天数(天)-25~-208-20~-158-15~-1010-10~-514-5~0140~545~107合计65(3)制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.5)6.下面是某考试管理中心对2002年参加成人自学考试的12000名学生的年龄分组数据:年龄18~1921~2122~2425~2930~3435~3940~4445~59%1.934.734.117.26.42.71.81.2(1)对这个年龄分布作直方图;(2)从直方图分析成人自学考试人员年龄分布的特点。解:(1)制作直方图:将上表复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.6)\n(2)年龄分布的特点:自学考试人员年龄的分布为右偏。7.下面是A、B两个班学生的数学考试成绩数据:A班:4457596061616263636566666769707071727373737474747575757575767677777778787980808285858686909292929396B班:3539404444485152525455565657575758596061616263646668687070717173747479818283838485909191949596100100100(1)将两个班的考试成绩用一个公共的茎制成茎叶图;(2)比较两个班考试成绩分布的特点。解:(1)将树茎放置中间,A班树叶向左生长,B班树叶向右生长,得茎叶图如下:A班树茎B班数据个数树叶树叶数据个数03592144044842975122456677789121197665332110601123468892398877766555554443332100700113449876655200812334566632220901145660100003(2)比较可知:A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低。\n8.1997年我国几个主要城市各月份的平均相对湿度数据如下表,试绘制箱线图,并分析各城市平均相对湿度的分布特征。月份北京长春南京郑州武汉广州成都昆明兰州西安149707657777279655167241687157758083654167347507768818081584974450397267758479614670555566863718375584158657547357748782724342769708274818684845862874798271738478745755968667167718175775565104759755372807876456511665982777872787153731256578265827582715272资料来源:《中国统计年鉴1998》,中国统计出版社1998,第10页。解:箱线图如下:(特征请读者自己分析)9.某百货公司6月份各天的销售额数据如下(单位:万元):257276297252238310240236265278271292261281301274267280291258272284268303273263322249269295(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。解:(1)将全部30个数据输入Excel表中同列,点击列标,得到30个数据的总和为8223,于是得该百货公司日销售额的均值:(见Excel练习题2.9)===274.1(万元)或点选单元格后,点击“自动求和”→“平均值”,在函数EVERAGE()的空格中输入“A1:\nA30”,回车,得到均值也为274.1。在Excel表中将30个数据重新排序,则中位数位于30个数据的中间位置,即靠中的第15、第16两个数272和273的平均数:Me==272.5(万元)由于中位数位于第15个数靠上半位的位置上,所以前四分位数位于第1~第15个数据的中间位置(第8位)靠上四分之一的位置上,由重新排序后的Excel表中第8位是261,第15位是272,从而:QL=261+=261.25(万元)同理,后四分位数位于第16~第30个数据的中间位置(第23位)靠下四分之一的位置上,由重新排序后的Excel表中第23位是291,第16位是273,从而:QU=291-=290.75(万元)。(2)未分组数据的标准差计算公式为:s=利用上公式代入数据计算是个较为复杂的工作。手工计算时,须计算30个数据的离差平方,并将其求和,()再代入公式计算其结果:得s=21.1742。(见Excel练习题2.9)我们可以利用Excel表直接计算标准差:点选数据列(A列)的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV”→“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:21.17412,即为这30个数据的标准差。于是:(万元)。(见Excel练习题2.9)10.甲乙两个企业生产三种产品的单位成本和总成本资料如下:产品名称单位成本(元)总成本(元)甲企业乙企业ABC152030210030001500325515001500比较哪个企业的总平均成本高?并分析其原因。解:设产品单位成本为x,产量为f,则总成本为xf,由于:平均成本==,而已知数据中缺产量f的数据,\n又因个别产品产量f==从而=,于是得:甲企业平均成本===19.41(元),乙企业平均成本===18.29(元),对比可见,甲企业的总平均成本较高。原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。11.在某地区抽取的120家企业按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)200~30019300~40030400~50042500~60018600以上11合计120计算120家企业利润额的均值和标准差。解:设各组平均利润为x,企业数为f,则组总利润为xf,由于数据按组距式分组,须计算组中值作为各组平均利润,列表计算得:按利润额分组(万元)组中值企业数(个)总利润xfxf200~300250194750300~4003503010500400~5004504218900500~600550189900600以上650117150合计—12051200于是,120家企业平均利润为:===426.67(万元);分组数据的标准差计算公式为:\ns=手动计算须列表计算各组数据离差平方和(x-426.67)2f,并求和,再代入计算公式:列表计算如下组中值企业数(个)(x-426.67)2fxf25019593033.489135030176348.6674504222860.133855018273785.200265011548639.1779合计1201614666.668表格中(x-426.67)2f的计算方法:方法一:将表格复制到Excel表中,点击第三列的顶行单元格后,在输入栏中输入:=(a3-426.67)*(a3-426.67)*b3,回车,得到该行的计算结果;点选结果所在单元格,并将鼠标移动到该单元格的右下方,当鼠标变成黑“+”字时,压下左键并拉动鼠标到该列最后一组数据对应的单元格处放开,则各组数据的(x-426.67)2f计算完毕;于是得标准差:(见Excel练习题2.11)s===116.48(万元)。点击第三列的合计单元格后,点击菜单栏中的“∑”号,回车,即获得第三列数据的和。方法二:将各组组中值x复制到Excel的A列中,并按各组次数f在同列中复制,使该列中共有f个x,120个数据生成后,点选A列的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV”→“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:116.4845,即为这120个数据的标准差。(见Excel练习题2.11)于是得标准差:s=116.4845(万元)。12.一项关于大学生体重状况的研究发现,男生的平均体重为60公斤,标准差为5公斤;女生的平均体重为50公斤,标准差为5公斤。请回答下面的问题:(1)是男生的体重差异大还是女生的体重差异大?为什么?(2)以磅为单位(1公斤=2.2磅),求体重的平均数和标准差。(3)粗略地估计一下,男生中有百分之几的人体重在55公斤到65公斤之间?(4)粗略地估计一下,女生中有百分之几的人体重在40公斤到60公斤之间?解:(1)由于两组的平均体重不相等,应通过比较离散系数确定体重差异较大的组:因为女生的离散系数为V===0.1男生体重的离散系数为\nV===0.08对比可知女生的体重差异较大。(2)男生:==27.27(磅),s==2.27(磅);女生:==22.73(磅),s==2.27(磅);(3)68%;(4)95%。13.对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如下:成年组166169172177180170172174168173幼儿组68696870717372737475(1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么?(2)比较分析哪一组的身高差异大?解:(1)应采用离散系数,因为成年人和幼儿的身高处于不同的水平,采用标准差比较不合适。离散系数消除了不同组数据水平高低的影响,采用离散系数就较为合理。(2)利用Excel进行计算,得成年组身高的平均数为172.1,标准差为4.202,从而得:成年组身高的离散系数:;又得幼儿组身高的平均数为71.3,标准差为2.497,从而得:幼儿组身高的离散系数:;由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。14.一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量(单位:个):方法A方法B方法C164129125167130126168129126165130127170131126165130128164129127168127126\n164128127162128127163127125166128126167128116166125126165132125(1)你准备采用什么方法来评价组装方法的优劣?(2)如果让你选择一种方法,你会作出怎样的选择?试说明理由。解:(1)下表给计算出这三种组装方法的一些主要描述统计量:方法A方法B方法C平均165.6平均128.73平均125.53中位数165中位数129中位数126众数164众数128众数126标准偏差2.13标准偏差1.75标准偏差2.77极差8极差7极差12最小值162最小值125最小值116最大值170最大值132最大值128评价优劣应根据离散系数,据上得:方法A的离散系数VA==0.0129,方法B的离散系数VB==0.0136,方法C的离散系数VC==0.0221;对比可见,方法A的离散系数最低,说明方法A最优。(2)我会选择方法A,因为方法A的平均产量最高而离散系数最低,说明方法A的产量高且稳定,有推广意义。15.在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。(1)你认为该用什么样的统计测度值来反映投资的风险?(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?(3)如果你进行股票投资,你会选择商业类股票还是高科技类股票?-3003060-3003060收益率收益率(a)商业类股票(b)高科技类股票\n解:(1)方差或标准差;(2)商业类股票;(3)(略)。02550频数频数0255016.下图给出了2000年美国人口年龄的金字塔,其绘制方法及其数字说明与【例2.10】相同,试对该图反映的人口、政治、社会、经济状况进行分析。第三章:概率、概率分布与抽样分布思考与练习思考题:练习题:1.2.某技术小组有12人,他们的性别和职称如下,现要产生一名幸运者。试求这位幸运者分别是以下几种可能的概率:(1)女性;(2)工程师;(3)女工程师,(4)女性或工程师。并说明几个计算结果之间有何关系?序号123456789101112性别男男男女男男女男女女男男职称工程师技术员技术员技术员技术员工程师工程师技术员技术员工程师技术员技术员解:设A=女性,B=工程师,AB=女工程师,A+B=女性或工程师(1)P(A)=4/12=1/3\n(2)P(B)=4/12=1/3(3)P(AB)=2/12=1/6(4)P(A+B)=P(A)+P(B)-P(AB)=1/3+1/3-1/6=1/23.4.某项飞碟射击比赛规定一个碟靶有两次命中机会(即允许在第一次脱靶后进行第二次射击)。某射击选手第一发命中的可能性是80%,第二发命中的可能性为50%。求该选手两发都脱靶的概率。解:设A=第1发命中。B=命中碟靶。求命中概率是一个全概率的计算问题。再利用对立事件的概率即可求得脱靶的概率。=0.8×1+0.2×0.5=0.9脱靶的概率=1-0.9=0.1或(解法二):P(脱靶)=P(第1次脱靶)×P(第2次脱靶)=0.2×0.5=0.15.6.7.8.已知某地区男子寿命超过55岁的概率为84%,超过70岁以上的概率为63%。试求任一刚过55岁生日的男子将会活到70岁以上的概率为多少?解:设A=活到55岁,B=活到70岁。所求概率为:9.某企业决策人考虑是否采用一种新的生产管理流程。据对同行的调查得知,采用新生产管理流程后产品优质率达95%的占四成,优质率维持在原来水平(即80%)的占六成。该企业利用新的生产管理流程进行一次试验,所生产5件产品全部达到优质。问该企业决策者会倾向于如何决策?解:这是一个计算后验概率的问题。设A=优质率达95%,=优质率为80%,B=试验所生产的5件全部优质。P(A)=0.4,P()=0.6,P(B|A)=0.955,P(B|)=0.85,所求概率为:决策者会倾向于采用新的生产管理流程。10.某公司从甲、乙、丙三个企业采购了同一种产品,采购数量分别占总采购量的25%、30\n%和45%。这三个企业产品的次品率分别为4%、5%、3%。如果从这些产品中随机抽出一件,试问:(1)抽出次品的概率是多少?(2)若发现抽出的产品是次品,问该产品来自丙厂的概率是多少?解:令A1、A2、A3分别代表从甲、乙、丙企业采购产品,B表示次品。由题意得:P(A1)=0.25,P(A2)=0.30,P(A3)=0.45;P(B|A1)=0.04,P(B|A2)=0.05,P(B|A3)=0.03;因此,所求概率分别为:(1)=0.25×0.04+0.30×0.05+0.45×0.03=0.0385(2)11.某人在每天上班途中要经过3个设有红绿灯的十字路口。设每个路口遇到红灯的事件是相互独立的,且红灯持续24秒而绿灯持续36秒。试求他途中遇到红灯的次数的概率分布及其期望值和方差、标准差。解:据题意,在每个路口遇到红灯的概率是p=24/(24+36)=0.4。设途中遇到红灯的次数=X,因此,X~B(3,0.4)。其概率分布如下表:xi0123P(X=xi)0.2160.4320.2880.064期望值(均值)=1.2(次),方差=0.72,标准差=0.8485(次)12.一家人寿保险公司某险种的投保人数有20000人,据测算被保险人一年中的死亡率为万分之5。保险费每人50元。若一年中死亡,则保险公司赔付保险金额50000元。试求未来一年该保险公司将在该项保险中(这里不考虑保险公司的其它费用):(1)至少获利50万元的概率;(2)亏本的概率;(3)支付保险金额的均值和标准差。解:设被保险人死亡数=X,X~B(20000,0.0005)。(1)收入=20000×50(元)=100万元。要获利至少50万元,则赔付保险金额应该不超过50万元,等价于被保险人死亡数不超过10人。所求概率为:P(X≤10)=0.58304。(2)当被保险人死亡数超过20人时,保险公司就要亏本。所求概率为:P(X>20)=1-P(X≤20)=1-0.99842=0.00158(3)支付保险金额的均值=50000×E(X)=50000×20000×0.0005(元)=50(万元)支付保险金额的标准差=50000×σ(X)=50000×(20000×0.0005×0.9995)1/2=158074(元)13.对上述第12题的资料,试问:(1)可否利用泊松分布来近似计算?(2)可否利用正态分布来近似计算?(3)假如投保人只有5000人,可利用哪种分布来近似计算?解:(1)可以。当n很大而p很小时,二项分布可以利用泊松分布来近似计算。本例中,λ=\nnp=20000×0.0005=10,即有X~P(10)。计算结果与二项分布所得结果几乎完全一致。(2)也可以。尽管p很小,但由于n非常大,np和np(1-p)都大于5,二项分布也可以利用正态分布来近似计算。本例中,np=20000×0.0005=10,np(1-p)=20000×0.0005×(1-0.0005)=9.995,即有X~N(10,9.995)。相应的概率为:P(X≤10.5)=0.51995,P(X≤20.5)=0.853262。可见误差比较大(这是由于P太小,二项分布偏斜太严重)。【注】由于二项分布是离散型分布,而正态分布是连续性分布,所以,用正态分布来近似计算二项分布的概率时,通常在二项分布的变量值基础上加减0.5作为正态分布对应的区间点,这就是所谓的“连续性校正”。(3)由于p=0.0005,假如n=5000,则np=2.5<5,二项分布呈明显的偏态,用正态分布来计算就会出现非常大的误差。此时宜用泊松分布去近似。14.15.16.某企业生产的某种电池寿命近似服从正态分布,且均值为200小时,标准差为30小时。若规定寿命低于150小时为不合格品。试求该企业生产的电池的:(1)合格率是多少?(2)电池寿命在200左右多大的范围内的概率不小于0.9。解:(1)=0.04779合格率为1-0.04779=0.95221或95.221%。(2)设所求值为K,满足电池寿命在200±K小时范围内的概率不小于0.9,即有:即:,K/30≥1.64485,故K≥49.3456。17.18.一个具有个观察值的随机样本抽自于均值等于20、标准差等于16的总体。⑴给出的抽样分布(重复抽样)的均值和标准差⑵描述的抽样分布的形状。你的回答依赖于样本容量吗?⑶计算标准正态统计量对应于的值。⑷计算标准正态统计量对应于的值。解:已知n=64,为大样本,μ=20,σ=16,在重复抽样情况下,的抽样分布的均值为(1).20,2(2).近似正态(3).-2.25(4).1.5019.根据18题的条件,求下列情况的概率。\n⑴<16;⑵>23;⑶>25;⑷.落在16和22之间;⑸<14。解:a.0.0228b.0.0668c.0.0062d.0.8185e.0.001320.一个具有个观察值的随机样本选自于、的总体。试求下列概率的近似值:解:(1).0.8944(2).0.0228(3).0.1292(4).0.969921.一个具有个观察值的随机样本选自于和的总体。⑴你预计的最大值和最小值是什么?⑵你认为至多偏离多么远?⑶为了回答b你必须要知道吗?请解释。解.(1)101,99(2).1(3).不必22.考虑一个包含的值等于0,1,2,…,97,98,99的总体。假设的取值的可能性是相同的。则运用计算机对下面的每一个值产生500个随机样本,并对于每一个样本计算。对于每一个样本容量,构造的500个值的相对频率直方图。当值增加时在直方图上会发生什么变化?存在什么相似性?这里和。解:趋向正态23.美国汽车联合会(AAA)是一个拥有90个俱乐部的非营利联盟,它对其成员提供旅行、金融、保险以及与汽车相关的各项服务。1999年5月,AAA通过对会员调查得知一个4口之家出游中平均每日餐饮和住宿费用大约是213美元(《旅行新闻》TravelNews,1999年5月11日)。假设这个花费的标准差是15美元,并且AAA所报道的平均每日消费是总体均值。又假设选取49个4口之家,并对其在1999年6月期间的旅行费用进行记录。⑴描述(样本家庭平均每日餐饮和住宿的消费)的抽样分布。特别说明服从怎样的分布以及的均值和方差是什么?证明你的回答;⑵对于样本家庭来说平均每日消费大于213美元的概率是什么?大于217美元的概率呢?在209美元和217美元之间的概率呢?解:(1).正态分布,213,4.5918(2).0.5,0.031,0.93824.技术人员对奶粉装袋过程进行了质量检验。每袋的平均重量标准为克、标准差为克。监控这一过程的技术人者每天随机地抽取36袋,并对每袋重量进行测量。现考虑这36袋奶粉所组成样本的平均重量。(1)描述的抽样分布,并给出和的值,以及概率分布的形状;(3)假设某一天技术人员观察到,这是否意味着装袋过程出现问题了呢,为什么?解:a.406,1.68,正态分布b.0.001c.是,因为小概率出现了25.\n某制造商为击剑运动员生产安全夹克,这些夹克是以剑锋刺入其中时所需的最小力量(以牛顿为单位)来定级的。如果生产工艺操作正确,则他生产的夹克级别应平均840牛顿,标准差15牛顿。国际击剑管理组织(FIE)希望这些夹克的最低级别不小于800牛顿。为了检查其生产过程是否正常,某检验人员从生产过程中抽取了50个夹克作为一个随机样本进行定级,并计算,即该样本中夹克级别的均值。她假设这个过程的标准差是固定的,但是担心级别均值可能已经发生变化。⑴如果该生产过程仍旧正常,则的样本分布为何?⑵假设这个检验人员所抽取样本的级别均值为830牛顿,则如果生产过程正常的话,样本均值≤830牛顿的概率是多少?⑶在检验人员假定生产过程的标准差固定不变时,你对b部分有关当前生产过程的现状有何看法(即夹克级别均值是否仍为840牛顿)?⑷现在假设该生产过程的均值没有变化,但是过程的标准差从15牛顿增加到了45牛顿。在这种情况下的抽样分布是什么?当具有这种分布时,则≤830牛顿的概率是多少?解:a.正态b.约等于0c.不正常d.正态,0.0626.在任何生产过程中,产品质量的波动都是不可避免的。产品质量的变化可被分成两类:由于特殊原因所引起的变化(例如,某一特定的机器),以及由于共同的原因所引起的变化(例如,产品的设计很差)。一个去除了质量变化的所有特殊原因的生产过程被称为是稳定的或者是在统计控制中的。剩余的变化只是简单的随机变化。假如随机变化太大,则管理部门不能接受,但只要消除变化的共同原因,便可减少变化(Deming,1982,1986;DeVor,Chang,和Sutherland,1992)。通常的做法是将产品质量的特征绘制到控制图上,然后观察这些数值随时间如何变动。例如,为了控制肥皂中碱的数量,可以每小时从生产线中随机地抽选块试验肥皂作为样本,并测量其碱的数量,不同时间的样本含碱量的均值描绘在下图中。假设这个过程是在统计控制中的,则的分布将具有过程的均值,标准差具有过程的标准差除以样本容量的平方根,。下面的控制图中水平线表示过程均值,两条线称为控制极限度,位于的上下3的位置。假如落在界限的外面,则有充分的理由说明目前存在变化的特殊原因,这个过程一定是失控的。当生产过程是在统计控制中时,肥皂试验样本中碱的百分比将服从和的近似的正态分布。⑴假设则上下控制极限应距离多么远?⑵假如这个过程是在控制中,则落在控制极限之外的概率是多少?⑶假设抽取样本之前,过程均值移动到,则由样本得出这个过程失控的(正确的)结论的概率是多少?解:(1).0.015(2).0.0026(3).0.1587\n27.参考第26题。肥皂公司决定设置比第26题中所述的这一限度更为严格的控制极限。特别地,当加工过程在控制中时,公司愿意接受落在控制极限外面的概率是0.10。⑴若公司仍想将控制极限度设在与均值的上下距离相等之处,并且仍计划在每小时的样本中使用个观察值,则控制极限应该设定在哪里?⑵假设(1)中的控制极限已付诸实施,但是公司不知道,现在是3%(而不是2%)。若,则落在控制极限外面的概率是多少?若呢?解:(1).(0.012,0.028)(2).0.6553,0.7278第四章:参数估计思考与练习思考题:1.简述评价估计量好坏的标准答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数的估计量有和,如果,称是无偏估计量;如果和是无偏估计量,且小于,则比更有效;如果当样本容量,,则是相合估计量。2.3.说明区间估计的基本原理答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。4.解释置信水平的含义。5.解释置信水平为95%的置信区间的含义答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。6.简述样本容量与置信水平、总体方差、允许误差的关系答:以估计总体均值时样本容量的确定公式为例:样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。练习题:1.从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。(1)样本均值的抽样标准差等于多少?(2)在95%的置信水平下,允许误差是多少?\n解:已知总体标准差σ=5,样本容量n=40,为大样本,样本均值=25,(1)样本均值的抽样标准差===0.7906(2)已知置信水平1-=95%,得=1.96,于是,允许误差是E==1.96×0.7906=1.5496。2.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。(1)假定总体标准差为15元,求样本均值的抽样标准误差;(2)在95%的置信水平下,求允许误差;(3)如果样本均值为120元,求总体均值95%的置信区间。解:(1)已假定总体标准差为=15元,则样本均值的抽样标准误差为===2.1429(2)已知置信水平1-=95%,得=1.96,于是,允许误差是E==1.96×2.1429=4.2000。(3)已知样本均值为=120元,置信水平1-=95%,得=1.96,这时总体均值的置信区间为=120±4.2=可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。3.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):3.33.16.25.82.34.15.44.53.24.42.05.42.66.41.83.55.72.32.11.91.25.14.34.23.60.81.54.71.41.22.93.52.40.53.62.5求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。解:⑴计算样本均值:将上表数据复制到Excel表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到=3.316667,⑵计算样本方差s:删除Excel表中的平均值,点击自动求值→其它函数→STDEV→选定计算数据列→确定→确定,得到s=1.6093\n也可以利用Excel进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=(a7-3.316667)^2”,回车,即得到各数据的离差平方,在最下行求总和,得到:=90.65再对总和除以n-1=35后,求平方根,即为样本方差的值s===1.6093。⑶计算样本均值的抽样标准误差:已知样本容量n=36,为大样本,得样本均值的抽样标准误差为===0.2682⑷分别按三个置信水平计算总体均值的置信区间:①置信水平为90%时:由双侧正态分布的置信水平1-=90%,通过2-1=0.9换算为单侧正态分布的置信水平=0.95,查单侧正态分布表得=1.64,计算得此时总体均值的置信区间为=3.3167±1.64×0.2682=可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(2.87,3.76)小时;②置信水平为95%时:由双侧正态分布的置信水平1-=95%,得=1.96,计算得此时总体均值的置信区间为=3.3167±1.96×0.2682=可知,当置信水平为95%时,该校大学生平均上网时间的置信区间为(2.79,3.84)小时;③置信水平为99%时:若双侧正态分布的置信水平1-=99%,通过2-1=0.99换算为单侧正态分布的置信水平=0.995,查单侧正态分布表得=2.58,计算得此时总体均值的置信区间为=3.3167±2.58×0.2682=可知,当置信水平为99%时,该校大学生平均上网时间的置信区间为\n(2.62,4.01)小时。4.从一个正态总体中随机抽取容量为8的样本,各样本值分别为:10,8,12,15,6,13,5,11。求总体均值95%的置信区间。解:(7.1,12.9)。5.某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(公里)分别是:103148691211751015916132求职工上班从家里到单位平均距离95%的置信区间。解:(7.18,11.57)。6.在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。求总体比率的置信区间,置信水平分别为90%和95%。解:已知样本容量n=200,为大样本,拥有该品牌电视机的家庭比率p=23%,拥有该品牌电视机的家庭比率的抽样标准误差为===2.98%⑴双侧置信水平为90%时,通过2-1=0.90换算为单侧正态分布的置信水平=0.95,查单侧正态分布表得=1.64,此时的置信区间为=23%±1.64×2.98%=可知,当置信水平为90%时,拥有该品牌电视机的家庭总体比率的置信区间为(18.11%,27.89%)。⑵双侧置信水平为95%时,得=1.96,此时的置信区间为=23%±1.96×2.98%=可知,当置信水平为95%时,拥有该品牌电视机的家庭总体比率的置信区间为;(17.16%,28.84%)。7.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。(1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%;(2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查?解:已知总体单位数N=500,重复抽样,样本容量n=50,为大样本,样本中,赞成的人数为n1=32,得到赞成的比率为p===64%(1)赞成比率的抽样标准误差为==6.788%\n由双侧正态分布的置信水平1-=95%,得=1.96,计算得此时总体户数中赞成该项改革的户数比率的置信区间为=64%±1.96×6.788%=可知,置信水平为95%时,总体中赞成该项改革的户数比率的置信区间为(50.70%,77.30%)。(2)如预计赞成的比率能达到80%,即p=80%,由=6.788%,即=6.788%得样本容量为n==34.72取整为35,即可得,如果小区管理者预计赞成的比率能达到80%,应抽取35户进行调查。8.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:来自总体1的样本来自总体2的样本(1)求90%的置信区间;(2)求95%的置信区间。解:(1.86,17.74);(0.19,19.41)。9.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:来自总体1的样本来自总体2的样本(1)设,求95%的置信区间;(2)设,,求95%的置信区间;(3)设,,求95%的置信区间;(4)设,,求95%的置信区间;(5)设,,求95%的置信区间。解:(1)2±1.176;(2)2±3.986;(3)2±3.986;(4)2±3.587;(5)2±3.364。\n10.下表是由4对观察值组成的随机样本:配对号来自总体A的样本来自总体B的样本1202573106485(1)计算A与B各对观察值之差,再利用得出的差值计算和;(2)设和分别为总体A和总体B的均值,构造95%的置信区间。解:(1),;(2)1.75±4.27。11.从两个总体中各抽取一个的独立随机样本,来自总体1的样本比率为,来自总体2的样本比率为。(1)构造90%的置信区间;(2)构造95%的置信区间。解:(1)10%±6.98%;(2)10%±8.32%。12.生产工序的方差是共需质量的一个重要度量。当方差较大时,需要对共需进行改进以减小方差。下面是两部机器生产的袋茶重量(克)的数据:机器1机器23.453.223.903.223.283.353.202.983.703.383.193.303.223.753.283.303.203.053.503.383.353.303.293.332.953.453.203.343.353.273.163.483.123.283.163.283.203.183.253.303.343.25构造两个总体方差比95%的置信区间。解:(4.06,14.35)。13.根据以往的生产数据,某种产品的废品率为2%。如果要求95%的置信区间,若要求允许误差不超过4%,应抽取多大的样本?解:已知总体比率=2%=0.02,由置信水平1-α=95%,得置信度=1.96,允许误差E≤4%即由允许误差公式E=整理得到样本容量n的计算公式:n===≥=47.0596由于计算结果大于47,故为保证使“≥”成立,至少应取48个单位的样本。\n14.某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个购物金额的置信区间,并要求允许误差不超过20元,应抽取多少个顾客作为样本?解:已知总体标准差=120,由置信水平1-α=95%,得置信度=1.96,允许误差E≤20即由允许误差公式E=整理得到样本容量n的计算公式:n=≥=138.2976由于计算结果大于47,故为保证使“≥”成立,至少应取139个顾客作为样本。15.假定两个总体的标准差分别为:,,若要求误差范围不超过5,相应的置信水平为95%,假定,估计两个总体均值之差时所需的样本容量为多大?解:57。16.假定,允许误差,相应的置信水平为95%,估计两个总体比率之差时所需的样本容量为多大?解:769。第五章:假设检验的基本原理思考与练习思考题:1.理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则。答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有:(1)原假设和备择假设是一个完备事件组。(2)一般先确定备择假设。再确定原假设。(3)等号“=”总是放在原假设上。(4)假设的确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒绝原假设。2.第I类错误和第II类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?答:第I类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为。第II类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为。在其他条件不变时,增大,减小;增大,减小。3.什么是显著性水平?它对于假设检验决策的意义是什么?答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设”\n的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的。4.什么是p值?p值检验和统计量检验有什么不同?答:p值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平,来控制犯第一类错误的上限,p值可以有效地补充提供地关于检验可靠性的有限信息。值检验的优点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性。5.什么是统计上的显著性?答:一项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义在于“非偶然的6.7.练习题:1.2.3.解(1)第I类错误是,供应商提供的炸土豆片的平均重量不低于60克,但店方拒收并投诉。(2)第II类错误是,供应商提供的炸土豆片的平均重量低于60克,但店方没有拒收。(3)顾客会认为第II类错误很严重,而供应商会将第一类错误看得较严重。4.解:提出假设已知(1)检验统计量为(2)拒绝规则是:若,拒绝;否则,不拒绝(3)由得:,拒绝,认为改进工艺能提高其平均强度。\n5.解:设为如今每个家庭每天收看电视的平均时间(小时)需检验的假设为:调查的样本为:大样本下检验统计量为:在0.01的显著性水平下,右侧检验的临界值为因为,拒绝,可认为如今每个家庭每天收看电视的平均时间增加了6.解:提出假设已知:检验统计量拒绝,可判定电视使用寿命的方差显著大于VCR7.解:提出假设:,独立大样本,则检验统计量为:而2.33因为,拒绝,平均装配时间之差不等于5分钟8.解:匹配小样本提出假设:由计算得:,检验统计量为,不拒绝,不能认为广告提高了潜在购买力的平均得分。\n9.解:提出假设:已知:大样本,则检验统计量为:而,因为,拒绝,可认为信息追求者消极度假的比率显著小于非信息追求者。10.解:提出假设:由题计算得:检验统计量为:,而,所以拒绝,认为两种机器的方差存在显著差异。11.第六章:方差分析与实验设计思考与练习思考题:练习题:1.(或),不能拒绝原假设。2.(或),拒绝原假设。,拒绝原假设;,不能拒绝原假设;\n,拒绝原假设。3.方差分析表中所缺的数值如下表:差异源SSdfMSFP-valueFcrit组间42022101.4780.2459463.354131组内383627142.07———总计425629————(或),不能拒绝原假设。4.有5种不同品种的种子和4种不同的施肥方案,在20快同样面积的土地上,分别采用5种种子和4种施肥方案搭配进行试验,取得的收获量数据如下表:(或),拒绝原假设。(或),拒绝原假设。5.(或),不能拒绝原假设。(或),不能拒绝原假设。6.(或),拒绝原假设。(或),不能拒绝原假设。(或),不能拒绝原假设。第七章:相关与回归分析思考与练习思考题:1.相关分析与回归分析的区别与联系是什么?答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。2.\n3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数:,或。总体回归函数是确定的和未知的,是回归分析所估计的对象。样本回归函数是根据样本数据所估计出的因变量与自变量之间的函数关系:或。回归分析的目的是用样本回归函数来估计总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参数是确定的,而样本回归函数的系数是随机变量;总体回归函数中的误差项不可观察的,而样本回归函数中的残差项是可以观察的。4.什么是随机误差项和残差?它们之间的区别是什么?答:随机误差项表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。残差项指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式:5.为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假定?答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,最小二乘估计量才是BLUE。6.7.8.9.10.11.12.13.14.\n15.为什么在多元回归中要对可决系数进行修正?答:在样本容量一定下,随着模型中自变量个数的增加,可决系数会随之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。16.在多元线性回归中,对参数作了t检验后为什么还要作方差分析和F检验?答:t检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和F检验就是对回归方程的整体统计显著性进行的检验方法。17.18.19.练习题:1.解:设简单线性回归方程为:(1)采用OLS估计:回归系数经济意义:销售收入每增加1万元,销售成本会增加0.786万元。(2)可决系数为:回归标准误:(3)检验统计量为:所以是显著不为零(4)预测:95%的预测区间为:\n即(664.579,674.153)2.美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》(TheWallStreetJournalAlmanac1999)上。航班正点到达的比率和每10万名乘客投诉的次数的数据如下:航空公司名称航班正点率(%)投诉率(次/10万名乘客)西南(Southwest)航空公司81.80.21大陆(Continental)航空公司76.60.58西北(Northwest)航空公司76.60.85美国(USAirways)航空公司75.70.68联合(United)航空公司73.80.74美洲(American)航空公司72.20.93德尔塔(Delta)航空公司71.20.72美国西部(Americawest)航空公司70.81.22环球(TWA)航空公司68.51.25(1)画出这些数据的散点图;(2)根据散点图。表明二变量之间存在什么关系?(3)求出描述投诉率是如何依赖航班按时到达正点率的估计的回归方程;(4)对估计的回归方程的斜率作出解释;(5)如果航班按时到达的正点率为80%,估计每10万名乘客投诉的次数是多少?解:(1)利用EXCEL制作数据散点图:将已知表格的后两列复制到Excel中,选择该表格后,点击:图表向导→XY散点图→确定,即得散点图如下:(2)根据散点图可以看出,随着航班正点率的提高,投诉率呈现出下降的趋势,说明航班整点率与投诉率两者之间,存在着一定的负相关关系。[利用Excel的统计函数“CORREL”计算得到相关系数r=-0.88261,属于高度负相关](3)求投诉率依赖航班正点率的估计的回归方程设投诉率为Y,航班正点率为X建立回归方程解法一:应用Excel函数计算:应用统计函数“SLOPE”计算直线斜率为:=-0.07041\n应用统计函数“INTERCEPT”计算直线与y轴的截距为:=6.017832解法二:应用Excel列表计算:作出Excel运算表格如下:航空公司名称航班正点率(%)投诉率(次/10万名乘客)x2xyxy西南(Southwest)航空公司81.80.216691.2417.178大陆(Continental)航空公司76.60.585867.5644.428西北(Northwest)航空公司76.60.855867.5665.11美国(USAirways)航空公司75.70.685730.4951.476联合(United)航空公司73.80.745446.4454.612美洲(American)航空公司72.20.935212.8467.146德尔塔(Delta)航空公司71.20.725069.4451.264美国西部(Americawest)航空公司70.81.225012.6486.376环球(TWA)航空公司68.51.254692.2585.625合计667.27.1849590.46523.215得回归系数为:==—0.0704144初始值===6.01783于是得回归方程为(4)参数的经济意义是:航班正点率每提高一个百分点,相应的投诉率(次/10万名乘客)下降7.0414*0.01≈0.07次。(5)航班按时到达的正点率为80%时,估计每10万名乘客投诉的次数可能为:(次/10万)3.表中是1992年亚洲各国人均寿命()、按购买力平价计算的人均GDP()、成人识字率()、一岁儿童疫苗接种率()的数据国家和平均寿命人均GDP成人识字率一岁儿童疫苗接种率\n序号地区(年)(100美元)(%)(%)1日本7919499992中国香港7718590793韩国708397834新加坡7414792905泰国695394866马来西亚707480907斯里兰卡712789888中国大陆702980949菲律宾6524909210朝鲜7118959611蒙古6323958512印度尼西亚6227849213越南6313899014缅甸577817415巴基斯坦5820368116老挝5018553617印度6012509018孟加拉国5212376919柬埔寨5013383720尼泊尔5311277321不丹486418522阿富汗4373235资料来源:联合国发展规划署《人的发展报告》(1)用多元回归的方法分析各国人均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系;(2)对所建立的回归模型进行检验。解:由Excel回归输出的结果可以看出:(1)回归结果为(2)由Excel的计算结果已知:对应的t统计量分别为0.51206、4.853871、4.222811、3.663731,其绝对值均大于临界值,所以各个自变量都对Y有明显影响。由F=58.20479,大于临界值,说明模型在整体上是显著的。4.5.\n6.已知某企业近年来的总成本和产量的数据:年份总成本(万元)产量(件)年份总成本(万元)产量(件)199632941020028639061997524608200313901223199842451220041157110719996297232005154813192000741811200617871424200110201009200729311541(1)用已知数据估计以下总成本函数的参数:(2)检验参数的显著性;(3)检验整个回归方程的显著性;(4)计算总成本对产量的非线性相关指数;(5)评价此回归分析存在什么不足。解:(1)用Excel输入Y和X数据,生成和的数据,用Y对X、、回归,估计参数结果为t=(-1.9213)(2.462897)(-2.55934)(3.118062)(2)检验参数的显著性:当取时,查t分布表得,与t统计量对比,除了截距项外,各回归系数对应的t统计量的绝对值均大于临界值,表明在这样的显著性水平下,回归系数显著不为0。(3)检验整个回归方程的显著性:模型的,,说明可决系数较高,对样本数据拟合较好。由于F=98.60668,而当取时,查F分布表得,因为F=98.60668>4.07,应拒绝,说明X、、联合起来对Y确有显著影响。(4)计算总成本对产量的非线性相关系数:因为因此总成本对产量的非线性相关系数为或R=0.9867466(5)评价:虽然经t检验各个系数均是显著的,但与临界值都十分接近,说明t检验只是勉强通过,其把握并不大。如果取,则查t分布表得\n,这时各个参数对应的t统计量的绝对值均小于临界值,则在的显著性水平下都应接受的原假设。7.表中给出对和回归的结果:离差来源平方和()自由度()平方和的均值()来自回归()65965来自残差()总离差()6604214(1)该回归分析中样本容量是多少?(2)计算;(3)和的自由度是多少?(4)计算可决系数和修正的可决系数;(5)怎样检验和对是否有显著影响?根据以上信息能否确定和各自对的贡献为多少?解:(1)该回归分析中样本容量是(2)计算(3)ESS的自由度为k-1=2,RSS的自由度n-k=15-3=12(4),(5)用F检验:,整体对有显著影响,但不能确定单个对y的贡献。第八章:时间序列分析与预测思考与练习思考题:练习题:1.某汽车制造厂2003年产量为30万辆。(1)若规定2004—\n2006年年递增率不低于6%,其后年递增率不低于5%,2008年该厂汽车产量将达到多少?(2)若规定2013年汽车产量在2003年的基础上翻一番,而2004年的增长速度可望达到7.8%,问以后9年应以怎样的速度增长才能达到预定目标?(3)若规定2013年汽车产量在2003年的基础上翻一番,并要求每年保持7.4%的增长速度,问能提前多少时间达到预定目标?解:此题答案的年份数字与书本上不一样,要注意设i年的环比发展水平为xi,则由已知得:x2003=30,(1)又知:,,求x2008由上得即为,从而2008年该厂汽车产量将达到得x2008≥30××=30×1.3131=39.393(万辆)从而按假定计算,2008年该厂汽车产量将达到39.393万辆以上。(2)规定,,求由上得==可知,2004年以后9年应以7.11%的速度增长,才能达到2013年汽车产量在2003年的基础上翻一番的目标。(3)设:按每年7.4%的增长速度n年可翻一番,则有所以(年)可知,按每年保持7.4%的增长速度,约9.71年汽车产量可达到在2003年基础上翻一番的预定目标。原规定翻一番的时间从2003年到2013年为10年,故按每年保持7.4%的增长速度,能提前0.29年即3个月另14天达到翻一番的预定目标。2.某地区社会商品零售额1988—1992年期间(1987年为基期)每年平均增长10%,1993—1997年期间每年平均增长8.2%,1998—2003年期间每年平均增长6.8%。问2003年与1987年相比该地区社会商品零售额共增长多少?年平均增长速度是多少?若1997年社会商品零售额为30亿元,按此平均增长速度,2004年的社会商品零售额应为多少?解:此题答案的年份数字与书本上不一样,要注意设i年的环比发展水平为xi,则已知的三段年均增长率表示为:\n,即为,即为,即为于是得:(1)以1987年为基期,2003年与1987年相比,该地区社会商品零售额的发展速度为:==(原解答案中,03~97为5年是错的,导致增长速度也是错的。下同)从而得知,2003年与1987年相比,该地区社会商品零售额共增长254.43%。(2)1987年至2003年之间,年平均发展速度为:==1.0822945=108.23%可知,1987年至2003年之间,年平均增长速度为8.23%。(3)若x1997=30亿元,按平均增长速度8.23%计算x2004,即由得x2004=(亿元)可知,按照假定,2004年的社会商品零售额应为52.1867亿元3.某地区国内生产总值在1991—1993年平均每年递增12%,1994--1997年平均每年递增10%,1998--2000年平均每年递增8%。试计算:(1)该地区国内生产总值在这10年间的发展总速度和平均增长速度;(2)若2000年的国内生产总值为500亿元,以后平均每年增长6%,到2002年可达多少?(3)若2002年的国内生产总值的计划任务为570亿元,一季度的季节比率为105%,则2002年一季度的计划任务应为多少?解:设i年的环比发展水平为xi,则已知的三段年均增长率表示为:,即\n,即,即(1)该地区国内生产总值在这10年间的发展总速度为=则平均增长速度为:(2)若x2000=500亿元,以后平均每年增长6%,即由得到x2002=(亿元),可知,若2000年的国内生产总值为500亿元,以后平均每年增长6%,到2002年可达561.80亿元。(3)若2002年的国内生产总值的计划任务为570亿元,一季度的季节比率为105%,则2002年各季度的平均计划任务是570÷4亿元,于是,2002年一季度的计划任务为:(亿元)。4.某公司近10年间股票的每股收益如下(单位:元):0.64,0.73,0.94,1.14,1.33,1.53,1.67,1.68,2.10,2.50(1)分别用移动平均法和趋势方程预测该公司下一年的收益;(2)通过时间序列的数据和发展趋势判断,是否是该公司应选择的合适投资方向?解:(1)*用移动平均法预测该公司下一年的收益:在Excel中作出10年间股票的每股收益表,添加“五项平均”计算列,选定“五项平均”列中的第三行单元格,点击菜单栏中“∑”符号右边的小三角“▼”,选择点击:自动求和→平均值,用鼠标选定前五个数据(b2:b6),回车,即得到第一个五项平均值“0.96”。选择第一个五项平均“0.96”所在的单元格,并将鼠标移动到该单元格的右下方,当鼠标变成黑“+”字时,压下左键并拉动鼠标到该列倒数第三行的单元格处放开,即得到用五项移动平均法计算的趋势值,如下表:年序每股收益五项平均10.64 —20.73 —30.940.9641.141.1351.331.3261.531.4771.671.66\n81.681.9092.10 —102.50 —再利用上表的计算结果预测第11年的每股收益:选定上Excel表中的全部预测值,并将鼠标移动到该选定区域的右下方,当鼠标变成黑“+”字时,压下左键并拉动鼠标到该列第11年对应的单元格处放开,即获得9~11年的预测值(见下表蓝色数字),即得第11年的每股收益额为“2.30”。如下表:年序每股收益五项平均10.64 —20.73 —30.940.9641.141.1351.331.3261.531.4771.671.6681.681.9092.101.99102.502.092.30*用趋势方程法预测该公司下一年的收益:先求出10年间股票每股收益的趋势(回归)方程。设时间为t,每股收益为y,趋势方程为y=β1+β2t解法一:应用Excel统计函数进行计算:⑴应用统计函数“SLOPE”计算直线斜率:①在表格外选定某单元格,作为直线斜率的放置位置,点击:菜单栏中“∑”右边的“▼”后,选择“其它函数”,在“插入函数”窗口中,点击“或选择类别(C)”输入栏右边的“∨”,选择“统计”,再在“选择函数(N)”中选择函数“SLOPE”,然后点击“确定”;②在“函数参数”窗口中,点击“Known_y’s”输入栏后,在Excel表中刷取y列数据,再点击“Known_x’s”输入栏后,在Excel表中刷取t列数据,然后点击“确定”。这时即在选定的单元格中出现直线斜率的计算结果0.192848⑵应用统计函数“INTERCEPT”计算直线与y轴的截距——直线起点值:①在表格外选定某单元格,作为直线斜率的放置位置,点击:菜单栏中“∑”右边的“▼”后,选择“其它函数”,在“插入函数”窗口中,点击“或选择类别(C)”输入栏右边的“∨”,选择“统计”,再在“选择函数(N)”中选择函数“INTERCEPT”,然后点击“确定”;②在“函数参数”窗口中,点击“Known_y’s”输入栏后,在Excel表中刷取y列数据,再点击“Known_x’s”输入栏后,在Excel表中刷取x列数据,然后点击“确定”。这时即在选定的单元格中出现直线斜率的计算结果0.365333解法二:应用最小二乘法,用Excel列表计算趋势方程的公式元素:\n年序每股收益t2tyty10.6410.6420.7341.4630.9492.8241.14164.5651.33256.6561.53369.1871.674911.6981.686413.4492.108118.9102.5010025合计5514.2638594.34可得:回归系数=初始值===0.365336于是,得每股收益倚年份序号的趋势方程为:对趋势方程代入t=11,可预测下一年(第11年)的每股收益为:元(2)时间数列数据表明该公司股票收益逐年增加,趋势方程也表明平均每年增长0.193元。是一个较为适合的投资方向。5.某县2000—2003年各季度鲜蛋销售量数据如下(单位:万公斤)年份一季度二季度三季度四季度200020012002200313.110.814.618.413.911.517.520.07.99.716.016.98.611.018.218.0(1)用移动平均法消除季节变动;(2)拟合线性模型测定长期趋势;(3)预测2004年各季度鲜蛋销售量。解:(1\n)由于应用移动平均法修匀数据由于周期性或季节性引起的波动,必须以周期或季节的长度作为时距的长度,因此对上面的数据作四项移动平均。先在Excel中将数据按年序和季度顺序排列成表,然后计算四项移动平均:选定“四项移动平均”列中的第三季度对应的单元格(实际位于第二、三季度之间,即上升半行的位置),点击:菜单栏中“∑”右边的“▼”后,选择“平均值”后,,在Excel表中刷取2000年的四个季度的销售量数据,回车,即获得第一个四项平均值。选定上Excel表中的第一个四项平均值,并将鼠标移动到该选定单元格的右下方,当鼠标变成黑“+”字时,压下左键并拉动鼠标到该列倒数第三行(实际位于第二、三季度之间,即上升半行的位置)的单元格处放开,即获得全部四项移动平均值。再计算移正平均:选定“移正平均”列中的第三季度对应的单元格,点击:菜单栏中“∑”右边的“▼”后,选择“平均值”后,,在Excel表中刷取头两个四项平均值,回车,即获得第一个移正平均值。选定上Excel表中的第一个移正平均值,并将鼠标移动到该选定单元格的右下方,当鼠标变成黑“+”字时,压下左键并拉动鼠标到该列倒数第三行的单元格处放开,即获得全部移正平均值。可见,移正后的数据基本上呈上升状态,已经消除了原来鲜蛋销售量的季节波动影响,为作数据的长期趋势分析提供了有效支持。数据如下表:移动平均法消除季节变动计算表年序季序鲜蛋销售量四项移动平均值移正平均值()2000年一季度13.1——二季度13.9——三季度7.910.87510.5875四季度8.610.3102001年一季度10.89.79.925二季度11.510.1510.45三季度9.710.7511.225四季度1111.712.452002年一季度14.613.213.9875二季度17.514.77515.675三季度1616.57517.05四季度18.217.52517.83752003年一季度18.418.1518.2625二季度2018.37518.35三季度16.9四季度18(2)设线性趋势方程为y=β1+β2t解法一:应用Excel统计函数计算趋势方程的系数:应用统计函数“SLOPE”计算直线斜率,得:β2=0.639853应用统计函数“INTERCEPT”计算直线与y轴的截距,得:β1=8.6925解法二:应用最小二乘法,用Excel列表计算趋势方程的公式元素:年别季别时序鲜蛋销售量t2tyty2000一113.1113.1\n 二213.9427.8 三37.9923.7 四48.61634.42001一510.82554 二611.53669 三79.74967.9 四81164882002一914.681131.4 二1017.5100175 三1116121176 四1218.2144218.42003一1318.4169239.2 二1420196280 三1516.9225253.5 四1618256288合计136226.114962139.4于是得:回归系数=初始值===8.6925从而,鲜蛋销售量倚季度变化的趋势方程为:(原答案中的两个系数均有误差。)(3)趋势剔出法季节比例计算表(一)年别季别时间序列号t鲜蛋销售量预测鲜蛋销售量趋势剔除值2000年一季度113.19.3323529411.403718878二季度213.99.9722058821.39387415三季度37.910.612058820.74443613四季度48.611.251911760.7643145612001年一季度510.811.891764710.908191531二季度611.512.531617650.917678812三季度79.713.171470590.736440167四季度81113.811323530.7964479272002年一季度914.614.451176471.010298368二季度1017.515.091029411.159629308三季度111615.730882351.0171076四季度1218.216.370735291.1117399232003年一季度1318.417.010588241.081679231二季度142017.650441181.133116153\n三季度1516.918.290294120.923987329四季度161818.930147060.950864245上表中,其趋势拟合为直线方程。趋势剔出法季节比例计算表(二)季度年度一季度二季度三季度四季度2000年1.4037191.3938740.7444360.764315—2001年0.9081920.9176790.736440.796448—2002年1.0102981.1596291.0171081.11174—2003年1.0816791.1331160.9239870.950864—平均1.1009721.1510750.8554930.9058424.013381季节比率%1.0973011.1472370.8526410.9028224.00000根据上表计算的季节比率,按照公式计算可得:2004年第一季度预测值:2004年第二季度预测值:2004年第三季度预测值:2004年第四季度预测值:6.某地区2000—2003年各月度工业增加值的数据如下(单位:亿元)年份1月2月3月4月5月6月7月8月9月10月11月12月20004.783.975.075.125.275.454.955.035.375.345.545.4420015.184.615.695.715.906.055.655.766.146.146.476.5520026.465.626.967.127.237.436.786.767.036.857.037.2220036.825.687.387.407.607.957.197.357.767.838.178.47(1)用原始资料平均法计算季节比率;(2)用移动平均法分析其长期趋势。解:(1)用原始资料法计算的各月季节比率为:月份1月2月3月4月5月6月季节比率0.91950.78680.99311.00291.02881.0637月份7月8月9月10月11月12月季节比率0.97220.98511.04071.03501.07651.0958\n平均法计算季节比率表:年别月份2000年2001年2002年2003年平均季节比率%1月4.785.186.466.825.808750.91952月3.974.615.625.684.970250.78683月5.075.696.967.386.27350.99314月5.125.717.127.406.335751.00295月5.275.907.237.606.499251.02886月5.456.057.437.956.71951.06377月4.955.656.787.196.14150.97228月5.035.766.767.356.2230.98519月5.376.147.037.766.5741.040710月5.346.146.857.836.538251.035011月5.546.477.038.176.800251.076512月5.446.557.228.476.92251.0958平均6.3172081.0000季节比率的图形如下:(2)用移动平均法分析其长期趋势年月序号工业总产值(亿元)移动平均移正平均Jan-0014.78Feb-0023.97Mar-0035.07Apr-0045.12May-0055.27Jun-0065.455.13Jul-0074.955.17Aug-0085.035.22Sep-0095.375.27Oct-00105.345.32Nov-00115.545.37\nDec-00125.445.115.43Jan-01135.185.145.49Feb-01144.615.205.55Mar-01155.695.255.62Apr-01165.715.305.69May-01175.905.355.77Jun-01186.055.405.87Jul-01195.655.465.97Aug-01205.765.526.06Sep-01216.145.586.18Oct-01226.145.656.29Nov-01236.475.736.40Dec-01246.555.826.51Jan-02256.465.936.60Feb-02265.626.016.68Mar-02276.966.126.74Apr-02287.126.236.80May-02297.236.356.85Jun-02307.436.466.89Jul-02316.786.556.91Aug-02326.766.646.93Sep-02337.036.716.96Oct-02346.856.776.98Nov-02357.036.827.02Dec-02367.226.887.06Jan-03376.826.917.10Feb-03385.686.917.15Mar-03397.386.947.23Apr-03407.406.977.31May-03417.607.007.41Jun-03427.957.04Jul-03437.197.08Aug-03447.357.12Sep-03457.767.19Oct-03467.837.27Nov-03478.177.36Dec-03488.477.46原时间序列与移动平均的趋势如下图所示:\n7.运用练习题9.7中国各月工业总产值的数据,作以下分析:(1)分析其长期趋势;(2)剔除长期趋势后分析其季节变动情况,并与练习题9.7的分析结果对比说明有何不同、为什么?(3)分析是否存在循环变动。解:(1)采用线性趋势方程法:剔除其长期趋势。趋势分析法剔除长期趋势表:年月序号工业总产值(亿元)长期趋势值剔除长期趋势Jan-831477.9467.06721.023193Feb-832397.2474.07370.837844Mar-833507.3481.08021.054502Apr-834512.2488.08671.049404May-835527495.09321.064446Jun-836545502.09971.085442Jul-837494.7509.10620.971703Aug-838502.5516.11270.973625Sep-839536.5523.11921.025579Oct-8310533.5530.12571.006365Nov-8311553.6537.13221.030659Dec-8312543.9544.13870.999561Jan-8413518551.14520.939861Feb-8414460.9558.15170.825761Mar-8415568.7565.15821.006267Apr-8416570.5572.16470.997091May-8417590579.17121.018697Jun-8418604.8586.17771.031769Jul-8419564.9593.18420.952318Aug-8420575.9600.19070.959528Sep-8421613.9607.19721.011039\nOct-8422614614.20370.999668Nov-8423646.7621.21021.041032Dec-8424655.3628.21671.043111Jan-8525645.7635.22321.016493Feb-8526562.4642.22970.875699Mar-8527695.7649.23621.071567Apr-8528712656.24271.084964May-8529723.1663.24921.090239Jun-8530743.2670.25571.108831Jul-8531678677.26221.001089Aug-8532676684.26870.987916Sep-8533703691.27521.016961Oct-8534685.3698.28170.981409Nov-8535703.3705.28820.997181Dec-8536722.4712.29471.014187Jan-8637681.9719.30120.948003Feb-8638567.6726.30770.781487Mar-8639737.7733.31421.005981Apr-8640739.6740.32070.999027May-8641759.6747.32721.016422Jun-8642794.8754.33371.053645Jul-8643719761.34020.944387Aug-8644734.8768.34670.956339Sep-8645776.2775.35321.001092Oct-8646782.5782.35971.000179Nov-8647816.5789.36621.034374Dec-8648847.4796.37271.064075剔除长期趋势后分析其季节变动情况表:年份月份1983年1984年1985年1986年季节比率%1月1.0231930.9398611.0164930.9480030.9818882月0.8378440.8257610.8756990.7814870.8301983月1.0545021.0062671.0715671.0059811.0345794月1.0494040.9970911.0849640.9990271.0326225月1.0644461.0186971.0902391.0164221.0474516月1.0854421.0317691.1088311.0536451.0699227月0.9717030.9523181.0010890.9443870.9673748月0.9736250.9595280.9879160.9563390.9693529月1.0255791.0110391.0169611.0010921.01366810月1.0063650.9996680.9814091.0001790.996905\n11月1.0306591.0410320.9971811.0343741.02581212月0.9995611.0431111.0141871.0640751.030234(3)运用分解法可得到循环因素如下图:第九章:统计指数思考与练习思考题:练习题:1.给出某市场上四种蔬菜的销售资料如下表:品种销售量(公斤)销售价格(元/公斤)基期计算期基期计算期白菜5505601.601.80黄瓜2242502.001.90萝卜3083201.000.90西红柿1681702.403.00合计12501300────⑴用拉氏公式编制四种蔬菜的销售量总指数和价格总指数;⑵再用帕氏公式编制四种蔬菜的销售量总指数和价格总指数;⑶比较两种公式编制出来的销售量总指数和价格总指数的差异。解:设销售量为q,价格为p,则价值量指标、数量指标、质量指标三者关系为:销售额=销售量×价格qp=q×p于是,对已知表格标注符号,并利用Excel计算各综合指数的构成元素如下:品种销售量(公斤)销售价格q0p0q0p1q1p0q1p1(元/公斤)基期计算期基期计算期q0q1p0p1白菜5505601.61.88809908961008黄瓜22425021.9448425.6500475\n萝卜30832010.9308277.2320288西红柿1681702.43403.2504408510合计12501300──2039.22196.821242281于是代入相应公式计算得:⑴用拉氏公式编制总指数为:四种蔬菜的销售量总指数四种蔬菜的价格总指数⑵用帕氏公式编制总指数:四种蔬菜的销售量总指数为四种蔬菜的价格总指数为⑶比较两种公式编制出来的销售量总指数和价格总指数,可见:拉氏指数>帕氏指数在经济意义上,拉氏指数将同度量因素固定在基期。销售量总指数说明消费者为保持与基期相同的消费价格,因调整增减的实际购买量而导致实际开支增减的百分比;价格总指数说明消费者为购买与基期相同数量的四种蔬菜,因价格的变化而导致实际开支增减的百分比。帕氏指数将同度量因素固定在计算期。销售量总指数说明消费者在计算期购买的四种蔬菜,因销售量的变化而导致实际开支增减的百分比;价格总指数说明消费者在计算期实际购买的四种蔬菜,因价格的变化而导致实际开支增减的百分比。2.某企业共生产三种不同的产品,有关的产量、成本和销售价格资料如下表所示:产品种类计量单位基期产量计算期产量单位成本销售价格A件2703405065B台32358001000C吨190150330400⑴分别以单位产品成本和销售价格为同度量因素,编制该企业的帕氏产量指数;⑵试比较说明:两种产量指数具有何种不同的经济分析意义?解:设产量为q,单位成本为p,销售价格为r,则价值量指标、数量指标、质量指标三者关系为:产值=产量×价格,总成本=产量×单位成本qr=q×r,qp=q×p⑴*以单位产品成本p为同度量因素,编制该企业的帕氏产量指数Pq:选择已知表格中的单位产品成本和产量数据,标注符号,并利用Excel计算帕氏产量指数的构成元素如下:产品计量单位产量计算期单位成本q0p1q1p1基期计算期\nq0q1p1A件270340501350017000B台32358002560028000C吨1901503306270049500合计————10180094500于是,以单位产品成本为同度量因素,编制该企业的帕氏产量指数为*以销售价格r为同度量因素,编制该企业的帕氏产量指数Pq再选择已知表格中的价格和产量数据,标注符号,并利用Excel计算帕氏产量指数的构成元素如下:产品计量单位产量计算期销售价格q0r1q1r1基期计算期q0q1r1A件270340651755022100B台323510003200035000C吨1901504007600060000合计————125550117100于是,以价格为同度量因素,编制该企业的帕氏产量指数为⑵比较说明两种产量指数不同的经济分析意义:以单位产品成本为同度量因素编制的该企业的帕氏产量指数说明,按计算期计算的三种产品,因产量的变化而导致总成本增减的百分比。以销售价格为同度量因素编制的该企业的帕氏产量指数说明,按计算期计算的三种产品,因产量的变化而导致总产值增减的百分比。3.给出某市场上四种蔬菜的销售资料如下表:品种销售额(元)个体价格指数(%)基期计算期白菜880.01008112.50黄瓜448.047595.00萝卜308.028890.00西红柿403.2510125.00合计2039.22281─⑴用基期加权的算术平均指数公式编制四种蔬菜的价格总指数;⑵用计算期加权的调和平均指数公式编制四种蔬菜的价格总指数;⑶再用基期加权的几何平均指数公式编制四种蔬菜的价格总指数;⑷比较三种公式编制出来的销售价格总指数的差异。解:设销售量为q,价格为p,则个体价格指数为ip,销售额指标、销售量指标、价格指标三者关系为:销售额=销售量×价格\nqp=q×p⑴求用基期加权的算术平均指数公式编制四种蔬菜的价格总指数:用基期加权的算术平均价格指数为作Excel表格计算公式元素:品种基期销售额(元)个体价格指数(%)ipq0p0q0p0ip白菜880112.5990黄瓜44895425.6萝卜30890277.2西红柿403.2125504合计2039.2─2196.8用基期加权的算术平均价格指数为:;⑵用计算期加权的调和平均指数公式编制四种蔬菜的价格总指数用计算期加权的调和平均价格指数公式为作Excel表格计算公式元素:品种计算期销售额(元)个体价格指数(%)q1p1/ipq1p1ip白菜1008112.5896黄瓜47595500萝卜28890320西红柿510125408合计2281─2124即得用计算期加权的调和平均价格指数为:⑴用基期加权的几何平均指数公式编制四种蔬菜的价格总指数(课本无此内容)5.利用第3题的资料和计算结果,试建立适当的指数体系,并就蔬菜销售额的变动进行因素分析。\n解:对总量的变动进行因素分析的方案为,亦即,或者为:根据第3题的资料和计算结果得:上述关系说明:四种蔬菜的销售量增长4.16%,使销售额增加84.8元;价格上涨7.39%,使销售额增加157元。两因素共同作用的影响,使销售额增长11.86%,增加总额为241.8元。5.已知某地区1997年的农副产品收购总额为360亿元,1998年比上年的收购总额增长12%,农副产品收购价格总指数为105%。试考虑,1998年与1997年对比:⑴农民因交售农副产品共增加多少收入?⑵农副产品收购量增加了百分之几?农民因此增加了多少收入?⑶由于农副产品收购价格提高5%,农民又增加了多少收入?⑴验证以上三方面的分析结论能否保持协调一致。解:答案年份数据与课本不一致,注意这是因素分析题型,应该应用指数体系,题中,农副产品收购总额、收购量与收购价格的关系为:收购总额=收购量×收购价格qp=q×p则已知,V=1+12%,,⑴求1998年与1997年对比农民因交售农副产品共增加的收入额,亦即收购总额的增量:\n由已知得(亿元)⑵农副产品收购量增加百分比为:由指数体系得,农民因此增加的收入,亦即为农副产品收购量增加导致收购总额增加量:由于,得到于是,(亿元)⑶由于农副产品收购价格提高5%,亦即,农民增加的收入,由于(亿元)⑷验证以上三方面的分析结论:由于而对比得又由于而,对比得可见,指数体系成立,说明,以上三方面的分析结论能保持协调一致。6.下表是某工业管理局所属五个企业的各项经济效益指标资料:\n参评指标单位标准值A企业B企业C企业D企业E企业权数产品销售率%97.4875.4090.0095.5090.4085.4015资金利税率%13.5512.2014.1013.5011.5014.0030成本利润率%8.417.609.508.408.506.9015增加值率%29.0025.3029.0028.5025.4026.7010劳动生产率元/人62055800632072506800540010资金周转率次/年1.831.601.852.101.901.8020试运用“标准比值法”计算各企业的工业经济效益综合指数,并按综合效益的好坏对其进行排序。解:依据有关公式列表计算各企业的工业经济效益综合指数如下:各企业经济效益综合指数一览表(标准比值法)参评指标标准比值或个体指数(%)权数A企业B企业C企业D企业E企业产品销售率77.3592.3397.9792.7487.6115资金利税率90.04104.0699.6384.87103.3230成本利润率90.37112.9699.88101.0782.0515增加值率87.24100.0098.2887.5992.0710劳动生产率93.47101.85116.84109.5987.0310资金周转率87.43101.09114.75103.8398.3620综合指数87.73102.41104.0395.0194.03─排名52134─7.依据上题的有关资料,试运用“改进的功效系数法”计算各企业的工业经济效益综合指数,并按综合效益的好坏对其进行排序。比较上面两种方法给出的综合评价结果的差异,并就产生这种差异的原因进行深入分析,借以加深对有关综合评价方法的认识。解:依据有关公式列表计算各企业的工业经济效益综合指数如下表:各企业经济效益综合指数一览表(改进的功效系数法)参评指标阈值改进的功效系数权数满意值不允许值A企业B企业C企业D企业E企业产品销售率95.5074.5060.0089.52100.0090.2980.7615资金利税率14.1011.5070.77100.0090.7760.0098.4630成本利润率9.506.9070.77100.0083.0884.6260.0015增加值率29.0025.3060.00100.0094.5961.0875.1410劳动生产率7250540068.6579.89100.0090.2760.0010资金周转率2.101.6060.0080.00100.0084.0076.0020\n综合指数────65.5091.9793.9574.9778.05──排名────52143──上面两种方法给出的综合评价结果的差异表现在D、E两个企业的综合经济效益排名不同。原因在于两种方法的对比标准不同(以下具体说明)。第十章:国民经济统计基础知识思考与练习思考题:练习题:1.生产法GDP=168760亿元;分配法GDP=168755亿元使用法GDP=154070亿元国内生产净值=149755亿元(按生产法计算)国民总收入=165575亿元(按收入法计算)国民可支配总收入=167495亿元国民可支配净收入=148490亿元消费率=67.95%(按可支配总收入计算)储蓄率=32.05%(按可支配总收入计算)投资率=27.31%(按使用法GDP计算)2.国民财富总额为:216765亿元3.生产法GDP增长速度为8.69%;紧缩价格指数为102.83%。使用法GDP增长速度为8.25%。紧缩价格指数为103.25%。4.