- 681.59 KB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
现代应用统计学丛书商务经济统计学耿修林编著北京\n内容简介本书主要介绍了统计方法在商业经济活动中的应用,是专门为从事商业经济管理理论研究和实际工作者编写的。在编写过程中主要参考了在国外非常流行的商业经济类教科书StatisticsforBusinessandEconomics(A.S.Williams)第七版,并结合作者个人的教学体会及长期从事统计学学习和科研的有关心得。本书可作为经济管理类本科生、研究生的教科书和教学辅助资料,以及经济管理人员学习的参考书。图书在版编目(CIP)数据商务经济统计学/耿修林编著.—北京:科学出版社,2003 (现代应用统计学丛书)ISBN703011647X Ⅰ商… Ⅱ耿… Ⅲ商务经济统计学 ⅣF7123中国版本图书馆CIP数据核字(2003)第047197号责任编辑:卢秀娟/文案编辑:邱璐/责任校对:包志虹责任印制:安春生/封面设计:耕者设计室科学出版社出版北京东黄城根北街16号邮政编码:100717http://www.sciencep.com源海印刷有限责任公司印刷科学出版社发行各地新华书店经销2003年11月第一版开本:B5(720×1000)2006年8月第二次印刷印张:361/4印数:3001—4000字数:697000定价:4800元(如有印装质量问题,我社负责调换枙新欣枛)\n前言“受人之托,忠人之事”。自从接受任务起,至今将近一年半了,在这段时间里,除了完成自己本职的教书任务之外,剩下的几乎都搭在这本书上。其中,手写一遍、录入一遍、修改一遍,回想起来,真是不无艰难和困苦。但是,值得欣慰的是,我终于熬过来了,终于完成了科学出版社同志的重托。在此,我要万分感谢科学出版社高教分社的同志,特别是卢秀娟女士,正是她的高度信任,才使我有了这样一个十分美好的机会。统计学是一门适应性非常强的学科,在社会经济管理领域的各个方面几乎都有重要的应用。了解现代统计学的基本思想,掌握现代统计学的基本方法,对增强社会经济现象的认识能力,改善社会科学研究的手段和面貌,提高实际工作的决策水平,可以说是“有百利而无一害”。在枟商务经济统计学枠这本书中,我们系统地讲解了在商务经济活动中比较有用的各种统计方法。根据我们的体会,全书具有如下几个值得介绍的“特点”:(1)运用通俗易懂、深入浅出的语言,对现代统计学的基本思想做了比较完整的介绍。学习统计学的关键,不在于懂得几个统计方法,而在于如何培养现代统计学的思考方式,只有掌握了统计学的这个“式”,最终才能做到“势如破竹”。(2)结合统计方法的介绍,精心选编了大量的例题和习题,以便读者能够将方法的学习和方法的应用相互结合起来,在进一步熟悉统计方法及其原理的同时,也能学会和掌握统计方法应用的技巧。(3)详细而又非常清晰地介绍了Excel、MinitabB在统计数据处理中的应用。现代统计学的大发展,尤其是在实践中的广泛应用,同计算机这个现代工具的普及和应用有着千丝万缕的关系,在学习统计学的时候,注意掌握一些统计数学软件的使用方法,不仅有必要而且也是必不可少的。(4)各章几乎都附有相应的案例,以训练综合运用统计方法的能力。在这本书的编写过程中,我们主要参考和借鉴了如下这些著作的长处和优点:D.R.Anderson、D.J.Sweeney、T.A.Williams:StatisticsforBusinessandEconomics(7thed.),B.L.Bowerman、R.T.O’Connell:AppliedStatisticsImprovingBusinessProcesses,T.Sincich:BusinessStatisticsbyExample(5thed.),J.T.McClave、P.G.BensonStatistics:ForBusinessandEconomics(6thed.),R.V.Hogg、A.T.Craig:IntroductiontoMathematicalStatistics(5th\n·ii· 前言ed.),J.M.Utts、R.F.Heckard:MindonStatistics,D.S.Moore、G.P.McCabe:IntroductiontothePracticeofStatistics(3thed.)等等。在此,我们要表示诚挚的谢意。尽管我们付出了非常艰辛的劳动,但书中存在的疏陋乃至错误在所难免,恳请读者给予谅解并批评指正。作者2003年7月于南京大学\n目录前言第一章导论…………………………………………………………………(1)第一节统计学的作用与意义…………………………………………(1)第二节统计学的概念及其性质………………………………………(3)第三节描述统计学与推断统计学……………………………………(4)第二章统计数据的来源及其质量…………………………………………(9)第一节统计数据的来源………………………………………………(9)第二节统计数据的分类………………………………………………(15)第三节统计数据的质量………………………………………………(18)复习思考题………………………………………………………………(23)第三章数据资料的统计描述:统计表与统计图…………………………(25)第一节定性资料的统计描述…………………………………………(25)第二节定量数据的统计描述…………………………………………(27)第三节探索性数据分析———茎叶图…………………………………(32)第四节相关表与相关图………………………………………………(36)第五节软件应用介绍…………………………………………………(38)复习思考题………………………………………………………………(40)案例讨论…………………………………………………………………(45)第四章数据资料的统计描述:数值计算…………………………………(47)第一节集中趋势………………………………………………………(47)第二节离散测度………………………………………………………(59)第三节协方差与相关系数……………………………………………(64)第四节相对位置测度与奇异点………………………………………(67)第五节探索性分析———5点描述与箱线图…………………………(69)第六节软件使用说明…………………………………………………(70)复习思考题………………………………………………………………(74)案例讨论…………………………………………………………………(79)第五章概率初步……………………………………………………………(82)第一节几个概念………………………………………………………(82)第二节试验结果的概率………………………………………………(85)\n ·iv· 目录第三节事件的概率……………………………………………………(88)第四节概率运算法则…………………………………………………(89)第五节条件概率………………………………………………………(91)第六节贝叶斯定理……………………………………………………(93)复习思考题………………………………………………………………(95)案例讨论…………………………………………………………………(99)第六章随机变量与概率分布………………………………………………(101)第一节随机变量………………………………………………………(101)第二节概率分布………………………………………………………(102)第三节概率分布的特征数字…………………………………………(106)第四节常见的离散型分布……………………………………………(109)第五节重要的连续型分布……………………………………………(121)复习思考题………………………………………………………………(129)案例讨论…………………………………………………………………(132)第七章抽样与抽样分布……………………………………………………(134)第一节几个重要概念…………………………………………………(134)第二节经典抽样问题…………………………………………………(137)第三节大数法则与中心极限定理……………………………………(139)第四节三大推断分布…………………………………………………(143)第五节典型的抽样分布………………………………………………(146)复习思考题………………………………………………………………(156)第八章参数统计估计………………………………………………………(159)第一节点估计…………………………………………………………(159)第二节区间估计的基本问题…………………………………………(171)第三节总体均值的区间估计…………………………………………(175)第四节总体比例的区间估计…………………………………………(184)第五节总体方差的区间估计…………………………………………(188)第六节样本容量的确定………………………………………………(191)复习思考题………………………………………………………………(195)案例讨论…………………………………………………………………(197)第九章参数假设检验………………………………………………………(200)第一节假设检验的基本问题…………………………………………(200)第二节总体均值检验…………………………………………………(206)第三节总体比例检验…………………………………………………(214)第四节总体方差检验…………………………………………………(218)\n目录 ·v· 复习思考题………………………………………………………………(224)案例讨论…………………………………………………………………(227)第十章非参数统计方法……………………………………………………(229)第一节概述……………………………………………………………(229)第二节拟合优度检验…………………………………………………(230)第三节独立性检验与齐一性检验……………………………………(237)第四节符号检验………………………………………………………(242)第五节威尔科克森秩检验……………………………………………(246)第六节游程检验………………………………………………………(250)第七节多个样本的非参数检验………………………………………(252)第八节秩相关检验……………………………………………………(256)复习思考题………………………………………………………………(261)案例讨论…………………………………………………………………(265)第十一章方差分析…………………………………………………………(266)第一节几个基本问题…………………………………………………(266)第二节单因素方差分析………………………………………………(269)第三节两因素方差分析………………………………………………(281)复习思考题………………………………………………………………(297)案例讨论…………………………………………………………………(301)第十二章简单回归分析……………………………………………………(303)第一节引言……………………………………………………………(303)第二节简单线性回归理论模型及其假定……………………………(306)第三节模型求解与性质讨论…………………………………………(307)第四节参数估计与检验………………………………………………(313)第五节模型的代表性分析……………………………………………(320)第六节回归估计、预测和控制………………………………………(324)第七节简单非线性回归分析…………………………………………(331)复习思考题………………………………………………………………(334)案例讨论…………………………………………………………………(337)第十三章多元回归分析与建模……………………………………………(338)第一节多元线性回归模型及其假定…………………………………(338)第二节模型求解及性质………………………………………………(340)第三节多元线性回归模型的统计分析………………………………(345)第四节多元非线性回归分析…………………………………………(352)第五节回归分析建模…………………………………………………(356)\n ·vi· 目录复习思考题………………………………………………………………(365)案例讨论…………………………………………………………………(368)第十四章时序分析与动态预测……………………………………………(370)第一节综述……………………………………………………………(370)第二节时间序列的对比分析…………………………………………(374)第三节时间序列的分解与假定模型…………………………………(380)第四节长期趋势的测定与预测………………………………………(385)第五节季节变动的测定与预测………………………………………(403)第六节循环变动的测定………………………………………………(410)复习思考题………………………………………………………………(411)案例讨论…………………………………………………………………(414)第十五章指数分析…………………………………………………………(416)第一节概述……………………………………………………………(416)第二节综合指数………………………………………………………(418)第三节平均指数………………………………………………………(425)第四节指数体系与指数因素分析……………………………………(431)复习思考题………………………………………………………………(438)第十六章抽样调查…………………………………………………………(441)第一节抽样调查的基本问题…………………………………………(441)第二节简单随机抽样…………………………………………………(443)第三节分层随机抽样…………………………………………………(449)第四节整群抽样………………………………………………………(457)第五节系统抽样………………………………………………………(461)复习思考题………………………………………………………………(465)第十七章统计质量管理……………………………………………………(470)第一节质量波动因素及质量数据……………………………………(470)第二节质量分析的一般方法…………………………………………(473)第三节控制图…………………………………………………………(482)第四节产品质量验收抽样检验………………………………………(491)复习思考题………………………………………………………………(502)案例讨论…………………………………………………………………(504)第十八章多元统计方法……………………………………………………(506)第一节多元统计数据的图形显示……………………………………(506)第二节多元正态分布及其统计推断…………………………………(510)第三节判别分析………………………………………………………(515)\n目录 ·vii· 第四节主成分分析……………………………………………………(522)第五节因子分析………………………………………………………(527)第六节典型相关分析…………………………………………………(534)复习思考题………………………………………………………………(537)附录常用的统计分布表……………………………………………………(539)附录A标准正态分布表………………………………………………(539)附录Bt分布表………………………………………………………(540)2附录C χ分布表………………………………………………………(541)附录DF分布表………………………………………………………(543)附录E二项分布表……………………………………………………(548)附录F泊松分布表……………………………………………………(560)附录G随机数表………………………………………………………(566)附录HX-R控制图查对表…………………………………………(567)附录I威尔科克森配对秩检验临界值表……………………………(568)附录JSpearman等级相关系数检测临界值表………………………(569)附录KKendall和谐相关系数S临界值表…………………………(569)\n第一章导论今天,统计这个词对大多数人来说已经不感到陌生了。只要翻开报纸和杂志,我们就能见到诸如此类的话:上半年GDP增长了43个百分点,商品房的销售量平均每年以85万套的速度递增,通用汽车公司大约有37%的小汽车是在北美之外的地区销售的,失业率降至24年来的最低点为25%,道·琼斯30种工业股票的收盘价为891649点等。这里的43个百分点、85万、37%、25%、891649就是统计活动的结果,可以称之为统计数据或统计资料。话说回来,作为一门科学的统计学,它的研究范围和活动目标比单纯的统计数据资料似乎要广泛得多。在这一章里,我们先结合一些具体的事例阐明统计学在商务经济活动中的作用,以期能激发大家学习统计学的兴趣和热情,继之我们将介绍统计学的概念及其性质,最后简要解释一下现代统计学的两大体系,即描述统计学和推断统计学。第一节统计学的作用与意义统计学的用途非常广泛,在工农业生产和商业活动方面,在社会学和政治学方面,在史学和考古方面,在物理、化学和生物方面,在天文地理方面,在交通运输和能源供应方面,在医学和保健方面,在教育和文化方面,在保险和社会福利方面,在纯科学研究和实验等方面,基本上都要用到统计工具。统计的语言是数字资料,它总是同数字资料打交道的,随着商务经济活动全球一体化气候的逐渐形成,有愈来愈多的统计资料可以利用,可以毫不夸张地说,一个成功的商务经济管理人员,必定是那些能深入发掘商务统计信息并加以有效利用的人。下面我们主要介绍统计学在商务经济活动中的几个比较典型的应用。(1)经济学领域的应用。经济管理是统计方法得到较早和较多应用的一个领域。搞经济学研究的人,时常要对宏观经济的未来发展情况进行预测。在做这项工作的时候,就要利用统计资料和统计方法。比如,预测通货膨胀率时,需要使用生产者价格指数、失业率和制造业能力利用情况统计资料。把这些统计指标输进预测模型,便可得出未来的通货膨胀率预测值。为检验和验证某个经济理论观点是否正确,也可以利用统计资料和统计工具来帮助解决。比如,在经济增长中,究竟是货币政策还是财政政策起的作用大,在某一时期的居民消费支出中,\n·2·第一章导论居民可支配收入因素到底起着怎样的作用,随着社会开放程度的增加,居民消费习惯发生了什么样的变化等。(2)生产领域的应用。统计方法在生产领域也有广泛的应用。我们知道,现在的企业一般都非常重视产品的质量,质量控制就是统计方法在生产领域中的一个重要应用。各种各样的统计质量控制图,可以用于检测生产过程的产出情况。这其中,X控制图的作用尤为突出。比如,要检查一台灌装机的作业是否正常,我们可以按一定的时间间隔分别抽取10分钟的装成品,然后检测它们的净重,并求出其均值,再在X控制图上逐一描绘出相应的坐标点,如果坐标点越出管理控制线的上下界,则可以判定灌装机出现了异常波动,应进行调整,反之可以认为作业过程处于正常状态。(3)金融领域的应用。金融顾问师为了能够拿出投资建议,需要使用各种各样的统计信息。就股票交易来说,顾问师们会搜集诸如收益价与红利比这些财务数据,通过把每只股票与证券市场的平均值进行比较,就可以判定哪些股票升值哪些股票贬值。比如,与道·琼斯30种工业股票平均指数相比,甲种股票的平均收益价比为20,与此同期的乙种股票的收益价比为152,据此我们不难看出,乙种股票的价格同其收益相比偏低了。有了这些信息,金融顾问师就可以做出乙种股票定价偏低的结论,如果再有其他信息可用,便能提供是买进、卖出或者持有的建议。再比如证券投资的组合问题,我们知道通过进行有效的投资组合可以减小投资风险,那么在面对证券市场上有各种各样的投资机会时,投资者如何根据证券的业绩和对收益风险的偏好选择最理想的证券组合呢?对此,统计学方法可以帮助他们了解和衡量证券的风险水平,并且对证券组合后的收益进行分析。(4)市场营销领域的应用。广告是商品促销的重要手段之一,现实中可供选择的广告渠道有若干种,对某种商品而言,什么样的广告方式才能既有利于扩大商品的销售,同时又能最大限度地减少广告投入费用,解决这一问题,统计学就能够发挥作用。零售柜台结算处摆放的电子扫描仪,往往也被用于搜集资料,由电子扫描仪记录下来的商品销售的数量、品名等情况,在营销研究中有着广泛的用途。国际上一些知名的咨询公司会花费重金购买零售店电子扫描仪储存下来的资料,这些资料经过咨询公司分门别类的加工处理后,可以向有关产品的制造商有偿出售。据统计,为了获得扫描仪中的资料,美国的制造商们在每类商品上平均花费了将近38700美元。制造商购买这些资料,主要用于制定产品价格、确定仓库储备量时参考。电子扫描仪记录下来的资料,还可以帮助管理人员分析促销活动和销售量之间的关系,进而为各种产品制定行之有效的营销策略。(5)会计学领域的应用。作为市场中介机构的会计师事务所,在应它的客户要求审查财务账目时,通常需要用到统计抽样技术。比如,某会计师事务所接受\n第二节统计学的概念及其性质·3·一笔业务,要去检查资产负债表上应收账款总额是否与实际应收账款相吻合,对此,如果把应收账款逐一进行对照,由于数量巨大,势必会花费很多时间,从经济学的角度看也是代价昂贵的。实际中的做法是,会计师会从这些账目中选取一部分作为样本,然后对样本账目进行认真细致的审查,并以此做出应收账款是否在资产负债表上得到正确反映的结论。以上介绍的,只是统计学在商务经济活动中应用的一部分内容,但是一叶而知秋,由此我们不难看出,统计学是搞好商务活动和经济管理,提高经营管理决策水平的重要工具。第二节统计学的概念及其性质关于统计学的含义,到目前为止,人们的看法还不尽一致。有的人认为,统计学是一门数学学科,属于应用数学,主要以概率论为基础,解决如何根据样本资料去推断总体情况的;有的人认为,统计学是一门决策性质的科学;有的人认为,统计学是研究大量的随机现象数量规律的科学。这些看法都有一定的道理,但在这里,我们从一般意义上给出统计学的解释。所谓统计学是指,关于数据资料搜集、整理、分析和解释的一门科学。统计学是研究客观现象数量的,要达到这个认识目的,首先要搜集能够反映或说明客观现象的数字资料,这是统计活动首要的、基本的环节。搜集资料,就是计数和获取量数的过程。统计资料的质量如何,直接关系到能否得出客观的正确的结论。统计整理在统计活动过程中,处于承上启下的位置。一方面它是统计搜集资料工作的继续,另一方面又是统计分析的前提,能够为统计分析准备系统的资料形式。统计整理,就是运用各种合适的形式展示和表述统计资料。统计分析就是从已有的数据资料出发,提取有关综合信息的过程,其目的是要使一个概括的、全面的数量描述能够形成。在统计分析的基础上,导出一般性结论的过程就是统计解释,它往往涉及如何依据样本观察,对同类大量现象做出估计、检验、预测等问题。统计解释不是别的,其实质就是进行统计推断活动。完整的统计活动过程,就是由资料搜集、整理、分析和解释这四个部分组成的。它们虽然各有各的任务和作用,但又存在着密切的联系,只有同时做好各项工作,才能圆满地完成统计活动的任务。统计学是一门什么性质的科学,统计方法有哪些特点,了解这些东西,有助于我们正确掌握统计的基本原理,提高统计问题的认识能力。统计学的性质,主要表现在以下几个方面:(1)统计学是研究数量问题的学问。统计的语言是数字,没有数字,不是从数量方面入手进行认识,就谈不上统计。无论是社会科学还是自然科学,只要出\n·4·第一章导论现大量数据的地方,统计方法就能发挥作用。统计研究的客观事物的数量,主要包括数量状态、数量关系和数量变化规律。(2)统计学研究的是客观现象总体的数量。数量有个体数量与总体数量之别,统计学主要研究后者,它要对大量同类现象的数量方面进行综合反映。单个数字不能称为统计,只有对大量现象进行观察,才有可能找到统计关系和统计规律。统计虽然研究总体数量,但必须从个体数量的调查入手,遵循由个体数量到总体数量的认识逻辑。(3)统计学主要研究不确定性现象。所谓不确定性是指,由于受到偶然的、随机因素的作用,使得客观事物的实际数量表现,存在一定程度的“不可确知性”。在现代统计学中,处理不确定性问题,是统计学的主要课题和任务。(4)统计方法带有归纳推断的特点。统计认识有两条途径,一是对构成研究对象的全部事物逐一进行调查,取得全面资料,另一是从全部研究对象中抽取部分事物组成样本,然后依据样本观察结果对总体进行推断。至于前者,运用算术方法和统计描述手段就可达到目的,而后者相对比较复杂,需要运用概率论知识和统计学方法。统计方法的归纳推断性质,主要是相对推断统计而言的,同逻辑学意义上的归纳推断有明显的区别,统计推断不是从假设、命题出发,按严格的逻辑推理程序进行推断,只是基于观察到的样本情况,对总体的可能情况作出判断。第三节描述统计学与推断统计学描述统计学和推断统计学构成了现代统计学的两大方法体系,两者之间没有截然的界线,只是根据统计学发展的年代大致所作的划分。统计学家内曼认为,R费暄之前的统计学可称为描述统计学,此后发展起来的统计学属于推断统计学。描述统计学与推断统计学之间存在着密切的联系,前者是后者的基础,后者是前者的深化和发展。本节,我们只给出描述统计学与推断统计学的简单介绍,好让大家建立一个印象,后面我们将着重介绍描述和推断方法以及它们的应用。一、描述统计学报纸、杂志、新闻报道以及其他出版物中登载的统计信息,绝大部分是由数据资料组成的。为了便于读者阅读,这些资料常常被表达成各式各样的表格、图形等。那么,有关数字资料总结概括的方法,常被称为描述统计学,包括统计图、统计表和计算出来的数值。通过统计手段搜集来的数据资料,主要是大量的数字,它们是经济活动现实的、具体的反映。有了这些数字资料,我们可以对总体情况进行分析,并做出相\n第三节描述统计学与推断统计学·5·应的解释结论。为某一专门的研究目的而搜集来的数据资料,称之为数据集。表11中的资料构成一个数据集,共包括25个上市公司的财务信息。表1125个上市公司的财务指标一览表股票名称交易所记号年交易额(百万美元)每股价格(美元)价格收益比爱华德软件OTCAWRD15711500225切皮克能源NYSCHK25537880127克莱格股份NYSECRG2941700075爱迪托资源AMEXEDT2546968860弗兰克电力NYSEFED88712880157杰特软件OTCGNTI2775750274巨人集团NYSEGPO72656321最新主题OTCHOTT48315750272哈德逊通用AMEXHGC30239750112ICU医药OTCICUI2658500157杰波特合伙NYSEJ90610875170肯特克信息OTCKNTK6059500114拉斯康姆OTCLARS71110313246鲁米斯思OTCLUMI2377375142梅娜德石油OTCMOIL3821075048机器动态OTCMDII2606688171迈卡系统AMEXMKA67215250157国民健康OTCNHHC349513077国民技队OTCTEAM78110875320俄卡德OTCOCAD21911375183澳美洲OTCOROA16485125160澳兰德数据OTCOVRL6657000135PIA销售OTCPIAM12307500288莱纽姆出版OTCPLEN52544000107朴雷米研发OTCPRWW1658250284资料来源:StockInvestorPro,AmericanAssociationofIndividualInvestors,August,31,1997对表11中的数据,可以用描述统计方法对它进行总结和概括。比如,将表11中的交易所编制成如下的频数分布(见表12)。\n·6·第一章导论表1225个公司交易地点的频数分布情况交易所名称NYSEAMEXOTC合计频数531725百分比/%201268100同样,我们也可以用图的形式表示交易发生场所的情况(见图11)。采用图表方法表示资料,其优点是醒目鲜明,便于人们直观地进行认识和解释。从表12和图11中,很容易看出大部分股票是在柜台之外的场所中实现交易的。用百分比来衡量,大约有68%的股票属于场外交易,图11 25个公司交易地点的分布情况12%的股票在美国股票交易所成交,20%在纽约股票交易所成交。对于表11中的股票价格收益比资料,可以用直方图来显示(见图12)。根据图12,不难看出股票价格收益率的变化范围为0~35,其中多数为10~20。除了表格和图形手段,在对数据资料进行总结概括时,数值计算性质的描述统计方法也常常是一个重要的工具。最常见的数值描述统计方法就是均值或平均数。根据表图12 25个公司股票价格收益比率11中的年成交额资料,计算出来的年平均交易额为6880万美元。通常,人们把平均数或均值看成是数据集的中值测度,或者是中心位置。近年来,人们对描述统计方法的发展怀有极大的兴趣,的确也提出了一些新颖的方法。关于描述统计方法的更多内容,我们在本书的第三、四章中将作进一步的介绍。二、推断统计学在许多场合,搜集数据资料的目的主要是为了认识总体的情况。出于时效、费用和其他条件的考虑,经常只从总体中抽取一部分元素构成样本,然后通过对样本数据的搜集和分析进而上升到对总体的认识。\n第三节描述统计学与推断统计学·7·所谓总体是指,在某一专门问题的研究中,人们感兴趣的所有元素构成的全体。而样本是指,总体中的一部分元素所构成的集合,也可以这样来说,即样本是总体的子集。现代统计学的主要作用,就是根据样本资料对统计总体的一些特征进行估计和检验。所有这一切,统称为统计推断。下面我们来举一个例子,以说明什么叫统计推断。Norris公司生产出一种可用于各种电子产品的高色饱和灯泡,现在还想提高该型号灯泡的使用寿命,对于这个问题,总体就是用新型灯丝生产出来的所有灯泡。为了评估新型灯丝的良好性能,从已生产出来的灯泡中抽取200个作为样本,并一一进行测试,得到每只灯泡持续使用多少小时的数据资料,具体情况见表13。表13200个灯泡的使用时间(小时)107736897767994599857546571708488886179986662798668746182659862116658864797879778674857380687889725869927888771038863688881759062897171747074706581756294718584836381627983936165629265837070817772846759587866669477636675687690787110178435967617196756476727774658286668696898171859959926872776087848577514585678780849369768975836872679289829977102749176836668617372767377799463596271816573636389826485926473假设Norris公司关心的是,所有新型灯泡的平均使用寿命是多少小时。首先把这200个数字累加起来再除以200,便得到样本平均数76。据此,可以认为全部灯泡的平均使用寿命是76个小时。为清晰地反映统计推断的过程,我们用图形进行说明(见图13)。无论什么时候,当我们用样本资料推断统计总体时,必须要说明推断结论的质量或精确程度。就上面Norris公司的例子来说,统计人员应该交代清楚全部\n·8·第一章导论图13 灯泡使用寿命的统计推断过程新型灯泡的平均使用寿命为76小时,并且还要补充说明其估计精度为4个小时。因此,72~80即为灯泡使用寿命的区间估计,在此之外,还要说明总体平均使用寿命在72~80之间的置信程度。描述统计与推断统计的关系及认识过程如图14所示。图14 描述统计与推断统计的关系\n第二章统计数据的来源及其质量统计学是从数量角度研究社会经济问题的,因此准备数据资料是实际统计工作的前提条件。只有数据资料准确,我们才有可能得到正确的反映和认识。这一章将主要介绍统计数据的一些常用的搜集方法,鉴于数据资料和统计学之间的密切关系,我们也将介绍统计数据的分类及相应的统计处理办法。另外,还对数据资料的质量问题进行讨论。第一节统计数据的来源统计数据有两大来源:一是“直接来源”,另一是“间接来源”。通过统计调查和试验研究搜集来的第一手资料,统称为数据资料的直接来源,在此之外通过各种渠道搜集来的第二手资料,我们称之为数据资料的间接来源。一、直接来源统计调查和统计试验是统计学获得数据资料的两大手段,从根本上讲,所有的统计资料几乎都来源于统计调查和统计试验。其中,统计调查包括:普查、随机抽样调查、判断抽样调查、任意抽样调查、配额抽样调查等。1普查普查是专门组织的、一次性全面调查,主要用来搜集某一时点或一定时期内现象总量资料的。普查是一种古老的调查手段,当初主要用于人口统计。由于它在掌握全面情况中的独特作用,后来被用到许多问题的调查。普查作为获取全面资料的有效途径之一,仍然保持着特殊的地位,并且在科学性、准确性、广泛性方面还得到了进一步的加强。当今世界各国,几乎都举行过普查活动,许多国家还把普查明确规定为一项制度,每隔一定时期就举行一次。通过普查所得到的资料,在了解国情国力,制订社会发展规划,确定重大决策方面,发挥着重要的作用。现代普查活动一般具有下列几个特征:(1)定期举行。为保证各个普查期资料的可比性,通常要求在同样的时间间隔内举行普查。(2)依法进行。将普查活动用法律条文明确规定下来,以维护普查的严肃性和合法性,使其能够顺利地进行。\n·10·第二章统计数据的来源及其质量(3)应用广泛。过去的普查,主要是人口普查,现在它几乎在社会经济管理领域的方方面面都有应用,如农业普查、工业普查、国土资源普查、教育状况普查、住房普查等。(4)质量控制。从道理上讲,普查对总体单位逐一进行登记,应该能够取得到准确的资料,可是由于涉及面广、经办人员多、工作量浩大等原因,经常会出现差错。现代普查活动,十分重视普查的组织工作和技术手段,同过去相比,普查资料的准确性已大有提高。(5)计算机介入。运用计算机处理普查资料,给普查注入了新的活力,大大提高了普查效率和普查结果公布的时效性。利用普查搜集资料也有许多不足之处。举行一次专门的普查活动,要耗费大量的人力、物力和财力,从准备调查方案、设计表格、试点、培训普查员,到实施调查以及后续的资料整理和分析,需要持续较长的时间。因此,应该结合调查对象的特点和统计任务的要求,综合运用各种搜集资料的方法。2随机抽样调查在统计调查方法体系中,随机抽样调查由于具备一般非全面调查的长处,同时又可以通过科学的推算达到对统计总体的认识,因而是一种最常用、最重要的获取统计资料的手段。所谓随机抽样调查是指,按照随机性原则,从调查对象(总体)中抽取一部分单位组成样本,然后根据样本调查的结果,对总体情况进行推断。随机抽样调查的特征表现在:第一,按照随机性原则确定观察单位。在抽样调查中,究竟要对哪些单位进行调查,不取决于调查者与被调查者的主观愿望,完全随机会而定。理论上一般要求,总体中的每一个单位都应有同等的可能性被抽到。随机性原则是随机抽样调查的基本原则,遵守这个原则可以避免统计估计的系统性误差,另一方面只有符合抽样随机性原则,才能计算出抽样估计误差。第二,根据部分单位的调查结果,对总体进行科学推断。抽样调查既是搜集资料的方法,同时也是对统计总体进行认识的方法。就这一点来说,抽样调查和普查的作用是一样的,只不过采用的具体途径有所不同而已,用抽样资料对总体进行认识,需要依据统计估计和归纳推断。第三,抽样误差可以计算。用样本资料推断总体,必然会产生误差,但抽样估计误差的大小可以计算出来,并且还能进行控制。随机抽样调查组织实施起来非常灵活和方便,具有普查等全面调查不可比拟的优势。在实际中,经常要用随机抽样调查搜集资料的就有:家计调查、居民消费调查、民意测验、物价统计、市场行情预测、产品质量抽样检验、工序控制与能力分析、人口调查、工农业生产调查、犯罪调查、库存调查、抽样审计等。\n第一节统计数据的来源·11·3判断抽样调查判断抽样调查是指,通过对调查对象进行深入细致的分析和了解,并结合统计研究任务的需要,在此基础上有意识地选取一部分单位进行调查。比如,在编制生活消费价格指数的时候,对消费品的选取、价格的采集、样本地区的决定等,往往就采用这种调查办法。为了解全国钢铁企业生产经营的基本情况,只选取那些特大型企业进行调查,这也是判断抽样调查的应用。同随机抽样调查相比,判断样本不凭“机会”来定,而是在对调查对象的有关特征做了相当了解的基础上选择出来的。判断抽样调查对了解新情况、新问题非常有用,能够帮助人们进行“解剖麻雀式”的研究,同时也有助于摸清调查对象的基本情况。另外,判断样本的回收率一般比较高。但是也要注意到,判断调查大都不能用于对统计总体的推断,在样本选取的时候,最好能避免调查人员的主观偏差。4任意抽样调查这种调查方式在民意测验、新闻采访中使用比较多。任意样本的确定,一般取决于调查者的现场判断、方便和被调查人是否愿意配合。如果调查对象的各个组成成分比较“均质”,任意抽样调查的效果往往具有较高的代表性。任意抽样调查同随机抽样调查一样,调查费用少,省时且又方便易行,但如果搞得不好,容易造成结果的不可靠性较大。5配额抽样调查在进行抽样调查之前,先对总体进行分解处理,把总体划分成各个不同的组别,并且规定每一组别的抽样数目,至于在各个组别中最终抽出哪些单位,则由调查人员自行决定,像这样的抽样调查方法称为配额抽样调查。配额抽样要解决两个关键问题:一是如何对总体进行划分,二是每一个组别的样本数目怎样确定。配额抽样也具有省时省钱的特点,并且样本在总体中的分散程度比较好。如果抽样方案设计完善,调查员素质高,配额抽样调查结果的可信度和可靠性就比较理想。6试验设计科学试验是进行科学研究的重要手段,在许多学科中都有着积极的作用。科技成果的取得,需要科学试验,科学理论的产生,不仅仅来源于生产实践、社会实践,也来自于科学试验研究。科学猜想和假说是否正确,需要通过实践来检验,这其中就包括试验活动。统计中的试验设计是科学试验研究的重要组成部分,但与通常意义上的科学试验存在着一定的区别。统计试验不涉及试验室设备,也不是去测量某一物理量的绝对值,或验证某一现象是否绝对存在。统计试验首先是产生数据的计划,然后用统计方法对这些数据进行分析,目的是要从数据的考察中发现人们感兴趣的\n·12·第二章统计数据的来源及其质量因素对试验结果的影响程度,以便采取相应的行动方案。例如,在化工生产中,原料成分、原料剂量、反应温度、反应时间、催化剂、压力、设备、操作规程等,可能会对产品的质量和数量产生影响,这些因素的作用效果一般是不一样的,有的可能大些,有的可能小些,有的甚至无关紧要。为了确保良好的经济效益和社会效益,就需要做试验,找出影响显著的因素,并制定最优的工艺条件。再比如,药品生产企业想了解一种新药对血压的影响,此时血压就是感兴趣的变量,而新药的不同剂量水平是影响血压的因素,为了掌握新药的影响效果,可以选择一批试验者作为样本,把他们进行分组,每一组的人让其服用不同剂量的药,此后对每一组人的血压进行测量,这样便能得到各组人的血压资料,通过统计分析,可以知道该种新药是怎样影响血压变化的。作为统计范畴的试验即试验设计,包括五个相互关联的环节,分别是:(1)方案设计。一次统计试验能否有助于对问题的认识,试验方案的设计可以说至关重要。制定试验方案时,要尽量保证每一个非被试验因素对被试验因素的作用相同,以突出被试验因素的效应,合理优化试验次数,避免不必要的浪费。(2)方案实施。严格按照试验方案,认真做好每一次试验。(3)采集数据。对试验结果进行测量,取得试验数据资料。(4)数据分析。运用统计方法,对试验数据进行分析,形成相应的结论。(5)优化生产和行动方案。根据数据分析的结果,提出优化工艺组合和行动方案的建议。虽然从搜集资料的角度看,统计调查和统计试验共同构成统计获取资料的两个基本手段,但是它们二者之间是存在一定差别的。统计调查同试验研究不同,它不试图控制人们感兴趣的变量。比如,在访问调查中,需要研究的问题事先要被确定下来,然后要设计调查问卷,在问卷打印出来之后,向受试者分发问卷让其按要求填写,收回问卷的同时也就获得了研究变量的数据。在这一过程中,并没有对研究变量试图施以什么控制和影响。调查资料是“自然资料”,是调查对象业已存在的自然而然发生的结果,而试验资料是“生成资料”,是人为控制试验条件产生的。在搜集资料的过程中,人的地位不同,统计调查中人是被动的,他只能进行观察和记录,不能试图改变什么,可是在试验设计中,人是主动的,可以在一定范围内自由搭配试验因素。二、间接来源搞统计调查,做科学试验,总需要一定的条件。对大多数人而言,在进行日常科学研究和社会管理活动中,主要索取的是现成的资料。在某些场合,所需要的资料可能在公司或组织内部的历史材料中。当今所有的公司几乎都建立了自己\n第一节统计数据的来源·13·的数据库(表21),有关雇员、客户以及业务方面的资料应有尽有。雇员薪酬、年龄、在本公司的工作年限,这些资料从内部人事档案中可以整理出来。关于销售、广告支出、销售成本、存货水平以及生产规模等资料,通常也可以从公司内部相关部门的业务记录中取得。绝大部分公司都保留着它们的顾客的详细背景材料。表21公司内部业务记录中可用的数据资料类别典型资料员工记录姓名、住址、社会保障号码、工资及奖金、出勤、假期生产记录产品数量、质量水平、技术、直接的人工成本、原料成本存货记录库存、订货成本、订货批次、交货日期、折扣、使用量销售记录销售量、销售地区、客户类型、销售成本、销售利润信用记录信用等级、信贷限额、应收账款、资金能力、行业前景客户记录年龄、职业背景、工作单位、收入水平、爱好、文化教育一些专门从事数据资料采集的组织,能够提供大量的商务经济数据。利用这些外部资料,对于公司来说不失为是一条较好的途径。在美国,DunBradstreet和DowJonesCompany是两大能够提供广泛的商务数据服务的公司,A.C.Nielsen和InformationResources已经建立起了含有1亿万个数据的商务数据库,并向生产制造商们出售。政府部门是另外一个二手资料的重要来源,比如美国国家劳动保障部保存着相当庞大的就业率、工资率、劳动力规模和工会成员资料。表22是美国部分政府部门所能提供的数据资料。表22美国部分政府机构及其提供的数据政府部门提供数据普查局总人口数及其构成,居民户数及其构成,居民户收入及其构成储备委员会货币供应量,分期贷款信贷,汇率,贴现率预算委员会收入,支出,联邦政府债务商务部主要是商务活动数据,比如:制造业装运价值总额,利润水平,以及成长产业和衰退产业资料在我国,国家统计局是全社会最大的信息中心,从那里可以获得社会、经济、文化、科技、人口等各方面的数据资料。各个专业部委也能提供社会经济某\n·14·第二章统计数据的来源及其质量一方面的统计数据,比如:银行部门能提供货币流通量、居民储蓄等方面的资料,国内贸易部门能提供商品流通、市场供求方面的资料;证券委能提供股票交易、收益方面的资料;民政部能提供社会贫困人口、社会救济规模等方面的资料;劳动部能提供社会就业情况资料;社会保障部可以提供社会养老金发放、医疗保障等方面的资料;教育部能提供教育投入、中小学学生人数、高等教育办学规模等方面的资料。除上面所说之外,各种各样的产业协会和一些特殊利益组织,也会收集和提供统计数据,例如旅游协会能够提供游客数、各地旅游支出这些与旅游业有关的信息,它们是旅游公司乃至个人都感兴趣的。再如大学生就业指导委员会掌握了学生特征和毕业管理教育规划方面的数据。一般而言,这些资料的大部分对于符合条件的人都是可以利用的,并且无须花费多大的代价。近年来,随着因特网产业的飞速发展,从网络渠道中获得资料,逐渐形成了一条重要途径。大多数政府部门采集和加工后的资料,几乎都发布在网上。例如www.census.gov.com就是美国人口普查局的网站,那里传送着大量的数据,只要轻轻敲击一下鼠标,便可查阅到美国各个县的普查数据,以及最新的经济指标等。现在,许多大企业已经建立了自己的网站,并同公共网站联网。只要进入这些网站,就能获得产品及其他各种信息。因此,有越来越多的公司专门从因特网上搜寻可利用的信息。管理人员要想把数据和统计分析作为决策的依据,必须要认识到搜集资料所需花费的时间和代价。如果时间要求紧迫,对二手资料的使用未必就不理想。如果重要的数据不能直接从现有的渠道中得到,那么运用直接手段搜集资料所必须花费的额外时间和费用就要进行考虑,不管怎样,决策人应该考虑统计分析对决策过程的意义。数据采集成本及随后的统计分析,不能超过因信息而做出了好的决策所产生的价值。利用间接资料需要注意:第一,应结合研究和分析问题的目的,有针对性地获取资料。第二,估计间接资料的可用价值。有些历史资料尽管保存完好,但与已经发生变化的现实相去甚远,可能不能用来说明和论证新的问题。间接资料大多经过了加工整理,原始的背景资料可能没法找到。资料保存不完全,或由于其他原因,导致数据缺失过多等这些情况的出现,都会降低间接资料的使用价值。第三,注意指标的含义、口径、统计方法是否具有可比性。随着社会经济的发展和社会管理的需要,统计制度也会发生相应的改变,反映在统计指标上,可能指标的名称没有改变,但它的社会经济含义却发生了变化,与此相关也有统计范围、统计方法上的前后不一致的现象。因此,在使用不同时期的统计资料时,要考虑对资料进行必要的调整,力求保证资料间的可比性。\n第二节统计数据的分类·15·第四,注意弥补缺失资料。凡是不完整的历史资料,应根据需要和可能,设法进行适当的补充。第五,进行质量检查。要对间接资料逐项进行甄别,对存在问题的数据及时进行剔除或纠正。第二节统计数据的分类在统计研究中,可能用到的数据资料的种类,主要包括:定性资料与定量资料、截面资料、时间序列资料与平行资料等。熟悉统计数据资料的类别性质,对我们有针对性地确定合适的统计分析方法很有帮助。一、定性资料与定量资料测量是获得统计数据的基础性工作,所谓测量就是对客观现象的研究特征即变量指派数字的活动,指派的规则不同便会产生不同种类的测量结果。按变量测量结果的表现形式,数据资料可分为定性资料和定量资料两大类别,其中定性资料包括定类数据和定序数据,定量资料包括定距数据和定比数据。与定性资料相联系的变量称为属性变量,与定量资料相联系的变量称为数量变量(图21)。1定类数据定类数据是一种使用最低级别的测量水平而得到的结果,它的主要特征是采用文字、数字代码和其他符号对事物进行简单的分类或分组。比如,对人口按性别、民族、行政区划、婚姻状况等做归类统计,对生产出来的产品按日期分类,再如像汽车的牌照、足球运动员图21 统计数据分类运动衫上的号码、个人的社会保险代码等,皆属于定类数据。再比如,表11中的股票名称、交易所、记号也属于定类数据。使用定类数据时,各个类别的叫法只表明类别的名称而已,至于类别之间的关系,不作任何假定。实际中,由于某种习惯使然,人们常常把某一类别排在另一类别的前面,例如人口性别统计中,常把男性放在女性前面,但不能因此而认为男性就比女性优越。为便于计算机识别和信息传输,对于定类性质的统计资料,人们往往给每一个类别赋予数字代码,如男性用1表示、女性用0表示,但这就好像是给商品贴上标签一样,仅是示意性的,并不说明对这些数字可以直接进行数学运算。很显然,把男性的1和女性的0加起来,是没有什么意义的。分类或分组做到穷尽,并且类别间两两互不重叠,那么这样的定类资料便具备了使\n·16·第二章统计数据的来源及其质量用统计程序最起码的要求了。形式上,定类数据具有对称性和传递性。对称性的含义是,类别甲对类别乙的关系,也就是类别乙对类别甲的关系。传递性是指甲和乙同类,乙和丙同类,则甲和丙也一定属于同一类别。2定序资料语义上表现出明显的等级或顺序关系的定类资料,称为定序资料。学生的考试成绩分成优秀、良好、中等、及格与不及格,工人按技术水平划分成一级工、二级工等,产品按品质分成合格品和不合格品,军队中的军衔级别,社会学中的分层研究,文化程度和学历等,都是常见的定序资料。定序资料和定类资料同属于定性资料,但定序资料比定类资料含带的信息量有所增加。根据定序资料,我们不仅能正确区分事物的类型,而且还可以说明类别间的差别关系。定序资料的具体意义,可用带有比较级意味的词语来表示,如更高、更好、更小、更差、更难等。在定序资料之间,能够进行差别和好坏的比较,但差别或好坏的程度,仍然无法给出具体的概念。例如,某个学生统计学考了优秀,另一个学生得了良好,我们只知道前一个学生比后一个学生学得更好,可是好到什么程度,仍难以给出明确的回答。定序资料保留了定类资料的传递性,比如在社会分层理论中,处于上层社会人的社会地位比中间阶层高,处于中间阶层人的社会地位比下层高,那么上层社会人的社会地位肯定比下层人高得多。定序资料不具有对称性,我们不能说上层人的社会地位比下层人高,且又比下层人低。在定序资料中,保序变换不会改变定序资料的信息,这就是说,如果要给定序资料的各个类别赋予数码,只要保持前后一致就可以了,至于是用大的数字还是用小的数字表示“较高”、“较好”、“较差”,原则上不影响对问题的认识。3定距资料具有定序资料所有特征,并且任意两个数之间可以比较差距大小的统计资料就是定距资料。学生的考试成绩用百分制来表示,人的年龄精确到周岁,产品的产量使用件数、千克、吨计量单位。如果做到了这一点,实际上也就获得了定距统计资料。由定距测量水平得到的资料,不仅可以比较事物间的好坏差别,而且还可以计算出它们差别的多少,例如某学生统计学测验得了90分,另一学生得了75分,容易看出,前一个学生比后一个学生考得好,两个人得分相差15分。定距资料之中的任何两个距离之间的比值,与采用的测量单位和零点无关。比如:温度可以用摄氏和华氏来表示,尽管得到的答数不同,但它们提供的信息量完全相等,我们知道,摄氏和华氏温度存在这样的转换关系,即F=18C+32,F代表华氏,C代表摄氏,假定C=0、10、30,则F=32、50、86,在摄氏温度中30与10相差20,10与0相差10,这两个差值的比值为2,在华氏温度中相应的比值也是2。比较定距数据之间的间隔距离可以用比值方法,可是直接把两个定距资料相除却没有意义。比如,我们可以说40度比20度高20度,但不能\n第二节统计数据的分类·17·说40度是20度的2倍。定距资料是最高级别的统计资料,所有常用的统计方法包括参数方法和非参数方法,都可以用于定距资料的分析研究。4定比资料与定距资料一样,定比资料也是最高级别的测量资料,它们的惟一区别在于,定比资料拥有一个“绝对零点”的测量原点,而定距资料却没有这样的一个原点。因此,定比资料可解释为:具有定距资料所有的性质特征,并且有一个绝对原点的资料,比如收入、产量、重量、体积、距离等。在表11中,年交易额、每股价格、价格收益比,就是定比资料。通过定比测量水平得到的资料,任意两个数的比值与计量单位无关,20千克与5千克的比为4,20000克与5000克的比也是4,因此当我们用一个常数遍乘定比资料时,不会改变数据间的比例关系。定比资料具有下列四个特征:①等价性;②大于或小于关系;③任两个数据间距离相比有意义;④任两个数值相比也有意义。区分定性资料和定量资料十分必要,因为不同性质的资料只能采用不同的统计方法来处理。像定量资料可以进行加减乘除运算,并且计算的结果完全具有实际意义,可是经过数量化处理后的定性资料,即使正确地运用了数学运算规则,其结果也不具有任何价值。二、截面资料、时间序列资料与平行资料就某种统计分析的目的而言,区分截面资料和时间序列资料也很重要。1截面资料截面资料是指在同一时刻上搜集起来的有关总体各个单位的资料。表11就是一个截面数据集,因为它描述了25个上市公司5个变量在同一时点上的具体表现。通过截面资料,可以分析总体内部的构成情况,了解社会经济现象在空间范围内发展变化的差异。2时间序列资料将在若干个时间上搜集来的资料按时间的先后顺序排列在一起,便得到时间图22 分期贷款信贷占可支配收入百分比曲线图\n·18·第二章统计数据的来源及其质量序列资料。时间序列资料有时又称为动态资料,通过这些资料,我们可以考察同一现象在不同时间上发展变化的过程,掌握社会经济现象动态变化的趋势,从而帮助我们进行预测分析。由时间序列资料可以绘制出动态曲线图,图22就是根据某地区分期贷款信贷占可支配收入百分比资料绘制而成的。3平行资料截面资料和时间序列资料交织在一起的资料,便构成平行资料。例如,将某公司20个子公司近12个月的销售收入编排起来,得到一个由240项数据组成的数据集,这个数据集,既具有截面资料的特征,同时又有时间序列资料的特征,因而它属于平行资料。对于截面资料和时间序列资料,人们已经找到了大量的统计处理方法,可是对平行资料,目前还缺少有效的统计分析手段。第三节统计数据的质量在运用统计资料说明问题的时候,我们首先需要注意数字资料的发生误差的可能性,因为使用存在误差的资料比根本不使用任何数据资料更为有害。统计的语言和工作方式是统计资料,统计资料的准确性和可靠性如何,这是统计工作的生命。有鉴于此,我们除了在搜集资料的过程中注意采用合适的方法之外,再就是要加强对数字资料的评估和调整,力争获得可靠的、对制订经济决策有用的统计信息。统计是用数据表达思想和进行认识的,它活动的全过程都在与数据打交道,从资料的搜集开始,直至后续的整理、描述、对比分析、估计、预测,每一个环节都少不了数据。统计数据质量控制,应该贯穿于统计活动的所有过程,但其中以调查阶段的数据质量最为重要,是重点需要关注的对象。所以,本节我们主要讨论调查数据的质量问题。一、数据误差数据质量可以从误差的角度进行评价,为使数据质量的检查有一个定量描述的依据,我们把统计数据质量解释为,获得的观察值与客观现象实际数量水平之间的离差。离差大说明数据质量差,离差小表明数据质量好。对于计数性质的统计活动,如果总体的范围比较小,是可以获得准确的资料的,如一个班级的学生人数,工厂拥有的大型设备的台数,某城市现有公交车的数量等,但如果总体范围很大,要想获得十分准确的计数值就比较困难了,比如全国的人口数等。对那些需要经过测量才能知道结果的,如土地面积、粮食产量等,绝对准确的数据根本不可能得到。因此,客观现象的实际数量水平究竟应怎\n第三节统计数据的质量·19·样看待它,不解决这个问题,数据质量的定量刻画仍然不能实现。现象的实际数量水平,可分为二层意思,一是真值,即客观现象真正存在的数量状态,它是惟一的但往往不易取得,二是相对真值,它是根据事先确定下来的统计方案,正确实施该方案的各项规定而应该取得的值。相对真值与真值之间会存在一定的差异,这种差异的大小应以不过多影响统计认识为前提,否则说明统计方案存在着问题,不能保证统计目的和任务的实现。真值和相对真值概念表明,在一次统计活动中,如果确实掌握了真值(主要是小规模的计数统计),那就把观察值与真值作比较以判断数据的质量,不然的话,就与相对真值作比较,从方案执行情况的检查入手,进行质量评估。若用误差来衡量数据质量,则统计数据质量定量描述的基本公式为误差=观察值-相对真值(21)令Di表示第i个观察值的误差,Xi表示第i个观察值,Zi表示对应于Xi的相对真值,那么式(21)又可用符号表示成Di=Xi-Zii=1,2,…,n(22)Di可能取正号,也可能取负号。Di=0时,说明观察值Xi是准确的,若Di≠0,则说明Xi不准确。对式(22)两边求和nnnn∑Di=∑(Xi-Zi)=∑Xi-∑Zi(23)i=1i=1i=1i=1nnn令D.=∑Di,X.=∑Xi,Z.=∑Zi于是有i=1i=1i=1D.=X.-Z.(24)X.和Z.分别是n个观察值、相对真值的总和,所以D.应为总误差,可以用来反映总值的准确程度。当Xi=Zi(i=1,2,…,n)时,一定有D=0,即每一个观察值都称得上准确时,总值必然随之准确。但D=0却不一定都有Xi=Zi,这是因为在求和的过程中,单个观察值的正负离差相抵消了。对式(24)两边求均值,其结果分别用D、X和Z表示,则有:D=X-Z(25)这可以用来反映观察值的均值偏离相对真值平均数的程度与方向。总体总值和总体均值是最常用的两个统计指标,由此类推,还可以得到诸如比例、相关系数等其他统计指标的误差测定公式。以上所述的数据质量的定量描述,多半带有原理性质,不足以说明一切问题。如果实际调查单位与调查方案规定的调查单位有出入,在抽样调查中,样本的代表性不强,整体上发生偏移,那么即使每一个观察值都准确无误,也不能因\n·20·第二章统计数据的来源及其质量此就可以判定不存在数据质量问题。统计数据质量复杂就复杂在这里,由此应明确地认识到,对于统计数据质量,一方面应就数据本身进行核实和评价,另一方面还要注意对实际采用的工作方法进行细致的审查,看它是否严格执行了调查方案的各项要求。二、数据质量的相对性及影响因素做任何一项统计工作都难免会发生误差,误差与统计活动的关系,就像人和人的身影一样,你走到哪里它就跟到哪里,形影两不分离。但是,我们也无须因此而感到悲观。统计数据质量的最大特征在于它的相对性。例如,一个地区有500万人口,少数几千、几万,甚至十几万,没有必要过多地计较,全世界陆地总面积14900万平方公里,恐怕谁也不会要求精确到几位小数以下。一块田地实测到的面积是48亩,假定它的准确面积应为5亩,但方案只要求四舍五入取整,那么就没有误差可言了。统计数据质量的相对性表明,为了减少或降低数据误差,在不影响对现象数量反映的前提下,可以通过修改统计活动方案中的某些要求达到目的。统计数据质量误差普遍存在,导致误差产生的原因可分为三大类:①由于统计调查准备工作不充分而引起的误差;②数据搜集阶段发生的误差;③资料整理过程中产生的误差。在进行一次统计调查时,通常事先要做的工作是,制订调查方案,确定将使用的基本概念和定义,拟订调查表,规定调查时间,以及明确采集资料的方式等。在这一阶段,可能容易产生的问题是:对正确了解调查对象有帮助的某些重要的特征被忽视掉了,概念的提法和定义不妥当,如总体规定模糊,结果把本应该包括在统计范围之列的调查单位排除在外,而把本不应该包括在统计范围之列的调查单位错误地纳入进来,调查项目和统计指标界定不清晰,容易造成误解,调查表的格式可能难以填写等。数据搜集阶段可能产生误差的情况有:调查员不胜任工作,又没有经过适当的培训,对调查意图和发出的指令理解不透不准,从而造成登记的遗漏、重复,在自己的工作中掺进个人的一些想法和意见,误导被调查人偏离方案要求做出回答;交流方式生硬,人为制造紧张气氛,使被调查人拒绝回答问题;一味追求工作进度,发生登记性错误。从被调查者角度看,可能担心个人的材料被用于统计以外的目的,由于后怕心理作祟故意给出不实回答;不愿合作敷衍应付,造成随意填报,此外,还有被调查人员的知识背景、社会背景、情感背景等问题。在实际搜集资料阶段,如果使用的搜集资料的具体方式不同,也会产生差别很大的结果,如邮报可能会导致较高的不回答率等。如果使用的测量工具有问题,要获得准确的数据也是不可能的。\n第三节统计数据的质量·21·数据处理阶段同样还会发生许多新的差错,比如:编码、打孔、录入、分类、汇总、计算等过程中出现的错误。三、统计数据质量检查如何评估统计数据误差的严重性,是什么原因引起了误差,有无修正的必要和可能,这一系列的活动,统称为数据质量的检查。统计数据质量检查,主要有两大类方法,即各种后验技术和抽样方法。下面,我们分别介绍它们各自中的一些较为典型的做法。1数据质量检查的后验技术后验技术是在调查工作已经完成,进入数据编辑和整理时所用的评估数据质量的方法。这种方法的特征是,不再亲临调查现场,而是通过逻辑关系分析、计算,以及将调查数据与独立来源的资料对比,以确定调查数据的质量。现在人们已经总结出了很多的后验方法,但我们只着重介绍以下几个常用的方法。(1)逻辑关系分析法。把调查数据与人们普遍接受的对现象某些特征或关系的看法进行比较,以判断有无矛盾的地方,就是逻辑关系分析法。如:年龄15周岁的少年,不应有婚姻的情况出现,没有文化的人,其职称一栏如果出现工程师则是有问题的,女性的初婚年龄不应高于男性,丈夫的年龄不会比妻子的年龄大很多,如果反过来了,那就需要进行重点审核。(2)计算比较法。如果我们掌握了有关问题大量的资料,这时候可以通过计算和利用平衡公式来检查数据的质量。比如在人口统计中,期末人口数=期初人口+本期出生人数+本期迁入-本期死亡-迁出数,如果有出生死亡、迁入迁出资料,则可以推算出期末人口数,把它与实际调查的数字作对照,即可反映调查数字有无太大的出入。(3)设置疑问框法。一般地说,现象之间客观上存在着一定的量值范围和比例关系,根据这种量值范围和比例关系,可以规定出检查的参照标准,从而据之检查数据的误差大小。(4)与独立来源数据对比法。这是检查数据质量一个比较简单的方法,具体做法是,把调查数据与不同于该调查的调查数据进行比较,通过二者的差别验证调查数据的误差。例如,把棉花的亩产量调查数字,与根据皮棉调查数据计算出来的亩产量作对比等。运用后验技术检查数据质量时需要注意:①后验技术的使用范围比较有限,因为这种方法常常要求所研究的现象变化具有某种规律性,对那些调查特征变化无常的统计活动,后验技术因找不出合理的假设便不能使用了,即使勉强用了,效果也不会很好。现在后验技术主要在人口统计、经济统计领域得到较多的应用。②所有的后验技术都仅适用于对最后调查结果的检查,不能用于单项数据误