• 562.96 KB
  • 2022-08-13 发布

社会统计学与数理统计学的统一

  • 14页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
前沿科学(季刊)2008·2第2卷·总第6期FrontierScience社会统计学与数理统计学的统一◆王见定(北京信息科技大学,北京100192)摘要:经过近400年的变迁,目前世界上已形成社会统计学和数理统计学两大体系。两体系争论不休,难分伯仲。近70年,由于数理统计学的飞速发展,大有“吃掉”社会统计学的势头,尤其是以美国为代表的发达国家,几乎认为统计学就是数理统计学。实际上,这是一个极大的误区。笔者的研究已经说明了数理统计学永远“吃不掉”社会统计学,今后的日子,将是社会统计学与数理统计学的共存与互补。社会统计学与数理统计学的争论可以结束了。关键词:社会统计学;数理统计学;统一;变量;随机变量中图分类号:C8文献标识码:A与著名的牛顿力学与相对论力学的关系非常相前言似。据权威统计学史记载,从17世纪开始就有相对论力学在接近光速时使用,而大多数情了“政治算术”、“国势学”,即初级的社会统计况是远离光速的,此时使用牛顿力学既准确又方学,起源于英国、德国。几乎同时在意大利出现便。如果硬套相对论力学,则是杀鸡用宰牛刀,了“赌博数学”,即初级的概率论。直到19世费力不讨好。社会统计学在描写变量时使用;数纪,由于概率论出现了正态分布与中心极限定理统计学在描写随机变量时使用。理,才形成了初级的数理统计学。我们知道变量与随机变量是既有联系又有区也就是说,社会统计学的形成早于数理统计别的。当变量取值的概率不是1时,变量就变成学两个世纪。了随机变量;当随机变量取值的概率为1时,随由于社会统计学广泛地用于经济和政治,所机变量就变成了变量。以得到各国历届政府的极大重视,并得到系统的变量与随机变量的联系与区别搞清楚了,社发展。而数理统计学在20世纪40年代以后,由会统计学与数理统计学的关系就搞清楚了。以于概率论的发展,而得到飞速发展。经过近400后,在描述变量时,大胆地使用社会统计学;在年的变迁,目前世界上已形成社会统计学和数理描述随机变量时,就用数理统计学。如果在描述统计学两大体系。两体系争论不休,难分伯仲。变量时非用数理统计学,那就是杀鸡用了宰牛笔者经过30年的学习与研究,发现了社会刀。统计学与数理统计学的联系和区别。它们的关系近70年,由于数理统计学的飞速发展,大!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!收稿日期:2008-06-06修订日期:2008-06-08!作者简介:王见定(1947-),男,教授,国际统计学会会员。在国内外刊物和国际学术会议上发表论文20余篇,1988年出版了《半解析函数、共轭解析函数》专著,多次获得北京市学术成果奖、北京市科技进步奖、北京市自然科学基金奖。20\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience有“吃掉”社会统计学的势头,尤其是以美国为表3.1某地区1990年人口统计资料代表的发达国家,几乎认为统计学就是数理统计统计时点1月1日3月1日7月1日10月1日12月31日人数(万人)6563616265学。实际上,这是一个极大的误区。笔者的研究已经说明了数理统计学永远“吃不掉”社会统计计算该地区1990年平均人口数。学,今后的日子,将是社会统计学与数理统计学(65+63)×2+(63+61)×422解y!=的共存与互补。2+4+3+3社会统计学与数理统计学的争论可以结束61+6262+65()×3+()×322了。+2+4+3+31社会统计学=62.6(万人)当T1=T2=⋯=Tn-1时,式(3.1)变为1.1时间数列分析y!y时间数列的基础分析y!=#1+y+⋯+y+n$/n-12n-122基础分析包括水平分析和速度分析两个方面。增长量和平均增长量时间数列的水平分析增长量=报告期水平-基期水平定义y0,y1,⋯,yn关于时间的数列称为时逐期增长量Δi=yi-yi-1(i=1,2,⋯,n)间数列。累积增长量Δi=yi-y0(i=1,2,⋯,n)水平累积增长量平均增长量=yi称为水平;yo称为最初水平;yn称为最末观察值个数-1水平。时间数列的速度分析报告期水平:考察时期的水平。速度与增长速度基期水平:与报告期水平相比较的水平。报告期水平速度=基期水平平均水平由于采用的基期不同,速度可分为环比速度y+y+⋯+y12n时期数列的平均水平y!=n与定基速度。时点数列的平均水平yi环比速度y=(i=1,2,⋯,n)ryi-1y+yy+yy+y1223n-1n()T+()T+⋯+()T12n-1y!=222定基速度y=yi(i=1,⋯,n)n-1ry"0Tii=1增长量增长速度=(3.1)基期水平时点数相加没有意义,所以把时点数取平均=报告期水平-基期水平基期水平转化为时期数,再对时间加权平均,得到公式=速度-1(3.1)。由于采用的基期不同,增长速度也分为环比【例3.1】某地区1990年人口统计资料如增长速度和定基增长速度。表3.121\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience环比增长速度=环比速度-1即Y=TSR对于长期趋势的测定。我们首选的是最定基增长速度=定基速度-1小二乘法。【例3.2】如果数列的逐期增长量大致相同,可采用直表3.2第三产业国内生产总值速度计算表线方程年份19901991199219931994设趋势方程为国内生产总值(亿元)5796.37227.09135.911204.514308.8环比——124.7126.4122.6127.7y!=a#+b%t速度(%)t定基100124.7157.6193.3246.9应用最小二乘法,有增长速度环比——24.726.422.627.7$&’((%)定基——24.757.693.3146.9&Σy=na+bΣt&&%&&2平均速度与平均增长速度&&Σty=a)Σt+b*Σt’nyyyny+nΣty-(Σt)(Σy),!-12nn(b=,a=y-bt平均速度y!=··⋯·=22r"yoy1yn-1"yonΣt-(Σt)!【例3.4】根据表3.3资料求拟合趋势方程平均增长速度Δ#=y-1rr表3.3实际销售额及其趋势值【例3.3】已知[例3.2]表中数据,计算销售额y)21990—1994年我国第三产业国内生产总值的年年份ttyt趋势值Yt(万元)平均速度和年平均增长速度。1983130.830.8137.341984238.877.6440.51解1985342.5127.5943.681986458.02321646.85!41987552.62632550.02yr="1.247×1.264×1.226×1.2771988649.9299.43653.19=125.3%1989757.1399.74956.361990857.8462.46459.531991956.8511.28162.70Δ#=125.3%-1r19921061.061010065.8719931180.088012169.04=25.3%19941285.0102014472.21长期趋势的测定19951374.4967.216975.3819961472.61016.419678.55时间数列的变化可以归纳为三种主要因素:19971575.51132.522581.72合计120892.88029.71240892.8长期趋势、季节变动、随机变动。长期趋势(T)是现象在一段较长的时间内,由y.=a/+b0tt于普遍持续的因素作用,使水平沿一个方向持续115×8029.7-120×892.813309.5(b==24200变动的趋势,反映了现象变动的基本方向。15×1240-(120)季节变动(S)是现象在一年内受季节变动而=3.17发生的周期性的变化。如受气候、节假日、风俗习892.8120a2=y!-b3t=-3.17×=34.171515惯的影响等。随机变动(R)是由于自然社会的偶然因素引所以趋势方程为y4=34.17+3.17t起的不规则变动。如果数列二次增量大致相同,可配二次抛物下面我们采用乘法模型来研究这三种因素,线方程22\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience!"#$2#a=13.09即y!=a+bt+ct#t###%"b=0.161#根据最小二乘法得方程组####c=-0.129!2$##Σy=na+Σt+cΣt#所以销售量的趋势方程为###23"Σty=aΣt+bΣt+cΣt#2##y%t=13.99+0.161t-0.129t#2234##Σty=aΣt+bΣt+cΣt$如果数列的各期环比增长速度基本相同,可当取数列中间值为原点时,则Σt=0,上述方采用指数方程程组可简化为趋势方程为!2##Σy=na+cΣt#&t#yt=ab##2"Σty=bΣt##令Yt=lgyt,A=lga,B=lgb,则##224##Σty=aΣt+cΣt$y’=A+Btt【例3.5】某企业销售量的资料如表3.4所【例3.6】表3.5给出某企业各时期的销售示,求拟合趋势线。额,试对某企业销售额进行趋势测定。表3.4某企业销售量及趋势值表3.5某企业销售额及趋势值销售量趋势值年份ttyt2t2yt42tttytYttYtt趋势值Y*(万件)Y)tt13722.572.571347.7041986-77.0-49.049343.024016.524052.615.224389.421987-69.1-54.636327.612968.434412.647.929436.151988-59.7-48.525242.562510.044802.6810.7216488.49955252.7213.625547.1191989-410.8-43.216172.825611.365742.7615.5636612.7731990-311.7-35.19105.38112.3合计279715.9856.77911991-212.1-24.2448.41613.2解1992-113.1-13.1113.1113.7利用直线趋势配合法求得1993014.3000014.0B=0.048A=2.4961994114.414.4114.4114.01995214.829.6459.21613.8则1996315.045.09135.08113.3a=310.45b=1.121997412.349.216196.825612.6t1998511.256.025280.062511.6所以指数方程为y(t=310.45×(1.12)199969.456.436338.4129610.3以上三种曲线拟合的方法,可以推广到其他200078.962.349436.124018.8合计0173.845.22802712.693521738更复杂的曲线,这取决于对数列的定性分析。解季节变动的测定由资料服装销售量、农副产品的产量、铁路客运量等!都具有明显的季节性变动,认识和掌握其变动幅#173.8=15a+280c####"45.2=280b度,可以合理组织生产、安排人民生活。下面通过趋#####2712.6=280a+9352c势剔除法,求解季节比率,达到季节变动的测定。$【例3.7】已知某企业商品销售量(见表3.6)23\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience受季节变动和长期趋势两因素的影响,采用趋势销售量Y季节指数调整后的调整后的年/季t!剔除法计算季节比率。(万件)S(%)销售量Y/S趋势值yt1990/1135.552.81-74.95表3.6企业商品销售量211245.684.48-55.10销售量Y四项移动二项移动Y/Yt年份季节3486.294.63-35.26(万件)平均值平均值Yt(%)4432.486.15-15.4212———1991/1235.555.6215.5728———1989214245.685.6935.73343.753.6251103386.293.4755.89413.54.1224114.754.95204232.486.1576.052115.254.872261992/1335.558.4396.211990344.54.6287215245.686.11116.36424.755.37373586.295.79136.521265.62354332.489.23156.672145.255.25266合计87.9801991335.255.3756根据调整后的销售量拟合直线为425.55.6235135.755.9750y!=5.498+0.0788tt2156.256.372351992356.5——于是预测方程为43———Y=TS=(5.498+0.0788t)×相应季节比率—例如,预测1993年4季度的销售量为解y=(5.498+0.0788×23)×0.3248=2.37(万由表3.6得到y/yt值,将此值排列成表3.7计件)算季节比率。1.2指数分析表3.7季节比率计算表指数及其分类季节一二三四合计年份指数是用以测定总体各变量在不同场合下综1989——110241361990202268737370合变动的一种特殊相对数,从不同角度出发,指1991352265635392数可以分为以下几种类型:199250235——285合计105727255961183按所反映的内容的不同,可分为数量指数和同季平均数35242853298.58季节比率(%)35.55245.6886.2932.48400质量指数。数量指数是反映物量变动水平的,例预测方程的建立如商品销售指数、产品产量指数等;质量指数是在计算了季节比率以后我们可以得到表3.8反映事物内涵变动水平的,例如价格指数、产品表3.8销售量的季节调整表成本指数等。销售量Y季节指数调整后的调整后的年/季t按计入指数项目多少的不同,可分为个体指(万件)S(%)销售量Y/S趋势值y!t数和综合指数。个体指数是反映某一项目变动的1989/1235.555.63-154.3228245.683.26-134.48相对数,例如一种商品价格的相对变动水平;综3486.294.64-114.63合指数是反映多种项目综合变动的相对数,例如4132.483.08-94.79多种商品的价格的综合变动水平。24\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience按计算形式的不同,可分为简单指数和加权指数时,把作为权数的各变量值固定在报告期。指数。简单指数是把计入指数的各个项目的重要这种指数也称为派氏指数,即性视为相同;加权指数则是对各个项目根据其重p=Σp1q1,q=Σp1q11/01/0Σp0q1Σp1q0要性的不同赋予不同的权数,再进行计算。【例4.2】根据表4.1计算三个商品的价格按对比场合的不同,可分为时间性指数和区指数和销量指数(派氏)。域性指数。其中时间性指数中又可分为定基指数解和环比指数。Σp1q19.2×1000+58.5×500+115×860加权指数p1/0==Σp0q18.5×1000+54.6×500+98×860加权综合指数=114.38%基期变量值加权q1/0=Σp1q1=9.2×1000+58.5×500+115×860基期变量值加权是指在计算一组项目的综合Σp1q09.2×950+58.5×500+115×800指数时,把作为权数的各变量值固定在基期。这=105.66%种指数也称为拉氏指数,即计算结果表明,与1993年相比,该公司三p=Σp1q0,q=Σp0q1种商品的零售价格平均上涨了14.38%,销售量1/01/0Σp0q0Σp0q0平均上涨了5.66%。【例4.1】某百货公司1993年和1994年加权平均指数三种商品的零售价格和销售量资料如表4.1,试加权平均指数是以某一时期的总量为权数对计算三个商品的价格指数和销售量指数(拉氏)。个体指数加权平均的结果。表4.1某百货公司三种商品的价格和销售量基期总量加权商品计量销售量单价(元)1993年1994年1993年1994年Σp1p0q0Σq1p0q0名称单位p0q0棉布米95010008.59.2p1/0=Σpq,q1/0=Σpq0000毛线公斤50050054.658.5【例4.3】某企业生产三种产品的有关资料皮鞋双80086098.0115如表4.2,计算三种产品单位成本总指数和产量解指数。p1/0=Σp1q0=9.2×950+58.5×500+115×800Σp0q08.5×950+54.6×500+98×800表4.2某企业生产三种产品的有关数据=114.25%产品计量总成本(万元)个体成本指数个体产量指数Σp0q18.5×1000+54.6×500+98×860名称单位基期(p0q0)报告期p1q1(p1/p0)(q1/q0)q1/0==甲台54651.151.05Σp0q08.5×950+54.6×500+98×800乙箱2603401.181.10=105.54%丙件1802151.061.14计算结果表明,与1993年相比,该公司三解种商品的零售价格平均上涨14.25%,销售量平p1Σp0q0均上涨5.54%。p1/0=p0=1.15×54+1.18×260+1.06×180Σp0q054+260+180报告期变量值加权=113.30%报告期变量值加权是指在计算一组项目综合25\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScienceΣq1pq数(q1/q0)相乘。三者构成指数体系。00q01.05×54+1.10×260+1.14×180q1/0==指数体系的分析Σp0q054+260+180个体指数体系分析=110.91%【例4.5】某企业生产的某型号的冰箱,报告期总量加权1998年与1997年相比,总成本提高了15%,产量报告期总量加权指数是以报告期总量为权数提高了10%,试确定单位产品成本的变动程度。对个体指数加权平均的结果,即解p1/0=Σp1q1,q1/0=Σp1q1Σ1p1q1Σ1p1q1p1=p1q1÷q1=115%÷110%=104.55%p1/p0q1/q0p0p0q0q0【例4.4】根据表4.2,计算三种产品的单即:与1997年相比,单位产品的成本提高位成本总指数和产量指数。了4.55%。解加权综合指数体系分析p1/0=Σp1q1=65+340+215加权综合指数由于所用权数所属时期不同,165340215Σp1q1++p1/p01.151.181.06可以形成不同的指数体系。即=113.24%Σp1q1=Σp1q1×Σp0q1Σp0q0Σp0q1Σp0q0q1/0=Σp1q1=65+340+215165340215就绝对水平看Σp1q1++q1/q01.051.101.14Σp1q1-Σp0q0=(Σp1q1-Σp0q1)=110.80%+(Σp0q1-Σp0q0)计算结果表明,报告期与基期相比,该企业下面通过例子说明上述关系三种产品的单位成本平均提高了13.24%,三种【例4.6】根据表4.1的资料,利用指数体产品的产量平均提高了10.80%。系分析价格和销售量变动对销售额的影响。不难看出,加权平均指数是加权综合指数的解变形。事实上销售额指数=Σp1q1=137350=120.72%p1Σp0q0113775Σp0q0p1/0=p0=Σp1q0Σpq137350价格指数=11==114.38%Σp0q0Σp0q0Σp0q1120080其他加权平均指数也均有类似结果。销售量指数=Σp0q1=120080=105.54%指数体系Σp0q0113775总量指数与指数体系三者关系为总量指数是由两个不同时期的总量对比形成120.72%=114.38%×105.54%的相对数。总量指数及其若干个因素指数构成的即:1994年同1993年相比,该公司三种商数量关系式称为指数体系。例如品的销售额提高了20.72%,其中由于价格变动p1q1=p1×q1使销售额提高了14.38%,由于销售量变动使销p0q0p0q0售额提高了5.54%。即总量指数等于质量指数(p1/p0)与数量指从绝对水平看26\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience2销售额变动=Σp1q1-Σp0q0定义3设x、y相互独立,且x~χ(n1),=137350-113775y~x2(n2),则称F=x/n1服从第一个自由度为n1、y/n2=23575(元)第二个自由度为n2的F分布,记为F~F(n1,价格变动的影响额=Σp1q1-Σp0q1n2)。=137350-120080定理1设(x1,x2,⋯,xn)是取自总体N=17270(元)2(μ,σ)的样本,则销售量变动的影响额=Σp0q1-Σp0q02σ=120080-1137751.x~N(μ,)n=6305(元)2(n-1)s22.~χ(n-1)2三者关系为σ223575=17270+6305定理2设x~N(μ,σ),则即:1994年同1993年相比,该公司三种商x#-μT=~t(n-1)。品的销售额增加了23575元,其中由于价格变动s/"n使销售额增加了17270元,由于销售量变动使销为了加深对常用统计量的印象,下面画出它售额增加了6305元。们的密度示意图。加权平均指数体系分析由于加权平均指数是加权综合指数的变形,所以有关它的体系分析在此不再重复。上面的指数体系分析是将总量分解为两个因素,实际上总量可以分解为多个因素,也可以作类似讨论。以上定理的证明比较复杂,必要时查一下专2数理统计学门书籍,在此省略不影响理解与使用。2.1统计量的分布(注:统计量实际上是含信息量较大的随机下面介绍几种统计量,它们在实际中经常使变量)用。2.2参数估计定义1设x1,x2,⋯,xn相互独立,且xi~参数估计是统计推论的一个分支。所谓统计n推断,就是利用样本所提供的信息,对总体作出22N(0,1),i=1,⋯,n。则称χ=!xi服从自由较准确的结论。例如,我们从一批产品中抽出i=1100件进行检验,有95件正品,5件次品,这时222度为n的χ分布,记为χ~χ(n)。我们把100件产品的次品率0.05作为这批产品2定义2设x~N(0,1),y~x(n),x、y相互独的次品率。再例如,我们抽样调查了1000户居x立,则称T=服从自由度为n的t分布,民的年人均收入为35700元,以此作为该市职工"y/n的年人均收入的估计。记为T~t(n)。27\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience所谓参数就是有关总体的某一特征。这个参nb+aθ1数是未知的,这需要我们通过抽样、计算比较准Ex=2=2=μ1,A1=n!xii=1确地估计出来。n点估计所以θ=1!xi,θ=2x2ni=1参数是一个数,在几何上它表示一个点,所比矩法较为精确的方法是极大似然法,它采以叫点估计。点估计中比较简单、直观的方法称用了微积分中求极值的方法。为矩估计。极大似然法矩估计设总体x的密度(或概率分布)为p(x,θ),其参数往往是总体的一个特征。这些特征可以中θ为未知参数,需要我们去估计。认为是均值的推广,统称矩。所谓矩估计,就是n用样本的矩代替总体相应的矩,从而达到参数的似然函数L=&p(xi,θ)表示样本(x1,x2,估计。i=1以下介绍矩的概念。⋯,xn)发生的概率。其中x1,x2,⋯,xn是已知总体矩分为原点矩和中心矩:的,θ是未知的。kμk=E(x)——k阶原点矩以下说明用极大似然法求估计的方法。kνk=E(x-Ex)——k阶中心矩n样本矩也分为原点矩和中心矩:L(x1,⋯,xnθ)=&p(xi,θ)i=1n1kAk=!xi——k阶原点矩nni=1lnL=&lnp(xi,θ)i=1nBk=1!(xi-x)k——k阶中心矩。dlnL=0求出θndθi=1所谓用样本矩代替总体相应的矩即第一步,列出似然函数,它表示样本(x1,x2,Ak=μk⋯,xn)发生的概率。第二步,取对数,主要是为了简化运算,将乘Bk=νk法转化为加法。实际计算中由于Ak比较简单,所以用Ak≈第三步,求出极值点θ。通常情况下,这唯μk较多。一的极值点就是最大值。也就是,我们把使得样【例6.1】设x服从[0,θ]上的均匀分布,即本(x1,x2,⋯,xn)发生的概率最大的θ作为估"计值,显然这种方法比较合理。$1$0≤x≤θ$$θ-λxx~p(x)=#λex>0$$【例6.2】设x~p(x,λ)=’,$$0其他0其他%试估计θ求λ的极大似然估计。解解28\n前沿科学(季刊)2008·2第2卷·总第6期FrontierSciencennθ——置信下限;θ—置信上限-λx-λ"xi12inL⋯xi=1(x1nλ)=!λe=λe均值(μ)的置信区间i=1正态总体n2lnL=nlnλ-λ"xiσ已知,求μ的置信区间。i=1由统计量的分布ndlnLnx$-μ=-"xi=0z=~N(0,1)dλλi=1σ/*n所以设p(z≤zα)=1-α,即1-2#1λ=$x$-μxp#≤zα+=1-α1-σ/*n2如果要估计的参数是两个或两个以上,方法类似,只要把导数为0改为偏导数为0即可。例如p(x,θ1,θ2),我们把步骤改为nL(x1⋯xn,θ1,θ2)=!p(xi,θ1,θ2)i=1nlnL=!lnp(xi,θ1,θ2)i=1%’3lnL’=0’##’4θ1’&)θ1,θ2’’6lnL’解出μ’’7θ=0(2$σ$σ区间估计p#x-z1-α≤μ≤x+z1-α+=1-α*n2*n2点估计给出了参数的估值,但给不出参数θ即μ的置信区间为与估计量之间到底有多大的误差。下面介绍的区###x$-σz,x$+σz+αα1-1-间估计,是把参数θ放入区间[θ1,θ2],并*n2*n2##它是以x为中心的一个对称区间能说明参数θ落在[θ1,θ2]的概率是多少。正态总体显然这种方法比点估计更精确。2σ未知,求μ的置信区间。基本概念由统计量的分布置信区间——[θ1,θ2]参数θ所在的区间x$-μT=~t(n-1)s/*n显著水平α——估计的灵敏度,例如α=0.01T≤t置信度1-α——θ落入[θ1,θ2]内的概设p#α+=1-α,即2率29\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience所谓假设就是有关总体的一句话,例如x!-μp#≤tα$=1-αs/"n2H0∶μ=10。所谓检验就是通过抽样对假设进解出μ行判别,以便判断是接受还是否定。p%x!-st≤μ≤x!+st&=1-α否定假设,还是接受假设,取决于小概率原αα"n2"n2理。即μ的置信区间为小概率事件:概率小的事件。例如P(A)=0.01,!s!s%x-tα,x+tα&则A可称为小概率事件。到底多大的概率叫小概"n2"n2率,这在不同的试验中标准是不一样的。例如:在【例6.5】从一大堆钢珠中随机抽出9个,一般产品的生产中,A表示次品,P(A)=0.05测量它们的直径(mm),测得样本均值x!=31.06,就可算小概率;但在人寿保险中,A表示飞机失22样本方差s=0.25,求置信度为95%的μ的置事,P(A)=0.01就不能算小概率了,而是非常2信区间。(假设钢珠直径x~N(μ,σ))。大的概率。解小概率原理:小概率事件,在一次试验中被n=9,α=0.05,查表得t0.025(8)=2.306认为几乎不发生。因为大概率事件:概率大的事件。例如s0.25P(A)=0.99,则A称为大概率事件。到底大到t=2.306×=0.192α"n2"9什么程度算大概率,这在不同的试验中标准是不所以所求钢珠直径的置信区间为一样的。(31.06-0.192,31.06+0.192)大概率原理:大概率事件,在一次试验中被即(30.868,31.252)认为几乎发生。2.3假设检验一个正态总体的假设检验假设检验问题的提出22已知x~N(μ,σ),σ已知,对μ的检验首先我们看两个例子。根据抽样x1,x2,⋯,xn,可以提出以下检【例7.1】某罐头厂的罐头由一条自动线包验:装,正常情况下生产的罐头重量(克)服从正态H0∶μ=μ0,H1∶μ≠μ0,双侧检验;2分布N(500,2)。现质量检验员抽得5听罐头H0∶μ≥μ0,H1∶μ<μ0,左侧检验;的重量为501、507、498、502、504(克),是H0∶μ≤μ0,H1∶μ>μ0,右侧检验。否能够认为生产线工作正常(μ=500)。本章第二节的罐头问题已做了双侧检验,同再例如,光华厂有批产品10000件。按规一问题我们改做左侧检验。定,出厂时次品率不得超过3%,质量检验员从步骤:H0∶μ≥500H1∶μ<500中任取100件,发现5件次品,问这批产品能否x!-μ0出厂?统计量z=~N(0,1)σ/"n以上问题就是简单的假设检验问题。假设检p%z≤-z1-α&=α,α=0.05验是统计推断中的一类重要问题。30\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience502.4-500选择不同的单侧检验,结果有可能不一样。计算z==2.682/!522已知x~N(μ,σ),σ未知,对μ的检验查表得z1-α=1.65,所以-z1-α=-1.65由于σ2未知,我们将采用t统计量。因为z>-z1-α,大概率发生了,所以接受H0。根据抽样x1,x2,⋯,xn,我们同样可以提如图7.2:出以下检验:H0∶μ=μ0,H1∶μ≠μ0,双侧检验;H0∶μ≥μ0,H1∶μ<μ0,左侧检验;H0∶μ≤μ0,H1∶μ>μ0,右侧检验。如图:图7.2同一问题我们再改做右侧检验。步骤:H0∶μ≤500H1∶μ>500双侧检验左侧检验右侧检验x"-μ0统计量z=~N(0,1)σ/!n【例7.2】某型号汽油发动机,每升汽油的p(z>z1-α)=αα=0.05运转时间服从正态分布,现测试装配好的6台发计算z=502.4-500=2.68动机的运转时间分别为28、27、31、29、30、2/!527(分钟)。按设计要求,平均每升汽油的运转查表得z1-α=1.65时间应在30分钟以上。根据测试结果,在显著因为z>z1-α,小概率发生了,所以否定H0。水平为0.05下,能否说明这种发动机符合设计如图7.3:要求?结合此例说明t检验法(左侧检验)步骤:H0∶μ≥μ0,H1∶μ<μ0x"-μ0统计量t=~t(n-1)s/!np(t<-t)=αα计算t,查表求t#-t图7.3αα若t<-t,则否定H在实际应用中,单侧检验多于双侧检验。那α0判别$若t≥-t,则接受H么,在单侧检验时,到底是选择左侧检验还是右α0侧检验,取决于检验员的选择倾向。例如上述罐解头问题,检验员通过抽样认为μ≥500的可能性H0∶μ≥30H1∶μ<30较大,那么他就选择了H0∶μ≥500,H1∶μ-tα,大概率事件发生了,所以接受424H0,即这种发动机符合设计要求。A1:开红花;A2:开粉红花;A3:开白花分布函数的假设检验32(n-np)2χ=!ii前几节的假设检验都是针对总体的某些参i=1npi数,这一节我们将对总体的分布进行检验。222(30-25)(48-50)(22-25)2=++χ统计量255025设每次试验可能出现的结果为A1,A2,⋯,Ak,=1.44相应的概率分别为p1,p2,⋯,pk,且p1+p2+⋯22查表得χ=χ=5.991α0.05+pk=1。进行了n次独立试验,记Ai出现的次数22因为χ<χ,大概率事件发生了,所以接受α为ni(n1+n2+⋯+nk=n),皮尔逊提出:k2H0,即符合孟德尔遗传理论。2(n-np)ii定理统计量χ=!近似服从自上面介绍的是右侧检验,关于左侧检验、双i=1npi222侧检验在这里不再赘述。由度为k-1的χ分布,即χ~χ(k-1)。以上检验的总体是离散型的分布,对于连续我们利用以上结论可对总体分布进行检验。型的分布我们可将其离散后,按离散型分布的检【例7.7】按孟德尔遗传定律,让开粉红花验来检验。的豌豆随机交配,子代可区分为红花、粉红花、白花三类,其比例为1∶2∶1。为了检验这个理结束语论,特别安排了一个实验,其结果是:100株豌“社会统计学与数理统计学的统一”对近四百豆中开红花的30株、开粉红花的48株、开白花年历史的统计学进行了科学的梳理,规范了整个的22株。问:这些数据与孟德尔遗传定律是否统计学的发展,结束了一百年来社会统计学与数一致。理统计学之间的争论。由于经济是通过统计学进以上问题可按下列程序进行:行计量和分析的,所以社会统计学与数理统计学AA⋯A12kH:0的统一,必将从整体上提高经济学的分析水平。■pp⋯p12kk22(n-np)2统计量χ=!ii~χ(k-1)●参考文献i=1npi[1]SamuelsonandNordhaus:“Economics”,12th,Ed.,Mc-22p(χ>χ)=αGraw-Hillco.NewYork,1985α[2]Parkins:“Modern.Macroeconomics”,PrenticeHall,22Canada.1982计算χ,查表求χα[3]凯恩斯.就业、利息和货币通论(中译本).三联书店,"22$$若χ>χα,则否定H01957$$判别#[4]克莱因.凯恩斯的革命(中译本).商务印书馆,1980$$22$$若χ≤χα,则接受H0[5]罗宾逊,伊特韦尔.现代经济学导论(中译本).商务印%书馆,1982解[6]高鸿业,吴易乙.现代西方经济学.经济科学出版社,199032\n前沿科学(季刊)2008·2第2卷·总第6期FrontierScience[7]王梓坤.概率论基础及其应用.北京:科学出版社,1979[8]陈希儒.高等数理统计学.合肥:中国科技大学出版社,1999推荐语:[9]陈希儒,柴根象.非参数统计教程.上海:华东师范大学出通过分析变量与随机变量的联系与区别,科学地阐版社,1993明了两大体系之间争议的内容,从而使统计学理论得到[10]袁卫等.统计学.北京:中国统计出版社,1996科学的梳理。此论证很有新意。[11]盛骤等.概率论与数理统计.北京:高等教育出版社,推荐人:周毓麟李京文1989周毓麟,数学家,中科院院士(学部委员)。李京文,中国社科院学部委员,中国工程院院士,本[12]王见定.国民经济行业排列的有序化与经济矢量.第刊编委。51届国际统计大会论文集.土耳其:1997[13]王见定,李颖伯.经济矢量的合成和资源的有效配量.国际社会和经济发展大会论文集.墨西哥:1998TheUnityofSocialStatisticsandMathematicalStatisticsWangJianding(BeijingInformationscience&TechnologyUniversity,Beijing100192,China)Abstract:After400years'development,twobranchesoflearninghavebeenformed——socialstatisticsandmathematicalstatistics,bothofwhichareinconstantcompetitionandneitherofthemcanwineasily.Over70years,duetotherapiddevelopmentofmathematicalstatistics,socialstatisticsisindangerofbeingre-placedbymathematicalstatistics.Insomeadvancedcountries,especiallyintheU.S.A.,statisticsisalmostthoughttobethesameasmathematicalstatistics.Infact,thisisamisunderstanding.Throughresearch,Ifoundthatmathematicalstatisticswillnevertaketheplaceofsocialstatisticsandbothofthemwillco-existandcomplementeachother.Itistimeforthebattlebetweensocialstatisticsandmathematicalstatisticstocometoanend.Keywords:socialstatistics;mathematicalstatistics;unity;variable;randomvariable33

相关文档