2008年人大统计学专业课初试题参考解答一、用中位数來描述家庭收入数据的集中趋势有优点亦有不足。1.中位数是指一组数据排序后处于中间位置的变量值,不受极端值影响,对偏斜程度较大的顺序或数值型数据代表性较好,所以它能够排除过高收入或过低收入带来的不良影响。2.作为描述数据集中趋势的指标,屮位数的应用远不及平均值广泛,屮位数只是一组数据屮的一个值,因而对整个香港家庭收入信息有较大浪费;而平均值能包含所有收入信息,而且具有优良的数学性质,不过它易受极端值的影响,主要适用于测度偏斜度不大的数据。3.用中位数作为判别低收入的指标,那么低收入的比例一直都是50%,这显然与“比例在增长”相矛盾。二、方差分析表面上是检验多总体均值是否相等,本质上是研究变量I'可的关系,即通过各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著彫响,英屮需要分析数据变界的来源,所以叫做方差分析。观察到的数据一般是参差不齐的,我们用SST(总平方和)度量数据总的变异,将它分解为可追溯到来源的部分变异SSE(组内平方和)与SSA(组间平方和)Z和,若后者的平均MSA(组间均方)明显比前者的平均MSE(组内均方)大,就认为自变量对因变量有显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相等的问题。所谓基本假定就是,各总体服从正态分布;各总体方差相同;各观测值相互独立。三、有多种预测模型可供选择:1.时间序列分解模型①加法模型:兀=7;+&+厶;②乘法模型:兀③混合模型:坷=S,x7;+4,兀=S,x(7;+4)。其中為为时刻Z的序列值,S’,厶分别表示趋势、季节性、随机波动,下同。2.季节多元回归模型兀二+a{t+b[Q[+b2Q2+b3Q3+It趋势季节成分随机波动其中Q(/=1,2,3)为0-1虚拟变量。3.ARIMA(p,q,d,T)模型(求和自回归移动平均模型)d>(B)VTVdxt=Q(B)et<=0,Var^t)=cr2,£(^s^)=0(s^t)E(兀吕)=0(sv/)符号说明a.B为一阶延迟算子(Bxt=xt_x);b.①=1—一吶g严®为自冋归系数多项式;c.&=为移动平均系数多项式;d.=(1-B)d为d阶差分算子,用于消除趋势成分;e.•为步长为周期T的T步差分算子,用于消除季节成分。\n四、(1)厂家从自身利益出发,当然希望每袋平均重量“\250g,这样有利于提高产晶销量,于是可以把“2250g放在“被保护”的位置,而原假设正具有“被保护”的特性,于是可提11!如下检验假设:250gi耳:“<250g(2)从消费者利益出发,我们担心每袋平均重量“S250g,如果要我们相信“>250g,那么厂家就得拿出充分的证据来证明,所以//>250g应放在“不利”的位置,即放在备择假设屮,于是有:严°:“W250g\H}:“〉250g(3)在a=05的显著性水平和(2)屮的检验假设下,p=0.4297
F0}这里的F是原假设成立时服从F分布的检验统计量,九是F的样本值,即表屮的1622.118和997.312oS&.的意义就是,原假设为真时,F统计量取其样本实现值以及更极端值的概率,是检验的真实显著性水平。(3)假定:①£〜N(OqZ);②原假设竝:0严02=0成立。证明:可知F二一竺卫一(SSR指回归平方和,SSE指残差平方和)。SSE/(n-p-\)由数理统计知识,在假定①成立时,有SSE/a2〜^2(n-p-l)在假定①②成立时,有SSR心〜於(p)且SSE与SSR是相互独立的,故SSR/pSSE/(n_p_\)证毕。2006年人大统计学专业课初试题参考解答\n一、(1)图略。(2)第二种排队方式平均等待时间191爲=—》%•=—Q.5+6.6++7.8)=7.0<石=7.29z=i9其中耳为第一种排队方式平均等待时间。第二种排队方式的方差191£=厂工(兀2厂元2)2=十[(5.5—7)2+(66—7)2++(7.8—7)2]9—1,=]9—1=0.51<^=1.972=3.88其中s;为第一种排队方式的方差。可知第二种排队方式比第一种排队方式离散程度小。(3)我会选择第二种排队方式。以为它的平均等待吋间较短,等待时间也较稳定。二、(1)样本量为50,可认为是大样本,由中心极限定理知其中丘为样本均值,“为总体均值,6为样本标准差。P{X-JLI67何VZ0.025}=0-95得到95%的置信区间(%-Z0.025&/V50,X+Zoo25d/a/50)代入样本数据讣算得右(97x2+99x3+101x34+103x7+105x4*1015誹=^^•[(97—101)2x2++(105-101)2x4]=1.67所求置信区间为(101—1・96乂1・67/施,101+1・96乂1・67/侦)(100.54,101.46)(2)由表可知样品中超过100g的食品包数占大多数,厂家的观点似乎有一定的可信度,故令检验假设为\nJh°:每袋食品重量>ioo^[H]:每袋食品重量v100g(3)P值是当原假设为真时,得到所观测结果或更极端结果的概率,是检验的真实显箸性水平,可利用P值直接决策或将P值与显著性水平Q进行比较,不需要查表,具有可比性;统计量检验是先确定一个显著性水平Q从而获得一个否定域,进行决策的界限清晰但面临的风险是笼统的,确定临界值要查表,检验统计量一般与自由度有关因而可比性较差。三、(1)这是无交互作用双因素方差分析问题,由行、列自由度可知行因素是供应商,列因素是车速。列的F检验值97.68>F临界值8.65,P值0.000002«显著性水平Q二0.01,故拒绝原假设,即认为车速对磨损程度有显著影响。(2)同(1)之理,可知不同供应商的轮胎之间的磨损程度有显著差异。(3)假设:①车速与供应商对轮胎的磨损程度无交互作用;②车速与供应商不同水平组合形成的总体都是正态总体;③上述总体方差都相同;④各观测数据相互独立;⑤行因素原假设==仏(“是总体均值,下同):⑥列因素原假设:“=“2二“3。四、简单随机抽样是从单元数为N的总体中逐个不放回等概率抽取n个单元或者一次性随机抽出n个单元,得到简单随机样本。它是最简单的概率抽样方法。适用于总体总量较小或总体方差与任意局部方差基本相当的场合。如果总体总量佼大或总体个单元差异较大,就不宜单独使用,因为此时拥有完整的抽样框是困难的,抽样单元也比较分散,会增加调查费用,而且会使总体目标量的估计产生较大误差。所以一般是与其他方法结合使用,比如分层抽样各层内科采用简单随机抽样,整群抽样抽取群、多阶段抽样各阶的抽样也都可采用它。五、回归模型:y=X(3+s.假设:①解释变量为非随机变量;②解释变量不存在多重共线性(即要求设计矩阵X列满秩,样本量大于自变量个数);②Guass-Markov假定:=0,Var(£)=cr2In:③正态假定:£〜N(0q2/”)。假设不成立之应对:假设①是回归分析基本要求,否则就不是回归分析;假设②若不满足,就是多重共线性现象。有多种克服方法,比如剔除不重要自变量,增大样本量,対回归系数进行有偏估计(主成分法、岭回归法、偏最小二乘法等)等等。假设③若不满足,随机误差£有可能出现异方差现彖或自相关现彖。若是前者,可通过加权最小二乘法、Box-Cox变换法、方差稳定性变换等方法来克服;若是后者,可通过修改模型、增加自变量、迭代法等方法来克服。假设④若不满足,则无法进行参数区间估计和假设检验。可以重新观测数据或对数据进行正态性变换。六、①意义:该模型表示原始变量被表示为公共因子和特殊因子的线性组合,展现了原始变量与公共因子之间的相关关系,多数的原始变量(“个)被综合少数的新变量(加个,加V”)一一公共因子,起到了降维的效果,简化了问题的复杂性又抓住了问题的主要矛盾。②假设:a.X是可观测的随机向量,£(X)=0;\na.F是不可观测的随机向量,E(F)=O,D(F)=ltfl(mq),另外随着检验次数的增多,偶然因素导致差别的可能性也会增加;而方差分析是同时考虑所有样本,因而排除了错误的累积,减少了偶然因素的不利影响,也简化了检验过程。三、(1)样本量为36,可视为大样本,考虑如下95%的置信区间(无-Z0.025S/乔,无+Z0.025S/乔)①代入元=107,s=29.96,n=36,zOO25=1.96得(97.22,116.78)②(2)不一定。因为区间②是一个确定的区间,餐馆实际月平均用水量要么在其小,要么不在其中,两者只有其一。区间②其实是区间①的一个样本实现,区间①是一个随机区间,它有95%的可能性包含餐馆实际月平均用水量。(3)餐馆管理协会估计的月平均用水量兀二100吨是不能轻易否定的,应处于被“保护”位置,则检验假设为jH():”=100吨[//|:龙>100吨若拒绝原假设,也就是发生了小概率事件,那么我们有充分的理由支持备择假设;若不拒绝原假设,并不意味着它就一定正确,只是现有证据不足以拒绝它而己。(4)用到了屮心极限定理。它说的是独立同分布随机变量Z和的极限分布是正态分布,揭示了正态分布的源泉和重要地位,是参数区间估汁和假设检验的理论基础。四、(1)线性回归方程为y=207.9037+1.4378%,+0.8545x2+().0626冯其中第/(/=!,2,3)个回归系数鸟的意义是,在其它自变量保持不变时,兀每变动一个单位,y就平均变动R•个单位。\n(2)由卩值二0.00〈q知,回归方程的线性关系是显著的。(3)第1,2,3个冋归系数显著性检验〃值分别是0.02713,0.00833,0.36077)2Kr=l=-一2.53)2+(21121一2.53尸++(21121一2.53)勺9222=2.28(7)简单随机抽样deff\=\。分层随机抽样d妇爲=需小3。\nV(v)228系统抽样cleff,=—=0.90oD2.53分层随机抽样和系统抽样的设计效应均小于1,说明这两种方式在此情景下的抽样效率要高于简单随机抽样。此外蚣<邂,说明分层随机抽样的效率高于系统抽样。由于d/远小于1,说明此情形下分层随机抽样的效率远高于简单随机抽样。而倾接近于1,说明系统抽样的效率接近于简单随机抽样。2004年人大统计学专业课初试题参考解答2.(2)因为p值=0.245946>q,F=1.4788735.1天(2)步骤:①提出公司领导感兴趣的检验假设(如(1)):②确定检验统计量显著性水平a=0.05和拒绝域{Z||Z|>z“};③根据样本数据计算检验统计量(或利用计算机计算〃值)7-5.12.5/妬=5.15>za/2=1.96\n②依据小概率原理进行统计决策。由③可知样本落入了拒绝域,小概率事件发生了,故拒绝原假设,即认为本公司职工比其它单位职工更易生病。示意图:(3)p值是指当原假设为真时,得到所观测结果以及更极端结果的概率,是检验的真实显著性水平。(4)说明了得到已有样本观测值以及更极端值的概率是0.001,这是一个小概率事件,故有充分理由拒绝(1)中的原假设,这与拒绝域的检验结果是一致的。(5)〜n(O,1)s/\lns/\[n〉%2at2s/VnnJu>“()+za/2s/yfn^=a故在显著性水平q下,所求临界点为“0Za"/乔=5.11.96x2.5/>/46=4.38或5.82|基本假设鬥显著性K—拟合优度匕昇常值H实际意义匕六、(1)7/I结倚分析I[Oii]设置因变量和自变量收集和整理数据构造理论模型估计模型参数(2)①首先根据具体问题选择合适的因变量,然后选择合理的自变量,和结合问题的实际意义和专业理论知识,运用逐步回归法等方法选自变量;②收集整理数据是一个重要环节,它直接彫响模型的质量;\n③通常构造线性回归模型,也有非线性模型,还可将非线性的转化为线性的;④参数估计有最小二乘法和极大似然法等方法;⑤回归诊断的内容较多,包括诊断基本假定是否成立,检验回归方程及其系数的显著性还有拟合优度,检验异常值和方程是否符合实际意义。通过了诊断就进入第⑥步,否则返回第①步;⑥模型主要应用于结构分析、预测和控制三个方而。(3)证明:D(B)=Q(P-EM-EpS]=E\(B-0)(P-0)']=E[((x%)_xy—0)((xx)_xy—0)']=E[((x%)TxYX0+g)-0)((x%)Tx《x0+£)-0y]=E[((XX)TX^X(XX)-'XQ]二E[(XX)TX‘££‘X(X%)T]=(XX)"XE(储')X(XX)J=(XX)-1Xr(o-2/„)X(XX)-1"(XX)i(4)对于一元线性回归,有—z—、29Va"B\)=血厂(工X)=E*Ja2=T~LxxLxxLxx=Var(y-^)=Var(^(--A\y.)=工(丄一班+人))f乳Lxxn=工(_L+芒a—可2_2丘a_q)2/=(丄+厶“272“n—4-nLCogBo,A)=Cov(工(-一巩;一Q)X-,XX)"^xxXVpi元(若一元)兀一元2元2(打—-—)——b=_=nL-L©LaXVXXXV由w心)和wkB\)的表达式可知,BzA的波动程度不仅与,有关,而且与%的収值离散X的取值尽量分散一些,当元=0时,R)与人不程度有关,另外样本虽"也影响&的波动程度。因此收集数据的时候,样本量斤大一些,这样会使回归系数估计值R),A更稳定。还可看出,相关。06八、(15分)下表是中国全部国有及规模以上非国有供企业统计的主要指标,耍求:(1)设计并计算反映企业经济效益的指标;(2)对经济效益指标的动态变化状况做简要分析。2003年2004年工业总产值(亿元)142271187221工业增加值(亿元)4199054805企业单位数(个)196222219463资产总计(亿元)168808195262\n流动资产年平均余额(亿元)7148886885固定资产净值年平均余额(亿元)6600873849负债合计(亿元)73414115529产品销售收入(亿元)143172187815产品销售成本(亿元)118638157071产品销售税金及附加(亿元)20492467利润总额(亿元)833711342本年应缴增值税(亿元)54886396全部从业人员年平均人数(万人)5749609905五、(42分)假设一个已知简单总体的全部真实数据列于下表:编号123456789Yi9.31.81.91.71.1.51.31.492.0(1)绘出散点图;(2)如果根据Y的数值将总体分成两个子总体,最好的分发是什么?(3)举例说明上表数据所反映的现彖可能是什么?(4)计算出Y的总体均值卩和总体方差巴;(5)四种基本抽样方式中最不适合上述总体情形的是哪一种?并说明理由;(6)对其余三种基本抽样方式,假定n=2,分别列出每一种方式所对应的全部可能样本,并计算样本均值的数学期望和方差;(7)计算每一种方式在此情形下的设计效应,并说明其意义。六、(8分)说明抽样里的回归估计与一般回归分析方法的联系与区别。七、(6分)请解释下面的说法:“生产核算的范围决定了收入分配和收入使用核算的范围”。八、(9分)A、B两个地区的贫困线均为年收入1000元。A地区有11%的人年收入900元,9%的人年收入200元;B地区有1%的人年收入900元,9%的人年收入500元。(1)根据上述数据,计算两地区的贫困者比重和贫困深度;(2分)(2)请根据贫困者比重和贫困深度对两地区贫困状况进行简要的比较分析;(4分)(3)你觉得这两个指标能够准确反映两地区贫困状况的差异吗?如果不能,应当如何改进?(3分)九、(15分)下面是某国某核算年度的国际收支平衡表(单位:亿元):一、经常账户差额\nA、货物与服务205B、收益230C、经常转移()二、资本与金融账户-65A、资本账户()B、金融账户-40三、储备资产()四、误差与遗漏-125-10(1)在表中括号内填上适当的数字;(3分)(2)请解释储备资产所对应的-125亿元的含义;(3分)(3)请根据表中数字分析该国国内生产总值、国民总收入和国民可支配收入三者之间的关系;(6分)(4)根据表中数字,对于该国当年国内的投融资状况你能得出何种结论?(3分)046.(15分)下表是中国1992和2002两个年份国民经济核算的部分资料。要求:(1)根据资料,计算反映经济发展状况的基本总量指标和结构比例指标;(2)根据计算结果,对10年间中国经济发展特征及其变化了以简要说明。中国国民经济核算有关资料单位:亿元1992年2002年第一产业增加值580016117第二产业增加值1170053540第三产业增加值913835133最终消费1595262365货物服务净出口2762794来自国外要素收入净额14-1237平均人口总数(亿人)11.6412.80