统计学27456new 27页

  • 644.00 KB
  • 2022-08-13 发布

统计学27456new

  • 27页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
中国地质大学(武汉)远程与继续教育学院统计学课程作业1(共4次作业)学习层次:专科涉及章节:第1章——第4章1.什么是总体和样本?举例说明。答:总体是包含所研究的全部个体的集合,通常由具有某种共同性质的许多个体组成。样本是从总体抽取的一部分元素的集合。如:要检验一批灯泡的使用寿命,这一批灯泡构成的集合就是总体,从这批灯泡中随机抽取100个,这100个灯泡就构成一个样本。2.什么是变量,其类型有哪些?答:变量是能够说明现象某种特征的概念,通常按照变量的计量尺度分为,分类变量、顺序变量、数值型变量。3.统计数据可分为哪几种类型?答:从不同角度统计数据可以分为不同的类型,按照计量尺度不同,分为分类数据、顺序数据、和数值型数据;按照收集方法不同,分为观测数据和实验数据;按照被描述对象与时间的关系,分为截面数据和时间序列数据。4.数据收集有哪些基本方法?答:主要有两条渠道:一是数据的间接来源即二手资料;一是直接来源,通过调查或实验获取数据的方法,具体有:自填式、面访式、电话式、观察式等。概率抽样与非概率抽样的区别有哪些?答:概率抽样即随机抽样,其优点是可以依据调查结果计算估计量误差,从而得到对总体目标进行推断的可靠程度,适合于统计分析;而非概率抽样则是根据研究目的对数据的要求,采用某种方式从总体抽取部分单位进行调查,其优点是操作简便,时效快,成本低,适合于探索性研究。5.什么是抽样误差?它的大小与哪些因素有关?答:抽样误差是由抽样的随机性带来的误差。其影响因素主要有样本容量和总体方差,与前者成反比,与后者成正比。6.直方图与条形图有何区别?27\n答:表现在:条形图是用条形的长度表示数据的频数,而宽度是固定的;直方图则是用面积来表示各组频数的多少,宽度表示的是各组的组距,高度表示的是每一组的频数或频率。此外,直方图是连续的,而条形图是分开排列的。最后,条形图主要用于分类数据,而直方图用于数值型数据。7.统计表由哪几个主要部分组成?制作统计表应注意哪几个问题?答:包括:表头、行标题、列标题和数字资料,此外必要时还有表外附加。在编制统计表时要注意:一般表中的上下两条横线用粗线,中间的其他线用细线,而且,左右两边不封口,列标题用竖线分开,而行标题通常不必要。8.解:(1)“学生考试成绩”为连续变量,需采组距式分组,同时学生考试成绩变动均匀,故可用等距式分组来编制频数分布表。考试成绩学生人数(人)比率(%)60分以下37.560—70615.070—801537.580—901230.090—100410.0合计40100.0 (2)分组方法为简单分组;从频数分布表中可看出,该班同学不及格人数和优秀生的人数都较少,分别为7.5%和10%。大部分同学成绩集中在70—90分之间,说明该班同学成绩总体良好。9.解:关于某百货公司连续40天的商品销售额频数分布表销售额频数频率累积频数累积频率组中值万元(天)(%)以下以上以下以上万元25—304104401010027.530—356151036259032.535—401537.5253062.57537.540—45922.534158537.542.545—506154061001547.5合计40100.0—————161412108627\n4225303540455010.(1)排序略。(2)频数分布表如下:100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~66022660~67055670~68066680~6901414690~7002626700~7101818710~7201313720~7301010730~74033740~75033合计100100直方图(略)。(3)茎叶图如下:65186614568671346796811233345558899690011112223344556667788889970001122345666778889710022335677889720122567899733567414711.箱线图如下:(大家用手工画了以后与下图比较,特征请自己分析)27\n12.答:A.根据切比雪夫定理,K=(40-30)/5=2,则落在20-40之间的数据约有(1-)=0.75;类似地有:B.0.89;C.0.61;13.解:(1)样本均值为73.2,标准差S=13.71;(2)z=108-73.2/13.71=2.54,这是一个较高的分数,但它没有超过3,所以它不是异常值;(3)z=87-73.2/13.71=1.01,根据经验法则,有68%的得分落在+1、-1倍标准差范围之内,所以有32%/2=16%的得分是87分或更高;z=46-73.2/13.71≈-2,根据经验法则,有95%的得分落在+2、-2倍标准差范围之内,所以有5%/2=2.5%的得分是46分或更低;14.解:(1)数据升序排列确定,最小值=608,第一个四分位数=1872,中位数=4019,第三个四分位数=8305,最大值=14138;(2)年平均销售额=5170.48,标准差=3823.28;(3)(14138-5170.48)/3823.28=2.35,(608-5170.48)/3823.28=-1.19,均未超出[-3,3]范围内,所以,该数据集的数据中未出现异常值,数据都在界限之内。15.答:(1)甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。16.答:(1)离散系数,因为它消除了不同组数据水平高地的影响。(2)成年组身高的离散系数:;幼儿组身高的离散系数:;27\n由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。中国地质大学(武汉)远程与继续教育学院统计学课程作业2(共4次作业)学习层次:专科涉及章节:第5章——第6章1、一个具有个观察值的随机样本抽自于均值等于20、标准差等于16的总体。⑴给出的抽样分布(重复抽样)的均值和标准差⑵描述的抽样分布的形状。你的回答依赖于样本容量吗?⑶计算标准正态统计量对应于的值。答:⑴均值为20,标准差为2;⑵近似正态;根据中心极限定理,由于样本容量64大于30,故此近似正态分布。⑶统计量=1.50。2、一个具有个观察值的随机样本选自于和的总体。⑴你预计的最大值和最小值是什么?⑵你认为至多偏离多么远?答:⑴101,99;⑵1;3、技术人员对奶粉装袋过程进行了质量检验。每袋的平均重量标准为克、标准差为克。监控这一过程的技术人者每天随机地抽取36袋,并对每袋重量进行测量。现考虑这36袋奶粉所组成样本的平均重量。描述的抽样分布,并给出和的值,以及概率分布的形状;答:由于样本容量大于30,故抽样分布近似正态分布,其均值为406,标准差为1.68,概率分布形状为正态分布;4、从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。(1)样本均值的抽样标准差等于多少?(2)在95%的置信水平下,允许误差是多少?答:(1);(2)E=1.55。5、某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。(1)假定总体标准差为15元,求样本均值的抽样标准误差;(2)在95%的置信水平下,求允许误差;(3)如果样本均值为120元,求总体均值95%的置信区间。答:(1);(2)E=4.2;(3)(115.8,124.2)。6、在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。求总体比率的置信区间,置信水平分别为90%和95%。27\n答:(18.11%,27.89%);(17.17%,28.83%)7、某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(公里)分别是:103148691211751015916132求:职工上班从家里到单位平均距离95%的置信区间。答:(7.18,11.57)8、从两个正态总体中分别抽取两个独立的随机样本,它们的均值和方差如下表:来自总体1的样本来自总体2的样本(1)设,求95%的置信区间;(2)设,,求95%的置信区间;(3)设,,求95%的置信区间;答:(1)2±1.176;(2)2±3.986;(3)2±3.986;9、下表是由4对观察值组成的随机样本:配对号来自总体A的样本来自总体B的样本1202573106485(1)计算A与B各对观察值之差,再利用得出的差值计算和;(2)设和分别为总体A和总体B的均值,构造95%的置信区间。答:(1),;(2)1.75±4.18。10、根据以往的生产数据,某种产品的废品率为2%。如果要求95%的置信区间,若要求允许误差不超过4%,应抽取多大的样本?答:4827\n中国地质大学(武汉)远程与继续教育学院统计学课程作业3(共4次作业)学习层次:专科涉及章节:第7章——第11章1、一家大型超市连锁店上个月接到许多消费者投诉某种品牌炸土豆片中60克一袋的那种土豆片的重量不符。店方猜想引起这些投诉的原因是运输过程中沉积在食品袋底部的土豆片碎屑,但为了使顾客们对花钱买到的土豆片感到物有所值,店方仍然决定对来自于一家最大的供应商的下一批袋装炸土豆片的平均重量(克)进行检验,假设陈述如下:如果有证据可以拒绝原假设,店方就拒收这批炸土豆片并向供应商提出投诉。(1)与这一假设检验问题相关联的第一类错误是什么?解:第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于60克,但检验结果却提供证据支持店方倾向于认为其重量少于60克;(2)与这一假设检验问题相关联的第二类错误是什么?解:第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;(3)你认为连锁店的顾客们会将哪类错误看得较为严重?而供应商会将哪类错误看得较为严重?解:连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。2、某种纤维原有的平均强度不超过6克,现希望通过改进工艺来提高其平均强度。研究人员测得了100个关于新纤维的强度数据,发现其均值为6.35。假定纤维强度的标准差仍保持为1.19不变,在5%的显著性水平下对该问题进行假设检验。(1)选择检验统计量并说明其抽样分布是什么样的?解:检验统计量,在大样本情形下近似服从标准正态分布;(2)检验的拒绝规则是什么?解:如果,就拒绝;(3)计算检验统计量的值,你的结论是什么?解:检验统计量=2.94>1.645,所以应该拒绝。3、一项调查显示,每天每个家庭看电视的平均时间为7.25个小时,假定该调查中包括了200个家庭,且样本标准差为平均每天2.5个小时。据报道,10年前每天每个家庭看电视的平均时间是6.70个小时,取显著性水平=0.01,这个调查是否提供了证据支持你认为“如今每个家庭每天收看电视的平均时间增加了”?解:=3.11>1.28,拒绝4、一个著名的医生声称有75%的女性所穿鞋子过小。一个研究组织对356名女性进行了研究,发现其中有313名妇女所穿鞋子的号码至少小一号。取=0.01,检验如下的假设:27\n对这个医生的论断你有什么看法?解:=7.48>2.58,拒绝5、从三个总体中各抽取容量不同的样本数据,得到如下资料。检验3个总体的均值之间是否有显著差异?()(专科不要求)样本1样本2样本3158148161154169153142156149169158180解:按照方差分析步骤,先做出假设,再用EXCEL计算统计量,有:差异源SSdfMSFP-valueFcrit组间618.91672309.45834.65740.0408778.02151731组内598966.44444总计1216.91711    或,不能拒绝原假设。6、某家电制造公司准备购进一批5#电池,现有A、B、C三个电池生产企业愿意供货,为比较它们生产的电池质量,从每个企业各随机抽取5只电池,经试验得其寿命(小时)数据如下:试验号电池生产企业ABC12345505043403932283034264542384840试分析三个企业生产的电池的平均寿命之间有无显著差异?()如果有差异,用LSD方法检验哪些企业之间有差异(专科不要求)?解:用EXCEL计算后有:SUMMARY组观测数求和平均方差A522244.428.3B51503010C521342.615.8差异源SSdfMSFP-valueFcrit27\n组间615.62307.817.068390.000313.885294组内216.41218.03333总计83214    或,拒绝原假设。经过多重比较,,拒绝原假设;,不能拒绝原假设;,拒绝原假设。7、表中是道琼斯工业指数(DJIA)和标准普尔500种股票指数(S&P500)1988年至1997年对应股票的收益率资料:年份DJIA收益率(%)S&P500收益率(%)年份DJIA收益率(%)S&P500收益率(%)198816.016.6199316.810.1198931.731.519944.91.31990-0.4-3.2199536.437.6199123.930.0199628.623.019927.47.6199724.933.4计算两种指数收益率的相关系数,分析其相关程度,并以0.05的显著性水平检验相关系数的显著性。解:(1)利用Excel计算结果可知,相关系数为,说明相关程度较高。(2)计算t统计量给定显著性水平=0.05,查t分布表得自由度n-2=10-2=8的临界值为2.306,显然,表明相关系数r在统计上是显著的。8、在计算一元线性回归方程时,已得到以下结果:试根据此结果,填写下表的空格:来源平方和自由度方差27\n来自回归2179.5612179.56来自残差99.11224.505总离差平方和2278.67229、某县城研究居民月家庭人均生活费支出和月家庭收入的相关关系,随机抽查10户进行调查,其结果如下:月人均生活费(元)8588909496100106118120124月人均收入(元)100110120130140150160170180190利用上表资料,要求:(1)绘制散点图。(2)计算相关系数。(3)估计当月人均收入为200时,其人均生活费应为多少?(4)求估计标准差,当概率为95.45%、x为200时的y的估计区间。解:(1)绘制散点图如下:(2)为计算相关系数,先编制一张相关系数计算表如下: (2)相关系数计算表序号月人均收入x月人均生活费yxyx2y21100858500100007225211088968012100774431209010800144008100413094122201690088365140961344019600921661501001500022500100007160106169602560011236817011820060289001392427\n918012021600324001440010190124235603610015376合计14501021151820218500106057因此,相关系数为:(3)设月人均消费支出y关于月人均收入x的直线回归方程为根据最小平方法,有所以直线回归方程为月人均收入为200时,估计月人均生活费用为:(4)估计标准差为当x为200时,y的估计区间为:10、设、是存在相关关系的两个变量,并已算得如下数据:,,,,。试求:(1)回归方程。(2)相关系数。(3)决定系数,并解释决定系数的意义。解:(1)回归方程为:27\n(2)(3),表明y的变化中有64%由x决定。11、表中是1992年亚洲各国人均寿命()、按购买力平价计算的人均GDP()、成人识字率()、一岁儿童疫苗接种率()的数据序号国家和地区平均寿命(年)人均GDP(100美元)成人识字率(%)一岁儿童疫苗接种率(%)1日本7919499992中国香港7718590793韩国708397834新加坡7414792905泰国695394866马来西亚707480907斯里兰卡712789888中国大陆702980949菲律宾6524909210朝鲜7118959611蒙古6323958512印度尼西亚6227849213越南6313899014缅甸577817415巴基斯坦5820368116老挝5018553617印度6012509018孟加拉国5212376919柬埔寨5013383720尼泊尔5311277321不丹486418522阿富汗4373235(1)用多元回归的方法分析各国人均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系;(2)对所建立的回归模型进行检验。(要求使用EXCEL或其他统计软件计算,专科不要求)解:由Excel回归输出的结果可以看出:方差分析 dfSSMSFSignificanceF回归分析31937.749645.916258.204791.83316E-09残差18199.751511.0973总计212137.5    标准误差tStatP-valueLower95%Upper95%27\nCoefficientsIntercept32.993093.13859510.512064.12E-0926.3991441639.58703275XVariable10.0716190.0147554.8538710.0001280.0406196480.102617688XVariable20.1687270.0399564.2228110.0005120.0847822340.252671203XVariable30.1790420.0488693.6637310.0017760.0763724460.281711103(1)回归结果为(2)由Excel的计算结果已知:对应的t统计量分别为10.51206、4.853871、4.222811、3.663731,其绝对值均大于临界值,所以各个自变量都对Y有明显影响。由F=58.20479,大于临界值,说明模型在整体上是显著的。12、欲研究不同收入人群对特定商品是否有相同的购买习惯,研究人员调查了四个不同收入人群的消费者527人,购买习惯分为三种情况,见表。要求:(1)提出假设;(2)计算卡方值;(3)以0.1的显著性水平进行检验。项目低收入较低收入较高收入高收入经常购买不购买有时购买256936405126477419465737解:(1),(2)(3)显著性水平为0.1时,,故拒绝原假设,即不同收入人群的购买情况不同。27\n中国地质大学(武汉)远程与继续教育学院统计学课程作业4(共4次作业)学习层次:专科涉及章节:第12章——第13章1、某地区社会商品零售额1988—1992年期间(1987年为基期)每年平均增长10%,1993—1997年期间每年平均增长8.2%,1998—2003年期间每年平均增长6.8%。问2003年与1987年相比该地区社会商品零售额共增长多少?年平均增长速度是多少?若1997年社会商品零售额为30亿元,按此平均增长速度,2004年的社会商品零售额应为多少?解:(1)以1987年为基期,2003年与1987年相比该地区社会商品零售额共增长:(2)年平均增长速度为=0.0833=8.33%(3)2004年的社会商品零售额应为(亿元)2、某地区国内生产总值在1991—1993年平均每年递增12%,1994--1997年平均每年递增10%,1998--2000年平均每年递增8%。试计算:(1)该地区国内生产总值在这10年间的发展总速度和平均增长速度;解:发展总速度平均增长速度=(2)若2000年的国内生产总值为500亿元,以后平均每年增长6%,到2002年可达多少?解:(亿元)平均数(亿元),(3)若2002年的国内生产总值的计划任务为570亿元,一季度的季节比率为105%,则2002年一季度的计划任务应为多少?解:2002年一季度的计划任务:(亿元)。3、某县2000—2003年各季度鲜蛋销售量数据如下(单位:万公斤)年份一季度二季度三季度四季度27\n200020012002200313.110.814.618.413.911.517.520.07.99.716.016.98.611.018.218.0(1)用移动平均法消除季节变动;(2)拟合线性模型测定长期趋势;解:(1)移动平均法消除季节变动计算表年别季别鲜蛋销售量四项移动平均值移正平均值()2000年一季度13.1—二季度13.910.875—三季度7.910.310.5875四季度8.69.7102001年一季度10.810.159.925二季度11.510.7510.45三季度9.711.711.225四季度1113.212.452002年一季度14.614.77513.9875二季度17.516.57515.675三季度1617.52517.05四季度18.218.1517.83752003年一季度18.418.37518.2625二季度2018.32518.35三季度16.9四季度18(2)4、给出某市场上四种蔬菜的销售资料如下表:品种销售量(公斤)销售价格(元/公斤)基期计算期基期计算期白菜5505601.601.80黄瓜2242502.001.90萝卜3083201.000.90西红柿1681702.403.00合计12501300────⑴用拉氏公式编制四种蔬菜的销售量总指数和价格总指数;⑵再用帕氏公式编制四种蔬菜的销售量总指数和价格总指数;解:(1);(2)。5、已知某地区1997年的农副产品收购总额为360亿元,1998年比上年的收购总额增长12%,农副产品收购价格总指数为105%。试考虑,1998年与1997年对比:27\n⑴农民因交售农副产品共增加多少收入?解:⑵农副产品收购量增加了百分之几?农民因此增加了多少收入?解:;⑶由于农副产品收购价格提高5%,农民又增加了多少收入?解:⑷验证以上三方面的分析结论能否保持协调一致。解:。中国地质大学(武汉)远程与继续教育学院统计学课程综合测试1学习层次:专科时间:90分钟一.判断题(每小题2分,共20分)1.描述统计分析是推断统计分析的基础。(√)2.统计分布中变量的取值必须满足完备和互斥的要求。(√)3.条形图与直方图均可用于分类数据的整理。(╳)4.众数、中位数与平均数的使用与不同的分布形态无关。(╳)5.离散趋势值越小,说明集中趋势值的代表性越好。(√)6.在抽样推断中,总体参数是确定的、唯一的,而样本估计量是一个随机变量。(√)7.假设检验中犯两类错误的机会相同。(╳)8.置信区间估计要比点估计更精确。(√)9.方差分析是对不同总体方差进行比较的分析方法。(╳)10.相关系数值小于零时,回归系数也是小于零。(√)二.选择题(每小题1分,共20分)1.指出下面的数据哪一个属于顺序数据(D)A.年龄B.工资C.汽车产量D.员工对企业某项改革措施的态度(赞成、中立、反对)2.某研究部门准备在全市200万个家庭中抽取2000个家庭,并据此推断该城市所有职工家庭的年人均收入。这项研究的参数是(D)A.2000个家庭B.200万个家庭C.2000个家庭的人均收入D.200万个家庭的人均收入3.一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。这里的样本是(A)A.1000个消费者B.所有在网上购物的消费者C.所有在网上购物的消费者的平均花费D.1000个消费者的平均花费4.一家公司的人力资源部主管需要研究公司雇员的饮食习惯,以便改善公司餐厅的现状。他注意到,雇员的午饭要么从家里带来,要么在公司餐厅就餐,要么在外面的餐馆就餐。他收集数据的方法属于(D)A.访问调查B.邮寄调查C.个别深度访问D.观察调查5.下列不属于描述统计问题的是(A)A.根据样本信息对总体进行的推断B.了解数据分布的特征27\nC.分析感兴趣的总体特征D.利用图、表或其他数据汇总工具分析数据6.某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出。为此,他调查了200名学生,发现他们每月平均生活费支出是500元。该研究人员感兴趣的变量是(C)A.该大学的所有学生人数B.所有本科生月平均生活费支出C.该大学所有本科生的月生活费支出D.所调查的200名学生的平均月生活费支出7.按各类别数据出现的频数多少排序后绘制的柱形图称为(C)A.条形图B.饼图C.帕累托图D.对比条形图8.将各有序类别或组的频数逐级累加起来得到的频数称为(B)A.频率B.累积频数C.比例D.比率9.为描述身高与体重之间是否有某种关系,适合采用的图形是(C)A.条形图B.对比条形图C.散点图D.箱线图10.下列关于众数的叙述,不正确的是(C)A.一组数据可能存在多个众数B.众数主要适用于分类数据C.一组数据的众数是唯一的D.众数不受极端值的影响11.n个变量值乘积的n次方根称为(D)A.众数B.中位数C.四分位数D.几何平均数12.一组数据的最大值与最小值之差称为(C)A.平均差B.标准差C.极差D.四分位差13.甲、乙两班同学参加了统计学期末考试,结果两班的平均成绩,标准差,则统计学成绩离散程度较大的是(B)。A.甲班B.乙班C.一样大D.无法判断14.从含有N个元素的总体中,抽取n个元素作为样本,使得总体中每个元素都有相同的机会(概率)被抽中,这样的抽样方式称为(A)A.简单随机抽样B.分层抽样C.系统抽样D.整群抽样15.在抽样之前先将总体的元素划分为若干类,然后从各个类中抽取一定数量的元素组成一个样本,这样的抽样方式称为(B)A.简单随机抽样B.分层抽样C.系统抽样D.整群抽样16.抽样分布是指(C)A.一个样本各观测值的分布B.总体中各观测值的分布C.样本统计量的分布D.样本数量的分布17.若边际误差E=3,σ=40,要估计总体均值μ的95%的置信区间所需的样本容量为(A)。A.483B.583C.683D.78318.在对2000个消费者构成的随机样本调查中,有64%的人说他们购买商品时主要考虑价格因素。对根据价格做出购买决定的消费者比例的区间进行估计,若置信水平由99%降到95%,则区间的宽度会(B)。A.变宽B.变窄C.可能变宽也可能变窄D.不变19.在假设检验中,当原假设错误时未拒绝原假设,所犯的错误称为(B)。A.第一类错误B.第二类错误C.弃真错误D.取真错误20.对一元线性回归方程的线性关系进行显著性检验时,应建立的原假设为(A)。A.回归系数;B.回归系数;C.回归系数;D.回归系数27\n三.简答题(每题6分,共24分)1、什么是中心极限定理?答:要点:从均值为m,方差为s2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。2、简述参数估计与假设检验的区别和联系。答:要点:假设检验与参数估计是统计推断的两个组成部分,它们解决问题的途径是相关联的,都是基于数理统计理论的推断方法,都是基于利用样本信息来推断总体的性质。它们都是选取一个统计量,然后使这个统计量被某个区间包含的概率得到推断结论。因此,利用区间估计可以建立假设检验。两者之间区别:第一,区间估计要求是以一定的置信度给出未知参数的所在范围;而假设检验是要求以一定的显著性水平来判定未知参数取已给定的值;第二,区间估计对未知参数几乎一无所知,而假设检验对未知参数有所了解。3、方差分析的原理是怎样的?答:要点:方差分析使用F统计量即组间方差与组内方差的比来作为检验多个总体均值是否相等的依据。其中,组间方差既包含系统误差,又包含随机误差;而组内方差只包含随机误差。因此,如果二者的比值接近1,说明没有系统误差即均值相等;反之则说明多个总体的均值有显著差异,也就是A因素对结果的影响是显著的。4、回归分析与相关分析有何区别?答:相关关系中,变量x与变量y处于平等的地位;而在回归分析中,变量y称为因变量,x称为自变量;相关分析中所涉及的变量x和y都是随机变量;而在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制;相关系数是双向对称的,但回归系数是非对称的;相关系数可以反映回归效果的好坏,但不能反映回归直线的陡度。而回归系数反映了回归直线的陡度,但不能反映观测值与回归直线分散的情况。四、计算题(每题分,共36分)1.某企业准备用3种方法组装一种新产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析,得到下面的方差分析表:差异源SSdfMSFP-valueFcrit组间2100.2459463.354131组内3836———总计29————(1)完成上面的方差分析表(每空2分,共12分)。(2)27\n若显著性水平为0.05,检验3种方法组装的产品数量之间是否有显著差异(8分)?(要求写出假设及检验依据)解:方差分析表中所缺的数值如下表:差异源SSdfMSFP-valueFcrit组间42022101.4780.2459463.354131组内383627142.07———总计425629————(或),不能拒绝原假设。即没有显著差异。2.对于某一元线性回归问题,已知SSR=36,SSE=4,n=18。(1)计算判定系数,并解释其意义。(8分)(2)计算估计标准误差,并解释其意义。(8分)解:(1)表示回归离差平方和占总离差的90%,说明回归平方和能解释线性关系中绝大部分90%的原因,说明自变量与因变量之间具有很强的线性关系。(2)。估计标准误差是对误差项标准差的估计,反映了用估计的回归方程预测因变量y时预测误差为0.5,可以说明回归直线的拟合优度。27\n中国地质大学(武汉)远程与继续教育学院统计学课程综合测试2学习层次:专科时间:90分钟一.判断题:(每题2分,共20分。)1.茎叶图主要用于顺序型数据的显示。(×)2.中位数不受数据极端值的影响。(√)3.方差分析中假定每个总体都服从正态分布。(√)4.标准分数只是将原始数据进行线性变换,没有改变该组数据分布的形状,也没有改变一个数据在该组数据中的位置,只是使该组数据的平均数为0,标准差为1。(√)5.假设检验中要使α和β同时减少的唯一方法是减少样本容量。(×)6.对一个正态总体进行抽样调查,不论样本容量大小如何,样本均值统计量总是服从正态分布的。(√)7.在参数估计中,样本比例p是非随机变量,而总体参数π通常是未知的随机变量。(×)8.对两个总体方差相等进行检验,在=0.01的显著性水平上拒绝了原假设,这表示原假设为真的概率小于0.01。(×)9.相关系数r的符号反映相关关系的方向,其绝对值的大小反映相关的密切程度。(√)10.抽样调查中,样本容量的大小取决于很多因素,在其他条件不变时,样本容量与边际误差成正比。(×)二.选择题(每小题1分,共20分)1.为了估计某城市愿意乘坐公车上下班的人数比例,我们最有可能采用的数据搜集方法是(C)A.普查B.公开发表的资料C.随机抽样D.实际观察2.一项民意调查的目的是想确定年轻人愿意与其父母讨论的话题。调查结果表明:45%的年轻人愿意与其父母讨论家庭财务状况,38%的年轻人愿意与其父母讨论有关教育的话题,15%的年轻人愿意与其父母讨论爱情问题。该调查所收集的数据是(A)A.分类数据B.顺序数据C.数值型数据D.试验数据3.一名学生为完成作业,在《统计年鉴》中找到了2008年城镇家庭的人均收入,这一数据属于(C)。A.分类数据B.顺序数据C.截面数据D.时间序列数据27\n4.下面的图形中最适于描述一组数据分布的图形是(C)A.条形图B.茎叶图C.直方图D.饼图5.直方图与条形图的区别之一是(A)A.直方图的各矩形通常是连续排列的,而条形图则是分开排列的B.条形图的各矩形通常是连续排列的,而直方图则是分开排列的C.直方图主要用于描述分类数据,条形图则主要用于描述数值型数据D.直方图主要用于描述各类数据的多少,条形图则主要用于描述数据的分布6.算数平均数具有的数学性质为(B)A.B.C.D.7.四分位差是(A)A.上四分位数减下四分位数的结果B.下四分位数减上四分位数的结果C.下四分位数加上四分位数的结果D.下四分位数与上四分位数的中间值8.变量值与其平均数的离差除以标准差后的值称为(A)A.标准分数B.离散系数C.方差D.标准差9.评价一个点估计量是否优良的标准有(A)。A.无偏性、有效性、一致性B.无偏性、一致性、准确性C.准确性、有效性、及时性D.准确性、及时性、完整性10.点估计的缺点是(C)。A.不能给出总体参数的准确估计C.不能给出点估计值与总体参数真实值接近程度的度量B.不能给出总体参数的有效估计D.不能给出总体参数的准确区间11.在假设检验中,“=”号总是放在(A)。A.原假设上B.备择假设上C.都可以D.有时放在原假设,有时放在备择假设12.方差分析判断分类型自变量对数值型因变量的影响,是通过检验(A)A.各总体的均值是否相等B.各总体的方差是否相等C.各样本的均值是否相等D.各总体的方差是否相等13.在方差分析中,检验统计量F是(B)。A.组间平方和除以组内平方和B.组间均方除以组内均方C.组间平方和除以总平方和D.组间均方除以总均方14.在方差分析中,衡量同一水平下样本数据的误差称为(A)A.组内误差B.组间误差C.组内平方D.组间平方15.在方差分析中,假定每个总体的方差(A)A.相等B.不相等C.等于0D.大于016.在假设检验中,显著性水平表示(A)。A.原假设为真时被拒绝的概率B.原假设为假时被接受的概率C.原假设为真时被接受的概率D.原假设为假时被拒绝的概率17.在一次假设检验中当显著性水平α=0.01H0被拒绝时,则用α=0.05(A)。A.一定会被拒绝B.一定不会被拒绝C.可能会被拒绝D.需要重新检验27\n18.以下哪种情况适用t检验(C)。A.非正态总体用小样本对总体均值检验B.正态总体、方差已知的总体均值检验C.正态总体、方差未知的总体均值检验D.非正态总体用大样本的均值检验19.如果相关系数│r│=1,则表明两个变量之间存在着(D)。A.正相关B.完全正相关C.完全负相关D.完全正相关或完全负相关20.以下用来衡量回归方程拟合优度的是(C)。A.相关系数B.回归系数C.判定系数D.协方差三.问答题(每题12分,共24分)1.众数、中位数和平均数的特点及应用场合分别是怎样的?解答:三者具有不同的特点。众数是一组数据分布的峰值,不受极端值的影响;其缺点是具有不唯一性。在数据量较多时使用才有意义,主要适用于分类数据。中位数的特点也是不受极端值的影响。当一组数据分布偏斜程度较大时,使用中位数是一个好的选择,主要适用于顺序数据。均值适用于数值型数据,使用最为广泛。但易受极端值影响。当数值型数据接近对称分布时,3个代表值接近相等,选用均值更合适。但当分布较为偏斜时,应考虑选用众数或中位数,此时它们的代表性要优于均值。2.一家大型超市上个月接到许多消费者投诉某品牌的饼干,投诉规格为100g一袋的那种饼干重量不符。店方猜想引起这些投诉的原因是运输过程中压碎了饼干导致的,但为了使顾客感到物有所值,店方决定对该供应商的下一批饼干的平均重量进行检验,假设陈述如下:H0:μ≥100H1:μ<100如果有证据可以拒绝原假设,店方就会拒收这批饼干并向供应商投诉。(1)与这一假设检验问题相关联的第一类错误什么?解答:第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于60克,但检验结果却提供证据支持店方倾向于认为其重量少于60克;(2)与这一假设检验问题相关联的第二类错误什么?解答:第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;(3)你认为顾客会将哪类错误看得较严重?而供应商会将哪类错误看得较为严重?解答:顾客们自然看重第二类错误,而供应商更看重第一类错误。四.计算题(要求写出计算公式、过程,结果保留两位小数,共36分)1.某餐饮店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为12.6元,标准差为2.8元。试以95.45%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间;(φ(2)=0.9545)(12分)解:是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。27\n已知:则有:平均误差=边际误差据公式代入数据,得该餐饮店顾客的总体平均花费数额95.45%的置信区间为(11.8,13.4)2.从某一行业中随机抽取5家企业,所得产品产量与生产费用的数据如下:产品产量(台)xi4050507080生产费用(万元)yi130140145150156要求:①利用最小二乘法求出产量与费用之间估计的回归方程;(15分)②计算判定系数R2,并说明含义。(9分)已知:解:①计算估计的回归方程:==0.567144.2–0.567×58=111.314估计的回归方程为:=111.314+0.567②计算判定系数:27\n中国地质大学(武汉)远程与继续教育学院统计学课程综合测试3学习层次:专科时间:90分钟一.判断题(每题2分,共20分)1.截面数据是指在相同或近似相同的时间点上收集的数据。(√)2.异众比率主要用于衡量众数对一组数据的代表程度。(√)3.统计数据的误差通常有抽样误差和非抽样误差两类。(√)4.直方图、茎叶图和箱线图都是反映原始数据分布的图形。(×)5.统计量是用来描述样本特征的概括性数字度量,它是一个随机变量。(√)6.茎叶图比直方图反映的数据信息更全面。(√)7.根据经验法则,约有99%的数据在均值加减3个标准差的范围内。(×)8.右侧检验中,如果P值<α,则不能拒绝H0。(×)9.估计的有效性就是指估计量的离散程度越小越好。(√)10.方差分析中假定各个总体的方差必须相同。(√)二.选择题(每题1分,共20分)1.主要用于测度分类数据的集中趋势,同时也适用于其它类型数据的集中趋势描述的概括性度量是(A)A.众数B.中位数C.四分位差D.异众比率2.某寝室11名同学的英语成绩分别为70、71、76、78、83、86、85、81、90、93、97,则英语成绩的上四分位数为(C)A.86B.74.75C.90D.973.与直方图相比,茎叶图(B)A.没保留原始数据的信息B.适于描述小批量数据的分布C.不能用于描述大批量数据的分布D.适于描述分类数据的分布4.经验法则表明,当一组数据对称分布时,在平均数加减1个标准差的范围之内大约有(A)A.68%的数据B.95%的数据C.99%的数据D.100%的数据5.某班学生的年龄分布是右偏的,均值为22,标准差为4.45。如果采取重复抽样的方法从该班抽取容量为100的样本,则样本均值的抽样分布是(A)A.正态分布,均值为22,标准差为0.445B.分布形状未知,均值为22,标准差为4.45C.正态分布,均值为22,标准差为4.45D.分布形状未知,均值为22,标准差为0.44527\n6.假设总体比例为0.4,采用重复抽样的方法从此总体中抽取一个容量为100的简单随机样本,则样本比例的期望为(B)A.0.3B.0.4C.0.5D.0.457.对于来自正态总体的简单随机样本,统计量的抽样分布为(A)A.B.C.D.N(0.1)8.设X~N(0,),则服从自由度为n-1的t分布的随机变量是(A)A.B.C.D.全不是9.从=0.5的总体中,重复抽取一个容量为100的简单随机样本,p的标准差为(C)。A.0.5B.0.25C.0.05D.510.一个估计量的一致性是指(C)A.该估计量的数学期望等于被估计的总体参数B.该估计量的方差比其他估计量小C.随着样本容量的增大,该估计量的值越来越接近被估计的总体参数D.该估计量的方差比其他估计量大11.在总体均值和总体比例的区间估计中,边际误差由(C)A.置信水平确定B.统计量的抽样标准差确定C.置信水平和统计量的抽样标准差确定D.统计量的抽样方差确定12.在置信水平不变的条件下,要缩小置信区间,则(A)A.需要增加样本容量B.需要减少样本容量C.需要保持样本容量不变D.需要改变统计量的抽样标准差13.在估计总体比例时,在其他任何信息不知道的情况下,可使用的的方差最大值为(D)A.0.05B.0.01C.0.10D.0.2514.在假设检验中,备择假设具有特定方向性的假设检验称为(D)。A.原假设B.备择假设C.双侧检验D.单侧检验15.对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程称为(A)。A.假设检验B.参数估计C.双侧检验D.单侧检验16.在假设检验中,不拒绝原假设意味着(C)A.原假设肯定是正确的B.原假设肯定是错误的C.没有证据证明原假设是正确的D.没有证据证明原假设是错误的17.在假设检验中,对于第I类错误和第Ⅱ类错误(A)A.通常是先控制第I类错误B.通常是先控制第Ⅱ类错误C.通常是放弃控制第I类错误D.通常是放弃控制第Ⅱ类错误18.当样本容量一定时,拒绝域的面积(B)A.与显著性水平的大小无关B.与显著性水平的大小成正比C.与显著性水平的大小成反比D.与样本观测值有关27\n19.方差分析中,构造的统计量服从(C)。A.分布B.正态分布C.F分布D.t分布20.对相关系数的显著性检验,通常采用的是(A)A.t检验B.F检验C.Z检验D.卡方检验三.简答题(每题6分,共24分)1.答:统计表的构成要素有:(1)表头;(2)行标题;(3)列标题;(4)数字资料;(5)附加,注释或说明。2.参数与统计量有何不同?答:参数由全及总体各单位的标志值或标志属性决定的指标值,是总体变量的函数;统计量是根椐样本各单位标志值或标志属性计算的综合指标,是样本变量的函数,用来估计总体参数的,与总体参数相对应。3.抽样调查的特点是什么?答:抽样调查是非全面调查,它是通过对样本的调查来推断总体,从而达到对总体数量特征的认识;按照随机原则取样是抽样调查的另一个特点。4.假设检验步骤有哪些?答:具体包括:首先写出假设(原假设和备择假设),然后根据具体情况确定检验统计量,并按照显著性水平计算临界值,接下来计算统计量的值并与临界值比较,最后做出决策。四.计算题(要求写出计算公式、过程,最后结果保留两位小数。共36分。)1.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。(15分)(1)假定总体标准差为15元,求样本均值的抽样标准误差;(2)在95%的置信水平下,求边际误差;(3)如果样本均值为120元,求总体均值95%的置信区间。解:过程略(1);(2)E=4.2;(3)(115.8,124.2)。2.某汽车生产商欲了解广告费用(x)对销售量(y)的影响,它们收集了过去12年的有关数据,并通过计算得到了下面的方差分析表(=0.05):(1)请为方差分析表填写空缺的数据;(6分)(2)计算判定系数;(4分)27\n(3)计算估计标准误差;(4分)(4)计算x与y的相关系数;(2分)(5)试检验两个变量之间的线性关系是否显著。(5分)解:(要求写出公式和计算过程)(1)4015.807和399.1(2)0.9756(3)63.37(4)0.9877(5)由表中P值可知,P值<0.05,故线性关系显著。27

相关文档