- 904.50 KB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学上机作业(1)一、利用软件计算1、宾馆未露面者人数进行统计频数分析,分析结果对确定超员预定客房数有何帮助?(数据参见课件)因而得出结论该宾馆可以增加订房数,以使得宾馆的到充分运用。2、文件名:DATA11-02文件说明:1973年某市测量120名12岁男孩身高资料。变量说明:height:12岁男孩身高绘制身高分布的直方图,求出该市12岁男孩身高平均值95%和99%的置信区间,说明置信系数与区间宽度之间的关系。\n(1)当平均值是95%时:\n(1)当平均值是99%时\n有置信区间的:当置信度为95%时,为(141.996,144.100),当置信度为99%时,为(141.657,144.439)说明置信度越大估计精度越差。3、文件名:DATA09-03文件说明:1969-1971年美国一家银行的474名雇员情况的调查数据,其中包括工资、受教育水平、工作经验、种族等数据。变量说明:ID:EmployeeCode(雇员代码)GENDER:性别BDATE:DateofBirth(出生日期)EDUC:EducationalLevel(years)(受教育年份)JOBCAT:EmploymentCategory(工作地位)SALARY:CurrentSalary(当前工资)SALBEGIN:BeginningSalary(起始工资)JOBTIME:MonthssinceHire(雇佣月份)PREVEXP:PreviousExperience(months)(以前工作经历)MINORITY:MinorityClassification(特殊群体)AGE:年龄A、请分别求出该银行中男雇员、女雇员工资平均值的95%的置信区间。CaseProcessingSummaryCasesValidMissingTotalGenderNPercentNPercentNPercentCurrentSalaryFemale216100.0%0.0%216100.0%Male258100.0%0.0%258100.0%DescriptivesGenderStatisticStd.ErrorCurrentSalaryFemaleMean$26,031.92$514.2695%ConfidenceIntervalLowerBound$25,018.29\nforMeanUpperBound$27,045.555%TrimmedMean$25,248.30Median$24,300.00Variance57123688.268Std.Deviation$7,558.02Minimum$15,750Maximum$58,125Range$42,375InterquartileRange$7,012.50Skewness1.863.166Kurtosis4.641.330MaleMean$41,441.78$1,213.9795%ConfidenceIntervalforMeanLowerBound$39,051.19\nUpperBound$43,832.375%TrimmedMean$39,445.87Median$32,850.00Variance380219336.303Std.Deviation$19,499.21Minimum$19,650Maximum$135,000Range$115,350InterquartileRange$22,675.00Skewness1.639.152Kurtosis2.780.302所以得女职工工资均值的置信度为95%的置信区间为:(25,018.29,27,045.55)男职工工资均值的置信度为95%的置信区间为:(39,051.19,43,832.37)B、请计算出男女平均工资差异的95%的置信区间,并对差异程度做出解释。GroupStatisticsGenderNMeanStd.DeviationStd.ErrorMeanCurrentSalaryMale258$41,441.78$19,499.21$1,213.97\nFemale216$26,031.92$7,558.02$514.26IndependentSamplesTestLevene'sTestforEqualityofVariancest-testforEqualityofMeansFSig.tdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference95%ConfidenceIntervaloftheDifferenceLowerUpperCurrentSalaryEqualvariancesassumed119.669.00010.945472.000$15,409.86$1,407.91$12,643.32$18,176.40Equalvariancesnotassumed11.688344.262.000$15,409.86$1,318.40$12,816.73$18,003.00由图的置信区间为:(12,643.32,12,816.73)C、请求出雇员当前工资与起始工资平均值的95%的置信区间。、PairedSamplesStatisticsMeanNStd.DeviationStd.ErrorMeanPair1CurrentSalary$34,419.57474$17,075.66$784.31BeginningSalary$17,016.09474$7,870.64$361.51PairedSamplesCorrelationsNCorrelationSig.Pair1Current474.880.000\nSalary&BeginningSalaryPairedSamplesTestPairedDifferencestdfSig.(2-tailed)MeanStd.DeviationStd.ErrorMean95%ConfidenceIntervaloftheDifferenceLowerUpperPair1CurrentSalary-BeginningSalary$17,403.48$10,814.62$496.73$16,427.41$18,379.5635.036473.000由结果的置信区间为:(16,427.41,18,379.56)4、文件名:DATA10-04文件说明:29名13岁男生的身高、体重、肺活量数据。变量说明:no:编号;height:身高;weight:体重;vcp:肺活量.请求出身高大于等于155cm(≥155cm)与身高小于155cm(<155cm)的两组男生体重与肺活量平均值的95%的置信区间。\n由图的置信区间为:对于体重来说为(3.3231,10.1288)对于肺活量来说(0.07110,0.70534)5、文件名:DATA11-03文件说明:10位高血压患者在施以体育疗法前后测定舒张压的数据。变量说明:number:编号pretreat:治疗前舒张压(mmHg)posttreat:治疗后舒张压(mmHg)请求出治疗前与治疗后患者血压平均值差异的95%的置信区间。说明体育疗法对高血压有无治疗效果。由t值为5.639不在区间(10.180,23.820)内,所以认为体育疗法对高血压有治疗效果。6、\n文件名:DATA11-04文件说明:经过严格挑选12名排球运动员用新训练方法进行训练,训练前后分别测试6项技术指标的数据。变量说明:NUMBER:编号;BHAND:前手形控制;AHAND:后手形控制;BCFC1:前睁眼力控制;ACFC1:后睁眼力控制;BCFC2:前闭眼力控制;ACFC2:后闭眼力控制;BACUR:前准确性;AACUR:后准确性;BFOCL:前左用力感;AFOCL:后左用力感;BFOCR:前右用力感;ADOCR:后右用力感请计算出训练前后手形控制、睁眼力控制、闭眼力控制、准确性平均值差异95%的置信区间。对新训练方法的效果做出说明。(1)训练前后手形控制平均值差异95%的置信区间是(-1.5111,-0.7389)t=-6.413不在区间内所以认为新训练方法的有效果。(2)\n训练前后睁眼力控制平均值差异95%的置信区间是(-4.412,-1.421)t=-4.293在区间内所以认为新训练方法的无效果。(3)训练前后闭眼力控制平均值差异95%的置信区间是(-5.600,-3.400),t=-9.000不在区间内所以认为新训练方法的有效果。(4)\n训练前后准确性平均值差异95%的置信区间是(-6.099,-3.567),t=-8.403不在区间内所以认为新训练方法的有效果。7、文件名:DATA18-27文件说明:150名三岁女童身高数据。请计算出身高在85cm-100cm之间的三岁女童所占的比例10%出有多少人,第10%,30%,70%分位数。Statistics第10%,30%,70%分位数分别为:86.540,90.130,94.970。Hight(cm)NValid150Missing0Percentiles1086.5403090.1307094.970Hight(cm)FrequencyPercentValidPercentCumulativePercentValid80.11.7.7.782.31.7.71.382.51.7.72.083.51.7.72.784.21.7.73.384.421.31.34.784.521.31.36.085.01.7.76.7\n85.21.7.77.385.71.7.78.086.21.7.78.786.41.7.79.386.51.7.710.086.91.7.710.787.11.7.711.387.21.7.712.087.31.7.712.787.41.7.713.387.61.7.714.087.91.7.714.788.01.7.715.388.11.7.716.088.21.7.716.788.421.31.318.088.51.7.718.788.71.7.719.388.91.7.720.089.021.31.321.389.121.31.322.7\n89.21.7.723.389.332.02.025.389.41.7.726.089.71.7.726.789.81.7.727.390.032.02.029.390.11.7.730.090.21.7.730.790.321.31.332.090.41.7.732.790.51.7.733.390.61.7.734.090.71.7.734.790.821.31.336.091.132.02.038.091.31.7.738.791.41.7.739.391.732.02.041.391.81.7.742.091.91.7.742.792.11.7.743.3\n92.31.7.744.092.41.7.744.792.521.31.346.092.61.7.746.792.721.31.348.092.832.02.050.092.921.31.351.393.01.7.752.093.11.7.752.793.221.31.354.093.31.7.754.793.41.7.755.393.51.7.756.093.632.02.058.093.71.7.758.793.81.7.759.393.91.7.760.094.01.7.760.794.21.7.761.394.332.02.063.394.432.02.065.3\n94.51.7.766.094.61.7.766.794.721.31.368.094.821.31.369.394.91.7.770.095.01.7.770.795.142.72.773.395.51.7.774.095.621.31.375.395.81.7.776.096.01.7.776.796.221.31.378.096.31.7.778.796.41.7.779.396.51.7.780.096.61.7.780.796.71.7.781.396.81.7.782.097.021.31.383.397.11.7.784.097.21.7.784.7\n97.321.31.386.097.51.7.786.797.91.7.787.398.31.7.788.098.41.7.788.798.721.31.390.099.11.7.790.799.21.7.791.399.31.7.792.099.41.7.792.799.521.31.394.0100.11.7.794.7100.71.7.795.3100.91.7.796.0101.31.7.796.7101.51.7.797.3101.61.7.798.0102.61.7.798.7103.21.7.799.3104.81.7.7100.0Total150100.0100.0\n由表格的85cm的累积百分比为6.7%,100cm的累积百分比94.7%,所以身高在85cm-100cm之间的三岁女童所占的比例为94.7%-6.7%=88%。第10%,30%,70%分位数分别为:86.540,90.130,94.970。8、文件名:UniversityofFloridagraduatesalaries文件说明:UniversityofFlorida毕业生的起始工资、专业的数据。变量说明:graduate:毕业生编号;gender:性别;college:所在学院;salary:起始工资;degree:学位;graddate:毕业时间.A、请问各学院(④企业管理、⑦工程)(①农业学、⑤林业学)间毕业生工资平均值差异的95%的置信区间。(1)GroupStatisticsCollegeNMeanStd.DeviationStd.ErrorMeanStartingSalaryBusinessAdministration32224814.055553.360309.477Engineering28130876.875189.219309.563IndependentSamplesTestLevene'sTestforEqualityofVariancest-testforEqualityofMeansFSig.tdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference95%ConfidenceIntervaloftheDifferenceLowerUpperStartingSalaryEqualvariancesassumed.107.744-13.787601.000-6062.816439.750-6926.450-5199.181Equalvariancesnotassumed-13.851598.180.000-6062.816437.727-6922.484-5203.147Sig=0.744〉0.025所以两者方差无差异。由于sig=0.000<0.025所以对于均值来说两者有差异。企业管理、工程间毕业生工资平均值差异的95%的置信区间是(-6926.450,-6922.484)。(2)GroupStatisticsCollegeNMeanStd.DeviationStd.ErrorMeanStartingAgriculture41523780.007678.715376.933\nSalaryForestry219000.006363.9614500.000IndependentSamplesTestLevene'sTestforEqualityofVariancest-testforEqualityofMeansFSig.tdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference95%ConfidenceIntervaloftheDifferenceLowerUpperStartingSalaryEqualvariancesassumed.146.702.879415.3804780.0005440.686-5914.73815474.738Equalvariancesnotassumed1.0591.014.4804780.0004515.759-50749.16960309.169由于sig=0702〉0.025所以两者方差无差异,sig=0.380〉0.025,所以接受原假设,认为两者均值无差异。农业学、林业学间毕业生工资平均值差异的95%的置信区间(-5914.738,-50749.169)。B、构造企业管理毕业生中男、女平均工资差异的95%的置信区间,并做出解释。GroupStatisticsGenderNMeanStd.DeviationStd.ErrorMeanStartingSalaryMale63127026.516870.097273.494Female46924769.516895.765318.417IndependentSamplesTestLevene'sTestforEqualityofVariancest-testforEqualityofMeansFSig.tdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference95%ConfidenceIntervaloftheDifferenceLowerUpperStartingSalaryEqualvariancesassumed.034.8545.3801098.0002256.996419.5171433.8503080.142Equalvariancesnotassumed5.3771006.360.0002256.996419.7481433.3143080.678\n由于sig=0.854在区间(2.5%,97.5%)之间,所以两者方差无差异。Sig=0.000<0.025所以拒绝原假设,认为两者有明显差异。男、女平均工资差异的95%的置信区间是(1433.850,3080.142)。C、说明平均工资高的专业与低的专业之间的差距。解:由第(1)知均值最大的是工程类专业,均值最小的是林业学专业。所以比较两者既可。GroupStatisticsCollegeNMeanStd.DeviationStd.ErrorMeanStartingSalaryEngineering28130876.875189.219309.563BusinessAdministration32224814.055553.360309.477IndependentSamplesTestLevene'sTestforEqualityofVariancest-testforEqualityofMeansFSig.tdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference95%ConfidenceIntervaloftheDifferenceLowerUpperStartingSalaryEqualvariancesassumed.107.74413.787601.0006062.816439.7505199.1816926.450Equalvariancesnotassumed13.851598.180.0006062.816437.7275203.1476922.484由于sig=0.744〉0.25所以两者方差无差异,对于均值sig=0.000<0.025所以拒绝原假设,认为两者有差异。工程类专业的工资比林业学的最少高5199.181,最多高6926.450。9日本的管理人员和工人比美国的同行目的性更明确?为了对这个问题的一个方面进行研究,研究人员对日本和美国的中年企业经理进行了调查。从东京和大阪两地选出100名经理组成日本样本,而美国样本则由不得221名来自贝尔系统的管理人员组成。对每一名管理人员均进行萨尔诺夫(SarnoffSurveyofAttitudesTowardLife,SSATL)籍以测量向上流动的动力。SSATL分数汇总于下表(较高分数代表较强的向上流动动力)。美国管理人员日本管理人员样本容量平均SSATL分数标准差21165.7511.0710079.836.41(1)对美国和日本管理人员求平均SSATL分数之差的95%置信区间。\n~N(μ1,11.07)~(μ2,6.41)分布检验统计量为:~t(n1+n2-2)则μ1-μ2置信度为95%的置信区间是:(--,-+)其中f=298所以原式子可以近似服从正态分布。t=1.96所以置信区间是:(-14.08-0.9927*1.96,-14.08+0.9927*1.96)即:(-16.027,-12.134)(1)对(1)中得出的区间作出解释。这一结果是否显示出日本管理人员平均的来说向上流动的动力比美国管理人员强?解:由置信区间知道,日本管理人员比美国管理人员向上流动的动力大12.134~16.027之间。(2)假定你想减少(1)所得出的区间宽度。为了以1分的误差和95%的把握估计平均SSATL分数之差,每个样本容量应多大?(假定两个样本容量相等)解:由误差为Δ=而n1=n2,t=1.96所以得到样本容量为:n=629。10根据R.H.布鲁斯金题为“美国的现代化”的研究,约有三分之一的人感到购物是一种不愉快的经历。为了确定对购物是否愉快的意见,调查了一个由2025名男性和女性成年人组成的全国性样本,结果如下:男性女性样本容量认为购物是一种不愉快经历的人数10124251013283(1)你同意R.H.布鲁斯金的“约有三分之一的人感到购物是一种不愉快的经历”这一结论吗?用上述调查结果说明理由。由~N(p,p(1-p)/n)统计量Z=~N(0,1)\nP=1/3的,假设置信度为95%,置信区间为:(31.28,35.39)而实际的比例为(425+283)/(1012+1013)=34.96%在区间内,所以可以认为(1)对认为购物是一种不愉快经历的男性与女性两种比例之差构造98%置信区间约有三分之一的人感到购物是一种不愉快的经历,同意R.H.布鲁斯金的观点。解:μ=p1-p2检验统计量为:Z=则μ置信度为95%的置信区间是:(--,-+)带入相关数据的:(0.180455,0.25868),而1/3不再区间内所以不同意布鲁斯金的观点。(2)是男性还是女性显得更不喜欢购物解;男性更不喜欢购物,在置信度为95%时,比女性的比例最少大18.0455%,最多大25.868%。二、笔算题1、某公司拟生产一种新的家庭用品在某市进行推广,为此先进行抽样调查本地区拥有该产品的家庭的比例,问应抽多少家庭进行调查才能在没有可以借鉴的比例估计值的条件下,以98%的概率保证估计误差不超过5%?解:由Δ=带入数据的:Δ=0.05,=1.96,p=0.5N=3842、(1)某大学从该校学生中抽出144名测得其每天睡眠时间平均为8小时,样本标准差为4.2小时,试估计全部学生平均睡眠时间的可能范围区间(显著性水平95%)。解:δ=4.2,=8,n=144~N(μ,δ/n)统计量为:Z=~N(0,1)\n所以在置信度为95%时,全部学生平均睡眠时间的可能范围区间:(7.314,8.686)(2)若144名学生中女生数为40名,试以95%的概率,比重的抽样标准差为0.025,估计总体学生数中女生的比重的区间。解:Δ=带入数据的:=1.96,p=0.27778,δ==0.025所以Δ=0.049,总体学生数中女生的比重的区间为(22.88%,32.68%)3、某公司出厂前对其生产的一批优质奶粉进行重量检查,抽取样本100袋,检验结果如下:每袋重量(克)袋数490-4958495-50021500-50550505-51021合计100按规定这种奶粉每袋的标准重量不应低于500克。试以99%的概率保证下面两个问题:(1)该批奶粉平均每袋重量的总体标准差区间范围;解:每组中组中值分别为:492.5,497.5,502.5,507.5=501.7,方差是=18.04统计量为:s=~χ(n-1),由于n=100〉30所以转化为:S近似分布服从N(,/2(n-1))所以相应得置信区间为:(,)所以置信度为99%的置信区间为:(3.59,5.20)(2)该批奶粉平均每袋的重量范围,由此确定该批奶粉是否达到要求的标准。解:=18.04,n=100统计量设为:t=~t(n-1)由于n比较大,所以t近似服从标准正态分布。t=2.57,所以得到置信度为99%的置信区间是:(500.61,502.79)。