- 349.50 KB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
2016年秋社会统计学形成性考核作业形成性考核作业一(第1章至第3章) 表1是某大学二年级135个同学的《社会统计学》课程的期末考试成绩,请将数据输入SPSS软件,并(1)对考试成绩进行排序和分组(40分),(2)制作频数分布表(30分)并绘制频数分析统计图(30分)。 请注意分组时按照下列标准:等级AA-B+BB-C+CC-D+DF分数90-10086-8983-8580-8276-7973-7570-7266-6963-6560-620-59表1某专业二年级同学社会统计学期末考试成绩(百分制)学生成绩学生成绩学生成绩学生成绩学生成绩1862834558882701097126029655693838811080365303057858488111874283178588385681126658532865993868711384687338460958788114837703487617188911158586435856290897611678\n95136936386908711781105837966489918111881119038826589926111971125039786683937212086138740806784948612191148241746844952912266156542726968963712358166843737089978212468178644867184988212580188045857286998212677198146907379100851275520704769747810178128542180488675871028012962224949867688103901305423805084778210482131652470518178831057213274255952907992106861337026805334808610780134722752548481861088213573答:考试成绩按低至高排序如下表:学生成绩学生成绩学生成绩学生成绩学生成绩4281668116781148313879529696873793384348730308568188050847587283412468218054848687533447692380678490879637770268071841118768442070408011384558822492470102805857688125082701078035858388951133701108045858488275261711258057858788\n12854109711981100856489130541197151811158565891275542729181186708910589372117811786119012358105721188132864690255913472148244865290260437338824886629092611357377824986103901296241749782638688918641327498827286121913658976998280867992156512677104828186369329653178108829486569313165397858831068659931126674786683120866095122661017878836873796频数分布表新成绩频率百分比有效百分比累积百分比有效A139.69.69.6A-2820.720.730.4B+1611.911.942.2B2216.316.358.5B-85.95.964.4C+43.03.067.4C128.98.976.3C-75.25.281.5D+53.73.785.2D32.22.287.4F1712.612.6100.0合计135100.0100.0\n绘制频数分析统计图\n形成性考核作业二(第4章至第6章) 表1为某大学对100个学生进行了一周的上网时间调查,请用SPSS软件: (1)计算学生上网时间的中心趋势测量各指标(20分)和离散趋势测量各指标(30分)。 (2)计算学生上网时间的标准分(Z值)及其均值和标准差。(20分) (3)假设学生上网时间服从正态分布,请计算一周上网时间超过20小时的学生所占比例。(30分)表1某专业一年级同学一周上网时间(小时)学生学生学生学生学生\n上网时间上网时间上网时间上网时间上网时间1132118411461881102922224276219821038232243963248320412241044864138421582513451065218516626261046186621861071327124726671087108528224814681388219329194986920891910183010501070219010113312251137112913212103230522872159271320338531273269328141934205410742094191515351755975179515168361456107619961017837857127799720181538125824782198819203915592679179914202240136020801610018(1)计算学生上网时间的中心趋势测量各指标和离散趋势测量各指标统计量上网时间N有效100缺失0均值15.20中值14.00众数10\n标准差6.286方差39.515全距29百分位数2510.005014.007520.00(2)计算学生上网时间的标准分(Z值)及其均值和标准差描述统计量N均值标准差上网时间10015.206.286有效的N(列表状态)100学生上网时间Z值学生上网时间Z值学生上网时间Z值学生上网时间Z值学生上网时间Z值113-0.3521180.454114-0.19618-1.158110-0.8329-0.9922221.08427-1.362190.68210-0.8338-1.1523221.08439-0.9963241.483200.76412-0.512410-0.83448-1.156413-0.3584210.9258-1.152513-0.354510-0.8365210.9285160.136261.722610-0.8346180.4566210.928610-0.83713-0.352712-0.5147261.726710-0.838710-0.8385-1.6228221.084814-0.196813-0.3588210.9293-1.9429190.6498-1.1569200.7689190.610180.453010-0.835010-0.8370210.929010-0.83113-1.9431221.085113-0.357112-0.5191322.671210-0.8332302.3552282.047215-0.03927-1.313200.76338-1.155312-0.5173261.7293282.0414190.634200.765410-0.8374200.7694190.61515-0.0335170.29559-0.9975170.299515-0.03168-1.153614-0.195610-0.8376190.69610-0.83178-1.15378-1.155712-0.51779-0.9997200.761815-0.033812-0.5158241.478210.92988-1.1519200.763915-0.0359261.7279170.299914-0.1920221.084013-0.3560200.7680160.13100180.45描述统计量N均值标准差\nZ值100.00001.00002有效的N(列表状态)100(3)假设学生上网时间服从正态分布,请计算一周上网时间超过20小时的学生所占比例。统计量上网时间>20(FILTER)N有效100缺失0上网时间>20(FILTER)频率百分比有效百分比累积百分比有效小于等于20小时7979.079.079.0大于20小时2121.021.0100.0合计100100.0100.0\n形成性考核作业三(第1章至第12章) 一、单项选择题(在各题的备选答案中,只有1项是正确的,请将正确答案的序号,填写在题中的括号内。每小题2分,共20分)\n 1.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是(A) A.22000名学生 B.2200名学生 C.22000名学生的每月生活费用 D.2200名学生的每月生活费用 2.从变量分类看,下列变量属于定序变量的是(C) A.专业 B.性别 C.产品等级 D.收入 3.在频数分布表中,比率是指(D) A.各组频数与上一组频数之比 B.各组频数与下一组频数之比 C.各组频数与总频数之比 \n D.不同小组的频数之比 4.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据(D) A.茎叶图 B.环形图 C.饼图 D.线图 5.根据一个样本均值求出的90%的置信区间表明(C) A.总体均值一定落入该区间内 B.总体均值有90%的概率不会落入该区间内 C.总体均值有90%的概率会落入该区间内 D.总体均值有10%的概率会落入该区间内 6.判断下列哪一个不可能是相关系数(C) A.-0.89 B.0.34\n C.1.32 D.0 7.期中考试中,某班级学生统计学平均成绩为80分,标准差为4分。如果学生的成绩是正太分布,可以判断成绩在72分-88分之间的学生大约占总体的(A) A.95% B.68% C.89% D.90% 8.正态分布中,σ值越小,则(A) A.离散趋势越小 B.离散趋势越大 C.曲线越低平 D.变量值越分散 9.下面哪一项不是方差分析中的假定(D) A.每个总体都服从正态分布\n B.观察值是相互独立的 C.各总体的方差相等 D.各总体的方差等于0 10.对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为0.8,这表明(A) A.收入每增加1元,消费增加0.8元 B.消费每增加1元,收入增加0.8元 C.收入与消费的相关系数为0.8 D.收入对消费影响的显著性为0.8 二、名词解释(每题4分,共20分)1.抽样单位与抽样框:抽样单位就是一次直接的抽样所使用的基本单位。抽样框是指一次直接抽样时样本中所有抽样单位的名单。 2.均值:均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。因而,我们说均值是集中趋势最主要的测量值。\n 3.散点图:散点图是在坐标系中,用X轴表示自变量x,用Y轴表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。散点图是描述变量关系的一种直观方法,从散点图中直观的看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何,但是对于具体关系强度则需要相关系数来判断。 4.抽样分布:抽样分布是指样本统计量的概率分布,它是在重复选取容量为n的样本时,由每个样本计算出来的统计量数值的相对频数分布。例如样本均值的分布、样本比例分布等。 5.虚无假设与替换假设:将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假设或者零假设,通常用表示。如果虚无假设不成立,我们就拒绝虚无假设,需要在另个一假设中进行选择,这就是替换假设,替换假设通常用表示。上面例子中,虚无假设为::μ=1800替换假设为::μ≠1800a。 三、简答题(每题10分,共30分)1.等距分组和不等距分组有什么区别?请举例说明。答:在对数据进行\n分组时,如果分组组距相等,就是等距分组,如:学生平均每天上网时间:组距设3,分成3-6,6-9,9-12,12-15共4个小组。如果分组组距不相等,就是不等距分组。如:人口分析,分婴幼儿组(0-6),少儿组(7-17),中青年组(18-59),老人组(60-130),组距不相等。2.简述定类变量、定序变量和数值型变量集中趋势测量的方法。答:定序变量是层次最低的变量,用众数作为其中心趋势的测量,定序变量主要使用中位数、四分位数作为集中趋势的测量,同时也可以使用众数作位测量值,但是中位数和四分位数利用序次关系,因而更多使用这两者,数值里数据(定距河定比数据)的集中趋势测量指标是平均数,同样数值型数据使用众数和中位数、四分位数作位中心趋势的测量,但是更主要是使用均值,因为均值利用所有数据信息。3.如何对配对样本进行t检验。答:可运用以下2种方法对配对样本进行t检验配对样本T检验方法:配对样本检验主要是判断不同的处理或试验结果是否有差异。配对样本T检验(Paired—SampleT\ntest)用于检验两个相关的样本(配对样本)是否来自具有相同均值的总体,因此针对配对样本我们可以首先计算出两个样本每个对应变量间的差值,然后再检验其差值的均值是否为零,若均值接近于零(即在给定的置信区间内),说明两个样本均值在给定的置信水平上没有差异;若均值在给定置信区间以外,说明两个样本均值在给定的置信水平上有差异。= 四、计算题(每题15分,共30分) 1.某大学针对某项政策的态度调查,随机抽取300名被调查者,了解对政策的观点,调查结果见表1所示。(15分)表1对某项政策态度的调查结果学生教师学校领导合计赞同685716141反对34411085中立25361374合计12713439300 要求:(1)利用原始数据绘制包含百分比的二维表,并对绘制的列联表加以简要说明;答: 学生教师学校领导合计赞同68.057.016.0141.0行百分比(%)48.240.411.3——列百分比(%)53.542.541.0——总百分比(%)22.719.05.347.0反对34.041.010.085.0行百分比(%)40.048.211.8——列百分比(%)26.830.625.6——\n总百分比(%)11.313.73.328.3中立25.036.013.074.0行百分比(%)33.848.617.6——列百分比(%)19.726.933.3——总百分比(%)8.312.04.324.7合计127.0134.039.0300.0总百分比(%)42.344.713.0——简要说明:学生赞同人数所占行比例、列比例、总比例越多,教师反对人数所占行比例、列比例、总比例与多,学校领导中立的列比例最大,教师中立的行百分比和总百分比越大。(1)并计算γ系数,并进行说明、答:NS=68*(36+13+41+10)+57*(13+10)+25*(41+10)+36*10=6800+1311+1275+360=9746ND=16*(5+36+34+41)+57*(25+34)+13*(34+41)+36*34=2176+3363+975+1224=7738G=(NS-ND)/(NS+ND)=(9746-7738)/(9746+7738)=2008/17484=11.5%说明:可见学生、教师和学校领导对某项政策的态度成正相关关系。\n 2.某汽车生产商欲了解广告费用(万元)对销售量(辆)的影响。收集了过去12年的有关数据,通过分析得到:方程的截距为363,回归系数为1.42,回归平方和SSR=1600,残差平方和SSE=450。要求:(1)写出销售量y与广告费用x之间的线性回归方程。答:Y=363+1.42X (2)假如明年计划投入广告费用为25万元,根据回归方程估计明年汽车销售量。答:当X=25时Y=363+1.42*25=398.5(辆)(1)计算判定系数,并解释它的意义。答:判定系数:R^2=SSR/SST=SSR/SSR+SSE=1600/(1600+450)=0.7805表明在汽车销售的总变量差中,有78.05%可以用货柜方程,说明回归方程的拟合程度。形成性考核作业四(第1章至第12章)\n 一、单项选择题(在各题的备选答案中,只有1项是正确的,请将正确答案的序号,填写在题中的括号内。每小题2分,共20分) 1.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,最后将所有子样本合起来作为总样本,这样的抽样方式称为(D) A.简单随机抽样 B.系统抽样 C.整群抽样 D.分层抽样 2.在频数分布表中,某一小组中数据个数占总数据个数的比例称为(A) A.频率 B.频数 C.频次 D.频谱 3.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是(D)\n A.86 B.77 C.90 D.88 4.经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有(C) A.50%的数据 B.68%的数据 C.95%的数据 D.99%的数据 5.残差平方和(SSE)反映了y的总变差中(B) A.由于x与y之间的线性关系引起的y的变化部分 B.除了x对y的现有影响之外的其他因素对y变差的影响 C.由于x与y之间的非线性关系引起的y的变化部分 D.由于x与y之间的函数关系引起的y的变化部分\n 6.某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适(A) A.回归分析 B.方差分析 C.卡方检验 D.列联表分析 7.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为(B) A.点估计 B.区间估计 C.有效估计 D.无偏估计 8.在假设检验中,虚无假设和备择假设(C) A.都有可能成立 B.都不可能成立 C.有且只有一个成立 \n D.备择假设一定成立,虚无假设不一定成立 9.方差分析的目的是(D) A.比较不同总体的方差是否相等 B.判断总体是否存在方差 C.分析各样本数据之间是否存在显著差异 D.研究各分类自变量对数值型因变量的影响是否显著 10.用于说明回归方程中拟合优度的统计量主要是(D) A.相关系数 B.离散系数 C.回归系数 D.判定系数 二、名词解释(每题4分,共20分) 1.概率抽样:概率抽样就是按照随机原则进行的抽样,总体中每个个体都有一定的、非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。\n 2.普查:普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。普查一般是一次,有统一的标准调查时点,普查具有信息全面完整地特点,可以为其它抽样调查提供数据,但是普查比较耗时费力,成本比较高,而且适用范围比较不深入,只适合调查一些基本的、一般的社会现象。 3.置信水平:置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。 4.离散系数:离散系数是一组数据的标准差与该数据均值之比,也称为变异系数。 5.独立样本与配对样本:配对样本:是指一个样本中的数据与另一个样本中的数据相对应的两个样本。独立样本:是指我们得到的样本总体之间是相互独立的。 三、简答题(每题10分,共30分)1.按测度水平,变量可分为哪几类?举例说明。答:按照侧度水平,变量可以分为定类变量、定序变量、定距变量和定比变量四类。(1)\n定类变量:当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等其他特征时,这种变量称为定类变量。分类变量是最低层次的变量。例如性别可以分为男、女两类。(1)定序变量:当变量值的含义不仅表示个体的不同类别还可以区分个体之间大小、程度等序次差异时,这种变量称为定序变量。受教育程度是定序变量,可以分为文盲、小学、初中、高中、大专及以上等。(2)定距变量:当变量值不仅可以将个体区分为不同类型并进行排序,而且可以确定不同类别之间的数量差别和间隔差距时,这样的变量称为定距变量。定距变量具有测量单位,这些测量单位具有不变的相等区间的标准,是个体之间的比较等具客观性。智商、温度等都是定距变量。(3)定必变量:除了上述三种变量的全部特征外,还可以计算两个变量之间的比值时,这样的标量称为定比变量。定必变量是最高层次的变量。在社会调查中,很多情况下我们使用的都是定比变量,例如身高、年龄、收入、一个地区的人口数、某产品的生产量等。2.举例简要说明社会研究过程。答:一项系统、完整的社会研究通常遵循着比较固定的过程,一般包括五个主要过程;提出问题;形成假设;收集数据;分析数据;检验假设。\n(1)提出问题是社会研究的第一步,研究者应首先明确要做什么,或者说进行研究的目的是什么。(2)研究问题往往是无法直接检验的,而是把研究问题形成假设才可以进行检验。假设是对两个变量关系的陈述,是对它们关系的尝试性回答。假设中的变量是相对具体的,是可以通过检验可测的。(3)收集数据是社会研究的关键步骤。这一阶段要确定收集的变量、收集的方法、收集的总量等。这一阶段所需投入的人力、物力最多,遇到的问题也最多,因而需要进行很好的组织和管理。(4)分析数据主要是对收集的原始数据进行系统的审核、整理、归类、统计和分析。我们既要进行描述性统计,说明数据的总体情况,又要进行推断性统计,从收集的样本状况来推断研究总体的状况。(5)完成对数据的统计分析后,我们要根据对数据的分析来检验我们之前的假设和理论。当结果支持我们的假设时,我们对研究问题得到了解释;当结果不支持我们的假设时,要回过头来修饰我们的问题和假设,开始新的一轮检验。3.一元线性回归模型中有哪些基本假定?一般的,在作一元线性回归分析过程中,回归分析是建立一系列建设基础上的,这些假设为:\n(1)、误差项是一个期望值为零的随机变量。(2)、对于所有的X值,误差项的方差都是相等的。(3)、误差项是一个服从正态分布的随即变量,相互独立,其余自变量X不相关。 四、计算题(每题15分,共30分) 1.某行业管理局所属40个企业2011年产品销售额数据如下所示。40个企业2011年产品销售额企业编号销售额企业编号销售额企业编号销售额企业编号销售额115211105211033113621051212322103321463117131162313733127497141152413834135512415110259135117611916115261183611371081710027120371048881887281123812591291910729953910810115201193014240126 要求:(1)对2011年销售额按由低到高进行排序,求出众数、中位数和平均数。\n答:销售额由低向高排列:87、88、91、95、97、100、103、103、104、104、107、108、108、110、112、113、115、115、115、116、117、117、118、119、119、120、123、124、125、126、127、129、135、136、137、138、142、146、152;众数:115;中位数:(115+116)/2=115.5;平均数:ⅹ=(ⅹ1+ⅹ2+ⅹ3+ⅹN)/N=(87+88+91+95+……+146+152)/40=4647/40=116.175(1)如果按照规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。40个企业分组表按销售额分组(万元)企业个数频率(%)先进企业1127.5良好企业1230一般企业820落后企业922.5\n合计40100 2.某单位为研究其商品的广告费用(x)对其销售量(y)的影响,收集了过去12年的有关数据。通过分析得到以下结果: 方差分析表变差来源SSdfMSFSig.回归1602708.6BDF0.000残差40158.08CE——总计A11——— 要求:(1)计算上面方差分析表中A、B、C、D、E、F处的值。变差来源SSDFMSFSIG回归1602708.611602708.6399.10残差40158.08104015.808————总计1642866.6811——————A=1602708.6+40158.08=1642866.68(SS回归+SS残差);B=1;C=11-1=10(总计-B);D=1602708.6/B=1602708.6;E=40158.08/C=4015.808;F=D/E=1602708.6/4015.808=399.10。\n(1)商品销售量的变差中有多少是由广告费用的差异引起的?答:R^2=SSR/SST=1602708.6/1642866.68=0.9756(2)销售量与广告费用之间的相关系数是多少?答:销售量与广告费用之间的相关系数