- 2.01 MB
- 2022-09-01 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
社会统计学试卷社会工作与管理(本)专业一、单项选择题(每小题1分,共15分)1.在下列两两组合的平均指标中,哪一组的两个平均数完全不受极端数值的影响?【】A.算术平均数和调和平均数B.几何平均数和众数C.调和平均数和众数D.众数和中位数2.抽样推断的目的是【】A.以样本指标推断总体指标B.取得样本指标C.以总体指标估计样本指标D.以样本的某一指标推断另一指标3.下列哪两个变量之间的相关程度高【】A.商品销售额和商品销售量的相关系数是0.9;B.商品销售额与商业利润率的相关系数是0.84;C.平均流通费用率与商业利润率的相关系数是-0.94;D.商品销售价格与销售量的相关系数是-0.91。4.在抽样推断中,可以计算和控制的误差是【】A.抽样实际误差B.抽样标准误差C.非随机误差D.系统性误差5.不重复抽样的抽样标准误公式比重复抽样多了一个系数【】A.B.C.D.6.估计标准误说明回归直线的代表性,因此【】A.估计标准误数值越大,说明回归直线的代表性越大;B.估计标准误数值越大,说明回归直线的代表性越小;C.估计标准误数值越小,说明回归直线的代表性越小;D.估计标准误数值越小,说明回归直线的实用价值越小。7.平均差与标准差的主要区别是【】A.意义有本质的不同B.适用条件不同C.对离差的数学处理方法不同D.反映的变异程度不同143/143\n8.“统计”一词的含义可以包括的是【】A.统计工作、统计资料、统计学B.统计工作、统计资料、统计方法C.统计资料、统计学、统计方法 D.统计工作、统计学、统计方法9.已知甲数列的算术平均数为100,标准差为20;乙数列的算术平均数为50,标准差为9。由此可以认为【】A.甲数列算术平均数的代表性好于乙数列B.乙数列算术平均数的代表性好于甲数列C.两数列算术平均数的代表性相同D.两数列算术平均数的代表性无法比较10.变量x与y之间的负相关是指【】A.x数值增大时y也随之增大B.x数值减少时y也随之减少C.x数值增大时y随之减少D.y的取值几乎不受x取值的影响11.次数数列各组变量值都增加2倍,每组次数减少2倍,中位数【】A.减少2倍 B.增加2倍 C.减少1倍 D.不变12.第一类错误是在下列条件下发生论【】A.原假设为真B.原假设为假C.显著性水平较小D.显著性水平较大13.设,,其中、为常数,且,则【】A.B.C.D.14.设随机变量,则随增大,【】A.单调增大B.单调减小C.保持不变D.增减不定15.设随机变量相互独立,,,则【】A.B.C.D.二、填空题(每空1分,共10分)1.社会调查资料有、统计规律性的特点。2.在分布之下,众数>中位数。143/143\n3.对某一班级50名学生的体育达标情况进行测评,发现有35名同学达到合格标准,则达标率的均值是。4.参数优良估计的三个标准是、有效性、一致性。5.抽样误差是由于抽样的随机性而产生的误差,这种误差不可避免,但可以。6.抽样推断运用的方法对总体的数量特征进行估计。7.一个回归方程只能作一种推算,即给出自变量的数值,估计_________的可能值。8.袋中有4个白球,7个黑球,从中任意取一个球.则取出白球的概率为 。9.设X1,X2,…,X10是来自总体X~N(0,s2)的样本,则服从 分布。10.三次独立的试验中,成功的概率相同,已知至少成功一次的概率为,则每次试验成功的概率为。三、简答题(每小题9分,共18分)1.试解释随机抽样的随机原则?2.试列出三个以上的离散趋势测度方法。五、计算题(共45分)4.(13分)检查五位同学《会计学》的学习时间与成绩分数如下表所示。学习时数(小时)学习成绩(分)44066075010701390根据资料:(1)由此计算出学习时数与学习成绩之间的相关系数;(2)建立学习成绩()依学习时间()的直线回归方程。答案一、单项选择题(每小题1分,共15分)143/143\n1.D2.A3.C4.B5.C6.B7.C8.A9.B10.C11.B12.A13.D 14.C15.B二、填空题(每空1分,共10分)1.随机性2.左偏或负偏3.70%4.无偏性5.控制6.概率估计7.因变量8.4/119.自由度为10的分布10.1/3三、简答题(每小题9分,共18分)143/143\n1.答:所谓随机原则是指在抽选调查对象时,规定了一定的程序(3分),以保证每一个单位都有同等入选的机会(3分),从而避免了主观因素的影响(3分)。2.答:异动比率;极差;四分互差;方差与标准差。(各答对一项给3分)五、计算题(共45分)3.解:假设(3分)由已知条件,,,,,(4分)(2分)接受,即现在生产之铁水平均含碳量仍为4.55。(1分)4.解:设学习时间为自变量,学习成绩为因变量,所需合计数如下:(1)计算相关系数=0.956(5分)(2)(2分)编制直线回归方程:(3分)经计算求得:(3分)回归方程为:143/143\n无答案。。社会统计学复习题一、名词解释1、社会统计学2、中位数3、众数4、点估计:所谓点估计,就是根据样本数据算出一个单一的估计值,用它来估计总体的参数值。5、区间估计:所谓区间估计,就是计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。6、置信区间:置信区间就是我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。7、消减误差比例:变量间的相关程度,可以用不知Y与X有关系时预测Y的误差,减去知道Y与X有关系时预测Y的误差,再将其化为比例来度量。将削减误差比例记为PRE。8、因果关系:变量之间的关系满足三个条件,才能断定是因果关系。1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。9、正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。10、散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X与Y的相互关系,即得相关图,又称散点图。11、同序对:在观察X序列时,如果看到,在Y中看到的是,则称这一配对是同序对。12、异序对:在观察X序列时,如果看到,在Y中看到的是,则称这一配对是异序对。13、大数定理:当我们的观察次数n趋向无限时,随机事件可能转换为不可能事件或必然事件。即,在大量观察的前提下,观察结果具有稳定性。二、选择题143/143\n6.下面能进行除法运算的测量尺度是()A定比尺度B定类尺度C定距尺度D定序尺度7.教育程度是()的测量。A定比尺度B定类尺度C定距尺度D定序尺度8.智商是()的测量。A定比尺度B定类尺度C定距尺度D定序尺度9.籍贯是()的测量A定比尺度B定类尺度C定距尺度D定序尺度10.在社会统计学中,()是反映集中趋势最常用、最基本的平均指标。A中位数B算术平均数C众数D几何平均数11.关于学生t分布,下面哪种说法不正确(B)。A要求随机样本B适用于任何形式的总体分布C可用于小样本D可用样本标准差S代替总体标准差12.在统计检验中,那些不大可能的结果称为(D)。如果这类结果真的发生了,我们将否定假设。A检验统计量B显著性水平C零假设D否定域13.在用样本指标推断总体指标时,把握程度越高则(B)。A误差范围越小B误差范围越大C抽样平均误差越小D抽样平均误差越大14.当x按一定数额增加时,y也近似地按一定数额随之增加,那么可以说x与y之间存在(A)关系。A直线正相关B直线负相关C曲线正相关D曲线负相关15.评价直线相关关系的密切程度,当r在0.5~0.8之间时,表示(C)。A无相关B低度相关C中等相关D高度相关17.关于相关系数,下面不正确的描述是(B)。A当01时,表示两变量不完全相关;B当r=0时,表示两变量间无相关;C两变量之间的相关关系是单相关;D如果自变量增长引起因变量的相应增长,就形成正相关关系。143/143\n18.欲以图形显示两变量X和Y的关系,最好创建(D)。A直方图B圆形图C柱形图D散点图19.两变量X和Y的相关系数为0.8,则其回归直线的判定系数为(C)。A0.50B0.80C0.64D0.9020.在完成了构造与评价一个回归模型后,我们可以(D)。A估计未来所需样本的容量B计算相关系数和判定系数C以给定的因变量的值估计自变量的值D以给定的自变量的值估计因变量的值21.两变量的线性相关系数为0,表明两变量之间(D)。A完全相关B无关系C不完全相关D不存在线性相关23.在相关分析中,对两个变量的要求是(A)。A都是随机变量B都不是随机变量C其中一个是随机变量,一个是常数D都是常数24.在回归分析中,两个变量(D)。A都是随机变量B都不是随机变量C自变量是随机变量D因变量是随机变量25.一元线性回归模型和多元线性回归模型的区别在于只有一个(B)。A因变量B自变量C相关系数D判定系数26.以下指标恒为正的是(D)。A相关系数rB截距aC斜率bD复相关系数27.下列关系中,属于正相关关系得是(A)。A身高与体重B产品与单位成本C正常商品的价格和需求量D商品的零售额和流通费率28、下列变量中属于定序变量的是()A、门牌号B、学生学号C、职称等级D、身高29、用具有频数最多的变量值来表示变量的集中值被称为()A、众值B、中位值C、均值D、四分位差30、标准差数值越小,则反映变量值()A、越分散,平均数代表性越低B、越集中,平均数代表性越高143/143\nC、越分散,平均数代表性越高D、越集中,平均数代表性越低31、下面不属于正态分布图特征的是()A、有一条对称轴B、有一条渐近线C、有一个顶点D、有2个单位的面积。32、直方图具备的特征是()A、高度代表频次B、宽度代表频次C、面积代表频次D、各分段组可以分开33、采用回置法,从一副52张扑克牌里抽取两次,抽中两张红桃的概率为()A、1/52B、1/16C、1/13D、1/434、下列属于定类层次相关分析法的是()A、斯皮尔曼系数B、Lambda系数C、Gamma系数D、eta系数35、当样本量n=25时,我们对其进行均值检验时,应该选用()方法进行。A、Z检验B、F检验C、T检验D、上述三者都可以36、如果,Xi>Xj,Yi<Yj,那么,就称被调查者i和j这一配对为()。A、异序对B、同序对C、X的同分对D、Y的同分对37、一般认为:积差系数r值等于0.3为()。A、完全相关B、高度相关C、中等相关D、无相关38、下列变量中不属于定类变量的是()。A、车牌号B、手机号C、学历D、性别39、数列2、3、5、1、7、9、2的中位值是()。A、5B、3C、2D、140、两个正态分布分别为:N(1,25)和N(5,36),将两个正态分布作图,下列说法错误的是()。A、前者图形的顶端更细小B、前者图形更靠左C、后者图形的顶端更细小D、后者图形更靠右41、直方图里,频次由()来表示。A、面积B、高度C、宽度D、组距42、从一副52张的扑克牌中抽一张牌,抽到一张红桃或者方块的概率是()。A、1/5B、1/4C、1/3D、1/243、下列属于定类层次相关分析法的是()143/143\nA、斯皮尔曼系数B、Lambda系数C、Gamma系数D、eta系数44、从某公司抽取200名员工作为样本进行调查,进行推论分析时,除了()外,其他三个都是我们采用Z检验法的原因。A、样本容量数符合小样本要求B、总体符合正态分布C、满足大数定理要求D、样本容量达到大样本要求。45、如果,Xi>Xj,Yi>Yj,那么,就称被调查者i和j这一配对为()。A、异序对B、同序对C、X的同分对D、Y的同分对46、区间估计里,置信区间内的置信度大小为()。A、αB、βC、1-αD、1-β47、简单线性回归分析中,两变量的层次分别为()A、定类—定类B、定类—定序C、定序—定距D、定距—定距三、填空题1.()和中心极限定理为抽样推断提供了主要理论依据。2.抽样推断中,判断一个样本估计量是否优良的标准是(无偏性)、(一致性)、(有效性)。3.在一副扑克牌中单独抽取一次,抽到一张红桃或K的概率是(1/4);在一副扑克牌中单独抽取一次,抽到一张红桃K的概率是(1/52)。5.不论总体是否服从正态分布,只要样本容量n足够大,样本平均数的抽样分布就趋于(正态)分布。6.统计检验时,被我们事先选定的可以犯第一类错误的概率,叫做检验的(显著性水平),它决定了否定域的大小。7.假设检验中若其他条件不变,显著性水平的取值越小,接受原假设的可能性越(大),原假设为真而被拒绝的概率越(小)。8.参数估计,即由样本的指标数值推断总体的相应的指标数值,它包括点估计和(区间估计)。9.变量间的相关程度,可以用不知Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量,这就是(削减误差比例)。10.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y围绕每个估计值是服从();143/143\n11.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为(回归方程),并据以进行估计和预测。这种分析方法,通常又称为(回归分析)12、变量层次一般分为、、和。13、统计按其内容主要包括两个方面:分析和分析。14、定类层次主要的集中趋势法是,定序层次主要的离散趋势法是。15、统计推论分为参数估计和,其中参数估计又分为和。16、置信区间与可信度之间是成关系,即估计的区间越大,则可信度也就越。17、根据样本计算出来的一切统计数字特征值被称为,总体值称为。18、众数运用层次变量的集中趋势分析,中位数用于层次变量的集中趋势分析,均值用于定距层次变量的分析,标准差用于定距层次变量的分析。19、正态分布图的形状和位置主要由和决定。20、测量两个变量的相关系数时,首先考虑的是变量的,其次考虑变量间是否对称,最后最好选用具备意义的相关系数。21、以样本的统计值来估计总体的参数值,有两大类做法,一类是,另一类是,二者均要求样本是以方法抽取的。22、某一孕妇生男生女纯属偶然现象,但全市出生的婴儿性别比例一直维持在50%左右,这种现象称为定理。23、假设检验时,首先需要做出假设和被择假设,并以假设为基础进行数据推导,如果我们的统计检验值落在,我们就应该接受被择假设。三、判断题1.社会统计描述,即通过部分研究对象的统计资料对研究对象的总体的性质进行推论与归纳。()2.推论统计需要的统计资料相对而言较少,所以在人力、物力及时间等方面比较经济,研究和应用的范围也拓宽了许多。()3.无论分布曲线是正偏还是负偏,中位数都居算术平均数和众数之间。()4.在同样的显著性水平的条件下,单侧检验较之双侧检验,可以在犯第一类错误的危险不变的情况下,减少犯第二类错误的危险。(√)5.统计检验可以帮助我们否定一个假设,却不能帮助我们肯定一个假设。(√)143/143\n6.检验的显著性水平(用表示)被定义为能允许犯第一类错误的概率,它决定了否定域的大小。(√)7.第一类错误是,零假设H0实际上是错的,却没有被否定。第二类错误则是,零假设H0实际上是正确的,却被否定了。(×)8.每当方向能被预测的时候,在同样显著性水平的条件下,双侧检验比单侧检验更合适。(×)9.进行区间估计,置信水平总是预先给定的。(√)10.由于削减误差比例的概念不涉及变量的测量层次,因此它的优点很明显,用它来定义相关程度可适用于变量的各测量层次。(√)11.不管相关关系表现形式如何,当=1时,变量X和变量Y都是完全相关。(√)12.不管相关关系表现形式如何,当=0时,变量X和变量Y都是完全不相关。(×)13.通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。而如果两变量间是相关的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。(×)14.如果众数频数集中在条件频数分布列联表的同一行中,系数便会等于0,从而无法显示两变量之间的相关性。(√)15.从分析层次上讲,相关分析更深刻一些。因为相关分析具有推理的性质,而回归分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。(×)16、离散趋势是测量数据间的差异程度。()17、两个定类变量间的相关系数范围在[-1,1]间。()18、相关系数r等于-1,说明变量之间不存在相关关系。()19、标准正态分布的曲线对称轴为X=0。()20、当样本量n>30时,无论n如何增大,样本的统计值倾向稳定。()21、参数估计就是在一定的抽样误差内设一个可置信的区间,然后联系到这个区间的精度,将样本的统计值推断为总体的参数值。()22、假设检验与参数估计最终关心的都是总体的参数状况。()23、利用样本对总体进行区间估计时,置信度越高,则区间就越窄。()24、假设检验过程中,如果统计检验值大于临界值,则拒绝零假设。()25、在积矩相关分析结果r=0,则说明两变量不呈直线相关。()143/143\n26、根据研究需要,可以将定距变量降格为定类变量进行分析。()27、某公司员工的月收入标准差为100元,说明该公司员工收入差距大。()28、直方图用于定类层次的变量作图。()29、推论统计关注的是样本的统计值而不是总体的参数值。()30、对大样本的假设检验选用Z检验法,主要是因为它满足正态分布。()31、两端假设检验中,否定域的大小为α。()32、样本容量多少与研究容许的误差大小呈正比。()33、从同一总体中抽出的多个大样本的均值组成的数列满足正态分布。()34、如果两个变量是呈相关关系,那么它们一定呈因果关系。()35、在积矩相关分析结果r=0,则说明两变量不相关。()四、计算题1.某工厂50名职工每周工资数分配情况如下表,试求:(1)算术平均;(2)中位数;(3)众数。工资数(元)人数60-62363-651066-682069-711372-744合计502、某车间职工工资分布情况如下表,求该车间职工的平均工资,职工工资的中位数以及标准差。按月工资分组100-120120-140140-160160-180180-200工人人数1518302163、某单位统计报表显示,人均月收入为3030元,为了验证该统计报表的正确性,作了共100人的抽样调查,样本人均月收入为3060143/143\n元,标准差为80元,问能否说明该统计报表显示的人均收入的数字有误(取显著性水平α=0.05)。4、某地区成人中吸烟者占75%,经过戒烟宣传之后,进行了抽样调查,发现了100名被调查的成人中,有63人是吸烟者,问戒烟宣传是否收到了成效?(α=0.05)5、从某校随机地抽取81名女学生,测得平均身高为163厘米,标准差为6.0厘米,试求该校女生平均身高95%的置信区间。6、对某市市民按老中青进行喜欢民族音乐情况的调查,样本容量为200人,调查结果示于下表,试把该频数列联表:①转化为相对频数的联合分布列联表②转化为相对频数的条件分布列联表;③指出对于民族音乐的态度与被调查者的年岁有无关系,并说明理由。对于民族音乐的态度(Y)年岁(X)Σ老中青喜欢不喜欢383830153346Σ7、以下是婚姻美满与文化程度的抽样调查的结果,请计算婚姻美满与文化程度之Gamma系数。文化程度婚姻美满大学中学小学美满9165一般83018不美满3478、两变量X、Y之间的关系如下表,X24681012Y14109754(1)求回归方程;(2)求相关系数。【Y=-0.957X+14.867】【r=0.98】143/143\n9、试就下表所示资料,计算关于身高和体重的皮尔逊相关系数。N0身高(厘米)体重(千克)123456789101601611651651671701721741761805156596663706973806510、某工厂50名职工每天工资数分配情况如下表,试求:(1)众数所在的组;(2)中位数;(3)平均数。工资数(元)人数70-79380-89990-9920100-10914110-1194合计5011、下表是对40位员工工作满意度和企业归属感的调查数据,请求出其Gamma系数143/143\n,并解释其意义。归属感(Y)工作满意度(X)Fy低(1)中(2)高(3)低(1)84315中(2)65112高(3)44513Fx181394012、在一个正态总体中抽取一个容量为25的样本,其均值等于52,标准差S=12,求置信水平为95%的总体均值的置信区间。13、一位研究者试图检验某一社会调查所运用的抽样程序,该项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收入是7500元,标准差是1500元;此次调查共抽取100个家庭,样本平均收入是7900元。问:该研究人员是否有理由怀疑该样本有偏估?(选用α=0.05)14、设x为一般正态分布的变量,请计算:(1),如果=5,S=2;(2),如果=500,S=300;(3),如果=10,S=0.2;(4),如果=10.73,S=0.25。15、为了研究受教育年限和职业声望之间的关系,设以下是8名抽样调查的结果,试求职业声望与受教育年限的回归方程。调查对象X(受教育年限)Y(职业声望)XYX211270216803950143/143\n419865219061065754481275总数(∑)16、为了验证统计报表的正确性,作了共50人的抽样调查,人均收入结果有:`X=871元,S=21元,问能否证明统计报表中人均收入m=880元是正确的(显著性水平a=0.05)。17、已知初婚年龄服从正态分布,根据9个人的抽样调查有:x=23.5(岁),s=3(岁)问:是否可以认为该地区平均初婚年龄已超过20岁(a=0.05)。无答案广西政法管理干部学院学院2012——2013学年第一学期期末考试卷课程:社会统计学班级姓名学号就专业:社会工作评卷人(签名)复核人(签名)题号一二三四合计得分密封线内不要答题一、填空题(本大题共10小题,每空1分,共10分)请在每小题的空格中填上正确答案。错填、不填均无分。1.社会调查资料有、统计规律性的特点。2.在分布之下,众数>中位数。3.对某一班级50名学生的体育达标情况进行测评,发现有35名同学达到合格标准,则达标率的均值是。143/143\n4.参数优良估计的三个标准是、有效性、一致性。5.抽样误差是由于抽样的随机性而产生的误差,这种误差不可避免,但可以。6.抽样推断运用的方法对总体的数量特征进行估计。7.一个回归方程只能作一种推算,即给出自变量的数值,估计________的可能值。8.袋中有4个白球,7个黑球,从中任意取一个球.则取出白球的概率为 。9.设X1,X2,…,X10是来自总体X~N(0,s2)的样本,则服从 分布。10.三次独立的试验中,成功的概率相同,已知至少成功一次的概率为,则每次试验成功的概率为。二、单项选择题(本大题共10小题,每小题2分,共20分)1.在下列两两组合的平均指标中,哪一组的两个平均数完全不受极端数值的影响?()A.算术平均数和调和平均数B.几何平均数和众数C.调和平均数和众数D.众数和中位数2.抽样推断的目的是()A.以样本指标推断总体指标B.取得样本指标C.以总体指标估计样本指标D.以样本的某一指标推断另一指标3.下列哪两个变量之间的相关程度高()A.商品销售额和商品销售量的相关系数是0.9;B.商品销售额与商业利润率的相关系数是0.84;C.平均流通费用率与商业利润率的相关系数是-0.94;D.商品销售价格与销售量的相关系数是-0.91。4.在抽样推断中,可以计算和控制的误差是()A.抽样实际误差B.抽样标准误差C.非随机误差D.系统性误差5.不重复抽样的抽样标准误公式比重复抽样多了一个系数()A.B.C.D.143/143\n6.估计标准误说明回归直线的代表性,因此()A.估计标准误数值越大,说明回归直线的代表性越大;B.估计标准误数值越大,说明回归直线的代表性越小;C.估计标准误数值越小,说明回归直线的代表性越小;D.估计标准误数值越小,说明回归直线的实用价值越小。7.平均差与标准差的主要区别是()A.意义有本质的不同B.适用条件不同C.对离差的数学处理方法不同D.反映的变异程度不同8.“统计”一词的含义可以包括的是()A.统计工作、统计资料、统计学B.统计工作、统计资料、统计方法C.统计资料、统计学、统计方法 D.统计工作、统计学、统计方法9.已知甲数列的算术平均数为100,标准差为20;乙数列的算术平均数为50,标准差为9。由此可以认为()A.甲数列算术平均数的代表性好于乙数列B.乙数列算术平均数的代表性好于甲数列C.两数列算术平均数的代表性相同D.两数列算术平均数的代表性无法比较10.变量x与y之间的负相关是指()A.x数值增大时y也随之增大B.x数值减少时y也随之减少C.x数值增大时y随之减少D.y的取值几乎不受x取值的影响三、多项选择题(本大题共5小题,每小题2分,共10分)在每小题列出的五个备选项中有两或多个是符合题目要求的,请将其代码填写在题后的括号内。1.下列变量中属于定类层次的是()A、教育程度B、专业C、班级D、考试分数E、学号2.关于频率和概率,下列说法正确的是()A、频率的大小在0与1之间B、概率的大小在0与1之间C、就某一随机事件来讲,其发生的频率是唯一的D、就某一随机事件来讲,其发生的概率是唯一的E、频率分布有对应的频数分布,概率分布则没有3.反映某一线性回归方程y=a+bx好坏的指标有()A、相关系数B、判定系数C、b的大小D、a的大小4.一元线性回归分析中的回归系数b可以表示()A、两个变量之间相关关系的密切程度B、两个变量之间相关关系的方向C、当自变量增减一个单位时,因变量平均增减的量D、当因变量增减一个单位时,自变量平均增减的量E、回归模型的拟合优度143/143\n5.统计推论一般可分为两大类,包括()A、集中趋势分析B、离散趋势分析C、参数估计D、假设检验答案一、填空题1、随机性2、左偏或负偏3、70%4、无偏性5、控制6、概率估计7、因变量8、4/11 9、自由度为10的10、1/3二、单项选择题1、D2、A3、C4、B5、C6、B7、C8、A9、B10、C三、多项选择题1、BCE2、ABDE3、AB4、BC5、CD1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是(A.样本2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为(C.累积频率3.离散系数的主要目的是(D.比较多组数据的离散程度4.经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有B.68%的数据5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为(A.39.196.用样本统计量的值直接作为总体参数的估计值,这种方法称为(A.点估计7.某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例()偏高。如果要检验该说法是否正确,则假设形式应该为(A.:≥0.1;:<0.18.下面哪一项不是方差分析中的假定(D.各总体的方差等于09.判断下列哪一个不可能是相关系数(D.1.210.用于说明回归方程中拟合优度的统计量主要是(D.判定系数11.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。这项研究的总体是(AA.332.1万户家庭12.下列变量属于数值型变量的是(A.工资收入13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形(A.环形图14.在频数分布表中,频率是指(C.各组频数与总频数之比15.两个定类变量之间的相关分析可以使用(A.系数16.根据一个样本均值求出的90%的置信区间表明(C.总体均值有90%的概率会落入该区间内17.已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的(B.68%143/143\n18.方差分析的目的是(D.研究各分类自变量对数值型因变量的影响是否显著19.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间(A.相关程度越大20.正态分布中,值越小,则(A.离散趋势越小21.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为(.简单随机抽样22.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据(D.线图23.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值(D.比平均数低1.5个标准差24.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,该班考试成绩的中位数是8925.某班级学生期末英语考试平均成绩为75分,标准差为10分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的(A)A.68%26.已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为(A.70027.在假设检验中,不拒绝虚无假设意味着(D.没有证据证明虚无假设是错误的28.在因变量的总离差平方和中,如果回归平方和所占的比例越大,则两变量之间(A.相关程度越高29.从两个总体中各选取了6个观察值,得到组间平方和为234,组内平方和为484,则组间方差和组内方差为C.234,48.430.在回归方程中,若回归系数等于0,这表明(B)B.自变量x对因变量y的影响是不显著的31.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。这种调查方法属于(C.分层抽样32.某企业职工的月收入水平分为以下五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值近似为(D)D.3250元33.对于右偏分布,平均数、中位数和众数之间的关系是(A.平均数>中位数>众数34.两组数据的平均数不相等,但是标准差相等。那么(C.平均数大的,离散程度小35.在假设检验中,如果所计算出的P值越小,那么检验的结果(A)A.越显著36.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着A.高度相关37.回归平方和(SSR)反映了y的总变差中(A.由于x与y之间的线性关系引起的y的变化部分38.根据一个具体的样本求出的总体均值90%的置信区间(A.以90%的概率包含总体均值39.在假设检验中,虚无假设和备择假设(C.有且只有一个成立40.在方差分析中,某一水平下样本数据之间的误差称为(A.组内误差41.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是(A.22000名学生42.从变量分类看,下列变量属于定序变量的是(C.产品等级43.在频数分布表中,比率是指(D.不同小组的频数之比44.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据(D.线图143/143\n45.根据一个样本均值求出的90%的置信区间表明(C.总体均值有90%的概率会落入该区间内46.判断下列哪一个不可能是相关系数(C.1.3247.期中考试中,某班级学生统计学平均成绩为80分,标准差为4分。如果学生的成绩是正太分布,可以判断成绩在72分-88分之间的学生大约占总体的(A.95%48.正态分布中,值越小,则(A.离散趋势越小49.下面哪一项不是方差分析中的假定(D.各总体的方差等于050.对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为0.8,这表明(A)A.收入每增加1元,消费增加0.8元51.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,最后将所有子样本合起来作为总样本,这样的抽样方式称为(D.分层抽样52.在频数分布表中,某一小组中数据个数占总数据个数的比例称为(A.频率53.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是(D.8854.经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有(C.95%的数据55.残差平方和(SSE)反映了y的总变差中(B.除了x对y的现有影响之外的其他因素对y变差的影响56.某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适(A.回归分析57.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为(B.区间估计58.在假设检验中,虚无假设和备择假设(C.有且只有一个成立59.方差分析的目的是(D.研究各分类自变量对数值型因变量的影响是否显著60.用于说明回归方程中拟合优度的统计量主要是(D.判定系数61.为了解某地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是(C.样本62.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形(A.环形图63.如果一组数据中某一个数值的标准分值为1.8,这表明该数值(D.比平均数高出1.8个标准差64.离散系数的主要目的是(D.比较多组数据的离散程度65.某班级学生期末统计学考试平均成绩为82分,标准差为5分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在77-87之间的学生大约占全班学生的(A.68%66.已知某单位平均月收入标准差为700元,离散系数为0.2,那么他们月收入的均值为(C.350067.根据一个具体的样本求出的总体均值95%的置信区间(A.以95%的概率包含总体均值68.在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间(B.相关程度越低69.从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426组间均方和组内均方分别A.432,71143/143\n70.对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间(B.相关程度越小71.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于D.系统抽样72.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为(C.5.5小时73.对于左偏分布,平均数、中位数和众数之间的关系是(C.众数>中位数>平均数74.一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克。那么(B)B.二班学生体重的离散程度大75.在假设检验中,如果所计算出的P值越大,那么检验的结果(A)A.越不显著76.如果收入与支出之间的线性相关系数为0.92,而且二者之间具有统计显著性,那么二者之间存在着(A.高度相关77.为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分别为65、23、54、45、39,那么这5家企业12月份利润额均值为(B.45.278.在假设检验中,不拒绝虚无假设意味着(D.没有证据证明虚无假设是错误的79.某单位对该厂第一加工车间残品率估计高达13%,而该车间主任认为该比例()偏高。如果要检验该说法是否正确,则假设形式应该为(A.:≥0.13;:<0.1380.下列哪种情况不适合用方差分析(C.年龄对收入的影响四、计算题(每题15分,共30分)1.某校社会学专业同学统计课成绩如下表所示。社会学专业同学统计课成绩表学号成绩学号成绩学号成绩101023761010377510105270101024911010387010105388101025871010397610105493101026781010409010105562101027851010417610105695101028961010428610105795101029871010439710105866101030861010449310105982101031901010459210106079101032911010468210106176101033801010478010106276101034811010489010106368101035801010498810106494101036831010507710106583要求:(1)对考试成绩按由低到高进行排序,求出众数、中位数和平均数。(2)对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。143/143\n答案: (1)考试成绩由低到高排序: 62,66,68,70,70,75,76,76,76,76,76,77,78,79, 80,80,80,81,82,82,83,83,85,86,86,87,87,88, 88,90,90,90,91,91,92,93,93,94,95,95,96,97, 众数:76 中位数:83 平均数: =(62+66+……+96+97)÷42 =3490÷42 =83.095 (2)按成绩分组频数频率(%)向上累积向下累积频数频率(%)频数频率(%)60-6937.14337.14342100.00070-791126.1901433.3333992.85780-891535.7142969.0482866.66790-991330.95242100.0001330.9522.为研究某种商品的价格(x)对其销售量(y)的影响,收集了12个地区的有关数据。通过分析得到以下结果:方差分析表变差来源SSdfMSFSig.回归ABCD0.000残差205158.07EF——总计1642866.6711———要求:143/143\n(1)计算上面方差分析表中A、B、C、D、E、F处的值。(2)商品销售量的变差中有多少是由价格的差异引起的?(3)销售量与价格之间的相关系数是多少? 答案:(1)方差分析表:A=1642866.67-205158.07=1437708.60(SS总计-SS残差)B=1,E=11-1=10(总计-B)C=A/B=1437708.60/1=1437708.60F=205158.07/10=20515.807D=C/F=1437708.60/20515.807=70.078变差来源SSdfMSFSig.回归1437708.6011437708.6070.0780.000残差205158.071020515.807——总计1642866.6711——— (2) 即商品销售量的变差中有87.51%是由价格引起的。(3)销售量与价格之间的相关系数是0.93553.某公司招聘职员时,要求对职员进行两项基本能力测试。已知,A项测试中平均分数为90分,标准差是12分;B考试中平均分数为200分,标准差为25分。一位应试者在A项测试中得了102分,在B项测试中得了215分。若两项测试的成绩均服从正太分布,该位应试者哪一项测试更理想? 答案: 143/143\n 该测试者在A项测试中比平均分高出1个标准差,而在B项测试中比平均分高出0.6个标准差。因而,可以说该测试者A项测试比较理想。4.某公司欲了解广告费用x对销售量y的影响,收集了20个地区的数据,并对x、y进行线性回归分析,得到:方程的截距为364,回归系数为1.42,回归平方和SSR=1602708.6,残差平方和SSE=40158.07。要求:(1)写出广告费用y与销售量程x之间的线性回归方程。(2)假如广告费用投入50000元,根据回归方程估计商品销售量。(3)计算判定系数,并解释它的意义。答案: (1)y=364+1.42x (2)当x=50000时,y=364+1.42×50000=71364 (3) =1602708.6÷(1602708.6+40158.07) =1602708.6÷1642866.67 =0.97556 表明在商品销售量的总变差中,有97.6%可以由回归方程解释,说明回归方程的拟合程度很高。5.为估计每个网络用户每天上网的平均时间是多少,抽取了225个网络用户的简单随机样本,得到样本均值为6.5个小时,样本标准差为2.5个小时。(1)试用95%的置信水平,计算网络用户每天平均上网时间的置信区间。(2)在所调查的225个网络用户中,年龄在20岁以下的用户为90个。以95%的置信水平,计算年龄在20岁以下的网络用户比例的置信区间。注:答案:143/143\n (1)已知: 网络用户每天平均上网时间的95%的置信区间为: 即(6.17,6.83) (2)样本比例: 年龄在20岁以下的网络用户比例的95%的置信区间为: 即(33.6%,46.4%)6.某企业使用3种方法组装一种新的产品,为确定哪种方法生产效率最高,随机抽取30名工人,并指定每人使用其中的一种方法。通过对每个工人生产的产品数进行分析得到下面的方差分析表。请完成方差分析表。变差来源SSdfMSFSig.组间2100.000组内3836——总计29———答案:变差来源SSdfMSFSig.组间210*2=4203-1=2210210/142.07=1.4780.000组内383630-3=273836/27=142.07——总计420+3836=425629———7.甲单位人均月收入4500元,标准差1200元。乙单位月收入分布如下所示。乙单位月收入分布表143/143\n按收入分组(元)人数(个)3000分以下1203000~40004204000~50005405000~60004206000以上300合计1800要求:(1)计算乙单位员工月收入的均值和标准差。(2)比较甲单位和乙单位哪个单位员工月收入的离散程度更大?(提示:使用离散系数)答案:(1)乙单位员工月收入均值:=(2500×120+3500×420+4500×540+5500×420+6500×300)/1800=4700方差:=1360000标准差为:(2)根据离散系数公式:,得到:甲单位员工月收入的离散系数:乙单位员工月收入的离散系数:143/143\n,所以甲单位员工月收入的离散程度更大8.某汽车生产商欲了解广告费用(万元)对销售量(辆)的影响。收集了过去12年的有关数据,通过分析得到:方程的截距为363,回归系数为1.42,回归平方和SSR=1600,残差平方和SSE=450。要求:(1)写出销售量y与广告费用x之间的线性回归方程。(2)假如明年计划投入广告费用为25万元,根据回归方程估计明年汽车销售量。(3)计算判定系数,并解释它的意义。答案:(1)线性回归方程:y=363+1.42x(2)当x=25时,y=363+1.42×25=398.5(3) =1600÷(1600+450) =0.78表明在商品销售量的总变差中,有78%可以由回归方程解释,说明回归方程的拟合程度较好。9.某行业管理局所属40个企业2011年产品销售额数据如下所示。40个企业2011年产品销售额企业编号销售额企业编号销售额企业编号销售额企业编号销售额115211105211033113621051212322103321463117131162313733127497141152413834135512415110259135117611916115261183611371081710027120371048881887281123812591291910729953910810115201193014240126要求:(1)对2011年销售额按由低到高进行排序,求出众数、中位数和平均数。(2)如果按照规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。143/143\n答案:(1)销售额由低到高排序:87,88,91,95,97,100,103,103,104,105,105,107,108,108,110,112,113,115,115,115116,117,117,118,119,119,120,123,124,125,126,127,129,135,136,137,138,142,146,152众数位:115中位数:(115+116)/2=115.5平均数:=(87+88+91+95+……+146+152)/40=4647/40=116.175(2)频数分布表如下:按销售额分组频数频率(%)向上累积向下累积频数频率(%)频数频率(%)105万元以下922.5%922.5%40100%105-115万元820%1742.5%3177.5%115-125万元1230%2972.5%2357.5%125万元以上1127.5%40100%1127.5%10.某单位为研究其商品的广告费用(x)对其销售量(y)的影响,收集了过去12年的有关数据。通过分析得到以下结果:方差分析表变差来源SSdfMSFSig.回归1602708.6BDF0.000残差40158.08CE——总计A11———要求:(1)计算上面方差分析表中A、B、C、D、E、F处的值。(2)商品销售量的变差中有多少是由广告费用的差异引起的?(3)销售量与广告费用之间的相关系数是多少?答案:(1)A=1602708.6+40158.08=1642866.68(SS回归+SS残差)143/143\nB=1,C=11-1=10(总计-B)D=1602708.6/B=1602708.6E=40158.08/C=4015.808F=D/E=1602708.6/4015.808=399.10变差来源SSdfMSFSig.回归1602708.611602708.6399.100.000残差40158.08104015.808——总计1642866.6811———(2)商品销售量的变差中有97.56%是由广告费用的差异引起的(3)销售量与广告费用之间的相关系数是0.987711.一项关于大学生体重状况的研究发现,男生的平均体重为60千克,标准差为5千克;女生的平均体重为50千克,标准差为5千克。请问:(1)是男生体重差异大还是女生体重差异大?为什么?(2)男生中有多少比重的人体重在55千克-65千克之间?(3)女生中有多少比重的人体重在40千克-60千克之间?答案:(1)根据离散系数公式:,得到:男生体重离散系数为:女生体重离散系数为:所以:,即女生体重差异大注:(2)和(3)解答参考P110–“68-95-99.7规则”(2)男生中有68.26%比重的人体重在55千克-65千克之间?143/143\n(3)女生中有95.44%比重的人体重在40千克-60千克之间?12.某公司欲了解广告费用x对销售量y的影响,收集了16个地区的数据,并对x、y进行线性回归分析,得到:方程的截距为280,回归系数为1.6,回归平方和SSR=1503000,残差平方和SSE=38000。要求:(1)写出广告费用y与销售量x之间的线性回归方程。(2)假如广告费用投入80000元,根据回归方程估计商品的销售量。(3)计算判定系数,并解释它的意义。答案:(1)线性回归方程:y=280+1.6x(2)当x=80000时,y=280+1.6×80000=128280(3)判定系数为: =1503000/(1503000+38000) =0.9753判定系数意义:表明在商品销售量的总变差中,有97.53%可以由回归方程解释,说明回归方程的拟合程度非常好13.为估计某地区每个家庭日均生活用水量为多少,抽取了450个家庭的简单随机样本,得到样本均值为200升,样本标准差为50升。(1)试用95%的置信水平,计算该地区家庭日均用水量的置信区间。(2)在所调查的450个家庭中,女性为户主的为180个。以95%的置信水平,计算女性为户主的家庭比例的置信区间。注:答案:(1)已知:该地区家庭日均用水量的95%的置信区间为:即置信区间为:(195.38,204.62)143/143\n(2)样本比例:女性为户主的家庭比例的95%的置信区间为:即比例的置信区间为:(0.355,0.445)14.某农科院使用4种方法培育稻米,为确定哪种方法生产效率最高,随机划出40块试验田,并指定每块试验田使用其中的一种方法。通过对每块试验田的产量进行分析得到下面的方差分析表。请完成方差分析表。变差来源SSdfMSFSig.组间3200.000组内6048——总计39———答案:变差来源SSdfMSFSig.组间320*3=9604-1=3320320/168=1.900.000组内604840-4=366048/36=168——总计960+6048=700839———15.某校社会学专业共有两个班级。期末考试时,一班同学社会学理论平均成绩为86分,标准差为12分。二班同学成绩如下所示。二班同学社会学理论成绩分组数据表按成绩分组(分)人数(个)60分以下260~70770~80980~90790~1005合计30要求:(1)计算二班同学考试成绩的均值和标准差。(2)比较一班和二班哪个班成绩的离散程度更大?(提示:使用离散系数)答案:(1)均值:143/143\n=(55×2+65×7+75×9+85×7+95×5)÷30=2310÷30=77方差:÷30=4080÷30=136标准差:(2)根据离散系数公式:,得到:一班考试成绩的离散系数为: =12÷86=0.1395 二班考试成绩的离散系数为: =11.66÷77=0.1515 ,所以说二班成绩的离散程度大于一班。16.某调查公司研究出租司机每天收入(元)与行驶里程(公里)之间的关系。对30位出租车司机进行调查,并根据每天的收入y、行驶里程x进行回归,得到:方程的截距为162,回归系数为0.6,回归平方和SSR=2600,残差平方和SSE=513。要求:(1)写出每天的收入y与行驶里程x之间的线性回归方程。(2)假如某司机某天行驶了300公里,根据回归方程估计他该天的收入。(3)计算判定系数,并解释它的意义。143/143\n 答案: (1)回归方程为: y=162+0.6x (2)当x=300时, y=162+0.6×300=342(元) (3)判定系数 =2600÷(2600+513) =0.8352 意义:表明在每天收入的总变差中,有83.52%可以由回归方程解释,说明回归方程的拟合程度非常好。《社会统计学》课程期末复习题一、填空题1、总体单位除了必须具备同质性外,还必须具备1、差异性(或变异性)性,否则就没有必要对总体进行统计分析研究了,即该性质是对总体进行统计研究的前提条件。2、抽样调查所遵循的基本原则是2、随机原则,必须保证总体中的每一个单位都有同等的机会被抽中。3、四分位差数值越小,说明3、中位数;代表性高;异众比率越小,说明众数的代表性越高。4、在两个变量x与y中,如果y是由x独一无二地确定,这种关系称为4、函数关系;;如果y不是由x独一无二地确定,这种关系称为相关关系。5、在统计误差中,由于抽样的偶然因素而产生的5、随机(或抽样)误差是不可避免的,但可以通过科学计算加以控制。6、统计分组按所选择分组标志的多少不同可以分为6、简单分组;和复合分组。143/143\n7、某农贸市场,芹菜的价格分别为:早市每斤1.60元,中市每斤1.00元,晚市每斤0.80元。若甲顾客在早、中、晚三市各买1元芹菜,则应采用7、简单调和;平均数计算该顾客所购买芹菜的平均价格;而乙顾客在早、中、晚三市各买了12元、10元和5元的芹菜,则应采用加权调和平均数计算该顾客所购买芹菜的平均价格。8、在变量数列编制过程中,组距可以通过8、全距除以组数;来确定。因此,组距的大小和组数的多少成反比关系。9、判定系数值越小,则估计标准误差值越,从而在简单线性回归分析中一元直线回归方程的精确性越;反之,判定系数值越大,则估计标准误差值越,从而在简单线性回归分析中一元直线回归方程的精确性越。9、大;低;小;高10、某商场计划今年4月份销售成本比3月份降低2%,实际却降低了3%,则该商场销售成本计划完成程度为。10、98.98%11、某福利企业职工先按姓氏笔画排列,再按照排列顺序每隔10人抽取一名职工进行调查,这样的抽样组织方式被称为。11、等距抽样(系统抽样或机械抽样);12、强度相对指标的数值表现形式是或。12、无名数;有名数13、从我国指数编制的实践来看,数量指标综合指数的同度量因素固定在,质量指标综合指数的同度量因素固定在。13、基期;报告期14、对某市所有居民家庭的收入状况进行调查,则总体是,总体单位是。14、该市全部居民家庭;该市每户居民家庭15、按相关关系变动的方向不同,商品供应量与价格之间的关系、商品销售量与售货员服务态度之间的关系、家庭的消费支出与工资收入之间的关系均属于相关,此时相关系数;而商品需求量与价格之间的关系、产品产量和单位成本之间的关系、妇女受教育程度和平均生育子女数之间的关系均属于相关,此时相关系数。15、正;r>0;负;r<016、按变量取值是否连续划分,在校学生人数、企业个数、企业的职工人数、企业拥有的设备台数属于变量;粮食产量、职工工资、人体身高、143/143\n企业的利润额属于变量。16、离散;连续二、判断题1、在频数分布中,人口死亡率和年龄的关系是钟形分布。(x)2、在季节变动分析中,若按月平均计算,则季节比率之和为400%;若按季平均计算,则季节比率之和为1200%。(x)3、各变量值与算数平均数的离差之和等于零。(y)4、“统计”一词包含三种涵义,并且具有密切的联系。其中:统计工作和统计资料之间是工作与成果的关系;统计学和统计工作之间是理论和实践的关系。(y)5、反映不同空间(或总体)中同类指标对比的指标,即同类现象在不同空间上对比的指标是比例相对指标。()x比较6、社会统计研究的特点包括数量性、总体性、具体性、社会性和广泛性。(y)7、由组距数列确定众数,如果众数所在组后一组的次数高于其前一组的次数,则众数值偏向众数组的下限;如果众数所在组后一组的次数低于其前一组的次数,则众数值偏向众数组的上限。(x)8、对有限总体既可以进行全面调查也可以进行非全面调查,而对无限总体只能进行非全面调查。(y)9、将某福利企业各月月初的产品库存额按时间先后顺序排列而成的数列为时间数列中的时期数列;而将该单位各年的利润额按时间先后顺序排列而成的数列为时间数列中的时点数列。(x)10、某企业职工总体先按学历分组,再按性别分组,这样的分组属于复合分组。(y)11、采用移动平均法修匀时间数列时,因为偶数项移动需二次移动平均,同时损失的信息较奇数项移动多,所以一般采用奇数项移动。同时移动平均法只用于对时间数列修匀,不能用来预测。(y)12、调查大庆油田、胜利油田等大型石油基地,就可以了解我国石油生产的基本情况,这种调查方式是抽样调查。(x)13、固定构成指数=可变构成指数×结构影响指数。()x14、在季节变动分析中,若季节比率大于100%,说明现象处在旺季;若季节比率小于100%,说明现象处在淡季。(y)15、在简单线性相关分析中,变量x和y都是随机变量;在简单线性回归分析中,变量x和y中一个是随机变量,另一个是给定量。()y16、相关关系指变量之间存在严格的数量依存关系;而函数关系指变量之间不存在严格的数量依存关系。(x)143/143\n二、判断题1、×;答案提示:在频数分布中,人口死亡率和年龄的关系是U形分布。2、×;答案提示:在季节变动分析中,若按月平均计算,则季节比率之和为1200%;若按季平均计算,则季节比率之和为400%。3、√;4、√;5、×;答案提示:反映不同空间(或总体)中同类指标对比的指标,即同类现象在不同空间上对比的指标是比较相对指标。6、√;7、×;答案提示:由组距数列确定众数,如果众数所在组后一组的次数高于其前一组的次数,则众数值偏向众数组的上限;如果众数所在组后一组的次数低于其前一组的次数,则众数值偏向众数组的下限。8、√;9、×;答案提示:将某福利企业各月月初的产品库存额按时间先后顺序排列而成的数列为时间数列中的时点数列;而将该单位各年的利润额按时间先后顺序排列而成的数列为时间数列中的时期数列。10、√;11、√;12、×;答案提示:调查大庆油田、胜利油田等大型石油基地,就可以了解我国石油生产的基本情况,这种调查方式是重点调查。13、×;答案提示:可变构成指数=固定构成指数×结构影响指数。14、√;15、√;16、×;答案提示:函数关系指变量之间存在严格的数量依存关系;而相关关系指变量之间不存在严格的数量依存关系。143/143\n三、单项选择题1、统计表从形式结构上看,(A)用以概况说明全表内容,置于表的上端正中位置。A总标题B横行标题C纵栏标题D指标数值2、统计表从形式结构上看,()用以说明统计表内各组的内容,置于表的左边。BA总标题B横行标题C纵栏标题D指标数值3、统计表从内容结构上看,(C)是统计表所要说明的总体或总体的各个组,通常写在表的左边。A横行标题B纵栏标题C主词D宾词4、统计表从内容结构上看,(D)是用来说明统计指标的名称和数值,通常写在表的右边。A横行标题B纵栏标题C主词D宾词5、当数据呈左偏钟形分布时,算术平均数、中位数和众数三者的关系是(BABCoa)=1-ф(a) 考试题型分析 1.已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的(B ) A.95% B.68% C.89% D.90% 备注:此题考查的Z值计算,68-95-99.7规则,具体参照教材P106与P112例题 第七章 统计推断 (一)统计推断 根据统计量的分布和概率理论,由样本统计量来推断总体参数的过程,包括参数估计和假设检验两部分内容。143/143\n 参数:研究者想要了解的总体的某种特征值(平均数、标准差、比例等); 统计量:根据样本数据计算出来的一个量(样本平均数、样本标准差、样本比例等)。 (二)抽样分布 样本统计量的概率分布,它是在重复选取容量为n的样本时,由每个样本计算出来的统计量数值的相对频数分布。 (三)中心极限定理 不论总体分布是否服从正态分布,从均值为μ、方差为σ2的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n≥30),样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。 (四)参数估计 点估计:直接用估计量θ^作为总体参数Θ的估计值。 区间估计:估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能性大小; 置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间,它有估计量加减抽样误差构成; 置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。 (五)参数估计的计算 总体均值的区间估计P137 总体比例的区间估计P138143/143\n (六)假设检验 首先对总体参数建立一个假设,然后根据样本信息去检验这一假设是否正确。 虚无假设:需要我们通过样本信息来推断其正确与否的命题称为虚无假;也成为原假设或者零假设H0; 替换假设:如果虚无假设不成立,我们就拒绝虚无假设,需要在另个一假 设中进行选择,即替换假设H1。 考试题型分析 1.在假设检验中,虚无假设和备择假设( C ) A.都有可能成立 B.都不可能成立 C.有且只有一个成立 D.备择假设一定成立,虚无假设不一定成立 备注:此题考查的是假设检验中备择假设和虚无假设的关系问题,两者是对立的,只能有一个存在,不能同时存在。虚无假设和替换假设是相互对立的关系,假设检验的结果是要么虚无假设成立,要么替换假设成立,二者选一。不可能同时成立,也不可能都不成立。 2.根据一个具体的样本求出的总体均值95%的置信区间( A ) A.以95%的概率包含总体均值 B.5%的可能性包含总体均值 C.绝对包含总体均值 143/143\n D.绝对不包含总体均值 备注:此题考查的是总体均值区间估计的解释和说明,关键是置信区间的概念,具体参照教材P135 3.计算题 为估计某地区每个家庭日均生活用水量为多少,抽取了450个家庭的简单随机样本,得到样本均值为200升,样本标准差为50升。 (1)试用95%的置信水平,计算该地区家庭日均用水量的置信区间。 (2)在所调查的450个家庭中,女性为户主的为180个。以95%的置信水平,计算女性为户主的家庭比例的置信区间。 注:Z0.025=1.96 答:已知:n=450,标准差=50,Z0.025=1.96 (1)用户每天平均用水量的95%的置信区间为: 置信区间公式P137,带入相应的数值计算即可, 即(195.38,204.62) (2)样本比例:P=180/450 户主为女性的家庭比例的95%的置信区间为: 置信区间公式P138,带入相应的数值计算即可, 即(35.5%,44.5%) 备注:此题考查总体均值和总体比例的区间估计,只要把公式套用进去计算就可以了,具体的例题教材讲解清楚,参照教材P137(总体均值)、P139(总体比例) 第八章 二维列联表:双变量关系考察 (一)二维表 143/143\n 一种行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。 在预测变量Y的值时,知道变量X的值时所减少的误差(E1-E2)与总误差E1的比值称为误差减少比例,称PRE; PRE的取值范围为0~1,PRE值越大,说明用变量X去预测变量Y是能够减少的误差所占的比例越大,即变量X与变量Y之间的相关性越大; 反之,PRE越小,说明变量X与变量Y之间的关系越小。 第九章 相关系数和简单回归 (一)相关关系 各变量之间存在一定的依赖或影响,但是一个变量的值不能由另一个或另几个变量唯一确定,即当一个或多个变量取某个值时,另一个变量的值并不是唯一确定的。 正线性相关:两个变量的变动方向一致,即一个变量增加,另一个变量也随之增加,反之亦然; 负线性相关:一个增加,一个减少;反之亦然。 (二)相关关系的解释 相关系数:对变量之间相关关系程度和方向的度量; 相关系数的取值在-1~1之间,“+”表示正相关“-”表示负相关,相关系数的绝对值表示相关关系的程度,绝对值越大,相关程度越大,即r越接近1;反之,绝对值越小,及r越接近0,相关程度越弱。 当r=1时,说明两变量之间存在完全正相关,r=-1时,两变量之间完全负相关。 当00.1C.:=0.1;:≠0.1D.:>0.1;:≤0.18.下面哪一项不是方差分析中的假定(D)A.每个总体都服从正态分布B.观察值是相互独立的C.各总体的方差相等D.各总体的方差等于09.判断下列哪一个不可能是相关系数(D)A.-0.9B.0C.0.5D.1.210.用于说明回归方程中拟合优度的统计量主要是(D)A.相关系数B.离散系数C.回归系数D.判定系数11.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。这项研究的总体是(A)A.332.1万户家庭B.3000户家庭C.332.1户家庭的年均收入D.3000户家庭的年均收入12.下列变量属于数值型变量的是(A)143/143\nA.工资收入B.产品等级C.学生对考试改革的态度D.企业的类型13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形(A)A.环形图B.饼图C.直方图D.条形图14.在频数分布表中,频率是指(C)A.各组频数与上一组频数之比B.各组频数与下一组频数之比C.各组频数与总频数之比D.各组频数与最大一组频数之比15.两个定类变量之间的相关分析可以使用(A)A.系数B.系数C.系数D.Gamma系数16.根据一个样本均值求出的90%的置信区间表明(C)A.总体均值一定落入该区间内B.总体均值有90%的概率不会落入该区间内C.总体均值有90%的概率会落入该区间内D.总体均值有10%的概率会落入该区间内17.已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的(B)A.95%B.68%C.89%D.90%18.方差分析的目的是(D)A.比较不同总体的方差是否相等B.判断总体是否存在方差C.分析各样本数据之间是否存在显著差异D.研究各分类自变量对数值型因变量的影响是否显著19.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间(A)A.相关程度越大B.相关程度越小C.完全相关D.完全不相关20.正态分布中,值越小,则(A)A.离散趋势越小B.离散趋势越大C.曲线越低平D.变量值越分散21.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为(A)A.简单随机抽样B.系统抽样C.整群抽样D.分层抽样22.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据(D)A.茎叶图B.环形图C.饼图D.线图23.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值(D)A.是平均数的-1.5倍B.比平均数少1.5C.等于-1.5倍标准差D.比平均数低1.5个标准差24.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是(A)A.89B.72C.88D.9525.某班级学生期末英语考试平均成绩为75分,标准差为10分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的(A)A.68%B.89%C.90%D.95%26.已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为143/143\n(A)A.700B.0.2C.3500D.17500027.在假设检验中,不拒绝虚无假设意味着(D)A.虚无假设是肯定正确的B.虚无假设肯定是错误的C.没有证据证明虚无假设是正确的D.没有证据证明虚无假设是错误的28.在因变量的总离差平方和中,如果回归平方和所占的比例越大,则两变量之间(A)A.相关程度越高B.相关程度越低C.完全相关D.没有任何关系29.从两个总体中各选取了6个观察值,得到组间平方和为234,组内平方和为484,则组间方差和组内方差分别为(C)A.234,121B.117,121C.234,48.4D.117,8130.在回归方程中,若回归系数等于0,这表明(B)A.因变量y对自变量x的影响是不显著的B.自变量x对因变量y的影响是不显著的C.因变量y对自变量x的影响是显著的D.自变量x对因变量y的影响是显著的31.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。这种调查方法属于(C)A.简单随机抽样B.整群抽样C.分层抽样D.系统抽样32.某企业职工的月收入水平分为以下五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值近似为(D)A.3000元B.3500元C.2500元D.3250元33.对于右偏分布,平均数、中位数和众数之间的关系是(A)A.平均数>中位数>众数B.中位数>平均数>众数C.众数>中位数>平均数D.众数>平均数>中位数34.两组数据的平均数不相等,但是标准差相等。那么(C)A.平均数小的,离散程度小B.平均数大的,离散程度大C.平均数大的,离散程度小D.两组数据离散程度相同35.在假设检验中,如果所计算出的P值越小,那么检验的结果(A)A.越显著B.越不显著C.越真实D.越不真实36.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着(A)A.高度相关B.中度相关143/143\nC.低度相关D.极弱相关37.回归平方和(SSR)反映了y的总变差中(A)A.由于x与y之间的线性关系引起的y的变化部分B.除了x对y的现有影响之外的其他因素对y变差的影响C.由于x与y之间的非线性关系引起的y的变化部分D.由于x与y之间的函数关系引起的y的变化部分38.根据一个具体的样本求出的总体均值90%的置信区间(A)A.以90%的概率包含总体均值B.绝对包含总体均值C.10%的可能性包含总体均值D.绝对不包含总体均值39.在假设检验中,虚无假设和备择假设(C)A.都有可能成立B.都不可能成立C.有且只有一个成立D.备择假设一定成立,虚无假设不一定成立40.在方差分析中,某一水平下样本数据之间的误差称为(A)A.组内误差B.组间误差C.组内平方D.组间平方41.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是(A)A.22000名学生B.2200名学生C.22000名学生的每月生活费用D.2200名学生的每月生活费用42.从变量分类看,下列变量属于定序变量的是(C)A.专业B.性别C.产品等级D.收入43.在频数分布表中,比率是指(D)A.各组频数与上一组频数之比B.各组频数与下一组频数之比C.各组频数与总频数之比D.不同小组的频数之比44.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据(D)A.茎叶图B.环形图C.饼图D.线图143/143\n45.根据一个样本均值求出的90%的置信区间表明(C)A.总体均值一定落入该区间内B.总体均值有90%的概率不会落入该区间内C.总体均值有90%的概率会落入该区间内D.总体均值有10%的概率会落入该区间内46.判断下列哪一个不可能是相关系数(C)A.-0.89B.0.34C.1.32D.047.期中考试中,某班级学生统计学平均成绩为80分,标准差为4分。如果学生的成绩是正太分布,可以判断成绩在72分-88分之间的学生大约占总体的(A)A.95%B.68%C.89%D.90%48.正态分布中,值越小,则(A)A.离散趋势越小B.离散趋势越大C.曲线越低平D.变量值越分散49.下面哪一项不是方差分析中的假定(D)A.每个总体都服从正态分布B.观察值是相互独立的C.各总体的方差相等D.各总体的方差等于050.对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为0.8,这表明(A)A.收入每增加1元,消费增加0.8元B.消费每增加1元,收入增加0.8元C.收入与消费的相关系数为0.8D.收入对消费影响的显著性为0.851.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,最后将所有子样本合起来作为总样本,这样的抽样方式称为(D)A.简单随机抽样B.系统抽样C.整群抽样D.分层抽样52.在频数分布表中,某一小组中数据个数占总数据个数的比例称为(A)A.频率B.频数C.频次D.频谱143/143\n53.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是(D)A.86B.77C.90D.8854.经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有(C)A.50%的数据B.68%的数据C.95%的数据D.99%的数据55.残差平方和(SSE)反映了y的总变差中(B)A.由于x与y之间的线性关系引起的y的变化部分B.除了x对y的现有影响之外的其他因素对y变差的影响C.由于x与y之间的非线性关系引起的y的变化部分D.由于x与y之间的函数关系引起的y的变化部分56.某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适(A)A.回归分析B.方差分析C.卡方检验D.列联表分析57.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为(B)A.点估计B.区间估计C.有效估计D.无偏估计58.在假设检验中,虚无假设和备择假设(C)A.都有可能成立B.都不可能成立C.有且只有一个成立D.备择假设一定成立,虚无假设不一定成立59.方差分析的目的是(D)A.比较不同总体的方差是否相等B.判断总体是否存在方差C.分析各样本数据之间是否存在显著差异D.研究各分类自变量对数值型因变量的影响是否显著60.用于说明回归方程中拟合优度的统计量主要是(D)A.相关系数B.离散系数C.回归系数D.判定系数143/143\n61.为了解某地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是(C)A.变量B.总体C.样本D.统计量62.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形(A)A.环形图B.饼图C.直方图D.条形图63.如果一组数据中某一个数值的标准分值为1.8,这表明该数值(D)A.是平均数的1.8倍B.比平均数多1.8C.等于标准差的1.8倍D.比平均数高出1.8个标准差64.离散系数的主要目的是(D)A.反映一组数据的平均水平B.比较多组数据的平均水平C.反映一组数据的离散程度D.比较多组数据的离散程度65.某班级学生期末统计学考试平均成绩为82分,标准差为5分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在77-87之间的学生大约占全班学生的(A)A.68%B.89%C.90%D.95%66.已知某单位平均月收入标准差为700元,离散系数为0.2,那么他们月收入的均值为(C)A.700B.0.2C.3500D.14067.根据一个具体的样本求出的总体均值95%的置信区间(A)A.以95%的概率包含总体均值B.5%的可能性包含总体均值C.绝对包含总体均值D.绝对不包含总体均值68.在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间(B)A.相关程度越高B.相关程度越低C.完全相关D.没有任何关系143/143\n69.从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426,则组间均方和组内均方分别为(A)A.432,71B.216,71C.432,426D.216,42670.对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间(B)A.相关程度越大B.相关程度越小C.完全相关D.完全不相关71.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于(D)A.简单随机抽样B.整群抽样C.分层抽样D.系统抽样72.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为(C)A.5小时B.6小时C.5.5小时D.6.5小时73.对于左偏分布,平均数、中位数和众数之间的关系是(C)A.平均数>中位数>众数B.中位数>平均数>众数C.众数>中位数>平均数D.众数>平均数>中位数74.一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克。那么(B)A.一班学生体重的离散程度大B.二班学生体重的离散程度大C.两个班学生体重的离散程度相同D.无法判断75.在假设检验中,如果所计算出的P值越大,那么检验的结果(A)A.越不显著B.越显著C.越不真实D.越真实76.如果收入与支出之间的线性相关系数为0.92,而且二者之间具有统计显著性,那么二者之间存在着(A)143/143\nA.高度相关B.中度相关C.低度相关D.极弱相关77.为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分别为65、23、54、45、39,那么这5家企业12月份利润额均值为(B)A.39B.45.2C.23.5D.6578.在假设检验中,不拒绝虚无假设意味着(D)A.虚无假设是肯定正确的B.虚无假设肯定是错误的C.没有证据证明虚无假设是正确的D.没有证据证明虚无假设是错误的79.某单位对该厂第一加工车间残品率估计高达13%,而该车间主任认为该比例()偏高。如果要检验该说法是否正确,则假设形式应该为(A)A.:≥0.13;:<0.13B.:≤0.13;:>0.13C.:=0.13;:≠0.13D.:>0.13;:≤0.1380.下列哪种情况不适合用方差分析(C)A.性别对收入的影响B.专业对收入的影响C.年龄对收入的影响D.行业对收入的影响二、名词解释1.抽样单位与抽样框P11答:一次直接的抽样所使用的基本单位;指一次直接抽样时样本中所有抽样单位的名单。2.普查与抽样调查P12答:普查:是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。抽样调查:是从总体中选取部分个体组成样本进行调查的一种方式,其目的在于根据样本的调查结果推断总体特征。3.参数与统计量P127-128答:参数:是研究者想要了解的总体的某种特征值统计量:是根据样本数据计算出来的一个量。4.方差与标准差P95143/143\n答:方差:是各数值与均值离平方的平均数。标准差:是方差的平方根5.独立样本与配对样本P203;P207答:配对样本:是指一个样本中的数据与另一个样本中的数据相对应的两个样本独立样本:是指我们得到的样本总体之间是相互独立的6.总体与样本P11总体:是构成它的所有个体的集合;样本:就是从总体中按照一定方式抽取的一部分个体的集合7.抽样分布P129答:是指样本统计量的概率分布,它是在重复选取容量为N的样本时,由每个样本计算出来统计量数值的相对频数分布8.二维表P152答:就是交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。9.相关系数P170答:就是对变量之间相关关系程度和方向的度量。10.组内均方P218答:组成平方和除以自由度就是组内均方11.普查P12答:它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查12.误差减少比例P158答:我们将在预测变量Y的值时,知道变量的X值时所减小的误差(E1-E2)与总误差E1的比值13.散点图P165答:是在坐标系中,用横轴表示自变量X,用纵轴表示因变量Y,而变量组(X,Y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,由坐标系及坐标系中的散点形成的二维图就是散点图14.正态分布P103答:连续性随机变量中重要的分布是钟形概率分布,就是正态分布。15.最小二乘法P180答:对于变量X和Y的观察值,我们可以用很多直线去描述,但我们需要选用距离各观察值最近的一条直线,用它来描述X和Y之间的关系与实际的误差最小,根据这一思想来确定回归方程中参数的方法。16.概率抽样P13答:就是按照随即原则进行的抽样,总体中每个个体都有一定的,非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的17.中位数P73答:是对中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。18.相关系数P170(同9)19.区间估计P134答:在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点来进行估计,同时给出总体参数落入这一区间的可能性大小20.中心极限定理P130143/143\n答:无论总体分布是否服从正态分布,从均值为U,方差为a的平方的总体中抽取变量为n的随机样本,当n充分大时(n>=30),样本均值的抽样分布近似服从均值u,方差为a的平方/n21.假设检验P140答:首先先对总体参数建立一个假设,然后根据样本信息去检验这一假设是否正确。22.均值P78答:是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数。23.虚无假设与替换假设P140答:我们将需要通过样本信息来推断其正确与否的命题称为虚无假设。如果虚无假设不成立,我们就拒绝虚无假设,需要在另一个假设中进行选择,这就是替换假设24.置信水平P135答:就是将构造置信区间的步骤重复多次,置信区间包含总体参数真值的次数所占的比例。25.离散系数P100答:是一组数据的标准差与该组数据均值之比,称为变量系数。26.离散变量与连续变量P10答:如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。如果一个变量的变量值是连续不断的,可以取无线多个数值的,这种变量称为连续变量。27.众数P68答:是一组数据中出现频数最多的数值,用Mo表示三、简答题1.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。(1)网络供应商的姓名(2)每月的网络服务费(3)每月上网时间(4)上网的主要目的(5)上周收到的电子邮件数量(6)每月用于网上购物的金额(7)上月网上购物的次数(8)使用的电脑的品牌(9)上网是否玩游戏(10)电脑是否带有光盘刻录机2.调查方法主要包括哪几种?简要说明各种方法的优缺点。3.什么是简单一元线性回归分析?其作用是什么?4.举例简要说明社会研究过程。5.按测度水平,变量可分为哪几类?并举例说明。6.简要举例说明在分析双变量的关系时,t检验和卡方检验的主要区别。7.等距分组和不等距分组有什么区别?请举例说明。8.举例说明什么是自变量和因变量,二者之间是什么关系?9.简要说明卡方的拟合优度检验和独立性检验的含义。10.条形图和直方图有什么区别?143/143\n(1)条形图:用宽度相同的条形的高度或者长短来表示数据多少的图形。条形图既可以横置也可以纵置,纵置时也可以称为柱形图。(2)直方图:就是用矩形的宽度和高度来表示频数分布的图形。11.简述众数、中位数和平均数作为测量中心趋势的指标所适用的数据类型。13.简要举例说明在分析双变量的关系时,t检验和卡方检验的主要区别。14.举例说明什么是离散变量和连续变量。(1)离散变量如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,1,2,3…。离散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。 (2)连续变量 如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量可以取无数多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。15.SPSS主要有哪些功能?SPSS软件可以导入txt、excel等格式的数据,可以绘制条形图、直方图、圆形图、散点图等统计图,可以进行描述分析,如频数表分析、交叉表分析、计算均值、方差、中位数、Z值等统计指标,还可以进行复杂的统计分析,如方差分析、相关分析、回归分析、时间序列分析、聚类分析、因子分析等。16.在SPSS中如何定义变量属性?SPSS中变量有三种基本类型:数值型、字符型、日期型。 (1)数值型变量 数值型变量是SPSS中最常用的变量类型。数值型变量包括标准数值型、逗号数值型、圆点数值型、科学计数法型、美元数值型、自定义型。 (2)字符型变量 字符型变量也是SPSS中比较常用的数据类型,默认长度为8。例如姓名、地点等都可以定义为字符型变量,字符型变量不能参与运算。143/143\n (3)日期型变量 日期型变量可以用来表示日期,也可以表示时间,例如调查时间、出生日期等都可以定义为日期型变量。17.统计表主要由哪几部分构成?18.简述相关系数的取值与意义。19.概率抽样方法主要包括哪几种?包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。20.简要说明卡方的拟合优度检验和独立性检验的含义。21.数据分析中的归纳法和演绎法分别是什么? 归纳法与演绎法是社会研究的两种基本推理方式。归纳法是从特殊到一般,也就是从一组具体的观察结果推导出一般性的规律或法则;演绎法则与归纳法正好相反,是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然后去观察、收集资料,通过这些资料来检验这个理论。22.什么是简单回归分析?其作用是什么?23.一元线性回归模型中有哪些基本假定?24.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。(1)考研辅导班参加者的姓名(2)家庭月消费(3)温度(4)上个月外出吃饭的次数(5)产品等级25.简述定类变量、定序变量和数值型变量集中趋势测量的方法。26.如何对配对样本进行t检验。四、计算题(每题15分,共30分)1.某校社会学专业同学统计课成绩如下表所示。社会学专业同学统计课成绩表学号成绩学号成绩学号成绩101023761010377510105270101024911010387010105388101025871010397610105493101026781010409010105562101027851010417610105695101028961010428610105795101029871010439710105866143/143\n101030861010449310105982101031901010459210106079101032911010468210106176101033801010478010106276101034811010489010106368101035801010498810106494101036831010507710106583要求:(1)对考试成绩按由低到高进行排序,求出众数、中位数和平均数。(2)对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。答案: (1)考试成绩由低到高排序: 62,66,68,70,70,75,76,76,76,76,76,77,78,79, 80,80,80,81,82,82,83,83,85,86,86,87,87,88, 88,90,90,90,91,91,92,93,93,94,95,95,96,97, 众数:76 中位数:83 平均数: =(62+66+……+96+97)÷42 =3490÷42 =83.095 (2)按成绩分组频数频率(%)向上累积向下累积频数频率(%)频数频率(%)60-6937.14337.14342100.00070-791126.1901433.3333992.857143/143\n80-891535.7142969.0482866.66790-991330.95242100.0001330.9522.为研究某种商品的价格(x)对其销售量(y)的影响,收集了12个地区的有关数据。通过分析得到以下结果:方差分析表变差来源SSdfMSFSig.回归ABCD0.000残差205158.07EF——总计1642866.6711———要求:(1)计算上面方差分析表中A、B、C、D、E、F处的值。(2)商品销售量的变差中有多少是由价格的差异引起的?(3)销售量与价格之间的相关系数是多少? 答案:(1)方差分析表:A=1642866.67-205158.07=1437708.60(SS总计-SS残差)B=1,E=11-1=10(总计-B)C=A/B=1437708.60/1=1437708.60F=205158.07/10=20515.807D=C/F=1437708.60/20515.807=70.078变差来源SSdfMSFSig.回归1437708.6011437708.6070.0780.000残差205158.071020515.807——总计1642866.6711——— (2) 即商品销售量的变差中有87.51%是由价格引起的。(3)销售量与价格之间的相关系数是0.9355143/143\n3.某公司招聘职员时,要求对职员进行两项基本能力测试。已知,A项测试中平均分数为90分,标准差是12分;B考试中平均分数为200分,标准差为25分。一位应试者在A项测试中得了102分,在B项测试中得了215分。若两项测试的成绩均服从正太分布,该位应试者哪一项测试更理想? 答案: 该测试者在A项测试中比平均分高出1个标准差,而在B项测试中比平均分高出0.6个标准差。因而,可以说该测试者A项测试比较理想。4.某公司欲了解广告费用x对销售量y的影响,收集了20个地区的数据,并对x、y进行线性回归分析,得到:方程的截距为364,回归系数为1.42,回归平方和SSR=1602708.6,残差平方和SSE=40158.07。要求:(1)写出广告费用y与销售量程x之间的线性回归方程。(2)假如广告费用投入50000元,根据回归方程估计商品销售量。(3)计算判定系数,并解释它的意义。答案: (1)y=364+1.42x (2)当x=50000时,y=364+1.42×50000=71364 (3) =1602708.6÷(1602708.6+40158.07) =1602708.6÷1642866.67 =0.97556143/143\n 表明在商品销售量的总变差中,有97.6%可以由回归方程解释,说明回归方程的拟合程度很高。5.为估计每个网络用户每天上网的平均时间是多少,抽取了225个网络用户的简单随机样本,得到样本均值为6.5个小时,样本标准差为2.5个小时。(1)试用95%的置信水平,计算网络用户每天平均上网时间的置信区间。(2)在所调查的225个网络用户中,年龄在20岁以下的用户为90个。以95%的置信水平,计算年龄在20岁以下的网络用户比例的置信区间。注:答案: (1)已知: 网络用户每天平均上网时间的95%的置信区间为: 即(6.17,6.83) (2)样本比例: 年龄在20岁以下的网络用户比例的95%的置信区间为: 即(33.6%,46.4%)6.某企业使用3种方法组装一种新的产品,为确定哪种方法生产效率最高,随机抽取30名工人,并指定每人使用其中的一种方法。通过对每个工人生产的产品数进行分析得到下面的方差分析表。请完成方差分析表。变差来源SSdfMSFSig.组间2100.000143/143\n组内3836——总计29———答案:变差来源SSdfMSFSig.组间210*2=4203-1=2210210/142.07=1.4780.000组内383630-3=273836/27=142.07——总计420+3836=425629———7.甲单位人均月收入4500元,标准差1200元。乙单位月收入分布如下所示。乙单位月收入分布表按收入分组(元)人数(个)3000分以下1203000~40004204000~50005405000~60004206000以上300合计1800要求:(1)计算乙单位员工月收入的均值和标准差。(2)比较甲单位和乙单位哪个单位员工月收入的离散程度更大?(提示:使用离散系数)答案:(1)乙单位员工月收入均值:=(2500×120+3500×420+4500×540+5500×420+6500×300)/1800=4700方差:143/143\n=1360000标准差为:(2)根据离散系数公式:,得到:甲单位员工月收入的离散系数:乙单位员工月收入的离散系数:,所以甲单位员工月收入的离散程度更大8.某汽车生产商欲了解广告费用(万元)对销售量(辆)的影响。收集了过去12年的有关数据,通过分析得到:方程的截距为363,回归系数为1.42,回归平方和SSR=1600,残差平方和SSE=450。要求:(1)写出销售量y与广告费用x之间的线性回归方程。(2)假如明年计划投入广告费用为25万元,根据回归方程估计明年汽车销售量。(3)计算判定系数,并解释它的意义。答案:(1)线性回归方程:y=363+1.42x(2)当x=25时,y=363+1.42×25=398.5(3) =1600÷(1600+450) =0.78表明在商品销售量的总变差中,有78%可以由回归方程解释,说明回归方程的拟合程度较好。9.某行业管理局所属40个企业2011年产品销售额数据如下所示。40个企业2011年产品销售额企业编号销售额企业编号销售额企业编号销售额企业编号销售额1152111052110331136143/143\n21051212322103321463117131162313733127497141152413834135512415110259135117611916115261183611371081710027120371048881887281123812591291910729953910810115201193014240126要求:(1)对2011年销售额按由低到高进行排序,求出众数、中位数和平均数。(2)如果按照规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。答案:(1)销售额由低到高排序:87,88,91,95,97,100,103,103,104,105,105,107,108,108,110,112,113,115,115,115116,117,117,118,119,119,120,123,124,125,126,127,129,135,136,137,138,142,146,152众数位:115中位数:(115+116)/2=115.5平均数:=(87+88+91+95+……+146+152)/40=4647/40=116.175(2)频数分布表如下:按销售额分组频数频率(%)向上累积向下累积频数频率(%)频数频率(%)105万元以下922.5%922.5%40100%105-115万元820%1742.5%3177.5%115-125万元1230%2972.5%2357.5%125万元以上1127.5%40100%1127.5%143/143\n10.某单位为研究其商品的广告费用(x)对其销售量(y)的影响,收集了过去12年的有关数据。通过分析得到以下结果:方差分析表变差来源SSdfMSFSig.回归1602708.6BDF0.000残差40158.08CE——总计A11———要求:(1)计算上面方差分析表中A、B、C、D、E、F处的值。(2)商品销售量的变差中有多少是由广告费用的差异引起的?(3)销售量与广告费用之间的相关系数是多少?答案:(1)A=1602708.6+40158.08=1642866.68(SS回归+SS残差)B=1,C=11-1=10(总计-B)D=1602708.6/B=1602708.6E=40158.08/C=4015.808F=D/E=1602708.6/4015.808=399.10变差来源SSdfMSFSig.回归1602708.611602708.6399.100.000残差40158.08104015.808——总计1642866.6811———(2)商品销售量的变差中有97.56%是由广告费用的差异引起的(3)销售量与广告费用之间的相关系数是0.987711.一项关于大学生体重状况的研究发现,男生的平均体重为60千克,标准差为5千克;女生的平均体重为50千克,标准差为5千克。请问:(1)是男生体重差异大还是女生体重差异大?为什么?(2)男生中有多少比重的人体重在55千克-65千克之间?(3)女生中有多少比重的人体重在40千克-60千克之间?答案:(1)根据离散系数公式:,得到:男生体重离散系数为:143/143\n女生体重离散系数为:所以:,即女生体重差异大注:(2)和(3)解答参考P110–“68-95-99.7规则”(2)男生中有68.26%比重的人体重在55千克-65千克之间?(3)女生中有95.44%比重的人体重在40千克-60千克之间?12.某公司欲了解广告费用x对销售量y的影响,收集了16个地区的数据,并对x、y进行线性回归分析,得到:方程的截距为280,回归系数为1.6,回归平方和SSR=1503000,残差平方和SSE=38000。要求:(1)写出广告费用y与销售量x之间的线性回归方程。(2)假如广告费用投入80000元,根据回归方程估计商品的销售量。(3)计算判定系数,并解释它的意义。答案:(1)线性回归方程:y=280+1.6x(2)当x=80000时,y=280+1.6×80000=128280(3)判定系数为: =1503000/(1503000+38000) =0.9753判定系数意义:表明在商品销售量的总变差中,有97.53%可以由回归方程解释,说明回归方程的拟合程度非常好143/143\n13.为估计某地区每个家庭日均生活用水量为多少,抽取了450个家庭的简单随机样本,得到样本均值为200升,样本标准差为50升。(1)试用95%的置信水平,计算该地区家庭日均用水量的置信区间。(2)在所调查的450个家庭中,女性为户主的为180个。以95%的置信水平,计算女性为户主的家庭比例的置信区间。注:答案:(1)已知:该地区家庭日均用水量的95%的置信区间为:即置信区间为:(195.38,204.62)(2)样本比例:女性为户主的家庭比例的95%的置信区间为:即比例的置信区间为:(0.355,0.445)14.某农科院使用4种方法培育稻米,为确定哪种方法生产效率最高,随机划出40块试验田,并指定每块试验田使用其中的一种方法。通过对每块试验田的产量进行分析得到下面的方差分析表。请完成方差分析表。变差来源SSdfMSFSig.组间3200.000组内6048——总计39———答案:变差来源SSdfMSFSig.组间320*3=9604-1=3320320/168=1.900.000组内604840-4=366048/36=168——总计960+6048=700839———15.某校社会学专业共有两个班级。期末考试时,一班同学社会学理论平均成绩为86分,标准差为12分。二班同学成绩如下所示。二班同学社会学理论成绩分组数据表143/143\n按成绩分组(分)人数(个)60分以下260~70770~80980~90790~1005合计30要求:(1)计算二班同学考试成绩的均值和标准差。(2)比较一班和二班哪个班成绩的离散程度更大?(提示:使用离散系数)答案:(1)均值:=(55×2+65×7+75×9+85×7+95×5)÷30=2310÷30=77方差:÷30=4080÷30=136标准差:(2)根据离散系数公式:,得到:一班考试成绩的离散系数为:143/143\n =12÷86=0.1395 二班考试成绩的离散系数为: =11.66÷77=0.1515 ,所以说二班成绩的离散程度大于一班。16.某调查公司研究出租司机每天收入(元)与行驶里程(公里)之间的关系。对30位出租车司机进行调查,并根据每天的收入y、行驶里程x进行回归,得到:方程的截距为162,回归系数为0.6,回归平方和SSR=2600,残差平方和SSE=513。要求:(1)写出每天的收入y与行驶里程x之间的线性回归方程。(2)假如某司机某天行驶了300公里,根据回归方程估计他该天的收入。(3)计算判定系数,并解释它的意义。 答案: (1)回归方程为: y=162+0.6x (2)当x=300时, y=162+0.6×300=342(元) (3)判定系数 =2600÷(2600+513) =0.8352 意义:表明在每天收入的总变差中,有83.52%可以由回归方程解释,说明回归方程的拟合程度非常好。143/143\n2、举例说明元素、总体、样本三个概念。3、按测度水平划分,变量可分为哪几类?各有什么特点?5、举例说明什么是自变量和因变量。二者有什么关系?6、数据分析中的归纳法和演绎法分别是什么?7、什么是假设检验?2、在SPSS中如何定义变量属性?3、在SPSS中如何计算变量?4、在SPSS中如何给变量赋值?1、数值型数据的分组方法有哪些?简述组距分组的步骤。2、等距分组和不等距分组有什么区别?3、统计表主要由哪几部分构成?4、条形图和直方图有什么区别?5、绘制线图应注意哪些问题?1、简述定类变量、定序变量和数值型变量集中趋势测量的方法。2、众数、中位数、均值各有什么特点?1、2、数值型变量离散趋势的测量方法主要有哪些?3、简述质性差异指数、四分位差、标准差各自的特点。1、正态分布有什么特点?2、如何计算Z值?3、如何理解68-95-99.7规则?1、什么是参数?什么是统计量?2、什么是抽样分布?3、简述中心极限定理。4、什么是假设检验?5、简要解释P值的含义。6、什么是虚无假设和替换假设?1、简述二维表的分布。2、什么是误差减少比例?3、如何计算Lambda、Gamma和Somers’d?1、如何制作散点图?2、简述相关系数的取值与意义。3、一元线性回归模型中有哪些基本假定?4、一元线性回归的估计方法。1、什么是卡方检验?2、如何构造卡方统计量?3、卡方分布有什么特点?4、如何计算系数和Cramer’sV?1、什么是T统计量?2、什么是T分布?它有什么特点?3、如何进行单样本T检验4、如何进行配对样本T检验?5、如何进行独立样本T检验?1、什么是方差分析?它的思路是什么?143/143\n2、什么是F分布?有什么特点?3、方差分析中有哪些假设条件?4、什么是组间均方和和误差均方和?如何计算?5、如何计算与解释方差分析表?143/143\n社会统计学期末复习题 一、单项选择题 1.以下关于因变量与自变量的表述不正确的是() A.自变量是引起其他变量变化的变量 B.因变量是由于其他变量的变化而导致自身发生变化的变量 C.自变量的变化是以因变量的变化为前提 D.因变量的变化是以自变量的变化为前提 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为() A.频率 B.累积频数 C.累积频率 D.比率 3.离散系数的主要目的是( ) A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度 D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有() A.50%的数据 B.68%的数据 C.95%的数据 D.99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为( ) A.39.19 B.28.90143/143\n C.19.54 D.27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为( ) A.点估计 B.区间估计 C.有效估计 D.无偏估计 7.在频数分布表中,比率是指( ) A.各组频数与上一组频数之比 B.各组频数与下一组频数之比 C.各组频数与总频数之比 D.不同小组的频数之比 8.下面哪一项不是方差分析中的假定( ) A.每个总体都服从正态分布 B.观察值是相互独立的 C.各总体的方差相等 D.各总体的方差等于0 9.判断下列哪一个不可能是相关系数( ) A.-0.9 B.0 C.0.5 D.1.2 10.用于说明回归方程中拟合优度的统计量主要是( ) A.相关系数 B.离散系数 143/143\n C.回归系数 D.判定系数 11.在假设检验中,不拒绝虚无假设意味着( ) A.虚无假设是肯定正确的 B.虚无假设肯定是错误的 C.没有证据证明虚无假设是正确的 D.没有证据证明虚无假设是错误的 12.下列变量属于数值型变量的是( ) A.工资收入 B.产品等级 C.学生对考试改革的态度 D.企业的类型 13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形( ) A.环形图 B.饼图 C.直方图 D.条形图 14.在频数分布表中,频率是指( ) A.各组频数与上一组频数之比 B.各组频数与下一组频数之比 C.各组频数与总频数之比 D.各组频数与最大一组频数之比 15.两个定类变量之间的相关分析可以使用( ) A.λ系数 B.ρ系数 143/143\n C.γ系数 D.Gamma系数 16.根据一个样本均值求出的90%的置信区间表明( ) A.总体均值一定落入该区间内 B.总体均值有90%的概率不会落入该区间内 C.总体均值有90%的概率会落入该区间内 D.总体均值有10%的概率会落入该区间内 17.已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的( ) A.95% B.68% C.89% D.90% 18.方差分析的目的是( ) A.比较不同总体的方差是否相等 B.判断总体是否存在方差 C.分析各样本数据之间是否存在显著差异 D.研究各分类自变量对数值型因变量的影响是否显著 19.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间( ) A.相关程度越大 B.相关程度越小 C.完全相关 D.完全不相关 20.正态分布中,当均值μ相等时,σ值越大,则( ) A.离散趋势越小 143/143\n B.峰值越大 C.曲线越低平 D.变量值越集中 21.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为( ) A.简单随机抽样 B.系统抽样 C.整群抽样 D.分层抽样 22.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据( ) A.茎叶图 B.环形图 C.饼图 D.线图 23.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值( ) A.是平均数的-1.5倍 B.比平均数少1.5 C.等于-1.5倍标准差 D.比平均数低1.5个标准差 24.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数和众数分别是( ) A.89,92 B.72,83 C.83,90 D.92,92143/143\n 25.某班级学生期末英语考试平均成绩为75分,标准差为10分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的( ) A.68% B.89% C.90% D.95% 26.已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为( ) A.700 B.0.2 C.3500 D.175000 27.在回归方程中,若回归系数等于0,这表明( ) A.因变量y对自变量x的影响是不显著的 B.自变量x对因变量y的影响是不显著的 C.因变量y对自变量x的影响是显著的 D.自变量x对因变量y的影响是显著的 28.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。这种调查方法属于( ) A.简单随机抽样 B.整群抽样 C.分层抽样 D.系统抽样 29.某企业职工的月收入水平分为以下五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值近似为( ) A.3000元 B.3500元 C.2500元 143/143\n D.3250元 30.对于右偏分布,平均数、中位数和众数之间的关系是( ) A.平均数>中位数>众数 B.中位数>平均数>众数 C.众数>中位数>平均数 D.众数>平均数>中位数 31.两组数据的平均数不相等,但是标准差相等。那么( ) A.平均数小的,离散程度小 B.平均数大的,离散程度大 C.平均数大的,离散程度小 32.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着( ) A.高度相关 B.中度相关 C.低度相关 D.极弱相关 33.回归平方和(SSR)反映了y的总变差中( ) A.由于x与y之间的线性关系引起的y的变化部分 B.除了x对y的现有影响之外的其他因素对y变差的影响 C.由于x与y之间的非线性关系引起的y的变化部分 D.由于x与y之间的函数关系引起的y的变化部分 34.在假设检验中,虚无假设和备择假设( ) A.都有可能成立 B.都不可能成立 C.有且只有一个成立 D.备择假设一定成立,虚无假设不一定成立143/143\n 35.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是( ) A.22000名学生 B.2200名学生 C.22000名学生的每月生活费用 D.2200名学生的每月生活费用 36.中心极限定理认为不论总体分布是否服从正态分布,从均值为μ、方差为σ2的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n≥30),样本均值的抽样分布近似服从均值为()、方差为()的正态分布。 A.μ,σ2 B.μ/n,σ2/n C.μ,σ2/n D.μ/n,σ2 37.某校期末考试,全校语文平均成绩为80分,标准差为3分,数学平均成绩为87分,标准差为5分。某学生语文得了83分,数学得了97分,从相对名次的角度看,该生( )的成绩考得更好。 A.数学 B.语文 C.两门课程一样 D.无法判断 38.判断下列哪一个不可能是相关系数( ) A.-0.89 B.0.34 C.1.32 D.0 39.对消费的回归分析中,学历、年龄、户口、性别、收入都是自变量,其中收入的回归系数为0.8,这表明( ) A.收入每增加1元,消费增加0.8元 B.消费每增加1元,收入增加0.8元143/143\n C.收入与消费的相关系数为0.8 D.收入对消费影响的显著性为0.8 40.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,最后将所有子样本合起来作为总样本,这样的抽样方式称为( ) A.简单随机抽样 B.系统抽样 C.整群抽样 D.分层抽样 41.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是( ) A.86 B.77 C.90 D.88 42.经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有( ) A.50%的数据 B.68%的数据 C.95%的数据 D.99%的数据 43.残差平方和(SSE)反映了y的总变差中( ) A.由于x与y之间的线性关系引起的y的变化部分 B.除了x对y的现有影响之外的其他因素对y变差的影响 C.由于x与y之间的非线性关系引起的y的变化部分 D.由于x与y之间的函数关系引起的y的变化部分 44.某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适( ) A.回归分析 143/143\n B.方差分析 C.卡方检验 D.列联表分析 45.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为( ) A.点估计 B.区间估计 C.有效估计 D.无偏估计 46.为了解某地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是( ) A.变量 B.总体 C.样本 D.统计量 47.如果一组数据中某一个数值的标准分值为1.8,这表明该数值( ) A.是平均数的1.8倍 B.比平均数多1.8 C.等于标准差的1.8倍 D.比平均数高出1.8个标准差 48.某次社会统计学考试中学生平均成绩82,标准差为6,某同学考试成绩为80,将这个分数转化为Z值为( ) A.-0.33 B.0.33 C.-3 D.3 49.根据一个具体的样本求出的总体均值95%的置信区间( )143/143\n A.以95%的概率包含总体均值 B.5%的可能性包含总体均值 C.绝对包含总体均值 D.绝对不包含总体均值 50.在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间( ) A.相关程度越高 B.相关程度越低 C.完全相关 D.没有任何关系 51.从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426,则组间均方和组内均方分别为( ) A.432,71 B.216,71 C.432,426 D.216,426 52.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于( ) A.简单随机抽样 B.整群抽样 C.分层抽样 D.系统抽样 53.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为( ) A.5小时 B.6小时 C.5.5小时 143/143\n D.6.5小时 54.一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克。那么( ) A.一班学生体重的离散程度大 B.二班学生体重的离散程度大 C.两个班学生体重的离散程度相同 D.无法判断 55.下表是某单位工作人员年龄分布表,该组数据的中位数出现在第( )组组别按年龄分组(岁)工作人员数(人)120~246225~2914330~3424435~3918540~4412645~4918750~5414855~596合计112 A.第3组 B.第4组 C.第5组 D.第6组 二、名词解释 1.抽样单位与抽样框 2.普查与抽样调查 3.参数与统计量 4.方差与标准差 5.独立样本与配对样本143/143\n 6.总体与样本 7.抽样分布 8.二维表 9.相关系数 10.组内均方 11.普查 12.误差减少比例 13.散点图 14.正态分布 15.最小二乘法 16.概率抽样 17.均值\众数\中位数 18.置信区间 19.区间估计 20.中心极限定理 21.假设检验 22.离散变量与连续变量 23.虚无假设与替换假设 24.置信水平 25.离散系数 三、简答题 1.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。 (1)网络供应商的姓名 (2)每月的网络服务费 (3)每月上网时间143/143\n (4)上网的主要目的 (5)上周收到的电子邮件数量 (6)每月用于网上购物的金额 (7)上月网上购物的次数 (8)使用的电脑的品牌 (9)上网是否玩游戏 (10)电脑是否带有光盘刻录机 2.调查方法主要包括哪几种?简要说明各种方法的优缺点。 3.什么是简单一元线性回归分析?其作用是什么? 4.举例简要说明社会研究过程。 5.按测度水平,变量可分为哪几类?并举例说明。 6.简要举例说明在分析双变量的关系时,t检验和卡方检验的主要区别。 7.等距分组和不等距分组有什么区别?请举例说明。 8.举例说明什么是自变量和因变量,二者之间是什么关系? 9.简要说明卡方的拟合优度检验和独立性检验的含义。 10.条形图和直方图有什么区别? 11.数据分析中的归纳法和演绎法分别是什么? 12.简述定类变量、定序变量和数值型变量集中趋势测量的方法。 13.一元线性回归模型中有哪些基本假定? 14.离散变量和连续变量有什么区别?请举例说明。 15.简述相关系数的取值与意义。 16.概率抽样方法主要包括哪几种? 四、计算题(每题15分,共30分) 1.某校社会学专业同学统计课成绩如下表所示。 社会学专业同学统计课成绩表143/143\n学号成绩学号成绩学号成绩101023761010377510105270101024911010387010105388101025871010397610105493101026781010409010105562101027851010417610105695101028961010428610105795101029871010439710105866101030861010449310105982101031901010459210106079101032911010468210106176101033801010478010106276101034811010489010106368101035801010498810106494101036831010507710106583 要求: (1)对考试成绩按由低到高进行排序,求出众数、中位数和平均数。 (2)对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。 2.为研究某种商品的价格(x)对其销售量(y)的影响,收集了12个地区的有关数据。通过分析得到以下结果: 方差分析表变差来源SSdfMSFSig.回归ABCD0.000残差205158.07EF——总计1642866.6711——— 要求: (1)计算上面方差分析表中A、B、C、D、E、F处的值。 (2)商品销售量的变差中有多少是由价格的差异引起的? (3)销售量与价格之间的相关系数是多少?143/143\n 3.某公司欲了解广告费用x对销售量y的影响,收集了20个地区的数据,并对x、y进行线性回归分析,得到:方程的截距为364,回归系数为1.42,回归平方和SSR=1602708.6,残差平方和SSE=40158.07。 要求: (1)写出广告费用y与销售量程x之间的线性回归方程。 (2)假如广告费用投入50000元,根据回归方程估计商品销售量。 5.为估计每个网络用户每天上网的平均时间是多少,抽取了225个网络用户的简单随机样本,得到样本均值为6.5个小时,样本标准差为2.5个小时。 (1)试用95%的置信水平,计算网络用户每天平均上网时间的置信区间。 (2)在所调查的225个网络用户中,年龄在20岁以下的用户为90个。以95%的置信水平,计算年龄在20岁以下的网络用户比例的置信区间。 注:Z0.025=1.96 6.某企业使用3种方法组装一种新的产品,为确定哪种方法生产效率最高,随机抽取30名工人,并指定每人使用其中的一种方法。通过对每个工人生产的产品数进行分析得到下面的方差分析表。请完成方差分析表。变差来源SSdfMSFSig.组间2100.000组内3836——总计29——— 7.甲单位人均月收入4500元,标准差1200元。乙单位月收入分布如下所示。 乙单位月收入分布表按收入分组(元)人数(个)3000分以下1203000~40004204000~50005405000~60004206000以上300合计1800 要求: (1)计算乙单位员工月收入的均值和标准差。143/143\n (2)比较甲单位和乙单位哪个单位员工月收入的离散程度更大?(提示:使用离散系数) 8.某行业管理局所属40个企业2011年产品销售额数据如下所示。 40个企业2011年产品销售额企业编号销售额企业编号销售额企业编号销售额企业编号销售额115211105211033113621051212322103321463117131162313733127497141152413834135512415110259135117611916115261183611371081710027120371048881887281123812591291910729953910810115201193014240126 要求: (1)对2011年销售额按由低到高进行排序,求出众数、中位数和平均数。 (2)如果按照规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。 9.某单位为研究其商品的广告费用(x)对其销售量(y)的影响,收集了过去12年的有关数据。通过分析得到以下结果: 方差分析表变差来源SSdfMSFSig.组间1602708.6BDF0.000组内40158.08CE——总计A11——— 要求: (1)计算上面方差分析表中A、B、C、D、E、F处的值。 (2)商品销售量的变差中有多少是由广告费用的差异引起的?143/143\n (3)销售量与广告费用之间的相关系数是多少? 10.一项关于大学生体重状况的研究发现,男生的平均体重为60千克,标准差为5千克;女生的平均体重为50千克,标准差为5千克。请问: (1)是男生体重差异大还是女生体重差异大?为什么? (2)男生中有多少比重的人体重在55千克-65千克之间? (3)女生中有多少比重的人体重在40千克-60千克之间? 11.某公司欲了解广告费用x对销售量y的影响,收集了16个地区的数据,并对x、y进行线性回归分析,得到:方程的截距为280,回归系数为1.6,回归平方和SSR=1503000,残差平方和SSE=38000。要求: (1)写出广告费用y与销售量x之间的线性回归方程。 (2)假如广告费用投入80000元,根据回归方程估计商品的销售量。 12.为估计某地区每个家庭日均生活用水量为多少,抽取了450个家庭的简单随机样本,得到样本均值为200升,样本标准差为50升。 (1)试用95%的置信水平,计算该地区家庭日均用水量的置信区间。 (2)在所调查的450个家庭中,女性为户主的为180个。以95%的置信水平,计算女性为户主的家庭比例的置信区间。注:Z0.025=1.96143/143\n143/143