- 66.50 KB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第一章统计:收集、处理、分析、解释数据并从数据中得出结论的科学。数据1.分类数据对事物进行分类的结果数据,表现为类别,用文字来表述.例如,人口按性别分为男、女两类2.顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3.数值型数据对事物的精确测度,结果表现为具体的数值.例如:身高为175cm,168cm,183cm总体–所研究的全部元素的集合,其中的每一个元素称为个体–分为有限总体和无限总体.有限总体的范围能够明确确定,且元素的数目是有限的.无限总体所包括的元素是无限的,不可数的样本–从总体中抽取的一部分元素的集合–构成样本的元素数目称为样本容量参数:描述总体特征。有总体均值(m)、标准差(σ)总体比例(π)统计量:描述样本特征。样本标准差(s),样本比例(p)变量:说明现象某种特征,分类,顺序,数值型:离散型,连续型。经验,理论变量描述统计研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。推断统计是研究如何利用样本数据进行推断总体特征\n第二章间接数据(查询的)与直接数据:调查(通常是对社会现象而言的)普查信息全面完整。再一个是实验。概率抽样:也称随机抽样。按一定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中–每个单位被抽中的概率是已知的,或是可以计算出来的–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的分层抽样:优点:保证样本的结构与总体的结构比较相近将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,从而提高估计的精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层的目标量进行估计整群抽样:将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查优点:抽样时只需群的抽样框,可简化工作量–调查的地点相对集中,节省调查费用,方便调查的实施–缺点是统计的精度较差系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位–先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位\n操作简便,可提高估计的精度多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查–群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样非概率抽样:方便抽样(自行确定入抽样本单位),判断抽样(根据经验判断),自愿样本(被调查者自愿参加),滚雪球抽样(对稀少群体的调查),配额抽样(先将体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位)。概率抽样与非概率抽样的比较1.概率抽样–依据随机原则抽选样本–样本统计量的理论分布存在–可根据调查的结果推断总体2.非概率抽样–不是依据随机原则抽选样本–样本统计量的分布是不确定的无法使用样本的结果推断总体数据收集的方法:自填式,面访式,电话式数据误差:抽样误差(样本量的大小),非抽样误差。误差的控制统计数据的质量要求1.精度:最低的抽样误差或随机误差2.准确性:最小的非抽样误差或偏差3.关联性:满足用户决策、管理和研究的需要4.及时性:在最短的时间里取得并公布数据5.一致性:保持时间序列的可比性\n6.最低成本:以最经济的方式取得数据\n第三章数据审核(完整性和准确性)数据筛选(符合特定条件)数据排序(那一定顺序)数据透视(按需要汇总)频数(frequency):落在各类别中的数据个数比例(proportion):某一类别数据占全部数据的比值百分比(percentage):将对比的基数作为100而计算的比值比率(ratio):不同类别数值的比值条形图:用宽度相同的条形的高度或长短来表示各类别数据的图形。有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布,绘制时,条形图可以横置或纵置,纵置时也称为柱形图。帕累托图:按类别数据出现的频数多少排序后绘制的条形图饼图:也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用组距分组:将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组分组数据:直方图(用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图),折线图。数值型数据:茎叶图,箱线图,线图,数值型数据多变量:散点图(用横轴代表变量x,纵轴代表变量y,每组数据(xiyi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图),气泡图,雷达图(假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比)一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则:一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况\n第四章集中趋势:一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测众数:1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据中位数:1.排序后处于中间位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据4.各变量值与中位数的离差绝对值之和最小四分位数:排序后处于25%和75%位置上的值.平均数:也称为均值,是集中趋势的最常用测度值,一组数据的均衡点所在。体现了数据的必然性特征,易受极端值的影响。有简单平均数和加权平均数(分组数据)之分。几何平均数(计算平均比率主要用于计算平均增长率):平均数的性质:各变量值与均值的离差之和等于零各变量与均值的离差平方和最小调和平均数:均值的另一种表现形式(直接掌握公式中分子资料,缺频数资料)离散程度:均值的另一种表现形式(直接掌握公式中分子资料,缺频数资料)异众比率(分类数据):对分类数据离散程度的测度,是非众数组的频数占总频数的比率,用于衡量众数的代表性四分位差(顺序数据):对顺序数据离散程度的测度2.也称为内距或四分间距3.上四分位数与下四分位数之差QD=QU–QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性数值型数据:1.极差:一组数据的最大值与最小值之差,\n离散程度的最简单测度值,易受极端值影响,未考虑数据的分布。2.平均差:各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少3.方差,标准差自由度:自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差,当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值4.按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k相对位置的度量:标准分数也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理经验法则:经验法则表明:当一组数据对称分布时1.约有68%的数据在平均数加减1个标准差的范围之内2.约有95%的数据在平均数加减2个标准差的范围之内3.约有99%的数据在平均数加减3个标准差的范围之内相对离散程度:标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.较用于对不同组别数据离散程度的比峰态:统计学家Pearson于1905年首次提出,数据分布扁平程度的测度峰态系数=0扁平峰度适中,峰态系数<0为扁平分布,峰态系数>0为尖峰分布偏态:统计学家Pearson于1895年首次提出,是数据分布偏斜程度的测度3偏态系数=0为对称分布偏态系数>0为右偏分布偏态系数<0为左偏分布4.偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低\n第六章统计量:设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量2.统计量是样本的一个函数,是随机的。3.统计量是统计推断的基础常用:均值,方差,变异系数,k阶距,k阶中心距,样本偏度和样本峰度次序统计量:中位数、分位数、四分位数等都是次序统计量充分统计量:能把总体中包含的信息一点都不损失的提取出来的统计量,称为充分统计量。抽样分布:1.样本统计量的概率分布,是一种理论分布2在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布3样本统计量是随机变量,样本均值,样本比例,样本方差等4.结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据渐进分布:1、统计学的抽样分布理论中,至今求出精确分布的并不多。2、在实用中,常寻求样本容量无限大时,统计量的极限分布,以作为抽样分布的近似,称为渐进分布。c2分布:由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡•皮尔逊(K•Pearson)分别于1875年和1900年推导出来。性质分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称t分布:1.高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出t分布是类似正态分布的一对称分布,它通常要比正态分布平坦和分散4.一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布F分布:\n中心极限定理:从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n样本比例抽样分布:在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布2.一种理论概率分布3.当样本容量很大时,样本比例的抽样分布可用正态分布近似样本方差分布:在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布\n第七章估计量:用于估计总体参数的随机变量,如样本均值,样本比例,样本方差等例如:样本均值就是总体均值的一个估计量估计值:估计参数时计算出来的统计量的具体值点估计:用样本的估计量的某个取值直接作为总体参数的估计值无法给出估计值接近总体参数程度的信息:虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值,一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值无偏性:估计量抽样分布的数学期望等于被估计的总体参数有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数总体均值的区间估计总体比例的区间估计总体方差的区间估计\n第八章检验统计量:总体参数点估计量的标准化值,其作用是用来衡量样本统计量与零假设差异的是否显著。拒绝域:能够拒绝原假设的统计量的所有可能取值的集合。是由显著性水平α围城的区域。第一类错误,弃真:零假设为真,而根据样本做出拒绝零假设的推断。第二类错误,取伪:零假设为假,而根据样本做出接受零假设的判断因为真实情况未知,所以两类错误不可避免;要减小其中的一种错误,通常只能通过增加另一种错误的方法做到;2、要使两类错误的概率同时减小,只能增加样本量,但实际中成本往往不允许。P值:是一个概率值,被称为观察到的(或实测的)显著性水平p值是在零假设成立的条件下,检验统计量会象实际观测结果zc那么极端或更极端的概率\n第十三章时间序列:平稳序列(stationaryseries)基本上不存在趋势的序列,各观察值基本上在某个固定的水平上波动或虽有波动,但并不存在某种规律,而其波动可以看成是随机的非平稳序列(non-stationaryseries)有趋势的序列线性的,非线性的有趋势、季节性和周期性的复合型序列成分:趋势(trend)持续向上或持续下降的状态或规律2季节性(seasonality)也称季节变动(Seasonalfluctuation)时间序列在一年内重复出现的周期性波动3周期性(cyclity)也称循环波动(Cyclicalfluctuation围绕长期趋势的一种波浪形或振荡式变动4.随机性(random)也称不规则波动(Irregularvariations)除去趋势、周期性和季节性之后的偶然性波动增长率:也称增长速度2.报告期观察值与基期观察值之比减1,用百分比表示3.由于对比的基期不同,增长率可以分为环比增长率和定基增长率4.由于计算方法的不同,有一般增长率、平均增长率、年度化增长率分为定基增长率和环比增长率移动平均法:对简单平均法的一种改进方法2.通过对时间序列逐期递移求得一系列平均数作为预测值(也可作为趋势值)3.有简单移动平均法和加权移动平均法两种简单移动平均:将最近k期数据平均作为下一期的预测值加权移动平均法指数平滑法:是加权平均的一种特殊形式2.对过去的观察值加权平均进行预测的一种方法3.观察值时间越远,其权数也跟着呈现指数的下降,因而称为指数平滑4.有一次指数平滑、二次指数平滑、三次指数平滑5.一次指数平滑法也可用于对时间序列进行修匀,以消除随机波动,找出序列的变化趋势1.只有一个平滑系数2.观察值离预测时期越久远,权数变得越小3.以一段时期的预测值与观察值的线性组合作为第t+1期的预测值,其预测模型为Yt为第t期的实际观察值Ft为第t期的预测值a为平滑系数(0