- 597.00 KB
- 2022-07-30 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
多元统计分析考试内容最后成绩作业50%考试50%他们班这样不知咱们班什么情况估计也差不多考试一共八道题分三大类(卷面值100分最后折合成50分)一计算题(每题12分)1计算性的判别分析题主要用Fisher判别法要掌握公式的方法原理2聚类分析题主要应用两种聚类法:系统聚类法和模糊聚类法题中会给出距离或相关系数矩阵直接计算老师强调要看清题意不要做无用功!3如何将非线性函数形式用线性回归的方法将其线性化写出其过程可能不涉及计算二简答(简答哦不要长篇大论免得后面的题没时间做主要作概略性总结即可)在这一部分中主要有三道题(分值分别101012)老师没有具体给出三道题的题目只是举了些例子回答问题的主要思路是:统计分析方法的基本思想,基本原理与应用,在应用中要注意的问题个别要回答与其他方法的对比举的主要例子有(个人以为前两个比较重要):1回归分析模型:回归方程的基本假定,涉及到回归分析方程系数为何作显著性检验统计性的依据是什么(方差分析)给出一个回归分析方程如何作显著性检验2判别分析:判别分析的优良性两方面考虑:(1)组与组之间的差别是否显著有无必要作判别分析(2)误判率下面的几个例子主要也是按上面的思路回答因子分析聚类分析(不会四种方法一块考,会选其中某个或某两个)主成分分析的基本思想可以做什么应用及在应用中要选几个主成分对应分析的基本思想三发挥题(每题16分)这个部分老师会给出问题的背景及所问的问题,个人结合自己所学的几种分析方法选择适合的作分析没有标准答案,只要能自圆其说即可注意:第一步一定要先指出自己所用的分析方法老师没有说具体会考什么题只是说不会考很专业的自由发挥简单提到一个例子就是教学评价的问题也没有说用什么方法他说不同的人会采用不同的方法一道题不会只有一种解决方法.题量大,做不完1计算题1.1计算性的判别分析题主要用Fisher判别法要掌握公式的方法原理处理概率分布未知的判别问题中的最著名的方法。聚类分析和判别分析都是分类问题,他们的不同之处在于,是否事先已知研究对象的分类,实际应用中有时需要将两种方法联合起来使用。1.2聚类分析题主要应用两种聚类法:系统聚类法和模糊聚类法题中会给出距离或相关系数矩阵直接计算1.3如何将非线性函数形式用线性回归的方法将其线性化写出其过程可能不涉及计算2简答题2.1回归分析模型:⑴回归方程的基本假定?①回归函数的线性假设②误差项的等方差假设③误差项的独立性假设④误差项的正态分布的假设⑵涉及到回归分析方程系数为何作显著性检验?在进行显著性的检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验.回归方程通过了显著性检验并不意味着每一个自变量都对应变量有显著的影响,可能其中的某个或某些自变量对应变量的影响并不显著,我们自然希望从回归方程中剔除那些对应变量影响并不显著的自变量,从而建立一个较为简单有效的回归方程,这就需要对每一个自变量进行考察.显然,若某个自变量对应变量无影响,那么在线性回归模型中,它的系数为零.那么我们就检验选取的自变量的影响是否显著等价于18\n检验假设根据分布的定义,有,这里,对于给定的显著性水平,当时,我们拒绝,反之就接受,在SPSS软件的输出结果中,可以直接从P值看出检验结果,那么我们拒绝的P值区间是多少呢?⑶统计性的依据是什么?给出一个回归分析方程如何作显著性检验?统计性的依据方差分析对于多元线性回归作显著性检验就是要看自变量从整体上对随机变量y是否有明显的影响,即检验假设如果被接受,则表明y与之间不存在线性关系,为了说明如何进行检验,我们要首先建立方差分析表.在进行显著性的检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验.F统计量是:当为真时,,给定显著性水平α,查F分布表得临界值,计算F的观测值,若,则接受,即认为在显著性水平α之下,认为y与之间线性关系不显著.利用P值法作显著性检验十分方便,这里的P值是,定显著性水平α.,若,则拒绝,反之接受.⑷回归分析和相关分析的区别和联系?相关分析和回归分析都是对客观事物数量依存关系的分析,均有一元和多元,线性与非线性之分,在应用中相互结合与渗透,但仍有差别,主要是:①相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示一个变量如何与其他的变量相联系,并可由回归方程进行控制和预测②在相关分析在中,变量y与x处于平等的地位,在回归分析中,因变量y处于被解释的特殊地位③在相关分析中所涉及的变量y与x完全是随机变量;而在回归分析中因变量y是随机变量,自变量可以是随机变量,也可以是非随机变量.一般来说,只有存在相关关系,才可以进行回归分析,相关程度越高,回归分析的结果就越可靠.⑸运用回归分析解决问题时,回归变量的选择理论依据是什么?选择回归变量时应注意哪些问题?①从拟合角度考虑,可以采用修正的复相关系数达到最大的准则。准则1:修正的复相关系数达到最大。因为:从这个关系式容易看出,达到最大时,达到最小。②从预测的角度考虑,可以采用预测平方和达到最小的准则以及准则准则2:预测平方和达到最小18\n准则3:(准则):定义统计量为要求选择小,且小的回归方程。③从极大似然估计的角度考虑,可以采用赤池信息量准则(AIC准则)准则4:赤池信息量达到最小选择AIC值最小的回归方程为最优回归方程。自变量的选择问题可以看成是应该采用全模型预还是选模型的问题全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型:全模型的参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型的相应方差。上述结论说明丢掉那些对因变量影响不大的,或虽有影响,但难于观测的自变量是有利的。(6)逐步回归方法的基本思想与步骤逐步回归的基本思想是有近进有出,具体做法是将变量一个一个引入,引入变量的条件是通过了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行检验,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量,又不能剔出老变量为止。基本步骤:①对于每个自变量,拟合个一元线性回归模型,若,则所选择含自变量的回归模型为当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对y的影响均不显著②在第一步的基础上,再将其余的个自变量分别加入到此模型中,得到二元回归方程,若则将自变量引入模型,进一步考察引入模型后,对y的影响是否仍然显著,,则剔除。③在第二步的基础上,再将其余的个自变量分别加入到此模型中,拟合各个模型并计算偏F统计量值,与比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那样就应该被删除。重复以上的步骤,直到没有新的变量能进入模型,同时在模型中的老变量都不能被剔除,则结束选择过程,最后,一个模型即为所求的最优回归模型。(7)残差分析残差分析的思想以及意义?残差分析的用途?残差分析要解决的问题?基本步骤是什么?(8)判别分析:判别分析的优良性两方面考虑:(1)组与组之间的差别是否显著有无必要作判别分析(2)误判率2.2因子分析⑴.因子分析的基本思想?因子分析是主成分分析的推广,它也是利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多元统计分析方法,因子分析的基本思想是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低.每一组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公共因子.对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.2.3聚类分析⑴系统聚类的基本思想:先将待聚类的n个样品(或者变量)各自看成一类,公有n类,然后按照事先选定的方法计算每两类之间的聚类统计,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,既得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或者相似系数),再将关系最密切的两类并为一类,其余不变,即得到n-2类;如此继续下去,每次重复都减少一类,直到最后所有的样品(或者变量)归为一类为止.⑵模糊聚类的基本步骤:18\n①选定一种计算距离或相似系数的公式距离矩阵或者相似系数矩阵(不一定是模糊矩阵)②由观测数据矩阵计算样品间的距离或者变量间的相似系数,形成距离矩阵或者相似系数矩阵③将距离矩阵或相似系数矩阵中的元素压缩到0与1之间,形成模糊矩阵2.4主成分分析的基本思想可以做什么应用及在应用中要选几个主成分?主成分分析的基本思想:通过构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量的几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含的信息的多少用该变量的方差(或样本方差)来度量,这是经典的信息量的表示方法.解决的问题:①研究的问题当中,随机变量的个数比较大,将增大计算量和分析问题的复杂性:②随机变量之间存在着一定的相关性,它们的观测样本所反映的信息在一定的程度是存在着重叠的.一般地,在约束条件之下,使得达到最大,由此确定的称为的第i个主成分.2.5主成分分析与因子分析的区别和联系???1区别:⑴主成分分析仅仅是一种数据变换,不假定数据阵有什么样的结构形式而因子分析假定数据阵有特定的模型,是其中的因子,满足特定的条件,当这些条件不满足时,因子分析就可能是虚假的.⑵两种方法的侧重点不同:主成分分析重点在于从观测变量的主成分的变换上,而因子分析的重点在于从公共因子的特殊因子的观测变量的变换上,⑶主成分分析变换是可逆的,而因子分析不要求⑷两者实际应用范围也有所不同,主成分分析主要是应用在综合评价和指数筛选上,而因子分析除这两个作用外,还可用语对样品和变量的分类.2联系:主成分分析是特殊形式的因子分析,主成分分析的数学模型是,而因子分析的数学模型为.当因子分析数学模型的特殊因子的影响微不足到,可以忽略,并且F中的个分量均为正交,就形成了特定的因子分析.这两个数学模型的含义是不同的,但是从因子分析求解主因子的过程中可以看到,当特殊因子变差,贡献为零时,主因子分析和主成分分析完全等同作用.因此,当主因子模型成立,而且特殊因子变差贡献很小的情况下,我们就可以期待主成分分析和因子分析会给出相同的结果,从而利用主成分分析发求因子模型的解.当特殊因子贡献较大时,因子分析是把公共因子和特殊因子严格区分开来,而主成分分析则把这些因子不加区别的混在一起,作为主成分被保留或舍弃,故这时用主成分分析保留的因子并不是纯粹的公共因子.3共同点:两个都是将多个变量指标化为少数几个变量指标的一种使用多元统计方法,用意在于重新组合数据,使变量的维数降低,而有关信息损失尽可能的小,以便在低维空间顺利研究有关问题.两种方法都可以在SPSS中的因子分析过程(Factor)实现.三、发挥题(每题16分)这个部分老师会给出问题的背景及所问的问题,个人结合自己所学的几种分析方法选择适合的作分析没有标准答案,只要能自圆其说即可注意:第一步一定要先指出自己所用的分析方法老师没有说具体会考什么题只是说不会考很专业的自由发挥简单提到一个例子就是教学评价的问题也没有说用什么方法他说不同的人会采用不同的方法一道题不会只有一种解决方法非线性转换为线性回归的题目18\n四、设变量与,,…,(或,或)具有下列函数关系,试问分别采用什么变换可将非线性问题化为多元线性问题?⑴,其中,是待定常数。⑵,其中,是待定常数。⑶,其中、;、是待定常数。(6分)解答:⑴在⑴上式当中,我们发现y与x的关系为非线性,式的形式为连乘形式,且x的幂不是一次的。我们需要作的就是将方程中的右边的x连乘形式变换成连加的形式,并且把x的幂变换成一次的。首先,两边同取以10为底的对数,则:令:,则:最后,通过g与t建立回归关系,明显可以看出这是一种多元线性回归。⑵对于这种方程,不能使用数学变换,明显可以将看成是一个指标,当它与联合起来就是一个多元线性回归模型,是二维的,像这种模型在回归指标中也经常见到,只不过这个指标是个非观测指标,是由其他可直接观测指标的组合指标。⑶亦是非直接观测指标的合成指标问题,同⑵。五、对回归方程作显著性检验的基本过程如何?(10分)解答:对于多元线性回归作显著性检验就是要看自变量从整体上对随机变量y是否有明显的影响,即检验假设:如果被接受,则表明y与之间不存在线性关系,为了说明如何进行检验,我们要首先建立方差分析表.方差来源平方和自由度均方差F值SSRP18\nSSEn-p-1SSTn-1在进行显著性的检验中,使用F统计量来检验回归方程的显著性,也可以用P值法做检验.F统计量是:当为真时,,给定显著性水平α,查F分布表得临界值,计算F的观测值,若,则接受,即认为在显著性水平α之下,认为y与之间线性关系不显著.反之,就是显著的.利用P值法作显著性检验十分方便:这里的P值是,它表示第一、第二自由度分别为的F变量取值大于的概率.定显著性水平α.,若,则拒绝,反之接受.2005年研究生多元统计试题(A卷)一、设对六个样品测试了六项指标,计算出样品间的相关系数见下表:x1x2x3x4x5x6x20.921x30.840.681x40.790.770.811x50.690.760.710.821x60.650.780.860.740.891试用最长距离法对这六个样品进行聚类,并画出谱系图。(10分)解答:首先将6个样品的各自看成一类,即:Gi=(i),i=1,2,3,4,5,6将相关系数矩阵记为D0,则:从这个矩阵可以看出,G1,G2的相关性最大,因此将G1,G2在水平0.92上合成一个新类G7={1,2},计算G7与G3,G4,G5,G6之间的最长距离,得到:18\n在第一个相关矩阵中将划去{1},{2}所对应的行和列,并加上新类G7={1,2}到其他类的距离作为新的一行一列,得到:从这个矩阵可以看出,G5,G6的相关性最大,因此将G5,G6在水平0.89上合成一个新类G8={5,6},计算G8与G7,G3,G4,之间的最长距离,得到:在第二个相关矩阵中将划去{5},{6}所对应的行和列,并加上新类G8={5,6}到其他类的距离作为新的一行一列,得到:从这个矩阵可以看出,G3,G8的相关性最大,因此将G3,G8在水平0.86上合成一个新类G9={3,5,6},计算G9与G7,G4,之间的最长距离,得到:在第三个相关矩阵中将划去{3},{8}所对应的行和列,并加上新类G9={3,5,6}到其他类的距离作为新的一行一列,得到:从这个矩阵可以看出,G9,G7的相关性最大,因此将G9,G7在水平0.84上合成一个新类G10={1,2,3,5,6},计算G10与G4之间的最长距离,得到:从而得到最后在0.82的水平上,将G10,G4合为一个包含所有样品的大类.最长距离的聚类谱系图为:18\n12356410.920.890.860.840.82二、已知判别类和的Fisher线性判别函数为:,并且已知,,,。用下列公式计算临界值:,并判别新样品属于哪一类?(6分)这是前年出的判别函数计算题目,很简单,你看看会不会,估计就是这种模式。六、在作判别分析时,如何检验判别效果的优良性?(8分)解答:当一个判别准则提出以后,还要研究其优良性,即要考察误判概率.一般使用以训练样本为基础的回代估计法与交叉确认估计法具体的见课本,我就不写了,这个题目要记住啊,听着了没!!!八、因子模型中,因子载荷、变量共同度以及公共因子的方差贡献的统计意义是什么?在实际应用中,一般怎样选择公共因子?(10分)解答:⑴是与的协方差,也是两者的相关系数,它表示依赖的程度,反映了第i个变量对第j个公共因子的相对重要性。也就是变量与公共因子间的密切程度。⑵变量共同度,它反映了全部公共因子对变量的影响,是全部公共因子对的方差贡献。若全部公共因子对的方差贡献接近于1,则表明该变量的几乎全部原始信息都被选取的公共因子说明了。⑶公共因子的方差贡献为因子载荷矩阵的第j列的各元素的平方和。,它是衡量公共因子相对重要性的指标,越大,表明公共因子对x的贡献越大。选取方法:⑴根据具体问题的专业知识来确定⑵采用主成分分析中选取主成分个数的方法。这个证明题目要考!!!!!!!!!!是原题考试啊!!!!18\n3.对变量和,,…,进行了次观测,得数据为:;,。对以上变量采用普通最小二乘法作线性回归,回归方程为,令;,;;;;如果,,,试证:及。证明:也就是:下面只需要证明由于,则第二项等于0因为,则18\n2,证明证明:现在我们只需要证明:即:而,所以,原题目得到证明.九、某实力雄厚的跨国公司日前在沪设立了办事处,经销该公司的产品。由于看好在华发展前景,该公司打算进一步扩大在华业务,在华直接生产和销售产品;并进行软件和高新技术产品的研发。为此,他们急需解决如下问题:(1)综合考虑各方面的情况,确定两到三个投资地点(城市);(2)利用公司以往的销售记录以及各销售地区的社会经济情况,对未来的产品生产和销售量做出预测;(3)确定最佳广告策略。假设你是该公司决策人员,你将如何利用统计方法研究以上几个问题?(16分)解答:因子得分、回归分析、因子得分十、保护环境和水资源是可持续发展的基本前提。某研究院组成考察团,对我国主要河流和湖泊水环境进行了一次为期近三年的全面考察,收集了大量数据,接下来他们要做的部分工作是:(1)对考察的河流和湖泊的水质情况做出定量的综合评价;(2)根据观测数据对湖泊进行分类;(3)确定各个地区的工业、矿业生产和农业生产对水质污染的影响程度。某湖区是著名旅游风景区,考察长假期间的水质污染程度是否与平常不同?假设你是该考察团研究人员,你将如何利用统计方法研究以上几个问题?(16分)解答:聚类分析制定评价标准、判别分析、聚类分析、因子得分另外一系列答案资料§1 地球化学变量1.简述地球化学变量的基本特征答:地球化学变量具有下列基本特征:地球化学变量具有随机性,是随机变量。地球化学场的随机性表现为18\n(1)地球化学样品的采取具有抽样的性质。地质体是极不均匀的,其各部分在成分、结构和物理化学性质均不同(2)从成因上看,地球化学变量的取值受多种因素的控制。(3)测试分析误差。地球化学具有统计规律性。如在许多矿区元素含量具有明显的分带性,地球化学变量在空间(一个区域)的分布构成地球化学场。不同的地质体具有不同的地球化学特征2.简述地球化学数据的两种空间表示方法和各自的意义答:地球化学数据矩阵可有两种空间表示方法:1.以变量名为坐标轴构成p维空间,每个样品为空间中的1个点,即样本点。p维变量空间中的n个样本点之间的距离远近反应了各样本点之间的亲疏关系,可据此进行样品之间相关性分析和分类等,称Q型分析。2.:以样品名为坐标轴构成n维空间,每个变量为空间中的1个点,为变量点。n维样品空间中的p个变量点之间的距离远近反应了各变量点之间的亲疏关系,可据此进行变量之间相关性分析和分类等,称R型分析。3.地球化学变量xj的n个数据为x1j,x2j,…,xnj,写出其基本统计量:均值、标准差、与另一变量xk的n个数据x1k,x2k,…,xnk之间的协方差sjk和相关系数rjk的公式,并说明各自的意义。各变量的均值和方差是重要的统计特征,记为和(j=1,2,…,p)。均值即样品分析值的平均值,是该变量值的“中心”,各样品分析值分布在该“中心”两侧;方差是变量取得对于该“中心”偏度程度的一种度量:方差的平方根称均方差。变量j与变量k之间的协方差记为sjk是变量j与变量k分别相对于其均值偏差的交叉乘积之平均值, 虽然可以根据变量间的协方差的正负来判断两变量之间是正相关抑或是负相关,但协方差的大小显然与变量xj和xk的单位或量纲有关,不能据此判断相关性大小。为此可用两变量的均方差进行“标准化”,类似于物理中的无量纲化,称为变量k与变量j的相关系数,记为rjk 4.写出变量xj的n个数据xij=(x1j,x2j,…,xnj)极差变换和标准化变换成x’ij的公式并说明变换后数据的特征。还有那些常见的变量变换,说明各自的意义答:极差变换和标准化变换是两种最常用的变量规一化方法。 (1)极差变换变换后的每个变量xj(j=1,2,…,n)的各样本值为原值xij减去该变量的最小值后除以该变量最大值与最小值之差变换后,实现在变量数量级的规一化。 (2)标准化变换变换后的每个变量xj(j=1,2,…,n)的各样本值为原值xij减去该变量的均值后除以该变量的标准差。18\n变量标准化使变量的均值为0,方差为1。特别当可假定原各变量服从正态分布时,变换后的新变量均服从N(0,1)分布,不但能很好地起到变量规一化的作用,也便于理论分析。(3)对数变换通常变量取以10为底的对数,这一方面是取对数后大大减小了数量级的差异,如原相差10倍的两个变量,经对数变换后只相差1;另一方面,许多研究者认为,许多地球化学变量,特别是微量元素服从对数正态分布,则即对数后能使各变量服从正态分布。对数变换属于非线性变换。根据变量分布的特点,还可以有其它各种非线性变换。§3 聚类分析1.简述聚类分析的基本思想。有哪两类聚类分析?各自的作用?聚类分析(clusteranalysis)就是根据空间点群的“亲疏”关系进行分类的一种方法。为此要给出表示空间点与点之间“亲疏”关系的相似性度量,然后讨论根据相似性度量进行点群簇分的方法和应用。<<聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。聚类分析根据对象不同可分为Q型聚类分析(对样本进行聚类)和R型聚类(对变量进行聚类)。 对样品或变量进行分类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离常用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。2、距离系数需要满足的基本条件?答:点i和点j之间的距离dij可有各种不同的定义,只要其满足所谓的距离公理:对一切的i,j,dij≥0;dij=0等价于点i和点j为同一点,即x(i)=x(j);对一切的i,j,dij=dji;三角不等式成立,即对一切的i,j,k,有dij≤dik+dkj3、什么是相似性度量?有哪些常用的相似性度量?答:两点间的距离(distance)是表征两空间点之间“亲疏”关系的最直接、最自然的度量。除距离外,还有其它相似性度量:相关系数距离系数主要用于Q型分析,而相关系数主要用于R型分析。变量xj与变量xk之间的“亲疏”性的一个自然的度量是两变量的相关系数 相关系数的值域为(-1,1),其值越大,即越接近于1,则相关性愈好,认为两空间点愈相似,因归为同一类。夹角余弦两空间点的“亲疏”程度除用距离表征外还可用两空间点所成的矢量间的夹角的大小得以反映。在样本空间中两变量向量xj和xk的夹角余弦为两向量的内积并为向量长度所标定 与相关系数比较可发现,若两变量的均值为0,则两变量的夹角余弦等于两者的相关系数。18\n夹角余弦的值域为(-1,1),其值越大,即越接近于1,则夹角愈小,认为两空间点愈相似,因归为同一类。4、写出第i个样品(xi1,xi2,…,xip)与第j个样品(xj1,xj2,…,xjp)之间绝对值距离、欧氏距离、切比雪夫距离的公式,并说明各自的区别。答:绝对值距离 注意,这里dij显然是变量空间中样本i与样本j之间的距离,适用于样本分类,即Q型聚类分析。事实上聚类分析主要是Q型分析。若欲进行R型分析,则相应地为 欧氏距离事实上,这两种距离是一类称之为明氏(Minkowski)距离当q=1,2时的特例,而当q趋于无穷大时,则为切比雪夫距离 5、简述系统聚类法的基本思想。有哪些常用的系统聚类方法?答:有了能表征空间点之间亲疏关系的相似性度量,我们就可以据此进行空间点群的分类。用前面介绍欧氏距离作为相似性度量,则系统聚类的步骤为:(1)将每个样看成1类,此时共有n类;(2)计算类与类之间的距离,合并距离最近的两个类;(3)重复步骤(2),直至所有样品归为一类。由于类与类之间的距离可以有不同的定义,就产生了不同的系统聚类法。最短距离法定义类Gq与类Gr之间的距离为所有Gq中的点与所有Gr中的点最近的点对的距离,其数学表述为 (3.9)当采用例如相关系数或夹角余弦作为相似性度量时,上式中的min应为max。最长距离法如果定义类Gq与类Gr之间的距离为所有Gq中的点与所有Gr中的点最远的点对的距离,其数学表述为 (3.10)就得到最远距离法。最长距离法的并类步骤与最短距离法完全相同,只是类与类之间的距离定义不同。类平均法、加权平均法和重心法在类平均法中定义两类的距离平方等于两类中空间点两两之间的平均平方距离,即 (3.11)其中nq、nr分别Gq和Gr中的样品数。18\n设有新类Gt为Gq和Gr合并而成,则该新类与其它类Gk之间的距离为 (3.12)这是类平均法距离计算的基本公式。6、若各样品之间的距离系数为abcda1b0.641c0.721.221 d0.561.990.671请分别用最短距离法和类平均法作出聚类谱系图答:§4 回归分析1、简述回归分析的基本原理。回归分析能解决什么地球化学问题?答:回归分析是研究1个因变量与多个自变量之间的依赖关系。例如某地区农作物的产量或品质(如水果的含糖量)可能依赖于土壤的酸碱度、营养元素和微量元素含量等指标,又如区域内Au的矿化可能依赖于其它地球化学指标,如Cu、Fe、As、Bi、S、F、Cl等的含量,但由于自然现象的复杂性,这种依赖关系并不是完全确定的,而只是统计意义上的。回归分析就是用来揭示这一统计规律性的方法。因变量y与自变量x1,x2,…,xp之间的这种关系可表示为y=f(x1,x2,…,xp)+ee 称为回归模型,其中p为自变量数,e为误差部分,一般可假定服从均值为0,方差为s2的正态分布,即有ee~N(0,s2)。2、什么是回归平方和、残差平方和、最小二乘法?答:回归值与实际观测值之间的误差平方和(也称残差平方和))记为 最小二乘法要求选取b=(b0,b1,…,bp)’使得误差平方和达到最小称为回归平方和3、线性回归方程的几何意义是什么?答:回归方程的几何意义是以一个超平面来拟合空间数据.4、为什么要进行回归方程的显著性检验?写出F检验的公式并加以说明。18\n答:对于任意给定的一组观测数据(xi1,xi2,…,xip;yi),(i=1,2,…,n),我们都可以建立起回归方程。但实际问题很可能因变量y与自变量x1,x2,…,xp之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值事实上不能拟合真实的值yi。即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?因此还需对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。为了检验回归效果的好坏,引进统计量 (4.20)以检验假设 (4.21)当假设H0为真时,各自变量对因变量y没有什么影响,也即回归方程无显著意义;反之,如不能认为全部bi=0,则认为回归方程是显著的。当H0为真时,可以证明,统计量F服从自由度为p和n-p-1的F分布,由F分布表查出Fa(p,n-p-1),当计算所得的F>Fa(p,n-p-1)时,则拒绝H0而认为回归效果显著。a为置信度,一般取0.05,即计算所得的F>Fa(p,n-p-1)的概率只有5%,因而是不大可能发生的小概率事件,而一旦发生,可怀疑假设H0的正确性。5、简述趋势面分析的基本思想,说明与回归分析的异同。答:趋势面分析是一种可简化为多元线性回归分析的一种特殊类型,用于研究地球化学变量z(例如Cu的含量)在研究区域内的空间分布特征。地质-地球化学特征在区域(x-y平面)内各点的值的变化即空间分布即为地球化学场,它由三部分组成:(1)反映呈区域性变化规律的部分,基本上是一个光滑曲面,称之为趋势面;(2)反映局部性变化的部分,如局部矿化导致的异常峰值等;(3)随机因素的叠加;给定一组观测数据xi,yi,zi,i=1,2,…n,则数学上表示为其中为趋势成分,函数称趋势函数;Dzi是实际地球化学场不能被趋势面所包容的部分,内中既有局部性的异常,也包含了随机性因素,称趋势残差。我们很容易把它归结为多元线性回归的问题6、趋势面分析能解决什么样的地质-地球化学问题答:(1)趋势面分析是研究某个地质-地球化学特征(随机变量)与空间坐标之间的关系,是研究场的特征,而其它大部分多元统计分析都是研究样品中各个变量之间的关系而不考虑样品的空间位置(采样位置)。研究场性质的还有移动平均方法和地质统计学。(2)趋势面的次数需要根据实际研究的目的,结合似合度来进行选择,拟合度太低固然不好,但也并不是拟合度越高越好。一般来说,若研究的目的是为了拟合地质-地球化学特征的空间变化规律,则可要求拟合度高一些,视所研究的地质地球化学特征在空间上的变化程度,可选择适当高的趋势面次数;若研究的目的是为了区分“背景趋势”和局部异常,则拟合度不宜高,可选择适当低的趋势面次数,如3次或4次。不同的趋势面次数将得到不同的结果,要注意对比分析。(3)数据点数n必须远大于趋势方程中的项数,且研究区内采样点的分布应可能地均匀。通常区域的边界外不再有数据点,致使边界附近的趋势分析精度较差,称“边界效应”。将研究区趋势分析结果外推至研究区外都会有很大的误差,趋势面的次数越高,外推所产生的误差也越大。解决“边界效应”的办法是“扩边”,即在采样区适当扩大到边界以外。(4)趋势面正规方程的系数矩阵中各列元素的量级差异很大(各行也一样)。由(4.22)式知,对于m次趋势面分析,正规方程系数矩阵中最后一列元素的量级为第一列元素的量级的m次方,若原始坐标值的量级较大,趋势面次数较高,则系数矩阵中第一列元素相对于最后几列元素太小,矩阵的行列式接近于零,称系数矩阵是病态的,这给正规方程解的精度带来了较大影响。§5 判别分析1、判别分析能解决哪一类地质问题?它与聚类分析有何不同?18\n答:我们常需要根据个体的某些特征或指标来判别其属于已知的某几个类中的哪一类,例如在环境调查中我们需要测定某个水样的多项指标,据以判断是属于严重污染、轻度污染抑或是无污染水体;在地质工作中,我们要根据岩石的某些特征,如密度、各种常量和微量元素的含量来判断其岩石类型,判断是含矿岩体和非含矿岩体;医生则要根据病人的各种检测结果来判断其病人得了何种疾病。个体(样品)的分类问题,称为Q型聚类分析,我们是根据个体间特征(多项指标值)的相似程度性程度加以归类。而判别分析是已知存在若类,已知有g个类(统计学上称总体或母体)Gk,k=1,2,…,g。在已知的这g个类中分别采nk个样本,对其特征进行统计分析,比较各自的差异,建立判别方程,以判别其它未知属性的样品的归属聚类分析和判别分析有相似的作用,都是起到分类的作用。但是,判别分析是已知分类然后总结出判别规则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。所以,聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果2、简述费歇尔准则下两类判别分析的基本思想。答:费歇尔的判别方法,其基本思想是把p个变量x1,x2,…,xp综合成一个新变量y, 也即产生一个综合判别指标,要求已知的g个类Gk,k=1,2,…,g在这个新变量下能最大程度地区分开,于是可用这个综合判别指标判别未知样品的归属。其中为待定参数。判别方程除没有常数项外,与回归方程非常相似,但两者有着本质的区别。在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。3、比较费歇尔准则下的两类判别方程与回归方程的异同。为什么判别方程中不需要常数项?答:除没有常数项外,与上一章讨论的回归方程非常相似,但两者有着本质的区别。在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。4、名词解释:先验概率,后验概率,逆概率公式答:任抽取一个样,恰抽到Gk类的概率,记为,此时尚不需要知道抽取的是一个什么样的样本,即不需要知道该样本的p个变量的测试值,其属于某个类的概率具有先验的意思。一旦知道了该样本的p个变量的测试值,则其属于某个Gk类的概率称之为后验概率。在概率论中我们有称之为逆概率公式,其中为在已知属于Gk类的条件下得到x的条件概率。5、简述贝叶斯准则下多类判别分析的基本思想。答:设已知有g个类Gk(k=1,2,…,g),可由p个变量xj(j=1,2,…,p)表征。在这g个类中共抽取n个样本,其中抽到Gk(k=1,2,…,g)类的样本数为nk(k=1,2,…,g),显然有我们称 (5.10)为Gk类的先验概率,在概率论中我们有18\n称之为逆概率公式,其中为在已知属于Gk类的条件下得到x的条件概率。我们现在的目的是要比较在所有g个后验概率中,那个最大,从而确定其样本归属,因此只需要知道(k=1,2,…,g)的相对大小,上式中分母为一常数项,相对大小由 (k=1,2,…,g) (5.11)确定。依后验概率的相对最大值判定样品归属的准则称之为贝叶斯准则。 设类(母体)Gk服从多元正态分布(k=1,2,…,g),则其概率密度函数为 对(5.11)式求对数得 上式推导过程中已用到了协方差矩阵S(因而S-1)为对称阵的性质,所以有。上式右侧前两项与k无关,所以后验概率的相对大小可由下式给出 各母体Gk的均值mk的无偏估计的各母体的样本均值,而因假设各母体具有相同的协方差阵S,则判别函数成为 (5.12)对于未知样本x,由判别函数(5.12)yk(x),设最大值为yl(x),即 则将x归属Gl类。§6 因子分析1、简述主成分分析的基本思想。答:将多个变量综合成为少数的因子,也就是在较少损失原始数据信息的前提下,用少量的因子去代替原始的变量,从而达到对原始变量变量的分类,揭示原始变量的内在联系主成分分析(principalcomponentanalysis)是将多个指标约简为少数指标的一种统计方法。设有n个样品,每个样品测得p个指标。如何从p个指标中找出很少几个综合性的指标,并能尽可能地反映原指标的变化性,称为主成分。2、名词解释:因子得分、因子载荷答:因子载荷:设对研究对象的n个样品测试了p个变量x1,x2,…,xp,可认为这p个变量共同起因于q因子(即因素)f1,f2,…,fq。假定这q个共因子(可理解为新的变量)对每个指标(变量)的影响或作用是线性的(我们总是讨论线性模型),则可表示为18\n (6.11)或 (6.12)其中f是的随机向量,u是的随机向量,A是的常数矩阵,且要求(1),事实上,一般共因子数总是要小于原始变量数(2)各共因子相互独立(即正交)并规一化到方差为1,即有(3)单一因子相互独立(即正交)并规一化到方差为1,即有(4)单一因子与公因子之间也相互独立,即有则称x具有因子结构,(6.12)式称为x的因子模型。系数ajk(j=1,…,p,k=1,…,q)为变量xj在公因子fk上的因子载荷(factorload),系数矩阵A=(ajk)称为因子载荷矩阵。3、给定因子载荷矩阵,分析变量共生组合特征。答:因子载荷矩阵见上边第二题。变量共生组合特征的分析见课件实例对于给定的因子载荷矩阵,每一列向量中,系数较大的一些元素为共生组合,因此可得出第一主成分和第二主成分等。4、简述变量共生组合的主要方法。答:Q型聚类分析,R型聚类分析,因子分析5、比较主成分分析与判别分析的基本思想<<主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。其基本思想是:设法将原来众多具有一定相关性的指标(设为个),重新组合成一组新的相互无关的综合指标来代替原来指标。数学上的处理就是将原来个指标作线性组合,作为新的指标。第一个线性组合,即第一个综合指标记为,为了使该线性组合具有唯一性,要求在所有的线性组合中的方差最大,即越大,那么包含的信息越多。如果第一个主成分不足以代表原来个指标的信息,再考虑选取第二个主成分,并要求已有的信息不出现在中,即 主成分分析(principalcomponentanalysis)是将分散在一组变量上的信息集中到某几个综合指标(主成分)上的探索性统计分析方法。以便利用主成分描述数据集内部结构,实际上也起着数据降维的作用。<<聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。聚类分析根据对象不同可分为Q型聚类分析(对样本进行聚类)和R型聚类(对变量进行聚类)。 对样品或变量进行分类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离常用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。18