- 116.60 KB
- 2022-08-29 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学习理论统计学习理论是一种机器学习的方法,也就是为机器学习服务的,首先我们有个一学习机器LM。学习机器学习的对象是什么,我们称这个对象叫做训练器S,学习机器又是如何学习的,是通过观测训练集,产生器G根据分布函数F(x)随机独立产生输入数据x,通过训练器S中算子训练之后,产生样本z1x1,y1、z2x2,y2…….我们称依据联合分布函数F(x,y)=F(x)F(y|x)随机产出的数据集Z叫做训练集,而学习机器则是学习训练器S的这个训练过程或是学习出这个目标算子。学习机器有两个追求的目标:1.模仿训练器的算子:对训练器输出提供最佳的预测结果;2.辨识训练器的算子:试图构造一个非常接近于训练算子的算子。模仿更加简单易于解决,而我们的目标是构造一个算子,从形式上看,他的意义是学习机器可以通过构造一个机器来实现某一固定函数集,在学习过程中,它从函数集中选取一个适当的函数。\n那么如何选取到适合的函数,我们必须找到一个规则目标,也就是一个品质标准,我们用它来评价学习的优劣。问题便转到了在函数集中找到一个以最佳可能方式满足给定的品质准则的函数。我们定义一个损失函数:Lz,gz,α=Qz,α来度量学习机器的输出与训练器的输出之间的偏差,我们希望对于所有的产生器产生的样本,学习机器的响应和训练器的响应都是一致的,为此我们定义一个泛函:Rα=Qz,αdFz,a∈Λ并将泛函定义为数学期望,这一泛函称为风险泛函或风险,其最小值对应于最好的品质标准。所以问题转到如何最小化泛函R(α)的问题,由于分布F(z)未知,我们无法直接进行最小化,在模式识别问题上,我们知道损失函数是0,1函数,即是两点分部,损失等于概率p,由此我们想到大数定理,在样本数大的情况下,频率是逼近于概率的,依此我们想到用经验数据的损失均值来代替泛函的期望,我们定义经验风险:Rempα=1lllQzi,α,α∈Λ假设风险泛函的最小值在Q(z,α0)上取得,经验风险泛函的最小值在Q(z,αl)上取得,\n我们将Q(z,αl)作为Q(z,α0)的一个近似。解风险最小化问题的这一原则称为经验风险最小化(归纳)原则。为此我们需要研究经验风险最小化原则的一致性条件,我们给出一个经典定义,对于函数集Qz,α,α∈Λ和概率分布函数F(x),如果下面两个序列依概率收敛于同一极限:RαlPinfα∈ΛRαRempαlPinfα∈ΛRα则我们称经验风险最小化原则是一致的。然而经典定义中会出现一致性的平凡情况,也就是这个一致性特性是由函数集中个别元素的性质所得到的,我们为了建立经验风险最小化方法的、不依赖函数集元素的性质而仅仅依赖函数集的一般性质的一致性理论,我们调整之后定义了严格一致性定义。如果任何非空子集Λc,c∈(-∞,+∞)Λc=α:Qz,αdFz≥c使得收敛性infα∈Λ(c)RempαPinfα∈Λ(c)Rα则,称经验风险最小化方法是严格(非平凡)一致的。\n对于经验风险最小化方法的严格一致性,它的充分必要条件是在给定的函数集上单边一致收敛性成立:liml→∞Psupα∈ΛQz,αdFx-1li=1lQzi,α>ε=0推广到双边一致收敛:liml→∞Psupα∈ΛQz,αdFx-1li=1lQzi,α>ε=0双边一致收敛单边一致必然收敛,即双边一致收敛更为严格。为了估计经验风险最小化原则的推广能力,我们必须知道函数Q(z,αl)提供多大的风险值,对于一个给定的函数集,这一风险值接近最小可能风险值的程度如何。即研究这样两个界:Rαlε=0从关于学习机器推广能力的界:Rαl