计算机应用专业 20页

  • 190.54 KB
  • 2022-08-30 发布

计算机应用专业

  • 20页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
毕业论文任务书河南省高等教育自学考试河南科技大学毕业设计(论文)题目:基于BP网络的字符识别技术姓名:王能准考证号:010311100327专业:计算机多媒体指导教师:高勇2013年3月30日I\n河南科技大学毕业论文高等教育自学考试毕业设计(论文)任务书一、题目:基于BP网络的字符识别技术二、时间:2012年12月15日起至2013年3月31日三、进行地点:郑州大学四、内容要求:书写作为一直以来收集信息、存储信息、和传播信息的最主要方式,不但对于人与人的交流起着很重要的作用,而且对于人与机器的信息交流起着至关重要的作用。人们之所以在字符识别领域投入大量的研究,不只是因为在计算机模拟人类阅读时遇到的挑战,还因为字符识别提供了很多很有效的应用,自从数字计算机发明以来,机器模拟人类的各种行为功能已经成为一种具有挑战性的研究领域。在一些领域,已经获得了大量的成就,例如数字分解、象棋游戏等。但是在一些相对常规的功能上,计算机仍然表现的没有人类那么好,例如机器视觉。在过去的30年里,人们做了大量的关于计算机模拟人类阅读和理解的研究,但是结果仍然与预期的相差很远。指导老师:高勇职称:讲师批准日期:2012年12月10日III\n河南科技大学毕业论文摘要字符识别技术作为模式识别的一个重要领域,在很多方面有着极其重要的应用,特别是在数字图书馆、手写输入系统、多媒体数据库等领域。本文是通过BP网络对机器打印字符和单词进行识别。首先产生52个英文大小写字符图像的训练集,训练集的选取直接影响到最终网络训练的质量。在本文中我们对这52个英文大小写字符进行加噪声处理,使这52个字符的图像具有多种不同种类不同噪声强度的噪声,每个字符产生了15组训练集。接着利用这些训练集对BP网络进行训练,调整训练函数、隐含层节点数、学习率等参数使训练出来的网络具有较好的收敛性能。然后利用训练好的BP网络对单个字符进行识别。由于有的字符具有一定噪声强度的椒盐噪声,本文利用适应谱滤波器对存在椒盐噪声的字符图像进行降噪声处理,然后利用训练好BP网络进行识别,实验结果表明,对于具有椒盐噪声强调低于0.03的字符图像的识别正确率为100%。在完成对单个字符的识别之后,本文开始对单词进行识别。因为对单词进行识别的最关键的一步是对单词进行有效地分割,所以本文着重点放在了如何对单词进行分割上,当单词被有效地分割成单个离散的字符之后,利用训练好的BP网络对每个字符进行识别,也就完成了单词的识别。在本文中,我们采用可变窗口技术,抓住机器打印字符之间存在空隙的特征,通过矩阵分割成功有效完成了对机器打印字符的分割。最后,针对BP网络存在的问题,列出了可以改进的方案。关键词:BP网络;模式识别;字符识别;字符分割III\n河南科技大学毕业论文目录1.绪论11.1课题背景11.2目的和意义11.3本课题的现状及发展趋势22.系统设计22.1字符识别系统22.1.1预处理32.1.2分割42.2人工神经网络72.2.1人工神经网络介绍72.2.2人工神经网络在模式识别中的应用82.3BP网络介绍93.结论与展望113.1结论113.2展望12致谢14参考文献15III\n河南科技大学毕业论文基于BP网络的字符识别技术1.绪论1.1课题背景模式识别是对客观世界中物体和过程进行分类、描述的学科。图像是模式的一种,图像理解和机器人视觉中使用了很多模式识别的概念和方法,图像理解中的匹配与模式识别的关系尤为密切,两者相互交叉,不可分割。因此,模式识别技术的不断发展对图像理解和机器人视觉的发展起着重要的支持作用。目前,对图像模式的识别主要集中在对图像中感兴趣的内容(目标)分类、分析和描述。模式识别的方法有:统计模式识别。统计模式识别指根据模式统计特性用一系列自动化技术将给定模式赋值和分类,它建立在经典的决策理论之上。统计模式识别先使用一个由一组己知类别的模式构成的训练集获取决策函数参数,再用这个决策函数构成的分类器对模式进行识别。常见的分类器有:最小距离分类器、最优统计分类器等。结构模式识别。结构模式识别也称句法模式识别,它基于形式语言理论。实现结构模式识别需要定义一组模式基元,一组确定这些基元相互作用的规则和一个识别器(自动机)。其中,规则是以文法形式给出的,识别器的结构则由文法规则确定。常见的结构模式识别有字符串结构识别、树结构识别,两者均有自身的文法和自动机。模糊模式识别。它以模糊数学理论为基础。模糊数学是用数学的方法研究和处理“模糊性”现象的数学,它提出了隶属度的概念,把数学从二值逻辑推向连续逻辑,更接近人类的思维形式,隶属函数的数值协助完成对不完整或有缺损知识的估计,并具有较强的推理能力。模糊数学所具有的特点,使模糊模式识别得到了长足进展。目前,模糊模式识别的方法主要有隶属度原则识别法、贴近原则识别法、模糊聚类分析法,不同的方法可应用于模式识别的不同方面。人工神经网络模式识别。人工神经网络表现出类似人脑的学习分类能力以及并行和分布处理方式,可用作非参数分类器,逐渐成为进行模式识别的有效工具,并使传统的模式识别方式受到巨大的挑战和冲击。1.2目的和意义自从数字计算机发明以来,机器模拟人类的各种行为功能已经成为一种具有挑战性的研究领域。在一些领域,已经获得了大量的成就,例如数字分解、象棋游戏等。但是在一些相对常规的功能上,计算机仍然表现的没有人类那么好,例如机器视觉。在过去的30年里,人们做了大量的关于计算机模拟人类阅读和理解的研究,但是结果仍然与预期的相差很远。在计算机模拟人类阅读和理解中最关键的一步之一就是对字符进行识别(Character第页共15页14\n河南科技大学毕业论文Recognition)。此外,字符识别在其他领域也有着极其重要的应用,特别是在最近刚刚发展起来的一些应用领域,例如:数字图书馆,多媒体数据库和一些手写输入系统,字符识别显得尤其重要。字符识别的质量在很大程度上影响着这些领域的发展,从而影响着信息的发展与进步。1.3本课题的现状及发展趋势书写作为一直以来收集信息、存储信息、和传播信息的最主要方式,不但对于人与人的交流起着很重要的作用,而且对于人与机器的信息交流起着至关重要的作用。人们之所以在字符识别领域投入大量的研究,不只是因为在计算机模拟人类阅读时遇到的挑战,还因为字符识别提供了很多很有效的应用,例如:大量论文的自动处理,将数据转化成机器可以识别的语言,网络界面到论文文献的转化等。字符识别系统经历了三个历史阶段:1900-1980早期时代:字符识别最早可以追溯到1900年,当年俄罗斯科学家Tyuring试图寻找一种帮助视觉障碍的人的方法[1]。随着计算机的发展,在上世纪40年代中期出现了第一个字符识别系统[2]。早期的字符自动识别研究放在了打印文本或者非常容易分辨的手写文字或者符号。打印字符的识别主要用在模板匹配上,比如一个图像跟图像库里面的图像进行匹配。手写文本中,图像处理技术被用于获取二值图像的特征向量,这些带来了统计分类器的发展。关于截止到1980年的字符在线识别的发展可以参考[3]。1980—1990发展时期。到1980年以前的字符识别的发展受到计算机本身计算能力的限制。随着计算机信息技术的发展,字符识别技术的发展也非常迅猛[4][5][6]。除了先前出现的统计方法外,出现了结构化方法[7][8]。1990年后进步。上世纪90年代初,图像处理和模式识别跟人工智能有效地结合在一起。人们发展了复杂的字符识别算法。现在除了计算机本身计算能力的提高以外,人们提出了一些字符识别的非常有效的算法,例如神经网络(NNs),隐马尔可夫链(HMMs),模糊集推理,和自然语言处理。现在的系统对于机器打印的离线字符[9],词汇有限,用户依赖型在线手写字符[10][11][12]的识别已经非常有效。但是,实现能让机器像人一样能够非常流利地阅读,特别是对于无约束的在线和离线字符的识别的最终目的仍有一段非常长的路要走。字符识别作为一个非常重要的研究领域,其识别质量局限主要取决于:数据获取过程:在线还是离线;字符类型:机器打印还是手写。但是不管字符获取过程是在线还是离线,字符是机器打印还是手写种,2.系统设计2.1字符识别系统第页共15页14\n河南科技大学毕业论文字符识别系统中的普遍处理流程主要有以下五步:预处理、分割、重现、训练与识别、后加工。下面对这五步分别进行简单地介绍。2.1.1预处理预处理的目的是把原始的粗糙的数据进行处理以产生容易被字符识别系统精确操作的数据。由于原始图像的质量可能达不到目标识别的要求,需要对图像进行预处理,目的是改善原始图像的效果,提高感兴趣区域的清晰度。它主要包括图像的去噪、增强和压缩,三者都可在时域和频域上进行处理。输入数据的噪声来源主要是由输入设备,例如光学扫描设备,手写输入装置等,引起的线弧,线条间的缺口,填充的环等。噪声在时域中表现为原本均匀和连续变化的灰度突然变大或减小;而反映在频域上是一种具有较高频率分量的信号。图像去噪的方法主要有以下三种主要的。滤波:滤波器可以用来平滑,锐化,阈值化,滤掉带有轻微质地或者颜色的背景,还可以起到对比调节度的作用。形态学处理:形态学处理的最基本原理是对图像进行过滤,过滤以后使原来的对和操作转换成逻辑操作。现有很多种形态学操作可以实现断开笔画的重新连接,平滑字符轮廓,去除没用的点,细化字符,获取轮廓。一般用在对质量比较差的纸或者墨水打印出来的字符的处理上。噪声模型:如果噪声的模型可以获取的话,噪声就比较容易去除了。不过一般的噪声很难找到其对应模型。但是我们可以通过对文档质量的评定来将噪声减少到一定程度,那么这也是非常可行的。图像增强的时域处理方法是对图像像素灰度值直接运算处理,包括灰度变换、直方图修正、时域平滑和锐化;频域处理方法是将图像变换到某种变换域中,对变换域系数进行运算后,反变换到时域中。归一化也是图像增强的重要手段。归一化的目的是减少输入字符之间的特征差异以获取标准的数据。主要的归一化方法有:偏一化和基线提取。由于扫描过程的不精确性或者书写风格的原因,所识别的图像中的字符可能发生倾斜或者弯曲。这些会在很大程度上影响识别的质量,所以要对这些字符进行纠正。基线提取的方法包括利用图像的投影侧面,利用Hough变换,神经网络等。斜归一化。一个衡量不同手写风格的重要因素是字符中最常的笔画跟垂直方向的倾斜角。倾斜归一化就是把所有的字符归一成标准的形式。倾斜估算的最常用的方法是计算出近临垂直元素的平均夹角。在中提到,一系列的Hough变换被用于从左到右扫描图像,然后计算出21个不同倾斜方向的投影。第页共15页14\n河南科技大学毕业论文尺寸归一化。用于把图像的尺寸归一化到固定的大小。在字符识别中,可以进行垂直方向的归一化,也可以进行水平方向的归一化。在中,字符被分割成很多区域,这些区域单独进行缩放。尺寸归一化也可以用于训练阶段,尺寸参数可以根据不同的特定训练集而定。在图中这两个字符被渐渐的归一化成优化的尺寸,最大化了训练集中数据的识别率。在字符识别中,为了避免较大的词的长度的同类差异(这在字符识别中对识别效果有所帮助),一般采用只是垂直方向尺寸归一化或者只是根据水平尺寸的归一化的缩放尺寸来实现垂直方向尺寸归一化。4)轮廓平滑:一般情况下,轮廓平滑减少了需要体现出字符特征的点数,因而提高了预处理的效率。经典的图像压缩技术把图像从空间域变换到频率域,但是这对于字符识别来说很不利。字符识别的压缩技术要求能保留字符轮廓信息的空间域技术。有两个比较流行的压缩技术:阈值法和薄化法。1)阈值法:为了减少存储所需条件和提高处理速度,一般将彩色图像和灰度图像转化为二值图像。转化时是通过对图像的像素值提供一个阈值,像素值大于阈值的变成1,小于阈值的变成0。有两种阈值方法:全局法和局部法。阈值全局法是对整个图像的所有点都采取同样的阈值。阈值的选取一般是在对图像背景分析之后做出的[35]。阈值局部法是对于不同的点采取不同的阈值。2)薄化法:当数据中存在大量的冗余信息时,薄化法可以使字符的轮廓信息体现的更明显。预处理技术在字符识别和图像处理方面都有很多的应用。需要注意的是以上的各种方法可能会影响数据质量,例如数据丢失重要的信息,从而引起文档图像的不可预知的扭曲。2.1.2分割图像分割技术在图像工程中占重要地位,它是计算机视觉和图像理解的最基本问题。其分割结果关键性地决定了图像处理系统高层模块的性能,如对图像的分析、理解、识别等。文档分割的目的是将字符分离开来,以增加字符的轮廓信息,获取高压缩低噪音的归一化图像。所谓分割就是按照一定的准则把图像分割成若干互不相交叠的区域,被分割的区域应满足同质性和唯一性。其中,同质性是指分割区域中每个像素点应具有相同的特性,如灰度、纹理、色彩等特性。唯一性是指分割区域的特性是唯一的,与相邻的其他分割区域存在明显的差异。分割算法的任务就是将图像划分为不同特性的区域,用所分割区域表示图像感兴趣的部分,为实现图像描述方法的转换和图像后续处理提供重要的依据。第页共15页14\n河南科技大学毕业论文分割技术有着极其重要的作用,所以在此做一下详细的介绍。分割的方法分为两种:外在分割—分割各种书写单元,例如段落,句子,单词;内在分割—分割字母,把单词中的各个字母分离开。外在分割:对于文档分析来说,外在分割是最关键的一步。虽然文档分析根据自己的方法和技术存在差异,但是把文档分割开来在光学字符识别中应用非常普遍。所以研究字符识别的话必须对文档分析有一个基本的整体把握和了解。页面层分析分为两个步骤,第一个是结构,主要集中在把文档分成文档单元,例如段落,行,单词等等。第二步是功能分析,是利用位置,大小和多种层法则去标识文档单元的不同功能,例如标题,摘要等。大量的方法都认为文档图像中的一个均一的区域是一个独特的区域。所以文档分割就来在文档图像中寻找这些独特的区域。其中在这方面做得比较好的有:Jain等人利用Gabor滤波器,Tang等人提出的方法是基于不规则标注[,Doermann利用小波多刻度分析。例外一些方法集中在研究文档图片背景像素或者利用页面中的空白区分均一的区域,包括X-Y树,基于像素的投影侧面,基于连接元的投影侧面,空白区域轨迹薄化空白区域。这些被归为从上而下的方式—利用用递归方式把文档分割成小的单元,最终分成单个字符。相反,另一种方式是从下而上—基于像素和连接元,把小的均一区域慢慢扩大。例如,Docstrum算法,它是利用k-紧邻聚类。还有的方法是将这两种方式有机地结合起来。内在分割:虽然在过去的一段时间里飞速发展,但是把对于书写潦草的文档分成单个的单词仍然是一个尚未能解决的问题。内在分割包含的方法有:明确的分割:这种分割是建立在字符相似属性上的,又称为解析,是在不利用特定轮廓信息类的基础上对图像的分析。明确的分割在不利用基于特征解析的算法的情况下,试图把单词分割成单个字符。所以分割出来的字符与文档内容的联系性不大。这种方法一般用于分割机器打印文档。其基本原则是利用可变窗口去分割字符。不明确的分割:这种分割策略是建立在识别基础上的。主要是根据预先定义好的类搜寻符合特征条件的字符,然后进行分割。分割的质量是建立在识别好坏的基础上的,包括语法和语义的正确率。大致分成两大类:基于隐式马尔可夫链的方法和基于非隐式马尔可夫链的方式。混合策略:将明确分割跟不明确分割有机的结合起来。2.1.3重现第页共15页14\n河南科技大学毕业论文图像的重现是识别系统中最重要的角色之一。简单情况下灰度图像或者二值图像被用到识别器上。但是在大多数情况下,为了减少复杂度和提高算法精度,更加稳定典型的重现是必须的。现在关于重现的方法有几百种,但是大致都可以分为三大类:全局变换和级数展开:连续信号系统一般包括的信息比需要重现的信息多。在字符识别系统中一般有下面几种变换和级数展开:傅里叶变换;Gabor变换小波变换Karhunen-Loeve展开统计重现:通过统计方法对文档图片进行重现能照顾到字符风格差异。在字符识别中统计重现方法有:区域法;交叉和距离;投影;几何和拓扑重现:字符的很多全局的或者是局部的特征都能通过几何拓扑特征重现出来。在字符识别中包括:提取和数出拓扑结构;衡量和估计几何属性;编码;图和树;总的来说,重现的主要目的是提取和选择特征集,以实现用最少的元素来达到最大的识别率。2.1.4训练和识别技术:同模式识别一样,字符识别系统也是将不知道的数据分配到预先定义好的类中。一般地,将字符识别系统中的训练识别技术分为四类:模型匹配;直接匹配;变形的模型和灵活性匹配;松弛匹配;统计技术;无参识别;参数识别;聚类分析;隐式马尔可夫链。第页共15页14\n河南科技大学毕业论文模糊集推理;结构技术;语法算法;图算法;神经网络;综合的字符识别技术。这里重点介绍一下神经网络。因为神经网路本身就有一些特性,这些特性使得神经网路在字符识别系统中作用重大。因为神经网络具有平行计算的性质,所以跟经典的计算相比神经网路计算就有较高的计算能力;因为神经网络具有适应性,所以神经网络可以根据数据的改变而做出调整,学习输入数据的特性。大多数神经网络风格跟统计模式识别方法等效。2.2人工神经网络2.2.1人工神经网络介绍人工神经网络(ArtificialNeuralNetwork,ANN),也称为神经网络(NeuralNetworks,NN)。即从生物学神经系统的信号传递而抽象发展而成的一门学科。在神经网络中,最基本的单元就是神经元。神经元由三部分组成:树突、细胞体和轴突。树突是树状的神经纤维接受网络,它将电信号传递给细胞体,细胞体对这些输入信号进行整合并进行阀值处理。轴突是单根长纤维,它把细胞体的输出信号导向其他的神经元。神经元的排列拓扑结构和突触的连接强度确立了神经网络的功能。形象的说,神经网络是由大量处理单元(神经元Neurons)广泛连接而成的网络,是对人脑的抽象、简化和模拟,反映人脑的基本特性。它能够通过学习过程从外部环境中获取知识,并且它内部的很多的神经元可以用来存储这些已经学到的知识。第页共15页14\n河南科技大学毕业论文神经网络技术的发展大致经历了三个时期,即40年代的初创期,70年代至80年代的过渡期,80年代后的发展期。该技术的成果正在广泛应用。目前,以视觉神经系统为中心的神经网络理论的研究正取得迅速的发展,它能够处理信号模式,并具有自组织、自学习、自适应的特点,它已经广泛地应用于众多领域,例如计算机科学、自动控制、专家系统、信息处理、模式识别等领域。其中模式识别是神经网络最有应用前途的领域之一。模式识别就是用计算机模拟人的感觉,对模式信息进行识别和分类。模式识别不仅涉及一系列计算机信息处理技术,而且涉及人类感觉与思维规律的探索。现代计算机对大量复杂信息进行处理中所展现的能力,初步显示了人脑的功能一.智能。在这些方面,神经网络模型以其崭新的思路,奇异的特性引起了人们极大的兴趣。图3-1是将生物神经元模型抽象成一个信号传递的数学模型。神经元的输入是信号P,经过一个累加器累加后的信号送入一个激活函数f,从而得到这个神经元的输出a。这个神经元的输出a同时又可以作为下一个或多个神经元的输入,从而将神经信号成网络分散状的传递出去。一个神经元可以接受多个输入,所以把神经元表示成为矢量、矩阵形式更容易去处理分析实际问题。2.2.2人工神经网络在模式识别中的应用在模式识别中,分类算法的选择将影响到识别率的高低,就分类器性能来说,Bayes分类器在理论上己被证明具有最优性能。但是,由于采用这种分类器设计要求预先给定各类的先验概率及类概率密度,这对样本分类问题来说比较困难,在经济上是不合算的。而神经网络分类器对于处理那些环境信息复杂、背景知识不很清楚、推理规则不明确的分类问题,具有明显的优越性。神经网络分类器通过对训练样本的学习,建立起记忆,然后对未知样本进行判断,将其划分到最接近的类别。神经网络用于模式识别,其作用与传统方法一样,起到分类器的作用,但神经网络分类方法与传统的分类方法是有一定区别的。传统的分类器包括两级:第一级的输入是用符号表示的n个输入元素的值,它们顺序地译码为有利于运算的内部形式。然后要设计出一种算法,以算出待识样本的匹配度。每一个模式样本应是该类模式的代表,而待识样本往往是以某种随机方式产生。因此,为使匹配度的计算简单,总是假设待识样本的分布形式具有某种函数形式。然后匹配度被顺序加载到分类器的第二级,并选出具有最大匹配度的类。在神经网络分类器中,第一级首先计算匹配度,然后将其送到第二级输出。在第二级中,类均有一个输出,并表现为仅有一个输出强度为“高”,而其余均为“低”。再反馈到分类器的第一级,用学习算法训练相应网络权值,重复上述过程,直至达到期望目标为止。在识别机理上,神经网络分类具有变换能力,大部分网络具有非线性变换能力,能够从模式对中完成特征抽取、识别分类。模式识别理论与神经网络理论是相互渗透的。这是因为神经网络由许多具有非线性映射的神经元组成,神经元之间通过权系数相连结。神经网络的信息分布存储于连结权系数中,使网络具有很高的容错性和鲁棒性,而模式识别中往往存在噪声干扰或输入模式的部分损失,神经网络的这一特性是其成功解决模式识别问题的原因之一。另外,神经网络具有自组织、自适应学习功能,只要待识别的模式具有一定的差异,网络就可以通过自适应聚类学习,从而识别出不同模式的类别,因此它在模式识别领域得到了广泛且成功的应用。由上所述,模式识别的神经网络方法与传统的方法相比,具有以下几个明显的优点:具有较强的容错性,能够识别带有噪声或变形的输入模式;具有很强的自适应能力;能把识别处理和若干预处理融为一体进行;采用并行工作方式,识别速度快。第页共15页14\n河南科技大学毕业论文综上所述,人工神经网络的自组织、自适应学习功能,大大放松了传统识别方法所需约束条件,使其对某些识别问题显示出极大的优越性。神经网络的学习能力和容错能力对不确定性模式识别具有独到之处,预示了人工神经网络用于模式识别有着巨大发展潜力。2.3BP网络介绍人工神经网络有好多种,比如径向基网络、BP网络,Hopfield网络等。BP网络是人工神经网络识别系统中使用最为广泛的网络。BP网络的信号采用正向传播:输入信号从输入层经过隐含层,传向输出层,在输出端生输出信号。这是工作信号的正向传播。在信号传递的过程中网络的权值是固定不变的,每一层神经元的状态只影响下一层神经元的状态。如果在输出层得到的输出和期望输出的偏差比较大,则转入误差信号的反向传播。即误差信号反向传播:网络的实际输出和期望输出的差值就是误差信号。误差信号的反向传播就是误差信号从输出端传向输入端。在这个过程当中,网络的权值由误差反馈进行调节。通过不断的修改网络权值从而使得网络的输出不断的逼近期望值。神经网络的激励函数。BP算法是在权重空间内寻找误差函数的最优解,所使用的方法是梯度下降法。因为需要计算出误差函数的梯度,所以必须保证所选取的误差函数必须是连续可微的。常用的基本激励函数有阈值函数、分段线性函数、Sigmoid函数。其中Sigmoid函数也称为S型函数,它是人工神经网络中用的最多的激励函数。S型函数的定义如下:其中常数c可以任意选取,1/c在随机神经网络中被称为是温度系数。S函数的形状会根据c的改变而改变。如图3-2所示:第页共15页14\n河南科技大学毕业论文图中显示了当c=1,c=2,c=3时的S函数的形状,当c越大时S函数越接近于步函数,当时S函数就变成了步函数,为了简化起见,我们选取c=1。对于的一阶导数为:Sigmoid函数的输出是在区间[0,1]上的,其中0和1只能近似取到。在BP网络中,输入初始权重和偏置。对于输入来说,其Sigmoid输出为:神经网络的反馈调节。在误差信号的反向传播中,网络不断的修正各个节点的权值。现在我们来分析一下一个具有n个输入和m个输出的前向反馈网络。假设训练集是,表示有p个输入输出对,其中是n维向量,第页共15页14\n河南科技大学毕业论文是m维向量。所以边的权重刚开始都是随机选取的实数。当向网络中输入时,网络的输出。网络的误差函数可以表示为:我们的训练网络的最终目的就是得到误差函数的最小值。当网络训练达到目的之后,当我们给网络一个输入(在训练集空间内)的时候,网络应该识别这个输入是否是跟其学习训练的时候的某个输入相似,并根据训练学习的结果给出对应这个输入的输出。BP算法就是用于寻找误差函数的局部最小解。网络开始的时候权值是随机选取的。误差函数的梯度计算出来,然后被用于更正前面的权值,使误差函数的值减小,直至达到我们想要的要求。我们的认为就是递归的计算误差函数的梯度。在求误差函数的最小值时采用梯度下降法,而且我们发现误差函数的变量只是权值个。的梯度值为:权重的更新规则为:,其中为学习常数,比如是一个在反向梯度方向定义每次迭代步长的比例因子。3.结论与展望3.1结论首先,我们对无噪声的字符进行识别,发现正确率为100%。然后,我们识别具有一定噪声的字符。在识别之前我们要对字符图像进行一些降噪声处理。因为我们采用的是RGB图像,识别时为了减少计算的复杂度,我们首先把它转化成灰度图,因为BP网络的输入是介于0和1之间的,所以我们要对图像进行二值化,转化成二值图像。如果图像存在很大的噪声的话,在此处理过程中就很容易在二值化的图像中使噪声的影响程度加大。所以在识别之前对字符图像进行降噪声的预处理非常重要。第页共15页14\n河南科技大学毕业论文这里为了说明降噪声的重要性,通过对原图像加入一定程度的椒盐噪声,然后通过适应性谱滤波器[51]对其进行处理。适应性谱滤波器工作原理是根据待滤波的图像的特征对其进行滤波。图a是具有噪声强度为0.1的椒盐噪声的RGB图像;图b是图a的灰度图;图c是图a的二值图像;图d是图b经适应性谱滤波器处理的灰度图;图e是图d的二值图。其中图c和图e分别是降噪声处理前后的将被用于BP网络识别的字符图像。可见,预处理之前的图像噪声非常大,被正确识别的难度大,对网络训练质量要求高,而图e特征分明,非常易于被识别。从这个过程比较我们可以很容易地发现对待识别图像进行预处理的重要性。我们用来识别的字符是具有不同程度噪声的的RGB图像,例如字符A的待识别图像如下:图4-4根据噪声强度从左到右图像编号1-83.2展望字符识别作为模式识别的一个特殊领域,在很多方面有着极其重要的应用。本文利用BP网络算法对机器打印字符进行识别,首先对BP网络进行训练,训练集的选取非常重要,为了抓住各个字符的主要特征,本文对每个字符选取15个样本进行训练,这15个样本具有不同种类和不同噪声强度的噪声。第页共15页14\n河南科技大学毕业论文训练好的网络对无噪声的字符图像识别正确率为100%。当字符图像具有一定的椒盐噪声时,首先对字符图像进行降噪声处理,本文应用的是适应性谱滤波器进行降噪处理。通过实验表明,当图像的椒盐噪声强度低于0.03时,训练的BP网络对其上的字符的识别正确率为100%,随着噪声强度的增加,BP网络的识别效果明显降低。在完成对机器打印的单个字符的识别之后,本文开始识别单词。在对单词的识别过程中,最关键的一步就是对单词进行有效合理的分割,使其分割成单个离散的字符,再利用单个字符识别技术分别对单个字符进行识别。由于是对机器打印单词进行分割,本文紧紧抓住机器打印单词存在的最主要特征—字符之间存在间隔,利用基本的矩阵分割技术,采用可变窗口技术成功对机器打印单词完成了有效的分割。实验结果表明,可变窗口技术也可以对字符大小存在较大差异的单词进行很有效地分割。本文最重要的地方有两个:一是在单个字符识别之前进行了有效的噪声处理,使训练好的BP网络可以较好地识别存在较大噪声强度的字符;二是采用可变窗口技术对机器打印单词进行非常有效地分割,不管是对字符大小统一还是对字符大小差异较大的单词的分割正确率都是100%。第页共15页14\n河南科技大学毕业论文致谢感谢学校在我学习期间所有老师交给我的知识,正是他们的谆谆教诲,使我的理论水平和知识结构有了很大的提高。我还非常感谢感谢同学和朋友对我的帮助、鼓励和支持!我还要感谢我的父母,是他们让我在漫长的人生旅途中使心灵有了虔敬的归依,而且也为我能够顺利的完成毕业论文提供了巨大的支持与帮助。在未来的日子里,我会更加努力的学习和工作,不辜负父母对我的殷殷期望!第页共15页14\n河南科技大学毕业论文参考文献[1].J.Mantas,“Anoverviewofcharacterrecognitionmethodologies,”PatternRecognit.,vol.19,no.6,pp.425–430,1986.[2].L.D.Earnest,“Machinereadingofcursivescript,”inProc.IFIPCongr.,Amsterdam,TheNetherlands,1963,pp.462–466.[3].C.Y.Suen,C.C.Tappert,andT.Wakahara,“Thestateoftheartinon-linehandwritingrecognition,”IEEETrans.PatternAnal.MachineIntell.,vol.12,pp.787–808,Aug.1990.[4].R.M.BozinovicandS.N.Srihari,“Off-linecursivescriptwordrecognition,”IEEETrans.PatternAnal.MachineIntell.,vol.11,pp.68–83,Jan.1989.[5].V.K.GovindanandA.P.Shivaprasad,“Characterrecognition—Areview,”PatternRecognit.,vol.23,no.7,pp.671–683,1990.[6].Q.Tianetal.,“Survey:Omnifontprintedcharacterrecognition,”VisualCommun.ImageProcess:ImageProcess.,pp.260–268,1991.[7].A.BelaidandJ.P.Haton,“Asyntacticapproachforhandwrittenmathematicalformularecognition,”IEEETrans.PatternAnal.MachineIntell.,vol.PAMI-6,pp.105–111,1984.第页共15页14\n河南科技大学毕业论文指导教师评语评语指导教师职称年月日答辩评语评语成绩答辩组长签字时间年月日

相关文档