计算机视觉Cha 46页

  • 3.59 MB
  • 2022-08-30 发布

计算机视觉Cha

  • 46页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
计算机视觉王宾西北大学信息学院20061computervision\n计算机视觉图像处理--〉图像分析--〉图像理解边缘、轮廓、纹理、颜色、二值图像、深度、二维、三维、运动、跟踪、识别、生物特征识别……直方图、彩色表示、数据结构、预处理、分割、特征表示、统计或结构模式识别、神经网络、模糊系统、人工智能、数学形态学、离散线性变换、图像数据压缩、光流、最小均方误差滤波器……2computervision\n第一章计算机视觉概述1.1什么是计算机视觉1.2人类视觉1.3视觉的计算理论1.4计算机视觉的研究内容与问题1.5计算机视觉的应用领域1.6计算机视觉与人类视觉的关系1.7成像几何基础3computervision\n第一章计算机视觉概述1.1什么是计算机视觉使计算机具有像人那样的视觉功能人类的各种感官系统中,视觉信息占到人类能获取信息量的80%。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要对图像信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起是人工智能的一个分支4computervision\n是重大挑战(grandchallenge)将对国民经济和国防建设各方面产生重大影响计算机视觉是一门综合性的学科其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经心理学和认知科学等5computervision\n计算机视觉应用与发展工业自动化非接触性工件校验和质量控制在线检测(钻孔、尺寸、产品质量)机器人导引移动机器人导航装配机器人的工件获取和安放人机交互(接口)无所不在计算机通信的无所不在,使人机交互无所不在(人的各种生物特征)6computervision\n人机交互人脸的检测、定位、跟踪、识别人脸建模和动画,虚拟人像人体运动检测和跟踪手势识别(Ok…)事件的检测和识别(人在做什么,有什么事发生)与人机交互相关的领域基于内容的信息检索视频监控(visualsurveillance)基于对象的视频压缩游戏、娱乐7computervision\n多模态生物特征融合音视频特征关联模型多模态生物特征数据库多层级融合策略与框架生物特征鉴别平台生物特征识别(BiometricRecognition)8computervision\nFaceDetection:在输入图象中确定所有人脸的位置、大小、姿态FaceTracking:在输入图象序列中确定某个人脸的运动轨迹及大小变化FaceDetection&FaceTracking多角度人脸检测人脸跟踪9computervision\nMotionObjectTracking基于颜色分布模型以及块模型等信息进行多人场景下的多目标跟踪:复杂背景下的人体跟踪多个人之间存在遮挡的人体跟踪在有干扰、非均匀光照的情况下有很强的鲁棒性基于卡尔曼滤波的人脸跟踪是在复杂场景下实时地跟踪人脸,是进一步的表情识别、体态分析等工作的基础10computervision\nFaceModeling是根据各种输入(尤其是二维图象)创建三维动画人脸的过程FaceAnimation是在动画流参数、文本输入、以及特定人动画视频的驱动下使人脸模型进行动画的过程FaceModeling&FaceAnimation二维视频三维动画模型11computervision\n可视语音指与语音相伴的可视发音器官状态。可视语音合成需要人脸模型及变化过程。参数控制的可视语音合成系统中,关键是建立一个能够有效描述发音器官运动规律的视位模型,生成逼真的动态视位参数;数据驱动的可视语音合成系统中,关键是针对复杂的协同发音环境建立合理的相似性度量准则,并从多个角度考虑选择最佳的视位图像样本。TalkingHead12computervision\nHandGesturesApplication13computervision\n标准工件尺寸测量14computervision\n1.2人类视觉视觉是人类最重要的感觉敏感(sensation)-感觉(perception)-认知(cognition)感觉是人的大脑与周围世界联系的窗口人类认识外界信息的80%来自视觉视觉在各种感觉中占支配地位视觉是思维的一种最基本的工具视觉和听觉中的形状,色彩,运动,声音被结合成各种明确的和高度复杂,多样化的空间和时间的组织结构.为理智活动提供了媒介和环境形象思维,心理意象,记忆15computervision\n1.2人类视觉视觉是复杂的信息处理过程视觉中的各种恒常性:大小,亮度和颜色,运动恒常性视觉思维视觉器官——眼睛接受外界的刺激信息,而大脑对这些信息通过复杂的机理进行处理和解释使这些刺激信息具有明确的物理意义16computervision\n人类视觉的特殊性17computervision\n人类视觉的特殊性18computervision\n人类视觉的特殊性19computervision\n视觉理解的任务:发现景物中有什么物体,它们的形状和材料是什么,它在什么地方,他在干什么20computervision\n背景与物体(前景)的分割,人脸图象的检测,人脸识别,表情的识别,手势的识别21computervision\n1.3视觉的计算理论22computervision\n1.3视觉的计算理论Roberts视觉理论积木世界马尔(Marr)的视觉计算理论Marr视觉理论的地位Marr视觉理论的三个层次视觉表示框架23computervision\n1.3.1Roberts视觉理论Roberts视觉理论(积木世界)20世纪60年代,Roberts通过程序从图像中提取出了诸如立方体、锲形体、棱柱体等三维结构。对物体形状及物体的空间关系进行了描述开创了以理解三维场景为目的的三维机器视觉由这些基本元素构成的三维场景犹如积木一样,故称为积木世界后来,推广到线条、平面、曲面等几何要素的分析,将积木世界推广。24computervision\n现实场景的三维模型提取25computervision\n由基本的三维模型组合成三维场景26computervision\n1.3.2Marr视觉计算理论20世纪70年代末,DavidMarr教授在MIT的AI实验室创建了计算机视觉研究领域中的一个重要的理论框架。Marr视觉计算理论立足于计算机科学,系统包括心理生理学、神经生理学等已取得的重要成果,是视觉研究迄今为止最为完善的视觉理论。Marr建立的计算理论,是计算机视觉研究有了一个比较明确的体系,并大大推动了计算机视觉研究的发展。27computervision\n1.3.2Marr视觉计算理论Marr视觉计算理论分三个层次第一个层次是计算理论层研究的是对什么信息进行计算?为什么要进行这些计算?为什么这一计算是合适的?第二个层次是表示和算法层如何进行所要求的计算,也就是要设计特定的算法?输入和输出的表示是什么?表示与表示之间的变换是什么?第三个层次是硬件实现层在物理上如何实现这些表示和算法?28computervision\n视觉表示分三个框架第一个阶段是早期阶段将输入的原始图像处理,抽取图像中的诸如角点、边缘、纹理、线条、边界等基本特征。基元图第二个阶段是中期阶段以观察者为中心的坐标系中,由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓。2.5维图第三个阶段是后期阶段以物体为中心的坐标系中,由输入图像、基元图、2.5维图来恢复、表示和识别三维物体。三维图29computervision\n30computervision\n1.4计算机视觉的研究内容与问题1.4.1研究内容输入设备成像设备:光学摄像机、红外、X射线等数字化设备:数字扫描仪,CT成像设备低层视觉原始图像的处理,如图像滤波、图像增强、边缘检测等,提取出如角点、边缘、线条、颜色等场景中的基本特征。图像变换、图像纹理检测、图像运动信息31computervision\n1.4计算机视觉的研究内容与问题中层视觉恢复场景中的深度、表面法线方向、轮廓的2.5维信息实现途径:立体视觉、测距成像、运动估计等高层视觉以物体为中心的坐标系中,在原始图像、2.5维图像基础上,恢复完整的三维信息体系结构依据系统模型而不是实际设计的具体例子来研究系统的结构,即模型化(高度抽象)32computervision\n1.4计算机视觉的研究内容与问题1.4.2面临的问题图像多义性:多视角不同的三维物体投影成同一个二维图像33computervision\n1.4计算机视觉的研究内容与问题1.4.2面临的问题环境因素:场景中如照明、物体形状、表面颜色、不同摄像机以及与物体之间的关系。知识引导:同一图像在不同的知识引导下,会产生不同的识别结果。大量数据:512*512的灰度图像数据为256k;同分辨率的彩色图像为768k;再加上深度信息,图像的数据量是巨大的。如果是对视频处理,数据量就更大。34computervision\n1.5计算机视觉的应用领域零件识别与定位工业、农业产品检验机器人导航卫星、遥感图像分析医学图像分析视频监视与跟踪国防应用系统35computervision\n1.6计算机视觉与人类视觉的关系目前的机器视觉系统只适用于某一特定环境或应用场合,而要建立一个可与人类的视觉系统相比拟的通用视觉系统是非常困难的。主要原因:图象对景物的约束不充分(缺少深度信息)多种因素在图象中相互混淆理解自然景物要求大量知识人类视觉理解过程难以为机器视觉提供指导(人类不能自省视觉的过程)36computervision\n1.6计算机视觉与人类视觉的关系生物视觉系统是生存竞争中进化的产物,带有由此而来的优点和局限性。人类视觉系统具有高分辨率,有立体观察、优越的识别能力和灵活的推理能力,可灵活地根据各种视觉线索进行推理。37computervision\n1.6计算机视觉与人类视觉的关系人类视觉系统首先是以物体的刚性运动作为假设,但又不完全是刚性,由此会产生一些误导。机器视觉系统的设计不一定完全按照人类视觉来设计。一部分正在膨胀,另一部分正在收缩38computervision\n1.7成像几何基础一般的成像系统通常将三维场景变换成二维灰度或彩色图像,可以用映射来表示:常用的三维空间到二维空间的映射关系透视投影变换正交投影变换39computervision\n1.7成像几何基础1.7.1透视投影(PerspectiveProjection)透视投影成像是所有来自场景的光线均通过一个透镜中心表示的投影中心,可以用一个小孔成像模型近似表示。40computervision\n1.7成像几何基础1.7.2正交投影(OrthogonalProjection)正交投影成像是用平行于光轴的光将场景投射到图像平面,也称为平行投影(ParallelProjection)。41computervision\n1.7成像几何基础1.7.2视觉系统坐标系像素坐标:图像阵列中图像像素的位置;图像平面坐标:场景点在图像平面上的投影;摄像机坐标:以观察者(或摄像机)为中心的坐标,将场景点表示成以观察者为中心的数据形式;场景坐标:绝对坐标(或世界坐标),用于表示场景点的绝对坐标。42computervision\n1.7成像几何基础几种坐标的图示:图像平面坐标摄像机坐标场景坐标像素坐标43computervision\n1.7成像几何基础像素坐标:原点[0,0]在左上角,x指向右方,y指向下方;图像平面坐标:m*n的图像,图像平面坐标中心在,x’表示列数增加方向,y’表示行数减小方向;摄像机坐标:用(x,y,z)表示,多个摄像机有各自不同的摄像机坐标;场景坐标:用(X,Y,Z)表示,只有一个场景坐标(或世界坐标)。44computervision\n当前计算机视觉研究的特点服务于人机交互(HumanComputerInteraction)人脸,手势识别与合成,虚拟人与通信和信息检索结合基于内容的图象和视频检索与多媒体技术的结合视频和图象的压缩(MPEG4,MPEG7)多种媒体媒体信息的结合与计算机图形学的结合基于图形的绘制45computervision\n思考与练习(P141.2)在使用计算机时,当鼠标的光标在屏幕上而你又一时找不到时,请问通常采取什么办法立即找到?为什么?说明人类视觉与机器视觉的不同与联系?46computervision

相关文档