• 13.58 MB
  • 2022-09-27 发布

视频监控中运动目标发现与跟踪算法研究

  • 101页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
中国科学技术大学博士学位论文作者姓名:余山学科专业:生物物理导师姓名:周逸峰教授马原野教授完成时间:二○○五年六月二日视频监控中运动目标发现与跟踪算法研究作者姓名:余山学科专业:生物物理导师姓名:周逸峰教授马原野教授完成时间:二○○五年六月二日作者姓名:余山学科专业:生物物理导师姓名:周逸峰教授马原野教授完成时间:二○○五年六月二日\n摘要摘要视频监控对于智能城市管理、打击违法犯罪以及建设平安城市与智慧城市具有重要作用。随着数字采集和存储技术的快速发展,视频监控系统得到迅速普及,目前已成为社会公共安全监控系统的核心组成。如今快速增加的摄像头覆盖了城市的每一个角落,带来了海量的视频数据。面对海量数据,传统的视频监控系统效率低下,对人力的消耗巨大,智能化成为视频监控必然的发展方向。如何自动发现和跟踪感兴趣的目标是智能视频监控中的基础性问题,是工业界和学术界关注的热点之一。但是,由于监控环境的复杂性,这些问题至今并没有得到很好的解决,仍具有巨大的研究价值。本文从智能视频监控的实际需求出发,围绕运动目标发现与跟踪展开深入研究,针对复杂环境提出了鲁棒的高效算法,弥补现有算法的不足。本文主要研究内容和创新成果如下:1.提出了一种SCBP特征和基于此特征的背景建模算法。该算法有两个突出优势:一方面,SCBP特征融合了颜色与纹理信息,对前景和背景的区分能力强,大幅提高了背景模型的灵敏性;另一方面,提出了一种有效的轮廓优化方法,克服了基于区域直方图的方法对目标轮廓检测不准确的缺点。实验结果表明,提出的背景建模算法对动态背景比较鲁棒,能同时获得较优的检测率与较低的误检率。2.提出了一种基于时空连续性约束的前景检测算法。视频数据在时间和空间上都具有高度的相关性,具体到前景检测问题,这意味着邻近的像素点倾向于具有相同的类别标签。传统的建模方法对时间和空间上的双重连续性缺乏考虑或考虑不够全面。提出的前景检测算法在马尔科夫随机场框架下,对像素点之间的时空连续性和特征与模型的相似性进行同步考虑,求得全局最优解。在不同背景模型下的实验结果均表明,该算法能显著提高前景检测的准确性。3.提出了一种基于部件的非特定目标跟踪算法。基于提出的矩阵模型,该算法成功的解决了传统基于部件的跟踪算法对目标的物理结构等先验信息的依赖问题。II\n摘要矩阵模型不理会目标的物理结构,直接将目标划分为若干图像块。每个图像块对应于目标的一个部件,用检测器和权重来描述。为了适应目标外观的动态变化,这两个属性都自动在线更新。通过矩阵模型和权重策略,所提方法有效地减轻了跟踪器的漂移问题。实验结果表明,提出的基于部件的跟踪算法能实时跟踪,且对光照、姿态、遮挡、运动等多种干扰具有良好的鲁棒性,跟踪性能优于其它算法。1.搭建了一个面向目标的监控视频检索的原型系统。基于上述的研究成果,我们搭建了一个监控视频检索的原型系统,为用户提供一种快捷方便的视频查询和回放服务。该系统以视频中的运动目标为检索对象,根据用户输入的查询图像,系统返回包含相似目标的视频段。最后,对全文工作进行了全面总结,并对下一步的研究方向进行了展望。关键词:视频监控,运动目标发现,背景建模,前景检测,目标跟踪,监控视频检索II\nABSTRACTABSTRACTVideosurveillanceisofgreatsignificanceforintelligenturbanmanagementandcrackingdowncrimestobuildasafeandsmartcity.Withtherapiddevelopmentofdigitalcamerasandstoragetechnologies,thevideosurveillancesystemsspreadrapidlyandhavebecomethemajorandcorecomponentofthemonitoringsystemforsocialandpublicsecurity.Nowadays,high-speedincreasingcamerashavecoveredeverycornerofcitiesandbroughtusvastamountsofvideodata.Undersuchcircumstances,intelligentvideosurveillanceisthemostpromisingdirectionincontrasttothetraditionaltechnologieswhicharelessefficientandlabor-consuming.Discoveringandtrackingpotentialtargetsautomaticallyfromunstructuredvideodataarebasicproblemsinintelligentvideosurveillance,andhaveattractedmuchattentionfrombothacademiaandindustry.Becauseofthecomplexityofapplicationenvironments,theseproblemsarestillfarfromsolved.Inthisdissertation,westudytheproblemsofdiscoveringandtrackingmovingobjectsfortheintelligentvideosurveillance,andproposeseveralmodelsandalgorithms.Mainachievementsandcontributionsarelistedasfollows:1.ProposedadynamicbackgroundmodelingmethodbasedonSCBPfeature.Thismethodtakesadvantagesfromtwoaspects.Ononehand,theproposedSCBPfeature,afusionofcolorandtextureinformation,isdiscriminative,thuscandistinguishforegroundfrombackgroundeasily.Ontheotherhand,weproposedanefficientmethodtorefinethecontourofobject,whichovercomesthedisadvantagethatregionbasedmethodsusuallycan’tdetecttherealcontourofobjectaccurately.Experimentshowsthatproposedmethodisrobusttodynamicbackgroundandachieveshighdetectionratealongwithlowfalsealarmrate.2.Proposedanalgorithmforforegrounddetectionbasedonspatio-temporalcontinuityconstraint.Therealwaysexisthighcorrelationsbothintimeandspaceinvideodata,whichmeansthatneighboringpixelstendtobeofthesamecategory,eitherforegroundorbackground.Traditionalbackgroundmodelingmethodstakeincomprehensiveconsiderationonthisproblem,ifnotneglect.Weproposedagenericspatio-temporalcontinuityconstraintframework.UsingMarkovrandomfieldmodel,wetakeintoaccountthecorrelationsbetweenadjacentpixelsintimeandspace,as92\nABSTRACTwellasthesimilaritybetweenfeaturesandbackgroundmodel.Thefinalforegroundisachievedbyglobaloptimization.Experimentsshowthatproposedalgorithmsignificantlyimprovestheaccuracyofforegrounddetection.3.Proposedagenericapproachtoreal-timepart-basedvisualtracking.Prioriknowledge,suchasasetofpartdetectorsandastructuremodel,isessentialandcriticaltotraditionalpart-basedmethods.Byusinganovelmatrixmodel,thisproblemissuccessfullysolved.Thematrixmodeldividestargetintoseveralnon-overlappingpatcheswhileignoringitsphysicalstructures.Eachpatchiscorrespondstoapartofthetarget,andisassociatedwithtwoattributes:adetectorandaweight.Tocapturethevariationsofobjects’appearance,theseattributesareupdatedonline.Bywayofthematrixmodelandweightstrategy,ourapproachalleviatedriftingproblemsignificantly.Experimentsshowthattheproposedapproachcanworkgenericallyinreal-timeandisrobusttoilluminationchanges,pose,occlusionandmotion.Itoutperformsothermethods.4.Basedonourresearchachievements,anobjectorientedvideosurveillanceprototypesystemisbuilt.Bytakingrealmovingobjectsinvideosassearchingtarget,itprovidesconvenientserviceforsurveillancevideoretrievalandplayback.Givenaqueryimagebytheuser,oursystemreturnsvideoscontainingsimilarobjects.Attheend,wemadeasummaryofthisdissertation,andprospectedthefurtherstudiesinthefuture.KeyWords:videosurveillance,movingobjectdiscovering,backgroundmodeling,foregrounddetection,objecttracking,surveillancevideoretrieval92\n目录目录摘要IIIABSTRACTIII目录III插图目录III表格目录III第1章绪论31.1研究背景与研究意义31.2本文研究内容31.2.1运动目标发现31.2.2目标跟踪31.2.3监控视频检索31.3国内外研究现状31.3.1运动目标发现31.3.2目标跟踪31.3.3视频检索31.4论文的结构安排3第2章动态背景建模与运动目标发现32.1引言32.1.1背景建模面临的问题32.1.2相关工作32.2融合颜色纹理信息的SCBP特征32.2.1LBP和CS-LBP算子32.2.2SCBP算子32.3基于SCBP的背景建模32.3.1背景模型32.3.2阈值学习32.3.3轮廓优化32.4实验与结果分析32.4.1特征区分能力392\n目录2.4.2运动目标检测32.4.3讨论分析32.5本章小结3第3章基于时空连续性约束的前景检测33.1引言33.2基于时空连续性的前景检测33.2.1相似度约束33.2.2空间连续性约束33.2.3时间连续性约束33.2.4最优化求解33.3实验与结果分析33.3.1区域纹理建模实验33.3.2基于像素的建模实验33.3.3讨论分析33.4本章小结3第4章基于部件的非特定目标跟踪34.1引言34.2相关工作34.2.1基于部件的跟踪算法34.2.2基于检测的跟踪算法34.3基于矩阵模型的目标跟踪算法34.3.1OnlineAdaBoost34.3.2矩阵模型34.3.3目标定位34.3.4模型更新34.3.5模型参数34.4实验与结果分析34.4.1实验数据及评价准则34.4.2鲁棒性测试34.4.3对比实验34.4.4讨论分析34.5本章小结3第5章面向目标的监控视频检索系统35.1引言392\n目录5.2系统功能介绍35.3系统内幕35.3.1数据35.3.2特征35.3.3索引与排序35.4未来走向35.5本章小结3第6章总结与展望36.1论文总结36.2未来研究展望3参考文献3致谢3在读期间发表的学术论文与取得的研究成果3攻读学位期间参与的科研项目392\n目录插图目录图1–1视频监控系统的发展历程3图1–2典型背景建模方法优缺点对比示意图3图1–3本文的结构安排3图2–1背景建模算法框架示意图3图2–2LBP算子(p=8)及CS-LBP算子3图2–3不同背景点的最优匹配相似度具有显著差别3图2–4轮廓优化示例3图2–5SCBP与LBP特征的分辨力对比3图2–6背景建模算法在wavingtrees上的效果对比3图2–7背景建模算法在Watersurface上的效果对比3图3–1基于数据与模型相似度的似然估计曲线1图3–2图像空间连续性约束强度3图3–3LBP模型下基于阈值和基于连续性约束的前景检测效果对比3图3–4高斯混合模型下基于阈值和基于连续性约束的前景检测效果对比3图3–5Vibe模型下基于阈值和基于连续性约束的前景检测效果对比3图4–1目标跟踪算法框图3图4–2OnlineBoosting学习框架[31]3图4–3矩阵模型示意图3图4–4权重随不遮挡变化示意图3图4–5参数(a)和参数(b)的取值测试实验结果3图4–6提出的基于部件的跟踪算法的鲁棒性测试3图4–7目标跟踪的视频截图3图4–8不同算法的AOR曲线对比3图5–1面向目标的视频检索系统框架3图5–2视频检索系统界面及演示3图5–3视频回放演示3图5–4利用草图进行检索3图5–5视频与提取的运动目标示例3图5–6提取目标的颜色直方图3图5–7系统采用的倒排索引结构392\n目录图5–8层次聚类的查找树3图5–9邻近哈希值查找算法3表格目录表格11TRECVID历年的研究任务3表格21Wavingtrees上不同建模算法性能的定量分析与对比3表格22Watersurface上不同建模算法性能的定量分析与对比3表格31基于时空连续性的前景检测实验所涉及的参数配置3表格41不同跟踪算法的性能对比3表格42不同弱分类器数目情况下跟踪算法的性能对比3表格51视频数据库相关参数392\n目录92\n第1章绪论第1章绪论视频监控是一项重要安全监控手段,对于智能城市管理、打击违法犯罪以及建设平安城市与智慧城市具有重大意义。随着数字采集、存储以及通信技术的快速发展,视频监控系统迅速普及,伴随而来的是海量的视频数据。面对不断增长的海量的视频数据,传统采集—存储—回放的方式效率低下,且对人力物力的消耗已超过人们所能承受的范围。在这种情况下,对智能化的视频监控技术的迫切需求使得相关课题成为机器视觉和模式识别领域的研究热点。一图胜千言,视频数据信息量极其丰富,但是这些信息都隐藏在非结构化的像素之中,计算机难以区分和理解。运动目标发现和跟踪技术即是要从大量的非结构化数据中自动发现感兴趣的运动目标及其在场景中的运动轨迹,是智能视频监控中的关键和基础性技术。本章首先讨论运动目标发现与跟踪的研究背景与研究意义,然后介绍了该领域的研究现状及其问题。提出本论文的研究任务和研究内容。最后给出了论文的结构安排。1.1研究背景与研究意义进入二十一世纪的十多年来,社会公共安全问题突出,发生了一系列的以美国“911”恐怖袭击事件为代表的公共安全事件,造成巨大的恐慌和影响,引起各国政府和社会民众的极大关注。如2005年7月的英国爆炸案,2008年3月西藏骚乱,2009年新疆七五事件,2010年3月莫斯科地铁爆炸案,2011年莫斯科机场爆炸案,2011年挪威奥斯陆爆炸枪击事件,2011年巴黎骚乱等。建设一个安全、和谐、繁荣的社会环境成为世界各国政府的首要任务。随着数字采集和存储技术的快速发展,图像采集设备迅速普及,视频监控成为主要的安全监控手段和方法,被全球各国普遍采用。据英国《每日邮报》报道:在英国,视频监控系统被广泛安装。英国人口数量仅占全球人口总数的1%,但监控摄像头数量却占全球20%。英国监控摄像头与人口的比例达到了1比15,伦敦居民人均每天受到300个摄像头监控。在我国,为保障经济建设顺利进行,维护社会安定,我们国家近年来大规模开展“平安城市”和“科技强警”工程建设。目的是要在城市中建立泛在的立体的智能的安全监控平台,保障社会的安定和谐。此外2008年北京奥运会、2010年上海世博会、201092\n第1章绪论年广州亚运会等一系列大型活动的安全保障工程也极大的带动和促进了我国安防领域的科学研究和产业发展。近几年来,我国安装的摄像头数量以每年超过20%的速度增长,仅2010年就新增摄像头超过1000万个[1]。截至2011年底,广东省的视频监控系统摄像头数量已经突破了110万个,并将在2012-2014年内增加96万个视频监控点[2];重庆市计划在2014年前在现有31万摄像头的基础上再增设20万个摄像头[3]。无处不在的监控网络在打击恐怖活动、侦破刑事案件,保障公共安全中发挥着重要的作用。例如,2005年7月7日早上和7月21日中午,英国首都伦敦发生多起爆炸,造成大量人员伤亡。两次恐怖袭击事件中警方均借助闭路电视监控系统锁定了犯罪嫌疑人并公布了嫌疑人的图像,这为案件侦破提供了非常重要的线索和帮助。成千上万的摄像头遍及城市的每一个角落,连续不断的采集着来自四面八方的图像。随着数据量的爆炸式增长,如何利用这些数据成为关键问题。这主要包含三个方面的问题。首先,监控代价大。现有的监控系统主要是采集—存储—回放模式,需要消耗大量的人力物力。一个监控系统往往需要配备电视墙和盯梢人员,但是随着摄像头数量的不断增多,监控代价越发变得难以接受;其次,数据利用率低。绝大部分的数据都只是在存储超期后被自动删除,没有得到充分利用。第三,数据查询困难。现有大多数系统仅能根据时间和地点进行查询和回放,一旦需要进行较大时空范围的查找时,其难度和代价往往将成倍增长。随着当前通信技术和网络建设的发展,大规模监控网络成为发展趋势且正在形成,此时上述问题将愈发严重。智能化是处理海量监控数据的唯一手段和必然方向,被产业界寄予厚望。现实应用的需要推动了相关的科学研究,智能视频监控已成为学术界的研究热点。与电影或日常生活视频不同,在监控视频中,人们不会关注其中的风景,画面或者情感,而是关注其中的运动目标及其行为。因此运动目标发现与跟踪是智能视频监控中的关键及基础性技术。一方面,它从复杂的动态的背景中提取目标位置、外观、运动轨迹等重要信息供用户查看和检索;另一方面它为高层视频理解提供基元信息,是场景检测、行为识别、异常报警等更高层次的智能分析的基础。这对于提高视频监控系统的智能化程度,实现网络化的大规模联动监控和数据共享具有重要意义。92\n第1章绪论运动目标发现与跟踪涉及计算机视觉、模式识别以及机器学习等多个领域,许多学者对此进行了长期的研究工作,提出了许多卓有成效的算法和模型,一些算法已被用于实际之中。在一些复杂的场景中,现有的运动目标发现和跟踪算法的效果和性能并不总能符合预期和满足要求。在实际应用中,面临的应用环境复杂多样,甚至有一些情形都难以预料。由于外部环境或内部因素的影响,无论是背景还是前景目标都可能呈现不断变化的复杂外观,这种复杂性和动态性都使得问题更加具有挑战性和研究价值。此外运动目标发现与跟踪的研究具有巨大的产业价值。据《中国安防行业“十二五”发展规划》预计,我国2015年安防产业总产值将达到5000亿元,而智能视频监控是公共安防的核心和主体部分,其市场规模占整个安防产业的一半以上。作为关键技术,高效、稳定、实用的运动目标发现与跟踪技术具有重要的应用价值。除安全监控外,目标发现与跟踪技术在智能交通,人机交互,自动驾驶,视频压缩等多个领域也具有广泛的应用价值。总之,智能视频监控系统是城市公共安全监控平台中的核心组成,而目标发现与跟踪则是监控系统中的关键技术,是国内外学术界的研究热点。本课题针对视频监控中的目标发现和跟踪以及基于此上的监控视频检索技术展开研究,具有重要的研究意义和广阔的应用价值。1.1本文研究内容本文以公共安全监控为着眼点,从智能视频监控的需求出发,针对其中的难点问题进行研究。本文主要从运动目标发现、目标跟踪和面向目标的视频检索三个方面的科学问题开展讨论和研究。1.1.1运动目标发现在监控应用中,人们感兴趣的通常只是与前景目标(如人物,汽车,宠物等)相关的信息,包括目标的位置、外观、运动轨迹、行为以及目标间的交互等。这些信息都隐藏在非结构化非语义的视频片段中,并不能直接读取。同时在大部分的实际场景中,多数时间下场景中没有目标只是背景。即使视频中存在目标,背景也通常占了大部分区域。用户面临两个问题:一方面监控视频中的大部分数据通常并不是人们感兴趣的;另一方面,人们可能感兴趣的监控信息都隐藏在大量的非结构化像素中,难以获取。如何准确的获取运动目标的位置和大小成为智能视频监控中首当其冲的问题。92\n第1章绪论自动目标发现既是要让计算机从复杂的动态的场景中将人们可能感兴趣的前景目标准确的检测出来。背景建模是主流的运动目标发现算法,其中的核心问题在于处理场景的动态变化,包括前景目标的外观变化和动态背景的干扰。目标的外观变化可能由一系列的因素引起。包括内在的和外在的。内在的因素有目标的运动,姿态,变形等;外在的因素包括光照,遮挡,摄像机的运动等。而背景的变化则来源于外部自然的或者人为的干扰,如灯光、日照引起的光线变化,风引起水面、树枝和草地的波动,摄像机的运动引起的场景变化等。如何对动态的目标和背景建模是一个非常具有挑战性的问题,目前并没有得到很好的解决。本文分析了动态背景建模和运动目标检测所面临的难点问题,针对特征、模型以及前景检测算法分别开展研究,提出了有效的背景建模的模型和算法,实现对运动目标的准确提取。1.1.1目标跟踪目标的运动信息(如位置,轨迹和速度等)是智能监控系统需要捕获的重要信息,对于目标的异常行为分析具有重要作用。如对警戒区域越界检测,逆向行驶检测,限制区域逗留检测等。给定一个初始的目标位置,目标跟踪即要在每一帧中确定对应目标的位置,从而获得其运动轨迹。长期以来,目标跟踪都是计算机视觉领域的一个热点问题。虽然经过了许多学者的长期研究,目前目标跟踪特别是复杂场景下的目标跟踪仍是一个非常具有挑战性的问题。由于应用场景的复杂性和各种因素的干扰,目标跟踪面临诸如光照、运动、姿态、遮挡等许多的难点问题。目标和背景的灵活多变是造成目标跟踪困难的根源所在。一方面特征和模型必须具有足够的分辨能力来将目标从背景和其他相似物体中区分出来,另一方面又需要容忍和适应目标自身的动态变化。基于部件的方法能较好的平衡灵活性和鲁棒性,对遮挡、姿态等干扰具有良好的鲁棒性,是一种优势算法。在对特定类型目标(如行人和车辆)的检测和跟踪上比较成功[80-86]。然而,现有的基于部件的跟踪方法都是基于目标的结构模型的,需要预先知道目标的物理结构和各部件的信息。对先验信息的依赖极大的限制了基于部件的跟踪方法的应用范围,是这类方法的主要缺点。针对上述问题,本文研究一种基于部件的非特定目标实时跟踪算法,解除现有基于部件的跟踪算法对先验知识的依赖,使其能够跟踪任意类型的目标,并提高了跟踪的鲁棒性和准确性。1.1.2监控视频检索在现有的监控系统中,人们要查阅某个目标或事件时,只能根据一个时间地点信息来人工遍历查看,往往需要耗费大量的人力和时间。目前监控摄像头已形成一张巨大的网络,当时间不确定或者需要查看更大范围的监控数据时,任务量会迅速膨胀到令人无能为力,这导致人们难以获取所需要的信息,也难以充分发挥监控系统的作用。例如,2012年1月692\n第1章绪论日,南京发生了震惊全国的持枪抢劫案,造成极恶劣的影响,被公安部列为“第一号案”。为了寻找嫌疑人的踪迹,为破案提供线索,南京警方出动数百人日夜轮班调看监控视频。如何快速的从海量的监控视频中找到所需要的视频片段是一个较新颖的课题,也是现实应用中迫切需求的,具有很大的市场应用价值。此外快速而准确的监控视频检索技术是实现视频监控大规模网络联动和数据共享的关键与必要条件。互联网上也存在海量图像和视频,而且主流商业搜索引擎都提供了视频检索功能。基于文本的视频检索和基于内容的视频检索是互联网视频检索的两大类方法,其中前者较成熟,为绝大多数商业搜索引擎所采用,仅有一些小型的检索系统能提供基于内容的图像和视频检索[103-107,109]。然而与互联网上的网络视频检索相比,监控视频的检索具有明显的差别。这主要体现在两个方面:首先监控视频除了时间和摄像头编号外没有任何的文字标注或上下文,而对监控视频的人工或自动标注也很难甚至不具有可行性,因此基于文本的检索方法不适用于监控视频;其次,现有基于内容(如关键帧或局部特征)的视频检索方法是查找视觉整体相似的视频。很多监控视频的场景具有相似性,特别是统一摄像头拍摄的视频内容都高度相似,然而在监控应用中,人们要查找的不是相似场景而是相似目标。因此基于内容的网络视频检索方法的也不适用。针对这个问题,本文在运动目标发现和跟踪的基础上,研究以目标为对象的监控视频检索方法,并利用实际数据构建演示系统。1.1国内外研究现状在几十年的发展过程中,视频监控设备经历从第一代磁带录像机为代表的模拟闭路电视(ClosedCircuitTelevision,CCTV)到第二代以数字存储为核心的硬盘录像机(DigitalVideoRecorder,DVR),再到如今第三代完全基于IP网络的视频监控系统(IPVideoSurveillance,IPVS)的发展过程。如图1-1所示,其核心发展方向是数字化,网络化和高清化。数字化是DVR的主要进步,它将模拟信号转换成数字信号进行存储,与CCTV系统相比,其数据易于存储,拷贝方便,操作和维护简单,且支持随机查询。网络化是IPVS的核心,其采用网络摄像机作为数据的采集终端,每个网络摄像机都具有唯一的IP地址,可以通过IP网络进行远程的视频接入和网络管理。IPVS通过IP网络接入终端摄像机等设备编码好的数字视频流,中心服务器无需负担编码计算任务,更专注于数据的存储、转发和回放管理。因而IPVS在视频接入路数,系统稳定性和解码回放管理上具有突出优势。特别是对于移动环境下的视频监控,IPVS92\n第1章绪论是最佳选择。高清化则贯穿于视频监控系统的整个发展历程,人们一直致力于获取更清晰的现场图像。目前的监控摄像头的分辨率基本都已达到百万像素。当前使用的最多的是混合数字硬盘录像机(HybridDigitalVideoRecorder,H-DVR),它在DVR的基础上,增加了网络视频接入和远程网络管理功能,是从DVR向IPVS更新换代的过渡方案。图1–1视频监控系统的发展历程视频监控的数字化,网络化和高清化一直进行的如火如荼,而智能化却进展缓慢,随着越来越高的分辨率和迅速增长的摄像头,迅速膨胀的数据量愈发凸显出智能化的必要和紧迫。针对视频和图像的内容分析技术,计算机视觉、模式识别和多媒体领域的学者们已经做了大量的研究。以下将按照本文的研究内容,分别对运动目标发现、目标跟踪和监控视频检索三个方面的发展和研究现状予以简要介绍。1.1.1运动目标发现目标检测算法是一类重要的目标发现算法,这类方法通常是利用一组预先收集的正负样本集训练检测器,然后利用该检测器去遍历图像来检测目标。在人脸检测[4,8],行人检测[5]和车辆检测[6,7]等方面取得了巨大的成功。常用的学习算法有支持向量机(supportvectormachine,SVM),Adaboost[9],决策树,随机森林[33]等。然而,目标检测算法用于运动目标检测有两个缺点。首先,一个目标检测器通常只能检测一种类型的目标,要检测多种类型的目标的话需要训练更多的检测器;其次,对于长时间静止的目标(如停靠的车)人们并不需要予以关注,而检测器会将图像内的所有对应类型的目标检测出来,而不仅仅是运动目标。第三,检测器需要遍历图像的位置和尺寸,检测速度慢。因此在视频监控中,较少用目标检测算法进行运动目标检测。92\n第1章绪论背景减除是一种主流的运动目标检测算法,此方法先根据历史数据建立图像的背景模型,然后将当前帧与背景模型进行比较,根据其相似程度来区分前景和背景区域。背景模型是背景减除方法的关键,一方面背景模型需要对背景和前景具有较强的分辨能力,即对运动目标探测的灵敏性;另一方面,背景模型需要对动态背景干扰不敏感,即鲁棒性。通常灵敏性和鲁棒性是相互矛盾的,模型需要在这两者之间需找一个较优的平衡。背景建模技术很早就受到国内外学者的关注。早在二十世纪七十年代,Jain等人利用帧间差法(即以前一帧为背景模型)对固定场景的视频进行背景减除[10]。人们很快认识到现实世界中,每一个像素点都具有一定的不确定性,这种简单直接的背景剪除方法无法取得较好的效果。直到Wren等人于1997年提出了基于单高斯模型的背景建模方法后[13],基于统计学习的背景建模技术受到广泛重视并得到迅速发展。根据算法处理的数据单元,现有的背景建模主要分为三大类:基于像素(pixel-wise)的方法,基于区域(region-wise)的方法和基于帧(frame-wise)的方法。基于像素的方法以一个个像素为处理单元,对每一个像素独立的建立背景模型。如中值滤波法[12],维纳滤波[14],W4算法[11]等都是属于典型的基于像素的方法。在一系列基于像素的背景建模算法中,最著名且使用最广泛的背景建模算法莫过于高斯混合模型[15,16],它由Stauffer等人在单高斯模型的基础上提出,采用一组高斯分布的加权和来描述一个像素点颜色值的分布。Gao等人[17]的研究也证实,在复杂场景下,像素值的分布是多峰的,并不符合单高斯模型的假设,因此混合高斯模型能比单高斯模型更好的处理动态背景问题。许多学者对高斯混合模型有做了进一步的工作。在文献[18]中,Bowden等人改进了混合高斯模型的更新算法并提出了一种检测运动物体阴影的方法。Zivkovic则提出了一种算法自适应地决定每个像素点所需要的高斯分量的个数[19,20]。Zang等人则提出了高斯混合模型与区域和帧级模型相结合的背景减除方法[21]。在实际的应用过程中,很难用一个合适的参数去对所有的场景进行背景建模,因此Elgammal提出了一种非参数化方法[22]。该方法不需要事先知道数据的密度分布模型,主要思想是利用一个像素点过往的颜色取值通过核密度估计(kernelDensityEstimation,KDE)对其像素值的分布概率进行估计,然后通过最大化后验概率进行前景检测。通过进一步的误检抑制等技术,该算法能较好的适应复杂的户外场景。为了降低核密度估计的运算复杂度,Elgammal又提出利用快速高斯变换(fastgausstransform)进行核密度估计[23]。Sheikh和Shah提出了贝叶斯模型[24],该模型不再固定点之间的关系,而将一个模式定义为包含坐标位置和三颜色通道的五元随机变量,分别估计一组背景点和前景点的概率密度分布,最终通过贝叶斯判决来确定是否属于前景。最近,Barnich和Droogenbroeck等人提出了一种基于最近邻方法的背景建模算法Vibe[25]。该方法对每个像素点维护一个采样集,然后对新来的数据在采样集里寻找最近邻,当近邻数量达到或超过某个阈值时则判断该92\n第1章绪论点为背景点。该方法的原理和计算都非常简单,运算速度非常快。此外,通过引入运动信息,该方法还能处理运动场景。基于区域的方法模型描述的是一个区域的特征。这类方法通常将图片划分成多个图像块计算区域特征,然后通过块匹配来检测前景。[26]中,Matsuyama等人通过NVD(normalizedvectordistance)来描述块相关系数,从而进行块匹配。Mason等人则先提取边缘特征,然后利用块内的边缘直方图进行匹配[27]。Grabner等人[31]提出了在线boosting学习算法,并将其应用于背景建模。他们对每一个图像块提取haar-like特征,利用在线boosting学习算法学习出一个分类器。对于新到达的帧,利用这些分类器将对应的图像块分成前景和背景两类。事实上任意其他的在线分类器学习算法,如在线MIL(multipleinstanceslearning)[32],也都可以类似的进行背景建模。Heikkilä等人提出了一种著名的基于纹理特征的背景建模方法[28]。他们对视频帧中的每一个像素点计算LBP(LocalBinaryPatterns)值,然后在其邻域内计算LBP直方图作为该点的纹理模式。为了处理背景动态变化,算法为每个像素点维护3~5个这样的纹理模式,并制定了一套权重更新规则。虽然该方法的处理是基于像素点的,但是对像素点的描述是其邻域的纹理直方图,本质上仍可以看成是一种基于区域的建模方法。Dikmen等人[34]将背景减除看作一个稀疏错误恢复问题。他们认为当前帧可以由视频的历史数据的线性组合重建,并通过对三个颜色通道进行独立重建来获取前景(即误差部分)。该方法的优点在于能对全局性的光照变化进行准确的补偿。基于帧的方法则是直接对视频帧进行整体的建模。本征背景减除法(EigenbackgroundSubtraction)[36]利用主成分分析(PrincipalComponentAnalysis,PCA)对连续多帧视频进行特征分解,计算由前M个特征向量组成的本征矩阵,其张成的空间即为背景子空间。那么新的图像I在背景子空间的投影即为求得的背景。在此基础上,Zhang等人提出了通过增量子空间学习进行背景减除的算法[37]。[35]中提出一种算法自适应的学习背景的低维压缩表达。该方法的主要优点在于不需要任何的辅助信息,当前景覆盖比较小时能取得较好的效果。如果将运动目标视为对背景的污染,当这种污染独立同分布且较稀疏时(即前景所占的面积比例较小时),凸优化算法PCP(PrincipalComponentPursuit,又称RobustPCA)[38]可以将背景准确的恢复出来。进一步地,Qiu等人提出了一个在线的PCP算法[40],并针对目标缓慢移动的情形作了改进。Babacan等人提出了sparseBayesianlearning对矩阵分解过程中进行低秩约束,使恢复的矩阵的秩与实际情况一致[39]。基于像素点的方法的特点在于能比较准确的获取物体的真实轮廓,缺点在于92\n第1章绪论鲁棒性不足,对噪声和干扰比较敏感,在处理动态背景时常出现较多的虚警点。基于区域的方法对局部小幅度的干扰比较鲁棒,主要的缺点则在于灵敏性不足,难以发现较小的运动目标,同时也难以准确获取物体的轮廓,如Error!Referencesourcenotfound.所示。虽然基于LBP纹理及其改进特征的建模算法是在像素层进行前/背景判决,但一个像素点的纹理模式描述的是局部区域,本质上仍是基于区域的方法,因此也有这个缺点。而基于帧的方法能在全局范围内达到最优,但是对于局部的光线等变化存在误检的可能,其次这类都是基于矩阵分解的,需要进行SVD分解等复杂运算,由于视频帧的维度通常都非常高,其运算量都非常大,难以做到实时处理。(a)原视频帧(b)基于像素点的方法(灰度高斯混合模型)(c)基于区域的方法(OnlineAdaboost)图1–2典型背景建模方法优缺点对比示意图。在运动场景下,背景建模问题远比固定场景中困难,其根本原因在于由于摄像头自由运动所导致的像素点失配问题。以上列举的大多数算法都假设摄像头及场景是固定的,但是随着移动监控的应用越来越多,这方面的研究也越来越多。不论算法的模型怎样,运动场景下背景建模的首要任务是确定相邻帧之间部分或者全部像素点的对应关系,然后利用这些点的像素值或者运动轨迹进行建模。一些方法是基于运动补偿的,如[41]先寻找一些特征点的轨迹,然后利用仿射相机模型(affinecameramodel)下通过几何约束找到背景点的轨迹构造全景图。Rao等人利用Homography变换来建立相邻帧像素点见的映射关系,从而建立全景图[42]。进一步的[43,45]利用多层Homography变换来处理深度背景。文献[46]先建立背景和前景的外观模型(appearancemodel),利用置信度传播算法(BeliefPropagation)来进行运动估计,根据估计的运动信息在相邻帧之间进行外观模型转换。有些方法则是基于运动分析的,通过估计占支配地位的背景运动来将运动不一致的前景区域检测出来。[44]将基于运动分析的方法和外观模型结合起来,先通过运动分析确定一些点的类别,然后用这些点进行贝叶斯建模。还有的方法是通过重建3维场景进行背景剪除,如[47]92\n第1章绪论提出了一种利用多视角拍摄的视频来重建3D场景,进而进行背景剪除的方法。针对繁多的背景建模方法,一些学者进行了总结和评价,如[48,49,50,51,52]等。总的来说,这些算法各有优劣,其中一些算法能较好的处理动态背景问题。实际应用场景复杂多样,目前仍没有一种能很好的解决2.1节中各种问题的方法。1.1.1目标跟踪视觉目标跟踪(visualobjecttracking)是智能视频监控中的又一关键技术,在许多领域具有重要的应用价值。在过去十多年中,目标跟踪一直是学术界的研究热点,始终是计算机视觉和模式识别领域国际顶级学术会议和期刊的主题内容之一,会议有CVPR(InternationalConferenceonComputerVisionandPatternRecognition),ICCV(InternationalConferenceonComputerVision)和ECCV(EuropeanConferenceonComputerVision)等,期刊有IJCV(InternationalJournalofComputerVision),TPAMI(IEEETransactiononPatternAnalysisandMachineIntelligence),TIP(IEEETransactiononImageProcessing)和PatternRecognition等。经过多年的研究与发展,目标跟踪的算法种类繁多。按照算法将对跟踪问题的描述方法,可以将跟踪算法分为基于预测的方法,基于匹配和方法和基于检测的方法。基于预测的方法将跟踪问题视为一个状态估计问题,根据给定数据,用信号处理的方法来对目标在下一帧的状态(如位置,颜色,形状等)进行最优化估计。这主要包括基于滤波的跟踪算法和基于子空间学习的算法。基于滤波的算法主要有卡尔曼滤波[60]和粒子滤波[59,61,62,63]等。另一类重要的基于预测的方法是基于子空间学习的跟踪算法。这类方法主要是根据前期数据学习出目标的特征子空间[65],然后根据当前帧的图像块在特征空间的分布进行目标定位。压缩感知领域的稀疏表示模型(sparserepresentation)也被用于目标跟踪[64,66,68]。其共同框架是用一组目标模板作为字典,那么具有最小投影误差的图像块即被认为是待跟踪的目标。[57]在本征模板法[67]的基础上提出了从多个视频序列中学习本征模板的方法。基于匹配的算法用一个模板表示带跟踪目标,并将跟踪问题视为从下一帧中寻找最优匹配的问题。目标模板可以是一个或一组图像块,也可以是目标图像的全局或局部特征表示。著名的Mean-shift算法[53]以颜色直方图来描述目标,然后在当前帧中用基于核函数的方法迭代地进行求均值和偏移过程,寻找与目标特征匹配的最佳位置。[79]将mean-shift算法与sift结合起来,提高了其跟踪性能。[55]采用一种增加和切换模板的机制来在线更新模板,减轻了跟踪器的漂移问题。92\n第1章绪论He等人提出了一种基于SURF(SpeededUpRobustFeatures)特征点匹配的跟踪算法[58],他们采用一种生成式模型来描述特征点之间的相互关系。文献[56]提出了一种基于超像素(SuperPixels)和SURF特征点匹配的跟踪算法。基于检测的算法近年来非常流行,其核心思想是将跟踪问题看成区分特定目标和背景的检测问题,利用已获得的数据训练检测器,然后在当前帧进行目标检测,以得分最高的图像块作为目标位置。在这种框架下,一些有效的分类器学习算法都能用来进行目标跟踪,如SVM,Adaboost,随机森林,神经网络,多示例学习等。基于检测的方法包含离线方法和在线方法两种。离线方法的检测器一旦初始化就不再变化,通常是用预先训练的或者初始的一帧或多帧数据,例如SVT(supportvectortracker)在基于光流的跟踪框架下使用离线的SVM学习分类器[54]。离线学习方法的缺点在于对动态变化的目标的跟踪效果不好,特别是当目标由于遮挡或姿态等原因发生显著的外观变化时,离线方法往往会跟丢目标。多数的基于检测的方法都属于在线方法。如Ensembletracking[74],Onlineboostingtracking[73],OnlineMultipleInstancetracking[75],TLD(TrackingLearningDetection)[69,70]等等。在线方法会利用当前帧的采样数据对检测器进行更新,从而对目标的变化具有一定的自适应能力。然而由于用于更新的数据是其自身的预测,并不完全不可靠。每一次的更新都可能引入新的误差,经过一段时间后,累积误差可能导致跟踪器发生漂移甚至丢失目标。针对这个问题,一些学者建议通过半监督学习[76],co-tracking[77,78]或者学习时引入额外信息等方法来降低更新风险[71,72]。根据算法对视觉目标表达的层次,绝大多数的算法可以归为以下三类:基于局部特征的跟踪方法,基于部件的方法和基于目标整体的跟踪算法。基于局部特征的跟踪方法,以一组局部特征来描述目标,综合对各个特征的跟踪定位来完成对目标的跟踪。这种方法非常灵活,能较好的处理遮挡等问题,但是由于局部特征易受外观影响而不稳定,这类方法稳定性不足,如卡尔曼滤波[60],粒子滤波[59,62,63],SURFtracking[58]等都属于这类算法。基于目标整体的跟踪算法将目标看作一个整体,通过在新的视频帧中寻找与目标整体上最相似的候选目标来进行跟踪。例如mean-shift算法[53],SVT[54],本征模板法[57],TLD[70]等都属于这种类型。这类方法稳定性较好,对局部的目标姿态变化或其他干扰较鲁棒,但其灵活性不足,当发生较大面积的遮挡或者目标外观变化较快时容易丢失目标。基于部件的方法通常是将目标分割为多个组成部件,然后用一个结构模型来描述各部件之间的相互联系。进行跟踪时,通过跟踪各个部件来寻找最符合其结构模型的候选目标。因为目标各个部件的外观相对稳定,又采用了可变形的结构模型,因此这类方法即有较高的鲁棒性,又有较强的灵活性,在行人和车辆检测和92\n第1章绪论跟踪方面取得了令人满意的效果[80-86]。1.1.1视频检索目前基于内容的视觉媒体检索的研究主要集中在互联网图片和视频检索。随着Web2.0的兴起,图片和视频分享网站如雨后春笋,互联网上的视觉媒体数据爆炸式的增长。据统计,2011年9月,著名社交网站Facebook的照片数量突破1400亿张,且正以每天超过2.5亿的速度增长。2012年1月,Youtube每分钟上传的视频超过60小时,每天的视频浏览次数超过40亿次。在这种情形下,如何帮助用户快速而准确的获取所需的多媒体信息成为一个核心问题。产业的实际需求极大的推动了视觉媒体检索的研究。基于文本关键词的查询是一种比较成熟的方法,为绝大多数的商业搜索引擎所采用。这方面的研究主要集中在对视觉媒体关联文本的挖掘和自动标注技术。一种可能的标注方法是基于内容检测的标注,如利用概念检测器Columbia374[92]和VIREO374[95]对图像内容进行标注。另一种比较有代表性的方法是基于相似图像检索的自动标注技术[93,94,96]。基于内容的图像检索是通过提取能表征图像内容的特征建立索引,然后对用户的查询提取相同的特征,在特征库中进行近似匹配来查询所需图像。基于内容的图像检索常用的视觉特征有颜色特征[99],纹理特征[100,101],轮廓和边缘特征[97,98],姿态检索[108]以及SIFT等局部特征点[102]等。基于内容的视频检索通常先将非结构化的视频进行结构化分析,分割成一个个具有特定语义的小单元,然后针对这些小单元(如关键帧、镜头等)提取特征建立索引。目前主要有基于视觉特征的视频检索和基于动态特征的视频检索。目前有一些基于内容的在线视觉信息搜索引擎。QBIC[103](QueryByImageContent)是由IBMAlmaden研究中心开发的第一个商用基于内容的图像及视频检索系统,提供了对静止图像及视频信息基于内容的检索手段,其系统结构及所用技术对后来的视频检索有深远的影响。Retrievr[105]是一个以手绘草图作为查询的图像检索系统,其返回的结果随着草图的绘制不断更新,类似于googleInstant[107]的即时检索系统。InforMedia[106]是卡内基梅隆大学的数字视频图书馆系统,支持数千小时的视频广播的检索,并结合语音识别、视频分析和文本检索技术,实现基于内容的、基于知识的查询和检索。哥伦比亚大学数字视频与多媒体实验室以图像/视频分析和检索方面的研究著称,先后开发了VideoQ[111]VisualSEEk[104],WebSEEk[109],CuVid[112]和CuZero[110]92\n第1章绪论等多个基于内容的图像和视频检索系统。TRECVID是基于内容的视频检索领域中的国际性权威评测,由美国国家标准技术研究所组织实施。TRECVID起始于TREC2001的视频检索项目,2003年成为一个独立的评测体系。TRECVID每年举办一次,由美国国家标准技术研究所发布本年度的研究任务并提供标准测试数据和评价标准。世界各国的大学、研究所和公司都可以参与这项竞赛,用这些标准测试数据测试自己开发的算法和软件,在规定时间以前提交自己的运行结果,然后由美国国家标准技术研究所提供标准答案并对各结果进行评价。TRECVID的参与者中不乏卡耐基梅隆大学(CarnegieMellonUniversity),AT&T实验室,微软亚洲研究院等高水平研究机构。国内也有不少科研结构参与,如中国科学院自动化所[88]和计算所[91],北京大学[89],北京邮电大学[90]等,并曾取得优秀的成绩。TRECVID每年所提出的研究任务直接反映了视频检索领域的研究前沿。表1-1列出了TRECVID自2003年以来所关注的研究任务。其中缩写对应的内容为:Semanticindexing(SIN),Known-itemsearch(KIS),Interactivesurveillanceeventdetection(SED),Instancesearch(INS),Multimediaeventdetection(MED),Multimediaeventrecounting(MER),Content-basedcopydetection(CCD),High-levelfeatureextraction(HFE),Low-levelfeatureextraction(LFE),Shotboundarydetection(SBD)。Rushessummarization(RS),Rushesexploitation(REX)。其中针对监控视频的事件监测已持续5年,是当前研究的一个重要课题。表格1–1TRECVID历年的研究任务YearTasksTRECVID2012SIN,KIS,SED,INS,MED,MERTRECVID2011SIN,KIS,CCD,SED,INS,MEDTRECVID2010SIN,KIS,CCD,SED,INS,MEDTRECVID2009SED,HFE,Search,CCDTRECVID2008SED,HFE,Search,RS,CCDTRECVID2007SBD,HFE,Search,RSTRECVID2006SBD,HFE,Search,REXTRECVID2005SBD,LFE,HFE,Search,ExploreBBCrushesTRECVID2004SBD,Storysegmentation,Featureextraction,SearchTRECVID2003SBD,Storysegmentation,HFE,Search92\n第1章绪论1.1论文的结构安排图1-3给出了本文的主要研究内容、研究内容之间的联系和对应的章节。图1–3本文的结构安排本论文各章节的研究内容如下:第1章绪论介绍本文选题的研究背景与研究意义,引出本文的研究内容,并介绍了相关领域国内外的研究现状。第2章动态背景建模与运动目标发现研究动态背景建模问题。深入讨论背景建模所面临的难点问题和现有方法的优缺点。提出了一种融合颜色纹理信息特征以更好的区分前景与背景,并基于此特征提出一种动态背景建模算法。相对于传统基于纹理的背景建模方法,该算法能在提高检测率的同时显著降低误检率。第3章基于时空连续性约束的前景检测研究92\n第1章绪论一种前景检测算法,在统一的数学框架下,将特征与模型的相似度,视频数据在时间和空间上的相关性综合考虑。通过对时间和空间的连续性约束,超越模型本身的鲁棒性和灵敏性的限制,增强前景检测的准确性。该算法具有良好的可移植性,能适用于不同的背景模型。实验结果表明,该算法能较准确的检测前景目标。第4章基于部件的非特定目标跟踪研究复杂场景下的目标跟踪问题。针对传统基于部件的跟踪方法依赖于先验知识的缺点,深入讨论不需要先验知识的目标跟踪方法。提出了基于部件的非特定目标跟踪模型:矩阵模型。与传统基于部件的方法部件固定结构可变的策略不同,该模型的结构固定而部件可变,因此摆脱了对先验知识的依赖,能跟踪任意类型的目标。在真实数据上的实验表明,该模型跟踪的准确性显著高于当前先进算法。第5章面向对象的监控视频检索基于研究成果,用真实监控数据构建了面向对象的监控视频检索系统。与网络视频检索不同,该系统以视频中的运动目标为对象,通过输入图像检索包含相似目标的视频。本章深入讨论了系统的架构以及功能。第6章总结与展望对本文的工作内容进行全面的总结,指出本文主要的学术贡献,并展望未来进一步的研究工作。92\n第1章绪论92\n第2章动态背景建模与运动目标发现第1章动态背景建模与运动目标发现运动目标发现是智能视频监控中的基础性问题。在监控环境中,监控系统需要及时发现所有可能类型的目标,以备分析或者查询。目前大多数的监控摄像头都是固定不动的,其监控域和场景基本稳定不变,此时背景建模是一种有效的运动目标发现方法。本章研究固定场景下基于背景建模的运动目标发现问题。首先分析了动态背景建模面临的难点问题,其次从模型和特征层面上讨论了现有方法的优势和不足。在此基础上,受基于区域纹理的建模方法的启发,我们提出了一种融合颜色和纹理信息的视觉特征和基于此特征的背景建模方法。该方法具有三方面的优势:一方面,新的特征对前景和背景的区分能力得到增强,大幅提高了建模算法的检测率;其次,采用了自适应的阈值学习方法,有利于处理不同的动态变化幅度;第三,利用提出的轮廓优化策略滤除了大部分的误检点,克服了基于区域的方法轮廓检测不准确的缺点。因此该背景建模方法能同时获得较优的检测率与较低的误检率。该部分工作发表在6thInternationalConferenceonImageandGraphics(ICIG2011)上。1.1引言在监控环境中,根据物体的状态,将与监控场景(地球)相对静止的物体视为背景(如建筑和草地等),将在场景中自由运动的物体视为前景(如行人和行驶的汽车等),而往往作为前景的运动目标才是人们感兴趣的。面对海量的监控数据,如何自动的发现感兴趣的目标成为智能视频监控系统中首当其冲的问题。在固定场景下,背景建模是一种有效的运动目标发现方法。其核心思想是先建立一个背景模型来描述监控区域的背景,然后根据新的数据与背景模型之间的匹配程度来判断对应的像素点或区域是属于前景还是背景。Error!Referencesourcenotfound.展示了一个典型的背景建模算法框架,绝大多数的背景建模算法都在这个框架下运行。首先利用一些历史数据(如初始的一帧或者若干帧图像)来提取特征,初始化一个背景模型。然后在每一帧重复特征提取、模型匹配,前景判决,模型更新的步骤,输出检测到的前景(即人们感兴趣的运动目标)以供进一步的分析和查询。92\n第2章动态背景建模与运动目标发现图2–1背景建模算法框架示意图1.1.1背景建模面临的问题在固定场景下,虽然背景区域固定,背景建模仍是一个具有挑战性的问题,其主要原因在于背景并不是一成不变的。由于多方面的因素,大多数情况下的背景都处于动态变化之中,这大大增加了背景建模的难度。在实际应用中,常见的动态背景包括:1)光照变化。在监控视频中,光照变化是一种常见的动态扰动。由于受天气,时间节点,日夜更替,四季循环,灯光照明,阴影等多种因素的影响,视频的光照环境往往处于不断变化之中,有渐变也有突变。光照的变化会引起物体的明暗和颜色变化。2)运动的背景物体。即使摄像头完全静止而不考虑在现实中普遍存在的小幅抖动,视频中的背景通常也不是静止不动的。由于外界或内在因素的扰动,一些背景物体也在小范围地移动或者变化。例如随风摇晃的树叶和旗帜,摇动的钟摆等。在不同的时刻,同一个物体可能出现在一定范围内的不同像素点,而同一个像素点在不同的时刻由树叶、天空等不同的目标占据,其差异甚大。又例如波光嶙峋的水面,其像素点的颜色值一直处于不断变化之中。特别是雨滴和雪花这些本应当视为背景的物体,不但运动幅度大,而且没有规律性,难以判断。3)92\n第2章动态背景建模与运动目标发现背景与前景的转换。在一些场景中,当时间范围较大时,背景与前景存在相互转换的情形。前景物体可能静止下来而成为背景的一部分,而本来静止的背景物体也可能运动起来而成为前景。比如在一个停车场中,泊车事件是由前景变为背景的过程,而开车以及由静止的车中走出行人等都是背景转变为前景的过程。1)前景与背景的混淆。处于有目的的伪装或是无意的巧合,一些情况下可能会出现前景目标的整体或局部与背景非常相似的情形,这可能导致算法将前景误判为背景,如山路上穿迷彩服的行人。2)局部背景的显著变化。在某些场景中,局部的背景物体会出现显著变化,例如开/关门,电梯以及闪动的电脑屏幕。而在应用中,这些物体仍应当被划为背景。3)噪声。噪声存在于几乎所有的信号中。此处主要包括由于摄像机的设备参数限制以及器件老化导致的设备噪声以及视频数据处理(如压缩)引入的噪声。1.1.1相关工作本章研究内容包括两个方面,一是融合纹理和颜色信息的视觉特征,二是基于此特征的背景建模方法。许多的背景建模都直接采用像素点的灰度或三通道颜色值进行建模,如高斯混合模型[19,20],KDE[22],贝叶斯模型[24],Vibe算法[25]等等。颜色特征容易受到色差、光照变化以及阴影的影响,导致前景检测时的虚警增多,而一些局部纹理特征能很好的克服这一弱点。LBP[113]是一种有效的局部纹理特征,在目标检测和识别领域得到广泛应用并取得了比较好的效果,如人脸识别[114]与表情识别[115]。LBP的突出优势在于其对光照不敏感和计算复杂度低,这些特性都非常适合于背景建模。基于LBP的背景建模方法[28]在每一个点的邻域内提取LBP直方图作为特征描述。背景模型则是由多个这样的特征向量和权重构成。除LBP本身的特性之外,该方法的鲁棒性还得益于两方面的原因。首先,邻域直方图降低了噪声和局部动态背景的干扰;其次,通过采用多个有权的直方图向量作为背景,较好的适应了背景点多模式的特点。在此基础上,[29]将LBP直方图在时间上做了平滑,提出了基于改进的spatio-temporalLBP的建模算法,[30]采用了对噪声更加鲁棒,而且模式数更少的中心对称LBP(CenterSymmetricLBP,CS-LBP),同时增加了一个比特位来描述像素的灰度均值偏移量,提高了前景检测的准确性。虽然这类方法的处理是基于像素点的,但是LBP直方图描述的是像素点邻域的纹理特征,本质上仍可以看成是一种基于区域的建模方法。只不过这些区域高度重叠,因此这些方法也面临着与基于区域的方法相同的劣势,即不能准确提取运动目标的轮廓。92\n第2章动态背景建模与运动目标发现1.1融合颜色纹理信息的SCBP特征1.1.1LBP和CS-LBP算子图2-2展示了邻域点个数为8时的LBP和CS-LBP的计算方法,其中为条件判断函数。LBP算子通过比较邻近点与中心点的灰度值的大小进行计算。因为仅需进行数值间的大小判断,特征计算非常高效。通常半径r的值都较小,因此对局部的光照变化比较鲁棒。CS-LBP则是对中心对称的点进行大小比较,对噪声的鲁棒性更强。当采用同等数目的邻域时,其特征的模式数量要远少于LBP的模式数量。LBP及CS-LBP都直接用灰度图像计算,而不包含任何的颜色信息。在实际应用中,颜色是一种非常重要而且能有效的区分前景与背景的特征。如果将LBP特征与颜色特征进行融合,能进一步提高模型的区分能力,将对前景检测非常有利。Mäenpää等人也提出了基于彩色图像的MultispecturalLBP,跨颜色通道进行像素值比较[120]。这种方法提取出的特征模式数量与通道数量呈指数增长关系,在一个小区域内提取的直方图将非常稀疏以至于不具有分辨能力。图2–2LBP算子(p=8)及CS-LBP算子1.1.2SCBP算子一方面LBP纹理特征具有光照不敏感和计算复杂度低等良好的性能,适用于背景建模,另一方面LBP及其改进算子都忽略了颜色这一重要的信息。为了解决这个问题,本章提出了一种融合了纹理和颜色信息的局部二值模式特征,称之为Spacial-colorBinaryPatterns(SCBP)。其计算方法如下:92\n第2章动态背景建模与运动目标发现上式中,表示中心点的红绿蓝三颜色分量,函数表示只有当某个颜色分量大于另外一个颜色分量倍时对应的二进制模式位才为1。设置参数有利于抑制噪声,其值越大对噪声越鲁棒,同时分辨能力越弱,本文中全部采用1.1这个经验值。SCBP算子提取的二进制序列由两部分组成。第一部分是原始的LBP算子,包含了局部的纹理信息;第二部分是三个颜色比特位,包含了中心像素点的颜色组成信息。SCBP特征的优点在于它不仅融入了部分颜色信息,而且保持了与LBP特征同样低的计算复杂度。公式2.1定义的SCBP算子比内含的LBP算子增加了3个颜色比特位,其对应的模式数量将增加倍,时会有种模式,这对于背景建模中半径小于十个像素的统计区域来说仍然过于庞大。一方面会导致统计直方图过于稀疏,从而降低模型的鲁棒性,另一方面模式数量的增加也会导致特征匹配时更大的计算开销。为此,我们通过两种方式来进一步精简模式位。首先,采用更少比特位的CS-LBP取代LBP,其次考虑到颜色值的对比中存在一定的相关性减少一个颜色比特位。精简过后的SCBP特征定义为:通常我们采用,此时总的模式数为64,是一个比较合适的值,提取的特征既不太粗粒度又不会过于稀疏,能较好的满足背景建模的需要。1.1基于SCBP的背景建模1.1.1背景模型对于某个像素点p,其背景模型由K个SCBP直方图及其权重组成,即。像素点p在当前帧的SCBP直方图为以p为中心半径为的圆形区域内的SCBP值的统计直方图。背景模型中权重最大的前B个直方图被认为是背景分量,剩余的直方图分量则代表着前景或不稳定的背景成分。92\n第2章动态背景建模与运动目标发现上式中,是的降序排列,是可由用户自行设置的参数,它控制了多少分量应该被计入背景,其值越大,则对前景的灵敏性越低,反之则对噪声的鲁棒性越低。1)前景检测。对于新到达的一帧,先计算SCBP特征,然后在p附近半径为的区域内统计其SCBP特征直方图。然后将与模型中的全部K个直方图计算相似度,如果相似度大于既定阈值,则认为发生匹配。其中为匹配阈值,D为直方图的维数。一个点被认为是前景点当且仅当其特征直方图与全部B个背景直方图都不匹配。否则,只要与B个背景模式中的任意一个发生匹配,该点就被判定为背景点,即:2)模型更新。为了适应背景随时间的变化的情况,例如一天之中的光照变化。我们对背景模型进行在线更新。如果与背景中的全部K个特征向量都未匹配,则用替换模型中权重最小的模式,并赋予一个小的初始权重。如果发生匹配则利用对匹配程度最高的模式进行更新,更新法则如下:其中分别为特征向量和权重的学习率,他们控制了模型更新的速度。学习率越大,更新速度越快。需要注意的是式中,仅对最优匹配项取值为1,对其他模式取值为0。从以上的更新规则可以看到,当某个模式被持续的匹配时,其权重将逐渐增大。因此权重直接体现了特征向量属于背景模式的可能性。此外,这种更新规则也使得模型能处理前景和背景相互转换的问题。1.1.1阈值学习公式2.4和2.5中的参数92\n第2章动态背景建模与运动目标发现的取值至关重要,它直接影响前景检测的准确性。传统背景建模方法采用了一个全局经验值。这种做法具有多重缺点。首先它没有考虑到不同背景部分的动态变化程度的不一致,其次没有考虑随时间变化,同一个像素点的起伏程度的不一致,例如风平浪静时的水面和起风时的水面,其最优的匹配度是显然不一样的。一个全局的经验值可能在一些地方引起误检而在另一些地方引起漏检。如图2-3所示,A点与B点都是天空中的背景点,但B点时不时被树枝遮挡,其最优匹配的相似度要低于A点,震荡幅度也要更大,因此B点适合一个较小的阈值。图2–3不同背景点的最优匹配相似度具有显著差别基于以上的考虑,我们采用自适应阈值学习来解决全局阈值的问题。令为像素i的在t时刻的判决阈值,假设在第t帧,像素点与模型的最优匹配相似度为s(计算规则参见公式2.11),则有:其中常数为预留空间,以保证阈值小于正常的波动下限。参数的意义与前文的一样为学习速率,如果未发生匹配则不进行更新。在第一帧,所有像素点的判断阈值都初始化为。1.1.1轮廓优化SCBP特征的区分能力强,加之采用自适应的阈值学习,模型能轻易的将几乎全部的前景检测出来,但是这个方法也存在问题。由于采用区域内的统计直方图作为特征描述,相邻像素点的邻域重叠率非常高,因此其特征直方图也高度相似,这将对前景判决带来不利的影响。一些背景点的邻域将包括部分前景,特别是在运动目标与背景的交界处,将会有大约一半的邻域被前景覆盖,因此其特征直方图将偏离其背景模式。这部分点容易被判断为前景形成虚警。如果我们降低阈值,则可能导致一些靠近边缘的前景点被判断为背景导致漏检。总之,运动目标的轮廓会受到破坏。92\n第2章动态背景建模与运动目标发现基于以上考虑,我们提出了一种轮廓优化策略,其思想是先获得较高的检测率,然后生成一个像素级精度的过滤器去滤除尽量多的虚警。这个过滤器必须满足以下条件:a)几乎全部的前景点能通过该过滤器;b)可以容许一些背景点通过,但须尽量避免与误检点重叠。事实上,传统的基于像素点的高斯混合模型能满足以上条件。基于实时性考虑,我们采用更简单直观的方法,考虑以下两条规则:a)如果灰度值偏离均值较大,那么该点很可能是前景点;b)如果彩色分量组成比例变化较大,那么该点很可能是前景点。基于以上考虑,我们采用灰度和色彩组成来生成过滤器。对于像素点,假设其灰度为,色度坐标为,分别用和表示均值和方差,那么其过滤器可以表示为:其中,色度坐标等于对应颜色值除以三通道颜色值之和,例如。参数是用户自行设置的容差量。那么最终的前景为。最后需要对像素点的均值和方差进行更新,更新法则为:我们将未进行轮廓优化的方法称为基本SCBP方法。该方法对小幅度扰动的背景比较鲁棒,只在靠近物体的边缘会有一些虚警,从视觉效果来看就相当于对物体进行了膨胀。轮廓优化过滤器基本上是基于单高斯模型的,几乎能检测出全部的前景,同时在背景上会有比较多的噪点。我们提出的SCBP方法正好将两者互补,将在获得高检测率的同时显著降低误检率。Error!Referencesourcenotfound.给出了一个轮廓优化的例子,验证了轮廓优化策略的有效性。可以对基于SCBP的建模方法中的一些参数进行精细调整以达到最优效果,但这并非必须的,固定的参数配置也能够获得令人满意的性能。在本文中的所有实验中,相关参数都设置为以下的经验值,,,,,,。92\n第2章动态背景建模与运动目标发现(a)原视频帧(b)优化前的前景(c)优化后的前景图2–4轮廓优化示例1.1实验与结果分析在本节中,我们利用公开数据(所有数据可从[14]和[132]下载)对本章提出的特征和背景建模算法的有效性进行实验验证,并与相关的算法进行比较。实验结果符合预期,显示了所提出算法的有效性和先进性。1.1.1特征区分能力首先对SCBP特征的区分能力进行了验证并与LBP特征进行了对比测试。测试所用的视频名称为“wavingtrees”,其中背景建模的难点是处理随风摇晃的树枝。我们分别对此视频用LBP特征和SCBP特征按2.3节中的方法进行背景建模,两种特征比特位都为6(即直方图为64维向量),都采用相同的参数设置。在Error!Referencesourcenotfound.中,第一列为原视频帧,第二列为SCBP直方图与背景模型的相似度图,第三列为LBP特征与背景模型的相似度图。其中特征直方图与背景模型的相似度定义为与背景分量的最大相似度。图中颜色越深代表相似度越小。理想情况下,特征具有完全区分能力,在背景区域相似度取值接近于1,而在被前景覆盖的区域相似度接近于0。从图中可以看到,采用SCBP特征建模所获得的相似度图在前景覆盖的区域都比较暗,明显低于背景区域,因此能比较容易的将背景区域与前景区域分割开来。而采用LBP特征建模所获得的相似度图,这种明暗对比并不明显,而且在前景目标的内部有些区域具有与背景相当的亮度,因此比较难以分辨开来。对比而言,两种特征在背景区域具有相当的相似度,而在前景区域则差别甚大,SCBP特征对模型分辨能力的提高显而易见。92\n第2章动态背景建模与运动目标发现图2–5SCBP与LBP特征的分辨力对比。左侧为原始图,中间为SCBP特征与模型的相似度量,右图为基于LBP的特征与模型的相似度量1.1.1运动目标检测本小节将提出的基于SCBP的建模算法与其他先进算法进行了比较以验证其性能。参与比较的算法包括两种基于像素点的方法:高斯混合模型[15]和Vibe算法[25],两种基于纹理的方法:基于LBP的算法[28]和改进的基于SCS-LBP的算法[30],以及本文提出的基本SCBP方法(指不带轮廓优化)和SCBP方法。Error!Referencesourcenotfound.显示了各算法在“wavingtrees”上前景检测的效果。从视觉上看,我们的SCBP算法远优于其他算法。这主要体现在两个方面:1)比基于像素的方法更鲁棒,在发生动态干扰的区域没有出现许多的噪点,2)比基于区域纹理的方法更灵敏,能更好的区分前景与背景,保持物体的轮廓完整,没有像基于纹理的方法那样出现较多的缺损。“wavingtrees”中运动目标颜色鲜艳且与背景的差异明显,这正好能体现我们的SCBP特征的优势。为了测试在颜色差异不那么明显的情况下,基于SCBP特征的背景建模算法的性能,我们选择在视频“watersurface”上做了同样的实验。该视频包含大面积泛着波浪的水面,这对模型的鲁棒性是个考验。实验的结果如Error!Referencesourcenotfound.所示,我们的基于SCBP的建模效果略好于Vibe92\n第2章动态背景建模与运动目标发现算法,但是要远优于其他算法。注意本章中所有的背景建模的结果都未进行形态学滤波。图2–6背景建模算法在Wavingtrees上的效果对比。从上直下分别为原视频帧(第247,251,255和261帧),Ground-Truth,高斯混合模型,Vibe算法,基于LBP92\n第2章动态背景建模与运动目标发现的建模,基于SCS-LBP的建模,基本SCBP建模,带轮廓优化的SCBP建模。图2–7背景建模算法在Watersurface上的效果对比。1-4列分别对应视频的第515,548,92\n第2章动态背景建模与运动目标发现559和594帧,每一行的意义与Error!Referencesourcenotfound.相同。基于SCBP的建模算法的视觉效果令人印象非常深刻,那么反应到数据上其性能如何呢?对此,我们对部分实验结果进行了定量分析,采用前景检测的检测率(DetectingRate,DR)和虚警率(FalseAlarmRate,FAR)来评价背景建模算法的性能。实验分别从上述两段视频中采样选取了两帧,根据手工标注的Ground-truth计算前景检测的检测率和虚警率。具体数据如Error!Referencesourcenotfound.和Error!Referencesourcenotfound.所示。从表格中可以看到,本章提出的SCBP特征具有良好的区分能力,从而将目标的检测率提高到接近100%的水平,而极低的虚警率也表明了轮廓优化策略的简单有效。总之,基于SCBP的背景建模不仅能灵敏的检测到运动目标,而且对动态背景比较鲁棒。表格2–1Wavingtrees上不同建模算法性能的定量分析与对比建模算法251th帧255th帧DR(%)FAR(%)DR(%)FAR(%)GMM64.942.060.047.3Vibe97.222.3497.924.0LBP74.25.1770.54.81SCS-LBP85.79.0083.58.88BasicSCBP1007.9899.710.2SCBP99.52.3399.42.22表格2–2Watersurface上不同建模算法性能的定量分析与对比建模算法1515th帧1559th帧DR(%)FAR(%)DR(%)FAR(%)GMM69.447.169.656.8Vibe71.24.6171.83.87LBP83.525.581.915.6SCS-LBP94.137.389.928.7BasicSCBP96.237.891.932.2SCBP85.21.7482.20.8192\n第2章动态背景建模与运动目标发现1.1.1讨论分析从Error!Referencesourcenotfound.小节和Error!Referencesourcenotfound.小节的实验结果中我们可以看到,基于SCBP特征的背景建模方法在提高对前景的检测率的同时,也显著降低了误检率,其鲁棒性和灵敏性都由于其他对比算法。本章提出的建模算法的优势来源于四个方面:首先,SCBP特征不仅包含了当前像素点的颜色信息,还包含了局部的纹理信息,不仅区分能力更强,而且对光照不敏感;其次,算法以圆形邻域内的特征直方图建立背景模型,而直方图对于小幅晃动的动态背景不敏感;第三,采用了自适应的阈值学习,符合背景在不同位置不同时段动态变化幅度有所差异的情况,有利于减少误判;最后,轮廓优化策略能滤除大部分虚警点,有效的解决了区域直方图特征在目标边缘处无法区分前/背景的问题。1.2本章小结运动目标发现是智能视频监控中的关键科学问题。即使在由固定摄像头采集是视频中,也存在多种因素的干扰,使得背景呈现出动态变化。在动态背景下,传统方法难以同时保证鲁棒性和灵敏性。本章提出了一种SCBP特征和基于该特征的背景建模方法。SCBP特征通过一个非常简单的方式将纹理和颜色信息融合到一起,在不增加特征的计算复杂度的情况下,显著增强了模型对前景目标的辨别能力。因此,基于此特征的背景建模方法的对前景目标的检测率得到显著提升。此外通过自适应阈值学习和自动轮廓优化策略,基于SCBP的背景建模算法能有效的降低误检,准确的提取前景目标的真实轮廓。在动态背景上的实验结果验证了所提出算法的有效性。92\n第3章基于时空连续性约束的前景检测第1章基于时空连续性约束的前景检测准确地检测前景目标是一切背景建模方法的直接目的和最重要的衡量标准。由于动态背景的干扰,前景与背景并不是完全可分的,几乎所有特征和模型都无法避免误判的问题。在实际情况中,视频中存在着大量的冗余,视频数据不论是在空间上还是在时间上都高度相关。这种相关性可以为前景检测提供重要的外部参考信息,有利于减少误判。传统的背景建模算法往往只考虑了特征与模型之间的相似度,而对于时间和空间上的双重相关性要么缺乏考虑,要么考虑不够周全。针对上述问题,本章研究一种基于时空连续性约束的前景检测算法,将特征与模型的相似度、前/背景区域在时间上以及空间上的连续性在一个统一的数学框架下进行综合考虑,超越特征和模型本身的性能极限,提高前景检测的准确性。此外,该算法的另一个优点在于能适用于不同的背景模型。针对不同模型的实验也证实了所提出算法的有效性。1.1引言灵敏性和鲁棒性是背景模型最重要的两个性能指标。然而,灵敏性和鲁棒性是相互矛盾的,背景建模算法只能在此之间寻找最佳的平衡,因此无法避免误检和漏检的发生。通过调整前景判决的阈值能提升模型某一个方面的性能,而另一个方面的性能必然随之降低。即使采用新的特征和模型来提高对背景和前景的区分能力,上述问题仍然存在。因此必须引入外部信息方能超越鲁棒性和灵敏性平衡的性能。在视频中存在大量冗余,相邻的视频帧之间,同一帧内相邻的像素点之间都呈现高度相似性,这也是视频压缩的基础。对于背景建模来说,空间连续性体现在相邻的像素倾向于同属于背景或同属于前景,时间连续性则意味着前景目标在相邻帧中的位置不会发生突然变化。如果能充分利用数据间的相关性,将能有效提升前景检测的准确性。一些基于像素的背景建模方法完全忽略了像素间的相关性,独立的处理每一个像素点,如高斯混合模型、滤波算法等,只在最后对模型的输出结果(检测到的二值前景图)进行诸如腐蚀和膨胀之类的形态学处理。后来提出的一些算法在特征或模型层面上考虑了时空相关性。在基于核密度估计的非参数化方法中[22],引入了DP(DisplacementProbability)来衡量一个像素点与其邻域的背景模型的相似度,从而排除由于背景物体发生小幅位移而导致的虚警。贝叶斯模型[24]92\n第3章基于时空连续性约束的前景检测将位置信息也进行建模,将像素的水平和垂直坐标以及三颜色分量组成五维向量,直接对此五元特征分别建立背景和前景的分布模型,并利用马尔科夫随机场对像素点的空间上下文关系进行建模。在给定当前帧的条件下,通过最大化前景的发生概率进行求解。文献[116]在研究部分遮挡情况下人脸识别算法时,也采用了类似的框架对遮挡区域进行连续性约束。Vibe算法[25]采用第一帧中邻域的像素值对各像素点的模型进行初始化,而且还利用当前像素点对邻近像素点的模型进行更新。基于区域的建模方法[26,28,31,117]都在特征层面上对空间相关性进行了一定的考虑。而基于运动信息的建模方法[118]只考虑了时间上的相关性。同样基于主成分分析(PCAandPCP等)的背景建模[35-39]充分利用帧间的高度相关性,却对帧内的空间相关性考虑较少。这些方法对时空的双重连续性考虑的都不够周全。[119]中提出一种基于时空片段的建模方法,一个时空片段由连续几帧的中相同位置的图像块组成,其中既包含了视觉外观信息又包含了运动信息。然而,该方法仍然忽略了图像块边缘处的相关性,而且其扩展性不足,不能简单的适用于其他背景模型。本章的研究成果和主要创新点在于:1)提出了统一的连续性约束框架。该框架利用马尔科夫随机场,对特征与模型的相似度、时间连续性和空间连续性进行综合考虑和建模;2)提出了一种基于时空连续性约束的背景建模算法,并将其应用于不同的背景模型,取得了令人满意的效果。1.1基于时空连续性的前景检测直接采用阈值分割的方法没有考虑像素点之间的关联性,认为当时,,其中表示像素点i的标记,这种假设不符合现实情况。实际上视频数据存在大量的冗余,不论是时间上还是空间上,相邻单元间存在着紧密的上下文关系。这种关系能为背景建模提供重要信息。92\n第3章基于时空连续性约束的前景检测目标建模算法难以避免会出现一些误检和漏检,这是背景模型在敏感度和鲁棒性之间平衡的必然代价。那么如何寻找有效的办法来减少这些错判?常见的方法是对检测结果进行形态学处理,另一种方法是在特征层面上考虑数据之间的相关性,如利用区域特征或者运动信息进行建模,更有效的是直接在模型中纳入对这种上下文关系进行建模。绝大多数的背景建模算法要么单独考虑了空间相关性,要么仅单独考虑了时间相关性。本章提出了一种基于时空连续性的前景检测算法,给定前一帧的前景及当前帧,算法利用马尔科夫随机场对时间和空间的连续性进行统一的约束,不仅考虑了像素间的空间(帧内)相关性还考虑了时间(帧间)相关性。我们认为当前时刻各像素点所属的类别不仅与当前数据和背景模型相关,还与前一时刻的前/背景分布情况相关。令表示第t帧的图像的二值标记,0表示背景,1表示前景,为第t帧图像,那么我们的目的在于求解最优的:根据贝叶斯定理,我们可以将上次分解为:忽略分母以及考虑到,我们将得到:该概率包含三项,分别代表不同含义。其中是对当前数据与背景模型匹配程度的考虑,称之为相似度约束,中包含了对时间连续性的约束,而则对像素间的空间连续性进行约束。接下来本章将分别对这三项进行细致的介绍和分析。1.1.1相似度约束给定一个像素点的标记,那么各像素点之间条件独立。其中N为像素点的总个数。我们仍以基于SCBP的背景模型为例,按照以下方法估计似然函数。该似然函数的曲线如图3-1所示。其中表示像素点的SCBP直方图与背景模型的相似度。需要说明的是对于不同的模型,相似度的定义可能不同,但是可以统一采用上式进行相似度约束。参数控制了等概率点的位置,在。参数决定了曲线的陡峭程度,其值越大,曲线越陡峭,其判断越趋于硬判决,当时,该似然函数趋于阶跃函数。92\n第3章基于时空连续性约束的前景检测图3–1基于数据与模型相似度的似然估计曲线1.1.1空间连续性约束空间连续性源于物体的连续性,具体到背景建模问题即表现为邻近且内容相似相似的数据单元(此处为像素点)应具有相同的类别标记。图像处理中的膨胀和腐蚀运算是对空间连续性的一种硬约束方法。更多的方法则是通过马尔科夫模型进行软约束。我们采用IsingModel对像素点之间的连续性加以约束。其中为所有邻近点对的集合。一对点成为是邻近点,当且仅当其中一个点处于另一个点的邻域之中。给定全部的像素点,E实际上一个由全部像素点所构成的无向图,其中的每一个元素都表示图中的一条边。对于邻近的点,当且仅当其类别标记相同时,才对产生贡献。在此前的一些文献中[24,116],往往对所有的邻近点对一视同仁,,即图像各处的约束强度完全相同。这没有考虑到相邻的像素点可能差异较大甚至属于不同的物体,这种情况常常出现在目标的边缘处。不加区分的对差异较大且不属于同一物体进行连续性约束是缺乏依据的,并且可能造成不必要的风险。虽然Sheikh和Shah在[24]中建议了保边缘的马尔科夫随机场,但是并没有具体实现。本文采用更一般化的模型,即允许任意两个点之间的约束强度都不相同。1.1.2时间连续性约束在监控视频中,相对每秒20-30帧的采集频率,目标的运动是缓慢和连续的,当前时刻的目标位置处于前一时刻位置的邻域之内。是对相邻视频帧之间的类别标记间连续性的约束。一种直观的做法是定义一个2×2的92\n第3章基于时空连续性约束的前景检测转移概率矩阵,表示类别0和1之间转换的概率,然后将各像素视为独立进行累乘。由于前景目标以及一部分动态背景处于运动之中,不仅仅与有关,而是与其邻域内的像素点都相关,因此这个做法并不准确。我们注意到与只是一个变量在连续2个时间点上的采样值,当采用一个各向同性的运动模型(目标往各个方向运动的概率相等),两者的状态转移是一个可逆的过程,即。那么给定,是条件独立的,即其中表示像素点i半径为r的邻域,即,表示对两个像素点的二维坐标求欧氏距离,。本章中我们采用一个高斯窗运动模型,目标在下一时刻在窗口内不同位置出现的概率分布呈二维高斯分布,即那么我们可以得到:其中表示对进行高斯平滑后的取值,参数的意义是背景与前景的相互转换或者前景突然从背景中出现的概率,通常取较小值,本文中统一采用0.05。如果假设目标向邻域内各点运动的可能性是相等的,应该采用均匀分布的窗函数,此时就是内的1所占的比例。1.1.1最优化求解根据以上的分析,对数似然函数可以写为:上式可以采用Graph-cut[121,130]算法进行快速求解。我们采用Boykov等人开发的算法和代码[131]进行求解。92\n第3章基于时空连续性约束的前景检测在Graph-cut算法中,最优化问题是最小化代价函数,其中代价包括数据开销和平滑开销。数据开销表明了将某一像素点标记为0(背景)和1(前景)分别需要付出的代价,平滑开销表明临近的像素点同时赋予相同的标记和不同的标记时所需付出的代价。我们将相似度约束与时间连续性约束(公式2.19中的后两项)归于数据开销,而空间连续性约束归于平滑开销。需要进一步说明的是空间连续性约束的强度。具体到本文中,我们将像素点的4邻域点作为其邻近点,根据sobel算子得到的水平和垂直方向的梯度来设置对应的约束强度。,指经过归一化sobel算子滤波之后的图像。参数用于控制空间连续性的控制力度,其值越大对空间连续的要求越高。Error!Referencesourcenotfound.是空间连续性约束强度的示例。采用这种约束强度计算法方法的优点在于截断了物体边缘处的联系,防止连续性约束过度对真实的目标区域造成侵蚀。此外,由于只在物体内部形成约束,降低了算法对参数取值的敏感性。(a)原图(b)水平约束强度(c)垂直约束强度图3–2图像空间连续性约束强度1.1实验与结果分析我们分别将基于时空连续性的前景检测算法应用到不同的模型上,进行了实验验证。其中既包括基于区域纹理的背景模型也包括基于像素的背景模型。1.1.1区域纹理建模实验首先,针对基于LBP的背景建模方法进行了前景检测的实验。根据第2章中的分析和实验,基于LBP的背景建模方法对晃动的树枝等动态背景比较鲁棒,但是其灵敏性不足,造成目标区域发生缺损。同时由于该方法采用的是基于区域的纹理直方图,在目标的边缘处,真实的背景和前景的邻域存在大面积重叠。该算法对这种情况难以区分,会出现较多的误检。92\n第3章基于时空连续性约束的前景检测实验按照公式2.11定义当前特征到背景模型的相似度。比较了基于阈值分割(带自适应阈值学习)和基于连续性约束的前景检测方法,其结果如Error!Referencesourcenotfound.所示。图中第一列为原视频帧,第二列为原建模方法的前景检测结果,第三列为原结果与Ground-truth的比较(绿色表示误检点,洋红色表示漏检点),第四列为本章提出的基于时空连续性约束的前景检测算法的结果,第五列为检测到的前景与Ground-truth的比较。除“wavingtrees”外,另一段视频名称为“campus”,来源于[132]。其中不仅存在大面积随风晃动的丛林和光照变化,同时透明和反光的汽车玻璃也是一个较大的干扰。从图3-3中可以看到,提出的基于时空连线性约束的前景检测算法显著提高了前景检测的准确性。一方面自动的补全了原结果中的缺损区域,另一方面减少了误检。原LBP模型得到的前景目标轮廓比较混乱,而我们的算法最终得到的前景目标的轮廓与实际情况基本一致。图3–3LBP模型下基于阈值和基于连续性约束的前景检测效果对比。从左至右分别为原始视频帧,基于阈值的前景检测和与Ground-truth的比较,基于连续性约束的前景分割和与Ground-truth的比较,图中绿色表示误检点,洋红色表示漏检点。92\n第3章基于时空连续性约束的前景检测1.1.1基于像素的建模实验事实上,时空连续性约束的前景检测算法可以适用于各种不同的背景模型,唯一的要求是定义一个视觉特征与背景模型的相似度量。我们进一步测试了在高斯混合模型[19]和Vibe模型[25]下,采用基于时空连续性约束的前景检测所带来的性能提升。这两种方法都属于基于像素的背景建模算法,具有类似的优缺点。其中优点在于灵敏度较高,能检测出绝大部分的前景点,而缺点在于对动态背景的鲁棒性交叉,往往得到许多的噪声点。以往人们通常采用二值图像的腐蚀和膨胀对结果进行优化,但是这种做法不仅会破坏目标的轮廓,而且只能滤除较小的噪声块。高斯混合模型根据历史数据以多个高斯分量来拟合像素值的分布,其中一些高斯分量属于背景分量,如果当前像素点与任意一个背景分量匹配,则认为当前点为背景点。假设为像素点的模型,且其中前B个高斯分量属于背景,可以定义像素点与模型的相似度量为:其中参数用以控制相似度曲线的陡峭程度。Vibe模型直接采用历史数据作为模型,通过计算距离小于的近邻个数是否达到阈值来判断当前点是否属于背景。本文将像素点与背景模型的相似度定义为与个最近邻点的平均距离的函数。具体的,假设像素点的背景模型为,那么一种可行的相似度计算方法为:其中为按到的距离升序排列后的近邻点。Error!Referencesourcenotfound.和Error!Referencesourcenotfound.展示了在高斯混合模型和Vibe模型上,利用时空连续性约束进行前景检测的结果。图中每一行对应的原始图片与Error!Referencesourcenotfound.相同。第一列和第四列分别为基于阈值和基于连续性约束的前景分割结果;第二列和第五列为两种结果与真实情况的比较;第三列显示的是根据公式(3.10)和公式(3.11)的定义计算得到的相似度图。高斯混合模型和vibe模型的参数均采用文献作者提供代码中的默认参数。对于时空连续性约束中涉及的参数取值见Error!Referencesourcenotfound.。92\n第3章基于时空连续性约束的前景检测表格3–1基于时空连续性的前景检测实验所涉及的参数配置视频段CampusLBP200.6520/GMM100.4200.5Vibe200.4200.25WavingTreesLBP200.6520/GMM100.3200.5Vibe200.6200.25图3–4高斯混合模型下基于阈值和基于连续性约束的前景检测效果对比。图中每一行对应的原图像与Error!Referencesourcenotfound.中相同。第一列和第四列为原建模算法和基于时空连续性约束的前景检测结果,第二列和第五列为与真实前景的比较。中间图像为特征与模型的相似度量。92\n第3章基于时空连续性约束的前景检测图3–5Vibe模型下基于阈值和基于连续性约束的前景检测效果对比1.1.1讨论分析从以上列举的实验中我们可以看到,基于时空连续性的前景检测算法能同时提高前景检测的鲁棒性和灵敏性。基于区域纹理的方法对背景的动态扰动较为鲁棒,但是其缺点在于灵敏性不足,部分前景区域发生缺损,特别是运动目标的真实轮廓受到严重破坏。通过时空连续性约束能对缺损区域进行自动补全,有效地缓解了这一状况。最终检测到的前景较好的反应了目标的真实轮廓。基于像素的方法灵敏性较强而鲁棒性不足,通常能检测到全部前景(在“campus”中,透明的车窗玻璃造成了一些漏检),同时在动态背景区域会出现较多的噪点。基于时空连续性约束能有效的抑制噪点,而不会像形态学滤波那样破坏目标的轮廓。时空连续性约束的有效性源于三个方面的原因。首先,空间连续性约束迫使邻近的像素点具有相同的标记,否则需要付出更高的代价,从而能较好地抑制噪点和补全空缺;其次时间连续性限制相邻帧之间的前景发生较大变化,对较大面积的缺损和较密集的误检具有抑制作用;最后,采用与图像内容相关的空间连续性约束强度能较好的保护运动目标的轮廓。92\n第3章基于时空连续性约束的前景检测1.1本章小结由于特征及模型的区分能力有限,通常的背景建模方法需要在鲁棒性和灵敏性之间进行平衡,不可避免存在误检和漏检的问题。本章提出了一种基于马尔科夫随机场的前景检测算法。该算法利用视频数据在时间和空间上高度相关这一外部信息,来弥补特征和背景模型的不足,获得突破模型本身分辨能力的前景检测性能。算法从特征与模型的匹配程度,空间连续性约束和时间连续性约束三个方面进行综合考虑,在统一的框架下通过全局最优化求解获得前景区域。该算法能适用于各种不同的背景模型和建模方法,减轻背景模型在灵敏性和鲁棒性之间折中所带来的误检和漏检问题。我们针对多种背景模型进行了实验验证,基于时空连续性约束的前景检测算法能显著提高前景检测的性能。92\n第3章基于时空连续性约束的前景检测92\n第4章基于部件的非特定目标跟踪第1章基于部件的非特定目标跟踪继运动目标发现获取目标外观特征之后,目标的运动信息是智能视频监控中另一个重要的监控内容。目标跟踪也是学术界的一个研究热点。在众多的目标跟踪算法中,基于部件的方法能够在灵活性和鲁棒性两方面获得比较好的平衡,具有突出的优势,是一种有效的目标描述模型。传统的基于部件的目标跟踪方法需要根据目标的物理结构对目标进行分割并建立结构模型,因此需要一些先验知识。然而这种对先验知识的依赖严重束缚了这种优势方法的应用范围。针对上述问题,本章对不依赖与先验知识的基于部件的跟踪算法展开了研究,将基于检测的跟踪算法与基于部件的思想相融合,提出了一种普适的基于部件的跟踪算法。利用提出的矩阵模型,解除了传统基于部件的跟踪方法对先验知识的依赖。所提出的基于部件的非特定目标跟踪算法准确度高,误差累积慢,且能实现实时跟踪。相关工作发表在IEEEInternationalConferenceonMultimedia&Expo2010和JournalofConvergenceInformationTechnology2012上。1.1引言给定目标的初始位置和形态,目标跟踪的目标在于将目标在连续的视频帧中的位置标记出来。目标跟踪是计算机视觉领域一个重要的研究热点,在视频监控,人工智能,自动驾驶,面向对象的视频编码等许多方面都具有重要的应用价值。虽然学术界已经对目标跟踪进行了多年的研究,目前自然复杂环境下的目标跟踪仍是一个具有挑战性的问题,这主要是由于目标外观的动态变化复杂且难以预料。引起目标外观变化的因素多种多样,有与目标本身相关的内在因素,如不同姿态的呈现、不规则的运动、丰富的变形等,也有存在周围环境的外在因素,如光照变化、视角变化、遮挡、相机运动以及噪声等。在现实应用中,一个可靠的跟踪器需要同时处理以上干扰。按照模型对目标的描述方法,目标跟踪算法可以归为以下三类:基于局部特征的跟踪方法、基于部件的方法和基于目标整体的跟踪算法。基于局部特征的跟踪方法,以一组局部特征来描述目标,综合对各个特征的跟踪定位来完成对目标的跟踪。这种方法非常灵活,能较好的处理遮挡等问题,但是由于局部特征易受外观影响而不稳定,这类方法稳定性不足,如[58-63]即属于这类算法。基于目标整体的跟踪算法92\n第4章基于部件的非特定目标跟踪将目标视为一个整体,提取全局特征,在当前帧中寻找与目标整体上最为相似的图像块。著名的mean-shift算法[53],多数基于检测的方法[73,75]、和基于稀疏表达的方法[64,66]都属于这种类型。这类方法稳定性较好,能较好的排除目标姿态或者局部干扰的影响,但其灵活性不足,当发生较大面积的遮挡或者目标外观变化较快时容易丢失目标。部件模型[81,83,85,122]近些年来非常流行,特别是在对处理像人一样存在节肢结构的目标时取得了非常突出的效果。其基本假设目标是由多个稳定的部件组成,且这些部件之间存在着一定的空间位置关系(即结构模型)。基于部件的跟踪方法即利用这个原理将目标拆分成多个部件并建立结构模型,然后通过跟踪各个部件来寻找最符合其结构模型的目标。因为目标各个部件的外观相对稳定,又采用了可变形的结构模型,因此这类方法既有较高的鲁棒性,又有较强的灵活性。基于部件的方法也有缺点,最主要的问题是需要事先知道目标的具体结构和各部分的形态,否则无法进行分割和建模。即使如[123]采用非监督的增量学习方法也需要少量的初始数据进行训练,这极大的限制了这类方法的广泛应用。一方面,在实际的应用中的大多数时候,用户并不能于预先知道目标的类型,另一方面,一个结构模型通常只能适用于一类物体,而需要跟踪的物体可能各种各样。为了解决模型对先验知识的依赖问题,本章提出一种基于部件的非特定目标跟踪算法。与传统的基于部件的方法不同,该方法不考虑目标的结构而直接将目标分割成大小相同、互不重叠的阵列块,且块之间的相互位置关系固定不变,看起来就像一个矩阵,因此称之为“矩阵模型”。模型将每一个块视为目标的一个部件,并赋予其两个属性:检测器和权重。检测器标示了其外观,而权重则标示了该部件的可靠性。为了适应目标和场景的动态变化,这两个属性都能进行自适应的更新。1.1相关工作本小节主要介绍与本章工作相关的两方面的研究工作,分别是基于部件的跟踪算法和基于检测的跟踪算法。1.1.1基于部件的跟踪算法基于部件的方法是一种非常流行的目标学习框架,在目标检测、识别和跟踪中被广泛采用,特别是在对人体目标的处理上取得了巨大的成功。其主要基于两点假设:1)物体是由部件构成的;292\n第4章基于部件的非特定目标跟踪)物体的结构可变而部件却相对稳定。基于部件的目标跟踪算法先按照物体的物理结构将目标分割成若干组成部件,然后训练一组部件检测器,为了处理目标姿态的变化,根据部件的相互位置关系建立的结构模型通常是可变形的。Mohan等人[80]将人体分为头部、腿部、左臂和右臂(这些名称都不是生理意义上的定义,实际上右臂包括右侧上肢和右侧躯干),然后利用支持向量机(SupportVectorMachine,SVM)分别训练了针对上述四个人体部件的检测器。在进行检测时,他们将四个检测器的结果综合起来,利用基于样例的分类方法(example-basedclassifier)来判断一个图像块是否是属于人。Lin等人[81]则主要用头部、躯干、大腿和小腿四个部分来描述人体,并建立了一个分层的树形结构,利用模板匹配方法来匹配候选图像块。Wu等人[83]提出了一种鲁棒的行人跟踪算法。他们先训练了一组检测人体及其结构部件的检测器,然后根据这些检测器在新的视频帧中的响应进行行最大似然估计来确定目标的位置。Chang等人[82]将基于部件的方法应用于侧面车辆跟踪,将侧面车辆分割为前轮、后轮、车头和车尾四个部件。Martinez等人在粒子滤波的框架下提出了一种基于部件的跟踪算法[84]。他们对部件之间的位置关系进行动态建模,用于约束各部件可能出现的位置。Adam提出的一种fragment-based的跟踪算法[124](以下简称为FragTracker)。该算法将目标划分为横向和纵向的小图像块,然后对每个小图像块用一个颜色直方图表示进行基于模板匹配的跟踪,并对全部小块的跟踪结果进行投票。本章研究的跟踪算法与Fragment-based跟踪算法中对目标的划分方法有些类似,但是这两项工作之间存在显著差异。首先,差异体现在对部件(图像块)的表达模型不同。我们采用检测器和权重,而Adam采用的是颜色直方图;其次,权重策略不同。我们采用自适应学习的权重去衡量部件的稳定性和可靠性,并仅根据部分部件进行目标定位,而在Frag-Tracker中所有图像块以匹配相似度进行投票;第三,与Frag-Tracker不同,我们对模型进行在线更新。1.1.1基于检测的跟踪算法另一个与本章内容相关的研究方向是近年来非常流行的基于检测的跟踪方法(即trackingbydetection)。这类方法的核心思想是把跟踪看成区分特定目标和背景的二分类问题,也就是对特定目标的检测问题。通用的做法是利用经过训练的检测器在新的视频帧中检测目标对象。在这种框架下,一些有效的分类器学习算法,如SVM[54],Adaboost[73,74],随机森林[125],多示例学习[75]等,都被用来进行目标跟踪。S.Avidan提出了一种利用SVM进行跟踪的方法[54],其原理是先利用一些背景图像和目标图像离线训练一个SVM92\n第4章基于部件的非特定目标跟踪检测器,然后在每一帧中利用该检测器目标从背景中检测出来。由于是离线训练,该方法容易在目标和背景发生较大变化时丢失目标。后来Avidan又提出了基于Adaboost学习框架的目标跟踪算法[74],他利用一组弱分类器去判断像素点是属于背景还是目标。为了适应目标不断变化的情况,算法通过增加新的弱分类器和删除表现最差的弱分类器的方式对分类器集合进行在线更新。Grabner等人提出了一种新的在线boosting学习框架,并将其用于目标跟踪[31,73]。与Avidan添加和删除弱分类器的在线学习不同,OnlineBoosting在进行更新时对每个弱分类器都进行了更新。因此OnlineAdaboostTracker(以下简称OABTracker)能较好地捕获目标外观变化的并进行自适应更新。通过采用一些简单特征,OABTracker执行效率非常高,实时性较好。多示例学习是一种高效的分类学习工具,在目标检测和识别中获得了较好的效果[126],多示例学习的最大的特色是其训练集是一个个的样本包,标注是对包进行的,一个样本包为正表示其中至少存在一个正样本。它的学习过程并不需要知道每一个样本的类别,因此其突出的优点是能够处理训练集标注不准确或含有噪声的问题。Babenko等人将Viola等人提出的MILBoost[127]和OnlineAdaboost相结合,提出了基于onlineMILBoost的跟踪算法(以下简称MILTracker)[75]。虽然MILTracker比OABTracker模型要更复杂,但是它能较好的减轻跟踪过程中的误差累计,对遮挡和姿态变化也要更为鲁棒。1.1基于矩阵模型的目标跟踪算法本小节将介绍不依赖于先验知识的基于部件的跟踪算法。提出的目标跟踪算法框架如Error!Referencesourcenotfound.所示,其核心是矩阵模型。给定目标在第一帧中的位置和大小,算法用从第一帧中提取的图像块初始化矩阵模型,然后在后续的每一帧,重复目标定位和模型更新两个步骤。其中目标定位包括部件检测和定位两个分步骤,模型更新则包括检测器更新和权重更新两个分步骤。接下来先简单介绍将要用到的onlineboosting学习算法,然后分别从模型构造,目标定位和模型更新以及参数四个方面对提出的目标跟踪算法进行详细的介绍。92\n第4章基于部件的非特定目标跟踪图4–1目标跟踪算法框图1.1.1OnlineAdaBoost基于对鲁棒性和计算效率的考虑,我们选择Grabner等人提出的OnlineAdaboost来训练和更新部件检测器。Error!Referencesourcenotfound.展示了OnlineBoosting的学习框架,其由N个级联的选择器构成。每个选择器维护一个含有M个候选弱分类器的池子(通常这个弱分类器池是共用的)。当一个权重为的样本到达选择器时,先用该样本去更新弱分类器池并计算各弱分类器的累计误差,然后挑出其中累计误差最小的弱分类器,将其添加到最终的强分类器中,最后更新样本权重并将其传递给下一个选择器。当样本依次通过所有选择器之后,强分类器的更新也就完成了。图4–2OnlineBoosting学习框架[31]92\n第4章基于部件的非特定目标跟踪在这种框架下,一个强分类器是由个弱分类器构成,。这些弱分类器是由个选择器从各自维护的分类器池挑选出来的,即。更多细节请参考文献[31,73]。之所以选择OnlineAdaboost,其原因有三点:首先,OnlineAdaboost对运动和姿态变化等干扰具有一定的鲁棒性,更新速度更快,能适时捕获物体的外观变化;其次,该算法模型较OnlineSVM和OnlineMILBoost等学习算法更简单,时间效率更高;最后,由于采用了固定个数的选择器,OnlineAdaboost检测速度和更新速度稳定,对每一帧的处理时间基本相同,跟踪过程比较流畅。1.1.1矩阵模型如Error!Referencesourcenotfound.所示,一个矩阵模型由个元素组成,每个元素对应目标的一个部件。与传统基于部件的方法中的可变形的结构模型不同,该模型的结构是不可变的,即元素之间的相互位置关系在模型一旦初始化之后就固定不变,当采用固定大小的跟踪框时,各元素中心离目标的中心的偏移量也固定不变。该矩阵模型用两个属性来描述一个元素,分别是检测器和权重。检测器描述了物体对应部件的视觉特征,被用来在待检测帧的候选区域检测对应部件。权重是对部件稳定性或检测器可靠性的一种衡量。如果在一段时间内,被跟踪物体的某个部分的比较稳定,其视觉特征将接近不变,检测器的响应将越准确和可靠,这个部件的权重将较大,反之则权重比较小。结构上不可调整限制了矩阵模型对跟踪物体的姿态变化的处理能力。为了弥补这种缺陷,所有元素的属性都是可调的,模型通过在线学习和更新其属性来自动适应物体外观的动态变化。92\n第4章基于部件的非特定目标跟踪图4–3矩阵模型示意图对模型进行初始化时,我们先根据目标的大小和形状将目标分割成大小相同互不重叠的若干图像块,每一块对应矩阵模型中的一个元素和待跟踪目标的一个部件。对每个部件,提取偏移量小于某个值(本章中的实验均采用3)的图像块作为正样本,并在该部件附近提取一些图像块作为负样本,然后利用这些样本在OnlineAdaboost算法下初始化检测器,并赋予各部件均等的权重。1.1.1目标定位目标定位由两个小步骤构成。首先,利用全部的部件检测器在新的视频帧的检索窗口内进行穷举检测,然后利用各部件检测的响应结果进行目标定位。假设当前的部件数目为,搜索窗口的半径为,并令表示第k个部件检测器在位置的响应,我们定义部件置信图为:部件置信图是检测响应的S型函数,的值表示了第个部件出现在位置的可能性。由于矩阵模型的性质,各个部件到目标中心点的偏移量是固定的。理论上可以根据各局部置信图的峰值位置对目标进行定位。实际上,由于多种因素引起的目标外观的动态变化,各部件置信图所指示的最佳位置并不相同,而且不一定准确,甚至可能全部都不准确。因此我们必须进行一个全局考虑。92\n第4章基于部件的非特定目标跟踪一个比较直接的做法是将这些局部置信图求和,取其峰值位置为目标位置。这个做法的缺点在于没有区别对待不同的部件。根据生活中的直观经验,在大多数实际情况下,目标各部分的变化程度并不一致。通常都存在某些部件在一段时间内相对比较稳定,比起其他变化较快且幅度较大的部件,稳定部件对于跟踪来说更有参考价值,这也是我们设置权重属性的初衷。此外,目标中的某些部件可能在一段时间内出现快速而显著的变化,例如舞蹈者的腿部或者物体被遮挡的部分,这将导致对应的部件检测器更新速度跟不上且分辨能力低。这意味着部件检测器的响应提供的信息量较小且引入误差的风险较大。基于以上考虑,我们仅采用权重最大的前B个部件置信图的加权和来描述目标整体出现在不同位置的置信度。其中,是将权重按降序排列后的下标,表示各部件中心到目标中心的偏移量。其中参数,可由用户自行设置,其值越大则综合考虑的部件越多,稳定性差的部件导致的不良影响越多,相反,其值越小则对可靠部件的依赖性越强,一旦由高权重部件出现突然变化而引入误差的风险越大。我们将在之后的4.3.5节对参数的取值进行更详细讨论。一旦求得了全局置信图,目标的中心位置就不难获得了,事实上我们利用mean-shift算法迭代地计算一个小矩形窗的重心来获取真正的中心位置。权重机制使得我们对稳定部件给予更多的关注,并主要根据他们来进行目标定位。同时通过选择前B个部件置信图,我们既能降低不稳定部件的干扰又能保证目标定位的稳定可靠。1.1.1模型更新矩阵模型更新包括对检测器的更新和对权重的更新。a)检测器更新。矩阵模型采用著名的Haar-like特征[4]来描述一个图像块,在模型初始化时随机生成一些待提取特征的矩形区域,此后的每一帧都利用这些矩形区域提取一组Haar-like特征。该特征区分能力强,被广泛用于目标检测和识别,更重要的是通过采用累加图,其特征提取非常简单和高效。一个弱分类器由一个Haar-like特征及四个参数构成,其中表示负样本的均值和方差。的定义为:其中,,92\n第4章基于部件的非特定目标跟踪表示符号函数。假设当前的正样本集为,那么分类器的更新法则为:其中参数为学习速率控制参数,在本章的所有实验中其值为0.85。此外需要加以说明的是更新样本集的获取方法。将目标定位步骤得到的目标图像按矩阵模型分割成图像块。对于某个部件,以其对应图像块为正样本,同时在其附近一定的范围内随机采样一些(本章的实验中均为40)图像块作为负样本。然后用这包含1个正样本和若干负样本的训练集对检测器进行更新。a)权重更新方法。根据直观经验,如果一个部件在一段时间内保持稳定并且与其周围的环境区别明显,那么其检测器的区分能力将比较强,这个部件检测器就应当被视为可靠和重要。具体到提出的跟踪算法中,如果部件检测器指示的目标位置与最终确定的目标位置越一致,那么该部件检测器就越可靠。这包含两层含义:首先,部件置信图指示的目标位置(即峰值位置加偏移量)与接近;其次,部件置信图在附件形成突出的峰值。基于这两点考虑,我们采用一个分类问题来衡量部件检测器的可靠程度。令,即在局部置信图上对应的位置。将上以为中心,半径以内的点视为正样本点,将半径以外的点视为负样本点。那么根据上文分析,部件k越稳定,其检测器越可靠,这两个样本集将越容易分开,分类误差将越小。我们采用贝叶斯判决对该样本集进行分类。分别用高斯分布和来拟合正负样本集,则分类的判断法则为:其中表示数据和分布之间的马氏距离。具体到高斯分布,该分类器等同于:假定用分类器对正负样本集进行分类的错误率为,那么该部件检测器的可靠性定义为。最后权重更新法则为:92\n第4章基于部件的非特定目标跟踪其中为权重的学习率,其值越大,权重更新越慢,反之则越快。根据上式,对于稳定或者缓慢变化的部件,其检测器能准确的捕获其视觉特征,得到的误差较小,其权重将逐渐增大,反之,变化较大的部件的权重将逐渐减小。极端情况下,当部件急剧变化时,误差大于1/2时,权重将快速下降。我们测试了在典型的部分遮挡发生时各部件权重随遮挡情况发生的变化,如Error!Referencesourcenotfound.所示。该图上部是若干视频帧,其中标出了被分割为4块的目标和帧数。图的下部是各部分的权重在不同帧的变化曲线(曲线为5次独立运行的平均值,此处参数分别设置为0.9和0.8)。由图片可以看出,当目标的某些部件被遮挡时,其对应权重降低,当遮挡情况发生改变时,权重分布也随之改变,这与我们预期的一致。与此同时,由图片中的矩形框可以看到,跟踪算法也始终准确的对目标进行了定位,对部分遮挡的鲁棒性良好。图4–4权重随不遮挡变化示意图1.1.1模型参数在我们的模型中,有一组参数需要用户设定。包括分类半径和,搜索半径,权重学习率,阈值,分割的部件数以及和OnlineAdaboost相关的弱分类器数和候选弱分类器数。这些参数对跟踪准确性都有一定的影响。对于三个半径,分别采用经验值,和。本章的实验证明这些经验值对不同的跟踪目标和状况都能取得较好的效果。参数92\n第4章基于部件的非特定目标跟踪控制了被选择进行目标定位的部件数量,一个合适的值既能避免不稳定部件的误差又能避免对高权重部件的过分依赖。对与不同的视频,其最优取值并不相同,而且对跟踪效果的影响并不直观。则控制了权重的更新速度,与一样,其对跟踪效果的影响难以预料且对于不同的视频可能会有不同的最优值。因此我们选择6个视频进行了参数调整,这六个视频分别是“CokeCan”,“Davidindoor”,“Davidintrellis”,“Occludedface”,“Occludedface2”以及“walkingwoman”,这些视频中包含了光照变化,姿态变化,遮挡,运动等多种典型的跟踪难题,详见4.4.1节。Error!Referencesourcenotfound.展示了参数实验的结果。其中图a展示了固定时,随值的不同,跟踪的准确性(以4.4.1节的重叠率评价)变化。从图中可以看到,虽然对于不同的视频情况不尽相同,取0.8或0.85时,跟踪算法全部的视频上都取得了较好的准确性。图b展示了固定时,跟踪准确性随变化的情况。图b显示,当取0.9时,跟踪算法在多数视频上能取得不错的效果。因此在本章其余的实验中,除非特别声明,和分别取0.8和0.9。矩阵模型的尺寸问题主要和目标的形状和大小有关。根据我们的经验,部件是数量宜在4和9之间。部件越多,模型越复杂,同时也更灵活。另一方面如果部件太小,则可能包含的特征稀少,难以与周围背景及其他部件进行区分。在本章的试验中,我们将目标分割为4个部件(2行×2列或4行×1列)、6个部件(3行×2列)或9个部件(3行×3列),详情见Error!Referencesourcenotfound.。事实上,模型对分割的要求比较宽松,算法可以根据目标的形状和大小自动作经验性的分割。OnlineAdaboost框架中的选择器个数(即组成强分类器的弱分类数目)和候选弱分类器数量不仅影响跟踪的准确性,也影响算法的处理速度。在本章所有的试验中,并且除特殊声明外,。当搜索半径为15,时,我们的跟踪算法在普通PC机(2.0GHzDual-CoreCPU,1GBRAM)上能每秒处理30帧,当时,能每秒处理16帧。92\n第4章基于部件的非特定目标跟踪图4–5参数(a)和参数(b)的取值测试实验结果1.1实验与结果分析1.1.1实验数据及评价准则我们选择了12段视频进行跟踪性能测试,其中除一段视频外的其余11段视频都是公开数据,且在一些关于目标跟踪的学术文献中多次作为实验数据被用于跟踪算法的性能测试。这些测试视频数据包括:OccludedFace&WalkingWoman:这两段视频由Adam等人提供[124]。前一段视频中的目标是一张不时被一本书遮挡的正面人脸(见Error!Referencesourcenotfound.的图像帧),最大遮挡面积约占目标面积的2/3,这属于典型的局部遮挡问题。后一段视频展现的是现实马路场景中一位行人沿街行走并不时被路边停靠的车辆遮挡住下半身的情景,其中包含了遮挡,运动,姿态,变焦等多种问题。Adam仅提供了第一段视频的groundtruth,我们手动标注了第二段视频,每隔5帧标注一帧。Fish,Car11,DavidIndoor,DavidInTrellis,Dudek以及Sylvester:由Ross等人[128]提供。“Fish”中的目标是一个鱼的模型,“Car11”是在夜景中拍摄的行进中的汽车尾部,“Sylvester”的目标是一个毛绒玩具,其余的目标都是人脸。这些视频中都包含了较为复杂的光照变化,既有渐变也有突变。除具有挑战性的光照变化之外,这些视频还包含了其他跟踪的难点问题。“Fish”中还包含了快速抖动,“Car11”分辨率较低,画面较模糊,“DavidIndoor”,“DavidInTrellis”和“Dudek”都包含了姿态旋转,“Sylvester”中存在频繁的遮挡和快速运动。92\n第4章基于部件的非特定目标跟踪Babenko[32]提供了“Davidindoor”的groundtruth,其余的都由我们手动进行标注。Girl&Poker:前者及其groundtruth由Birchfield提供[129],其中存在着不规则运动,360°立体旋转以及遮挡问题。后者是由本文作者自行拍摄的,其内容是一张不断被弯折和扭曲的扑克牌,并被基于相同的扑克牌部分遮挡。主要包含了变形和遮挡问题。CokeCan&OccludedFace2:由Babenko[32]提供数据和groundtruth。第一段视频中的目标是一个可乐罐。除典型的运动,遮挡,立体旋转和光照变化之外,可乐罐还存在一定的镜面效应,这也给跟踪增添了一些难度。“OccludedFace2”比“Occludedface”更具难度,除了遮挡,还存在旋转,伪装等问题。在之前的文献中,用像素衡量的定位误差(LocationError,LE)是一个被普遍采用的跟踪性能评价指标。LE是指跟踪算法所定位的目标中心与groundtruth之间用像素计量的距离。在本章中,我们将主要采用平均重叠率(AverageOverlapRate,AOR)来衡量跟踪的准确性。重叠率指跟踪算法确定的矩形框与实际的目标区域重叠部分面积占矩形框面积的比例。跟踪算法在一个视频上的AOR等于所有帧的重叠率的平均值。AOR的取值在0到1之间,0意味着丢失目标,1表示跟踪完全准确。作为评价指标,AOR是比LE更先进。其原因在于AOR能准确的反应跟踪的准确程度和状态,而同样的LE值对于不同的目标意义可能完全不同。例如LE=15对于10×10大小的目标意味着完全跟丢,而对于大小为100×100的目标却是比较准确的跟踪。此外,当丢失目标时,LE值的大小没有任何意义。92\n第4章基于部件的非特定目标跟踪1.1.1鲁棒性测试本小节对提出的基于矩阵模型的跟踪算法的鲁棒性进行了测试。针对典型跟踪问题,如部分遮挡,光照变化,姿态和形状变化以及混合问题,各选择了两段视频分别计算其AOR值和LE值,测试结果如Error!Referencesourcenotfound.所示。图中蓝色曲线和左侧蓝色纵坐标表示LE值,洋红色曲线和右侧洋红纵坐标表示AOR值。所有曲线均为5次独立运行的平均值,且。1)部分遮挡问题。测试视频为“OccludedFace”和“WalkingWoman”,测试结果如Error!Referencesourcenotfound.(a)及Error!Referencesourcenotfound.(b)所示。前者是典型的局部遮挡,本章提出的基于部件的跟踪算法对遮挡问题比较鲁棒,即使当遮挡面积最多达到目标面积2/3时,最低的AOR值也保持在54%以上。2)光照变化问题。我们挑选了“car11”和“Fish”进行测试,前者光照变化是渐变的,且光线环境非常复杂,而后者的光照存在突变。实验结果如Error!Referencesourcenotfound.(c)及图Error!Referencesourcenotfound.(d)所示。在复杂的光照环境下,算法最大的定位误差也不超过12个像素。3)姿态和形状变化。分别用“Dudek”和“Poker”测试提出的跟踪算法对姿态和形状变化的鲁棒性。Error!Referencesourcenotfound.(e)及Error!Referencesourcenotfound.(f)所展示的实验结果表明,本章所提出的跟踪算法能始终比较准确地定位目标。4)混合问题。在实际应用中,往往是多种问题混合在一起,一个鲁棒的跟踪算法需要同时处理多种问题。Error!Referencesourcenotfound.(g)及Error!Referencesourcenotfound.(h)展示了本章提出的跟踪算法在“OccludedFace2”和“DavidIndoor”上的跟踪结果。曲线展示了跟踪算法能同时处理遮挡,旋转,光照,运动等问题并取得比较准确的结果。综上所述,提出的矩阵模型及基于此模型的跟踪算法对部分遮挡,光照变化,姿态变化以及多种问题混合的情形都能准确的进行跟踪。92\n第4章基于部件的非特定目标跟踪(a)OccludedFace(b)WalkingWoman(c)Car11(d)Fish(e)Dudek(f)Poker92\n第4章基于部件的非特定目标跟踪(a)OccudedFace2(b)DavidIndoor图4–6提出的基于部件的跟踪算法的鲁棒性测试。包括部分遮挡问题(a&b)、光照变化(c&d)、姿态和形状变化(e&f)以及混合问题(g&h)。1.1.1对比实验本小节主要将本章提出的基于矩阵模型的跟踪算法与其他跟踪算法进行对比。对比的算法包括简称FragTracker[124],OABTracker[73]以及MILTracker[75],这些都是近年提出的比较著名的跟踪算法。我们直接运行由Adam代码获取地址:http://www.cs.technion.ac.il/~amita/fragtrack/fragtrack_console_app.zip.(FragTracker)andBabenko代码获取地址:http://vision.ucsd.edu/~bbabenko/data/MilTracker-V1.0.zip.(OABTrackerandMILTracker)提供的代码。除了将搜索半径都设置为15,FragTracker的其他参数都采用作者建议的数值。对于OABTracker和MILTracker,选择器数目N=50,而候选弱分类器池的大小M=250。为了保证对比的公平性,我们将这些弱分类器平均分配给矩阵模型中的每一个元素。假如目标被分割为4个部件,则每个部件的检测器是由从个弱分类器池中选出的个弱分类器组成,同样的,如果目标被分割为9个部件,那么部件的检测器将只包含6个弱分类器。Error!Referencesourcenotfound.列出了上述几种算法在不同的视频上的跟踪效果(以5次独立运行的平均AOR衡量,黑体表示最佳性能)。数据表明新提出的基于矩阵模型的跟踪算法在全部12段视频上的跟踪性能都要明显优于比同样采用OnlineAdaboost的OABTracker。FragTracker以其对遮挡的出色性能而著名,提出的跟踪算法在对遮挡问题的处理能力与之相当,而在其他具有挑战性的光照,姿态等问题上则显著优于FragTracker。除视频“Sylvester”之外,我们的跟踪算法的准确性都要优于MILTracker。我们的算法在“Sylvester”上不及MILTracker的原因在于该视频中的目标比较小且纹理不丰富,分割成部件之后,部件检测器的区分能力较弱,这种情况恰是矩阵模型的弱点。当目标过于小或者平坦区域较多时,矩阵模型对目标的描述能力较弱。视频“DavidinTrellis”中的光照异常复杂,阴影程度深且变化快,因此所有跟踪算法的AOR值都不高。即使如此,我们的跟踪算法的AOR值要远高于其他算法。Error!Referencesourcenotfound.给出了一些92\n第4章基于部件的非特定目标跟踪跟踪算法的视频截图,为了保证图像的清晰,性能最差的FragTracker的效果并未在图中标示出来。图4-8则列出了不同算法的AOR曲线,该曲线能较好的反映跟踪的状态和误差累计的速度,从中可以看到,我们新提出的跟踪算法能准确性都高于其他三种算法,当其他算法由于误差累计,重叠率随时间增长下降较快,而我们的跟踪算法却能在长时间内保持一个较稳定的跟踪性能。表格4–1不同跟踪算法的性能对比,其中粗体表示最佳性能SequencesMatrixsizeFragTrackerOABTrackerMILTrackerProposedCar11220.140.540.390.75CokeCan320.090.290.420.60Davidindoor330.360.450.690.80Davidintrellis330.460.230.300.58Dudek320.650.670.730.81Fish330.630.640.700.94Girl330.760.530.670.78OccludedFace330.930.630.760.84OccludedFace2330.780.760.770.86Poker320.580.720.720.73Sylvester220.650.600.730.70WalkingWoman410.190.210.190.84图4–7目标跟踪的视频截图92\n第4章基于部件的非特定目标跟踪我们注意到表格中的某些单元的AOR比较低,这主要是因为这些跟踪器较早的丢失了目标。对比而言,提出的跟踪算法在所有视频上都始终未跟丢目标。此外我们还注意到一些结果与文献中的不尽相同,例如文献[124]中,FragTracker在“Walkingwoman”上的定位误差在5~10个像素,而在本实验中却跟丢了目标。这主要是因为原数据未提供groundtruth,双方都自行进行了标记,从而导致目标的大小不同。在文献[3]中,目标只包括了比较稳定的躯干部分,而我们将摆动的手臂和下肢都认为是目标的一部分,因此跟踪难度更大。(a)Fish(b)Davidindoor(c)Walkingwoman图4–8不同算法的AOR曲线对比1.1.1讨论分析本章提出的基于矩阵模型的目标跟踪算法是一种不依赖于先验知识的基于部件的跟踪算法。一系列实验表明该算法对目标多种情形的外观变化具有良好的鲁棒性。这其中有两个方面的原因。一方面,矩阵模型继承了OnlineAdaboost对目标的辨识能力和对动态视觉特征的跟踪能力。各部件检测器不断地利用从视频帧中抽取出的正负样本集来更新自身,使得检测器能在一定程度上自适应的捕获目标发生变化的视觉特征。另一方面,权重策略也发挥了重要作用。通常在一定时间内,只有部分目标区域变化显著。在矩阵模型的框架下,跟踪算法主要根据可信度高的区域进行目标定位,这大大降低了误差的引入风险和累积速度。92\n第4章基于部件的非特定目标跟踪目标跟踪实际上是一个预测过程。一个预测过程通常需要反馈或等价的其他信息来消除累积误差。但是对于目标跟踪算法,除了目标的初始状态别无其他信息,因此无法获得目标定位的误差反馈,这导致跟踪过程的误差累积难以避免。为了处理目标动态变化问题,通常的选择是利用跟踪的结果对跟踪器进行更新,但是每一次的更新过程都有可能引入新的误差,从而导致跟踪器发生漂移并最终导致目标丢失,这是所有在线跟踪算法的通病。近些年,学术界提出了一些缓解这个问题的方法,如半监督学习[76]、联合跟踪[77,78],以及利用额外的结构信息等[71,72]。虽然我们的跟踪算法直接采用跟踪结果作为反馈来更新模型,但是它却显著缓解了误差累积问题。首先,权重高的部件特征明显且比较稳定,其定位误差较小。目标定位时给予了高权重部件更多的关注从而减缓了误差累积的速度。其次,不同部件的误差通常具有不同的方向,对局部置信图加权求和时抵消了部分误差。因此部件之间存在着既竞争又合作的关系,这种机制减轻了跟踪器的漂移问题。在对比实验中,部件检测器中的弱分类器个数要远小于OABTracker和MILTracker,在检测器的分辨能力显著降低的同时却取得了更高的跟踪性能。那么是否可以在不牺牲跟踪性能的情况下进一步降低弱分类器的数目?为了验证上述猜测,我们在视频“Walkingwoman”和“Davidindoor”上进行了实验验证(为了方便起见,目标都分割为4个部件)。表格5.2列出了不同弱分类器数目下的跟踪性能。从中我们得出两点结论:1)可以降低弱分类器数而不牺牲性能。实验中,当单个部件检测器中的弱分类器数目低至5(walkingwoman)和8(Davidindoor)时,仍然取得了同等水平的跟踪性能。2)当达到一定的水平后,不断添加弱分类器数量并不能显著提高跟踪算法的准确性。表格4–2不同弱分类器数目情况下跟踪算法的性能对比MatrixsizeNintotal203240526080OABMILN=5022Davidindoor0.650.820.830.840.860.880.450.6941WalkingWoman0.760.760.690.860.770.820.210.191.1本章小结基于部件的目标跟踪方法是一种优势算法,然而传统的基于部件的跟踪算法都是基于目标的结构模型的,对先验知识具有依赖性。这在现实应用中面临多方面的问题。一方面,先验信息难以获取;另一方面,传统基于部件的跟踪方法往往只能跟踪某一特定类型的目标,这大大限制了这类方法的应用范围。92\n第4章基于部件的非特定目标跟踪针对这个问题,本章提出了一种基于部件的非特定目标跟踪算法,其核心是用新提出的矩阵模型来对目标进行分割和建模,解除了传统基于部件的方法对目标物理结构等先验知识的依赖,能跟踪任意类型的目标。同时,矩阵模型中更新策略使得该模型能较好的适应目标外观的动态变化,特别是通过提出的权重策略提高了跟踪算法的稳定性和可靠性。我们针对不同目标类型和不同的干扰因素进行了细致的实验,实验结果表明该算法能较好的处理光照、姿态、遮挡以及运动等多种问题,性能优于其它的算法。92\n第4章基于部件的非特定目标跟踪92\n第5章面向目标的监控视频检索系统第1章面向目标的监控视频检索系统随着监控设备的普及化,城市中布设监控摄像头数量达数十万之多,并且仍在快速增长之中。随之带来的是视频数据的急剧增长,如何快速地从海量数据中获取用户所需的信息成为智能视频监控系统的一个关键问题。本章在之前的研究基础之上,用实际的监控数据搭建了一个面向对象的监控视频检索的原型系统。该系统的特色在于是以视频中的运动目标为检索的对象,根据用户输入的查询图片,返回包含相似目标的视频片段,供给用户查看、播放和下载。这与以查找相似关键帧或者相似场景为目标的互联网视频检索存在根本差别。该系统能索引数百万的视频段,为用户提供方便方便的视频检索服务。用户可以输入视频帧、照片以及手绘草图等任意的图像,用鼠标框选出感兴趣的目标作为查询词,点击查询之后系统能在1~2秒之内返回查询结果。1.1引言传统的监控系统都是一种采集—存储—查询模式。当需要查询时,通常只能根据时间和地点进行视频回放。这种方法既不方便也不直观,而且极其低效,只能在很小的时空范围才能进行。一旦当时间和地点的范围较广泛时,工作量将会迅速扩张到人们难以承受的范围,甚至不具有可操作性。例如2012年1月南京发生震惊全国的持枪抢劫案之后,南京警方为了获得疑犯的面貌特征和行动踪迹,数百警力日夜轮班观看各处的闭路电视数据,耗时数周才找到了疑犯的一些视频数据。面向对象的视频检索对于智能视频监控系统具有重要意义。首先,在监控应用中,人们感兴趣的是场景中的目标,以目标为对象的检索更符合人们的需求;其次,在进行事后查询时,有时并不能准确定位时间和地点,大范围的视频检索能节省大量的人力物力;第三,面向对象的视频检索能发现目标在不同时间不同地点的行动踪迹,这比单独的事发现场视频能提供更多的信息,对于侦查和办案更有帮助;第四,检索系统能更充分的发掘和利用海量视频数据中的信息,提高数据的利用率,否则绝大部分的数据都将在存储超期之后自动删除而不产生任何效益。92\n第5章面向目标的监控视频检索系统面向对象的视频检索对于大规模立体监控网络具有重要意义。随着通信技术和物联技术的发展以及网络的建设,监控终端的网络化成为流行趋势,将来遍布城市的监控终端将组成一个立体的互动网络。面向对象的视频检索技术能在终端之间以及终端与服务器之间进行关于内容的通信与交互,充分发挥网络的功能与作用。例如利用检索技术在全城定位某个目标。目前国内外有不少基于内容的图像与视频检索的系统,甚至部分已经商用。这些系统基本上都是针对互联网数据的。然而监控视频的检索需求与互联网有明显区别。在监控应用中,人们关注的只是占画面较小比例的目标,而不是图像整体的特征。检索时人们更期望找到的是同一个目标在不同时间不同地点的出现的情况,而不是像向日葵、摩托车等某一类型的物体。因此现有互联网视频检索方法通常都难以应用于监控视频检索。运动目标发现的研究为以运动目标为对象的检索提供了可行性与支撑。在此前的研究基础上,我们搭建了一个面向对象的监控视频检索系统,本章将对其进行详细的介绍。Error!Referencesourcenotfound.展示了我们的检索系统框架,其由三部分组成,分别是数据生成子系统、前端服务子系统以及数据库。数据生成子系统自动分析新采集的视频数据,并将提取的目标信息添加到数据库中。前端服务系统包括搜索引擎和用户界面两部分,面向用户提供多种功能的查询服务。首先我们利用背景建模算法将视频中的目标提取出来,然后对目标小图片计算特征向量。将每个视频视为一个文档,将一个小图片视为一个单词,那么文档是一系列单词的组合,用对应的一组特征向量来表示。最后对文档集建立倒排索引来提供快速检索。图5–1面向目标的视频检索系统框架92\n第5章面向目标的监控视频检索系统1.1系统功能介绍Error!Referencesourcenotfound.展示了我们的视频检索系统界面和演示示例。界面分为左右两个部分。右侧是返回结果显示窗口,左侧是用户输入和统计栏,包括查询图像显示窗口,用户操作区和结果统计栏。开始查询之前用户需要设置视频文件的路径,否则为默认路径。查询开始时,用户首先通过点击“选择图片”按钮从本机选择一张图片作为查询图像,其次通过鼠标拖动操作在查询图像上框选出想要查找的目标,然后点击检索按钮即可。返回的信息包括视频段的关键帧缩略图、视频的采集日期、文件名、与查询词的相似度以及总计找到的相关的视频数量。如果框选不够准确,可以点击“开始/重新标记”来清除目前查询图像上的框。如果需要回放视频,只需双击对应的缩略图即可播放视频,视频播放的界面如Error!Referencesourcenotfound.所示。回放时可以对视频进行暂停、全屏以及拖动播放进度条进行快进等操作。图5–2视频检索系统界面及演示92\n第5章面向目标的监控视频检索系统图5–3视频回放演示事实上只要是彩色图像都可以用来查询,例如可以根据目击记忆手绘一个穿红色上衣黑色裤子的人体图像,然后上载到检索系统进行查询,如Error!Referencesourcenotfound.所示。图5–4利用草图进行检索1.1系统内幕以下将分别从数据收集,特征提取,索引和排序三个方面详细介绍该系统。1.1.1数据本实验室所在的办公楼安装了一个16路的监控系统,可以方便的获取监控视频数据。该系统能自动的通过差分法检测场景中有无运动物体,并仅将包含了运动物体的视频段保存下来。视频的分辨率为512×288像素92\n第5章面向目标的监控视频检索系统,这个系统能存储大约1个月的监控数据。由于楼道的光线环境问题以及监控系统自身缺少维护的原因,仅有大厅编号为1的通道所采集的视频数据质量较高,其他路视频几乎人眼也难以对目标进行辨认。因此我们选用通道1的视频数据作为查询数据。我们下载了从2011年5月22日至2011年6月17日这27天的视频片段,总计包括19619段视频,系统以这些数据作为索引数据库。这些视频存在着显著的光线变化(阳光,灯光),场景中存在着反光的镜面物体,还有电梯等动态背景。原始数据格式为厂商自定义的mp4,为处理方便,我们将其转成了avi格式,总计大小约为110GB。我们从中提取了幅前景目标图片,如图5.2展示了视频和前景图片的示例。表格5–1视频数据库相关参数视频天数:27天视频总数:19619段视频分辨率:512×288pixels数据大小:110GB提取的目标图片总数:张平均目标图片数:168.3张这些视频片段都具有几乎相同的背景场景,如果直接采用基于内容的网络图片(视频)检索方法,这些视频之间都高度相似,无法返回正确的结果。然而通过运动目标检测技术,直接以场景中的运动目标为检索对象,基本消除了相同的背景对检索结果造成的不良影响。92\n第5章面向目标的监控视频检索系统(a)视频样例(b)视频帧中抽取的运动目标图5–5视频与提取的运动目标示例1.1.1特征通常监控录像都不是很清晰,并且数据量较大,而颜色特征处理较为方便,且对目标具有较好的区分性,因此我们选取图像的颜色特征来进行相关检索。常用的颜色空间有RGB彩色空间、HSV彩色空间、HSI彩色空间等。其中HIS颜色空间是基于人的视觉系统,从色调(Hue)、饱和度(Saturation)以及亮度(Intensity)三个角度来描述颜色,符合人们对颜色的感知和鉴别能力[133]。因此我们选用HIS颜色空间来提取颜色直方图。颜色空间转换及量化。对于一幅给定的图片,我们先采用公式(5.1)~(5.3)将图像从RGB颜色空间转为HIS颜色空间。(5.1)(5.2)(5.3)由于直接转化的颜色种类较多,直接计算会耗费大量的时间及存储空间。因此我们对颜色先进性适当量化后在计算,这样便可以节省大量运算空间并提高效率。我们将色调(H)空间划分为8个子空间,将饱和度(s)空间划分为3个子空间,将亮度(H)空间划分为4个子空间。具体的划分如下:92\n第5章面向目标的监控视频检索系统(5.4)(5.5)(5.6)通过量化我们将HIS空间划分成了许多小的颜色子空间,然后我们按照下式将这些子空间编号(即将每个子空间映射到颜色直方图的一个维度):式中、、分别为该像素点的色度、饱和度及亮度量化后的数值。提取的目标图片背景部分亮度值在量化之前已完全置为0,故(即)的像素点则忽略不计。当亮度值为或者时,人眼已很难区分饱和度与色度,因此我们对HIS空间的两个尖端部分不进行饱和度与色度量化。颜色直方图特征完全丢弃了颜色分布的空间信息,视觉上差异很大的图像可能却拥有相同的特征向量。例如一个穿红色上衣蓝色裤子的人与一个穿蓝色上衣红色裤子的人本应该完全不相似或者相似度很低,有必要加以区分,而两者的颜色直方图却可能很相似。为了处理这种情况,我们引入一定的颜色分布的空间信息,将图像分为多个子图像块分别提取50维的直方图。考虑到数据库视频中的目标主要是行人,我们人的结构特点将图像以0.3:0.4:0.3的比例划分为上中下三块并提取总计150维特征,如Error!Referencesourcenotfound.所示。92\n第5章面向目标的监控视频检索系统图5–6提取目标的颜色直方图前述的量化人为的对颜色空间进行了切割,一些颜色相近的点被划分到了不同的子空间。考虑到这个因素,我们在三维HSI空间中对直方图进行了平滑处理。假设落在直方图当前维度上的像素个数为N,而落在其临近的子空间中的像素点数量分别为,那么平滑处理之后该维度上的像素个数为:需要特别注意的是此处的临近子空间不是指直方图上临近的特征维度,而是指HIS颜色空间中紧邻的小块。最后将个图像块的颜色直方图进行归一化,并将各部分的特征串联起来,形成150维的颜色直方图作为对目标图像的特征描述并用以检索。1.1.1索引与排序倒排表是一项比较成熟且高效的索引技术,在基于文本的网页检索中得到广泛应用,特别适用于大规模的数据索引[135]。面向目标的视频检索系统也采用了倒排表进行索引。其中,每个索引项包括一个视频编号以及多项成对的目标图像和帧编号,记录了视频中出现了该单词项的目标图像的编号以及该目标处于视频中的哪一帧。与文本文档的检索类比,视频段即相当于文档,目标图片的特征相当于词项。但是图像特征具有几乎无穷多种可能,我们必须找到一个有限数量的词典来描述全部的视频文档。运动目标检测和特征量化的过程就相当于文本索引中的词条化步骤。本章中我们尝试了两种词典生成方法,一是层次聚类,另一个是谱哈希方法。92\n第5章面向目标的监控视频检索系统图5–7系统采用的倒排索引结构在层次聚类中我们利用kmeans聚类算法生成一个二叉树。首先将330多万条特征向量利用kmeans聚类算法分成两类,成为根节点的左右子树,分别用类的中心节点表示根节点的左右孩子节点。然后按照同样的方式分别将这两类进一步划分成两类,直到单个类的样本数量小于阈值。我们的查找树如Error!Referencesourcenotfound.所示。与传统的层次聚类不同,我们并没有直接采用“叶子节点”(绿色节点L1~L5)作为单词,而是先设置一个较大的阈值,然后将“叶子节点”再聚类成多个子类(橙色节点Cik,称为终端点,用子类的聚类中心表示)。全部“叶子节点”的所有终端点即构成了词典。Error!Referencesourcenotfound.所展示的查找树的最后一层并非二叉树。在进行查询时,给定一个查询词(特征向量),从根节点出发先在树中进行二叉查找直到找到对应的“叶子节点”,然后在该节点下的终端点中查找与最邻近(图中红色虚线箭头表示的路径)。最后将最近邻对应的倒排表取出来,对其中索引的视频段进行排序。如果采用二叉树的结构,一个查询将只能找到一个单词的倒排表,那么出现在其他子类中与之相似的数据将会被遗漏。通过采用这种复合结构,一个查询输入将能找到若干个与之邻近的单词,再对这些单词的倒排表项进行评分和排序。这样就能减少一些遗漏。事实上K-DTree能实现无遗漏的查询,但是其内存消耗过大(需要存储全部特征向量),而且当数据维度过高时,K-Dtree的效率也迅速降低。因此我们选择采用层次聚类的方法进行特征量化。具体实现中,我们设定阈值,并且对每个叶子节点的类进一步聚成个类,那么进行一次查询大致需要进行次向量间距离计算。92\n第5章面向目标的监控视频检索系统图5–8层次聚类的查找树此外,我们还尝试了哈希算法进行词典量化。语义哈希(semantichashing)能将高维的数据特征映射为较短的哈希值,并且使得特征空间中邻近数据点的哈希值之间具有较小的汉明距离,在基于内容的相似图像检索中应用较多。语义哈希能在常数时间内找到与查询图像相关的倒排表,特别适合大规模的多媒体信息检索。谱哈希[136]是语义哈希算法的一种,它通过求解式5.9的最优化问题,寻找从数据到哈希值的最佳映射函数,详情请参见文献[136]。上式中,为数据点之间的相似度量。谱哈希将高位特征空间中的数据点映射为一个k比特的-1和1的序列。我们采用16位的谱哈希,从而得到65536个单词。查找时先对查询图像提取特征,计算其哈希值,并通过算法5-1查找到相近的哈希值,然后将这些哈希值对应的倒排表取出来进行排序。排序直接关系到检索系统的效果好坏。当获取到相关的单词后,将其倒排表按照“VideoID”键进行合并,将这些视频作为待返回的视频集,然后计算query(q)与各个视频的相似度。假设某视频V与q相关的目标对有,令92\n第5章面向目标的监控视频检索系统Q的特征向量为,图像的特征向量为,那么该相似度定义为:算法5.1邻近哈希值查找算法输入:哈希值h,距离d,0~255之间的汉明距离表Tab。1.初始化,,2.for3.查表找到与汉明距离等于i的值的集合,4.查表找到与汉明距离等于d-i的值的集合,5.将与中元素的所有可能组合,,6.endfor输出:与h的汉明距离小于d的哈希值集合图5–9邻近哈希值查找算法1.1系统未来走向目前该系统的功能还比较单一,未来还要在多方面需要进行功能和性能上的升级和扩展,具体包括以下几个方面:多特征融合:本章中仅仅采用了颜色直方图对目标进行特征表达,是一种粗粒度的描述,对于目标的分辨能力比较低。例如在夏天人们穿浅色衣服的比例非常高,这时如果带检索的目标也是浅色,那么将返回许多与目标不相关的结果。未来我们将在多特征融合上进行更多的研究。例如纹理,HOG(histogramoforientedgradients)特征[5],目标的轮廓等,利用多种特征的匹配来提高检索系统的准确性。人脸识别:人脸是视频数据中最有效的身份识别信息。目前视频监控的高清化进展迅速,可以尝试利用高清PTZ92\n第5章面向目标的监控视频检索系统相机主动采集行人清晰的正面人脸图像,结合目标跟踪技术,能将人脸特征与目标的颜色,纹理,体型等信息对应起来。一方面可以通过人脸来直接查找包含相似人脸目标的视频段,另一方面可以通过人脸找到目标的外形特征,再通过外形特征进行二次检索。基于局部特征的检索:有时用户需要根据目标的局部特征来进行检索,这在信息受限的情况下非常有用。例如交通事故目击者只看到了汽车的品牌,这时可以通过车标来查询嫌疑车辆。再例如著名的南京枪击抢劫案,警方通报的嫌疑犯的一个重要特征为手提“洋河蓝色经典”的纸袋。针对目标局部特征的检索是一项非常有意义的工作。视频到视频的检索:图像查询词只能提供目标的静态信息,而采用视频作为查询输入可以提供更多更丰富的信息,特别是能在“事件”层面上进行检索。未来的研究方向之一就是研究事件的描述方法和针对异常事件的索引方法。1.1本章小结本章构建了的面向目标的监控视频检索原型系统。首先阐述了开发该系统的出发点和目的;其次演示了该系统的所提供的功能与服务;然后着重介绍了系统搭建的技术细节,详细描述了从数据收集到特征提取以及索引和查询等多个方面的详细内容;最后对系统下一步的升级和扩展方向进行了说明。92\n第5章面向目标的监控视频检索系统92\n第6章总结与展望第1章总结与展望本章对全文的研究工作进行全面的总结,并对未来可能的研究方向与任务进行展望。1.1论文总结随着视频监控的大量采用,城市的监控摄像头数量以每年数万甚至更多的速度增加,带来了监控数据急剧增长。面对海量的视频数据,智能化的内容分析成为必然的发展方向。智能视频监控应用前景广阔,其中又包含了许多的科学问题,涉及到计算机视觉,机器学习,模式识别和多媒体技术等多个学科领域,具有重大的研究价值。本文针对智能视频监控中的运动目标发现与跟踪等关键技术开展了深入的研究和讨论,取得了一些成果。本文的主要内容包括以下六个方面:1)回顾了当前视频监控技术的发展现状,较全面的总结了运动目标发现、目标跟踪以及基于内容的视频检索的研究现状。2)研究了固定场景下的运动目标发现方法。提出了一种融合颜色和纹理信息的视觉特征,并基于此特征提出了一种有效的背景建模算法。该特征继承了LBP特征计算简单对光照不敏感的性质,并显著提高了对前景与背景的区分能力。提出的背景建模算法对运动目标的灵敏性和动态背景干扰的鲁棒性较好,而且通过一种简单有效的轮廓优化策略,能有效的滤除物体边缘被误检的背景点,克服了基于区域直方图的建模方法对目标轮廓检测不准确的缺点。3)研究了基于时空连续性约束的前景检测算法。我们将特征与模型的相似度约束,时间连续性约束和空间连续性约束统一在一个马尔科夫随机场模型下,通过全局最优化进行求解。该方法能适用于不同的背景模型,利用视频数据在时间和空间上的相关性自动滤除误检和补全漏检,有效的弥补背景模型描述能力的限制和不足。4)92\n第6章总结与展望研究了基于部件的非特定目标跟踪算法。部件模型在目标检测与识别中具有巨大的潜力,但是传统基于部件的方法依赖于目标的物理结构等先验信息。本文用一个矩阵模型来描述目标,将目标划分为多个大小均匀互不重叠的图像块,用检测器和权重对每个图像块进行描述。矩阵模型忽略了目标实际的部件结构,因而不需要现有知识,在另一方面,又通过在线学习检测器来捕获目标的外观变化。权重策略则有利于将注意力集中到稳定部件,降低变化较大的部件带来的不利影响。实验证明,该跟踪算法对遮挡,光照变化,姿态,运动等多中干扰具有良好的鲁棒性。1)搭建了一个面向目标的监控视频检索系统。本文对运动目标发现的研究为以视频中的运动目标为查询对象的视频检索提供了基础支撑。在此基础上,我们利用现实的监控数据,搭建了一个面向目标的视频的检索系统。该系统索引了约2万段视频,330万个运动目标。用户以图像截图或手绘草图作为查询词,能快速的查找包含了相似目标的视频片段。1.1未来研究展望本文对视频监控中的运动目标发现和跟踪算法进行了深入的研究,提出的运动目标发现和跟踪算法具有一定的新颖性和先进性。然而由于实际应用环境的复杂性和多样性,还存在许多的问题需要进一步的研究。具体来说,可以在以下几个方面开展进一步的研究:首先,在一些场景下,背景处于高动态状态,例如大雨(雪)天、大风时的树林和浪花等,对高动态背景的建模还存在一定的问题,需要从特征和模型两个层面上进行进一步的研究,克服高动态背景的干扰。其次,随着运动摄像头的越来越多,针对运动场景下的运动目标检测成为一个重要问题,目前这一方面的算法并不成熟,在准确性和执行效率上都有待进一步的提升。运动场景下的背景建模算法具有重要的研究价值。此外,如何将现有的特征、模型以及前景检测算法运用到运动场景也是一个可能的研究思路。第三,随着物联技术和通讯技术的发展,视频监控的网络化进展迅速。如何利用相互通信的多个摄像头进行跨监控域的多摄像头联动的跟踪是一个十分有趣的问题。跨摄像头的跟踪能在更大的范围内发现目标的运动踪迹,提供更丰富的关联信息和线索。其中还有许多的问题可供研究,例如跨摄像头的目标识别,不同视角下的目标模型转换等。最后,本文介绍的面向目标的监控视频检索系统还只是一个初级原型系统,接下来需要对其进行升级和扩展,丰富系统功能,提高检索效率和准确性,提高用户体验等。这其中涉及很多方面的科学与应用问题,值得深入的研究和讨论。92\n参考文献参考文献[1]中青在线报道:http://qnck.cyol.com/html/2011-08/10/nw.Dqnck__1-24.htm[EB/OL].[2012.03.15].[2]中国安防行业网报道:http://www.21csp.com.cn/html/View_2012/04/20/72.shtml[EB/OL].[2012.03.15].[3]新浪网报道:http://news.sina.com.cn/c/2010-11-23/3.shtml[EB/OL].[2012.03.15].[4]P.ViolaandM.Jones.Rapidobjectdetectionusingaboostedcascadeofsimplefeatures[C].InProc.ofCVPR2001,pp.511-518.[5]N.DalalandB.Triggs.Histogramsoforientedgradientsforhumandetection[C].InProc.CVPR,2005,pp.886-893.[6]Z.Sun,G.Bebis,andR.Miller.On-roadvehicledetection:Areview[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,Vol.28,No5,pp.694-711,2006.[7]B.Siddiquie,J.Petterson,YunZhai,A.Datta,L.M.Brown,andS.Pankanti.Large-ScaleVehicleDetection,Indexing,andSearchinUrbanSurveillanceVideos[J].IEEETransactionsonMultimedia,Vol.14,No.1,pp.28-42,2012.[8]P.ViolaandM.J.Jones.Robustreal-timefacedetection[J].Internationaljournalofcomputervision,Vol.57,No.2,pp.137-154,2004.[9]J.Friedman,T.Hastie,andR.Tibshirani.Additivelogisticregression:astatisticalviewofboosting[J].Theannalsofstatistics,Vol.28,No.2,pp.337-407,2000.[10]R.JainandH.Nagel.Ontheanalysisofaccumulativedifferencepicturesfromimagesequencesofrealworldscenes[J].InIEEETransactionsonPatternAnalysisandMachineIntelligence,1979.[11]HaritaogluL,HarwoodD,DavisL.W4:Rea1timesurveillanceofpeopleandtheiractivities[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,22(8):809-830,2000.[12]CucchiaraR,GranaC,PiccardiM,PratiA.Detectingmovingobjects,ghostsandshadowsinvideostreams[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,25(10):1337-1342,2003.[13]C.Wren,A.Azarbayejani,T.Darrell,andA.Pentland.Pfinder:Real-timetrackingofthehumanbody[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.19,no.7,pp.780–785,1997.[14]K.Toyama,J.Krumm,B.Brumitt,B.Meyers.Wallflower:Principlesandpracticeof92\n参考文献BackgroundMaintenance.Inproc.ofInt.Conf.onComputerVision,pp.255-261,1999[C].Dataavailableat:http://research.microsoft.com/en-us/um/people/jckrumm/wallflower/testimages.htm[EB/OL].[1]C.StaufferandW.Grimson.Adaptivebackgroundmixturemodelsforreal-timetracking[C].InProc.ofIEEEConferenceonComputerVisionandPatternRecognition,1999.[2]C.Stauffer,W.Grimson.Learningpatternsofactivityusingreal-timetracking[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,22(8):pp.747-57,2000.[3]D.Gao,V.MahadevanandV.Vasconcelos.Ontheplausibilityofthediscriminantcenter-surroundhypothesisforvisualsaliency[J].JournalofVision,Vol.8,No.7,2008.[4]P.KaewTraKulPongandR.Bowden.AnImprovedAdaptiveBackgroundMixtureModelforReal-timeTrackingwithShadowDetection[C].InProc.2ndEuropeanWorkshoponAdvancedVideoBasedSurveillanceSystems,AVBS01.Sept2001.[5]Z.Zivkovic.ImprovedadaptiveGaussianmixturemodelforbackgroundsubtraction[C].InIEEE17thInternationalConferenceonPatternRecognition,pages28–31,2004.[6]Z.Zivkovic,F.Heijden.Efficientadaptivedensityestimationperimagepixelforthetaskofbackgroundsubtraction[J].PatternRecognitionLetters,Vol.27,Issue7,pp.773–780,2006.[7]Q.ZangandR.Klette,“RobustBackgroundSubtractionandMaintenance[C].InProc.Int’lConf.PatternRecognition,pp.90–93,2004.[8]A.Elgammal,R.Duraiswami,D.Harwood,andL.Davis.Backgroundandforegroundmodelingusingnonparametrickerneldensityestimationforvisualsurveillance[J].InProceedingsoftheIEEE,90(7):1151–1163,2002.[9]A.Elgammal.Efficientkerneldensityestimationusingthefastgausstransformwithapplicationstocolormodeling[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,25(11):1499–1514,2003.[10]Y.SheikhandM.Shah.Bayesianmodelingofdynamicscenesforobjectdetection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.27,no.11,pages1778–1792,2005.[11]OlivierBarnichandMarcVanDroogenbroeck.ViBe:AUniversalBackgroundSubtractionAlgorithmforVideoSequences[J].IEEETransactionsonImageProcessing,vol.20,NO.6,2011.[12]T.Matsuyama,T.Ohya,andH.Habe,BackgroundSubtractionforNon-StationaryScenes[C].InProc.AsianConf.ComputerVision,pp.622–667,2000.[13]M.MasonandZ.Duric,UsingHistogramstoDetectandTrackObjectsinColorVideo[C].InProc.AppliedImageryPatternRecognitionWorkshop,pp.154–159,2001.92\n参考文献[1]M.HeikkiläandM.Pietikäinen.Atexture-basedmethodformodelingthebackgroundanddetectingmovingobjects[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,28(4):657–662,2006.[2]S.Zhang,H.Yao,andS.Liu.Dynamicbackgroundmodelingandsubtractionusingspatio-temporallocalbinarypatterns[C].In15thIEEEInternationalConferenceonImageProcessing,pages1556–1559,2008.[3]J.S.G.XueandL.Song.Dynamicbackgroundsubtractionbasedonspatialextendedcenter-symmetriclocalbinarypattern[C].InIEEEInternationalConferenceonmultimediaandexpo,pages1050–1054,2010.[4]H.GrabnerandH.Bischof.On-lineboostingandvision[C].InIEEEConferenceonComputerVisionandPatternRecognition,pages260–267,2006.[5]B.Babenko,M.H.YangandS.Belongie.Visualtrackingwithonlinemultipleinstancelearning[C].inProc.IEEEConf.ComputerVisionandPatternRecognition,2009.[6]L.Breiman.Randomforests[J].MachineLearning,vol.45,no.1,pp.5-32,October2001.[7]M.DikmenandT.Huang.Robustestimationofforegroundinsurveillancevideosbysparseerrorestimation[C].InProc.IEEEInt.ConferenceonPatternRecognition,Tampa,FL,Dec.2008.[8]V.Cevher,A.Sankaranarayanan,M.Duarte,D.Reddy,R.Baraniuk,andR.Chellappa.Compressivesensingforbackgroundsubtraction[C].InProc.EuropeanConferenceComputerVision,pp.155–168,Oct.2008.[9]OliverN.M,RosarioB,PentlandA.P.ABayesianComputerVisionSystemforModelingHumanInteractions[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,22(8):831-843,2000.[10]L.Wang,M.Wen,Q.Zhuo,andW.Wang.BackgroundSubtractionusingIncrementalSubspaceLearning[C].IEEEInternationalConferenceonImageProcessing,2007,ICIP2007.[11]EmmanuelJ.Candès,XiaodongLi,YiMa,andJohnWright.Robustprincipalcomponentanalysis?SubmittedtoInformationandInferenceforpublication2010.[12]S.D.Babacan,M.Luessi,R.Molina,A.K.Katsaggelos.SparseBayesianMethodsforLow-RankMatrixEstimation,Submittedforpublication,2011.[13]C.Qiu,andN.Vaswani.Real-timeRobustPrincipalComponents’Pursuit.InAllerton,2010[14]Y.SugayaandK.Kanatani.Extractingmovingobjectsfromamovingcameravideosequence[C].InProceedingsofthe10thSymposiumonSensingviaImagingInformation,92\n参考文献pp.279-284,2004.[1]N.Rao,H.Di,andG.Xu.Jointcorrespondenceandbackgroundmodelingbasedontreedynamicprogramming[C].InternationalConferenceonPatternRecognition,ICPR,Hongkong,China,2006.[2]金俣欣,陶霖密,徐光祐,彭玉新.摄像机自由运动环境下的背景建模[J].中国图象图形学报,13(2):359-364,2008.[3]Y.Sheikh,O.Javed,andT.Kanade.BackgroundSubtractionforFreelyMovingCameras[C].IEEEInt.Conf.onComputerVision(ICCV)2009.[4]YuxinJin,LinmiTao,HuijunDi,NaveedIRao,GuangyouXu.BackgroundModelingfromAFree-MovingCamerabyMulti-LayerHomographyAlgorithm[C].IEEEICIP2008.[5]S.Kwak,T.Lim,W.Nam,B.Han,andJ.H.Han.GeneralizedbackgroundsubtractionbasedonhybridinferencebybeliefpropagationandBayesianfiltering[C].IEEEIntel.ConferencesonComputerVision,2011.[6]A.Taneja,L.Ballan,andM.Pollefeys.Modelingdynamicscenesrecordedwithfreelymovingcameras[C].ACCV2010.[7]Y.Benezeth,P.M.Jodoin,B.Emile,H.Laurent,C.Rosenberger.Reviewandevaluationofcommonly-implementedbackgroundsubtractionalgorithms[C].ICPR2008.[8]M.Piccardi.Backgroundsubtractiontechniques:areview[C].IEEEInternationalConferenceonSystems,ManandCybernetics,pp.3099-3104,2004.[9]A.Bayona,J.C.SanMiguel,andJ.M.Martínez.Comparativeevaluationofstationaryforegroundobjectdetectionalgorithmsbasedonbackgroundsubtractiontechniques[C].AdvancedVideoandSignalBasedSurveillance,2009.[10]S.Brutzer,andB.Hoferlin,andG.Heidemann.Evaluationofbackgroundsubtractiontechniquesforvideosurveillance[C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR),pp.1937-1944,2011.[11]R.J.Radke,andS.Andra,andO.Al-Kofahi,andB.Roysam,Imagechangedetectionalgorithms:asystematicsurvey[J].IEEETransactionsonImageProcessing,vol.14,no.3,pp.294-307,2005.[12]D.Comaniciu,V.RameshandP.Meer.Kernel-basedobjecttracking[J].IEEETransactionsonPAMI,25:564-577,2003.[13]S.Avidan.Supportvectortracking[J].IEEETrans.PatternAnalysisandMachineIntelligence,vol.26,no.8,pp.1064-1072,Aug.2004.[14]L.Fan.Afeature-basedobjecttrackingmethodusingonlinetemplateswitchingandfeatureadaptation[C].6thInternationalConferenceonImageandGraphics,2011(ICIG2011).92\n参考文献[1]Y.Liu,W.Zhou,H.Yin,N.Yu.TrackingbasedonSURFandsuperpixel[C].6thInternationalConferenceonImageandGraphics,2011.[2]H.Seto,andT.Taguchi,andT.Shakunaga.DirectionalEigentemplateLearningforSparseTemplateTracker[C].AdvancesinImageandVideoTechnology,pp.104-115,2012.[3]W.He,T.Yamashita,H.LuandS.Lao.SURFTracking[C].ICCV2009.[4]S.K.Zhou,R.Chellappa,B.Monghaddam.Visualtrackingandrecognitionusingappearance-adaptivemodelsinparticlefilters[J].IEEETrans.ImageProcessing,vol.13-11,pp.1491-1506,Nov.2004.[5]E.Cuevas,D.Zaldivar,R.Rojas.Kalmanfilterforvisiontracking[J].Measurement,2005.[6]B.Ristic,S.Arulampalam,andN.Gordon.BeyondtheKalmanfilter:Particlefiltersfortrackingapplications[M].ArtechHousePublishers2004.[7]M.S.Arulampalam,andS.Maskell,andN.Gordon,andT.Clapp.Atutorialonparticlefiltersforonlinenonlinear/non-GaussianBayesiantracking[J].IEEETransactionsonSignalProcessing,vol.50,no.2,2002.[8]K.Okuma,A.Taleghani,NFreitas,J.J.Little,andDavidG.Lowe.ABoostedParticleFilter:MultitargetDetectionandTracking[C].ECCV2004.[9]X.Mei,andH.Ling.RobustvisualtrackingusingL1minimization[C].InProc.Int.Conf.ComputerVision,pp.1436-1443,2009.[10]D.Ross,J.Lim,andM.H.Yang.Adaptiveprobabilisticvisualtrackingwithincrementalsubspaceupdate[C].inProc.EuropeanConf.ComputerVision,pp.470-482,2004.[11]B.Liu,J.Huang,L.Yang,C.Kulikowsk.Robusttrackingusinglocalsparseappearancemodelandk-selection[C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR),2011.[12]K.Sakabe,T.Taguchi,T.Shakunaga.AutomaticEigentemplateLearningforSparseTemplateTracker[M].In:Wada,T.,Huang,F.,Lin,S.(eds.)PSIVT2009.LNCS,vol.5414,pp.714–725.Springer,Heidelberg(2009).[13]B.Liu,L.Yang,J.Huang,P.Meer,L.Gong,andC.Ku-likowski.Robustandfastcollaborativetrackingwithtwostagesparseoptimization[C].ECCV2010.[14]Z.Kalal,andK.Mikolajczyk,andJ.Matas.Tracking-Learning-Detection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,no.99,2011.[15]Z.Kalal,K.Mikolajczyk,andJ.Matas.Face-TLD:Tracking-Learning-DetectionAppliedtoFaces[C].InternationalConferenceonImageProcessing,2010.[16]Z.Kalal,K.Mikolajczyk,andJ.Matas.Forward-BackwardError:AutomaticDetectionofTrackingFailures[C].InternationalConferenceonPatternRecognition,pp.23-26,2010.92\n参考文献[1]Z.Kalal,J.Matas,andK.Mikolajczyk.P-NLearning:BootstrappingBinaryClassifiersbyStructuralConstraints[C].InternationalConferenceonComputerVisionandPatternRecognition,2010.[2]H.Grabner,M.Grabner,andH.Bischof.Real-timetrackingviaon-lineboosting[C].InProc.BMVC,2006,pp.47-56.[3]S.Avidan.Ensembletracking[C].InProc.IEEEConf.ComputerVisionandPatternRecognition,2005,vol.2,pp.494-501.[4]B.Babenko,M.Yang,andS.Belongie.RobustObjectTrackingwithOnlineMultipleInstanceLearning[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.33,no.8,pp.1619-1632,2011.[5]H.Grabner,C.Leistner,andH.Bischof.Semi-SupervisedOn-lineBoostingforRobustTracking[C].InProc.10thEuropeanConf.ComputerVision,2008,pp.234-247.[6]Q.Yu,T.B.Dinh,andG.Medioni.On-linetrackingandreacquisitionusingco-trainedgenerativeanddiscriminativetrackers[C].InProc.10thEuropeanConf.ComputerVision,2008,vol.2,pp.234-247.[7]F.Tang,S.Brennan,Q.Zhao,andH.Tao.Co-Trackingusingsemi-supervisedsupportvectormachines[C].inProc.Int.Conf.ComputerVision,2007,pp.1-8.[8]H.Zhou,andY.Yuan,andC.Shi,ObjecttrackingusingSIFTfeaturesandmeanshift[J].ComputerVisionandImageUnderstanding,vol.113,no.3,pp.345-352,2009.[9]A.Mohan,C.Papageorgiou,andT.Poggio.Example-basedobjectdetectioninimagesbycomponents[J].IEEETrans.PAMI,23(4):349-361,2001.[10]Z.Lin,L.S.Davis,D.Doermann,andD.DeMenthon.Hierarchicalpart-templatematchingforhumandetectionandsegmentation[C].InProc.ICCV,2007.[11]W.C.Chang,andC.W.Cho.Real-timesidevehicletrackingusingparts-basedboosting[C].IEEEInternationalConferenceonSystems,ManandCybernetics(SMC),2008.[12]B.Wu,andR.Nevatia.Detectionandtrackingofmultiple,partiallyoccludedhumansbyBayesiancombinationofedgeletbasedpartdetectors[J].InternationalJournalonComputerVision,vol.75,no.2,pp.247-266,2007.[13]B.Martinez,M.Vivet,andX.Binefa.Compatibleparticlesforpart-basedtracking[C].InProc.ArticulatedMotionandDeformableObjects,2010,pp.1-10.[14]M.Andriluka,S.Roth,andB.Schiele.PictorialStructuresRevisited:PeopleDetectionandArticulatedPoseEstimation[C].IEEEConferenceComputerVisionandPatternRecognition,2009.[15]K.Mikolajczyk,C.SchmidandA.Zisserman.HumanDetectionBasedonaProbabilistic92\n参考文献AssemblyofRobustPartDetectors[C].ECCV2004.[1]TRECVID官方网站:http://www-nlpir.nist.gov/projects/trecvid[EB/OL].[2]Y.Shan,Z.Zhang,S.Wang,K.Huang,T.Tan,IRDS-CASIAatTRECVid2011:SurveillanceEventDetection,2011.[3]X.Fang,C.Su,T.Xu,Z.Xia,P.Peng,Y.Wang,Y.Tian,PKU-NEC@TRECVID2011SED:Sequence-BasedEventDetectioninSurveillanceVideo,2011.[4]Z.Zhao,Y.Zhao,X.Guo,Y.Chen,Y.Hua,W.Wang,C.Liu,S.Wu,H.Zhang,L.Wang,Y.Mao,A.Cai,M.Zhai,BUPT-MCPRLatTRECVID2011.[5]J.Cao,Y.D.Zhang,L.Pang,B.L.Feng,J.T.Li,Known-ItemSearchbyMCG-ICT-CAS,2010.[6]A.Yanagawa,S.F.Chang,L.KennedyandW.Hsu.ColumbiaUniversity'sBaselineDetectorsfor374LSCOMSemanticVisualConcepts[R].ColumbiaUniversityADVENTTechnicalReport#222-2006-8,March20,2007.[7]C.Wang,L.Zhang,H.J.Zhang.LearningtoReducetheSemanticGapinWebImageRetrievalandAnnotation[C].SIGIR2008.[8]X.J.Wang,L.Zhang,M.Liu,Y.Li,W.Y.Ma.ARISTA-ImageSearchtoAnnotationonBillionsofWebPhotos[C].CVPR2010.[9]Y.G.Jiang,J.Yang,C.W.Ngo,A.G.Hauptmann,RepresentationsofKeypoint-BasedSemanticConceptDetection:AComprehensiveStudy[J].IEEETransactionsonMultimedia,vol.12,issue1,pp.42-53,2010.[10]L.Wu,StevenC.H.Hoi,N.H.Yu.DistanceMetricLearningfromUncertainSideInformationforAutomatedPhotoTagging[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST2010),vol.2,no.2,2010.[11]ChanghuWang,YangCao,LeiZhang.MindFinder:ASketch-basedImageSearchEnginebasedonEdgelIndex(demo)[C].InCVPR2011.[12]Y.Cao,C.H.Wang,L.Q.Zhang,andL.Zhang.EdgelInvertedIndexforLarge-ScaleSketch-basedImageSearch[C].CVPR2011.[13]S.Soman,M.Ghorpade,V.SononeandS.Chavan,ContentBasedImageRetrievalusingAdvancedColorandTextureFeatures[C].ProceedingsonInternationalConferenceinComputationalIntelligence(ICCIA2012),March2012.[14]O.A.B.Penatti,andE.Valle,andR.S.Torres.Comparativestudyofglobalcolorandtexturedescriptorsforwebimageretrieval[J].JournalofVisualCommunicationandImageRepresentation,vol.23,no.2,pp.359--380,2012.[15]ManeshKokare,P.K.Biswas,B.N.Chatterji.Textureimageretrievalusingrotatedwavelet92\n参考文献filters[J].PatternRecognitionLetters,Vol.28,no.10,pp.1240–1249,2007.[1]Y.Jiang,J.Meng,J.Yuan.Grid-basedlocalfeaturebundlingforefficientobjectsearchandlocalization[C].ICIP2011,pp.113-116.[2]QBIC:http://wwwqbic.almaden.ibm.com/[EB/OL].[3]VisualSEEK:http://www.informedia.cs.cmu.edu[EB/OL].[4]Retrievr:http://labs.systemone.at/retrievr/[EB/OL].[5]Informedia:http://www.informedia.cs.cmu.edu[EB/OL].[6]GoogleInstant:http://www.google.com/insidesearch/features/instant/[EB/OL].[7]N.Jammalamadaka,andA.Zisserman,andM.Eichner,andV.Ferrari,andC.V.Jawahar.VideoRetrievalbyMimickingPoses[C].InternationalConferenceonMultimediaRetrieval,2012.[8]WebSEEk:http://www.ctr.columbia.edu/WebSEEk/[EB/OL].[9]E.Zavesky,andS.F.Chang.CuZero:embracingthefrontierofinteractivevisualsearchforinformedusers[C].InProceedingofthe1stACMinternationalconferenceonMultimediainformationretrieval,2008.[10]S.F.Chang,W.Chen,H.J.Meng,H.Sundaram,andD.Zhong.VideoQ:anautomatedcontentbasedvideosearchsystemusingvisualcues[C].ProceedingsofthefifthACMinternationalconferenceonMultimedia,1997.[11]S.F.Chang,L.S.KennedyandE.Zavesky.ColumbiaUniversity'ssemanticvideosearchengine[C].Proceedingsofthe6thACMinternationalconferenceonImageandvideoretrieval,2007.[12]T.Ojala,M.Pietikäinen,andT.Mäenpää.MultiresolutionGray-ScaleandRotationInvariantTextureClassificationwithLocalBinaryPatterns[J].IEEETrans.PatternAnalysisandMachineIntelligence,vol.24,no.7,pp.971–987,2002.[13]T.Ahonen,A.Hadid,andM.Pietikainen.Facedescriptionwithlocalbinarypatterns:Applicationtofacerecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.28,no.12,pp.2037-2041,2006.[14]G.Zhao,andM.Pietikainen.Dynamictexturerecognitionusinglocalbinarypatternswithanapplicationtofacialexpressions[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.29,no.6,pp.915-928,2007.[15]Z.H.Zhou,A.Wagner,H.Mobahi,J.Wright,Y.Ma.FaceRecognitionWithContiguousOcclusionUsingMarkovRandomFields[C].ICCV2009.[16]H.H.Lin,Y.L.Liu,J.H.Chuang.Learningascenebackgroundmodelviaclassification[J].IEEETrans.onSignalProcess,57(5),1641–1654,2009.92\n参考文献[1]L.Wixson.Detectingsalientmotionbyaccumulatingdirectionallyconsistentflow[J].IEEETrans.PatternAnal.MachineIntell.22(8),774–780,2000.[2]Y.Zhao,H.Gong,Y.Jia,S.C.Zhu.Backgroundmodelingbysubspacelearningonspatio-temporalpatches[J].PatternRecognitionLetters,vol.33,no.9,pp.1134-1147,2012.[3]C.H.Chan,andJ.Kittler,andK.Messer.MultispectralLocalBinaryPatternHistogramforComponent-basedColorFaceVerification[C].IEEEInternationalConferenceonBiometrics:Theory,Applications,andSystems,2007.[4]V.KolmogorovandR.Zabih.Whatenergyfunctionscanbeminimizedviagraphcuts?[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.26,no.2,pp.147-159,2004.[5]YanchaoSu,HaizhouAi,TakayoshiYamashita,andShihongLao.HumanPoseEstimationUsingExemplarsandPartBasedRefinement[C].ACCV2010.[6]Bo.Wu,andR.Nevatia.ImprovingPartbasedObjectDetectionbyUnsupervised,OnlineBoosting[C].IEEEConferenceonComputerVisionandPatternRecognition,2007.[7]A.Adam,E.Rivlin,andI.Shimshoni.Robustfragments-basedtrackingusingtheintegralhistogram[C].InProc.IEEEConf.ComputerVisionandPatternRecognition,2006,pp.798-805,2006.[8]J.Gall,A.Yao,N.Razavi,L.V.Gool,andV.Lempitsky.HoughForestsforObjectDetection,Tracking,andActionRecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,Vol.33,No.11,2011.[9]S.Vijayanarasimhan,andK.Grauman.Keywordstovisualcategories:Multiple-Instancelearningforweaklysupervisedobjectcategorization[C].InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,pp.1-8,2008.[10]P.Viola,J.C.Platt,andC.Zhang.MultipleInstanceBoostingforObjectDetection[C].InProc.ofNeuralInformationProcessingSystems(NIPS),pp.1417-1426,2005.[11]D.Ross,J.Lim,R.S.Lin,andM.H.Yang.Incrementallearningforrobustvisualtracking[J].InternationalJournalonComputerVision,vol.77,no.1,pp.125-141,May2008.[12]S.Birchfield.Ellipticalheadtrackingusingintensitygradientsandcolorhistograms[C].InProc.IEEEConf.ComputerVisionandPatternRecognition,1998,pp.232-237.[13]Y.Boykov,O.Veksler,R.Zabih,EfficientApproximateEnergyMinimizationviaGraphCuts[J].IEEEtransactionsonPAMI,vol.20,no.12,p.1222-1239,2001.[14]Y.BoykovandV.Kolmogorov.AnExperimentalComparisonofMin-Cut/Max-FlowAlgorithmsforEnergyMinimizationinVision[J].IEEETransactionsonPatternAnalysisandMachineIntelligence(PAMI),vol.26,no.9,pp.1124—1137,2004.Codeavailableat92\n参考文献http://www.csd.uwo.ca/faculty/olga/software.html.[1]Dataavailableat:http://perception.i2r.a-star.edu.sg/bk_model/bk_index.html.[2]J.Huang,andS.R.Kumar,andM.Mitra,andW.J.Zhu,andR.Zabih,Imageindexingusingcolorcorrelograms[C].IEEEComputerConferenceonComputerVisionandPatternRecognition,pp.762-768,1997.[3]E.Erdem,andS.Dubuisson,andI.Bloch.FragmentsBasedTrackingwithAdaptiveCueIntegration[J].ComputerVisionandImageUnderstanding,116(7):827–841,2012.[4]C.D.Manning,P.Raghavan,andH.Schütze,IntroductiontoInformationRetrieval.信息检索导论[M].翻译:王斌,人民邮电出版社,ISBN:978-7-115-23424-7,2010年9月.[5]Y.Weiss,A.Torralba,andR.Fergus.SpectralHashing[C].NIPS2008.92\n致谢致谢光阴荏苒,即将与熟悉的校园生活告别了。在完成此论文的同时,回首自己二十多年的成长和求学经历,老师、同学和亲友们给了我很多无私的帮助和鼓励,带给我许多快乐。对此,我心中充满了感激之情,借此机会向所有帮助和支持我的人,送上衷心的谢意和祝福。首先我要感谢尊敬的导师俞能海教授。高考填报志愿时我有缘与俞老师相识,是他将我带到了中国科学技术大学这个美丽而充满学术氛围的校园。九年来,俞老师在学习上生活上对我关心备至,在我经济困难时予以帮助。特别是跟随俞老师读研的五年中,其渊博的学识,科研报国的精神和高瞻远瞩的智慧深深的吸引和影响着我。俞老师不仅在研究上悉心指导,还教会我们许多为人处事的道理,我由衷的为自己能有这样的良师益友而感到骄傲和荣幸。谨向俞老师表示我崇高的敬意和由衷的感谢。我要特别感谢庄连生博士。庄老师思维开阔,富有创新精神,对许多问题都有独特的见解。他指导了我的本科论文工作,引导我科研入门,在研究工作上给了我很多的指导。我们经常就学术问题进行自由开放的讨论,这些都使我受益匪浅。庄老师对科研的热情,严谨认真的工作态度对我来说是最好的鞭策。感谢信息处理中心的刘斌副教授,张卫明副教授,张弛副教授,李卫海老师,袁平波老师、杨福荣老师、王冬老师,他们在学业上给我了很多指导和帮助,特别是与他们的学术讨论给了我许多灵感和启发。感谢张方志师傅,他为实验室管理付出了辛勤工作,生活上给了我很多帮助。感谢中国科学技术大学带给我优美宁静的学习和生活环境,在这里我度过了美好的9年时光。感谢信息学院的李卫平院长、陈卫东老师、戴礼荣老师、戴旭初老师、洪佩琳老师、胡访宇老师、李厚强老师、刘发林老师、谭勇老师、王培康老师、卫国老师、吴秀清老师、奚宏生老师、徐守时老师、徐云生老师、叶中付老师、张荣老师、周武旸老师、朱明老师等所有的任课老师,感谢他们高质量的教学。感谢邱林老师、朱薇老师以及张玉颖老师,感谢他们为我们学生付出的辛勤工作和热心的支持与帮助。感谢M-CORE各位同学,他们是博士生尹华罡、蒋敬田,焦斌星,蒋锴、敖欢欢、胡校成,硕士生高浩渊、徐甲甲、王鹏、尤昕、陈彪、刘羽、刘超、孟垂实,王晶晶、赵会斌、王雨农、张兆卓等等。还要感谢已经毕业了的沈道义、刘洋、荚济民、芮晓光、李东方、吴磊、李铮、郝卓、92\n致谢刘毅捷等博士以及李扬、李先斌、钱杨春、王浩、施鹏、夏天泽、唐珂、平强、康雨洁、张学胜、张迎峰、周津等硕士。正是M-CORE的每一份子组成了这样一个团结互助、蓬勃向上的集体。和他们一起学习、工作和生活,我感到很愉快,他们身上很多优点和可贵品质值得我不断学习。感谢我的大学同学和好友王宁、季茂盛、王尔玉、汪玉、马林、张冬、马远鹏、王晓飞、祝佳、石建泳、曹刚、王殳凹等;感谢所有关心和支持过我的朋友们,我们曾一起学习、拼搏、运动的场景以及共同经历的欢笑与失落都是我宝贵的回忆。特别需要感谢的是我的父母。父亲和母亲为了养育我历尽千万辛难,你们的养育之恩我终生难以报答。你们的教育以及为培养我所付出的汗水与心血,我会永远铭记。你们在田间地头挥汗劳作的身影会时时催动我奋进。感谢我的妻子刘敏,多年来你无微不至的关爱和坚定不移的支持是我重要的精神支柱。感谢我的亲人和长辈们,你们教会了我许多做人的道理,在我的成长过程中给予了细致入微的爱护和帮助,这份恩情我终生难忘。最后再次感谢所有帮助与支持过我的人,谢谢你们。祝愿大家身体健康,事业有成,生活幸福!周维2012年5月3日于中国科学技术大学92

相关文档