简介
智能视频监控技术是基于图像处理、模式识别的新型视频监控技术。简而言之,就是发现图像中运动的物体,并对其进行跟踪、分析,及时发现“异常”行为,触发报警并采取其他措施进行干预。
现有视频及其它监控技术
视频监控
视频监控是一个相对较为成熟的技术。随着摄像探头的普及,视频监控正渗透到大中小各类企业以及城市生活的各个方面。以摄像探头,电视墙,数字硬盘刻录机(DVR)为代表的“老三样”变成了习以为常、但不可或缺的安保手段。上海目前城市街头有近2.5万个探头。据保守估计,几年内上海市城市内的探头可能要增加到100万个左右。如此多的探头带来的一个无法回避的问题就是如何有效地利用好这些图像信息。
不可否认,摄像头为公安部门调查取证,侦破案件立下了汉马功勋。但是现有视频监控系统的主要功能还是仅仅体现在事后调查取证上。由值班人员通过监控图像实时发现异常,进而避免犯罪行为发生的情况极为罕见。这并不能归罪于值班安保人员的责任心不强,事实上,要求他们对多路监控图像保持警惕是违背人的生理特点的。经过测试,即使是单路图像,一个正常人在观看十几分钟以后,大脑会自然进入一种类似“被催眠”的状态,此时即使有明显的运动物体出现在图像中,监控人员可能也会视而不见。所以,要想实时地在大量的监控图像中发现犯罪行为,必须通过技术手段,而不是增加人员配置。
红外对射,震动光缆,磁感应电缆
红外对射、震动光缆、磁感应电缆都是现有的典型的周界防范措施。由于它们都是防范一条线,所以它们比较容易被了解系统的犯罪分子绕开。奥运安保期间,国内南方某机场就发生了一起通过攀爬围栏外树木跳进机场的事件。围栏上的震动光缆没有报警。虽然事后发现只是无知的好事者想近距离观看飞机,但是可以想见如果是恐怖分子,他可能已经得逞。在上海某港口也发生过盗贼撕开围栏上的铁丝网钻入港区内部的事件。同样事件,在智能视频监控系统面前,他们都会原形毕露。
另外,在此类系统和相机进行联动时,由于云台相机转动到位需要一定时间(通常在5到10秒左右),触发报警的行为可能没有被录像,对触警行为性质的判断也不容易准确。而智能视频监控系统的固定监控相机就像眼睛不眨的哨兵,及时显示并记录触警行为。为安保人员争取宝贵的反应时间。
智能视频分析的发展过程
智能视频分析技术(Video Analytics)综合了多学科的研究成果。主要包括图像处理,跟踪技术,模式识别,软件工程,数字信号处理(DSP)等领域。随着计算机处理能力的提高,在90年代,对图像的处理逐渐变成研究热点。其中卡内基-梅隆(CMU)大学在1999年完成的在校园内的智能图像监控系统是比较有代表性的研究项目。当时的智能图像监控技术仍处在实验室研究为主阶段。2001年“911”事件发生后,美国在安防科研方面大大加强了投资力度。许多研究机构和研究人员纷纷加入了安防类技术的研究和开发。智能视频分析是其中的一个亮点。从研究论文的数量来看,2002年到2005年有一个明显的高峰期。这和此期间科研经费的大量投入是相吻合的。目前此研究领域的科研论文逐渐转移到细分的问题和方向上去了。 这并不代表智能视频监控变成了一个已经解决了的问题。恰恰相反,即使目前最优秀的商业系统离人们对此类技术的期待值还有一些距离。解决问题的方法也没有达成共识。它实际上反应了原创性的理论工作在减少。此项技术的进步在未来可能更多地依赖企业自身的科研开发力量。
对于如何扶植高科技安防类技术发展的问题,美国主要还是依靠市场机制来进行优胜劣汰地选择。但是在早期,美国国会和地方政府为有急迫安防需要的设施、企业直接拨付专项资金用于此类产品的采购。由于早期的产品刚刚从实验室里走出来,在实际应用时遇到很多问题。但是由于专款专用,此类产品得以进入市场,并在实践中积累了经验教训,进而提升了产品性能。早期的企业大多数是企业家和一些美国高校联合创立的。在后来的发展中逐渐形成了自己的研发力量。在2004年,北美市场上主要是3到4家公司;目前,国外市场上主要的公司有十几家。其中有代表性的有 ObjectVideo, Nice, Siemens, Verint, Cernium, Vidient, IOmniscient Pty., IOImage,3VR, ActivEye, Aimetis, Intellivid等。另外在欧洲也有一批此类公司,但主要服务于本地市场。
国内此市场的发展滞后北美大概3到4年。现在具有自主知识产权和研发能力的国内公司并不多。主要有北京的文安、智安邦,上海的安维尔、弘视等。由于公司都处在早期的市场拓展阶段,已经完成的有代表性的工程项目并不多。典型的有核电站,军队项目,港口等。安维尔在上海罗泾港成功安装了一套智能图像安保系统,为近10公里的港口周界,水域及陆地重点区域进行保护,并已成功发现多起从水域或陆域非法入侵港口的事件。由于报警、处置及时,没有对港口造成危害。
主要功能
目前市场上的智能视频分析系统通常都具有以下功能:
1. 图像采集/接口。
2. 运动物体检测
3. 多物体跟踪
4. 行为特征分析
5. 设定报警条件
6. 报警联动
图像采集/接口
绝大多少的智能视频分析算法是基于非压缩图像格式,如RGB或者YUV。所以图像信号在被采集以后不经过压缩直接送给视频分析单元。几乎所有的视频分析系统都自带有图像采集功能,通常是通过BNC输入模拟图像信号。
现有的图像监控系统中图像信号通常是以压缩图像流的形式存在,例如MPEG4、H.264、MJPEG等。IP相机通常也直接输出压缩图像流。直接从压缩的图像流中进行运动检测是一个较偏的研究方向,还没有被主流厂家接受。当然也可以将图像流解压还原成原始图像格式后再进行分析。常用的压缩格式都不是无损(lossless)压缩。和压缩前的原始图像相比,解压后的图像会损失掉一些信息。不过由于压缩算法的特点,丢失的信息通常是高频的噪声信号,所以对运动检测 的影响是较小的。当然前提是压缩流有足够的带宽。如果压缩比太高,图像会出现“马赛克”效应,给视频分析增加难度。
由于实时图像处理对处理器的要求非常高,所以用于视频分析的图像的分辨率通常比仅用于显示或者传输的图像要小。分辨率大小会影响到检测距离和对运动物体的敏感性。有些产品通过降低处理的帧率来适应处理器的处理能力。过低的帧率会影响到跟踪算法的可靠性。它可能造成对运动物体运动性质的判断错误。
运动物体检测
简单地说,运动检测就是发现图像中运动的物体。运动物体可以简单定义为图像中变化的部分。一些初级的运动检测算法就是基于这些概念,例如早期的DVR产品的运动侦测功能等。它们通常也没有跟踪功能。此类方法的误报警率太高,不适合用作实时报警系统。
并不是所有图像中的变化都是我们感兴趣的运动物体。例如由相机自身引入的变化,它包括像素的噪声,相机自动光圈控制电路引起的整体亮度变化,图像传输中引入的高低频周期噪声信号,红外相机周期校准所带来的突变等。外界环境引入的变化包括地面光照在多云天气里迅速的变化,运动物体的阴影,水面波浪或者波光粼粼的现象,陆地上树枝的摆动,夜间汽车大灯造成的光晕,雨雪天气等现象。另外相机在大风天,尤其是高灯杆上容易抖动。由上述这些现象造成的图像变化通常是应该被过滤掉的。它们可以通过算法或者其它技术手段加以解决。
从算法的角度来看,可以简单地分为两大类。一类是建立背景模型,通过和背景模型相对比来发现运动物体。另一类是通过“光流”法,通过发现运动物体对光流场的影响来发现运动物体。另外就是介于两者之间或者两者结合的方法。背景模型法对运动物体的提取较完整,有利于下一步对物体的跟踪,分类以及将来的检索。但是它要求相机固定。如果没有有效的稳定算法,在相机抖动的情况下容易产生误报警。光流法对相机稳定性的要求低。即使相机安装在云台上,或者其它运动平台如飞机上,也可以进行运动检测。不过由于光流法是基于导数的检测方法。它较容易受到图像噪音的影响。所以它不适用于检测小物体,检测距离较近。
多物体跟踪
现有视频分析算法和早期移动侦测最大的区别就在于是否对运动物体进行跟踪。运动物体检测和跟踪是视频分析的基础。这两方面做扎实了,才有可能对物体的行为特性进行分析,同时也才有可能较容易地针对某些特殊应用迅速开发出来新功能模块。
跟踪实质上就是将在每一帧上发现的同一物体沿时间顺序串起来。此领域本身就是一个相对独立的活跃的研究领域。主要研究方向是在复杂环境下,如多个运动物体,多个相机,运动物体之间互相遮挡,消失及重现等情况下进行有效跟踪。例如在拥挤的地铁站台对某个人进行跟踪;对草丛里身着迷彩服沿一定方向爬行的士兵进行跟踪。虽然在每一帧里用肉眼无法辨明此士兵的位置,但是积累了一定帧数后,系统发现了他。以上实例主要还停留在实验室演示阶段。但是它们代表了跟踪算法的发展方向。
在实际监控应用中,尤其是对一些入侵报警的应用案例中,对跟踪算法的要求比较低。现有的商业系统对运动物体“融合”及其它复杂应用场景的跟踪效果并不理想。但是参照以往技术发展速度,这方面会很快完善起来。
行为特征分析
行为特征分析是从图像中寻找满足预先设定的行为特征的事件。目前市场上比较典型的应用包括:(1)分类: 判断运动物体是人,车,船只,飞机。(2)停止或者突然加速:例如车辆在隧道或者公路上抛锚;大街上抢劫得手后逃跑等场景。(3)徘徊:例如在敏感区域外观察的人员。对正常通过的行人、车辆不报警。(4)遗留物: 例如对在机场,油库等地放置爆炸物然后离开。(5)物品遗失: 例如博物馆的贵重展品保护。当发现展品消失后,系统会立刻报警。(6)人数统计:例如 对进入超市等场所的人数进行统计。并结合销售数据绘制一天当中平均消费额曲线。(7)人群密度:例如当聚集人员过多时报警。或者人群突然散开,如出现异常情况时,进行报警。(8)人员倒地: 例如当人员由直立突然变成平躺。
总的来说,智能视频分析可以作很多事情。所以需要视频分析开发人员和最终用户进行有效沟通。由于智能视频分析还是一个较新的技术,在国内了解此项技术的圈子目前只拓展到集成商这个层面上,所以很多适合视频分析技术的应用场景还有待市场开发。但有一点是一目了然的:企业必须掌握核心技术并具有自主研究开发能力。智能视频分析的市场是由许多细分小市场组成的,新的应用正不断地出现。在可预见的将来,这会是这个市场的一个明显特点。
设定报警条件
在视频监控里引入“智能”极大地丰富了监控内容,提高了监控的灵活性。用户可以针对某个特定行为进行报警。例如简单地说,当运动物体穿越某条界限时报警。也可以使用更多的限定条件,如在晚上7点到早晨7点之间对进入某个区域的人员进行报警,对出去的人员,进出的车辆不报警。由于是通过软件设定报警条件,更改报警策略通常来说非常容易。例如有一批贵重货物在仓库里只存放一天,可以在那一天在屏幕上仓库周围设置虚拟边界,就像孙悟空用金箍棒画个圈将唐僧等人保护起来一样,很快地建立起保护措施。
用户也可以依据不同设施的具体安保需求设定不同的策略。例如白天和夜晚的监控内容不一样,工作日和周末监控内容、监控力度也不一样。系统自动切换,避免了人员监控的随意性。
目前可供选择的报警要素包括区域、时间段、物体种类、尺寸、运动方向、速度、行为特征等许多内容。
报警联动
在智能视频分析系统发现异常情况以后,通常需要作3类事情:
1. 核实报警真实性: 通过另外一台云台相机对报警事件拉近进行详细调查。由于监控范围的需要,报警相机的监控范围通常较大,而且经常是固定相机。另外一台云台相机可以和一台或者几台固定报警相机相配合自动或者手动响应报警事件。报警录像片段通常会被同时存在硬盘上。
2. 及时通知、提醒监控人员: 常用实时提示方法包括语音提示监控人员,如“仓库门口发现人员。”;在屏幕上弹出报警图像;在图像上用标识框标识触警物体;显示触警物体之前的运动轨迹。另外也有非实时的技术手段,如通过邮件或者短信的形式通知负责人员,并附以触警截图。目前通过手机浏览实时监控图像已经较成熟。3G手机在国内的普及必将促使手机成为有一个响应平台。除了DVR备份以外,智能视频分析系统可以存储报警录像片段,供监控人员迅速检索。
3. 触发其它外部响应手段: 为避免频繁出警,有些系统可以和喇叭联动,提醒入侵人员已经被监控。通常他们在知道被发现后会迅速离开。
产品主要形式及特点
目前智能视频分析产品主要基于通用CPU如英特尔(服务器,工控机)或者DSP。有些产品和DVR集成在一起,有些产品做成独立的模块,通过提供界面和开发SDK供集成商使用。集成化程度最高的产品已经和相机做成一体,直接输出智能分析结果。
基于服务器(工控机)的系统通常适合布置在监控系统的后台。由于它的架构相对开放,所以可以方便地和现有监控系统融合。另外服务器的CPU处理能力和DSP相比要高,可以使用较为复杂的算法。多核是英特尔CPU的发展方向,非常适合多路图像处理的需要及发展趋势。对于降低系统成本很有帮助。英特尔每两年推出一款新产品的速度也远较德州仪器(TI)快。基于服务器的系统性能可以随着英特尔产品的更新而方便地提升。在一些高端智能视频监控系统中,使用服务器的比较多。
基于DSP的模块化产品通常适合布置在监控系统的前端。它安装实施起来比较方便。对于知识产权的保护也容易做到位。从商业模式的角度来看,比较适合中国市场的需要。
如果我们可以从北美市场汲取一些经验的话,那就是成功安装使用一台智能视频分析产品通常应由有丰富经验的集成商或者开发商通过解决方案的形式给予直接有力的支持。现在市场上的智能视频分析产品和传统监控形式相比,监控效率、质量,特别在实时报警方面,有了实质性的进步。但是它们离我们期望的标准还有一些差距。还不能指望像安装监控相机一样搭起一套系统马上正常运转。像任何新技术一样,要达到好的效果,必须有了解智能视频分析产品特点的工程人员从方案设计到施工、调试的全程支持。
智能视频分析仍然是一个活跃的研究领域。新思路、新成果不断出现。无论从理论方面,还是硬件平台能力方面,目前的智能视频分析系统还有明显的提升空间。从用户使用的角度来看,在短时间内(如一分钟)单路图像监控情况下,人通常比现有的系统更快、更准的做出判断。从目前技术发展趋势来看,智能视频分析完全可以做到全面超过人的监控能力。变成像现在的DVR一样成熟、可靠的监控手段。
市场前景
勿庸置疑,智能视频分析的市场前景是广阔的。随着监控相机的普及,使用机器而不是人力来处理、利用 这些大量的图像数据已经逐渐被越来越多的人所接受。智能视频分析技术就像因特网上的Google一样,只将相关的信息呈现给用户。99.9%的监控图像信息是无用的。剩下的0.1%又是至关重要的。将人们有限的精力引导到相关的场景上面是智能视频分析存在的价值。
年轻的北美市场在发展过程中也经历了一个曲折。由于市场宣传和实际能力的脱节(Oversell),用户有一个从激动、期待到失望的过程。智能视频分析产品很容易激起人的想象空间,人做起来轻而易举的事情,让计算机去做并不是想象中那么容易的。人在观察图像中下意识的用到的一些智能判断就不是轻而易举用机器可以重复的。例如人会很自然地忽略运动物体的阴影,树枝的摆动。用机器实现就要动一番脑筋。
从以往新技术发展的趋势来看,当有实际需要并真正解决问题的技术出现时,技术推广的速度是惊人的。目前实际需要是显而易见的,从技术能力方面来看,我们已经非常接近。被市场接受并迅速拓展可能就是几年之内的事情。谁拥有自主知识产权,并具有对新技术的研究及消化吸收能力,就掌握了在此行业的主动权。