智能视频监控技术在国内外都处于一个上升期。虽然已经投入商用,但是距离一个成熟的产品(如硬盘录像机)还有不小的差距。作为智能视频监控技术研发人员,本文试着从一个传统安防集成商的角度评估智能视频监控的技术瓶颈,对解决之道以及未来的发展方向做一个评估。
智能视频监控的常见误区
智能视频监控就是移动侦测
许多年前在主流的硬盘录像机上就有移动侦测功能。从算法而言,现在智能视频分析里的运动检测和早期的移动侦测有了质的不同。通常运动检测都会考虑对自然环境背景的适应性;对运动物体进行跟踪;并对运动物体的行为特征(运动,停止,徘徊,遗留物,物品被盗等)进行分析。近年来又增添了人数统计、人群聚集、人脸掩盖等新应用。从国外应用和实验室研究成果来看,智能视频分析还被应用到司机瞌睡检测,行人检测,道路标识自动识别,化学液体泄漏检测等许许多多细分领域。虽然安防监控是智能视频分析技术的主要应用领域,但是未来相关行业应用也可能会对安防监控的技术发展产生影响。
以硬盘录像机的价格为参照定心理价位
由于传统视频监控技术较成熟,价格成为竞争的主要手段。现在的客户在接触智能视频监控的时候,通常会有意识无意识地和硬盘录像机价格相比。忽视了智能视频监控系统对视频监控工作模式带来的根本性地转变,即由事后调查变为防患于未然,以及由此为客户带来的新价值。另外从研发投入,技术含量而言,智能视频监控和传统的硬盘录像机是不可比拟的。
智能视频监控系统和传统的以存储为主的视频监控系统以及红外对射、电子围栏、震动光缆等周界防护技术是相辅相成的。应该发挥各自的长处。如智能系统对区域,水域,特定行为的监控是其它手段不可替代的。
主要技术瓶颈和解决之道
降低误报警率
现有的经典的视频分析技术可以大大降低监控人员的工作强度,但是在短暂时间间隔内,人眼监控质量还是要高于计算机监控质量。所以现有系统的报警结果通常不能作为出警依据,而是需要安保人员进一步判断,起到一个信息过滤的功能。视频分析技术还有很大的提升空间。现有的科研成果已经为如何降低误报警率指明了方向。相信厂家在近几年内会将误报警率降到一个新水平。
产生误报警的因素很多,概括起来有相机抖动、树木摆动、喷泉、旗帜飘荡、水面波浪及反光、云影、相机自动曝光控制带来的影响、相机CCD成像不稳定带来的影响等客观因素造成的影响。即使在算法上考虑了这些因素,如果使用不当也会造成误报较多现象。
对于固定监控相机(枪机),系统通常要有防抖动功能来克服由于大风等因素造成的相机抖动而带来的检测噪音。基于云台的自动跟踪系统对相机抖动较不敏感,但是这类系统通常在检测距离上要差一些。对于动态背景(喷泉、旗帜飘荡、水面波浪及反光),现在可以通过动态纹理技术来对背景有效建模从而得到抑制。对于影子(室外云影,室内墙上、地面人影等)可以利用彩色信息以及静态纹理技术进行过滤。对于相机带来的误差可以对相机成像模型进行修正来克服。在复杂环境下如何使用有针对性的技术需要对系统有较好的理解;如何用好系统,尤其是让对系统算法一无所知的监控人员也可以有效使用好系统,就需要在人机界面、培训以及系统的自适应上下功夫了。
缺乏统一有效的测试标准
和硬盘录像机、摄像机等设备不同,智能视频分析系统很难有一个客观、公平的测试标准。现有系统通常会有误报警率,漏报率等指标。在理想情况下,误报警率、漏报率可以几乎为0。在恶劣气象条件、背景条件下, 上面两个指标通常会比标识的指标要高很多。国家现在还没有具体的测试标准。往往以企业自己的内部测试标准为参考。
由于应用场景复杂多变,很难期望会有一个客观公正的评测标准。预计行业最终会走上和汽车耗油量标准的道路。即厂家公布一个理想状况下系统性能数据,用户由此推测系统的实际性能。当然最重要的还是口碑和用户的实际应用体验。
数据量大,处理能力有限
实时图像处理,尤其是多路实时图像处理,对处理器的处理能力要求是非常高的。主要是由于图像数据量很大,要求处理时间短。 现在很多厂家的产品由于处理器能力的限制,用于视频分析(不是显示)的图像大小通常会很小,对于室内探头,这不是个大问题;但是对于室外较大范围的监控,会造成系统的有效检测距离过短。很多效果很好的算法由于对计算机资源占用过多而不得不暂时搁置。等待将来处理器的能力得到提高以后在考虑做成产品。
目前市场上的智能视频分析产品的技术平台主要分为两大类,基于DSP的和基于通用处理器的。基于DSP形式的产品形式较多,有板卡,独立设备以及和相机集成在一起的智能相机。基于通用处理器架构的产品形式主要有工控机和服务器两种。
基于DSP的产品通常将算法封装在硬件里,通过DSP处理器,如德州仪器的达芬奇系列(DaVinci)数字媒体处理器,进行运算。此类系统已经具有较为完善的I/O控制,网络以及图像采集功能。程序的编译、调试都有十分完善的软件环境。
基于通用处理器架构的系统主要利用Intel或者AMD的通用处理器及其配套的硬件进行运算。
如果直接从表面的处理器主频速度和标准硬件配置来看,通用处理器的处理能力好像比DSP要高一个量级。是不是就代表利用通用处理器进行图像处理的速度比DSP要高很多呢?答案并没有那么简单。
由于DSP的处理任务较为单一,从历史上看,DSP通常有一些特有的优化处理指令来提高对图像,声音等特定输入的处理能力。例如德州仪器的C64x DSP 可以在一个时钟周期内进行8个操作;可以很快地完成图像处理中常见的点积操作。这都是很多人对DSP处理能力抱有信心的主要原因。
近年来,通用处理器已经在对此方面有了长足的进步。随着SSE指令集的拓展,类似于DSP的单指令多数据(SIMD)流媒体指令得到广泛应用。在加上时钟频率和硬件配置上的优势,现在常见的通用处理器的图像处理能力要高于常见的DSP的处理能力。另外通用处理器的一个主要趋势就是朝多核发展。一台拥有4,8乃至24个核的服务器可以方便地购买到。所以一台服务器可以处理许多路图像,从而大大降低了硬件成本。不过目前DSP仍然具有一定的价格优势。
目前智能视频分析系统的效能和用户所期望的水平相比,还有提高的空间。一个成功的产品必须首先满足用户的需求,然后再降低成本。智能视频分析技术的目标客户主要还是集中在高端或者特殊行业。所以首要关注的特性是处理能力和检测效果。通用处理器由于更强的处理能力和硬件配置,为更先进复杂的算法提供了更大的应用空间。在产品更新维护上,通用处理器也更方便。
从产品路线图来看,将来通用处理器在处理能力的优势将近一步拉大。在不断增加CPU核数目的同时,INTEL将在明年(2010)上半年推出Larrabee。这是INTEL推出奔腾处理器以来最大的架构变革。它本质上更像一个图像处理器(GPU)和CPU的结合体。可以简单理解为大量的小CPU集成在一起以达到提高运算平行度的目的。它非常适合图像处理,物理仿真等可以将任务并行化的问题。GPU对图像的处理能力是CPU和DSP所无法比拟的。所以GPU和CPU的结合可能引导智能视频分析开发商们放弃现有的开发平台,向Larrabee转移。它将带动系统集成度的提高,进而降低基于通用处理器系统的价格。
不管技术平台是DSP还是通用处理器,所有智能视频分析系统的核心是算法。基于目前我国知识产权保护现状,许多国外厂商仅推基于DSP的产品。主要是由于封装在硬件里的算法保护较为完善。基于通用处理器的软件产品也有有效手段进行保护。
智能视频监控的常见误区
和前沿研究成果相比,现有商用系统中即使一些基本的智能视频分析应用模式的技术潜力还是大有可挖的。智能视频监控在未来几年内和现有产品性能相比会有非常大的提升,前面提到的一些技术瓶颈完全有可能得到很好的解决。向真正意义上的智能迈进。