中安网 > 资讯频道 > 市场分析

视频检索技术曲折发展不断提升

2015-05-15 14:25:20 来源:中国安防展览网责任编辑: violetwen 收藏本文

摘要:随着“和谐社会”、“平安城市”建设的不断深入，全国进入了安防设施建设的高潮期，监控摄像头已遍布中国大地的每个街头，昼夜不停地监视和录像。然而，有了相关视频不等于就找到了目标信息，查找视频、分析视频的工作常常会耗用大量的时间和人力。如何在海量视频中更方便、更省力地查找到相关信息呢?现在，随着安防智能化需求越来越强烈，视频检索技术也得以快速发展。

【CPS中安网 cps.com.cn】随着“和谐社会”、“平安城市”建设的不断深入，全国进入了安防设施建设的高潮期，监控摄像头已遍布中国大地的每个街头，昼夜不停地监视和录像。然而，有了相关视频不等于就找到了目标信息，查找视频、分析视频的工作常常会耗用大量的时间和人力。如何在海量视频中更方便、更省力地查找到相关信息呢?现在，随着安防智能化需求越来越强烈，视频检索技术也得以快速发展。

QQ截图20150505100053.png

　　一、金融行业安防市场强劲增长

　　检索技术源于互联网发展需求。各类搜索引擎，如Baidu、Google、Bing以及Yahoo等都是以此技术为基础的。随着网络带宽不断的提高，人们可以更加快捷地将自己采集到的各种多媒体信息进行共享，或者进行多媒体信息的交互，越来越多的信息通过视频等多媒体的形式展现在互联网中，这对以图像、视频为代表的多媒体信息检索技术提出了越来越高的要求。20世纪90年代初，国际上开始了对视频方面的检索研究。区别于文字信息检索，图像视频的检索是建立在图像视频内容分析的基础上，所以常称之为基于内容的图像视频检索。1992年，“基于内容的视频检索”一词开始使用。

　　数字技术和网络技术的飞速发展，视频信息也在飞快的增长，电视和电影等需要保存的视频素材也越来越多，而且每天都在产生大量的视频信息。对这些多媒体资料的存储、管理和再利用变得非常困难，需要合适的归档体系允许高效的浏览、搜索和检索。比较通用的方法是采用文本注释图像和视频信息，以基于文本的数据库管理系统进行图像和视频检索。但文本注释方法对大量的信息不仅费力而且力不从心，对于在存储的视频节目中寻找指定的视频片断这样的应用需求，比如特定节目内容的搜索、定位就更加困难，基本只能靠人工的观看、识别和记录。

　　此外，许多应用场合文字不足以描述具有丰富内容的视频。而且，因为目前大部分的视频资产还是以模拟形式存放，从现有资源中找出要用的视频片段，意味着搜查大量的人工索引和可能素材冗长的线性筛选。大型的机构，例如无线电视台、有线电视台以及制作公司最有可能遭遇这种头痛的情况，所有视频资产丰厚的机构同样面临这个难题。他们基本上以人工方式管理视频资产，这种人手密集和时间密集的管理模式拖慢了应用步伐，增加了成本。

　　对于开发利用视频的机构，如果能具有高效、灵活、智能地访问视频资源的技术，再加上简单、经济的方式、及时的通信，必将增加电子商务应用的机会，提供全新的商机。视频资源丰富的机构必须应对的挑战就是如何高效率地管理这些资产，使用户如何以前所未有的速度和便利直观地搜索视频，寻找他们所需的准确片段。

　　二、视频检索技术原理

　　十多年来，视频数据在获取、存储、操作及传输技术方面取得了重大的理论突破和技术进步。

　　视频数据按照由粗到细的顺序可以划分为四个层次结构：视频(Video)、场景(Scene)、镜头(Shot)和图像帧(Frame)。由于一个镜头内的相邻帧间的变化不是很大，它们之间的特征差值会限定在某个阈值范围内。

　　而在镜头突变时，突变点前后两个相邻帧在内容上显示会有很大的变化，如果特征差值超过了给定的阈值，则意味着出现一个分割边界。镜头的关键帧就是反映该镜头中主要信息内容的帧图像。将各镜头检测出来后，对每个镜头可提取关键帧，并用关键帧简洁地表达镜头。关键帧数目的确定是关键帧提取中的一个重要问题，其确定方法可以根据镜头内帧的差异进行统计，求出其方差，用方差来衡量镜头视觉内容的复杂程度。方差越大，该镜头提取的关键帧数就越多。

　　从内容上对视频进行搜索，其特点包括：第一，直接从媒体内容中提取信息线索;第二，基于内容的检索是一种近似匹配，这一点与常规数据库检索的精确匹配方法有明显的不同;第三，动态特征提取和索引建立可由计算机自动实现，这避免了人工描述的主观性，也大大减少了工作量。基于内容检索时，根据媒体特征进行相似性匹配检索的媒体特征有：颜色、纹理、轮廓、形状、空间约束、动态、概念、结构描述及其他的图像信息。

　　三、视频检索技术不断升级提升

　　目前，从视频数据中提取有效信息的技术已基本解决，主要面临的是提高从海量数据提取信息的速度。视频数据检索的提述经历了三个阶段：一、有效视频数据提取;二、基于智能视频分析算法的检索;三、基于视频数据的元数据的检索。

　　有效视频数据提取

　　该方法的技术基石是图像分析技术中的移动侦测技术。该技术在业界已经比较成熟。移动侦测我们可以在前端设备中完成，也可以通过后端处理来执行。以24小时录像来说，闹市区场景的录像可能有1/3左右的录像是无运动目标;而郊区场景的录像可能有2/3左右的录像是无运动目标，在检索视频数据时，我们只需要观看有运动目标的视频数据即可，无论是1/3或2/3，均能显著降低所需检索视频数据的大小。

　　基于智能视频分析算法的检索

　　前面提到，一段24小时的录像，人工查看即使用4倍速查看也需要6小时，而利用计算机通过智能视频分析算法进行视频的自动检索，检索的速度则取决于视频解码和分析算法的运行速度。我们以对4cif的视频数据执行周界防范算法为例，一帧视频数据解码加上算法执行的平均时间可以控制在10ms左右，也就是相当于4倍速。同样四倍速，一个是不知疲倦的计算机，一个是极易疲倦和出错的人脑。孰优孰劣，一目了然。

　　如果我们把1段24小时的录像，经过解码，智能分析，把获取到的智能元数据都存储下来，对元数据的查询速度可以达到十秒的量级。

　　一段24小时录像文件的查询速度提升过程：人工，正常速度查询，24小时;人工，四倍速查询，6小时;视频浓缩后，人工四倍速查询，3小时左右;视频浓缩后，基于智能分析算法查询，3小时左右;基于视频数据的元数据查询，十秒量级。

　　可以看到，最后一步才是质的提升，检索速度量级的飞跃。尽管如此，视频数据的元数据的检索也并不是完美无缺的，仍有一些问题等待解决。

　　移动侦测算法虽然比较成熟，但对于飞虫干扰、灯光干扰、树叶抖动等问题目前还没有特别有效的解决办法;基于智能分析算法的检索，比如车牌识别、人脸识别，对视频数据的场景要求比较高，普通的治安监控视频基本无法执行这种分析。对于视频场景适应性相对较好的周界防范，行为分析算法来说，虽然能较为准确分析出目标，但是对于目标进一步的分类，比如人、物、非机动车、机动车、目标的属性特征，比如颜色、纹理、形状等，目前还是业界面临的技术难题。

　　虽然有上述两大难题，随着元数据的标准化，以及前端设备实时产生元数据和后处理产生元数据两种机制和产品的并存，基于元数据的检索必然会成为海量视频数据检索的主流。

关键词视频检索数据智能化

分享到：

赞:（0）

踩:（0）