安防大数据技术难点分析与解决方案
引入擦除码(ErasureCode)技术,节省存储空间。擦除码是一个在通信理论中的术语,其基本思想就是:一条原始信息由K个符号构成,在信息发送前,通过某种具有冗余功能的数学映射,生成由(K+M)个符号组成的编码后的信息,然后把编码后的信息通过信道发送给接受方,由于信道的不可靠特性,在信息传输的过程中可能会丢失几个符号,接受方在接受到信息后,只要丢失的符号不超过M个,则接受方在剩余的符号中通过逆向的数学变换,能还原出由K个符号组成的原始信息。
图-1:信息在信道中的传输过程
如上图所示:原始信息由[A、B、C]三个符号组成,现在通过编码函数f对其进行编码,生成编码后的信息为[a、b、c、d、e],编码后的信息在信道上进行传输,在传输的过程中由于某种原因符号a与b丢失了,接受方只接受到了三个符号[c、d、e],接受方通过解码函数-f(实际上就是编码函数的逆函数)进行解码,能够计算出原始的信息[A、B、C]。由上可看出,信道虽然不可靠,但在信道上丢失的两个符号并不影响我们整个信息的传输,我们唯一要做的工作就是在发送信息前与接收信息后做一定的编码与解码工作。
受上面思想的启迪,在分布式存储系统中,一个大文件分成若干块,这些不同的块分发到不同的节点中,现在假设一个文件由K个数据块组成,我们通过编码后变成(K+M)个编码块,再把这(K+M)个编码块分发到不同的节点中。现在由于集群中几个节点失败,丢失了几个块,只要丢失的块数不超过M,我们依然能从其他节点中读入K个编码块,通过解码运算,得出我们之前的K个数据块,也就还原出那个完整的文件。而在分布式系统中,超过M个数据节点同时失效的可能性很小,由此可以看出,虽然存在节点失败的情况,但依然不影响我们数据存储的可靠性。这里引入额外的存储空间为(M/K)倍,而传统的N副本策略,引入的额外存储空间为(N-1)倍,通过调节M与K的关系,我们能把存储空间降到1.3倍,这与传统Hadoop占用存储空3倍相比,具有巨大的节省价值。
在工程实践中,我们通过数据分条带,优化编码分组策略,进行高效快速的编解码计算,既保证数据存取的性能,又节省了大量的磁盘空间。如图-2,数据横向分条带,同一个条带内,左边为原始数据(K=4),右边为编码后的数据(M=2),存储时,把同一个条带内的所有数据分发到分布式系统上的不同节点。当处于同一个条带内的数据丢失块数不超过2时,依然能从剩下的数据块中通过解码计算出原始的数据。
图-2:数据分条带,进行编码存储
建立索引,小文件合并成大文件集中存储。对于大量的数据,单机无法存储,借助分布式存储技术,将数据分散存储到不同的节点上。但主流的HDFS分布式存储系统适合存储少量的大文件,就是文件个数较少,但单个文件的很大。如果大量的小文件朴素的存放在HDFS中,由于要管理的元数据巨大,严重印象集群的可扩展性,以及文件本身的存储性能。解决问题的思路是,把大量的小文件合成一个大文件,同时对这些小文件建立索引,索引信息集中管理。当要读取文件时,先查找索引信息,根据查找出的索引信息再定位到那个大文件具体位置,读出小文件。
图-3小文件合成大文件,并且建立索引
如图-3,上面为把若干小文件合成一个大的文件,下面为针对这些小文件建立的索引,所有的索引又合成一个索引文件。在工程实践中,我们又对索引文件的结构进行了优化,引入了哈希索引结构,由于哈希定位过程相当过,所以提升了小文件的读取性能。同时,由于索引文件很小,我们除把索引文件持久化到底层文件系统,还同时把索引信息读入内存,这样极大提升了文件存取效率。
结语
随着大数据技术的逐步发展与深入应用,它会给我们带来越来越多的潜在价值。当安防行业进入就计算化时代后,各种前端设备采集大量的图片、音频、视频,这个数据在一个较小的区域一个较短的时间内,就能积攒海量的数据,要掌握并且成功挖掘出这些数据的价值,更好的为安防服务,急需我们掌握大数据技术。目前,安防行业仅有海康威视等极个别企业掌握了该项技术。
由于安防行业和IT互联网行业存在差异,我们在借鉴互联网大数据技术的同时,也要深入研究我们的安防场景,探索一些贴切安防应用的大数据技术。安防大数据第一阶段要解决安防大数据的存储问题,当解决好存储问题后,我们进入到安防大数据分析处理阶段,当我们具备娴熟的分析处理技术后,可以进入深度学习,多维数据挖掘的深入应用。这一路还很漫长,我们慢慢探索,精益求精,一定能让安防大数据更好的服务安防业,保证我们的幸福安康。
声明:
凡文章来源标注为"CPS中安网"的文章版权均为本站所有,如需转载请务必注明出处为"CPS中安网",违反者本网将追究相关法律责任。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
- 第1页:大数据当前在各行业的应用
- 第2页:安防大数据当前面临的技术难点
- 第3页:解决问题的方向
相关阅读
征稿:
为了更好的发挥CPS中安网资讯平台价值,促进诸位自身发展以及业务拓展,更好地为企业及个人提供服务,中安网诚征各类稿件,欢迎有实力安防企业、机构、研究员、行业分析师。投稿邮箱: tougao@cps.com.cn(查看征稿详细)