故事一:教训,数据丢失引发的“血案”
时间:2006年夏;地点:苏州;起因:某市级监控项目,采用数模结合方式,前端模拟摄像机接入编码器,将编码视频上传到监控中心通过视频平台软件进行集中管理、控制、存储。全市采用多级联网模式,以各行政区为分中心,并统一建设市级监控中心,对全市分中心进行管理。各分中心分别7*24小时进行视频录像,统一采用IPSAN模式。事情就出现在其中的一个分中心:高新区分中心。
某日,高清区分中心内,系统集成公司驻场人员在一次例行检查中发现,某个时间段以内的录像完全无法查找到,并且服务器上挂载的iSCSI卷也消失了,该名系统管理人员意识到,情况复杂了,需要马上联系上级以及各厂到现场进行支持。
待人员到齐,并逐一对各设备进行排查后确定,问题出在磁盘阵列上。在这起事故中,整个系统方案,设备选用上,磁盘阵列的安全性和可靠性配置不说是最好的,但也肯定是排在前列的,偏偏问题出在这种设备上,可想而知,当时设备厂商以及系统集成商肩膀上的压力有多大。
经过事后查明,iSCSI磁盘阵列上的一组raid5出现一块硬盘损坏,热备盘顶替上去恢复后,坏硬盘未能得到及时更换,导致后续有硬盘持续损坏不能得到恢复,最终造成两块硬盘的离线,raid5损坏。到这里为止,事实比较清楚,但深层次的原因需要进一步挖掘。
首先,导致该事故的表面原因是硬盘损坏。但我们知道,硬盘在大容量数据存储领域,是属于“易耗品”,硬盘损坏是不可避免的,我们需要做到的是及时更换。如何能“及时”?这就考验设备的报警机制了。对设备的维护,我们通常都采取主动以及被动两种方式,主动式相对设备来说,需要有完善的警告机制,将故障、问题、事件等要素事无巨细的上报。而被动式需要人工干预,建立完善的巡检机制,及时发现各种隐患、故障点,并进行恢复。主动、被动结合才能使系统稳定运行。从这起事故我们可以发现,整个分中心对于设备的维护存在问题的。设备报警机制不完善,导致硬盘损坏未能及时报警从而未能引起管理人员重视;热备盘未更新,设备不报这种隐患事件给管理员,导致热备盘真空期,从而导致整个事件最终走向raid损坏的深渊。
其次,该中心对设备的选择存在问题。一般来说,为了保证稳定可靠,集中存储设备都会选择专业型产品,采用控制器架构,模块化设计的产品,保证无单点故障,设备对硬盘以及raid的控制通过专业硬件芯片进行,并且设备可以通过多种方式(如SNMP、Email、Syslog、Windows Messenger等)进行主动报警上传,将各种事件以及设备状态及时呈现在系统里面,给维护工作提供最及时的帮助。反观该分中心的设备,对于硬盘以及raid的报警机制,只提供了Email一种手段,非常单薄,给系统维护造成一定障碍。
最后,该中心设备是一款国内典型的入门级产品,采用PC服务器架构,内部未能实现模块化无线缆连接模式,系统对于硬盘以及raid的管理存在单点问题,增加了硬盘掉线风险,导致整体稳定性不尽如人意,也是引起本次事故的一大隐患。
经过本次事故以后,甲方客户对于录像的丢失感到非常痛心,对系统集成公司以及设备提供商的信任都跌到了谷底,导致后续的几期扩容项目不再考虑该品牌产品,且在整个区域内的类似项目中也不推荐该品牌产品。对于设备提供商来说,这是血淋淋的教训。
故事二:千里奔袭,还客户业务于稳定
时间:2004年秋;地点:沈阳;起因:某日,晚上8点左右,北京某公司,正完成加班准备回家的小杨接到领导的电话通知,某商业银行沈阳分行数据中心一台核心存储设备出现报警,该设备其中一个控制器故障,无法提供服务,该控制器上的业务已经全部切换,还没有影响到客户的正常使用,但客户需要快速响应,为了保证明天上班后业务负荷上来后没有安全隐患,必须于第二天上班前保证设备恢复到双控状态。
接到电话后小杨犯了难,这么晚了,飞机没了航班,火车没了班次,怎么办?控制器备件公司倒是现成的,但怎么送到呢?最后只能选择了出租车。小杨9点左右打车从北京出发赶往沈阳,完成了生平唯一一次千里奔袭。
7个多小时的奔波,小杨在凌晨5点左右到达了沈阳。到了目的地,马不停蹄的赶往数据机房,机房内早有该银行技术人员陪同小杨去故障设备处,在对设备进行一番排查判断后,在取得该行领导同意后,在6点20分左右小杨以及该行陪同技术人员决定对问题设备进行控制器更换。
时间过去得很快,控制器更换过程也一切顺利,没有让人失望,该设备在更换新控制器后,恢复了正常,业务测试也没有出现问题,本次维护取得了意料中的胜利。整个过程表面上虽然波澜不惊,但懂行的都知道,没有苛刻的产品品质保证,没有过硬的故障恢复能力,以上的波澜不惊可能就会演变为波涛汹涌、惊涛骇浪了。
现在我们该深层次的分析隐藏在这个故事中的种种暗礁了。首先,映入我们眼帘的第一个暗礁就是故障恢复能力。得益于设备的架构,该行的问题设备采用的是配置双控制器的存储设备,因此,在发现控制器故障以后,业务能够实现无缝切换,并且不影响业务的运行,真正做到了在线故障切换能力。有了这种保障,才能顺利的避开故障恢复这个庞大的海底暗礁。
其次,产品品质问题。不是所有的控制器产品故障恢复能力都能达到企业级应用。上面这则故事里面的设备,如果不是有可靠的硬件架构,配合扎实的后台软件,经历严格的测试,是不可能如此出色的完成任务的。如果要用数字量化一个设备的可靠性,业界接受的数字是:99.95%-99.99%,再高的99.999%,就不是几个设备、一套软件能完成的工作了。
总结
就安防监控对于专业存储产品的应用来看,尚处于入门阶段。很多项目追求的是产品价格,对于大容量数据的安全性尚未引起足够的重视,因此大部分监控项目选用的产品是入门级存储产品,只能解决基本的数据存储需求。稳定性不佳,故障恢复能力不强是入门级产品普遍存在的现象。
近年来,安防视频监控技术在不断地寻求突破,不仅是技术本身的升级,更要不断地寻求引进其他行业的成熟技术。在安防视频监控行业,我们最近看到了广电行业HD-SDI技术的引用。再往前,我们把业务扩展到以太网上,实现了集中监控、网络化应用,等等。这些都证明只要有应用需求,就可以借鉴及消化其他行业先进的技术,完善整体解决方案。
随着高清应用越来越成熟,高清监控建设是每个使用者、每个厂商都要考虑的问题。在高清录像面前,图像细节已经不是奢望。在图像清晰度越来越高,参考价值越来越大的前提下,录像存储的安全性已经是必须实现与解决的问题,随意丢失录像就是一种对投资、对效率、对用户的不负责。
目前,存储设备的安全性、可靠性成为行业普遍关注的问题。因此,我们完全可以把数据专业存储行业成熟的技术引进,借鉴他们先进的概念,改善安防视频监控方案中集中存储存在的问题,甚至于可以结合视频监控行业数据读写的特殊性进行优化,打造出符合行业应用的专业产品。
基于此,大华股份定位自己为网络存储“专业、可靠”倡导者,“高效、稳定”实践者,率先在行业内掀起专业存储产品推广风暴,在“以客户为中心”的指导下,将监控录像安全的保存下来。
【作者:浙江大华技术股份有限公司产品经理杨文昭】
【中安网原创稿件声明】转载中安网文章时应遵循以下三个规则:1、保持原创文章中图表、图片、音视频的完整性;2、完整标注文章作者[文章前后有说明];3、转载中安网原创中部分内容也要完整标注来源"中安网",违者本网将依法追究。
【想第一时间了解安防行业的重磅新闻吗?请立即关注中安网官方微信(微信号:cpscomcn)——安防行业第一人气微信,万千精彩,千万不要错过!!!
网友评论
共有0条评论 点击查看全部>>24小时阅读排行
本周阅读排行