故事一:教训,数据丢失引发的“血案”
时间:2006年夏;地点:苏州;起因:某市级监控项目,采用数模结合方式,前端模拟摄像机接入编码器,将编码视频上传到监控中心通过视频平台软件进行集中管理、控制、存储。全市采用多级联网模式,以各行政区为分中心,并统一建设市级监控中心,对全市分中心进行管理。各分中心分别7*24小时进行视频录像,统一采用IPSAN模式。事情就出现在其中的一个分中心:高新区分中心。
某日,高清区分中心内,系统集成公司驻场人员在一次例行检查中发现,某个时间段以内的录像完全无法查找到,并且服务器上挂载的iSCSI卷也消失了,该名系统管理人员意识到,情况复杂了,需要马上联系上级以及各厂到现场进行支持。
待人员到齐,并逐一对各设备进行排查后确定,问题出在磁盘阵列上。在这起事故中,整个系统方案,设备选用上,磁盘阵列的安全性和可靠性配置不说是最好的,但也肯定是排在前列的,偏偏问题出在这种设备上,可想而知,当时设备厂商以及系统集成商肩膀上的压力有多大。
经过事后查明,iSCSI磁盘阵列上的一组raid5出现一块硬盘损坏,热备盘顶替上去恢复后,坏硬盘未能得到及时更换,导致后续有硬盘持续损坏不能得到恢复,最终造成两块硬盘的离线,raid5损坏。到这里为止,事实比较清楚,但深层次的原因需要进一步挖掘。
首先,导致该事故的表面原因是硬盘损坏。但我们知道,硬盘在大容量数据存储领域,是属于“易耗品”,硬盘损坏是不可避免的,我们需要做到的是及时更换。如何能“及时”?这就考验设备的报警机制了。对设备的维护,我们通常都采取主动以及被动两种方式,主动式相对设备来说,需要有完善的警告机制,将故障、问题、事件等要素事无巨细的上报。而被动式需要人工干预,建立完善的巡检机制,及时发现各种隐患、故障点,并进行恢复。主动、被动结合才能使系统稳定运行。从这起事故我们可以发现,整个分中心对于设备的维护存在问题的。设备报警机制不完善,导致硬盘损坏未能及时报警从而未能引起管理人员重视;热备盘未更新,设备不报这种隐患事件给管理员,导致热备盘真空期,从而导致整个事件最终走向raid损坏的深渊。
其次,该中心对设备的选择存在问题。一般来说,为了保证稳定可靠,集中存储设备都会选择专业型产品,采用控制器架构,模块化设计的产品,保证无单点故障,设备对硬盘以及raid的控制通过专业硬件芯片进行,并且设备可以通过多种方式(如SNMP、Email、Syslog、Windows Messenger等)进行主动报警上传,将各种事件以及设备状态及时呈现在系统里面,给维护工作提供最及时的帮助。反观该分中心的设备,对于硬盘以及raid的报警机制,只提供了Email一种手段,非常单薄,给系统维护造成一定障碍。
最后,该中心设备是一款国内典型的入门级产品,采用PC服务器架构,内部未能实现模块化无线缆连接模式,系统对于硬盘以及raid的管理存在单点问题,增加了硬盘掉线风险,导致整体稳定性不尽如人意,也是引起本次事故的一大隐患。
经过本次事故以后,甲方客户对于录像的丢失感到非常痛心,对系统集成公司以及设备提供商的信任都跌到了谷底,导致后续的几期扩容项目不再考虑该品牌产品,且在整个区域内的类似项目中也不推荐该品牌产品。对于设备提供商来说,这是血淋淋的教训。
【中安网原创稿件声明】转载中安网文章时应遵循以下三个规则:1、保持原创文章中图表、图片、音视频的完整性;2、完整标注文章作者[文章前后有说明];3、转载中安网原创中部分内容也要完整标注来源"中安网",违者本网将依法追究。
【想第一时间了解安防行业的重磅新闻吗?请立即关注中安网官方微信(微信号:cpscomcn)——安防行业第一人气微信,万千精彩,千万不要错过!!!
网友评论
共有0条评论 点击查看全部>>24小时阅读排行
本周阅读排行