人人范文网 范文大全

分行29、9.30机房断电事故调查报告

发布时间:2020-03-03 14:25:33 来源:范文大全 收藏本文 下载本文 手机版

分行9.29/9.30中心机房断电事故

调查报告

省分行信息技术管理部:

2011年9月29日12点50分及2011年9月30日8点10分,分行中心机房(以下简称机房)接连发生两次断电事故,造成郴州分行全辖所有业务分别中断45分钟、14分钟。经调查,确定如下调查结果:

1、机房UPS系统为一主一备供电模式,其中UPS1(主机)异常,在主路输入停止,电池放电完毕后自动切换旁路失败,导致UPS2(备机)供电无法送至负载;

2、UPS电池损坏,其中UPS1电池几乎完全失去功能,在输入熔断器烧坏后无法支持UPS继续供电;

3、机房存在鼠患,在UPS输入配电柜开关上发现老鼠尸体;

4、机房强电布线非常不规范,从机房配电柜至供电开关间布线凌乱;

5、9月29日断电发生时,给机房供电的两路市电其中一路变压器掉了一相电,同时UPS1烧坏一个输入熔断器;

6、9月30日断电系东方万象工程师在未获得我行人员许可的情况下对UPS1进行放电操作,导致与9月29日同样原因的掉电事故。现将具体调查情况报告如下:

一、事故现场调查情况

1、9月29日中午12:51分,技术员发现机房断电,网络通讯中断,同时发现UPS设备出现告警,UPS1整流器、逆变器指示灯为红色,旁路与输出指示灯均为绿色。UPS2整流器、逆变器、输出指示灯均亮绿灯。立即通过电话与UPS维保商东方万象技术员联系,在维保商技术员的指导下,手动关停主机Q1(主路输入)、Q4(旁路输入)、Q5(输出),开启Q3(维修旁路),负载由UPS2提供电源,供电恢复。

技术员后来发现由电业局提供的国家电网机房专线输入变压器跌落保险掉了一相。

2、9月29日19:00,UPS维保商东方万象从武汉抵达现场检修UPS主机,断开UPS1电池开关,发现主输入熔断器损坏,其它元器件无异常,用导线临时替换熔断器(已损坏的),按顺序闭合Q

1、Q

4、电池开关、启动逆变,在Q5(此时为断开状态)输入端测得正常电压,设备运行正常。

9月30日凌晨4时左右,UPS维保商东方万象工程师周劲松携带熔断器配件。

3、9月30日8:10分,东方万象工程师姜国清、周劲松关UPS1电池开关、关Q

1、Q4,更换保险,合Q

1、Q4,测得电池浮充电压404V,合电池开关,测得逆变后端电压正常。合Q5,看显示面板旁路电压正常,断Q3,启动逆变,负载切换到主机,全部恢复正常工作模式,

4、随后,东方万象工程师姜国清、周劲松在未征求同意的情况下,擅自做UPS1放电测试,断开Q1,观察电池电压,发现电池电压瞬间由406V掉至362V,欲合上Q1时发现负载已经掉电,于是立即断开Q5,闭合Q3,发现负载仍然没电。郴州分行技术人员发现UPS输出配电柜三个施耐德20A单相空气开关跳闸(分别为网络机房、服务器机房、操作间供电开关),复位后机房负载恢复正常。

此时机房状态为:UPS1的Q

1、Q

4、Q5开关断开,Q3开关闭合,UPS2正常,机房负载由UPS2通过UPS1的维修旁路供给。

二、事故原因调查情况

2011年9月30日24点,管理部工程师梁承山与东方万象负责人曾志雄抵达,进行事故原因调查。10月1日凌晨1点至4点,在主持下,对29日、30日发生的UPS故障现象及处理过程进行了仔细的回顾与分析。根据掌握的情况,在向省分行信息技术管理部汇报后,确定于10月1日晚对故障UPS进行全面检修及故障排查。10月1日下午,经由省分行向总行申请了故障排查的窗口时间。

10月1日22:00,梁开始对设备进行故障排查检修,过程如下:

1、22:00,测量三个跳闸的空气开关输出电流分别为:20A、13.5A、10:21A,开关下端接头较松。判断机房负载即将达到空气开关容量上限,在电网出现波动时容易发生跳闸现象。

2、在UPS输入配电柜备机输入开关处发现死亡老鼠一只(取出后发现老鼠全身完全干枯),UPS输出配电柜输出开关及电缆上发现有其他老鼠死后留下的油污。

3、检查跳闸空开后端没有发现UPS电源插座接非计算机设备。

4、闭合UPS1的Q4开关,测UPS1的Q5(输出)开关输入端电压为399V,401V,399V,50HZ(此时UPS1的Q1(主路输入)、Q5(输出)是断开的,Q4(旁路输入)、Q3(维修旁路)、电池开关是闭合的)。判断UPS1的静态旁路是导通的。

5、闭合UPS1的Q1开关,启动逆变后,逆变正常,测Q5输入端电压为382V,383V,382V,50HZ。判断UPS1的逆变正常。

6、23:00点报告省分行运行中心,主动关停网络设备、前臵机。

7、断开UPS输入配电柜上的UPS1输入开关M1,观察电池在低负载(3A)情况下电压下降非常明显,之后断开UPS1的电池开关,UPS1显示面板显示UPS1已经自动切换旁路,旁路输出电压为39

9、39

9、399V,经实际测量Q5输入端电压为12.45V、12.53V、12.85V(感应电压,实际供电没有通过静态旁路送至Q5)。此时再测量Q4输入端电压为 402V、403V、397V, 输出端电压为399V、402V、400V。证明UPS2供电正常,并已经到达UPS1的Q4,但是并没有通过UPS1D 静态旁路到达Q5。判断UPS1自动切换旁路存在故障。

8、将供电恢复正常模式:备机为正常开机状态,将主机Q

1、Q

4、Q

3、Q5断开,停机后按正常流程开机,此时机房供电模式恢复为正常状态,测量UPS1的Q5输出端电压为382.2V、382.6V、382.2V。判断UPS1逆变输出正常。

9、断开UPS输入配电柜上的UPS1输入开关M1,断开电池开关(完全模拟事发时现场现象), UPS1面板显示“电源1超限,UPS内部故障,负载切换故障(只显示一次,再次查看即无此条报警)”,查看UPS1电压状态显示:电源2电压394V 397V 392V 负载电压394V 397V 392V,实际测得Q5输出端电压为6V、7V、8V,Q4输入端电压为402V、402V、402V,输出端电压为402V、402V、402V。此时UPS1 的整流器指示灯、逆变器指示灯为红色,旁路指示灯与输出指示灯为绿色,同时三个施耐德20A的空气开关跳闸。再次验证UPS1的自动切旁路功能存在故障。

10、再次重复步骤9,得出同样结果,此时可以确认UPS1的自动切旁路功能存在故障。

11、将供电恢复正常模式:备机为正常开机状态,将主机Q

1、Q

4、Q

3、Q5断开,停机后按正常流程开机,此时机房供电模式恢复为正常状态。

12、断开UPS2的Q1开关(时间12:13),电池开始放电,随后断开UPS2电池开关,UPS2显示自动切换为旁路,实际测得UPS2的Q5输出电压401V 401V 397V。判断UPS2自动切换旁路正常。

13、10月2日凌晨1:00,恢复正常供电模式,然后断开UPS1的Q1开关、电池开关、Q5开关、Q4开关,闭合Q3开关,将供电模式恢复为UPS2的逆变输出通过UPS1的维修旁路给机房供电。此时负载恢复供电。

14、启动网络设备、前臵机、测试网络正常、前臵机通讯控件正常。

经过以上操作测试,确定是由于UPS1主机内部存在故障,导致UPS1自动切换旁路异常,UPS2供电无法通过UPS1静态旁路向负载输出,最终导致机房设备断电。

三、应急处臵方案

由于郴州分行中心机房使用的UPS年限过长,全面维修所需的配件难以在短时间内备齐,维保商东方万象公司无法确定对UPS1进行全面维修的时间。为降低郴州分行中心机房的动力风险,经省分行信息技术部领导的批准,省分行信息技术管理部梁承山工程师、东方万象工程师、郴州分行信息技术部共同确定了将郴州分行中心机房UPS主备机互换的应急处理方案,由于UPS1的逆变输出是正常的,将UPS主备机互换,可以达到UPS设备备份的应急目的,临时提高机房供电安全系数。应急处理方案于2011年10月3日凌晨2时至6时实施。

(1) 10月3日02:00开始,关闭所有负载,断开负载的输入开关。

(2) 断开UPS2的输出开关Q5,断开Q4,断开电池开关和Q1。断开UPS1的维修开关Q3。

(3) 拆开UPS1与UPS2的输入输出接线的前挡板。 (4) 拆除UPS1输出开关Q5输出端导线连接头,标记为“UPS总输出”。

(5) 拆除UPS2的主输入Q1至静态旁路Q2输入端的连接线,用该导线将UPS1的主输入端Q1与静态旁路Q2输入端按相同相序连接。

(6) 将UPS1静态旁路Q4输入端导线连接头拆除,按相同相序连接至UPS1输出Q5输出端。

(7) 将UPS2输出开关Q5输出端导线连接头拆除,按相同相序连接至UPS2静态旁路Q4输入端。

(8) 将标记为“UPS总输出”的导线连接头按拆除前相同相序与UPS2Q5输出端连接。

(9) 将三个跳闸的施耐德20A单项空气开关更换为施耐德32A单项空气开关。

转换后示意图为:

确认改接正确后。合上UPS1与UPS2的输入输出接线的前面挡板,按照正常开机程序分别开启现UPS1与UPS2,完成UPS1与UPS2的转换工作。

全部转换工作需在10月3日清晨6时前完成。

2、应急方案的实施过程

10月3日凌晨2点整,在向省分行运行中心汇报后,严格按实施方案逐步实施。

3、应急方案实施后的结果

10月3日04:40,应急方案实施完毕。现场进行UPS

1、UPS2性能测试过程如下: (1) 断开UPS2市电输入配电柜开关M2,再断开电池开关,测量UPS2自动旁路转换正常,负载由UPS1作为备机通过UPS2的静态旁路输出给负载;

(2) 恢复UPS2正常状态,此时UPS2作为主机正常供电,UPS1成功成为UPS2的备机。

(3) 开启网络设备、前臵机。 经现场测试: 特此报告。

二O一一年十月三日

机房断电应急措施

分析核电站全厂断电事故

炼钢厂北区泵站断电事故分析

29安全生产事故管理制度

事故调查报告

事故调查报告

事故调查报告

事故调查报告

事故调查报告)

事故调查报告

分行29、9.30机房断电事故调查报告
《分行29、9.30机房断电事故调查报告.doc》
将本文的Word文档下载到电脑,方便编辑。
推荐度:
点击下载文档
点击下载本文文档