机房巡检总结
1机房年度巡检工作总结
一、idc的日常工作和巡检的自我总结:
在日常巡检的过程中,认真仔细的检查动力机房的空调,ups,油机等数据,并认真做好巡检记录,与之前的巡检记录进行对比,发现异常后马上与值班长沟通,如果确认为故障则马上上报网监中心。在巡检过程中做到随手关灯,做好节能减排工作。
在十一月份中,机房发生了两次事故,第一次事故我休假回家,第二次事故是我值班,后半夜三点多钟的时候。因为迟了十分钟接到电话,我感到很内疚,自己的工作没有做好。在发生故障之后,在主管和xx的帮助之下重启了空调主机。经过这次事故,我学到了很多经验,以后再发生万一的时候就不会不知所措。以后巡检的时候也会更加仔细,认真。在后半夜的巡检中,也会每隔一段时间就会一楼查看空调主机工作状态是否正常。发生故障的时候也会更加镇定,及时处理故障,与上级沟通。
在idc机房责任分工制度中我负责的五楼托管机房的一些问题中,我也及时的与工程公司沟通过,安全出口指示灯以及紧急照明灯都已经修复好,只剩下气瓶室的防火泥没有封堵。我会继续跟进,及时上报。
二、下个月的工作计划:
在十二月份的工作中,巡检的时候更加仔细认真,做好本职工作,保证机房安全。发现问题及时与主管与xx沟通。
220XX年机房安全巡检总结
安全检查是安全管理的重要内容,是识别和发现不安全因素,揭示和消除事故隐患,加强防护措施,预防故障的重要手段。机房安全巡检是对日常维护的补充,可以进一步提高维护分析工作的时效性、纵向深入性及横向联合性,把机房维护等基础管理工作进一步规范化、标准化,是为今后进一步做好维护工作打下基础。机房安全巡检包含机房环境检查和设备告警检查两大部分。
机房环境检查是检查设备所处环境是否达标,有无存在安全隐患,各种标签有无脱落。设备告警检查是查看设备的各种告警,从而及时处理各种故障,解决设备存在的隐性隐患问题检查设备工作环境、标签、状态进行历史告警、现网告警分析及处理定期对机房内所有王元进行温度巡检网元入网验收,退网报备网元标签巡检网元标签巡检标签检查:网元标签是网元的重要标示,它关系到资管系统正确与否,也关系到维护的安全。成都市内共有BSC机房15个,设备195套,机柜237个。标签巡检是保证每套设备、每个机柜级DDF架、ODF架标签正常无脱落。20XX年机房巡检黏贴脱落标签68个,并将所有网元标间进行了加固处理。机房环境巡检机房环境巡检机房环境:BSC设备的工作与环境有重要关系,而我们主要检查机房环境是否达标,主要内容是夏季设备降暑、冬季设备电源排查,杂物清理等。
20XX年共巡检故障5次,解决出隐患问题8起。日期巡检故障处理情况20XX年1月成都多个机房温度偏高通过快文反映情况20XX年2月成都多个机房温度偏高正在增加空调通风管20XX年3月2M线走线架承重臂螺丝不足经设计院重新测试处理后达到标准20XX年5月各别ET端口连线错误重新布线20XX年6月个别网元底部有杂物已清理验收工作主要对新设备外观、数据核查、告警清理、硬件检测、拨打测试等检验,以确保网元零风险入网。
20XX年,BSC网元共退网22套,下电59套,入网36套。网元入网验收为重中之重,我们对每个即将入网的网元进行规范外观、数据核查、告警清理、硬件检测、拨打测试等检验,以确保网元零风险入网。截止12月低,已验收网元36套。其中8套网元发现标签不规范,3套网元存在残留告警,经重新调测后,复验合格。BSC入、退网清单华为入网(套)诺西入网(套)退网网元温度巡检温度巡检在日常巡检中,加强了对各网元的温度巡检。使用了专业的红外成像仪,能够准确的显示出在某一范围内,各网元、硬件的最高温度,最低温度和平均温度。这一仪器使用,更有效的帮助我们排除网元的隐患故障,减少事故的发生率。红外成像仪所呈现的图像可以准确的表示出各硬件的最高温度,最低温度和某一范围内的平均温度。便于了我们对某些温度不在正常范围内的硬件进行及时的更换,排除隐患故障。在巡检中发现BSC338、BSC348、BSC339、BSC349板件温度偏高,并立即与机房管理人员联系处理,在网元上方新增空调出风口,降低了网元板件温度。当前告警巡检当前告警巡检从20XX年下半年,机房安全巡检加入网元告警分析及处理。设备告警巡检主要包括现在当前告警检查与历史告警分析。当前告警主要是检查设备当前状态,是否存在故障,及时解决。
历史告警分析则是对实时告警检查的补充,因为设备的一些软件告警总是造成“闪断”现象,实时告警不能及时发现。所以我们通过历史告警的分析,查出此类隐患故障,及时解决。当前告警巡检是发现设备故障的重要手段,所以我BSC维护组每天对设备进行三次实时告警提取分析。下半年共查出当前告警132起。其中43起未被监控派单,并且在有些故障在派单之前我们已经检查到,并开始处理,所以在派单之后的很短时间内处理完成。这也大大减少了无线中心的一、二级告警处理时间。10月11月12月当前告警(起)223222222113历史告警巡检历史告警巡检历史告警巡检是发现软件故障及隐患故障的必要手段,所以我BSC维护组对每天的历史告警经行提取,并对比以前的历史告警进行分析。下半年共发现10起故障,这些故障为“隐藏故障”,它们当前告警看不到,也不会被监控派单,历史告警故障是当前告警很难发现的,且很难被监控系统发现并排单。需对多天的历史告警提取分析才能发现,20XX年下半年,经我维护组观察分析,发现10起“隐藏故障”的历史告警,并立即处理,消除了这些安全隐患。历史告警分析是我们BSC安全巡检发现故障的重要方法,是对当前告警及监控派单的补充和完善。这项措施提高了我们的工作完善度,降低了监控系统派单率。
10月11月12月历史告警故障处理故障处理故障处理分析是20XX年下半年加入到机房安全巡检行列的,我们对20XX年下半年的故障进行了统计分析,20XX年下半年监控派单故障为330起,其中9月因为夜间割接升级造成的故障为45起,12月因为夜间割接升级造成的故障为47起,因此20XX年下半年够有故障301起,全部处理完毕。其中有238起故障被监控系统派单,53起未被监控系统派单,派单率为82%,也就是我们减少了18%的派单率。在20XX年我维护组共巡检到152起故障,巡检故障率为50.5%。
而未被巡检到故障中59起为License容量限制告警,这个告警需要重新加载License,所以没有被巡检故障记10月11月12月自查故障25 35 23 23 22 14历史告警分析未派单故障12派单故障673096462368硬件使用分析硬件使用分析硬件使用情况分析:20XX年共更换硬件185块,涉及24种板件。其中华为XPUa单板更换31块,占总量的17%,诺西的PCU-2E更换51块。占总量的28%,CL3TG更换36块,占总量的19%。我们对每月更换的这三种板件经行了统计分析,CL3TG板件故障主要是由于软件吊死,经厂家技术部研究后,通过版本升级解决该问题,而PCU-2E的故障已提交厂家,其研究组正在处理。华为的XPUa单板主要是其工作特性决定的,厂家人员也指出其是故障率最高的单板。而我们已将XPUa单板的故障情况提交给厂家,请其分析并给出降低XPUa单板故障的方案。
20XX年,我BSC维护组在机房安全巡检中共重贴标签68个,发现机房环境问题13起,检测出网元温度异常4起。在下半年检测出现网故障152起,隐藏故障10起,全部处理。在下半年的工作中,我们降低了将控系统18%的派单率,也大大降低了一、二级告警立时。BSC设备安全巡检工作是保证BSC设备安全的基本工作,要仔细小心。我BSC维护组为了更好的完成这项工作,对每项工作都设特定人员,并将每天的资料存档,已被将来分析。本着开拓创新的原则,我维护组将时刻自检,以发现工作中存在的问题并立即更正。
320XX年机房巡检工作总结
时光飞逝,转瞬间20XX年已经过去,应中国移动成都分公司无线中心相关领导的指令,根据《移动机房巡检细则》,我BSC维护组对成都市移动机房相关BSC设备设施进行了定时、定量的安全巡检。
现总结如下。工作内容机房网元标签巡检2机房环境巡检4机房BSC网元硬件巡检3件巡检主要检查网元板件指示灯,单板版面情况,一些板件是否插入对应槽位以及电源模块的巡检。由于网元板件的一些故障不能再终端上体现,所要现场查看,防止故障的发生。硬件巡检网元电源模块巡网元单板状态巡检网元硬件巡检单板状态巡检单板出现红灯状态单板版面损坏电源及风扇巡检电源模块巡检包括电源及风扇的巡检是否有红灯指示灯巡巡检温度是否正常温度巡检转速是否正常风扇巡检CompanyName红外成像仪在巡检中的应用在日常巡检中,加强了对各网元的温度巡检。使用了专业的红外成像仪,能够准确的显示出在某一范围内,各网元、硬件的最高温度,最低温度和平均温度。
这一仪器使用,更有效的帮助我们排除网元的隐患故障,减少事故的发生率。仪器外观CompanyName红外成像仪在巡检中的应用红外成像仪所呈现的图像可以准确的表示出各硬件的最高温度,最低温度和某一范围内的平均温度。便于了我们对某些温度不在正常范围内的硬件进行及时的更换,排除隐患故障。电源及风扇巡检指示灯巡检是要看电源模块的工作指示灯是否为红色温度巡检主要是查看电源模块温度有没有超标,电源模块的温度在27~34。风扇巡检主要是看风扇的转速是否正常,有没有风吹出来。
硬件巡检总结20XX份巡检硬件故障对比,20XX年共巡检出网元硬件故障50起,处理46起。剩余4起未处理,其中1起为该网元已下电退网,不需要处起为板件未插入,也不需要处理。硬件巡检总结参照机房巡检硬件故障中各板件百分比对照图,可以知在整体硬件故障巡检中,XCDR起,占硬件故障整体的8%;电源模块3起,占硬件故障整体的6%;NVM起,占硬件故障整体的4%;MSI占硬件故障整体的16%;GPROC3-2起,占硬件故障整体的14%;DPROC起,占硬件故障整体的14%;GCLK起,占硬件故障整体的8%;GDP占硬件故障整体的14%;KSWX起,占硬件故障整体的2%;LANX起,占硬件故障整体的2%硬件巡检分析由于未插入板件是网元改造后遗留在网元上,对网元业务毫无影响,可以不考虑,而下电网元则已下电退网,也可以不考虑。
所以我们除去其中的下电网元和未插入板件的起故障,将DPROC、XCDR、GDP、GDP2、MSI口板故障相加,则其占70%,而电源模块的故障占6%,LANX、KSWXGPROC3-2、GCLK等核心板件故障占24%。这些数字说明串口板在巡检故障中占绝大部分,而并不能说明串口板发生故障远远大于核心板件,因为巡检故障是针对自查故障和派单故障的弥补。而核心板件故障都是对业务影响大的故障,监控系统会第一时间发现并下派工单。所以在巡检中才会出现核心板件故障远远少于串口板。标签巡检机房标签巡检主要是检查机柜及DDF架的标签。由于时间过长,机房内风扇等原因导致标签的脱落,巡检主要目的是将发现的这些问题标签进行重贴和加固。标签巡检内容网元标签标签巡检DDF架标签资源清查标签网元名称标签资产标签资源清查标签DDF架名称标签标签巡检结果20XX年,我BSC维护组共对成都市内各移动机房中的BSC网元及相关DDF架标签重新黏贴并加固98件。由于机房内风扇和空调不间断吹风,导致标签很容易脱落,所以我部门决定对机房内网元标签进行不定时巡检,每个月最少两次,以确保机房内各种标签一直存在。标签巡检总结20XX年春节之后,我维护部门针对各个机房的资产标签、资源清查标签、网元标签进行了整体巡检,对于各种已脱落标签、将要脱落的标签、粘贴不牢固的标签以及临时标签进行了统一处理,对已脱落标签、将要脱落的标签、粘贴不牢固的标签进行了重新黏贴和加固,对临时标签进行了更换。并每个月都会对各个机房的标签进行详细检查,发现问题立即处理。以保证网元标签正常。
设施设备巡检机柜设施设备巡检主要是检查机柜设施,防止由于机柜的损坏导致的网元故障。设施设备巡检内容BSCBSC网元机柜是否存在破损、故障等情况PCU网元机柜是否存在破损、故障等情况DDF架是否存在破损、DDM脱落等情况设施设备巡检结果20XX年我BSC维护组共巡检出设施设备故障25起,其中DDF架故障9起,PCU网元机柜故障16起,BSC网元机柜故障0设施设备巡检总结设施设备故障是由于各种设施设备的老化以及施工等原因,造成设施设备故障。而我维护部门没有处理这些故障的设备和材料,所以对于这些问题只能做到临时处理,并提交到移动相关部门,请求及时处理。环境巡检环境巡检主要是检查机房环境,对机房内的温度、湿度、防雷接地、机房墙体裂缝深水、机房地板、门窗密封等不符合《移动机房巡检细则》的环境问题。消除一些安全隐患。
环境巡检内容门窗密封温度湿度机房地板墙体裂缝深水防雷接地环境巡检内容环境巡检机房湿度在30%~70%机房温度在18~24机房地板平整无突起墙体无裂缝深水门窗密封良好防雷接地正常良好环境巡检结果20XX年,我BSC维护组在机房环境巡检中发现峨影机房、沙湾机房、青龙场机房、石羊场机房、西城机房、高新机房的地板已经脱落,主要原因是地板托架损坏。环境巡检总结机房环境故障主要是由于各种设施设备的老化以及施工等原因,造成设施设备故障。而我维护部门没有处理这些故障的设备和材料,所以对于这些问题只能做到临时处理,并及时申报,做到早发现、早处理。机房巡检总结在20XX年机房巡检中,共巡检出硬件故障50起,出去对业务和安全毫无影响的4起外全部处理。共重贴标签98个。巡检出设备故障25起,处理18起,其他7起处故障处理需要专用设备,故而未处理。
在巡检中发现个机房存在安全隐患,其部分地板托架损坏,已申报移动相关部门并处理完毕。机房巡检是保证机房内各网元正常工作的基础要求,是重中之重。机房巡检一定要仔细、谨慎,务必要确保机房安全。20XX年已经过去,我们要延续20XX年的优点,改进不足之处,继续努力,以确保圆满的完成工作。