机房IT运维技术方案1.0 - 图文 下载本文

第一章 项目综述

1.1 项目背景

随着社会经济及科学技术的飞速发展,计算机网络的逐渐普及,XXX(建设单位)作为行业的领先者在IT建设方面投入大量的资金,建立起多种的业务系统,为企业的长远发展提供源动力及运营保障。伴随着XXX(建设单位)业务系统的不断增加,IT硬件和软件应用的也不断增涨,其环境复杂,多系统、多数据库和多应用平台、多厂商网络及系统设备的网络运行环境,使网络维护难度成几何倍数的增长,系统管理人员的工作压力越来越大。

在XXX(建设单位)网络系统的日常管理中,IT基础设施的故障和性能监控是很重要的一个环节,它是网络系统稳定、可靠的保证。如果XXX(建设单位)的网络失效或运行状态不佳,数据流就会受到阻塞,关键数据就不能得到有效共享,导致各项业务工作效率的下降,XXX(建设单位)对外提供的社会服务及内部企业运行流程都将受到影响。为保证网络畅通,网管人员需要对XXX(建设单位)现有网络设备、链路和多种操作系统的服务器进行7X24的监测,降低网络管理工作的复杂性,提高网络管理的工作效率。

1.2 需求分析

1.2.1

IT管理现状

随着XXX(建设单位)业务系统的不断完善,XXX(建设单位)缺少统一IT综合监控管理平台,网络运维人员经常是在故障发生后,才能去进行处理,工作处于被动状态。由于缺少及时有效了故障发现工具,需要花费很长时间去寻找和诊断故障,极大地影响了工作效率。缺少直观的业务服务拓扑功能,应用系统的监测和管理显得非常繁琐。无法对各种应用系统进行有效的监测管理,如何不断提高各种业务系统的服务质量,是XXX(建设单位)系统管理人员急需解决的问题。

网络运维人员急需建立起一套IT统一综合监测管理平台及时把握其业务系统的健康运行情况,对网络运行状态进行趋势分析,做到及时防范、及时告警、及时处理,需要对网络设备、服务器系统资源及应用软件的运行状况进行实时监测。形成对网络的集中、统一的管理,从而在整体上把握各业务系统运行性能。

1

1.2.2

存在的问题

目前XXX(建设单位)的IT管理主要面临以下问题: ? 网络管理的覆盖范围不足 ? 缺乏统一的网络管理平台

? IT系统运维的状态无法全景的展现

作为网络管理员,必须有效地了解网络中数据传输是否正常、服务器以及网络设备是否过载运行、应用系统是否可以正常使用、局域网内部以及局域网与互联网的连接是否正常、局域网是否受到非法者的攻击、用户之间的数据传输是否正常等等,同时,在遇到网络时断时续、网络内部用户不能正常上网等网络故障时,必须能快速定位故障点并将其排除。由于网络之间的数据传输的不透明性,管理手段落后,没有统一的网络管理平台,无法实时掌握整体IT环境的运行状态,管理模式分散,无法了解整个IT环境的变化,经常性的造成“一叶障目、不见泰山”的运维管理局面。网络管理人员很难及时准确了解IT资源运行趋势、网络运维的瓶颈、突发事件的故障点等问题,造成事故处理过程冗长,无法满足现代化IT运维工作的整体要求。

? 网络性能得不到充分发挥。

由于没有网络性能方面的管理工具,网管人员不能对网络进行有效的调整和优化。

? 机房动力环境运行监测薄弱

对机房场地的动力环境集中监控薄弱,需对机房动力系统(包括主要配电设备、UPS电源监控)、环境系统(机房专用精密空调系统、漏水系统、温湿度)、保安系统(门禁)以及消防系统等实行完善的监控和控制功能,能对发生的各种事件都结合机房的具体情况非常务实的给出处理信息,提示值班人员进行操作。实现机房设备的统一监控,智能化实时声光、短信、电话报警(声光报警器连接至保安监控室),实时记录事件;减轻机房维护人员负担,有效提高系统的可靠性,清理事件关系,实现机房可靠的科学管理。

1) 供配电系统

通过由精密配电系统厂家提供的数字电表、通讯协议及智能通讯接口实时监视机房市电三相电压、电流,频率、功率因数、有功功率等。一旦供配电系统工作状态不正常,系统会实时报警,告知值班人员。

2) UPS系统

对机房内UPS进行故障诊断,对UPS内部整流器、逆变器、电池、旁路、负载等各部件的运行状态进行实时监视,一旦有部件发生故障,系统会自动报警。

3) 空调设备

通过由空调厂家提供的通讯协议及智能通讯接口对机房的精密空调(艾默生)进行全面诊断监控。对空调内部的压缩机、风机、冷凝器、加湿器、去湿器、加热器等部件实时进行监视。一旦部件发生故障,系统会直观地在画面上显示出来并报警。

4) 漏水检测系统

漏水检测系统采用带漏水感应线的漏水探测器,对五楼机房内空调的四周进行漏水检测。一旦有漏水发生,系统会实时告警,把报警信息告知值班人员及有关人员。

5) 温湿度检测

在机房不同位置安装温湿度传感器,其输出连接到工控模块,可实时地监测现场温湿度状况,一旦温湿度超出设定范围,系统会弹出报警画面以及声光报警并发出短信,把报警信息告知值班人员及有关人员。

6) 机房门禁系统

机房玻璃隔断门和防火门加装电子门禁系统,可保存出入记录并供查询, 门禁系统需单独配电,当有紧急消防报警时,可通过发送系统电平信号,控制门锁的空开,使其断电,门锁打开。

对于XXX(建设单位)这个集生产业务网络和电子政务外网混合组网并且跨越多省市县等地区的广域计算机网络系统来讲,如果没有一个有效而集中的工具进行管理和分析网络的运行趋势,找到隐藏的性能瓶颈, IT运维的容量管理缺乏数据支撑,网络系统管理的长期规划缺乏数字依据,将难以保证网络及各项业务应用的顺利运行。

1.3 项目建设目标

本次IT综合监控管理平台的建设,我们最终实现以下管理目标:

建设全面的监控管理平台,消除监控死角。XXX(建设单位)信息技术中心的各个系统采用了多个厂家的网络设备、服务器、中间件、数据库、存储设备、虚拟化、硬件监控,因此本项目首先要解决的问题是通过建设全面的监控管理平台将目前各个业务系统中的各种设备、软件、业务应用均能够纳入到监控平台中来。消除管理对象之间的差别,消除管理软件的差别,对各种不同数据来源统一处理、统一展现、统一用户登录、统一权限控制。

建设看得见的IT运维模式,网络运行透明化。IT综合管理平台应建立全景拓扑的展示模式,将用户的业务视图、网络视图、应用视图、虚拟化视图和存储视图融合在一起,完整展现用户统一的IT架构,让用户一览众山小,全局掌握IT系统整体的运行情况。

建设开放、具有良好扩展性的IT管理平台。IT综合监控管理平台应具有很好的开放性,具备跟相关系统的集成能力。监控管理平台应具有良好的扩展性,不仅可以满足现阶段XXX(建设单位)系统管理的需要,未来,随着XXX(建设单位)业务的不断发展,监控功能添加,或管理节点数量增加时,IT综合监控管理平台也可以很好满足XXX(建设单位)的需求。

1.4 IT综合监控管理平台效益分析

达到自动化运维模式:IT综合监控管理平台建设完成后,可以将日常IT运维中大量的重复性工作,由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。全天候自动巡检与及时报警实现了IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。自动化运维不仅仅是代替人工操作,更重要的是深层探知和全局分析,帮助用户在现有条件下实现性能与服务最优化,同时保障投资收益最大化。使网络运维人员从繁重的日常巡检、关注IT资源细节运行状态的工作中解脱出来,做到故障的提前预测、及时告警、精确定位,提高XXX(建设单位)的信息中心的运行管理水平和服务保障能力。

降低管理随机性和盲目性:IT综合监控管理平台建设完成后,实时监控网络运行状态、记录网络运行数据,当被管理对象的运行状态发生变化时,超过预定义