综合运维管理系统实施培训技术方案 下载本文

精品文档

2.2.3. 设备运行的功能

展现整体系统设备运行情况,并展现CPU/MEM设备TOPN的当前状态

2.2.4. 线路流量的功能

展现整体系统设备运行情况,并展现流量/帧流量设备TOPN的当前状态

2.3. 主机系统服务资源管理

通过我司综合管理平台,主要是在用户环境中实现对主机系统及相关系统的综合管理,包括:所有被管信息的收集、系统管理、数据库和中间件的管理、存储系统的管理、资源信息库管理、统一监控平台(对第三方管理软件的整合)。

数据采集是针对不同的对象所采用的不同采集方式,包括SNMP、SYSLOG、业务和应用仿真、透明Agent等。

对象抽象化层主要负责获取对象的信息,将它们抽象成管理对象,向上屏蔽不同交通管理对象的差异。

.

精品文档

业务层主要提供具体的应用功能,如服务拓扑管理、报表分析和流程管理等。

访问层用户展示管理信息、暴露管理功能,用户通过它发出管理命令,执行日常管理任务。 支持的主机类型有: Windows IBM AIX HP-UNIX Solaris

Linux(REDHAT\\SUSE…) FreeBSD CentOS Novell TUR64

2.3.1. 系统和通用应用数据采集

我司综合管理平台支持通过SYSLOG、命令集/透明AGENT、SNMP、端口应用仿真等多种监测方式监测服务器,可以获取远程服务器的系统资源,我司支持对Windows、UNIX、Linux、AIX、Solaris、HPUX等多种服务器系统管理和监视,对服务器操作系统的运行状态和性能数据,包括服务器的CPU负载、内存利用率、应用进程、文件系统、文件体积等信息的分析与监视。管理和监视服务器上各应用服务的运行状态和性能数据,包括Ema、HTTP、FTP、EMA、Apache/IIS、数据库、DNS、DHCP服务以及各中间件等。

如下图所示:

.

精品文档

2.3.1.1. 进程状态分析

服务器进程控制对整个服务器的运行至关重要,会影响到其操作系统的正常运行和关键服务的正常运行,所以实时掌握服务器的所有进程运行情况是很有必要的。

正常情况下运行着大量的系统进程和应用进程。它们在运行过程中会消耗服务器的资源,甚至一些非法的进程可以造成服务器的瘫痪,所以服务器的进程管理也是很有必要的。首先就是进程的数量,第一,如果服务器里运行着的进程过多,势必会占用大量系统资源,进程数量越多,造成服务器不稳定的可能性就越大,所以监视所有进程的总数量可以帮助用户及时了解到服务器的资源情况,出现异常,也可以第一时间让用户了解到他必须现在去看看到底发生了什么事?第二,相同名字的进程数量过多,大部分时间意味着病毒爆发,所以监视同名进程的数量也是很有意义的。我们提供了进程数量的监视,时刻监视服务器所有进程数量或进程名字和设置匹配的进程数量,当出现异常时会在第一时间内提醒用户,保证用户尽早发现问题、解决问题,避免更严重的故障发生。

我司综合管理平台能够以表格的方式实时显示服务器的所有进程运行情况,包括进程名称、CPU利用时间、CPU占用情况、当前内存占用情况、运行状态等等,为用户分析服务器的当前运行情况提供详细的实时数据来源。

我司综合管理平台支持对服务器上的应用进程情况进行监视,支持使用*和?的通配符统计符合条件的应用进程的数量,当该数量超过/小于指定的阈值时,系统将触发告警。

我司综合管理平台也可以直接监视某些特定名称的进程的活动状态。系统中的某一活动着的进程可能对用户非常重要,所以用户会关心这个进程是否一直在进程列表中,我们称这样的进程为“关键进程”;当这些进程出现在进程表中或者不出现在进程表中时,系统将自动触发告警,提醒管理人员及时处理。

我司综合管理平台提供对指定进程进行CPU利用率、内存利用率不间断监视的功能。每一个进程都会占用系统资源,如CPU、内存,当某一个进程或某几个进程占用的CPU过高时,会影响到整个服务器的运行,使得运行速度变慢,使得其他进程因为分享不到CPU而无法正常运行;某些进程如果存在内存泄露等问题,会不断申请内存,导致系统内存溢出。

我司综合管理平台自动每分钟从服务器上获取最新的进程运行数据,提供各进程的运行趋势分析图,包括进程的CPU占用趋势图、物理内存利用率趋势图,方便管理人员查看各进程一段时间以来的运行情况。 2.3.1.2. 文件系统分析

很多的应用服务都需要使用磁盘空间进行数据的存储和处理,所以一般情况下,服务器的磁盘空间应该保持一定的空白容量,当磁盘空间低于可控制下限时,用户应该马上进行相应处理,避免磁盘空间被占满后关键服务不能正常运行的情况发生。而且磁盘空间被占满也有可能是病毒引起的,这需要管理人员第一时间就要掌握到,尽量避免病毒的扩散和维护关键服务的正常运行。

.

精品文档

文件系统分析主要提供服务器上各文件系统的空间大小和使用情况(已用空间、剩余空间、利用率)以及文件系统的名称、类型等基本信息。

管理人员可以指定系统的刷新间隔,自动以一定的频率从服务器上读取文件系统信息和参数,便于服务器文件系统的状态监视和处理。 2.3.1.3. CPU利用率

1、服务器CPU的利用率,可针对系统的每个CPU分别分析其相应的利用率; 2、服务器当前进程列表所占用的CPU利用率,CPU使用时间;

3、显示服务器CPU性能(分进程显示)实时变化情况和历史变化趋势; 4、服务器CPU阈值告警,当服务器CPU负载过大/小,能产生报警; 5、服务器进程CPU占用阈值告警,当进程占用CPU过大/小,能产生报警; 2.3.1.4. 内存利用率

1、服务器内存的利用率;

2、服务器当前进程列表所占用的内存利用情况,内存利用率;

3、显示服务器内存利用率(分进程显示)实时变化情况和历史变化趋势; 4、服务器内存利用率阈值告警,当服务器内存利用率过大/小,能产生报警; 5、服务器进程内存利用率阈值告警,当进程占用内存过大/小,能产生报警; 2.3.1.5. 硬盘性能分析

我司综合管理平台可以收集磁盘性能I/O状态信息。帮助用户分析磁盘读取的繁忙程度,由于磁盘I/O信息是影响系统性能的常见因素,进而得到对优化整个系统性能的参考指标。 2.3.1.6. 服务器日志查询、分析

我司综合管理平台采用syslog、WMI、telnet、ssh的方式来读取所监控服务器的日志,并可按分钟、小时、日等方式对日志进行查询与分析。 2.3.2. 主机管理

? 提供对WINDOWS、AIX、LINUX、Solaris等主机系统进行全方位的监测和管理,帮助用户

及时了解到各类系统的KPI的运行状态。

? 可以关联告警系统,对主机关键指标的异常状态进行告警,让用户可以及时的知道并进行

处理。

? 可以关联告警系统,对主机的异常进程,或进程的异常状态进行告警,让用户可以及时的

知道并进行处理。

.