XXX系统运维投标文件(含运维方案) 下载本文

目录

一、法定代表人授权书 ........................................................................................................2 二、法定代表人或其授权代表身份证复印件.........................................................................3 三、投标申请及声明............................................................................................................4 四、报价表 ..........................................................................................................................5 五、报价明细表 ...................................................................................................................6 5.1企业简介 ....................................................................................................................8 5.1.1公司概况 ..............................................................................................................8 5.1.2 公司资质 .............................................................................................................8 5.1.3 管理与运作 ..........................................................................................................8 5.1.4 发展目标 .............................................................................................................8 5.2同类业绩情况: ............................................................................................................8 六、投标单位资质证明文件(见下附件) ............................................................................9 七、运维方案 .................................................................................................................... 10 7.1运维服务目标及服务范围 .......................................................................................... 10 7.2服务内容 .................................................................................................................. 11 7.3运维人员组织架构 .................................................................................................... 13 7.3.1运维组织结构介绍............................................................................................. 13 7.3.2运维成员职责.................................................................................................... 13 7.3.3运维成员组织结构............................................................................................. 14 7.4 运维质量保证措施 .................................................................................................... 15 7.4.1 质量控制管理................................................................................................... 15 7.4.2 进度控制管理................................................................................................... 15 7.5运维流程及服务方式 ................................................................................................. 15 7.5.1 服务方式 ........................................................................................................... 15 7.5.2运维流程 ............................................................................................................ 16 7.6具体服务项目及输出文档 .......................................................................................... 19 7.6.1小型机、pc服务器、网络设备及存储系统 .......................................................... 19 7.6.2机房空调、UPS设备运维服务 ............................................................................. 26 7.6.3数据库系统运维服务........................................................................................... 29 7.6.4中间件系统运维服务........................................................................................... 36 7.7应急服务响应措施 .................................................................................................... 44 7.7.1突发事件应急流程 .............................................................................................. 44 7.7.2预防措施及处理办法........................................................................................... 46

一、法定代表人授权书

xxx:

本授权书声明:xxx科技有限公司(投标单位)的xxx 董事长(法定代表人姓名、职务)授权xxx销售经理(被授权人的姓名、职务)为本公司的合法代理人,就xxxxxx项目投标及合同的签订,以本公司名义处理一切与之有关的事务。

本授权书于年月日签字生效,有效期天,特此声明。

法人授权代表签字: 法人授权代表身份证号码:

投标单位:xxx科技有限公司(公章) 法定代表人:(印鉴)

年 月日

二、法定代表人或其授权代表身份证复印件

三、投标申请及声明

致:xxx投资咨询有限公司

根据贵方号招标文件,正式授权下述签字人销售经理 (姓名和职务)代表申报人xxx有限公司(招标投标单位名称),提交下述文件正本一式壹份,副本一式叁份。据此函,签字人兹宣布同意如下:

1)承认和愿意按照招标文件中的各项规定和要求,提供相应服务(服务期一年)。总报价为(大写):元整(¥元),接招标单位中标通知书后10天内进场提供相关服务。

2)愿意按照《合同法》和《中华人民共和国招标投标法》履行自己的责任和义务。

3)如果我们申请书被接受,我们将履行招标文件中规定的每一项要求,按期、按质、按量完成任务。

4)我们愿意提供招标人在招标文件中要求的所有资料。 5)我们理解,最低报价不是中标的唯一条件。

6)我们同意按招标文件规定,交纳投标保证金。遵守xxx投资咨询有限公司有关招标的各项规定。 7)我方的申请书在开标后60天内有效。

申报投标单位名称:xxx有限公司 (盖章) 法定代表人:(印鉴) 年月日

四、报价表

招标单位: 项目名称: 总报价(小写): (大写):

其他说明:我公司将于签订合同7日后进场,提供优质维保服务

投标单位:xxxx有限公司 (盖章)

法定代表人:xxxxxxx(盖章)

编 制 时 间:年月日

五、报价明细表

单位:元人民币

序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 名称 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 数量 1 10 6 2 1 2 1 2 1 1 2 6 4 15 4 1 单价 合价 品牌、规格 备注

17 18 19 20 21 22 23 24 25 26 27 28 29 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 维保费 1 1 2 2 20 3 3 2 1 2 2 4 20 总价 ¥ (元)

投标单位:(公章) 法定代表人(印鉴)

年月 日

5.1企业简介

5.1.1公司概况

5.1.2公司资质 5.1.3管理与运作 5.1.4发展目标

5.2同类业绩情况:

招标方名称

附下页:

合同金额 联系人 联系电话 详细地址

六、投标单位资质证明文件(附下页)

1) 企业法人营业执照复印件加盖投标单位公章; 2)税务登记证复印件

七、运维方案

7.1运维服务目标及服务范围

通过购买专业运维服务,进一步加强xxx数据中心运行维护,对数据中心运行维护流程提供先进的管理理念与流程,并通过专业的技术支持为数据中心运行维护工作提供专业的技术平台,满足xxx大数据量安全存储的要求,可以满足多种应用运行环境稳定的要求,可以满足系统及数据高效、可靠和安全运行的要求,可以满足运行设备统一管理、及时的故障恢复的要求,可以保证在数据中心构建的应用系统和数据集中运行的设备平台正常运行,满足省本级数据库和应用系统的建设需要,达到高效、稳定、安全和高扩展性的要求,为实现省本级信息化建设的可持续发展奠定集中统一的设施基础。

设备及软件清单:

序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

名称 IBM X3650 IBM X3850M2 IBM X3850M3 IBM X3250 数量 1 10 6 2 1 2 1 2 1 1 2 6 4 15 4 1 1 1 质保情况 在保 在保 出保 ) 在保 在保 出保 出保 出保 出保 在保 出保 在保 出保 出保 出保 出保 在保

19 20 21 22 23 24 25 26 27 28 29 HUAWEI USG5500 HUAWEI S9312 H3C S5100 中间件 WEB Sphere 6.1和7.0 2 2 20 3 3 2 1 2 2 4 20 在保 在保 在保 出保 出保 出保 在保 在保 在保 出保 出保 7.2服务内容

依据客户提供的设备及软件清单,我公司对xxxxxx提供如下服务内容:

业务系统 现场驻点服务 到达客户现场时间 电话后响应时间 备件到达现场时间 高级工程师现场支持 检查设备各部件的状态灯; 检查并处理设备的错误日志; 硬件设备的全面检查; 网络配置的检查及测试; 小型机配置信息,根据需要调整配置; 设备的微码版本检查; 存储设备运行情况检查; 提交详细的预防性维护报告和总结; 对检查结果综合分析,并形成分析报告; 每季度全面巡检 系统运行环境检查:包括机房温度、湿度和零地电压、零火电压等 设备故障恢复时间 全面巡检次数 坏件更换 机房空调运维 日常清理及更换过滤网和加湿罐等耗材 定期清理机房空调的室外机;检修机房内各供水管路及排水管路,杜绝漏水,保证管路畅通。 配备机房专业知识的人员对机房实行5X8小时值班。 UPS设备运维

服务项 保证措施办法 5×8小时 30分钟内 60分钟内 24小时 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 48小时内 2次/年 提供 提供 提供 提供 72小时内 小型机、pc服务器 网络设备、存储系统 操作系统性能分析; 故障恢复时间

全面巡检,巡检时检查蓄电池使用情况,并且进行充放电; 坏件更换 配备机房专业知识的人员对机房实行5X8小时值班。 1次/年 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 提供 7*24小时 立即响应 要求完整、详细、真实的维护记录文档,按月、季、年度提交规范的维护报告。 维护文档 日常运行状态监控 BUG管理 数据库 数据库安装、配置管理 存储管理 对数据库进行优化 按季度进行巡检 解决数据库运行中出现的各类故障 文档提交 中间件 规范的维护制度 维护文档 日常运行状态监控 BUG管理 按季度进行巡检 安装维护 解决中间件运行中出现的各类故障 备件保证 备件库 备件更换 技术服务 驻点服务:1.提供7×24小时免费故障检测与维修换件现场服务 2.预防性维护服务 远程技术支持服务:1.提供7×24小时的故障响应电话支持 2.每周一次与客户沟通交流 培训服务:1.专业知识培训 2.日常运维管理 远程诊断 远程拨入系统分析 远程故障解决 远程系统性能监控 提供 现场更换 提供 提供 提供 提供 提供 提供

7.3运维人员组织架构

7.3.1运维组织结构介绍

我公司将在此运维项目中投入业务水平高、技术能力强的运维人员和质量控制人员,采用xxx公司严格规范的运维管理模式,进行全方位管理。

为了进一步确保运维项目的进度与质量,xxx公司在项目运维阶段、质量管理、技术文档等方面进行严密规范的部署。

xxx公司的运维队伍组成包括:

? 运维项目总负责人(常务总经理兼任);

? 运维管理委员会(项目经理、甲方代表、监理代表); ? 运维驻点服务小组; ? 技术支持专家组; ? 备品备件供应小组; ??文档管理小组

7.3.2运维成员职责

项目经理职责:

项目经理受公司总经理任命和委托,全权负责运维项目合同的各项条款的履行。对运维项目的优质、高效、安全负全责。

驻点工程师职责:

1、负责对小型机、服务器、存储设备相关的申报事件进行处理和解决。 2、负责对小型机、服务器、存储设备提供日常性能和运行状况监控,对故障进行分析处理及建立完善预警机制。

3、负责保障机房服务器正常运行,遵循用户的安全保障管理要求。 4、接受用户对服务器维护事件的督办、检查,协助服务台完成对用户意见进行回访和事件统计、分析。对服务过程和反馈的意见进行改进,同时接受服务台的绩效考评工作。

5、及时提供服务器运行和问题处理情况,并向用户负责,并按周、月、季、年提交运维运维服务工作进度总结和计划。

6、负责整理和归纳服务器日常维护知识库,提交至运维服务平台。 7、负责整理和提交服务器运维过程资料和相关配套维护文档。

技术支持专家职责:

1.为客户提供7×24小时的故障响应电话支持。

2. 接听客户服务热线电话和接收(电话/Email/Fax等)客户服务请求; 3. 通过网络或电话为客户提供即时的远程技术支持, 包括软硬件故障的诊断和排除, 客户端软件的安装和设置。

4. 协调多方服务团队,及时跟进未完成的服务请求并及时更新系统信息和状态;

备品备件管理员职责:

1. 组织实施备品备件的订购、运输及入库工作

2. 负责汇总待料备件,及时采购或调拨,并主动向项目经理说明待料

原因、追踪处理。

7.3.3运维成员组织结构

针对本次维保项目我公司配备了5名专职人员具体如下表:

序号 1 2 3 4 5

分派职位 项目经理 驻点工程师 技术支持专家 备件管理员 文档管理员 数量(人) 1 1 1 1 1 姓名 获得证书 项目管理师资格证 OCP证书 IBM认证证书 备注:人员证书附下页:

7.4运维质量保证措施

7.4.1质量控制管理

按照相应的ISO9001:2000国际质量体系标准及国家规定进行质量控制,还以相应的规范要求对设计质量,施工质量、材料和设备质量进行管理、要求、控制。

公司的施工阶段性内部验收制度,是质量控制管理的有利保证。工程的每一个阶段完成时,公司技术支持部门都要按有关部门规范和要求进行严格的内部验收。验收标准整体上高于用户验收标准。

7.4.2 进度控制管理

针对本次项目我公司结合客户要求做出如下运维计划:

序号 1 2 3 4 5 6 7 8 9 10 11 12

名称 小型机、存储系统巡检报告 pc服务器 网络设备 机房空调巡检报告 UPS巡检报告 数据库系统运维 中间件系统运维 问题报告 月总结报告 季度总结报告 年总结报告 定期培训 人员 驻点工程师/技术支持专家 驻点工程师 驻点工程师/技术支持专家 驻点工程师 驻点工程师 驻点工程师/技术支持专家 驻点工程师/技术支持专家 驻点工程师/技术支持专家 驻点工程师 驻点工程师/技术支持专家 驻点工程师/技术支持专家/项目经理 技术支持专家 周期 每周 每周 每周 每周 每季 每周 每周 问题解决后 每月 每季度 每半年 每季度 具体输出见本投标文件7.6 具体服务项目及输出文档

7.5运维流程及服务方式

7.5.1服务方式

针对本次项目我公司为保证各系统的稳定可靠的运行我公司根据该项目的具

体要求提供三种方式的技术支持服务,分别为:现场服务、远程技术支持服务、针对甲方运维人员的技术培训服务。

现场服务

对客户的系统进行现场维护和巡检,驻点工程师对各个应用系统完成定期巡检,同时输出巡检报告提交给客户,驻点工程是还应对客户的故障设备进行维修和更换备件服务。为了让客户得到更及时和更快的服务,驻点工程师还提供7×24小时的故障响应电话支持。

远程技术支持服务

远程技术服务主要是通过电话或其他方式受理客户和驻点工程师的疑难问题,通过沟通来指导客户或驻点工程师解决问题,同时远程技术服务工程师还通过电话或者其他方式与客户主动沟通来提高客户管理和运维能力。

技术培训服务

为提高客户的运维人员的技术水平及运维管理能力,我公司将派遣具有丰富实施经验的技术专家定期对客户进行相关专业(主机、存储、数通、网络、安全、机房环境等)的培训。

培训可以采用灵活多样的方式如面对面交流、课堂授课、邮件沟通等。

7.5.2运维流程

我公司除培训服务外,为本项目提供两种服务方式:一种为技术人员现场值守,另一种是定期巡检结合故障现场服务。

1、技术人员现场值守运行维护服务的基本操作流程如下图所示:

运维资源建档更新资源配置NO更换备件YES定位问题可现场排除YES问题解决输出问题报告日常巡检是否存在问题NO输出巡检报告归档运维文件归档

2、定期巡检结合故障现场运行维护服务的基本操作流程如下图所示:

IT资源更新IT资源汇总驻点工程师识别问题技术专家用户备件更换备件管理员故障解决输出运维资源建档告知客户问题报告

7.6具体服务项目及输出文档 7.6.1小型机、pc服务器、网络设备及存储系统

小型机、pc服务器、网络设备及存储系统运维部分主要分为三部分,分别为小型机存储系统运维、pc服务器运维、网络设备运维。

小机存储系统运维内容主要包含小型机设备、光纤交换机、存储设备三部分主要从以下几个方面进行维护:

1、检查设备各部件的状态灯; 2、检查并处理设备的错误日志; 3、硬件设备的全面检查; 4、网络配置的检查及测试; 5、操作系统性能分析;

6、核对各小型机配置信息,根据需要调整配置; 7、检查设备的微码版本; 8、检查存储设备运行情况;

针对如上要求输出如下检测报告:

小型机系统巡检报告 用户单位名称: 设备名: 设备型号: 检测项目 检测方式 检查主电源灯状态 检查直流电源指示灯电源风扇 状态 检查直流电源风扇状态 执行命令: lsdev –Cc processor 执行命令: lsattr –El mem0 执行命令: lsdev –Cc disk 执行命令: lsdev –Cc adapter 产品序列号: 说明 指示灯常绿表示系统正在运行 指示灯常绿表示电源供电正常 检查风扇是否散热 检查CPU的数量及状态。CPU状态为Available,表示CPU使用正常 检查内存数量及状态。size与goodsize的数量相等表示内存使用正常 检查磁盘的数量及状态。磁盘状态为Available,表示磁盘使用正常 检查结果 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 巡检周期 处理器 内存 磁盘 适配器 检查系统中配置了哪些适配器及使用状态。各个适配器的状态为Available,表示各个适配器目前工作正常。 正常□异常□ 若适配器状态为Define,则表示该设备已经被配置但是未被当前系统使用。 检查分页空间的分配数量及利用率。 Size为已分配的分页空间数量; 正常□异常□ %Used为目前系统的分页空间使用率,该值若超过70%,执行命令: 分页空间 lsps -a

表示系统内存不足 系统镜像 执行命令: lsvg –l rootvg 检查系统卷组的镜像状态。 各个逻辑卷的PPs数量应该为LPs数量的整数倍,倍数正常□异常□ 大于1并且能被PVs整除,表示卷组已经作镜像。各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。 检查已经挂载的文件系统的使用状态。重点检查 /(根) /tmp(临时)/var (日志文件)这些动态文件系统的使用正常□异常□ 率最好保持在70%以下。 检查系统日志是否有硬件或软件方面的永久错误。若发正常□异常□ 现错误类型为P的信息,则需要注意。 检查各个网卡的配置情况,状态是否为UP,检查ip地正常□异常□ 址和子网掩码等配置是否正确。 正常□异常□ 执行命令: 文件系统 df -k 错误日志 网卡配置情况 执行命令: errpt 执行命令: ifconfig –a 执行命令:lsmksysb -V 检查磁带备份的可读性。若没有错误显示,则表示备份系统备份 -f /dev/rmt0 磁带的数据是有效可恢复的。 客户确认 巡检结论: 【 】合格【 】不合格 用户代表签字: 年 月 日 服务工程师签字: 年 月 日

存储系统设备巡检:

设备名称: 检查时间:年月日时 检查项目: 1. 检查存储硬件情况: 设备故障灯是否有亮 SAN交换机端口LED状态 本年度第次检查 检查结果: □有 □无 □正常 □不正常 □正常 □不正常 □正常 □不正常 □正常 □不正常 □正常 □不正常 □正常 □不正常 □Good □Degraded □Offline□Rebuilding □正常 □不正常 □正常 □不正常 □正常 □不正常 □是 □否 □是 □否 □是 □否 □是 □否 □是 □否 2. 存储系统故障报告(Problem Log): Problem Log/Serviceable Event 有否硬件故障 3. 存储系统运行状态: View Storage Facility State / CdaPreverify / View RIO Topology 4. 通信: /Master Console/SMC/HMC和存储设备的通信 6. 存储设备内部状态: 7. 存储系统硬件状态: 双控制器同时正常工作 电池、电源和风扇模块 物理硬盘和逻辑盘 8. 微码(Microcode)是否满足IBM的最低要求 9. 是否启用了Call Home 10.收集存储设备基本信息存档 目前存在的问题: 改进措施或建议: 检查结论: 客户签字: 日期:年月日 工程师签字: 日期:年月日

Pc服务器运维内容主要包含设备硬件、操作系统、软件几个方面进行考虑。 PC服务器巡检:

服务器设备巡检报告 用户单位名称: 设备名: 检测项目 显示器 光驱 磁带机 电源 键盘/鼠标 风扇 设备型号: 检测方式 前面板指示灯 电源指示灯 磁盘指示灯 系统控制板指示灯(CPU/MEM,I/O等) IML日志 操作系统日志 产品序列号: 说明 检查结果 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 巡检周期 系统指示灯状态 系统日志信息 交换区使用率 TOP或任务管理器查看 使用率 % Windows系统 Unix系统用命令 df -k C: / 使用率% D: /usr 使用率% E:/var 使用率% 磁盘分区使用率

其它分区 操作系统版本/ 核心patch版本 高可用性软件 数据库软件 存储软件 备份软件 正常□异常□ 巡检结论: 【 】合格 【 】不合格 用户代表签字: 年 月 日 服务工程师签字: 年 月 日 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□

网络设备的运维内容主要包含交换机、防火墙以及负载均衡等相关设备 输出文档按照如下:

网络安全设备巡检报告 用户单位名称: 设备名: 检测项目 设备型号: 产品序列号: 检测方式 说明 检查结果 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 正常□异常□ 巡检周期

7.6.2机房空调、UPS设备运维服务

为保证机房内各个应用系统的设备正常稳定的运行,良好的机房环境是非常必要的,我公司针对本次项目主要从机房空调系统、UPS供配电系统,作为重点运维内容,同时对机房内的其他指标项进行检测如机房内温度、湿度、消防系统、新风系统等。

机房空调系统的运维内容主要遵循如下表单进行巡检:

机房空调巡检报告 用户单位名称: 设备名: 设备型号: 产品序列号: 系统 空调1 业务机房 监控室、/ups 当前运行空调 目前存在的问题: 改进措施或建议: 巡检结论: 客户签字: 日期:年月日 检查时间: ℃ % ℃ % ℃ % ℃ % ( ) 1号机在用 检查空调是否有排水( ) 2号机在用 不出产生积水、漏水( )无积水、漏水现象 现象 ( )有积水、漏水现象 检查项目 控制温度 控制湿度 当前温度 当前湿度 当前温度 当前湿度 当前温度 当前湿度 检查时间: ℃ % ℃ % ℃ % ℃ % () 1号机在用 () 2号机在用 ()无积水、漏水现象 ()有积水、漏水现象 工程师签字: 日期:年月日 备注:我公司巡检人员每周会严格按照机房空调巡检报告具体要求对客户的空调系统检测,为保证空调系统的工作正常,每年不低于2次的全面巡检,对故障配件进行检修,在日常维护中及时清理及更换过滤网和加湿罐等耗材,定期清理机房空调的室外机,检修内各供水管路及排水管路,杜绝漏水,保证管路畅通。在设备出现故障后,保证在48小时内恢复正常。

机房UPS系统的运维内容主要遵循如下表单进行巡检:

UPS巡检报告 设备型号: 产品序列号: 信息显示检查 检查量 测量值 显示值 检查量 1 输入电压 Vab 输入电流 Ia 2 输入电压 Vbc 输入电流 Ib 3 输入电压 Vca 输入电流 Ic 4 输出电压 Vab 输出电流 Ia 5 输出电压 Vbc 输出电流 Ib 6 输出电压 Vcb 输出电流 Ic 7 输入频率 Hz 输出频率 Hz 8 输出功率 KW 输出视在功率 9 电池电压 Vdc 电池电流 Id 当前UPS运行状态 □市电逆变 □旁路 □电池逆变 □故障停机 □单机 □并机 旁路或电池逆变的原因: 内部检查:(检查时可能断电,用户需断开负载) 检视输入/输出端子、螺栓、螺帽紧固性 1 检视所有主控板电气连接是否安全可靠 2 检查器件、电缆等损坏、老化情况 3 检查风扇及风道状况 4 检查机柜、电池架等结构件腐蚀、形变与连接紧固情况 5 检查机内变压器、散热器等散热环境和通道状况 6 检测所有滤波电容外观、紧固和泄露情况 7 测量值 显示值 是否合格 处理概要

清扫可达空间和无源空间 8 视检整流器和逆变器驱动板是否过热或烧焦 9 视检整流器充电器晶体二极管是否老化 10 视检直流电容/交流电容是否老化 11 检查所有保险丝是否正常 12 功能测试(如果必须进行以下测试,经客户同意后按照操作流程进行) 市电逆变/旁路转换功能 1 实际负荷下电池放电和充电等电池管理功能 2 UPS逆变同步,并机均流 3 报警功能和历史故障信息记录,并清除历史记录 4 处理概要: 其他问题或建议: 电池检测报告□有 □无 正常□异常 □ 正常□异常 □ 正常□异常 □ 正常□异常 □ 巡检人签名: 日期 用户签名: 日期 备注:我公司巡检人员每周会严格按照UPS巡检报告具体要求对客户的UPS供配电系统进行检测,根据具体的检测结果对UPS设

备进行合理维修,为保证UPS设备的正常运行,每年至少进行一次全面巡检,巡检时检查蓄电池使用情况,在客户授权的情况下进行充放电,当UPS设备发生故障时,应在72小时内恢复正常运行。

7.6.3数据库系统运维服务

针对数据系统的运维我公司提供如下解决方案:本方案适用于技术人员的日常运维工作。

ORACLE DB维护方法

数据库启动

1、以oracle用户用户登录,

sqlplus‘/as sysdba’ sqlplus> startup

2、以oracle用户或ora816用户登录

sqlplus‘/as sysdba’ sqlplus>startup nomunt

sqlplus >alter database mount; sqlplus >alter database open;

3、第一种启动方式是最常用的手工启动方式,第二种启动方式是数据库有故障时常用的逐步启动方式,可以观察故障点。因为startup nomount 语句只读取spfile(server parameter file 数据库参数文件),启动instance,启动SGA和后台进程;alter database mount语句打开控制文件,确认数据文件和联机日志文件的位置,但此时不对数据文件和日志文件进行校验检查;alter database open打开包括Redo log文件在内的所有数据库文件,这种方式下可访问数据库中的数据。Startup完成功能是上述三条语句的之和。 数据库停止

1、 sqlplus ‘/as sysdba’

sqlplus>shutdown normal 正常方式关闭数据库。 2、shutdown immediate

立即方式关闭数据库,在 SQLPLUS中执行shutdown immediate,数据库并不立即关闭,而是在所有事务执行完毕并提交工作后才关闭,所以可能会等待,因此在关闭数据前要停掉连接到数据库的所有应用程序。建议日常维护工作中的关闭数据库,采用此方式。

3、shutdown abort

直接关闭数据库,正在访问数据库的会话会被突然终止。如果数据库中有大量

操作正在执行,这时执行shutdown abort后,因日志回滚、前滚(Roll Back/Roll Forward),下次重新启动数据库需要教长时间。当用shutdown immediate不能关闭数据库时,shutdown abort可以立即完成数据库的关闭操作。 监听器的启停

1、监听器的启动,以oracle用户用户登录

lsnrctl start [$ORACLE_SID]

2、监听器的停止,以oracle用户用户登录

lsnrctl stop [$ORACLE_SID]

3、监听器状态的查看,以oracle用户用户登录

lsnrctl status [$ORACLE_SID]

4、检测服务名是否有效,在操作系统下运行

tnsping SERVICE_NAME NUMBERS

SERVICE_NAME为你建立的服务名,NUMBERS为你要试PING数据库服务的次数 用户管理

1、用SQL语句查看系统中已有用户情况 select * from dba_users;

2、增加新的用户,并授予连接和资源权限,只有授予连接权限才可登录,授

予资源权限才可建表和修改

create user USERNAME profile defaultidentified by PASSWORD default tablespace DEFALUT_TABLESPACE_NAME temporary tablespace TEMP_TABLESPACE_NAME ; grant connect to USERNAME; grant resource to USERNAME;

3、修改用户口令

alter user USERNAME identified by NEWPASSWORD;

4、删除用户

drop user USERNAME;

5、限制某个已有用户会话的连接数(通过创建profile的方式)

create profile PROFILENAME limit sessions_per_user

CONNECT_NUMBERS;

alter user USERNAME profile PROFILENAME;

数据库参数文件

1、参数文件位置$ORACLE_HOME/dbs/spfileINSTANCE_NAME.ora,参数主要分为

动态参数和非动态参数,动态参数修改够直接生效,非动态参数需要重新启动数据库才能生效。 2、 修改参数的方法

altersystem set PARAMETER_NAME = VAlUE scope=both(system/spfile)

3、几个重要的参数

A、db_block_size 数据库块大小,数据库创建时决定,创建后不能修改。 B、db_block_buffers 数据高速缓冲区大小为此值与db_block_buffes的乘

积,该区越大越好。

C、share_pool_size 程序高速缓冲区和数据字典缓冲区的大小,主要用于存

储执行过的sql语句,减少重复分析,提高运行速度。该区也越大越好,但建议数据高速缓冲区加上程序高速缓冲区和数据字典缓冲区的大小(即SGA)一般不超过系统物理内存的50%。

D、sort_area_size 每个会话用于排序操作的内存大小,建议为默认值的两

倍到1M之间。

E、process 能同时访问数据库的最大进程数,根据连接数的多少,来设定,

一般为300以上。

F、db_io_slaves 后台写进程数 对I/O比较繁忙的数据库,可以将其设为多

于1个。

(以上参数以9i为参考,在10g里个别参数名有所变化) 数据库概况的查询

1、表空间的情况

select tablespace_name,stauts from dba_tablespaces;

2、数据文件的情况

SELECT FILE_NAME,FILE_ID,TABLESPACE_NAME FROM DBA_DATA_FILES;

3、段的情况

SELECT SEGMENT_NAME,,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS;

4、表、存储过程的拥有者名字和创建日期

select owner,object_name,object_type,created from all_objects

where object_type=’TABLE’OR OBJECT_TYPE=’PROCEDURE'

5、其他常用的视图和表

v$lock 锁的情况 v$session 会话的情况 v$process 进程的情况 v$parameter 数据库参数 v$rollname 回滚段的情况 v$sqlarea 共享池中的SQL语句 v$waitstat 等待的会话 dba_jobs 数据里定义的作业

dba_jobs_running 数据库里正在运行的作业 dba_views 数据库中所有视图的文本 dba_indexs 数据库中所有索引的描述

dba_free_space 数据库中所有表空间自由分区 dba_db_links 数据库中所有数据库链接

常用对象的创建和使用

1、表的创建(在表空间zy上创建表dhhm为例)

create table dhhm

(hm varchar2(11) ,

yhmc varchar2(60)) tablespace zy;

2、索引的创建(将DHHM表上hm字段建立索引hmsy存储在表空间zy上为例)

create index hmsy on dhhm(hm) tablespace zy;

3、已有存储过程、函数、包源代码的查找

select name,text from user_source where name=NAME;

4、数据库链接的创建和使用

create public database link DBLINKNAME.world connect to USERNAME identdied by PASWORD using SERVICENAME; select * from TABLE_NAME@DBLINKNAME;

5、同义词的创建和使用(以dyh用户可以查询并修改yyxt用户的dhhm表为例)

cratesynonyn dyh.dhhm for yyxt.dhhm; grant select on yyxt.dhhm to dyh; grant update on yyxt.dhhm to dyh;

失效数据库对象的检测和编译

1、失效存储过程的查找和编译

select 'alter procedure'||object_name||' compile;' from

user_objects where status = 'INVALID' and object_type='PROCEDURE’ 然后复制粘贴并执行第一条语句的输出结果

2、失效的包的查找和编译

select 'alter package'||object_name||' compile;' from

user_objects where status = 'INVALID' and object_type= 'PACKAGE’ 然后复制粘贴并执行第一条语句的输出结果

表空间的管理

1、查看所有表空间大小和使用率

select a.tablespace_name,sum(a.bytes)/1024/1024 \

round(10000*(sum(a.bytes)/1024/1024-sum(b.bytes)/1024/1024))/ 1000\

round(10000*(sum(a.bytes)/1024/1024-sum(b.bytes)/1024/1024)/ (sum(a.bytes)/1024/1024))/100 \

from dba_data_files a,(select tablespace_name,file_id, sum(bytes) bytes

from dba_free_space group by tablespace_name,file_id ) b where a.tablespace_name=b.tablespace_name

and a.file_id=b.file_id group by a.tablespace_name; 2、使用文件系统的表空间扩展

alter database TABLESPACE_NAME add datafile FILE_NAME size SIZE; 3、用裸设备表空间的扩展

alter database TABLESPACE_NAME add datafile RAW_DEVICE_NAME size SIZE; 这里需要注意的是裸设备要提前建立后,且这里使用的是裸设备的字符文件

(类型为C),SIZE值要比其实际大小要稍微小一些。

4、集群中,在某一台主机上共享卷组上增加文件系统和裸设备后,一定要 同步到集群中另外的主机,否则当数据库在另外的主机中启动时,会找不着相应的设备号,导致数据库不能够被打开。

5、查找表空间的剩余空间块数以及最大空闲块的大小,如果碎片过多或最大空闲块过小,需要手工合并表空间碎片

select tablespace_name,count(*)

\\

\

6、手工合并某表空间碎片

alter tablespace TABLESPACE_NAME coalesce;

数据文件I/O的统计优化

col 文件名 format a35; select

df.name 文件名,fs.phyrds 读次数,fs.phywrts 写次数, (fs.readtim/decode(fs.phyrds,0,-1,fs.phyrds)) 读时间, (fs.writetim/decode(fs.phywrts,0,-1,fs.phywrts)) 写时间

from v$datafile df,v$filestat fs

where df.file#=fs.file#order by df.name;

错误号的跟踪出理

1、在操作系统级显示其错误详细信息和常用解决办法以报ora_4031错误为例)

$>oerr ora 4031

2、有时为了进一步跟踪其错误,让其产生更详细的告警日志在用户报警文件

里,需要在数据库的初始化文件里加下面一句配置,并重新启动数据库

event = \

这里注意的是,跟踪完毕后,应将此句话屏蔽掉,以免影响数据库性能。

ORACLE数据库日常检查

1、登录到主机上利用sqlplus 检查是否可用;

2、数据库告警日志的检查

$ORACLE_HOME/admin/INSTANCE_NAME/bdump/alert_INSTANCE_NAME.log 此文件中记载数据库的启动、停止、系统级修改、告警信息、日志切换,是日常维护中的重要依据。

会话连接日志的清理

会话连接日志$ORACLE_HOME/network/log/listener.log,此文件中记载着每个连接登录时的IP地址和时间等情况,可作为监测的依据,因为此文件不断增大,需要定期清空,清空方式为在$ORACLE_HOME/network/log目录下运行操作系统命令

>listener.log。

数据库hang住时的停止和方法

在某个帐务数据库发生故障时,在将其对应的服务和后台帐务应用停完后,需要数据库重新启动,具体停止方法如下: $lsnrctl stop

$kill –9 `ps –ef|grep LOCAL=NO|grep –v grep|awk ‘{print $2}’`

$sqlplus ‘/as sydba’

sqlplus >alter system switch logfile; sqlplus >shutdown immediate

启动方法为:

$sqlplus ‘/as sydba’ sqlplus >startup

$lsnrctl start

扩表空间方法

方法一:利用图形化得OEM工具来扩,选择存储管理的表空间; 方法二:利用脚本:

alter database TABLESPACE_NAME add datafile RAW_DEVICE_NAME size SIZE;(注:三个大写字符串是需要变化的具体值)

这里需要注意的是裸设备要提前建立,且这里使用的是裸设备的字符文件(类型为c),SIZE值要比其实际大小要稍微小一些,如设备大小为15M,语句里就不能使用15M,只要比15M小10K左右就可以。

相关通用工具介绍

Enterprise Manager (EM)

EM是用于Oracle数据库管理的一个功能强大的工具,并且可以通过IE访问连接,使用EM可以完成大部分的数据库管理工作。

1. 作为 oracle 用户登录到操作系统上。执行以下命令来启动 dbconsole 进程: emctl start dbconsole

EM启动后可以通过登录以下URL来连接: https://localhosts:5500/em

2. 通过执行以下命令来检查 dbconsole 进程的状态: emctl status dbconsole 3. 停止 dbconsole 进程: emctl stop dbconsole

7.6.4中间件系统运维服务

中间件系统运维主要组从如下几个方面进行:根据客户要求我公司从如下几个方面进行巡检: 1、操作系统版本 AIX

# oslevel –r或者 # oslevel –s或者

2、WebShpere版本以及补丁级别 查看版本方法如下: 方法一:

如果websphere启动了,那么可以用浏览器访问console,欢迎页面右上角就

写有相关信息,默认情况使用http://ip:9090/admin登陆 方法二:

如果是WebSphere 6.1,则记录在

/properties/version/WAS.product, 如果WebSphere 7.0,则记录在

/properties/version/BASE.product 方法三:

执行WebSphere Application Server安装目录的bin目录下的versionInfo命令,由输出信息可以查看到WAS的产品信息。

Windows平台执行versionInfo.exe Unix和Linux平台执行versionInfo.sh 这个将会看到非常详细的信息,推荐使用该方法 cd /bin versionInfo.exe 3、查看WAS的JDK版本

方法一:通过SystemOut.log文件查找

查看任意慨要文件(profile)下的SystemOut.log文件,此文件包含WebSphere Application Server

产品相关信息,包括

JDK

的版本信息。

/logs/server1/SystemOut.log 方法二:通过从命令行运行 java –version

/java/bin/java -fullversion 4、查看web服务器版本信息

Windows平台上的IBM HTTP Server的版本信息,运行apache.exe –v C:\\Program Files\\IBM HTTP Server\\bin>apache -v Server version: IBM_HTTP_Server/6.0 Apache/2.0.47 Server built: Nov 4 2004 10:11:21

Unxi和Linux平台上的IBM HTTP Server的版本信息,运行httpd –v httpd -v

Server version: IBM_HTTP_Server/6.0 Apache/2.0.47 Server built: Nov 4 2004 10:11:21

5、JAVA堆

一般JVM大小设置为1G,使用以下过程来设置 JVM 堆大小:

选择服务器-> 应用程序服务器-> Server1-> 进程定义->Java 虚拟机 滚动到初始堆大小和最大堆大小字段并设置值。 单击确定以保存更改。 6、系统运行日志 WebSphere5.0,5.1

/AppServer/logs WebSphere6.0,6.1

/AppServer/profiles//logs

下面2个是出了故障后,进行定位的,导出内存内容的,检查配置参数。 7、Java core

通过分析javacore可以获得jvm中当前运行的线程情况,分析不同时间的javacore文件,可以分析出一些死锁的问题

文件直接看,或者使用ThreadAnalyzer查看

选择服务器-> 应用程序服务器-> Server1-> 进程定义->环境条目 滚动到IBM_JAVADUMP_OUTOFMEMORY查看属性定义,然后找到相关文件 8、Heap dump

通过分析heapdump可以获得jvm内存中当前的对象分布情况,从而查找解决内存泄漏的问题。heapdump文件似乎只有在内存泄漏的时候才会生成,因为要将内存中的数据写道文件,所以当堆大小设置比较大的时候,这个过程会要比较长的时间

选择服务器-> 应用程序服务器-> Server1-> 进程定义->环境条目 滚动到IBM_HEAP_DUMP_OUTOFMEMORY查看属性定义,然后找到相关文件 一、 确认磁盘空间是否满足要求

1、 WebSphere 应用服务器自身代码的占用空间。这个空间一般在1G左右,在不同的系统平台上略有差异。

2、 概要文件所占的空间。WebSphere应用服务器V6.1创建的概要文件基本类型有3种,每个概要文件所占用的空间如下:应用程序服务器(Application Server):在WebSphere应用服务器安装没有选择安装样本程序时,这一概要文件所占磁盘

空间约为200M;Deployment Manager:30M;定制概要文件(Custom,即node agent):10M。

3、 如果要安装WEB服务器,则在WEB服务器所在服务器上要预留WEB服务器所占的磁盘空间。IBM HTTP服务器一般占用110M左右的空间。

4、 如果安装WEB服务器,则在WEB服务器所在机器上通常也要安装Web Server Plug-in组件,该组件所占磁盘空间约为200M。

5、 WebSphere 应用服务器系统日志的占用空间。日志空间的估算要结合系统对日志的配置情况。WebSphere应用服务器的主要日志有SystemOut.log,SystemErr.log。我们可设置日志文件的大小和保存的历史日志文件数量,从而可以估算出其需要的空间。

6、 如果有WEB服务器,需考虑WEB服务器的日志空间。如果客户开启了WEB服务器的访问日志access.log(默认开启),此日志增长的速度极快,要预留足够的空间。

7、备份文件需要的空间。WebSphere应用服务器提供了一个备份命令(backupConfig.bat/sh),用来备份应用服务器的配置及其上应用。我们建议在系统稳定之后及时备份。对于一个典型生产系统,WebSphere应用服务器这个配置文件经常超过100M。可在发出backupConfig命令时,使用-logfile参数指定该备份文件的存放位置。

8、系统出错时日志,例如,JVM在发生OutOfMemory时,在大多数平台上WebSphere应用服务器会默认写javacore文件和heapdump文件,记录错误出现时的JVM Heap、线程情况,以备错误诊断使用。虽然可以调整应用服务器参数使之不产生此类文件,但为了分析问题,通常需要从此类文件入手。这类文件通常都特别大,例如heapdump文件,可能达到几百M。如果多次出现OutOfMemroy,对磁盘空间的占用很快。因此,必须考虑为此类文件预留磁盘空间。

9、 WAS安装程序还需要在系统的临时目录/tmp中有100M以上的空闲空间。 10、 用户发布到WebSphere应用服务器上所有应用程序以及应用自身的应用日志的占用空间。这个大小与实际应用相关,而且不同应用可以差别很大。 二、日常管理任务

1、查看/更改应用服务器端口 ? 更改应用访问端口

默认情况下,WAS的管理控制台和应用访问是两个不同的端口。访问WAS的管理控制台或者WAS上部署的应用,所使用的端口由应用服务器端口以及虚拟主机决定。假设我们要把应用访问的端口从9080变成9082(实际工作中,如果没有Web服务器,有的环境会希望把应用访问端口变成80,方法类似),则按如下步骤进行:登陆WAS管理控制台,选择 左边菜单 服务器 - 应用服务器,点击 server1,选择“端口”,点击“WC_defaulthost”,修改端口为自己想要的任意端口(注意避免端口冲突),例如,9082。然后点击“确定”。然后“保存”。 ? 更改WAS管理控制台端口

登陆WAS管理控制台,选择 左边菜单 服务器 - 应用服务器,点击 server1选择“端口”。然后更改WC_adminhost为自己希望的管理控制台端口。然后点击“确定”、“保存”。选择 左边菜单 环境 - 虚拟主机,点击;然后选择admin_host,选择“主机别名”。把原有端口9060改成与前面应用服务器/端口/WC_adminhost一致的端口,例如,9063。或者点击“新建”,创建一个主机别名 *, 9063。然后“确定”,“保存”。目的就是要让 应用服务器/端口/WC_adminhost的端口出现在 虚拟主机/admin_host的主机别名列表中。 2、管理安全性 (1)启用管理安全性

启用管理安全性将激活用于防止未经授权的用户使用服务器的设置,简单来说,进入管理控制台、更改应用服务器配置、停止应用服务器进程这些管理任务,都需要输入预先定义的用户名和密码才能完成。缺省情况下,创建概要文件时会启用管理安全性。如果在创建概要文件时没有选择“启用管理安全性”,在随后使用过程中又希望启用,则可按如下步骤进行:

首先进入控制台,例如:http://was_ip:9060/admin,注意这里登陆的用户一定要是设置安全性的用户。例如,admin。选择“安全性”>“安全管理、应用程序和基础结构”,然后点击“安全配置向导”。为了配置的简便性,在“指定保护范围”中,可以不选择“使用 Java 2 安全性来限制应用程序访问本地资源”;在“选择用户存储库”中接受默认选项,用户存储库为“联合存储库”,点击“下一步”;在配置用户存储库中填入用户名、密码。如果您是第一次启用管理安全性,则输入一个新的用户名(您登陆管理控制台的用户名)和密码。这个用户名密码是任意的,并不要求是操作系统用户,因为联合存储库默认的用户条目来自于文

件;如果以前曾经使用该存储库启用过管理安全性,则使用存储库中持有管理员特权的用户名和密码。点击“下一步”、“完成”。保存之后重启应用服务器,这时登陆管理控制台等就需要提供您预定义的用户名/密码了。 (2)停用管理安全性

停用管理控制台很简单,不选择“启用管理安全性”,点击“应用”,保存并重启应用服务器即可。有一种特殊情况下,特如忘掉了管理员密码,此时我们无法登陆管理控制台,从而无法在管理控制台中停用管理安全性。这时,可从$WAS_HOME/profiles/xxx概要文件名/bin目录下,发出如下命令: wsadmin -conntype NONE 。当wsadmin的命令行窗口出现之后,发出下列命令: securityoff 。上述操作在应用服务器启动或停止的状态都能发出。再次启用WAS时,就是停用管理安全性的状态了。 (3)更改管理员密码

当我们需要更改管理员密码时,可以选择“用户和组”>“管理用户”,在搜索内容为“*”时点击“搜索”,会列出该存储库中的所有用户。选中管理用户标识,可更改该用户的密码。更改即时生效。 (4) 停用管理安全性

停用管理控制台很简单,不选择“启用管理安全性”,点击“应用”,保存并重启应用服务器即可。有一种特殊情况下,特如忘掉了管理员密码,此时我们无法登陆管理控制台,从而无法在管理控制台中停用管理安全性。这时,可从$WAS_HOME/profiles/xxx概要文件名/bin目录下,发出如下命令: wsadmin -conntype NONE 。当wsadmin的命令行窗口出现之后,发出下列命令: securityoff 。上述操作在应用服务器启动或停止的状态都能发出。再次启用WAS时,就是停用管理安全性的状态了。 (5) 更改管理员密码

当我们需要更改管理员密码时,可以选择“用户和组”>“管理用户”,在搜索内容为“*”时点击“搜索”,会列出该存储库中的所有用户。选中管理用户标识,可更改该用户的密码。更改即时生效。 (6) 忘记管理员密码

如果忘记管理员密码,我们无法进入管理控制台更改密码。此时,需要先用“停用管理安全性”一节中wsadmin命令的方法,停用管理安全性,然后“更改

管理员密码”,再次“启用管理安全性”即可。 (7) 创建更多的管理用户

使用启用管理安全性的WAS环境时,默认情况下只有一个管理员ID,这意味着同一时刻只有一个人能登陆管理控制台。这对于多人开发小组在同一WAS环境发布测试时并不方便。您可先在存储库中创建一个用户,然后为该用户ID分配相应的管理角色。具体步骤如下:1)选择“用户和组”>“管理用户”,点击“添加”,添加一个用户ID,例如,admin1。保存。 2) 选择“用户和组”>“管理用户角色,填入用户名(必须是在存储库中已经存在的用户名),选择相应的管理角色,例如,“管理员”。点击“确定”,保存。这样,下次重启WAS时,两个用户都能同时登陆管理控制台。 3、备份/恢复概要文件

生产环境、概要文件配置过于复杂或经常更改时,需要定期备份概要文件,以便必要时快速恢复。您可使用backupConfig 命令备份配置文件。例如,要备份概要文件AppSrv01的当前配置,可以从$WAS_HOME/profiles/AppSrv01/bin目录下,发出命令 backupConfig,它会将AppSrv01当前概要文件默认生成一个压缩包,您也可以指定该压缩包的名称,例如:backupConfig WebSphereConfig_2007_05_30.zip。恢复配置时,使用restoreConfig WebSphereConfig_2007_05_30.zip。 4、正确卸载WAS

需要提醒的是,WAS的卸载过程不是直接删除目录,如果这样做,下次你可能无法在同一台机器上成功安装WAS。在卸载WAS之前,先停止机器上的WAS进程,用ps –ef |grep java确保没有was进程在运行。然后,执行WAS_HOME/uninstall/uninstall.sh命令卸载WAS。如果因为某些特殊原因卸载向导引导的卸载过程没有成功(例如,您直接删除了WAS安装目录),或者您希望在同一目录再次安装WAS,请参照信息中心“手工卸载”给出的建议。

应用部署通常会涉及如下几个任务:配置应用所需要的环境:如系统变量、虚拟主机、类路径、安全性等等;配置应用所需要的资源如JMS资源、数据源等。其中,需要注意的是:

(1)应用打包:部署在 WebSphere 应用服务器上的应用可以是打包的*.ear/*.war文件,也可以是未打包但符合J2EE规范要求的组件。在生产环境中,

推荐使用打包的*.ear/*.war文件,便于版本控制和管理。对于复杂项目中多个J2EE组件的打包,请参见文章“关于J2EE应用开发项目包的管理”。

(2)管理 Utility Jar包:大多数J2EE应用都会有一些公用的Utility Jar包,首先要强调的是:一定要避免在同一个类载入路径下存在同一个类的多个版本!这会在实际运行中带来很多莫名其妙且难以诊断的问题。其次,对于JDBC驱动这类通用等级较高的Utility Jar包,可以放置在/lib/ext目录下;对于多个应用共享的Utility Jar,可以放在 /lib/ext中,也可以放在shared library(共享库)中,推荐放在shared library中;对于单个应用使用的Utility Jar,可与应用打包在一起,或放入shared library中。共享库的使用能够避免Utility Jar包多个版本的混乱,以及Utility Jar包的冲突。共享库配置方法请参见红皮书sg247304 12.5.4 Step 4: Sharing utility JARs using shared libraries章节。

(3)Jar 包冲突:Jar包冲突问题在大型Java软件开发中经常遇到,简单的说,当不同应用使用的公用Utility Jar包、应用服务器底层的Jar包中存在同名、且版本不同的类时,我们称之为Jar包冲突。这种问题的解决办法可以参考文章如何在WebSphere中解决Jar包冲突 。

(4 )会话超时:针对应用场景的不同,不同应用期望的会话超时时间各不相同。WebSphere应用服务器的会话管理分为Application server、Application、Web Module三个级别。顾名思义,在每个特定级别上更改的会话管理的配置,对当前级别起作用。部署在WebSphere应用服务器上的应用,默认的会话超时时间为30分钟,默认的会话管理级别是Application Server。如果您期望更改您的应用,例如,DefaultApplication的会话超时时间,可按如下步骤进行:选择应用程序>应用程序名>会话管理,选择“覆盖会话管理”,并在“设置超时”中填上期望的会话超时时间。点击“确定”保存即可。 (5)环境变量设置

当应用需要通过写Java环境变量的方式配置一些变量时,可在应用服务器启动脚本中用-D参数指定,也可以在应用程序服务器 > 应用程序服务器名(例如,server1) > 进程定义 > Java 虚拟机中设置“通用JVM参数” -Daaa=xxx。

7.7应急服务响应措施

7.7.1突发事件应急流程

在日常运维中可能会出现突发事件,一旦出现如下问题我公司将遵循应急流程处理突发事件。

突发事件的来源,可能来自三个途径,第一巡检维护过程中发现、第二设备运行发生告警、业务部门反馈,一旦发生驻点工程师第一时间告知客户,并将具体的情况一同告知,以最快速度联系公司相关技术专家和公司相关高层领导,与专家进行充分沟通初步定为故障,并将故障定级,同时告知客户,如遇到驻点工程师无法解决的故障时,公司内相关领域技术专家会以最快速度赶到事故现场进行故障处理,直至问题解决,在问题解决之后。由技术专家和驻点工程师共同完事件问题报告,将事故的发生原因,处理的方式,已及如何避免再次发生的方法进行详细记录,录入客户的运维管理文件中,同时由公司技术专家完成将此案例录入公司内部知识案例库,作为以后借鉴依据,当事故处理完毕后,由驻点工程师或技术专家讲结果告之客户和公司相关领导。

具体流程详见下图所示:

输出技术专家/高层领导判断巡检沟通设备告警驻点工程师告知判断事件定位问题解决业务部门输出客户判断事件问题报告

7.7.2预防措施及处理办法

系统运维应急方案是对中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。在系统维护过程中,突发事件的出现将是很难完全避免的,针对这种情况,设计了完善的突发事件应急策略。

系统巡检人员要定期规范检查各硬件设备的运转情况和应用软件运行情况,同时做好日常的数据增量备份和定期全备份。对发现的问题在报各级负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。

对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。

当获悉出现突发事件时,驻点工程师可以立即从知识库中获取相应的应急策略,并综合用户方的具体情况,与公司技术专家沟通,给出相关解决方案,然后在第一时间以电话、邮件支持或现场服务的方式帮助用户解决问题,尽最大努力减小突发事件对用户日常应用的影响。