成功案例

上海食品药品监督管理局IT运维管理实践有感

【背景】

20 世纪 80 年代以来,我国投入了近万亿资金进行电子政务建设,特别是“两网、一站、四库、十二金”等大型项目的阶段化建设,我国电子政务建设已经取得了初步成效,政府管理和公共服务对信息化的依存度大幅增加,公众对政府的信息服务需求日趋迫切。到目前为止,投资建设的大量信息系统已进入应用维护阶段,持续可靠提供应用服务的风险已经凸显,电子政务工作沿用建设方式的管理思路与目前发展阶段已不相适应,粗放型的外包管理与政府业务风险防范要求不相适应.这将对政府管理和公共服务构成严峻挑战。

笔者所在单位是一家省级食品药品监管部门,成立于1999年,正好是我国开始启动了政府上网工程,可以说搭上了信息化建设的快车,十年发展从单机操作,到局域网应用,再到大集中的电子政务建设,信息化建设取得了长足的进步,但同时也存在“重建设、轻维护”、“重技术、轻管理”等问题,笔者在单位主要负责应用系统的开发,在完成了软件项目的开发工作后,却发现在“谁开发,谁维护”的惯性下,自己也成为了众多系统的第一维护责任人,落后、低效率的维护方式让自己吃足了苦头,不得不痛定思痛,改造目前的运维管理方式,本文主要介绍了笔者在系统及应用运维管理上的初步做法和一点实践的心得。

【困境】

上海市食品药品监管局信息中心(以下简称中心)肩负着上海市食品药品监管局电子政务主干网建设、维护、运营的使命,致力于提供安全、高效、快捷的IT 服务。近年来,随着信息化建设的深入,网上运行的业务应用逐步增加,计算机机房设备、网络基础设施,服务器、客户端等硬件平台数量大增,政务应用系统、数据库、应用服务器、中间件等软件平台日益复杂,服务的用户也越来越多,如何维护好日益增多的网络和系统等各类设备,保证各个应用系统安全顺畅地运行,为用户提供良好的服务,及时解决出现的问题和故障,做到网络和用户之所及,管理和服务之所及,是政务业务能否正常运行的关键所在。

由于历史发展原因和资金上的限制,中心目前还处于最初级的运维管理状态,对网络、设备、系统、用户等的管理和服务是分散的、不关联的,在信息化建设时始终着重关注了实现数据、信息共享,但却没有在运维管理上实现规范化和流程化,因此管理和服务是依赖于个人的、分散的、孤立的、低效率的,这种管理模式将越来越难以适应发展的要求。

目前笔者所在单位,全系统2000个用户,大大小小近40个系统,50多台服务器,近10个数据库,笔者每天基本上都在进行救火式的工作,非常被动的处理各种故障,而且饱受抱怨,对于软件服务外包商也缺乏有效的管理手段。目前,在应用系统的运行维护中最为突出的矛盾有两个,一个是日常系统报修处理量大,报修事件信息传递慢,处理结果无法及时反馈,难以跟踪质量;另一个就是近40个系统,50多台服务器,近10个数据库自身的管理困难,往往只有通过用户报修体现出故障点,这两个主要问题又形成了一定的因果关系,报修量大导致疲于应付,疲于应付导致精力分散,没有精力对各种操作系统、数据库系统、应用系统进行维护和优化,最后这些故障点又形成了新的报修,维护工作开展举步维艰。

【思路】

随着近两年,在国内电子政务领域对IT运维管理的重视,很多地方都制定了电子政务维护的标准,笔者所在地的信息化主管部门也在大力宣导ISO20000、ITIL等运维管理的最佳实践和标准,通过学习笔者也深深认同其先进的管理思路,但是完全照搬ITIL,目前来说并不可行,一方面这需要投入大量的资金、人员,还需要领导在政策上和管理上给与支持,另一方面,笔者认为在信息化的水平和需求没有达到的情况下,盲目的完全照搬会造成一定的投资浪费。

笔者根据单位实际情况,建立了在先进的管理框架下,以解决目前主要矛盾为目标的大体思路。参照模型,初期的改造实践就立足于运行维护为导向, 建立起针对应用服务范畴的较为完备的监控体系的建设,统筹考虑监控管理工具、人员、制度及流程充分利用监控环节的各类信息,建立初级的工作前台,接收各类维护请求,并迅速进行分发,要对产生的事件进行分类、登记、跟踪并作事后的分析与评估,促进优化监控、系统管理等工作。

【软件建设】

对于工作前台,笔者根据自身实际情况,就在原有的OA系统中增加了一个系统运维模块,应对全系统的报修事件。利用原有的短信平台,将事件信息同步发送到各运维服务商的干系人,随后系统将记录其处理完成的时间点,故障原因和最终的保修人评价等信息,用做日常对维护提供商管理和日后分析改进的依据。

但是针对于应用系统的管理和监控初步笔者原本也是设想让软件开发商按照统一的标准自行开发,但是后来放弃了这一想法,原因是通用软件行业的公司虽然对于自己开发的系统进行监控都没有问题,但是对SNMP和RMON协议知之甚少,更谈不上在此基础上进行开发,因此选择一款合适的管理工具成为了必须。

【工具选型】

在把目光瞄准工具软件后,我们单位对市场上众多品牌经过慎重评估,卓豪公司的ManageEngine系列产品是专门针对企事业单位的IT管理产品,这个系列里包含32款产品,涉及IT管理的方方面面,性价比也不错。我们选择了Applications Manager产品来做应用服务管理,在和其售前取得联系后,上门演示了一次产品,发现可能基于同样的管理理念设计的平台,我们预想的功能基本都包含了,而且对此工具自身的管理简单直观,并且在报表和报警功能上超出了我们的预期,最终确定了这个产品。

【实践】

1、故障事件系统
故障监控系统目前还在小范围推广过程中,配合实施了简单的定期会议制度,集中各家软件服务商一起察看系统的报修和处理情况,由于有了管理手段,通过系统报修的处理速度明显加快,故障报修者几乎第一时间就能得到最直接的反馈,使用者也对此表示满意。在使用过程中我们又根据实际增加了上传附件功能,报修者直接上传故障截屏,让维护人员可以迅速找到故障点。
通过一段时间的运行,我们发现某个系统经常性被报修业务无法同步,这个异常引起重视,但是发现同步的双方都正常,这个时候监控工具的作用就体现出来了,通过图示可以明显看出在每天同步的12点前,该系统都会重起,但是有时候重起时间稍长,就会错过数据同步从而造成问题,经过进一步调整顺利解决了这个故障。

2、应用监控系统

安装
Applications Manager的安装比较简单,一台pc server 即可,B/S的管理架构,安装完成后就可进行登录进行管理。

实施
Applications Manager的实施主要有两个工作,添加监视器和对监视器中的指标设定报警阀值及报警动作。添加监视器比较轻松,基本上常用的应用服务器类型都可以找到对应的预制模板,我们使用到的Jboss、Apache、Oracle As都比较轻松的建立了监视器,对于windows系统还可以通过SNMP和WMI两种方式连接。对于现在安全等级保护中关于定期修改密码的要求,虽然WMI最简单,但是需要管理员的权限,所以没有采用。总的来说配置监视器在技术上没有什么难点,相反对于单位内自己的信息资源的整理倒是工作的重点,首先要确定需要监控核心的业务系统,然后找到与之相关的服务器、数据库和中间件的树立,确定必须要设定监控的指标以及出现告警后的告警信息的推送对象,通过树立慢慢的基础维护管理的脉络也清晰了起来。

运行
经过一段时间的运行,不得不说Applications Manager给我的工作带来了极大的便利,监控轮训我统一设置为5分钟,也就是说现在任何时间、任何一个监视器所对应的管理对象发生了异常,最多5分钟,系统维护方和管理方都会同时收到告警进短信,短信中会明确告知故障台服务器的什么系统出了问题,有了这样的管理利器,大大降低了系统平均修理时间 (MTTR),很多故障在系统用户没有感知的情况下已经被解决。

 

Applications Manager除了监控、报警功能外,在使用中还发现一些其它的特点总结如下:

1、监视器信息丰富、专业性强
对于提供的监视器都不是简单的看看是否运行正常而已,由于Applications Manager融合了各大厂商产品自身提供的监控功能,因此每一种类型的监视器都提供了丰富的功能,比如Oracle数据库,不仅可以看到内存分配、响应时间、查询的集中率和SGA等静态配置情况,而且还能看到当前查询、会话和锁的情况。从管理角度说,自从用了Applications Manager后,就再也没有去登录过Oracle自己的客户端了,数据库维护商来了打开Applications Manager,哪个数据库需要调整维护一目了然。

2、统计报表功能强大、界面展示直观
大量的数据集中之后,如何展示,如何让用户可以直观的通过图获得想要得信息是检验一个管理系统优秀与否的重要指标,在这一点上Applications Manager做的还算不错,我最喜欢的就是可用性的图表,分别可以察看最近24小时、一周和一个月的可用性,任何原因的停机都会很直观的反应在这张图表上。 另外Applications Manager还提供了比较强大的报表功能,这些报表都是预制的直接启用即可,报表会在指定的时间发到指定的邮箱。如果觉得预制报表不符合需求,还可以根据提供的各项指标自定义报表,比如针对oracle 数据库提供将近50个动态指标完全可以满足各种特殊的需求。

3、工具功能再强大也需要人的管理
Applications Manager无疑是一套比较优秀的应用管理软件,但是并不是说将系统装好,监视器配好从此就高枕无忧了,一方面,众多的指标都是死的,在初期配置完成后就需要不断的去调整和优化这些报警阀值,减少误报,提高报警的准确性;另外一方面,想要将这套工具运用到能够进行故障的预先干预,做到将故障消灭在萌芽,靠系统本身是做不到的,必须要熟悉所监控对象的各种指标的含义,通过一段时间的积累故障事件,通过分析故障点的表现特征,逐步尝试建立可行的指标模型,其中还是需要投入大量精力的。 在使用了Applications Manager之后不是什么事都没有了,而可以看作一个新的开始,让管理人员在更高的一个层面上对IT系统进行管理,可以大大提高工作效率,但不一定能够降低工作量,因为相应的可能需要学习更多新的知识,花更多的时间摸索实践。

【认识共享】

IT(或电子政务)的维护是一个比较复杂的管理的体系,可以看到在标准的运维框架下,笔者只是在IT基础环境监控和应用系统方面做了一点点粗浅的尝试,对于个人的工作来说管理方式和管理手段的改变已经让笔者从中获益匪浅。随着信息化发展到了运维的时代,为了让系统能够正常使用,相应的管理问题都会从每个组织的IT部门中冒出来,作为IT第一线的管理者一定要有新的管理理念,在不断推动他人信息化的同时,千万不要忘了用信息化来武装自己。