概述
IT运维服务体系建设,应包含运维服务制度、流程、组织、队伍、技术和对象等方面的内容。同时结合业务特色,整合运维服务资源,规范运维行为,确保服务质效,形成统一管理、集约高效的一体化运维体系,从而保障应用系统安全、稳定、高效、持续运行。
鉴于绝大多数公司现有系统的个性及用户使用习惯等诸多客观因素,IT运维服务体系的建议追从“易使用、易汇总、易管理”的先后顺序,由重到轻的依次解决客观存在的问题,以便最大程度的加快IT运维服务体系的建设的目标。
IT运维服务体系建设涉及面广,具体基层操作人员使用困难等诸多因素的限制:
“易使用”,首先需要打开用户如何能更便捷提交问题的大门,引导基层用户逐步将长久以来“扔电话”的方式转变为“提交在线运维工单”记录的模式;提供给基层用户一套“易接受、易操作”的在线信息系统运维平台,进而使得全辖范围内真正的使用起来。
“易汇总”,其次运维的目的是总结经验减少乃至避免问题的发生从而减少系统运维成本;并在事中、事后能够形成信息准确有效的报表协助分析问题并能够提供出运维报告,从而协助优化问题结构进而达到减少问题提问频率的目的。准确有效的报表可以协助优化问题,并可以加强上级领导对IT运维工作重视;古语讲“做事不由东,累死也无功”,故而准确有效的运维报告就是最有力的数据依据,从而可以提高上级领导对IT运维的重视程度,也可以使得运维人员自身对自己有一个清醒的认识。
“易管理”,最后则是便于后台系统管理员管理。必需要在满足 “易使用、易汇总”2个基本条件使得运维体系全面铺开以后才可进一步考虑深度优化后台管理的相关事宜。
1、运维服务体系建设原则
运维服务体系建设的原则有以下几个方面:
以完善的运维服务制度、流程为基础。为保障运行维护工作的质量和效率,应制定相对完善、切实可行的运行维护管理制度和规范,确定各项运维活动的标准流程和相关岗位设置等,使运维人员在制度和流程的规范和约束下协同操作。
以先进、成熟的运维管理平台为手段。通过建立统一、集成、开放并可扩展的运维管理平台,实现对各类运维事件的全面采集、及时处理与合理分析,实现运行维护工作的智能化和高效率。
以高素质的运维服务队伍为保障。运维服务的顺利实施离不开高素质的运维服务人员,因此必须不断提高运维服务队伍的专业化水平,才能有效利用技术手段和工具,做好各项运维工作。
2、运维服务体系的总体架构
运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以及运行维护对象六部分组成,涉及制度、人、技术、对象四类因素。制度是规范运维管理工作的基本保障,也是流程建立的基础。运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。
2.1运维服务制度和流程
为确保运维服务工作正常、有序、高效、协调地进行,需要根据管理内容和要求制定一系列管理制度,覆盖各类运维对象,包括从日常运维管理到线下管理以及应急处理的各个方面。此外,为实现运维服务工作流程的规范化和标准化,还需要制定流程规范,确定各流程中的岗位设置、职责分工以及流程执行过程中的相关约束。
2.2运维服务组织和队伍
信息管理部根据其运维服务工作的内容和流程确定各项工作中的岗位设置和职责分工,并按照相应岗位的要求配备所需不同专业、不同层次的人员,组成专业分工下高效协作的运维队伍。下级公司信息管理部门负责应用系统的部分运维并承担辖内网络的运行管理。辖内各下级单位信息管理人员承担本单位系统运行维护和故障处理。
2.3运维服务工作流程
为保障运行维护体系的高效、协调运行,应依据管理环节、管理内容、管理要求制定统一的运行维护工作流程,实现运行维护工作的标准化、规范化。其环节包括事件管理、问题管理、变更管理和配置管理。
2.4运维技术服务平台
运维技术服务平台包含实施运行维护和技术服务的各种手段和工具,通过技术手段固化标准化的流程、积累和管理运维知识并开展主动性运维工作。
3、运维的范围
集团型企业的核心应用系统的运维由公司总部的信息系统管理部门主要负责,分公司负责基础运维并向股份公司定期反馈运维情况。
4、运维服务体系建设的内容
4.1运维管理制度建设
总结现有的运维管理经验,遵照国内外相关运维标准,结合目前的实际情况,统一制定运维管理制度和规范。通过定期和不定期的检查,促进各项制度规范在分公司的贯彻落实,从而建立起全辖统一、规范的运行维护管理工作方式。同时,随着信息化建设的不断发展,也要确保各项制度的及时更新。制度体系内容要涵盖机房管理、网络管理、资产管理、主机和应用管理、存储和备份管理、技术服务管理、安全管理、文档管理以及人员管理等类别。各类制度具体内容因需要而定,如网络管理制度需覆盖网络的接入管理、用户管理、配置管理及网络日常运行管理和应急处理等。安全管理制度需覆盖包括机房设施、网络、主机、数据库、中间件、应用软件、数据信息的安全管理、其他机密资源和人员的安全管理以及安全事件的应急处理等。
4.2运维技术服务平台
运维技术服务平台由运维管理系统、运维知识库构成。
(1)运维服务管理系统
运维流程管理系统的建立,可以使日常的运维工作有序化,职责角色清晰化,能够有效地提高解决问题的速度和质量,使运维部门内的相关支持信息更为畅通、透明、完整,实现知识的积累和管理,更好地进行量化管理和设定优化指标,进行持续地服务改进,最终提高整个运维工作的效率和质量。
(2)运维知识库建设
知识库建设是信息系统运维体系的重要组成部分,基于统一的技术支持平台,通过整合股份公司、分公司数据中心、合作单位和协作厂商的技术资源和解决方案,实现对全行有效的技术支持工作。
运行维护知识库由知识库平台和知识库内容两部分组成。知识库平台包括知识检索、知识维护与管理等,可以通过纯Web方式向服务请求对象提供基于Web的查询服务和检索服务,以完全共享知识库中的知识。
(3)运维辅助分析系统
以日常监控平台、运维响应中心、运维流程管理系统为基础,通过统计分析,了解运维服务能力与服务质量的现状,并可以进行趋势分析,为运维管理决策提供支持。
4.3运行维护管理流程
为加强对信息系统的运行维护管理,确保运行维护体系高效、协调运行,应依据运维管理环节、管理内容、管理要求制定统一的运行维护工作流程,实现运行维护工作的标准化、规范化和自动化。通过建立运维管理流程,可以使日常的运维工作流程化,职责角色更加清晰,从而使解决问题的速度和质量得到有效提高,实现知识积累和知识管理,并可以帮助运维部门进行持续的服务改进,提高服务对象的满意度。运行维护流程包含的环节有事件管理、问题管理、变更管理及配置管理。
(1)事件管理
所谓事件,是指发生的对IT体系某一环节运行造成影响的事件,包括系统崩溃、软件故障、任何影响用户业务操作和系统正常运作的故障、以及影响业务流程的情况,事件也包括一个用户的请求。
(2)问题管理
问题是指导致事件产生的原因,许多事件往往是由同一个问题引起的。问题的来源主要有以下几种:①已经处理的事件,经过回顾分析后,可能形成一个问题;②重大事件,虽然经过紧急处理恢复服务,但未找到根本原因,也形成一个问题;③对于趋势性事件的分析,并形成问题。
问题管理流程可以按照不同领域的问题由相关领域的技术支持专家来处理。要从发生的事件中找出事件的发展趋势或潜在可能发生的问题,主动提供预防性措施,提高系统可靠性,降低运维成本。
问题管理流程着重于消除事件或减少事件发生,确定事件的根本原因,其流程如下:首先,定期分析事件,找出潜在问题,调查问题以找出其原因,制定解决方案、变通方法或提出预防性措施,以消除产生原因,或在重发时使其影响力最小化。其次,记录解决方案、变通方法、预防性措施,根据需要添加到知识库中。再次,提出变更请求,对问题的解决方案进行评估,通过提出变更请求以对该方案进行测试和实施。最后,问题必须进行事后回顾以找出改进机会或总结预防性措施,包括改进事件监测、找出技能差距和文档资料改进等。
(3)变更管理
变更请求通常由于问题的解决方案中需要对生产环境进行某些改变而产生,变更请求来源于问题管理环节或由用户提交。变更管理通过一个单一的职能流程来控制和管理整个信息系统运行环境中的一切变更,范围可包括软件,硬件,网络设备和文档等的变更,其流程如下。
①由用户或问题管理环节的维护人员提出变更申请,由运维负责人检查和完善其内容,并进行风险等级、优先级的初步评估。
②通过分类,确定是否为重大变更、紧急变更,如果是常规变更请求,则由运维负责人安排实施;如果是风险等级为“重大”的变更请求,则应上报变更管理小组。
③根据特定的变更请求成立特定的变更管理小组,成员包括对该变更申请有批准权的人员、对该变更的评估和批准提供参考意见的技术人员和管理人员。评估内容包括变更的技术可行性、对系统性能的影响、对现有服务的影响、对资源的需求等。
④变更管理小组评估后决定是否批准变更申请。变更请求得到批准后,运维负责人安排相应资源进行变更的计划、测试,并制定实施方案,确定实施时间表,分配相应资源,通知请求人。
⑤相应岗位实施变更,运维负责人监视实施过程,并在必要时进行协调。
⑥定期回顾变更管理流程以提高效率和效能,在实施变更流程不久之后,可以进行第一次回顾,以确保流程得到正确实施并达到预期目的。对发现的问题必须追根溯源并尽快解决,之后可以定期举行回顾。
(4)配置管理
配置管理是服务管理的一个核心流程,能确保应用系统及其运行环境中所有IT设备/系统及其配置信息得到有效完整的记录和维护,包括各IT设备/系统之间的物理和逻辑关系,从而为实现有效服务管理奠定基础。
配置管理流程着重于管理生产环境中所有必须控制的组成元素,并为其他相关流程(如事件管理等)提供信息,使这些流程更有效地运行,从而确保应用系统环境的完整性和稳定性,其主要流程内容如下。
①识别和维护配置元素:确定需要进行配置管理的元素及所有必需的配置属性,并指明与生产环境中其他配置元素之间的关系。对配置管理数据库提供日常维护。
②配置状态汇总:根据需要定期产生配置管理报表,并能使相关人员进行相关配置的提取、查询,定期产生配置项的状态报告,并能反映配置项的版本和变动历史。
③审计和确认:定期审核全部或部分配置数据库中的配置项,确认其和物理环境的一致性,从而确保配置信息的完整性。
④计划、回顾和改进:定期制定计划(如半年),以明确下阶段配置管理工作;定期回顾流程和审核结果,找出需要改进的配置项。
4.4运维知识库系统
运维知识经验的总结、维护和共享是提高员工运维技能水平、增强单位凝聚力的重要手段,也是把宝贵的经验教训从支持人员头脑逐步沉淀、固化的重要方式。知识维护既要鼓励员工积极提交知识,防止知识库变成“空库”;同时又要及时进行审核和维护,防止知识库变为“垃圾库”。
(1)知识来源主要有以下几个方面:一是各级运维支持人员日常工作中积累的经验;二是知识管理员总结、导入的经验。知识管理员研究、获取外部的知识和经验后,定期或随时整理这些知识,导入到知识库中,供所有用户共享。知识的获取、维护是信息网络管理员的重要职责之一。
(2)知识提交审核。各个系统管理员提交知识到知识库之后,需要经过知识管理员的审查、修正,才变为正式发布状态,以减少知识中的谬误和差错。知识管理员定期(每季度一次)检查所有的正式知识,逐条进行核实、修正和优化。修正和维护操作与审核新提交知识草案过程相同。
(3)知识检索和使用。在知识变为正式的发布状态之后,可以供各类用户随时检索引用。用户可以研究学习这些知识,也可以在解决问题的过程中有目的地检索。知识记录维护用户阅读次数和用户引用解决问题次数的计数器,引用和阅读次数越多,该知识的价值越大。