迅闻网
让更多人看到你

运维培训计划(运维流程)

  运维培训计划

IT运维服务内容
IT运维服务流程
IT运维服务办理制度标准
IT运维应急服务呼应办法
一、服务内容
1.1服务方针
作业保护服务包含,信息体系相关的主机设备、操作体系、数据库和存储设备及其他信息体系的作业保护与安全防备服务,保证用户现有的信息体系的正常作业,下降全体办理本钱,进步网络信息体系的全体服务水平。一起依据日常保护的数据和记载,供给用户信息体系的全体建造规划和主张,更好的为用户的信息化发展供给有力的保证。
用户信息体系的组成主要可分为两类:硬件设备和软件体系。硬件设备包含网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作体系软件、典型运用软件(如:数据库软件、中间件软件等)、事务运用软件等。
经过作业保护服务的有效办理来提升用户信息体系的服务效率,和谐各事务运用体系的内部运作,改善网络信息体系部门与事务部门的交流,进步服务质量。结合用户现有的环境、组织结构、IT资源和办理流程的特色,从流程、人员和技能三方面来规划用户的网络信息体系的结构。将用户的作业方针、事务需求与IT服务的相和谐一致。
信息体系服务的方针是,对用户现有的信息体系根底资源进行监控和办理,及时掌握网络信息体系资源现状和装备信息,反映信息体系资源的可用性状况和健康状况,创立一个可知可控的IT环境,从而保证用户信息体系的各类事务运用体系的可靠、高效、持续、安全作业。
服务项目规模掩盖的信息体系资源以下方面的要害状况及参数方针:
作业状况、毛病状况
装备信息
可用性状况及健康状况功用方针
计算运维数椐、供给信息体系办理和作业陈述、概括总结并供给用户想了解的数椐陈述
1.2信息资产计算服务
此项服务为根本服务,包含在作业保护服务中,协助我们对用户现有的信息资产状况进行了解,更好的供给体系的作业保护服务。
服务内容包含:
硬件设备类型、数量、版本等信息计算记载
软件产品类型、版本和补丁等信息计算记载
网络结构、网络路由、网络IP地址计算记载
综合布线体系结构图的绘制
其它附属设备的计算记载
硬件设备清单计算
1.3网络、安全体系运维服务
从网络的连通性、网络的功用、网络的监控办理三个方面完成对网络体系的运维办理。网络、安全体系根本服务内容:
序号
服务模块
内容描绘
供给方
1
现场备件装置
配合用户进行,按备件抵达现场时刻工程师抵达现场
2
现场软件晋级
首要剖析软件晋级的必要性和危险,配合用户进行软件晋级
3
现场毛病确诊
按服务等级:7×24小时
5×8小时
4
电话远程技能支撑
7×24小时
5
问题办理体系
对遇到的问题进行汇总和发布
网络中心交流机巡视典型作业计划书
(1)用户现场技能人员值守
依据用户的需求供给长期的用户现场技能人员值守服务,保证网络的实时连通和可用,保证接入交流机、汇聚交流机和中心交流机的正常作业。
现场值守的技能人员每天记载网络交流机的端口是否能够正常运用,网络的转发和路由是否正常进行,交流机的功用检测,进行全体网络功用点评,针对网络的利用率进行优化并提出网络扩容和优化的主张。
现场值守人员还进行安全设备的日常作业状况的监控,对各种安全设备的日志查看,对重点事情进行记载,对安全事情的产生原因进行判别和处理,及时发现问题,防患于未然。
一起能够对设备的作业数据进行记载,构成报表进行计算剖析,便于进行网络体系的剖析和毛病的提早预知。详细记载的数据包含:
装备数据
功用数据
毛病数据
(2)现场巡检服务
现场巡检服务是对客户的设备及网络进行全面查看的服务项目,经过该服务可使客户取得设备作业的榜首手资料,最大或许地发现存在的危险,保证设备安稳作业。
一起,将有针对性地提出预警及处理主张,使客户能够提早防备,最大极限下降运营危险。

 

运维
巡检包含的内容如下:
编号
巡检内容
1
硬件作业状况查看项目
单板状况查看
电源模块状况查看
风扇状况查看
整机指示灯状况查看
机框防尘网查看
机房温度、湿度查看
设备地线查看
2
软件作业状况查看项目
设备作业状况查看
网络报文剖析
设备对接作业状况查看
路由作业状况查看
3
网络全体作业状况查询
网络作业问题查询
网络变更状况查询
网络前史毛病查询
(3)网络作业剖析与办理服务
网络作业剖析与办理服务是指工程师经过对网络作业状况、网络问题进行周期性查看、剖析后,为客户提出指导性主张的一种综合性高级服务,其内容包含:
服务内容
服务优点
向客户供给网络专家电话号码。
保证严重问题榜首连线至网络专家。
网络专家组每周与客户进行不少于2小时的电话技能交流
以最小本钱保证及时解答客户关心的技能问题,并就某一领域技能问题展开深层次交流。
每月向客户提交CASE汇总剖析陈述,并可扩展到每年17次(月度、季度、年度)
使客户了解网络前史毛病状况以及毛病防备主张,最大程度削减网络毛病危险,更高效的进行网络办理。
(4)重要时刻专人值守服务
保证重要时刻设备安稳作业对客户成功尤为要害,因此,可对客户供给重要时刻的专人现场值守支撑,包含政府客户的严重会议期间、金融客户的年终结算日、运营商客户的出产网严重割接或其它任何客户认为或许对其事务运营产生严重影响的时刻。
如需专人值守,客户需至少提早3周与授权服务商客户服务司理联系。对每位合约客户,授权服务商均需按事前合同约好供给专人值守服务。客户如需超出合同约好规模的更多值守支撑,需额定支付相应人力和差旅费用。
1.4主机、存储体系运维服务
主机、存储体系的运维服务包含:主机、存储设备的日常监控,设备的作业状况监控,毛病处理,操作体系保护,补丁晋级等内容。
主机存储体系根本服务内容:
序号
服务模块
内容描绘
供给方
1
现场备件装置
配合用户进行。按备件抵达现场时刻工程师抵达现场
2
补丁服务
消除软件漏洞给体系带来的安全危险,并对装置补丁所引起的体系连锁反应进行合理的平衡。
3
晋级服务
对体系进行软件或硬件的晋级,以改进、完善现有体系或消除现有体系的漏洞。
4
现场毛病确诊
按服务等级:7×24小时
5×8小时
5
电话远程技能支撑
7×24小时
6
问题办理体系
对遇到的问题进行汇总和发布
7
体系优化
对客户体系的括主机、存储设备、操作体系、供给优化服务。
现场值守人员可进行监控办理的内容包含:
CPU功用办理;
内存运用状况办理;
硬盘利用状况办理;
体系进程办理;
主机功用办理;
实时监控主机电源、风扇的运用状况及主机机箱内部温度;
监控主机硬盘作业状况;
监控主机网卡、阵列卡等硬件状况;
监控主机HA作业状况;
主机体系文件体系办理;
监控存储交流机设备状况、端口状况、传输速度;
监控备份服务进程、备份状况(起止时刻、是否成功、犯错告警);
监控记载磁盘阵列、磁带库等存储硬件毛病提示和告警,并及时处理毛病问题;
对存储的功用(如高速缓存、光纤通道等)进行监控。
小型机体系巡检典型作业计划书
体系办理单位:
设备名:
设备类型
设备序列号
办理IP:
查看内容
参考标准
查看成果
状况是否正常
巡检办法描绘
巡检周期
硬件作业状况
1.5数据库体系运维服务
数据库作业保护服务是包含主动数据库功用办理,数据库的主动功用办理对体系运维非常重要。经过主动式功用办理可了解数据库的日常作业状况,辨认数据库的功用问题产生在什么地方,有针对性地进行功用优化。一起,密切注意数据库体系的改变,主动地防备或许产生的问题。
数据库作业保护服务还包含快速发现、确诊和处理功用问题,在呈现问题时,及时找出功用瓶颈,处理数据库功用问题,保护高效的运用体系。
数据库作业保护服务,主要作业是运用技能手段来达到办理的方针,以体系最终的作业保护为方针,进步用户的作业效率。
详细数据库作业保护监控的根本服务内容包含:
序号
服务模块
内容描绘
供给方
1
Oracle数据库
7*24电话支撑服务
每周7天,每天24小时支撑中心电话,电子邮件答询,以满意事务发展的需求。
Oracle产品技能专家直接同客户对话,协助处理客户提出的疑问问题。
依据问题的严重程度,将优先处理客户认为是要害而紧迫的使命。
对客户提出的一般性问题进行技能咨询、指导。
定时的客户办理陈述,防止问题再度产生。
2
Oracle数据库产品
现场服务呼应
数据库宕机
数据坏块
影响事务不能进行的产品问题
软件产品的更新及保护。
3
Oracle数据库产品
体系健康查看
对体系的装备及运作结构提出主张,以协助您得到一个更坚强可靠的运作环境
下降体系潜在的危险,包含数据丢掉、安全漏洞、体系崩溃、功用下降及资源严重
查看并剖析体系日志及盯梢文件,发现并排除数据库体系过错危险
查看数据库体系是否需求运用最新的补丁集
查看数据库空间的运用状况
协助进行数据库空间的规划办理
查看数据库备份的完整性
监控数据库功用
承认体系的资源需求
清晰您体系的才能及缺乏
优化OracleServer的体现
经过改善体系环境的安稳性来下降潜在的体系宕机时刻
4
Oracle数据库产品
功用调优
剖析用户的运用类型和用户行为
点评并修正ORACLE数据库的参数设置
点评并调整ORACLE数据库的数据分布
点评运用对硬件和体系的运用状况,并提出主张
利用先进的功用调整工具施行数据库的功用调整
训练用户有关功用调整的概念
供给用户完整的功用调整陈述和处理办法
1.6中间件运维服务
中间件办理是指对BEAWeblogic、MQ等中间件的日常保护办理和监控作业,进步对中间件渠道事情的剖析处理才能,保证中间件渠道持续安稳作业。中间件监控方针包含装备信息办理、毛病监控、功用监控。
履行线程:监控WebLogic装备履行线程的闲暇数量。
JVM内存:JVM内存曲线正常,能够及时的进行内存空间回收。JDBC衔接池:衔接池的初始容量和最大容量应该设置为持平,而且至少等于履行线程的数量,以防止在作业进程中创立数据库衔接所带来的功用消耗。
查看WEBLOG日志文件是否有反常报错
如果有WEBLOG集群装备,需求查看集群的装备是否正常。
二、运维服务流程
主张用户选用的服务方法为两种:一种为技能人员现场值守,另一种是定时巡检结合毛病现场服务。
技能人员现场值守作业保护服务的根本操作流程如下图所示:
定时巡检结合毛病现场作业保护服务的根本操作流程如下图所示:
三、服务办理制度标准
3.1服务时刻
(1)接纳服务恳求和咨询:在5*8小时作业时刻内设置由专人职守的热线电话,接听内部的服务恳求,并记载服务台事情处理成果。
(2)在非作业时刻设置有专人7*24小时接听的移动电话热线,用于处理内部的技能问题以及接听7*24小时机房监控人员的机房突发状况报告。
(3)服务呼应时刻:
毛病等级
呼应时刻
毛病处理时刻
I级:归于紧迫问题;其详细现象为:体系崩溃导致事务间断、数据丢掉。
30分钟,2小时内提交毛病处理计划
12小时以内
II级:归于严重问题;其详细现象为:呈现部分部件失效、体系功用下降但能正常作业,不影响正常事务运作。
30分钟,2小时内提交毛病处理计划
24小时以内
III级:归于较严重问题;其详细现象为:呈现体系报错或正告,但事务体系能持续作业且功用不受影响。
30分钟,2小时内提交毛病处理计划
48小时以内
IV级:归于一般问题;其详细现象为:体系技能功用、装置或装备咨询,或其他明显不影响事务的预约服务。
30分钟,2小时内提交毛病处理计划
5天内
技能支撑人员在处理毛病时,会最大极限保护好数据,做好毛病康复的文档,力求康复到毛病点前的事务状况。
关于“体系瘫痪,事务体系不能作业”的毛病等级,如果不能于12小时内处理毛病,将在16小时内提出应急计划,保证事务体系的作业。毛病处理后24小时内,提交毛病处理陈述。阐明毛病品种、毛病原因、毛病处理中运用的办法及毛病丢失等状况。
3.2行为标准
(1)遵守用户的各项规章制度,严厉依照用户相应的规章制度就事。
(2)与用户作业保护体系其他部门和环节协同作业,密切配合,一起展开技能支撑作业。
(3)呈现疑问技能、事务问题和严重紧迫状况时,及时向负责人陈述。
(4)现场技能支撑时要精神饱满,穿着得当,谈吐文明,举动庄重。接听电话时要文明礼貌,语言明晰明晰,语气和善。
(5)遵守保密准则。对被支撑单位的网络、主机、体系软件、运用软件等的暗码、中心参数、事务数据等负有保密责任,不得随意复制和传播。
3.3现场服务支撑标准
运维服务人员要做到耐性、仔细、热心的服务。作业要做到事事有记载、事事有反应、严重问题及时报告。严厉遵守作业作息时刻,严厉依照服务作业流程操作。
(1)现场支撑工程师应着装整齐、言行礼貌大方,技能专业,操作娴熟、谨慎、标准;现场支撑时必须遵守用户单位的相关规章制度。
(2)现场支撑工程师在进行现场支撑作业时必须在保证数据和体系安全的前提下展开作业。
(3)现场支撑时呈现暂时无法处理的毛病或其他新的毛病时,应奉告用户并及时上报负责人,寻觅其他处理途径。
(4)毛病处理后,现场支撑工程师要详细记载问题的产生时刻、地址、提出人和问题描绘,并构成书面文档,必要时应向用户介绍毛病呈现的原因及防备办法和处理技巧。
3.4问题记载标准
依据运用人员提出问题的类别,将问题分为咨询类问题和体系缺点类问题二类:咨询类问题是指经过服务热线或现场解疑等方法能够当场处理用户提出的问题,具有问题解答直接、快速和实时的特色,该问题到现场支撑人员处即可间断,关于该类问题的记载可运用咨询类问题记载模版进行记载。体系缺点类问题是指运用人员提出的问题涉及到体系相应环节的承认修正,需求经过逐级提交、确诊、承认、处理和回复等环节,处理处理需求项目组的剖析承认,问题有处理计划后,将处理计划反应给用户。详细提交流程如下:
(1)问题提交。运用信息体系的用户发现归于体系缺点类的问题时,填写体系缺点类问题提交单,提交服务支撑中心。
(2)问题剖析。服务中心接到用户提交的问题单,要组织相应人员对问题单中描绘的问题进行剖析研判,承认问题的类型(技能问题、事务问题或许操作问题)。
归于技能问题,提交服务中心技能人员对存在的问题提出详细的处理意见和主张;归于事务问题,提交服务中心事务人员进行处理;归于操作问题,可安排相关人员对问题提出人进行解释,并将体系缺点类问题提交单转为体系咨询类问题提交单。
(3)问题承认、处理。服务中心的技能人员和事务人员收到体系缺点类问题提交单后,对提交的问题进行归类汇总和剖析、承认。
能够处理的,清晰问题处理的详细处理主张和办法,经主管领导签字赞同后,交施行人员进行处理计划的施行。服务人员承认是否处理,并将处理办法附在体系缺点类问题提交单上反应给问题提出人员。
(4)问题上报。服务人员收到经事务或技能人员承认的体系缺点类问题提交单后,上报服务中心。
(5)问题回复。服务中心依据提交问题的进行剖析,拟定处理计划并进行施行的处理,一起做好变更记载。将处理计划汇总后及时向问题提交单位或问题交办单位作出回复,并将剖析进程和问题产生原因一起提交。
四、应急服务呼应办法
针对项目拟定了翔实的规划、应急处理预案,整个流程谨慎而有序。可是,在服务保护进程中,意外状况将难以完全防止。
下面,我们将对项目施行的突发危险进行详细剖析,而且针对各类突发事情,规划了相应的防备与处理办法,一起供给了完整的应急处理流程。
4.1应急根本流程
保护服务应急处理流程
4.2防备办法
针对上门服务进程中或许遇到的各式各样的危险,针对一些或许呈现的状况,拟定了一系列防备处理办法,举例如下:
类型
事情
防备办法
处理
运用软件
无法发动软件可履行文件
上门人员提早预备好各类需保护软件装置程序
将运用软件数据文件备份后,重新装置
软件翻开进程中或作业中反常过错封闭
上门人员预备好装置程序,操作体系优化和修补软件,查杀病毒软件
判别犯错原因,备份数据,采纳相关修正办法
操作体系
运用者本机操作体系反常或体系资源占用严重
预备好体系查看程序及修补程序,以及查杀病毒软件
奉告运用者过错原因或许类型,提出处理计划,经运用者认可后采纳相应办法
B/S结构体系,IE浏览器反常或无法下载控件
预备流氓软件整理程序、修正浏览器软件、查杀病毒软件
查看IE浏览器选项设置,剖析原因进行修正
网络或服务器
B/S结构体系网络流量反常或服务器登录反常
判别服务器是否反常,不然预备杀毒软件
查看网络流量,流量反常小则报修网络服务商,流量反常大则查杀病毒
4.3突发事情应急战略
体系运维应急计划是对中断或严重影响事务的毛病,如宕机、数据丢掉、事务中断等,进行快速呼应和处理,在最短时刻内康复事务体系,将丢失降到最低。
在体系保护进程中,突发事情的呈现将是很难完全防止的,针对这种状况,规划了完善的突发事情应急战略。
体系巡检人员要定时标准查看各硬件设备的作业状况和运用软件作业状况,一起做好日常的数据增量备份和定时全备份。
对发现的问题在报各级负责人的一起,要和谐相关资源剖析问题本源,承认处理计划和暂时处理办法,防止造成更大的影响。问题得到安稳或彻底处理后,要构成问题报告,防止今后相似严重紧迫状况的产生。
对发现的问题在报负责人的一起,要和谐相关资源剖析问题本源,承认处理计划和暂时处理办法,防止造成更大的影响。问题得到安稳或彻底处理后,要构成问题报告,防止今后相似严重紧迫状况的产生。
当得悉呈现突发事情时,技能支撑人员能够立即从知识库中获取相应的应急战略,并综合用户方的详细状况,给出相关处理计划,然后在榜首时刻以电话、邮件支撑或现场服务的方法协助用户处理问题,尽最大努力减小突发事情对用户日常运用的影响。

运维流程

做为体系接口与其他人物的作业衔接。并供给批阅环节操控发布改变的危险。流程办理东西并不担任具体的事务操作的履行,仅仅作为单据体系盯梢流程和确保闭环。
2.告警和突发办理东西
表现事务受损的告警主动建单办理。人工承认之后晋级为突发单。经过建单来办理告警和突发确保流程的闭环,以及每次毛病都能够总结出经历,并为度量事务的可用性供给KPI。
2、运维发布改变东西
1.版别办理东西(数据库)
一切的发布应该以版别办理为起点。研发给的版别包先入版别办理东西,再从版别办理东西分发到现网发布。杜绝rsync一台服务器发布另外一台的做法。
2.装备办理东西(数据库)
版别加装备等于现网每台机器的情况。最粗粒度的装备办理是到IP等级,相当于对机器做资产办理,分组到不同的事务,模块和大区等事务概念上。细粒度一点会办理到进程以及进程的相关装备。
3.装备和版别下发东西
把指定的版别,结合装备好的装备下发到现网的机器上。不同的版别和装备方法需求完全不同的下发方法。以ssh/fabric为代表的下发方法是以脚本为中心的。以puppet/chef为代表的下发方法是以装备为中心的。
4.现网情况同步东西
为了规避现网情况漂移,与办理东西内的记载不一致。需求有一个东西守时上报现网的实际情况。
5.服务调度东西
发布改变常常需求一个串行的流程,先做A模块,再做B模块。许多机器的时候,需求把能并发的操作并发履行,不能并发的操作确保串行履行。一起许多发布改变流程需求操作办理规模外的服务,比方云端的DNS服务器记载等。这就需求有一个服务调度东西一致调度装备和版别下发东西,流程单据东西,以及其他体系的API接口共同组装成一个流程。
6.资源办理和隔离东西
以xen/kvm为代表的东西让运维能够更灵活的切开资源。比方虚拟机的快速起停,ip在idc内的漂移等。以lxc/docker为代表的东西让运维能够进一步的切开资源到进程等级。资源隔离代理的细粒度的资源操控能够取得更好的资源利用率,以及更简略进行可伸缩的资源装备。
7.发布改变一致界面
包装一切的基层东西,供给简略的界面完成标准化的发布改变操作。
3、运维监控告警东西
1.搜集东西
一般是搜集日志文件,也能够是守时轮询DB或许其他体系的接口。盛行的开源计划是logstash。
2.搜集东西
搜集东西上报给搜集东西。或许由开发直接修改代码上报目标给搜集东西。流程的开源计划仍是logstash。
3.计算入库东西
上报可能是每次调用就上报一次,计算东西担任计算出一分钟内的次数。上报也可能是每5秒上报一次数值,计算东西担任计算出一分钟内的最大值。计算东西的存在是为了上报的便利。盛行的开源计划是statsd,也有大公司根据storm来做二次开发的。
4.时刻序列数据库
一切守时目标会落地到数据库里。监控告警所需求的数据库需求能够支撑非常大的数据量,可是并没有很严厉的ACID要求。
5.运维事情数据库
记载一切的告警。包括从其他体系取得告警,以及对现网的一切改变操作记载。这些数据用于支撑告警的原因定位。
6.目标反常检测东西
根据数学模型发现目标是否与过去的稳定形式背离,而估测呈现网情况的改变。
7.拨测东西
守时PING或许HTTPGET,模拟实际用户发现服务是否中止,产生告警。一起也产生目标上报给搜集体系。拨测又分为本地拨测,和长途拨测。本地拨测能够用于发现磁盘只读等本机告警。长途拨测能够模拟用户的地理分布,把网络的链路情况也包含在拨测覆盖的规模内。
8.告警收敛东西
综合一切来历的告警,进行频率收敛,根源分析。一致汇总成陈述催促人工修正。
9.告警主动修正东西
接受告警进行主动化的处理。帮运维完成固定的毛病机下架退库等操作。或许在事务自身没有做高可用的情况下,做毛病机替换,ip漂移等现网修正操作,必定程度地提高事务可用性。
10.告警告诉东西
重要的告警需求晋级为电话。需求有高可用的电话,短信,微信等告诉接口。
11.监控告警一致界面
屏蔽基层各种东西,供给一致的agent装置,目标搜集设置,目标曲线展现,告警查询的界面。从一个地方就能够知道现网的一切问题。

未经允许不得转载:迅闻网 » 运维培训计划(运维流程)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

迅闻网-让更多人看到你

登录/注册返回首页