IT运维之自动化运维

所谓自动化运维,即在最少的人工干预下,结合运用脚本与第三方工具,保证业务系统7*24小时高效稳定运行。这应该是所有业务系统运维终极目标。

按照运维的发展成熟度来看,运维大致可分为三个阶段:

  • 依靠纯手工,重复的进行软件的部署与运维;

  • 通过编写脚本,方便的进行软件的部署与运维;

  • 借助第三方工具,高效的进行软件的部署与运维;

我们对运维的要求通常是:

1、事前预警

         对各业务系统和底层的软硬件进行监控,以保证业务系统的正常运行。做到事前预警,避免故障来临,后知后觉。

   

2、事中解决

   天有不测风云,即使是再完美的方案也可能有预料之外的故障,为保证在最短时间内恢复业务,系统必须能快速定位故障点。并进行告警分派并解决

 

(三)、事后闭环

   这里更加强调运维管理的流程方法,针对已产生的告警进行告警分派,解决。形成告警的闭环管理。

 

要实现以上要求,需要一个经验丰富且高效的运维团队,随着我们的业务系统不断增加,业务量的不断上升,传统依靠纯手工的运维方式,逐渐被淘汰。

我们更多的将注意力集中在通过脚本与借助第三方工具的运维方式上,这样不仅能满足我们对运维的要求,解放生产力,还能使我们的运维管理更加规范化,标准化,从而真正意义上的实现自动化运维。

自动化运维的实现工具(脚本与第三方工具,通常这两者须结合使用。)

 

脚本(SHELL、DOC)

1、硬件状态监控:通过编写脚本,对CPU、MEM、DISK、TOPProcesses、Network等关键硬件参数状态进行实时监控,发现异常触发告警信息给管理员;

2、业务拨测:通过编写脚本对常用业务的网站实时进行拨测,发现网站页面异常触发告警信息给管理员;

3、系统安全加固:通过编写脚本对常用的Windows、Linux、Unix服务器进行快速的安全加固;

4、数据备份:通过编写脚本实现关键业务数据,关键日志,数据库,操作系统,中间件等的快速备份(本地与异地);

 

第三方管理工具(运维监控系统--PIGOSS BSM )

 

针对一些比较重要的业务系统,我们建议可以使用比较成熟的第三方运维监控工具。运维监控工具一般都能实现以上运维需求,而且管理操作起来也更加方便。

 

服务器监控

 

PIGOSS BSM可通过带外、带内方式对PC服务器、小机及刀箱底层硬件状态进行全面的监控,包括处理器、内存、硬盘、电源、风扇、温度、插槽等硬件状态和配置信息,代替管理员的日常机房巡检工作,使管理员实时了解到服务器底层硬件的运行情况

服务器监控

 

Oracle、虚拟化、AIX等专业的应用监控

 

PIGOSS BSM 对于Oracle的监控是汲取了专业的Oracle DBA的一线经验,把实际应用场景对于Oracle的关注信息沉淀到产品中,其中SQL-TOP排序、ORA错误日志等功能得到用户的极大认可,通过一体化视图呈现Oracle的整体运行状态。

虚拟化监控通过图形化方式构建出宿主机、虚拟机、虚拟网络、数据存储间资源使用情况,从全局到局部的一体化视图,便于用户直观全面了解当前虚拟化环境的健康状况。

数据库监控

 

业务大屏

 

PIGOSS BSM的业务大屏对各类业务系统,从基础网络、系统服务、中间件、数据库和存储设备多个层级进行全方位监控,为运维管理人员提供全局的业务健康度一览。业务雷达图及状态矩阵实时扫描各业务系统的最新告警及业务健康度,产出故障可直接追溯到最底层的告警源设备,便于运维工程师快速找到故障点。

业务大屏展现

第三方的运维工具是运维工作中不可或缺的一部分,如何构建适合自己的运维工具,每家的需求不一样,每个运维面对的痛点也不尽相同,但不管有什么需求,多少需求,万变不离其宗。运维监控的路上,我们一起前行。

 

 

解决方案