案例|银行一体化运维解决方案---运维监控系统PIGOSS

中国银行某分行其主要业务面向个人客户及企业客户,给个人客户提供账号服务、投资服务,给企业客户提供账户查询、境外账户管理、代发工资/代理报销、集团理财等。随着该分行的业务发展和信息化建设的不断深入,在主机系统、网络系统、操作系统、数据库和应用软件等IT系统的数量和类型不断增加,使分行的信息系统的管理维护工作日趋复杂,对信息系统的稳定性、可靠性提出新的更高的要求,同时对信息系统的风险评估工作也日趋复杂化。


目前该分行需要监控的IT系统有多台包括Linux操作系统、AIX操作系统,Windows server 操作系统等在内的多种系统的主机,Oracle数据库,中间件包括MQ、tomcat、WebLogic等等。由于设备数量众多,无法做到实时监控,只能采用运维人员每天多次手工登录查询错误日志的管理方式监控,这些手段操作复杂,技术要求高。由于缺乏统一的、直观的监控方法,加之人为因素的影响,对及时发现系统安全隐患和解决问题的时效性方面,都造成一定的时间滞后,给IT系统的安全稳健运行带来了极大的风险。


因此,如何更有效地利用现有的IT系统资源,建立高效、规范的一体化信息系统监控管理体系,保证系统可靠性,预防突发事件发生,查找系统性能瓶颈,提高系统运行效率和IT运维服务水平,确保IT系统的稳定、安全运行是目前该分行运维工作面临的问题和考验。该分行表示想通过使用专业的监控和运维管理软件,对IT整体系统进行有效、实时监控与预警,及时发现IT系统的安全隐患,这样有助于解决IT系统存在的安全隐患和漏洞。


项目建设目标

首先实现对IT基础设施包括主机,数据库,中间件等的性能及可用性监控、根据该分行的实际需求,并结合行业最佳实践,构建全面、规范、高效、稳定的IT运维管理平台。通过对监控数据的归集和分析,预先发现故障隐患,提前采取措施,变被动式管理为主动式管理,提高IT系统服务管理水平。


根据ITIL的原理,在充分分析该分行运维工作现状和业界成熟运维管理技术的基础上,借鉴其他银行的成功经验,本着高起点、高标准、总体设计、分步实施的原则,确定总体建设目标:


  • 全方位的硬件监控,支撑上层业务

    监控系统不仅能采集硬件状态信息,还能对硬件报错日志进行抓取,分析;快速定位故障,保障银行核心业务的运行

  • 建立集中的监控管理平台

    监控系统负责收集和处理各类告警信息,并对告警信息做根源分析。帮助运维人员快速定位告警位置点

  • 统一的监控管理界面和多样的告警方式:

    通过美观、布局合理的图形化界面集中反映网络、系统、数据库和应用的实时状态,通过多种方式进行告警

  • 丰富的数据报表分析功能

    系统能够根据工作需要产生标准格式报表,并能够按条件生成和调整各类报表,以满足IT系统管理及科技风险审计评估等多种需求。


全方位的硬件监控


服务器的硬件好坏,对银行业务来说是至关重要。

BSM通过带外、带内方式对服务器硬件状态进行全面的监控。包括处理器、内存、硬盘、电源、风扇、温度、插槽等硬件状态和配置信息,代替管理员的日常机房巡检工作,使管理员实时了解到服务器底层硬件的运行情况,此种监控方式不通过操作系统,即使系统关机的状态下仍可监控服务器的基本硬件健康状况。

BSM硬件监控

BSM通过仪表盘、曲线图等可视化的方式展现被监控资源的主要指标状态,如主机系统、云计算、weblogic中间件、数据库等等。

BSM监控操作系统



建立集中的监控管理平台

BSM收集和处理系统中的各类告警信息,并进行告警信息的根源分析,帮助运维人员找出故障发生的原因,快速定位故障点;并通过已设置的策略进行告警通知与分派。形成告警的闭环管理。

告警列表


统一监控管理界面和多样的告警方式

BSM的大屏展现以图形化的方式多角度全方位实时监控各资源和业务的健康状态。
业务大屏以动态模式为管理者提供全局业务健康度一览。业务健康度视图结合PIGOSS BSM核心算法以动态扫描的方式清晰的呈现业务的层级结构以及故障点信息。扫描到的业务区域能够提供健康度信息、业务依赖的资源信息以及告警信息。业务矩阵图能够呈现海量业务运行状态,以颜色动态变化来反应业务的实时状态。趋势对比图则展现了核心指标的运行信息。从整体到局部,PIGOSS BSM的业务大屏无疑通过管理者的视角为业务进行了一次健康体检!主要通过短信、邮件,声音,微信等多种不同的方式进行告警。
大屏展现

丰富的数据报表


BSM内置了二十多套报表模板,用户可以根据自己需求设置不同报表。灵活选择需要统计的对象和时间段,并在预定时间段内自动发送统计报表到指定接收邮箱中,让运维人员无需操作系统页面也能及时了解到自己关注的信息。

运维报表