关于系统运维监控规范的几点建议和思考

随着各行业信息化建设的迅速发展,网络覆盖面也在不断扩大、应用系统广泛应用、软硬件数量大幅增加。

为了更好、更有效的保障系统上线后的稳定的运行。对于服务器的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和可持续的监测机制,统计分析每天的各种数据,从而能及时反映出服务器哪里存在性能瓶颈、安全隐患等。另外是要有危机意识,就是了解服务器有可能出现哪些严重的问题,出现这些问题后该如何去迅速处理。比如数据库的数据丢失,日志容量过大,被黑客入侵等等。

目前,国内多数行业已经为部分信息化资源建立了监控和运维管理系统,但运行维护系统中各种网络、系统、终端监控及安全工具都是面向设备的单方面分散管理,这无形中将本应一体化的信息系统安全运行工作进行了拆分,直接导致单一问题出现后多处报警、多方排查,浪费了大量人力,故障处理效率低下。

由此,对信息化资源的统筹咨询规划,应从技术和管理两方面入手,将目前信息化应用领域中所涉及的环境、设施、设备、软件、数据库等资源纳入统一的监控平台中来,并通过消除管理对象之间的差别、数据采集手段的差别、管理软件的差别,对各种不同数据来源实现统一管理、统一规范、统一处理、统一展现、统一用户登录、统一权限控制实现一个贯穿整个信息化系统全过程、实现规范化、自动化、智能化的信息化资源大运维的监控管理。

平台的设计要求

建设一个满足“集中监控、集中维护、统一管理、自动处理”的现代运营维护模式所需要的、面向业务的大运维管理体系,实现对信息化应用中各类资源的统一监控和管理,达到对整体安全运行状况的掌控及快速定位;整合第三方监控系统,提供覆盖网络、系统及应用服务等全方位监控的统一展现页面;汇总、压缩和关联各种设备或服务的告警信息,达到统一监控和展现的目的;综合评判告警信息形成的运维事件,实现事件流程的智能分析与事件全生命周期的管理。同时,将产生的事件形成完整的流程及记录,为信息化运维人员提供有价值的、准确的可用性信息。

在大运维平台上实现对系统运行状态的集中管理(主要包含主机设备、网络设备、存储设备、备份设备、数据库、中间件、操作系统、应用软件、机房动力环境等),具体体现在:

1、从网络内部进行集中网络性能分析,实现网络运行质量的量化管理;

2、实现对业务子系统应用软件关键点的监视和保障,确保系统的运行质量;

3、通过对业务子系统中各类告警信息的分析,进行故障的快速定位和告警功能;

4、建立运维管理知识库系统,实现知识交流与共享;

5、掌握业务子系统的资源配置信息;

6、采用高扩展性的分布式构架,便于对大型网络结构的处理。