PIGOSS TOC 智慧服务中心让告警管理更智能

现在的企业 IT 规模,软硬件都与以往有数十倍/上百倍递增。如何管理IT可用性和高效性,成为IT运维团队重要职责。为了保障高可用和高性能,现在企业基本上会用多个不同的监控工具,来实现基础IT设施、业务、应用系统等各个系统的监控。这些系统每天会产生数以万计的事件/告警,这些告警都需要去分析、优先级甄别、并执行预案操作。数以万计的告警如果不加任何策略的每条告警都发送,势必会增大运维人员的工作压力,当然也不是所有的告警都需要并且有必要发送给运维人员进行处理。

IT运维监控|运维监控系统|运维监控平台|智能运维|硬件监控|数据库监控|存储监控

举个例子:

假设某企业的IT环境中的某个底层基础设施,如网络或存储设备出现异常,相关联的主机、中间件数据库、应用程序,业务服务等都会受到影响。当监控系统探测发现这些问题的话,会瞬间(数十秒)产生大量的告警事件,而且这些事件随着时间的推移不断的发生,假设都加入通知提醒的话,邮箱瞬间爆满。实际上,随着规模化和复杂度增加,这些现象经常性发生。而我们不必要每条告警信息逐一解决,只需解决根本的硬件设施故障或网络设备问题即可。


当大量的告警信息频发骚扰我们运维人员,会引发告警疲劳,体现为不重要的事件太多,最根本的问题较少,频繁处理普通事件,重要的信息淹没在汪洋大海中。智能运维服务平台 PIGOSS TOC 在处理告警方面借助各种告警智能压制策略设置 ,最终实现告警降噪。


TOC平台对接多个子系统的告警,针对各子系统会有定期或不定期变更的情况,容易产生大量告警误报,平台提供了灵活配置的告警勿扰、屏蔽及智能压缩规则。比如:有些系统产生的告警需要7x24告警管理服务,有些系统只需要5x8告警管理服务。另外针对网络环境中因为一个问题而导致大面积故障的现状,可以利用TOC的告警压制策略抑制告警风暴,让用户把精力放在最重要的问题处理上。


运维监控