运维伤心史:日志监控真的很重要

   随着互联网+的不断升温,中国的互联 网企业像雨后的春笋,不断的崛起。同时,IT运维已经成为众多互联网企业的热点,业务不断增长,系统不断增加,企业的IT运维也变的越来截止复杂,IT运维人员的工作越来越大,我也是目前IT团队面临的很大的一个问题。

   更糟糕的是在公司里面,IT运维通常都被认为是打杂的、吃力不讨好的工作。而一般这样的公司,他们的内部IT运维一般都不会太好,甚至有可能会一团乱糟。首先,多运维工作的性质来说,在哪个公司IT运维都是一个服务型岗位,如果连IT运维都搞不好,肯定会影响公司的发展。

   比如下面这个问题:(一个运维监控者的伤心史)
   上个月的一天,监控突然报警某linux 主机网卡流量异常,直接把网卡打满了,然后出口流量也被打满 基本一个网段都快完了。马上去服务器上检查,直接断掉这个服务器,苦命的检查了半个多小时,发现是被人攻击了。删掉木马程序也不行。后来把目录权限给限制了不让写才解决问题,但是怎么出现的问题呢?最后看了下tomcat的目录 居然有web shell 在上面。检查服务器的ssh 日志 发现已经被尝试密码好几个月了。 这个主机为购买的系统,联系厂家重新安装软件。
   
大家来讨论问题是:

   1、日志监控真的有那么重要吗?

   2、大家都在使用什么日志分析软件?

   3、有什么更好的办法来解决这种问题?
   

1)日志对于运维来说太重要了,排查问题首先就要从日志着手,还有诸如安全审计等。

2)之前基本还是人肉的方式查问题,效率太差了,还有就是使用自动化的运维监控工具类似 PIGOSS BSM这种运维监控工具省去了烦锁的安装步骤,即插即用。避免软件与被监控主机出现的各种不兼容。

3)如果是想把问题解决在出现之前,最好的办法还是使用这种自动化的运维监控工具。可针对不同监控需求定向开发。

4)日志虽然是事后诸葛亮,但作用还是非常大的,遇到攻击,异常等,首先想到的应该是分析日志,如果日志也被删除了,这个系统基本上是 无可救药啦。对于重要的系统,如果机器够用的话,最好有独立的日志服务器,这样遇到攻击时,也能保证日志不被删除。

5)有一些出色的运维工程师都是使用自己手写的分析程序,两分钟分析一次,跟防火墙联动,遇到攻击特征的字符串就自动封IP或者限制连接数,相当于一个手动的UTM,防火墙造价太高,并且不一定能适合我们的应用,所以最好的还是自动化的运维监控工具,现在很多有运维监控工具都支持日志分析。

6)不定时分析日志,肯定是运维的失误,不仅是网站的日志,像登录日志,信息异常,secutrity日志等,必须每天过滤一遍,重要的系统最好几分钟就来一次,遇到问题及时报警。