400-015-1698

某互联网CDN运营商的集中监控方案

2017-09-05 10:46:42 | PIGOSS

案例:某互联网CDN运营商的集中监控方案

案例所属行业:互联网服务

项目实施时间:2005年3月 - 2007年5月

   1 项目背景和目标

某互联网应用服务商是在国内主要的CDN运营商,经过国家信息产业部正式批准开展CDN业务的首家企业。到目前为止在国内拥有300多个节点,全网用户覆盖国内外的主要ISP厂商(电信、网通、联通、移动、教育网等),数百个国内外internet频道,总带宽超过30G。

通过对某互联网应用服务商业务发展和网络规模扩张的了解和需求调研,在网络管理和硬性支撑等方面发现了一些急待缓解的现象如下:

• 缺乏完整的网管方案,主要通过一些免费软件和自主研发的软件进行监控,分散的监控之间没有联系;

• (资源管理)对遍布全国各地的网络/主机资源,缺乏统一集中管理的手段;

• 缺乏网络/服务的宏观监控机制,不能准确了解各个区域节点设备和服务的整体运行情况;

• 为每个客户的提供的多种服务都分散在全国44个节点同时运转。 而现有的各种监控工具太零散、难以建立以客户为中心的数据相关性,管理效率低下,投诉率高。急需建立基于客户服务的管理平台。

• 缺乏服务品质管理机制,难以量化网络故障对不同客户的影响,不能确保最终用户/客户满意度;

• 监控人员工作量巨大,大部分工作时间用于发现网络故障和基于bbs的case系统;

• 缺乏详实的历史数据作为网络规划和业务扩展的基础依据;

• 缺乏良好的事件、故障收集机制,不能将发生的时间、故障存储备案;

• 运维人员只能在工作岗位监控网络,缺乏灵活、迅速的反应手段(如在家或其他任何地方进行网络监控);

• 故障协调处理基于BBS方式,不能保证故障得到及时通知和解决;

   2 项目规模

  此项目建设一共分四期,前后大约持续了2年多的时间,2007年基本完成。项目的建设早期就提出了分散监测集中汇聚的设计目标,从早期的1个汇聚和10多个分散节点监控工具的规模,发展到2007年2个汇聚和70多个分散节点监控工具的规模。集中监测的设备大约6000多台设备,并集中管理了大约1万个左右的页面监测。

 

   3 方案部署

 

QQ截图20140526171156.jpg

 

   4 项目实际运行效果

(1)拥有比较合理的而且实用的集中管理架构。利用合理的拓部结构和可以自由建立的依赖关系将通常孤立管理的网络、系统、网络应用综合起来,还原其原本相互依赖的管理关系。提供了一个从客户、服务、应用、系统、网络、设备等多角度多层次综合监控和管理的手段。具有科学的系统结构。

(2)能够实现分布探测集中告警。分布探测模式符合用户网络的拓补结构,能够取得更加真实有效的探测数据,有利于网络运维中定位问题。集中告警有利于对各项不同的服务告警进行统一分析。

(3)实现了以客户服务为中心的管理模式,实现全网上万个URL、DNS服务的集中监控,网络出现问题能及时体现对客户服务的影响。整体轮训效率从30分钟提高到3分钟。

(4)提供了较多的相关性分析规则,可以实现对多种报警之间的内在联系性的分析,将相同告警合并处理,从而减轻了监控工程师和运维工程师的工作量。

(5)系统设计的多种实时监控工具、多种性能预警的规则配置工具、多种故障智能分析机制都比较灵活,符合运维日常的工作习惯和管理逻辑。实现了大量常规工作和人工分析的自动化。

(6)系统平台的开放性:多种形式配置和定制都相当灵活。甚至以前自行开发的工具脚本和已有的第三方工具所提供的信息也可以集成到汇聚平台中,作为一个被管理对象,实现集中统一管理。以后随着公司业务和网络的扩展,也比较容易在我们提供的汇聚平台实现综合管理的同步扩展。通过对其扩展及定制机制的详细了解,对于日后增加新型监控项目(包括新增节点、客户、设备、系统、服务等)网络结构调整、报表格式更改等需求变化,整个系统所要作的调整都不复杂,甚至可以通过培训客户自行完成上述调整工作。

(7)拥有较为专业成熟的CASE处理流程,将报警系统和CASE系统连接在一起,并且可以做到责任到人、自动通知和提醒,并在此基础上形成了一个知识库,可以对以往处理的case进行查询以便借鉴。