智能运维解决方案
智能运维的必然性
a) 运维场景多样化。随着IT业务持续增长,为保证业务连续性,不同业务之间衍生出大量的运维场景,单一解决方案无法实现贯穿业务的始末,导致出现场景断层,无法基于现有IT业务实现全面的覆盖。
b) 工具场景多样化。运维过程是故障发现、故障解决、提高运维质量的过程。不同企业的IT运维建设之路不尽相同,运维工具的建设也参差不齐,因而数据孤岛、无法贴近业务等问题日渐明显。
c) 云架构模式的普及,运维工具需要基于云架构。传统的”监管控”模式,已经落后于企业的多元化需求的变化。
d) 数据的快速增长。运维工具的建设,企业不缺乏对IT业务运行状态的数据,但是却面临无法数据整合,无法贴合业务,无法通过告警判断影响范围等问题。
e)缺乏基于海量数据的故障预测。对于海量的数据,无法通过“自学习”的方式,提炼数据关联关系。
针对以上运维现状,我司结合近10年的基础运维经验及现有智能运维的落地情况,认为智能运维的建设之路并非一朝一夕可成,建设的路径为:“由下至上”、“由分散到集中”、“由数据到结论”,方能真正切合用户的场景落实智能运维。
智能运维方案介绍
设计架构图
数据接入层
数据接入层即PIGOSS智慧平台,为智能运维的核心层。
对下负责将环控系统、BSM监控系统 、安全感知平台、安全管理平台及其他业务系统的告警数据整合,此外还提供更强大的 REST API 以及方便的 Email、短信集成方式,可将任何系统的告警数据快速接入到TOC智慧平台。
对上负责将分散的数据归集,是分散数据的处理枢纽。另外可以通过北向接口把数据集中的提供给大数据平台。
数据融合层
数据接入层仅仅完成对数据的集中,集中数据仅仅完成智能的基础,数据的价值在于能为未来决策提供准确的依据。借助大数据引擎,把运维场景中状态数据、性能数据、告警数据、业务数据放入引擎进行分析,通过分析结果建立基于业务场景的运维模型,通过不同业务模型的建立,完成从业务到基础数据的无缝衔接;
智慧应用层
智慧应用层为智能运维的成果体现,数据融合层提供基于大数据的分析结果。可根据不同的数据模型,模块化的添加不同的应用,实现基于大数据的应用管理。
另外,还提供对基于该应用层的数据展现,可以基于应用层的分析结果做2D大屏展现、3D立体展现等,也可以通过终端进行访问。
智能运维分步建设
面对工具多样性、告警源多样性、数据多样性、团队多样性的场景,TOC 方案提供了边融合、边迭代的解决方案。
通过 “松耦合” 的方式持续整合专业运维工具、数据、流程,持续优化运维数据共享、团队协同、资源优化的运维效果,最终实现智能大数据运维
建议TOC智慧解决方案的迭代步骤如下:
第一步:实现集中的告警服务台
分析梳理已有运维工具的告警数据源,选择适当的接口方式(API,邮件解析、短信解析、插件等)实现告警数据在TOC 的统一集中管理。同时严格规范告警策略和告警规则。
这个过程中可以依据实际情况逐步对工具进行合理的替代、升级、补充。设立集中的告警服务台岗位(团队),对TOC告警规范规则、及时响应负责任。
第二步:对接工单(ITSM)服务流程管理
TOC 作为汇聚多个告警源的集中告警服务台,与ITSM 工单流程统一对接,不仅避免各局部告警工具分别与ITSM 流程对接,而且能够从更高维度实现服务流程的统筹规划,从更高维度实现不同告警源的关联告警合并开单,提升服务管理能力和效率。
第三步:实现全局的统计分析
有了前两步的集中服务管理数据,可以通过全局的数据统计评价各告警源的规范性、各类服务响应的SLA水平,发现运维服务瓶颈,优化服务资源匹配。
第四步:梳理全局业务关联和告警关联
随着TOC 逐步整合汇聚的数据源不断丰富,可以在TOC 平台实现对全局业务关联逻辑,告警关联逻辑梳理,提供更全面的业务运维视图,并能基于海量数据确定故障影响的范围。
实现这一效果的前提是TOC数据的完整性达到足够的程度。
第五步:大数据平台数据融合
随着TOC运维数据的沉淀,依靠人工梳理,数据之间的关联关系远远不够,需引入大数据平台。根据TOC数据沉淀及现有的数据集和问题点,结合有监督学习和无监督学习的方式,进行机器学习,通过反复训练的方式,进一步提高场景和算法的拟合度,逐渐完善基于现有场景的智能算法。
第六步:大数据应用的建设
大数据平台实现数据融合后,建立基于大数据场景的模块化应用。以智能算法及大数据作为支撑,依据算法输出的预测结果,简化IT运维操作,为运维管理决策提供更大的价值。