智能运维解决方案

  智能运维的必然性

a) 运维场景多样化。随着IT业务持续增长,为保证业务连续性,不同业务之间衍生出大量的运维场景,单一解决方案无法实现贯穿业务的始末,导致出现场景断层,无法基于现有IT业务实现全面的覆盖。

b) 工具场景多样化运维过程是故障发现、故障解决、提高运维质量的过程。不同企业的IT运维建设之路不尽相同,运维工具的建设也参差不齐,因而数据孤岛、无法贴近业务等问题日渐明显。

c) 云架构模式的普及运维工具需要基于云架构传统的”监管控”模式已经落后于企业的多元化需求的变化。

d) 数据的快速增长运维工具的建设企业不缺乏对IT业务运行状态的数据但是却面临无法数据整合,无法贴合业务,无法通过告警判断影响范围等问题

                  e)缺乏基于海量数据的故障预测。对于海量的数据,无法通过“自学习”的方式提炼数据关联关系

对以上运维现状,我司结合近10年的基础运维经验及现有智能运维的落地情况,认为智能运维的建设之路并非一朝一夕可成,建设的路径为:“由下至上”、“由分散到集中”、“由数据到结论”,方能真正切合用户的场景落实智能运维。


                                        

         智能运维方案介绍

设计架构图

智能运维

数据接入层

数据接入层即PIGOSS智慧平台,为智能运维的核心层。

对下负责将环控系统、BSM监控系统 、安全感知平台、安全管理平台及其他业务系统的告警数据整合,此外还提供更强大的 REST API 以及方便的 Email、短信集成方式,可将任何系统的告警数据快速接入到TOC智慧平台。

对上负责将分散的数据归集,是分散数据的处理枢纽。另外可以通过北向接口把数据集中的提供给大数据平台。


数据融合层

数据接入层仅仅完成对数据的集中,集中数据仅仅完成智能的基础,数据的价值在于能为未来决策提供准确的依据。借助大数据引擎,把运维场景中状态数据、性能数据、告警数据、业务数据放入引擎进行分析,通过分析结果建立基于业务场景的运维模型,通过不同业务模型的建立,完成从业务到基础数据的无缝衔接;

智慧应用层

智慧应用层为智能运维的成果体现,数据融合层提供基于大数据的分析结果。可根据不同的数据模型,模块化的添加不同的应用,实现基于大数据的应用管理。

另外,还提供对基于该应用层的数据展现,可以基于应用层的分析结果做2D大屏展现、3D立体展现等,也可以通过终端进行访问

智能运维分步建设


面对工具多样性、告警源多样性、数据多样性、团队多样性的场景,TOC 方案提供了边融合、边迭代的解决方案。

通过 “松耦合” 的方式持续整合专业运维工具、数据、流程,持续优化运维数据共享、团队协同、资源优化的运维效果,最终实现智能大数据运维

智能运维

建议TOC智慧解决方案的迭代步骤如下:

第一步:实现集中的告警服

分析梳理已有运维工具的告警数据源,选择适当的接口方式(API,邮件解析、短信解析、插件等)实现告警数据在TOC 的统一集中管理。同时严格规范告警策略和告警规则。

这个过程中可以依据实际情况逐步对工具进行合理的替代、升级、补充。设立集中的告警服务台岗位(团队),对TOC告警规范规则、及时响应负责任。

第二步:接工ITSM)服流程管理

TOC 作为汇聚多个告警源的集中告警服务台,与ITSM 工单流程统一对接,不仅避免各局部告警工具分别与ITSM 流程对接,而且能够从更高维度实现服务流程的统筹规划,从更高维度实现不同告警源的关联告警合并开单,提升服务管理能力和效率。

第三步:实现全局的统计分析

有了前两步的集中服务管理数据,可以通过全局的数据统计评价各告警源的规范性、各类服务响应的SLA水平,发现运维服务瓶颈,优化服务资源匹配。

第四步:梳理全局业务关联和告警关

随着TOC 逐步整合汇聚的数据源不断丰富,可以在TOC 平台实现对全局业务关联逻辑,告警关联逻辑梳理,提供更全面的业务运维视图,并能基于海量数据确定故障影响的范围。

实现这一效果的前提是TOC数据的完整性达到足够的程度

第五步:大数据平台数据融合

随着TOC运维数据的沉淀,依靠人工梳理,数据之间的关联关系远远不够,需引入大数据平台。根据TOC数据沉淀及现有的数据集和问题点,结合有监督学习和无监督学习的方式,进行机器学习,通过反复训练的方式,进一步提高场景和算法的拟合度,逐渐完善基于现有场景的智能算法。

第六步:大数据应用的建设

大数据平台实现数据融合后,建立基于大数据场景的模块化应用。以智能算法及大数据作为支撑,依据算法输出的预测结果,简化IT运维操作,为运维管理决策提供更大的价值。