智能运维解决方案

  智能运维的必然性

a) 运维场景多样化。随着IT业务持续增长,为保证业务连续性,不同业务之间衍生出大量的运维场景,单一解决方案无法实现贯穿业务的始末,导致出现场景断层,无法基于现有IT业务实现全面的覆盖。

b) 工具场景多样化运维过程是故障发现故障解决提高运维质量的过程不同企业的IT运维建设之路不尽相同运维工具的建设也参差不齐因而数据孤岛、无法贴近业务等问题日渐明显。

c) 云架构模式的普及运维工具需要基于云架构传统的监管控模式已经落后于企业的多元化需求的变化

d) 数据的快速增长运维工具的建设企业不缺乏对IT业务运行状态的数据但是却面临无法数据整合,无法贴合业务,无法通过告警判断影响范围等问题

e) 缺乏基于海量数据的故障预测。对于海量的数据,无法通过“自学习”的方式,提炼数据关联关系

对以上运维现状,我司结合近10年的基础运维经验及现有智能运维的落地情况,认为智能运维的建设之路并非一朝一夕可成,建设的路径为:“由下至上”、“由分散到集中”、“由数据到结论”,方能真正切合用户的场景落实智能运维。

                                        

         智能运维方案介绍

设计架构图

IT运维监控|运维监控系统|运维监控平台|智能运维|硬件监控|数据库监控|存储监控

数据接入层


数据接入层即PIGOSS智慧平台,为智能运维的核心层。

对下负责将环控系统、BSM监控系统 、安全感知平台、安全管理平台及其他业务系统的告警数据整合,此外还提供更强大的 REST API 以及方便的 Email、短信集成方式,可将任何系统的告警数据快速接入到TOC智慧平台。

对上负责将分散的数据归集,是分散数据的处理枢纽。另外可以通过北向接口把数据集中的提供给大数据平台。


数据融合层

数据接入层仅仅完成对数据的集中,集中数据仅仅完成智能的基础,数据的价值在于能为未来决策提供准确的依据。借助大数据引擎,把运维场景中状态数据、性能数据、告警数据、业务数据放入引擎进行分析,通过分析结果建立基于业务场景的运维模型,通过不同业务模型的建立,完成从业务到基础数据的无缝衔接;

智慧应用层

智慧应用层为智能运维的成果体现,数据融合层提供基于大数据的分析结果。可根据不同的数据模型,模块化的添加不同的应用,实现基于大数据的应用管理。

另外,还提供对基于该应用层的数据展现,可以基于应用层的分析结果做2D大屏展现、3D立体展现等,也可以通过终端进行访问

智能运维分步建设


面对工具多样性、告警源多样性、数据多样性、团队多样性的场景,TOC 方案提供了边融合、边迭代的解决方案。

通过 “松耦合” 的方式持续整合专业运维工具、数据、流程,持续优化运维数据共享、团队协同、资源优化的运维效果,最终实现智能大数据运维


IT运维监控|运维监控系统|运维监控平台|智能运维|硬件监控|数据库监控|存储监控

建议TOC智慧解决方案的迭代步骤如下:

第一步:实现集中的告警服

分析梳理已有运维工具的告警数据源,选择适当的接口方式(API,邮件解析、短信解析、插件等)实现告警数据在TOC 的统一集中管理。同时严格规范告警策略和告警规则。

这个过程中可以依据实际情况逐步对工具进行合理的替代、升级、补充。设立集中的告警服务台岗位(团队),对TOC告警规范规则、及时响应负责任。

第二步:接工ITSM)服流程管理

TOC 作为汇聚多个告警源的集中告警服务台,与ITSM 工单流程统一对接,不仅避免各局部告警工具分别与ITSM 流程对接,而且能够从更高维度实现服务流程的统筹规划,从更高维度实现不同告警源的关联告警合并开单,提升服务管理能力和效率。

第三步:实现全局的统计分析

有了前两步的集中服务管理数据,可以通过全局的数据统计评价各告警源的规范性、各类服务响应的SLA水平,发现运维服务瓶颈,优化服务资源匹配。

第四步:梳理全局业务关联和告警关

随着TOC 逐步整合汇聚的数据源不断丰富,可以在TOC 平台实现对全局业务关联逻辑,告警关联逻辑梳理,提供更全面的业务运维视图,并能基于海量数据确定故障影响的范围。

实现这一效果的前提是TOC数据的完整性达到足够的程度

第五步:大数据平台数据融合

随着TOC运维数据的沉淀,依靠人工梳理,数据之间的关联关系远远不够,需引入大数据平台。根据TOC数据沉淀及现有的数据集和问题点,结合有监督学习和无监督学习的方式,进行机器学习,通过反复训练的方式,进一步提高场景和算法的拟合度,逐渐完善基于现有场景的智能算法。

第六步:大数据应用的建设

大数据平台实现数据融合后,建立基于大数据场景的模块化应用。以智能算法及大数据作为支撑,依据算法输出的预测结果,简化IT运维操作,为运维管理决策提供更大的价值。