金融行业运维解决方案
如何高效地进行大规模系统运維,一直是金融行业数据中心思考的问题。运维工具的发展迭代正慢慢改变运维体系,让运维更加智能成为了可能。
近日,埃塞尔比亚最大的商业银行出现一起蹊跷的技术故障,旗下的 ATM 可以无“限额”取钱。拥有超 3800 万用户的埃塞俄比亚最大的商业银行突然出现技术故障,使得一些用户可以在银行 ATM 机上取出超过自身账户余额的金钱,甚至可以通过网银将这些钱转至其他银行账户。
据当地媒体报道,“系统故障”持续了数小时,超过1亿美元被提取或转移到其他银行。故障期间,发生了超过 49 万笔“不健康和非法”的银行交易。
对于金融交易系统一次小小的故障都会造成不小的经济损失,所以在金融领域实时监控显得尤其重要。金融行业比较重视对业务系统的监控和管理,PIGOSS BSM 运维监控系统为金融行业的业务监控提供全方位的解决方案。
和互联网行业一样,金融机构IT系统规模都比较大,需要管理上万台服务器级别以上的大规模基础设施。但是和互联网行业不同的是,金融机构面临着严格的金融监管要求,需要维持稳定的金融秩序,系统的稳定性和连续性要求极高,允许大的系统变更的次数要远远少于互联网公司。金融机构IT架构以前采用大型机,现在是小型机为主,部分采用了X86服务器,云计算,整体IT环境是多代共存。所以,金融行业智能运维的场景和要求有一定的行业特色。
金融行业运维面临的运维挑战:
- 过分依赖人工操作,效率低、风险大:操作的效率和准确性依赖于人员的技能;操作周期较长并存在误操作的风险;一旦业务中断,将带来巨大损失。
-占用大量人力资源,成本偏高:不同的系统均由专人负责,运维人员的数量会随着信息系统的增加而不断增加。
- 运维环境庞大,系统组件多,结构复杂,缺乏统一的IT运营管理平台:大量的数据、日志无法及时识别和处理,主要依靠人工判断。以手工操作、人工巡检为主所带来的效率低下误差率高,运维管理工作压力变大。
- 故障诊断效率较低:主要体现在告警风暴、根因定位、及时止损。
PIGOSS BSM IT运维管理解决方案可以实现将基础监控中心,业务监控中心和运维服务中心进行统一管理,实现对IT基础设施,网络设备、服务器系统、数据库、中间件、业务系统等进行统一的监控和管理,提供对应用系统的集中监控和管理。发现故障及时告警处理并分析业务系统的运行状态和性能,预防故障发生,提高运维效率,规范故障解决流程,建立符合金融机构的IT运维服务流程。
PIGOSS TOC把现有的多种不同的监控工具统一的接入到TOC监控管理平台中,进行集中化的管理。针对不同工具的告警信息,实现统一告警。对告警提供原始发生时间、接收时间等多个维度的统计显示
。并提供灵活的告警分类及分派策略,将不同级别的告警分配给不同的运维人员,与工单流程对接,实现派单的自动化流程。
通过PIGOSS BSM+TOC部署实施,完成对金融机构的IT基础设施的统一监控,集中管理。IT设备故障异常时早发现,早解决。确保计算机系统、网络和应用的连续运行。降低发生系统故障的可能性,减少错误的发生,提高运维管理水平和服务保障。