服务器硬件监控解决方案

方案背景

当前IT信息技术正处于高速发展状态中,底层平台的支撑离不开海量的物理服务器做为平台运行的载体。保障服务器的连续不间断运行在运维体系中是最为基础,也是最为重要的部分之一。

传统对于服务器的运维场景是需要大量的人员频繁进出机房观察设备状态指示灯进行巡检记录。此种方式不仅需要耗费大量的人力,而且还会存在故障发现不及时、不准确的问题。

服务器硬件监控解决方案


PIGOSS BSM 提供了一站式硬件运维监控解决方案。包含基础监控监控,硬件资产管理,硬件状态可视化展现,以及报表统计分析等功能。


资源监控

X86服务器的监控

PIGOSS BSM监控系统可通过带外、带内方式对X86服务器硬件状态进行全面的监控,包括处理器、内存、硬盘、电源、风扇、温度、插槽等硬件状态和配置信息,同时也能够实时采集到服务器的硬件报错日志,代替管理员的日常机房巡检工作,使管理员实时了解到服务器底层硬件的运行情况。带外方式不通过操作系统,即使系统关机的状态下仍可监控服务器的基本硬件健康状况

能够监控到目前主流x86服务器和刀箱服务器类型,包括IBM、DELL、ThinkServer、HP、华为、浪潮等及其他支持IPMI协议的服务器。

服务器硬件监控

图表:服务器硬件监控列表

同时系统也能够自动采集到服务器的品牌、型号、SN、PN,每个部件的配置信息,如内存频率、大小、厂商、序列号、PN号等资产配置信息。

 

服务器硬件指标监控

图表:服务器硬件状态监控指标列表

 

服务器物理硬盘状态监控

图表:服务器物理硬盘状态及配置信息监控

 

服务器物理内存状态监控

图表:服务器物理内存状态及配置信息监控

 

服务器硬件日志监控

图表:服务器硬件日志监控

 

PIGOSS BSM监控系统以统一的视图展现服务器的整体信息和健康度。同时能够以清晰形象的图标呈现服务器各个硬件组件的运行状态,当服务器的某个组件出现问题时,系统能够以不同的颜色提醒出现问题的硬件部件,如下图:

一体化视图展现

图表:服务器硬件一体化视图展现

 

     对小型机的硬件监控

PIGOSS BSM不仅支持对X86服务器的监控,同时也支持IBM、HP小型机的硬件状态监控。

对于IBM小型机,为了实现多种不同场景下的监控需求,BSM支持Agent和HMC两种监控方式,监控如下指标:


 

此外,PIGOSS BSM系统融入了一线工程师的运维经验,还能够对AIX Error log报错日志进行监控,真正从运维的角度,实现对服务器硬件信息的全面监控。


AIX服务器硬件监控


图表:对AIX服务器硬件errorlog监控信息

对刀箱的监控

PIGOSS BSM支持对华为刀箱、HP刀箱全面的监控,不仅仅能监控到刀箱的硬件运行状态,也能监控到每个刀片的运行状态,对于一些关键的指标,如刀片温度计状态、风扇、电源状态、磁盘状态、MM/SNM状态、HBA卡、RAID卡、系统日志、刀片日志等。

PIGOSS BSM 对刀箱的监控同样支持一体化的视图呈现,可以清晰的看到刀箱的整体状态和健康度,以及刀片的硬件运行状态,整个刀箱的运行情况一目了然。


华为刀箱监控

   图表:华为刀箱硬件状态一体化视图展现

二、硬件资产信息统计管理

  PIGOSS BSM不仅能够监控服务器硬件状态,而且还提供对于服务器资产信息的统计管理功能。

系统能够自动采集服务器资产配置信息功能,可自动采集服务器的厂商、型号、SN、PN等关键信息,并且可以自动同步到相应的资产记录当中。可自定义资产购入时间、维保时间、维保到期时间等维护信息。当维保到即将到期,会出现高亮提示,实现资产全生命周期管理。

资产信息列表

图表:资产信息列表

 服务器资产信息


图表:服务器资产信息详情

三、统计分析及展现

PIGOSS BSM 提供海量资源的状态视图展现,可以快速方便地查看到被管资源的状态、主要性能信息以及告警信息等。

PIGOSS BSM提供硬件设备的自动巡检功能,可以代替运维人员工作中的定期巡检工作,并提供详细的巡检报告。

用户可以创建自动巡检或者手动巡检两种不同任务模板,自动巡检任务周期支持每日、每周、每月三种方式,巡检任务可以选择指定的监控资源或者业务,设定巡检报告指定接收人。

自动巡检,整个过程完全无人值守,可自动向指定邮箱发送巡检报告,也可在线查看巡检报告。

巡检可通过动态视图方式呈现巡检进度和状态,可查看每个巡检对象的状态。


巡检对象状态查看

图表:巡检对象状态查看

 

巡检结果展示

图表:巡检结果展现

巡检报告内容丰富且清晰,包含巡检概要信息以及巡检问题详情等。

巡检报告