分布式系统基础架构之 Hadoop介绍及运维浅谈
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上,而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。
Hadoop 还是可伸缩的,能够处理 PB 级数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件等等。
PIGOSS BSM对于Hadoop的文件系统监控包含以下重要信息:
但是 HDFS 的架构是基于一组特定的节点构建的(下图),这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务。DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 的一个缺点(单点失败)。
NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。
PIGOSS BSM对于Hadoop的NameNode监控包含以下重要信息:
DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件。Hadoop 集群包含大量 DataNode。DataNode 通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。
Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。
主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时,名称节点则负责HDFS监视和调度。从节点负责了机器运行的绝大部分,担当所有数据储存和指令计算的苦差。每个从节点既扮演者数据节点的角色又冲当与他们主节点通信的守护进程。守护进程隶属于Job Tracker,数据节点在归属于名称节点。
PIGOSS BSM对于Hadoop的队列及JobTracker监控包含以下重要信息: