手把手教你搭建Hadoop高可用集群

更新时间:2021年07月26日15时09分来源:大阳城app官网入口浏览次数:

掌握了Hadoop集群中的高可用架构后，接下来，我们来手把手教大家搭建一个Hadoop高可用集群，具体步骤如下：

1.部署集群节点

我们规划整个集群由3台虚拟机组成，这3台虚拟机在高可用集群中的部署规划情况如表1所示。

表1 集群节点分布

服务器	Name Node	Data Node	Resource Manager	Node Manager	Journal Nodes	Zookeeper	ZKFC
node-01	√	√	√	√	√	√	√
node-02	√	√		√	√	√	√
node-03		√		√	√	√

表1所示的三个服务器组成了一个Zookeeper集群。其中，node-01和node-02作为集群的NameNode，需要运行ZKFC来监控NameNode的健康状态。
2.环境准备
首先，搭建普通Hadoop集群。需要注意的是，原有虚拟机系统主机名为hadoop01，建议初学者在搭建Hadoop HA集群时重新安装虚拟机，以此来巩固前面所学知识，并将三台虚拟主机名设置为node-01、node-02和node-03。

3.配置Hadoop高可用集群

（1）修改core-site.xml文件，在该文件中配置HDFS端口，指定Hadoop临时目录和Zookeeper集群地址，具体参数如下：



  

  

    fs.defaultFS

    hdfs://ns1

  

  

  

    hadoop.tmp.dir

    /export/servers/hadoop-2.7.4/tmp

  

  

  

    ha.zookeeper.quorum

    node-01:2181,node-02:2181,node-03:2181

（2）修改hdfs-site.xml文件，配置两台NameNode端口地址和通信方式，并指定NameNode的元数据上的存放位置，开启NameNode失败自动切换以及配置sshfence（通过ssh远程登录到前一个Active NameNode并将其结束进程），具体参数如下：



  

  

    dfs.replication

    2

  

  

    

    dfs.namenode.name.dir

    file:/export/data/hadoop/name  

   

  

    

    dfs.datanode.data.dir  

    file:/export/data/hadoop/data  

   

  

  

    dfs.webhdfs.enabled 

    true 

   

  

  

  

    dfs.nameservices

    ns1

  

  

  

    dfs.ha.namenodes.ns1

    nn1,nn2

  

  

  

    dfs.namenode.rpc-address.ns1.nn1

    node-01:9000

  

  

  

    dfs.namenode.http-address.ns1.nn1

    node-01:50070

  

  

  

    dfs.namenode.rpc-address.ns1.nn2

    node-02:9000

  

  

  

    dfs.namenode.http-address.ns1.nn2

    node-02:50070

  

  

  

    dfs.namenode.shared.edits.dir

    qjournal://node-01:8485;node-02:8485;node-03:8485/ns1    

  

  

  

    dfs.journalnode.edits.dir

    /export/data/hadoop/journaldata

  

  

  

    dfs.ha.automatic-failover.enabled

    true

  

  

  

    dfs.client.failover.proxy.provider.ns1

    org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider    

  

  

  

    dfs.ha.fencing.methods

    

      sshfence

      shell(/bin/true)    

  

  

  

    dfs.ha.fencing.ssh.private-key-files

    /root/.ssh/id_rsa

  

  

  

    dfs.ha.fencing.ssh.connect-timeout

    30000

（3）修改mapred-site.xml文件，配置MapReduce计算框架为yarn方式，具体参数如下：



  

  

    mapreduce.framework.name

    yarn

（4）修改yarn-site.xml文件，开启ResourceManager高可用，指定ResourceManager的端口名称地址，并配置Zookeeper集群地址，具体参数如下：



  

    yarn.nodemanager.resource.memory-mb

    2048

  

  

    yarn.scheduler.maximum-allocation-mb

    2048

  

  

    yarn.nodemanager.resource.cpu-vcores

    1

  

  

  

    yarn.resourcemanager.ha.enabled

    true

  

  

  

    yarn.resourcemanager.cluster-id

    yrc

  

  

  

    yarn.resourcemanager.ha.rm-ids

    rm1,rm2

  

  

  

    yarn.resourcemanager.hostname.rm1

    node-01

  

  

    yarn.resourcemanager.hostname.rm2

    node-02

  

  

  

    yarn.resourcemanager.zk-address

    node-01:2181,node-02:2181,node-03:2181

  

  

    yarn.nodemanager.aux-services

    mapreduce_shuffle

（5）修改slaves，配置集群主机名称，具体代码如下：

node-01
node-02
node-03

（6）修改hadoop-env.sh，配置JDK环境变量，具体代码如下：

export JAVA_HOME=/export/servers/jdk1.8.0_161

将配置好的文件分发传送给node-02，node-03机器中，读者可以根据需求自定义配置/etc/profile的环境变量，分发后需要重新加载该文件。

4.启动Hadoop高可用集群

（1）启动集群各个节点的Zookeeper服务，命令如下：

$ cd /export/servers/zookeeper-3.4.10/bin

$ ./zkServer.sh start

（2）启动集群各个节点监控NameNode的管理日志的JournalNode，命令如下：

$ hadoop-daemon.sh start journalnode

（3）在node-01节点格式化NameNode，并将格式化后的目录拷贝到node-02中，具体命令如下：

$ hadoop namenode –format
$ scp -r /export/data/hadoop node-02:/export/data/

（4）在node-01节点上格式化ZKFC，命令如下：

$ hdfs zkfc -formatZK

（5）在node-01节点上启动HDFS，命令如下：

$ start-dfs.sh

（6）在node-01节点上启动YARN，命令如下：

$ start-yarn.sh

猜你喜欢：

大数据培训:hadoop中常见问题以及解决方案

Hadoop集群有几种部署模式？各种模式有什么特点？

HDFS的高可用架构是怎样工作的?

大阳城app官网入口python+大数据开发高手班

上一篇：Zookeeper数据发布与订阅主要应用场景有哪些？ 下一篇： Sqoop有哪些指令？Sqoop指令介绍

全国校区

热门课程

手把手教你搭建Hadoop高可用集群

最新资讯

相关阅读

热门课程推荐