《搭建hadoop2 HA》学习笔记

<h2>一、hadoop HA介绍</h2>
大纲：

NameNode高可用整体架构

NameNode的主备切换

NameNode的共享存储
<h3>1.1 NameNode高可用整体架构</h3>
架构如下图所示：
 <img class="size-full wp-image-4091 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/1.jpg" alt="1" width="681" height="403" />
 hadoop2.0的HA 机制有两个namenode，一个是active namenode，状态是active；另外一个是standby namenode，状态是standby。两者的状态是可以切换的，但不能同时两个都是active状态，最多只有1个是active状态。只有active namenode提供对外的服务，standby namenode是不对外服务的。active namenode和standby namenode之间通过NFS或者JN（journalnode，QJM方式）来同步数据。

active namenode会把最近的操作记录写到本地的一个edits文件中（edits file），并传输到NFS或者JN中。standby namenode定期的检查，从NFS或者JN把最近的edit文件读过来，然后把edits文件和fsimage文件合并成一个新的fsimage，合并完成之后会通知active namenode获取这个新fsimage。active namenode获得这个新的fsimage文件之后，替换原来旧的fsimage文件。

这样，保持了active namenode和standby namenode的数据的实时同步，standby namenode可以随时切换成active namenode（譬如active namenode挂了）。而且还有一个原来hadoop1.0的secondarynamenode，checkpointnode，buckcupnode的功能：合并edits文件和fsimage文件，使fsimage文件一直保持更新。所以启动了hadoop2.0的HA机制之后，secondarynamenode，checkpointnode，buckcupnode这些都不需要了。

组件：
<ul>
 	<li>Active NameNode</li>
 	<li>Standby NameNode</li>
 	<li>ZKFailoverController</li>
 	<li>Zookeeper集群</li>
 	<li>共享存储系统</li>
 	<li>DataNode</li>
</ul>
<h3>1.2 NameNode主备切换</h3>
流程图：

<img class="size-large wp-image-4092 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/2-1024x531.jpg" alt="2" width="620" height="322" />
<h3>1.3 NameNode的共享储存</h3>
架构图：

NameNode 初始化启动，进入 Standby 状态

在 NameNode 以 HA 模式启动的时候，NameNode 会认为自己处于 Standby 模式，在 NameNode 的构造函数中会加载 FSImage 文件和 EditLog Segment 文件来恢复自己的内存文件系统镜像。在加载 EditLog Segment 的时候，调用 FSEditLog 类的 initSharedJournalsForRead 方法来创建只包含了在 JournalNode 集群上的共享目录的 JournalSet，也就是说，这个时候只会从 JournalNode 集群之中加载 EditLog，而不会加载本地磁盘上的 EditLog。另外值得注意的是，加载的 EditLog Segment 只是处于 finalized 状态的 EditLog Segment，而处于 in-progress 状态的 Segment 需要后续在切换为 Active 状态的时候，进行一次数据恢复过程，将 in-progress 状态的 Segment 转换为 finalized 状态的 Segment 之后再进行读取。

加载完 FSImage 文件和共享目录上的 EditLog Segment 文件之后，NameNode 会启动 EditLogTailer 线程和 StandbyCheckpointer 线程，正式进入 Standby 模式。如前所述，EditLogTailer 线程的作用是定时从 JournalNode 集群上同步 EditLog。而 StandbyCheckpointer 线程的作用其实是为了替代 Hadoop 1.x 版本之中的 Secondary NameNode 的功能，StandbyCheckpointer 线程会在 Standby NameNode 节点上定期进行 Checkpoint，将 Checkpoint 之后的 FSImage 文件上传到 Active NameNode 节点。

NameNode 从 Standby 状态切换为 Active 状态

当 NameNode 从 Standby 状态切换为 Active 状态的时候，首先需要做的就是停止它在 Standby 状态的时候启动的线程和相关的服务，包括上面提到的 EditLogTailer 线程和 StandbyCheckpointer 线程，然后关闭用于读取 JournalNode 集群的共享目录上的 EditLog 的 JournalSet，接下来会调用 FSEditLog 的 initJournalSetForWrite 方法重新打开 JournalSet。不同的是，这个 JournalSet 内部同时包含了本地磁盘目录和 JournalNode 集群上的共享目录。这些工作完成之后，就开始执行“基于 QJM 的共享存储系统的数据恢复机制分析”一节所描述的流程，调用 FSEditLog 类的 recoverUnclosedStreams 方法让 JournalNode 集群中各个节点上的 EditLog 达成一致。然后调用 EditLogTailer 类的 catchupDuringFailover 方法从 JournalNode 集群上补齐落后的 EditLog。最后打开一个新的 EditLog Segment 用于新写入数据，同时启动 Active NameNode 所需要的线程和服务。

NameNode 从 Active 状态切换为 Standby 状态

当 NameNode 从 Active 状态切换为 Standby 状态的时候，首先需要做的就是停止它在 Active 状态的时候启动的线程和服务，然后关闭用于读取本地磁盘目录和 JournalNode 集群上的共享目录的 EditLog 的 JournalSet。接下来会调用 FSEditLog 的 initSharedJournalsForRead 方法重新打开用于读取 JournalNode 集群上的共享目录的 JournalSet。这些工作完成之后，就会启动 EditLogTailer 线程和 StandbyCheckpointer 线程，EditLogTailer 线程会定时从 JournalNode 集群上同步 Edit Log。
<h2>二、搭建hadoop2 HA</h2>
大纲：

实验环境讲解

演示Hadoop HA步骤并讲解
<h3>2.1 实验环境讲解</h3>
<h4>架构：</h4>
namenode1

namenode2

datanode

Hadoop 2.x 的两个NameNode一般会配置在两台独立的机器上，Active NameNode会响应集群客户端，而Standby NameNode只是作为Active NameNode的备份，保证在Active NameNode出现问题时能够快速的替代它。

Standby NameNode通过JournalNodes的通信来与Active NameNode保持同步。

Active NameNode和Standby NameNode在哪个节点上，是由zookeeper通过主备选举机制来确定的。
<h4>HDFS HA配置：</h4>
NameNode：对应配置相同的两台物理机，分别运行Active NameNode和Standby NameNode。

JournalNode：JournalNode不会耗费太多的资源，可以和其它进程部署在一起，如NameNode、Datanode、ResourceManager等，需要至少3个且为基数，这样可以允许（N-1）/2个JNS进程失败。

DataNode：根据数据量的大小和处理数据所需资源进行配置，一般实际应用中数量较多，且分布在较多的机器上。
<h4>规则：</h4>
<table style="height: 148px;" width="658">
<tbody>
<tr>
<td style="text-align: center;">主机名</td>
<td style="text-align: center;">IP</td>
<td style="text-align: center;">安装软件</td>
<td style="text-align: center;">JPS启动进程</td>
</tr>
<tr>
<td style="text-align: center;">hadoop-namenode1</td>
<td style="text-align: center;">192.168.152.153</td>
<td style="text-align: center;">JDK/Zookeeper/Hadoop</td>
<td style="text-align: center;">namenode/zkfc/journalnode/resourcemanager/QuoqumPeerMain</td>
</tr>
<tr>
<td style="text-align: center;">hadoop-namenode2</td>
<td style="text-align: center;">192.168.152.155</td>
<td style="text-align: center;">JDK/Zookeeper/Hadoop</td>
<td style="text-align: center;">namenode/zkfc/journalnode/resourcemanager/QuoqumPeerMain</td>
</tr>
<tr>
<td style="text-align: center;">hadoop-datanode1</td>
<td style="text-align: center;">192.168.152.154</td>
<td style="text-align: center;">JDK/Zookeeper/Hadoop</td>
<td style="text-align: center;">datanode//journalnode/nodemanager/QuoqumPeerMain</td>
</tr>
</tbody>
</table>
<h4>配置：</h4>
CentOS-7-x86_64-Minimal-1511.iso

jdk-8u101-linux-x64.tar.gz

zookeeper-3.4.8.tar.gz

hadoop-2.6.0.tar.gz
<h3>2.2 演示Hadoop HA步骤并讲解</h3>
<h4>2.2.1 安装centos 7</h4>
<h5>2.2.1.1 安装虚拟机和Linux系统</h5>
安装最小化centos，比较简单，也不做详细描述。我没有设置账户，所以开机后的账户为root账户，密码自己设置。
<h5>2.2.1.2 配置、连接网络</h5>
centos安装后需要手动联网（如需设置静态ip可自行查阅相关资料）：

开机后登陆root：

修改文件进行联网：

<code>cd /etc/sysconfig/network-scripts/</code>

<code>vi ifcfg-eno16777736</code>

且分别加入主机名和IP地址：

<code>IPADDR=192.168.152.153 //其它节点将最后一个数字加1即可，按照集群规划的IP进行设置</code>

重启网络服务

<code>service network restart</code>

修改主机名:

<code>hostnamectl set-hostname 主机名</code>

// 此处的主机名分别为hadoop-namenode1，hadoop-namenode2,hadoop-datanode1

查看主机名

<code>hostnamectl status</code>
<h5>2.2.1.3 设置IP地址和主机名映射</h5>
<code>su root</code>

<code>vim /etc/hosts</code>
<pre class="lang:default decode:true ">192.168.152.155 hadoop-namenode1
192.168.152.153 hadoop-namenode2
192.168.152.154 hadoop-datanode1</pre>
以下步骤在centos7最小化安装过程中可以不进行操作，因为centos7最小化安装时没有安装防火墙：

关闭防火墙和Selinux

<code>systemctl stop firewalld.service //关闭防火墙</code>

<code>systemctl disable firewalld.service //禁止Firewalls开机启动（此版本的centos没有安装防火墙）</code>

<code>vim /etc/selinux/config</code>

<code>SELINUX=disabled //开机关闭Selinux</code>

重启，查看<code>Selinux</code>状态

<code>gentenforce</code>
<h4>2.2.2 Hadoop安装前的准备</h4>
<h5>2.2.2.1 创建组和用户并添加权限</h5>
<code>groupadd hadoop //创建组hadoop</code>

<code>useradd -g hadoop hadoop //创建组hadoop下的用户hadoop</code>

<code>passwd hadoop //修改用户hadoop的密码</code>

<code>yum install vim //安装vim</code>

<code>vim /etc/sudoers</code> //修改配置文件sudoers给hadoop用户添加sudo权限，添加以下内容：

<code>hadoop ALL=(ALL) ALL</code>

<img class="size-full wp-image-4100 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/4.png" alt="4" width="530" height="78" />
<h5>2.2.2.2 配置SSH免密码登录</h5>
在namenode1节点上生成SSH密钥对

<code>su hadoop</code>

<code>$ ssh-keygen -t rsa</code>

将公钥复制到集群所有节点机器上

<code>$ ssh-copy-id hadoop-nam/code></code>

<code>$ ssh-copy-id hadoop-namenode2</code>

<code>$ ssh-copy-id hadoop-datanode1</code>

通过ssh登录各节点测试是否免密码登录成功

注：确保通过ssh可以免密码登录其它的所有节点
<h5>2.2.2.3 在Windows下安装xshell上传安装文件到虚拟机</h5>
此步骤不属于hadoop安装，但可以简便安装和使用的操作

在Linux系统中通过以下指令查看ip

<code>ip addr //此处与centos7之前的指令ifconfig不同，是版本升级后的改动</code>

在xshell中通过“文件→打开→新建”来创建连接，名称随意填写，主机填写ip地址，用户和密码处填写账户root和密码（根据自己的设定填写）：

点击“确定→连接→接受”即可连接到Linux系统，但是上传文件之前需要在Linux系统中安装相关应用：

<code>yum install lrzsz     //此步骤可能需要在root用户下进行操作，切换回root就行了</code>

在xshell上通过以下指令上传<code>Hadoop</code>、<code>Zookeeper</code>和<code>JDK</code>安装文件：

<code>su hadoop</code>

此外，以下步骤可通过xshell操作Linux虚拟系统。
<h4>2.2.3 Hadoop安装、配置</h4>
<h5>2.2.3.1 安装JDK</h5>
卸载自带的openjdk（centos7没有自带的openjdk，所以直接安装jdk即可）

创建安装路径：

<code>mkdir apache</code>

<code>tar -xvf jdk-8u101-linux-x64.tar.gz /home/hadoop/apache/</code>

配置环境变量：

<code>vim ~/.bash_profile</code>

添加以下内容：

<code>export JAVA_HOME=/home/hadoop/apache/jdk1.8.0_101
export PATH=$PATH:$JAVA_HOME/bin</code>

保存，通过以下指令使环境变量生效：

<code>source ~/.bash_profile</code>

测试JDK是否安装成功：

<code>java -version</code>

<img class="size-large wp-image-4106 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/10.png" alt="10" width="477" height="94" />
<h5>2.2.3.2 安装zookeeper集群</h5>
解压缩<code>zookeeper</code>安装包

<code>tar -xvf zookeeper3.4.8.tar.gz /home/hadoop/apache/</code>

删除安装包：

<code>rm zookeeper3.4.8.tar.gz</code>

配置hadoop用户权限：

<code>chown -R hadoop:hadoop zookeeper-3.4.8</code>

修改zookeeper的配置文件：

<code>cd apache/zookeeper-3.4.8/conf</code>

<code>cp zoo_sample.cfg zoo.cfg</code>

设置如下：
<pre class="lang:default decode:true ">tickTime=2000 //客户端心跳时间（毫秒）

initLimit=10 //循序心跳间隔的最大时间

syncLimit=5 //同步时限

dataDir=/home/hadoop/apache/zookeeper3.4.8/data //数据存储目录

dataLogDir=/home/hadoop/apache/zookeeper3.4.8/data/log //数据日志存储目录

clientPort=2181 //端口号

maxClientCnxns=2000 //连接zookeeper的最大数量

server.1=hadoop-namenode1:2888:3888 //设置zookeeper的节点

server.2=hadoop-namenode2:2888:3888

server.3=hadoop-datanode1:2888:3888</pre>
创建zookeeper的数据存储目录和日志存储目录：

<code>mkdir -p data/log</code>

修改数据存储文件和日志文件的权限：

<code>chown -R hadoop:hadoop data</code>

<code>chown -R hadoop:hadoop log</code>

在<code>data</code>目录下创建文件<code>myid</code>，输入内容为1

<code>echo "1" >> data/myid //待工作目录同步到其它两个节点后分别修改内容为2和3</code>

将zookeeper工作目录同步到集群其它节点

<code>scp -r zookeeper-3.4.8 hadoop@hadoop-namenode2:/home/hadoop/apache/</code>

<code>scp -r zookeeper-3.4.8 hadoop@hadoop-datanode1:/home/hadoop/apache/</code>

分别修改<code>myid</code>的值为2和3，并配置所有节点的环境变量。

<code>vim ~/.bash_profile</code>
<pre class="lang:default decode:true ">export ZOOKEEPER_HOME=/home/hadoop/apache/zookeeper-3.4.8
export PATH=$PATH:$ZOOKEEPER_HOME/bin</pre>
到这里zookeeper的集群就已经搭建好了，下面进行启动：

<code>zkServer.sh start</code>

查看进程：

<code>jps</code>
<h5>2.2.3.3 Hadoop的安装和配置</h5>
在namenode1节点下解压缩安装文件

<code>tar -xvf hadoop-2.6.0.tar.gz /home/hadoop/apache/</code>

删除安装文件

<code>rm hadoop2.6.0.tar.gz</code>

设置用户权限

<code>cd apache</code>

<code>chown -R hadoop:hadoop hadoop-2.6.0/</code>

配置文件

<code>cd hadoop-2.6.0/etc/hadoop/</code>

<code>vim hadoop-env.sh</code>

按如下内容进行配置（具体配置情况需按照生产环境和条件进行配置）:
<pre class="lang:default decode:true ">export JAVA_HOME=/home/hadoop/apache/jdk1.8.0_101 //设置jdk路径

export HADOOP_HEAPSIZE=1024 //设置Hadoop位置文本的大小

export HADOOP_NAMENODE_OPTS="-Xmx1024m-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS" //设置Namenode内存大小，此处根据实际情况设定其大小

export HADOOP_DATANODE_OPTS="-Xmx1024 -Dhadoop.security.logger=ERROR,RFAS $HADOOP_DATANODE_OPTS //设置Datanode内存大小

export HADOOP_PORTMAP_OPTS="-Xmx1024m $HADOOP_PORTMAP_OPTS" //修改至1024m

export HADOOP_PID_DIR=/home/hadoop/apache/hadoop-2.6.0/pids //设置PID到本地

export HADOOP_LOG_DIR=/home/hadoop/apache/hadoop-2.6.0/data/logs //设置日志的输出路径</pre>
保存后，创建刚才设定的目录：

<code>cd /home/hadoop/apache/hadoop-2.6.0</code>

<code>mkdir pids</code>

<code>mkdir -p data/logs</code>

配置<code>core-site.xml</code>:

<code>cd etc/hadoop</code>

<code>vim core-site.xml</code>
<pre class="lang:default decode:true "><configuration>
 
 
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://mycluster</value>
 </property>
 

 <property>
 <name>ha.zookeeper.quorum</name>
 <value>hadoop-namenode1:2181,hadoop-namenode2:2181,hadoop-datanode1:2181</value>
 </property>
 
 
 <property>
 <name>hadoop.tmp.dir</name>
 <value>/home/hadoop/apache/hadoop-2.6.0/data/tmp</value>
 </property>
 <property>
 <name>io.file.buffer.size</name>
 <value>131072</value>
 </property>
 
 
 <property>
 <name>fs.trash.interval</name>
 <value>10080</value>
 </property>
 
</configuration></pre>
配置hdfs-site.xml:

vim hdfs-site.xml
<pre class="lang:default decode:true "><configuration>
 

 <property>
 <name>dfs.namenode.name.dir</name>
 <value>/home/hadoop/apache/hadoop-2.6.0/data/namenode</value>
 </property>
 

 <property>
 <name>dfs.datanode.data.dir</name>
 <value>/home/hadoop/apache/hadoop-2.6.0/data/datanode</value>
 </property>
 

 <property>
 <name>dfs.replication</name>
 <value>1</value>
 </property>
 

 <property>
 <name>dfs.permissions.enabled</name>
 <value>false</value>
 </property>
 

 <property>
 <name>dfs.webhdfs.enabled</name>
 <value>true</value>
 </property>
 
 
 
 <property>
 <name>dfs.nameservices</name>
 <value>mycluster</value>
 </property>
 

 <property>
 <name>dfs.ha.namenodes.mycluster</name>
 <value>nn1,nn2</value>
 </property>
 
 
 <property>
 <name>dfs.namenode.rpc-address.mycluster.nn1</name>
 <value>hadoop-namenode1:8020</value>
 </property>
 <property>
 <name>dfs.namenode.rpc-address.mycluster.nn2</name>
 <value>hadoop-namenode2:8020</value>
 </property>
 
 
 <property>
 <name>dfs.namenode.http-address.mycluster.nn1</name>
 <value>hadoop-namenode1:50070</value>
 </property>
 <property>
 <name>dfs.namenode.http-address.mycluster.nn2</name>
 <value>hadoop-namenode2:50070</value>
 </property>
 
 
 <property>
 <name>dfs.namenode.shared.edits.dir</name>
 <value>qjournal://hadoop-namenode1:8485;hadoop-namenode2:8485;hadoop-datanode1:8485/mycluster</value>
 </property>
 
 
 <property>
 <name>dfs.client.failover.proxy.provider.mycluster</name>
 <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
 </property>
 
 
 <property>
 <name>dfs.ha.fencing.methods</name>
 <value>sshfence</value>
 </property>
 
 
 <property>
 <name>dfs.ha.fencing.ssh.private-key-files</name>
 <value>/home/hadoop/.ssh/id_rsa</value>
 </property>
 
 
 <property>
 <name>dfs.journalnode.edits.dir</name>
 <value>/home/hadoop/apache/hadoop-2.6.0/data/journal</value>
 </property>
 
 
 <property>
 <name>dfs.ha.automatic-failover.enabled</name>
 <value>true</value>
 </property>
 
</configuration>

配置<code>mapred-site.xml</code>:

<code>cp mapred-site.xml.template mapred-site.xml</code>

<code>vim mapred-site.xml</code>

<configuration>
 
 
 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
 
 
 <property>
 <name>mapreduce.jobhistory.address</name>
 <value>hadoop-namenode1:10020</value>
 </property>
 
 
 <property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>hadoop-namenode1:19888</value>
 </property>
 
 
 <property>
 <name>mapreduce.job.ubertask.enable</name>
 <value>true</value>
 </property>
 
 
 <property>
 <name>mapreduce.job.ubertask.maxmaps</name>
 <value>3</value>
 </property>
 
 
 <property>
 <name>mapreduce.job.ubertask.maxreduces</name>
 <value>1</value>
 </property>
</configuration></pre>
配置<code>yarn-site.xml</code>文件:

<code>vim yarn-site.xml</code>
<pre class="lang:default decode:true "><configuration>
 
  
 <property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>
 
 
 <property>
 <name>yarn.web-proxy.address</name>
 <value>hadoop-namenode2:8888</value>
 </property>
 
 
 <property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
 </property>
 
 
 <property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
 </property>
 
 
 <property>
 <name>yarn.nodemanager.remote-app-log-dir</name>
 <value>/logs</value>
 </property>
 
 
 <property>
 <name>yarn.nodemanager.resource.memory-mb</name>
 <value>1024</value>
 </property>
 
 
 <property>
 <name>yarn.nodemanager.resource.cpu-vcores</name>
 <value>1</value>
 </property>
 
 
 
 <property>
 <name>yarn.resourcemanager.ha.enabled</name>
 <value>true</value>
 </property>
 
 
 <property>
 <name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
 <value>true</value>
 </property>
 
 
 <property>
 <name>yarn.resourcemanager.cluster-id</name>
 <value>yarncluster</value>
 </property>
 
 
 <property>
 <name>yarn.resourcemanager.ha.rm-ids</name>
 <value>rm1,rm2</value>
 </property>
 
 
 <property>
 <name>yarn.resourcemanager.hostname.rm1</name>
 <value>hadoop-namenode1</value>
 </property>
 
 <property>
 <name>yarn.resourcemanager.hostname.rm2</name>
 <value>hadoop-namenode2</value>
 </property>
 
 
 <property>
 <name>yarn.resourcemanager.webapp.address.rm1</name>
 <value>hadoop-namenode1:8088</value>
 </property>
 <property>
 <name>yarn.resourcemanager.webapp.address.rm2</name>
 <value>hadoop-namenode2:8088</value>
 </property>
 
 
 <property>
 <name>yarn.resourcemanager.zk-address</name>
 <value>hadoop-datanode1:2181</value>
 </property>
 
 
 <property>
 <name>yarn.resourcemanager.zk-state-store.parent-path</name>
 <value>/rmstore</value>
 </property>
 
 
 <property>
 <name>yarn.resourcemanager.recovery.enabled</name>
 <value>true</value>
 </property>
 
 
 <property>
 <name>yarn.resourcemanager.store.class</name>
 <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
 </property>
 
 
 <property>
 <name>yarn.nodemanager.recovery.enabled</name>
 <value>true</value>
 </property>
 
 
 <property>
 <name>yarn.nodemanager.address</name>
 <value>0.0.0.0:45454</value>
 </property>
</configuration></pre>
配置<code>slave</code>文件：

<code>vim slaves</code>
<pre class="lang:default decode:true ">hadoop-datanode1</pre>
创建配置文件中涉及到的目录：

<code>mkdir -p data/tmp</code>

<code>mkdir -p data/journal</code>

<code>mkdir -p data/namenode</code>

<code>mkdir -p data/datanode</code>

将hadoop工作目录同步到集群其它节点

<code>scp -r hadoop-2.6.0 hadoop@hadoop-namenode2:/home/hadoop/apache/</code>

<code>scp -r hadoop-2.6.0 hadoop@hadoop-datanode1:/home/hadoop/apache/</code>

在所有节点上配置环境变量：

<code>vim ~/.bash_profile</code>
<pre class="lang:default decode:true ">export HADOOP_HOME=/home/hadoop/apache/hadoop-2.6.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin</pre>
使修改后的环境变量生效：

<code>source ~/.bash_profile</code>

Hadoop集群初始化

在所有节点上启动<code>zookeeper</code>集群：

<code>zkServer.sh start</code>

在<code>hadoop-namenode1</code>上格式化zkfc：

<code>hdfs zkfc -formatZK</code>

启动<code>journalnode</code>（在namenode1，namenode2和datanode1上）:

<code>hadoop-daemon.sh start journalnode</code>

格式化HDFS(在hadoop-namenode1上)：

<code>hadoop namenode -format</code>

将格式化后namenode1节点hadoop工作目录中的元数据目录复制到namenode2节点

<code>scp-r /home/hadoop/apache/hadoop-2.6.0/data/namenode/* hadoop@hadoop-namenode2:/home/hadoop/apache/hadoop-2.6.0/data/namenode/</code>

启动Hadoop集群

在<code>hadoop-namenode1</code>上启动dfs：

<code>start-dfs.sh</code>

<code>start-dfs.sh</code>命令会开启以下进程：

<code>namenode (namenode1/namenode2)</code>

<code>journalnode (namenode1/namenode2/datanode1)</code>

<code>DFSZKFailoverController (namenode1/namenode2)</code>

<code>datanode (datanode1)</code>

查看进程（所有节点）：

启动YARN（在namenode2上操作）

<code>start-yarn.sh</code>

注：此命令在namenode2节点上启动了<code>ResourceManager</code>，在datanode1上启动了<code>NodeManager</code>

启动YARN上用于容灾的另一个<code>ResourceManager</code>（在namenode1上操作）

<code>yarn-daemon.sh start resourcemanager</code>

启动YARN的安全代理（在namenode2上操作）

<code>yarn-daemon.sh start proxyserver</code>

注：<code>proxyserver</code>充当防火墙的角色，提高访问集群的安全性

启动YARN的历史任务服务（namenode1上）

<code>mr-jobhistory-daemon.sh start historyserver</code>

<img class="size-full wp-image-4113 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/17.png" alt="17" width="486" height="125" />
 至此，<code>Hadoop</code>集群安装配置完成。
<h5>2.2.3.4 查看Web UI</h5>
http://hadoop-namenode1:50070，可看到NameNode为standby状态

(注：active namenode在哪一个节点上，是由zookeeper通过主备选举产生的，重复多次启动可能会引起zookeeper的选举结果不同，建议不要重复多次启动。实际应用中服务器一般不会多次启动，所以在实际应用中无较大影响)：

http://hadoop-namenode2:50070，可看到NameNode为active状态

HDFS的隐藏UI页面http://hadoop-namenode1:50070/dfshealth.jsp比较好用，可以方便的查看HDFS文件信息：

（注：此处打开Browse the filesystem时可能会连接不上，则需要在Windows系统上配置Linux虚拟机的主机名和IP，具体步骤：

复制Linux虚拟机的host文件内的主机名和IP：

<code>more /etc/hosts/ //复制该文件内的主机名和IP信息</code>

写入Windows的hosts文件内：

<code>C:\Windows\System32\drivers\etc</code>

通过记事本打开hosts文件并写入复制的内容，保存）

http://hadoop-namenode2:8088，可看到ResourceManager为active状态

http://hadoop-namenode1:8088，可看到ResourceManager为standby状态，它会自动跳转到http://hadoop-namenode2:8088：

http://hadoop-namenode1:19888，可查看历史任务信息：

<h2>一、hadoop HA介绍</h2>
大纲：

NameNode高可用整体架构

NameNode的主备切换

NameNode的共享存储
<h3>1.1 NameNode高可用整体架构</h3>
架构如下图所示：
 <img class="size-full wp-image-4091 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/1.jpg" alt="1" width="681" height="403" style="">
 hadoop2.0的HA 机制有两个namenode，一个是active namenode，状态是active；另外一个是standby namenode，状态是standby。两者的状态是可以切换的，但不能同时两个都是active状态，最多只有1个是active状态。只有active namenode提供对外的服务，standby namenode是不对外服务的。active namenode和standby namenode之间通过NFS或者JN（journalnode，QJM方式）来同步数据。

<img class="size-large wp-image-4092 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/2-1024x531.jpg" alt="2" width="620" height="322" style="">
<h3>1.3 NameNode的共享储存</h3>
架构图：

NameNode 初始化启动，进入 Standby 状态

NameNode 从 Standby 状态切换为 Active 状态

NameNode 从 Active 状态切换为 Standby 状态

实验环境讲解

namenode2

datanode

Standby NameNode通过JournalNodes的通信来与Active NameNode保持同步。

jdk-8u101-linux-x64.tar.gz

zookeeper-3.4.8.tar.gz

开机后登陆root：

修改文件进行联网：

<code>cd /etc/sysconfig/network-scripts/</code>

<code>vi ifcfg-eno16777736</code>

且分别加入主机名和IP地址：

<code>IPADDR=192.168.152.153 //其它节点将最后一个数字加1即可，按照集群规划的IP进行设置</code>

重启网络服务

<code>service network restart</code>

修改主机名:

<code>hostnamectl set-hostname 主机名</code>

// 此处的主机名分别为hadoop-namenode1，hadoop-namenode2,hadoop-datanode1

查看主机名

关闭防火墙和Selinux

<code>systemctl stop firewalld.service //关闭防火墙</code>

<code>systemctl disable firewalld.service //禁止Firewalls开机启动（此版本的centos没有安装防火墙）</code>

<code>vim /etc/selinux/config</code>

<code>SELINUX=disabled //开机关闭Selinux</code>

重启，查看<code>Selinux</code>状态

<code>useradd -g hadoop hadoop //创建组hadoop下的用户hadoop</code>

<code>passwd hadoop //修改用户hadoop的密码</code>

<code>yum install vim //安装vim</code>

<code>vim /etc/sudoers</code> //修改配置文件sudoers给hadoop用户添加sudo权限，添加以下内容：

<code>hadoop ALL=(ALL) ALL</code>

<img class="size-full wp-image-4100 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/4.png" alt="4" width="530" height="78" style="">
<h5>2.2.2.2 配置SSH免密码登录</h5>
在namenode1节点上生成SSH密钥对

<code>su hadoop</code>

<code>$ ssh-keygen -t rsa</code>

将公钥复制到集群所有节点机器上

<code>$ ssh-copy-id hadoop-nam/code&gt;</code>

<code>$ ssh-copy-id hadoop-namenode2</code>

<code>$ ssh-copy-id hadoop-datanode1</code>

通过ssh登录各节点测试是否免密码登录成功

在Linux系统中通过以下指令查看ip

<code>ip addr //此处与centos7之前的指令ifconfig不同，是版本升级后的改动</code>

点击“确定→连接→接受”即可连接到Linux系统，但是上传文件之前需要在Linux系统中安装相关应用：

<code>yum install lrzsz     //此步骤可能需要在root用户下进行操作，切换回root就行了</code>

在xshell上通过以下指令上传<code>Hadoop</code>、<code>Zookeeper</code>和<code>JDK</code>安装文件：

<code>su hadoop</code>

创建安装路径：

<code>mkdir apache</code>

<code>tar -xvf jdk-8u101-linux-x64.tar.gz /home/hadoop/apache/</code>

配置环境变量：

<code>vim ~/.bash_profile</code>

添加以下内容：

<code>export JAVA_HOME=/home/hadoop/apache/jdk1.8.0_101
export PATH=$PATH:$JAVA_HOME/bin</code>

保存，通过以下指令使环境变量生效：

<code>source ~/.bash_profile</code>

测试JDK是否安装成功：

<code>java -version</code>

<img class="size-large wp-image-4106 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/10.png" alt="10" width="477" height="94" style="">
<h5>2.2.3.2 安装zookeeper集群</h5>
解压缩<code>zookeeper</code>安装包

<code>tar -xvf zookeeper3.4.8.tar.gz /home/hadoop/apache/</code>

删除安装包：

<code>rm zookeeper3.4.8.tar.gz</code>

配置hadoop用户权限：

<code>chown -R hadoop:hadoop zookeeper-3.4.8</code>

修改zookeeper的配置文件：

<code>cd apache/zookeeper-3.4.8/conf</code>

<code>cp zoo_sample.cfg zoo.cfg</code>

设置如下：
<pre class="lang:default decode:true ">tickTime=2000 //客户端心跳时间（毫秒）

initLimit=10 //循序心跳间隔的最大时间

syncLimit=5 //同步时限

dataDir=/home/hadoop/apache/zookeeper3.4.8/data //数据存储目录

dataLogDir=/home/hadoop/apache/zookeeper3.4.8/data/log //数据日志存储目录

clientPort=2181 //端口号

maxClientCnxns=2000 //连接zookeeper的最大数量

server.1=hadoop-namenode1:2888:3888 //设置zookeeper的节点

server.2=hadoop-namenode2:2888:3888

server.3=hadoop-datanode1:2888:3888</pre>
创建zookeeper的数据存储目录和日志存储目录：

<code>mkdir -p data/log</code>

修改数据存储文件和日志文件的权限：

<code>chown -R hadoop:hadoop data</code>

<code>chown -R hadoop:hadoop log</code>

在<code>data</code>目录下创建文件<code>myid</code>，输入内容为1

<code>echo "1" &gt;&gt; data/myid //待工作目录同步到其它两个节点后分别修改内容为2和3</code>

将zookeeper工作目录同步到集群其它节点

<code>scp -r zookeeper-3.4.8 hadoop@hadoop-namenode2:/home/hadoop/apache/</code>

<code>scp -r zookeeper-3.4.8 hadoop@hadoop-datanode1:/home/hadoop/apache/</code>

分别修改<code>myid</code>的值为2和3，并配置所有节点的环境变量。

<code>zkServer.sh start</code>

查看进程：

<code>tar -xvf hadoop-2.6.0.tar.gz /home/hadoop/apache/</code>

删除安装文件

<code>rm hadoop2.6.0.tar.gz</code>

设置用户权限

<code>cd apache</code>

<code>chown -R hadoop:hadoop hadoop-2.6.0/</code>

配置文件

<code>cd hadoop-2.6.0/etc/hadoop/</code>

<code>vim hadoop-env.sh</code>

export HADOOP_HEAPSIZE=1024 //设置Hadoop位置文本的大小

export HADOOP_DATANODE_OPTS="-Xmx1024 -Dhadoop.security.logger=ERROR,RFAS $HADOOP_DATANODE_OPTS //设置Datanode内存大小

export HADOOP_PORTMAP_OPTS="-Xmx1024m $HADOOP_PORTMAP_OPTS" //修改至1024m

export HADOOP_PID_DIR=/home/hadoop/apache/hadoop-2.6.0/pids //设置PID到本地

export HADOOP_LOG_DIR=/home/hadoop/apache/hadoop-2.6.0/data/logs //设置日志的输出路径</pre>
保存后，创建刚才设定的目录：

<code>cd /home/hadoop/apache/hadoop-2.6.0</code>

<code>mkdir pids</code>

<code>mkdir -p data/logs</code>

配置<code>core-site.xml</code>:

<code>cd etc/hadoop</code>

<code>vim core-site.xml</code>
<pre class="lang:default decode:true ">&lt;configuration&gt;
 
 &lt;!-- 指定hdfs的nameservices名称为mycluster，与hdfs-site.xml的HA配
置相同 --&gt;
 &lt;property&gt;
 &lt;name&gt;fs.defaultFS&lt;/name&gt;
 &lt;value&gt;hdfs://mycluster&lt;/value&gt;
 &lt;/property&gt;
 
&lt;!-- 设置zookeeper集群的配置和端口 --&gt;
 &lt;property&gt;
 &lt;name&gt;ha.zookeeper.quorum&lt;/name&gt;
 &lt;value&gt;hadoop-namenode1:2181,hadoop-namenode2:2181,hadoop-datanode1:2181&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 指定缓存文件存储的路径和大小（可以设置的大一些，单位：字节）
 --&gt;
 &lt;property&gt;
 &lt;name&gt;hadoop.tmp.dir&lt;/name&gt;
 &lt;value&gt;/home/hadoop/apache/hadoop-2.6.0/data/tmp&lt;/value&gt;
 &lt;/property&gt;
 &lt;property&gt;
 &lt;name&gt;io.file.buffer.size&lt;/name&gt;
 &lt;value&gt;131072&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置hdfs文件被永久删除前保留的时间（单位：分钟），默认值为0，表明垃圾回收站功能关闭 --&gt;
 &lt;property&gt;
 &lt;name&gt;fs.trash.interval&lt;/name&gt;
 &lt;value&gt;10080&lt;/value&gt;
 &lt;/property&gt;
 
&lt;/configuration&gt;</pre>
配置hdfs-site.xml:

vim hdfs-site.xml
<pre class="lang:default decode:true ">&lt;configuration&gt;
 
&lt;!-- 指定hdfs元数据存储的路径 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.namenode.name.dir&lt;/name&gt;
 &lt;value&gt;/home/hadoop/apache/hadoop-2.6.0/data/namenode&lt;/value&gt;
 &lt;/property&gt;
 
&lt;!-- 指定hdfs数据存储的路径 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.datanode.data.dir&lt;/name&gt;
 &lt;value&gt;/home/hadoop/apache/hadoop-2.6.0/data/datanode&lt;/value&gt;
 &lt;/property&gt;
 
&lt;!-- 数据备份的个数 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.replication&lt;/name&gt;
 &lt;value&gt;1&lt;/value&gt;
 &lt;/property&gt;
 
&lt;!-- 关闭权限验证 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.permissions.enabled&lt;/name&gt;
 &lt;value&gt;false&lt;/value&gt;
 &lt;/property&gt;
 
&lt;!-- 开启WebHDFS功能（基于REST的接口服务） --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.webhdfs.enabled&lt;/name&gt;
 &lt;value&gt;true&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- //////////////以下为HDFS HA的配置////////////// --&gt;
 &lt;!-- 指定hdfs的nameservices名称为mycluster --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.nameservices&lt;/name&gt;
 &lt;value&gt;mycluster&lt;/value&gt;
 &lt;/property&gt;
 
&lt;!-- 指定mycluster的两个namenode的名称分别为nn1,nn2 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.ha.namenodes.mycluster&lt;/name&gt;
 &lt;value&gt;nn1,nn2&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置nn1,nn2的rpc通信端口 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.namenode.rpc-address.mycluster.nn1&lt;/name&gt;
 &lt;value&gt;hadoop-namenode1:8020&lt;/value&gt;
 &lt;/property&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.namenode.rpc-address.mycluster.nn2&lt;/name&gt;
 &lt;value&gt;hadoop-namenode2:8020&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置nn1,nn2的http通信端口 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.namenode.http-address.mycluster.nn1&lt;/name&gt;
 &lt;value&gt;hadoop-namenode1:50070&lt;/value&gt;
 &lt;/property&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.namenode.http-address.mycluster.nn2&lt;/name&gt;
 &lt;value&gt;hadoop-namenode2:50070&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 指定namenode元数据存储在journalnode中的路径 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.namenode.shared.edits.dir&lt;/name&gt;
 &lt;value&gt;qjournal://hadoop-namenode1:8485;hadoop-namenode2:8485;hadoop-datanode1:8485/mycluster&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 指定HDFS客户端连接active namenode的java类 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.client.failover.proxy.provider.mycluster&lt;/name&gt;
 &lt;value&gt;org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置隔离机制为ssh --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.ha.fencing.methods&lt;/name&gt;
 &lt;value&gt;sshfence&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 指定秘钥的位置 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.ha.fencing.ssh.private-key-files&lt;/name&gt;
 &lt;value&gt;/home/hadoop/.ssh/id_rsa&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 指定journalnode日志文件存储的路径 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.journalnode.edits.dir&lt;/name&gt;
 &lt;value&gt;/home/hadoop/apache/hadoop-2.6.0/data/journal&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 开启自动故障转移 --&gt;
 &lt;property&gt;
 &lt;name&gt;dfs.ha.automatic-failover.enabled&lt;/name&gt;
 &lt;value&gt;true&lt;/value&gt;
 &lt;/property&gt;
 
&lt;/configuration&gt;

配置<code>mapred-site.xml</code>:

<code>cp mapred-site.xml.template mapred-site.xml</code>

<code>vim mapred-site.xml</code>

&lt;configuration&gt;
 
 &lt;!-- 指定MapReduce计算框架使用YARN --&gt;
 &lt;property&gt;
 &lt;name&gt;mapreduce.framework.name&lt;/name&gt;
 &lt;value&gt;yarn&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 指定jobhistory server的rpc地址 --&gt;
 &lt;property&gt;
 &lt;name&gt;mapreduce.jobhistory.address&lt;/name&gt;
 &lt;value&gt;hadoop-namenode1:10020&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 指定jobhistory server的http地址 --&gt;
 &lt;property&gt;
 &lt;name&gt;mapreduce.jobhistory.webapp.address&lt;/name&gt;
 &lt;value&gt;hadoop-namenode1:19888&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 开启uber模式（针对小作业的优化） --&gt;
 &lt;property&gt;
 &lt;name&gt;mapreduce.job.ubertask.enable&lt;/name&gt;
 &lt;value&gt;true&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置启动uber模式的最大map数 --&gt;
 &lt;property&gt;
 &lt;name&gt;mapreduce.job.ubertask.maxmaps&lt;/name&gt;
 &lt;value&gt;3&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置启动uber模式的最大reduce数 --&gt;
 &lt;property&gt;
 &lt;name&gt;mapreduce.job.ubertask.maxreduces&lt;/name&gt;
 &lt;value&gt;1&lt;/value&gt;
 &lt;/property&gt;
&lt;/configuration&gt;</pre>
配置<code>yarn-site.xml</code>文件:

<code>vim yarn-site.xml</code>
<pre class="lang:default decode:true ">&lt;configuration&gt;
 
 &lt;!-- NodeManager上运行的附属服务，需配置成mapreduce_shuffle才可运行MapReduce程序 --&gt; 
 &lt;property&gt;
 &lt;name&gt;yarn.nodemanager.aux-services&lt;/name&gt;
 &lt;value&gt;mapreduce_shuffle&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置Web Application Proxy安全代理（防止yarn被攻击） --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.web-proxy.address&lt;/name&gt;
 &lt;value&gt;hadoop-namenode2:8888&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 开启日志 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.log-aggregation-enable&lt;/name&gt;
 &lt;value&gt;true&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置日志删除时间为7天，-1为禁用，单位为秒 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.log-aggregation.retain-seconds&lt;/name&gt;
 &lt;value&gt;604800&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 修改日志目录 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.nodemanager.remote-app-log-dir&lt;/name&gt;
 &lt;value&gt;/logs&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置nodemanager可用的资源内存 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.nodemanager.resource.memory-mb&lt;/name&gt;
 &lt;value&gt;1024&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置nodemanager可用的资源CPU --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.nodemanager.resource.cpu-vcores&lt;/name&gt;
 &lt;value&gt;1&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- //////////////以下为YARN HA的配置////////////// --&gt;
 &lt;!-- 开启YARN HA --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.ha.enabled&lt;/name&gt;
 &lt;value&gt;true&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 启用自动故障转移 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.ha.automatic-failover.enabled&lt;/name&gt;
 &lt;value&gt;true&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 指定YARN HA的名称 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.cluster-id&lt;/name&gt;
 &lt;value&gt;yarncluster&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 指定两个resourcemanager的名称 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.ha.rm-ids&lt;/name&gt;
 &lt;value&gt;rm1,rm2&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置rm1，rm2的主机 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.hostname.rm1&lt;/name&gt;
 &lt;value&gt;hadoop-namenode1&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.hostname.rm2&lt;/name&gt;
 &lt;value&gt;hadoop-namenode2&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置YARN的http端口 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.webapp.address.rm1&lt;/name&gt;
 &lt;value&gt;hadoop-namenode1:8088&lt;/value&gt;
 &lt;/property&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.webapp.address.rm2&lt;/name&gt;
 &lt;value&gt;hadoop-namenode2:8088&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置zookeeper的地址 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.zk-address&lt;/name&gt;
 &lt;value&gt;hadoop-datanode1:2181&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置zookeeper的存储位置 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.zk-state-store.parent-path&lt;/name&gt;
 &lt;value&gt;/rmstore&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 开启yarn resourcemanager restart --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.recovery.enabled&lt;/name&gt;
 &lt;value&gt;true&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置resourcemanager的状态存储到zookeeper中 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.resourcemanager.store.class&lt;/name&gt;
 &lt;value&gt;org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 开启yarn nodemanager restart --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.nodemanager.recovery.enabled&lt;/name&gt;
 &lt;value&gt;true&lt;/value&gt;
 &lt;/property&gt;
 
 &lt;!-- 配置nodemanager IPC的通信端口 --&gt;
 &lt;property&gt;
 &lt;name&gt;yarn.nodemanager.address&lt;/name&gt;
 &lt;value&gt;0.0.0.0:45454&lt;/value&gt;
 &lt;/property&gt;
&lt;/configuration&gt;</pre>
配置<code>slave</code>文件：

<code>mkdir -p data/tmp</code>

<code>mkdir -p data/journal</code>

<code>mkdir -p data/namenode</code>

<code>mkdir -p data/datanode</code>

将hadoop工作目录同步到集群其它节点

<code>scp -r hadoop-2.6.0 hadoop@hadoop-namenode2:/home/hadoop/apache/</code>

<code>scp -r hadoop-2.6.0 hadoop@hadoop-datanode1:/home/hadoop/apache/</code>

在所有节点上配置环境变量：

<code>source ~/.bash_profile</code>

Hadoop集群初始化

在所有节点上启动<code>zookeeper</code>集群：

<code>zkServer.sh start</code>

在<code>hadoop-namenode1</code>上格式化zkfc：

<code>hdfs zkfc -formatZK</code>

启动<code>journalnode</code>（在namenode1，namenode2和datanode1上）:

<code>hadoop-daemon.sh start journalnode</code>

格式化HDFS(在hadoop-namenode1上)：

<code>hadoop namenode -format</code>

将格式化后namenode1节点hadoop工作目录中的元数据目录复制到namenode2节点

<code>scp-r /home/hadoop/apache/hadoop-2.6.0/data/namenode/* hadoop@hadoop-namenode2:/home/hadoop/apache/hadoop-2.6.0/data/namenode/</code>

启动Hadoop集群

在<code>hadoop-namenode1</code>上启动dfs：

<code>start-dfs.sh</code>

<code>start-dfs.sh</code>命令会开启以下进程：

<code>namenode (namenode1/namenode2)</code>

<code>journalnode (namenode1/namenode2/datanode1)</code>

<code>DFSZKFailoverController (namenode1/namenode2)</code>

<code>datanode (datanode1)</code>

查看进程（所有节点）：

启动YARN（在namenode2上操作）

<code>start-yarn.sh</code>

注：此命令在namenode2节点上启动了<code>ResourceManager</code>，在datanode1上启动了<code>NodeManager</code>

启动YARN上用于容灾的另一个<code>ResourceManager</code>（在namenode1上操作）

<code>yarn-daemon.sh start resourcemanager</code>

启动YARN的安全代理（在namenode2上操作）

<code>yarn-daemon.sh start proxyserver</code>

注：<code>proxyserver</code>充当防火墙的角色，提高访问集群的安全性

启动YARN的历史任务服务（namenode1上）

<code>mr-jobhistory-daemon.sh start historyserver</code>

<img class="size-full wp-image-4113 aligncenter" src="http://www.xiaoten.com/usr/uploads/2016/10/17.png" alt="17" width="486" height="125" style="">
 至此，<code>Hadoop</code>集群安装配置完成。
<h5>2.2.3.4 查看Web UI</h5>
http://hadoop-namenode1:50070，可看到NameNode为standby状态

http://hadoop-namenode2:50070，可看到NameNode为active状态

HDFS的隐藏UI页面http://hadoop-namenode1:50070/dfshealth.jsp比较好用，可以方便的查看HDFS文件信息：

（注：此处打开Browse the filesystem时可能会连接不上，则需要在Windows系统上配置Linux虚拟机的主机名和IP，具体步骤：

复制Linux虚拟机的host文件内的主机名和IP：

<code>more /etc/hosts/ //复制该文件内的主机名和IP信息</code>

写入Windows的hosts文件内：

<code>C:\Windows\System32\drivers\etc</code>

通过记事本打开hosts文件并写入复制的内容，保存）

http://hadoop-namenode2:8088，可看到ResourceManager为active状态

http://hadoop-namenode1:8088，可看到ResourceManager为standby状态，它会自动跳转到http://hadoop-namenode2:8088：

http://hadoop-namenode1:19888，可查看历史任务信息：

&nbsp;