Hadoop - 安装Hadoop客户端教程

作者：hangge | 2024-06-27 08:27

在实际工作中，不建议直接登录集群中的节点来操作集群，因为把集群中节点的访问权限暴露给普通开发人员是不安全的。因此我们需要一个专门的 Hadoop 的客户端节点来对集群操作。本文将演示如何安全 Hadoop 客户端。

（1）要在业务机器上安装 Hadoop 客户端，只需要保证业务机器上安装的 Hadoop 客户端的配置和集群中的配置一致即可。这样就可以在业务机器上操作 Hadoop 集群了，此机器可以被看作 Hadoop 的客户端节点。

（2）Hadoop 的客户端节点可能会有多个，理论上我们想要在哪台机器上操作 Hadoop 集群，就把这台机器配置为 Hadoop 的客户端节点。Hadoop 客户端节点和 Hadoop 集群的关系如下图所示：

由于 Hadoop 是用 Java 编写的，因此首先我需要在客户端节点上安装 JDK，建议使用企业中常用的 JDK 1.8 版本，具体可以参考我之前写的文章：

（1）Hadoop 客户端节点最简单的安装方式是把集群中修改好配置的 Hadoop 安装包直接复制过来。比如我们已经部署了一个 Hadoop 集群，其中主节点是 node1。

（2）我们到 node1 节点上执行如下命令将配置好的 hadoop 目录复制到客户端节点上，注意下面客户端节点 IP 根据实际情况修改。

scp -rq /usr/local/hadoop 172.31.25.4:/usr/local/

（3）由于 node1 和客户端节点没有做免密码登录，所以在使用 scp 命令执行远程复制时需要输入密码。

（4）为了方便在客户端节点上操作 Hadoop 集群，建议修改客户端节点的“/etc/hosts”文件，增加集群中所有节点的主机名和 IP 地址的映射关系。

echo '
172.31.4.99 node1
172.31.3.72 node2
172.31.6.103 node3' >> /etc/hosts

提示：Hadoop 目录下面有两个重要的目录：bin 目录和 sbin 目录。要操作 Hadoop，则需要用到这两个目录下的一些脚本。为了后期使用方便，建议配置 HADOOP_HOME 环境变量，并将 bin 目录和 sbin 目录添加到 PATH 环境变量中。

（1）首先执行如下命令编辑系统 profile 文件：

vi /etc/profile

（2）在文件尾部添加如下内容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

（3）最后执行如下命令使配置生效：

source /etc/profile

（1）我们在客户端节点上执行如下命令将本地的一个 README.txt 文件上传到 HDFS 的根目录下。

hdfs dfs -put /usr/local/hadoop/README.txt hdfs://node1:9000/

（2）然后执行如下命令查询 HDFS 根目录下的文件信息。

hdfs dfs -ls hdfs://node1:9000/

（3）控制台输出如下内容，说明客户端工作正常。

大数据