使用CDH虚拟机快速搭建大数据环境教程（Hadoop、Spark、Hive、HBase）

作者：hangge | 2025-06-17 08:37

日常我们进行大数据开发时，往往需要搭建相关的大数据环境，但这个过程十分费时且麻烦。如果我们只是进行开发或者学习时，可以直接使用一些现成的环境。

Cloudera QuickStart VM 是 Cloudera 提供的一个虚拟机镜像，用于快速体验和学习 Cloudera Hadoop 生态系统及相关的大数据技术。它包含了一系列的开源软件，如 Hadoop、Spark、Hive、Impala、HBase、Sqoop、Oozie、Solr 等，以及 Cloudera Manager 等管理工具。

一、准备 Cloudera QuickStart VM 虚拟机

1，下载虚拟机

（1）cloudera-quickstart-vm 虚拟机里面已经安装好了 CDH，开箱即用十分方便，具体下载地址如下：

https://downloads.cloudera.com/demo_vm/vmware/cloudera-quickstart-vm-5.13.0-0-vmware.zip

（2）下载解压后，我们打开 VMware，File -> Open，选择刚才解压的文件夹，选择 cloudera-quickstart-vm-5.13.0-0-vmware.vmx

提示：这个虚拟机默认会使用 4G 内存，1 个 CPU，64G 的磁盘。如果希望运行地更快些，建议将内存给他分 8 个 G，CPU 分 2 个。当然保持默认的设置也是可以的。

2，启动虚拟机

（1）我们直接启动该虚拟机即可，最后可以看到这个界面，就说明启动成功了。

（2）虚拟机启动后，一般来说 CDH 中大数据的所有组件都是启动状态。如果没有启动我们可以双击桌面的“Launch Cloudera Express”图标启动。

（3）然后使用虚拟机内的浏览器访问 CDH manager 页面：

地址：quickstart.cloudera:7180/cmf/login
账号和密码均为：cloudera

（4）进来后即可看到服务页面，我们可以选择需要的组件启动。例如，我们需要进行 Hive 开发的话，就需要启动 Zookeeper、HDFS、YARN、Hive。

3，使用 SSH 连接虚拟机

默认情况下 root 用户的密码为 cloudera，我们也可以使用 SSH 工具进行连接：

二、相关组件的使用测试

1，YARN

（1）我们使用浏览器访问 http://虚拟机 IP:8088 可以访问 YARN 的 web 界面：

（2）使用浏览器访问 http://虚拟机 IP:50070 可以访问下 HDFS 的 web 界面：

2，HDFS

（1）我们执行如下命令尝试操作一下 hdfs，可以看到能够正常返回结果：

hdfs dfs -ls /

（2）使用 HDFS 的全路径尝试一下也是可以的：

注意：CDH 中启动的 Hadoop 集群，namenode 的端口号是 8020，不是 9000

hdfs dfs -ls hdfs://127.0.0.1:8020/

（3）如果上传文件或者创建目录失败，可以参考我之前写的文章进行解决：

Hadoop - 解决无法在 HDFS 目录下上传文件、创建文件夹问题（Permission denied）

3，Hive

（1）我们可以使用 hive 客户端来执行 Hive 命令：

hive -e "show databases;"

（2）也可以使用 beeline 客户端执行 Hive 命令：

注意：要指定 hdfs 用户，否则没有写入权限

beeline -u jdbc:hive2://localhost:10000 -n hdfs -e "show databases;"