使用CDH虚拟机快速搭建大数据环境教程(Hadoop、Spark、Hive、HBase)
作者:hangge | 2025-06-17 08:37
日常我们进行大数据开发时,往往需要搭建相关的大数据环境,但这个过程十分费时且麻烦。如果我们只是进行开发或者学习时,可以直接使用一些现成的环境。




Cloudera QuickStart VM 是 Cloudera 提供的一个虚拟机镜像,用于快速体验和学习 Cloudera Hadoop 生态系统及相关的大数据技术。它包含了一系列的开源软件,如 Hadoop、Spark、Hive、Impala、HBase、Sqoop、Oozie、Solr 等,以及 Cloudera Manager 等管理工具。





一、准备 Cloudera QuickStart VM 虚拟机
1,下载虚拟机
(1)cloudera-quickstart-vm 虚拟机里面已经安装好了 CDH,开箱即用十分方便,具体下载地址如下:
(2)下载解压后,我们打开 VMware,File -> Open,选择刚才解压的文件夹,选择 cloudera-quickstart-vm-5.13.0-0-vmware.vmx
提示:这个虚拟机默认会使用 4G 内存,1 个 CPU,64G 的磁盘。如果希望运行地更快些,建议将内存给他分 8 个 G,CPU 分 2 个。当然保持默认的设置也是可以的。
2,启动虚拟机
(1)我们直接启动该虚拟机即可,最后可以看到这个界面,就说明启动成功了。

(2)虚拟机启动后,一般来说 CDH 中大数据的所有组件都是启动状态。如果没有启动我们可以双击桌面的“Launch Cloudera Express”图标启动。

(3)然后使用虚拟机内的浏览器访问 CDH manager 页面:
- 地址:quickstart.cloudera:7180/cmf/login
- 账号和密码均为:cloudera

(4)进来后即可看到服务页面,我们可以选择需要的组件启动。例如,我们需要进行 Hive 开发的话,就需要启动 Zookeeper、HDFS、YARN、Hive。

3,使用 SSH 连接虚拟机
默认情况下 root 用户的密码为 cloudera,我们也可以使用 SSH 工具进行连接:

二、相关组件的使用测试
1,YARN
(1)我们使用浏览器访问 http://虚拟机 IP:8088 可以访问 YARN 的 web 界面:

(2)使用浏览器访问 http://虚拟机 IP:50070 可以访问下 HDFS 的 web 界面:

2,HDFS
(1)我们执行如下命令尝试操作一下 hdfs,可以看到能够正常返回结果:
hdfs dfs -ls /
(2)使用 HDFS 的全路径尝试一下也是可以的:
注意:CDH 中启动的 Hadoop 集群,namenode 的端口号是 8020,不是 9000
hdfs dfs -ls hdfs://127.0.0.1:8020/

(3)如果上传文件或者创建目录失败,可以参考我之前写的文章进行解决:
3,Hive
(1)我们可以使用 hive 客户端来执行 Hive 命令:
hive -e "show databases;"

(2)也可以使用 beeline 客户端执行 Hive 命令:
注意:要指定 hdfs 用户,否则没有写入权限
beeline -u jdbc:hive2://localhost:10000 -n hdfs -e "show databases;"

全部评论(0)