返回 导航

大数据

hangge.com

使用CDH虚拟机快速搭建大数据环境教程(Hadoop、Spark、Hive、HBase)

作者:hangge | 2025-06-17 08:37
    日常我们进行大数据开发时,往往需要搭建相关的大数据环境,但这个过程十分费时且麻烦。如果我们只是进行开发或者学习时,可以直接使用一些现成的环境。
    Cloudera QuickStart VMCloudera 提供的一个虚拟机镜像,用于快速体验和学习 Cloudera Hadoop 生态系统及相关的大数据技术。它包含了一系列的开源软件,如 HadoopSparkHiveImpalaHBaseSqoopOozieSolr 等,以及 Cloudera Manager 等管理工具。

一、准备 Cloudera QuickStart VM 虚拟机

1,下载虚拟机

(1)cloudera-quickstart-vm 虚拟机里面已经安装好了 CDH,开箱即用十分方便,具体下载地址如下:

(2)下载解压后,我们打开 VMwareFile -> Open,选择刚才解压的文件夹,选择 cloudera-quickstart-vm-5.13.0-0-vmware.vmx
提示:这个虚拟机默认会使用 4G 内存,1CPU64G 的磁盘。如果希望运行地更快些,建议将内存给他分 8GCPU2 个。当然保持默认的设置也是可以的。

2,启动虚拟机

(1)我们直接启动该虚拟机即可,最后可以看到这个界面,就说明启动成功了。

(2)虚拟机启动后,一般来说 CDH 中大数据的所有组件都是启动状态。如果没有启动我们可以双击桌面的“Launch Cloudera Express”图标启动。

(3)然后使用虚拟机内的浏览器访问 CDH manager 页面:

(4)进来后即可看到服务页面,我们可以选择需要的组件启动。例如,我们需要进行 Hive 开发的话,就需要启动 ZookeeperHDFSYARNHive

3,使用 SSH 连接虚拟机

默认情况下 root 用户的密码为 cloudera,我们也可以使用 SSH 工具进行连接:

二、相关组件的使用测试

1,YARN

(1)我们使用浏览器访问 http://虚拟机 IP:8088 可以访问 YARNweb 界面:

(2)使用浏览器访问 http://虚拟机 IP:50070 可以访问下 HDFSweb 界面:

2,HDFS

(1)我们执行如下命令尝试操作一下 hdfs,可以看到能够正常返回结果:
hdfs dfs -ls /

(2)使用 HDFS 的全路径尝试一下也是可以的:
注意CDH 中启动的 Hadoop 集群,namenode 的端口号是 8020,不是 9000
hdfs dfs -ls hdfs://127.0.0.1:8020/

(3)如果上传文件或者创建目录失败,可以参考我之前写的文章进行解决:

3,Hive

(1)我们可以使用 hive 客户端来执行 Hive 命令:
hive -e "show databases;"

(2)也可以使用 beeline 客户端执行 Hive 命令:
注意:要指定 hdfs 用户,否则没有写入权限
beeline -u jdbc:hive2://localhost:10000 -n hdfs -e "show databases;"

评论

全部评论(0)

回到顶部