Hive 可以使用 Shell 命令行方式操作,也可以使用 JDBC 代码的方式操作,还可以使用一些可视化工具操作。下面我将通过样例演示这三种操作方式。 一、Shell 命令行 1,基本介绍 (1)对于 Shell 命令行方式还可以细分为两种客户端:hive 客户端和 beeline 客户端......
Hive 目前主要有 3 大版本:Hive 1.x、Hive 2.x 和 Hive 3.x,这几个版本在本质上没有特别大的差别,主要是在细节和性能上有所区别。我们需要根据 Hadoop 集群版本,来选择对应的 Hive 版本。例如我使用的 Hadoop 的是 3.x 版本,那么 Hive 也选择 3.x 版本会比较合适的。下面我将演示如何进行 Hive 的安装部署......
1,什么是 Hive? (1)Hive 是由 Facebook 开源的一款数据分析工具,主要用来进行数据提取、转化和加载(ETL),于 2010 年正式成为 Apache 的顶级项目。 (2)Hive 的出现主要是为了解决 MapReduce 程序开发复杂的问题,它提供了通过 SQL 分析 HDFS 中海量数据的能力......
一、基本介绍 1,什么是 OLAP? 联机分析处理(Online Analytical Processing,OLAP)是一种数据分析技术,用于支持复杂的分析操作,侧重为决策人员和高层管理人员提供决策支持。 2,OLAP 的起源 (1)20 世纪 60 年代,关系数据库之父 Edgar F.Codd 提出了关系模型......
我在之前的文章中演示了如何通过集成 hbase-client 来对 HBase 表进行创建、删除、数据插入、查询等操作,以及如何使用 Filter 进行过滤操作。本文将在前面的基础上,演示如何实现分页查询。 三、分页查询 1,实现思路 (1)核心思路是使用 PageFilter 过滤器 + 循环动态设置 startRow 实现......
Windows 自动更新是保持系统安全性和稳定性的重要功能,但有时候自动更新可能会带来一些不便,尤其是当我们不希望系统在工作中断时自动重启或安装更新。 通常来说要彻底的禁用 Windows 自动更新还是比较麻烦的,需要需要手动禁用 Windows Update 服务......
要在 Windows 系统上进行 Java 开发,首先需要安装 Java 开发工具包(JDK)。本文我将以 Win10 系统为例,详细介绍如何下载、安装和配置 JDK。 1,JDK 的下载与安装 (1)首先访问 Oracle 的开发者官网,点击顶部菜单的“Downloads”菜单,然后点击最下方的“All Java Downloads”链接......
1,问题描述 (1)我们知道 YARN 主要负责管理集群中的 CPU 和内存资源。NodeManager 节点在启动时,会自动向 ResourceManager 节点注册,将当前节点上的可用 CPU 和内存信息注册进去。这样所有的 NodeManager 注册完成后,ResourceManager 就知道目前集群的资源总量了......
一、YARN 中的调度器说明 1,为什么需要调度器? (1)我们集群的资源是有限的,在实际工作中会有很多人向集群中提交任务,那么这个时候调度器就会决定资源如何分配。 (2)又比如我们提交了一个很占资源的任务,如果这一个任务就把集群中 90% 的资源都占用了......
1,分布式资源管理系统 (1)在传统的 IT 领域中,企业的服务器资源(内存、CPU 等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来......