一、基本介绍 (1)SparkSQL 集成 Hive,就是在 SparkSQL 中直接操作 Hive 的表。通过这种方式,可以利用 Spark 的计算引擎提高计算效率,并且不需要每次使用时临时在 SparkSQL 中创建表,从而省略了创建表的复杂过程。 注意:在 SparkSQL 中操作 Hive 表......
我之前写过文章演示了如何使用 Spark RDD 的 transformation 算子去计算每个大区当天金币收入 TopN 的主播(点击查看),但是其实现起来比较麻烦的,代码量相对来说比较多。本文我将演示如何使用 Spark SQL 来实现同样的功能,会发现使用 Spark SQL 会简单许多......
1,问题描述 在 Windows 10 和 Windows 11 中,默认情况下桌面上只有个回收站图标,没有我的电脑(此电脑)图标,这对一些用户来说可能不是很方便。 2,解决办法 (1)右键点击桌面空白处......
通常来说 MapReduce 任务是由 map 阶段和 reduce 阶段组成的,但是 reduce 阶段不是必须的,那也就意味着 MapReduce 程序可以只包含 map 阶段。下面我通过样例演示如何实现一个只包含 map 阶段的任务。 二、只包含 map 阶段样例 1,需求说明 (1)假设我们需要使用 MapReduce 实现一个单词转换功能......
一、WordCount 功能实现样例 1,需求说明 (1)假设我们需要使用 MapReduce 实现一个 WordCount 功能,即读取 HDFS 上的 hello.txt 文件,计算文件中每个单词出现的总次数。其中 hello.txt 文件内部分内容如下: hello hangge.com welcome to hangge.com......
十八、案例实操4:TopN 主播统计 1,需求描述 (1)直播平台中有大区这个概念,一个大区下面包含多个国家,我们需要计算每个大区当天金币收入 TopN 的主播。 (2)主播一天可能会开播多次,所以后期在统计主播当天收入的时候是需要把他当天所有直播中的金币收入都计算在内的......
Spark 集群有多种部署方式,比较常见的有 Standalone 模式和 ON YARN 模式 我在之前的文章介绍了如何使用 Standalone 模式部署 Spark,本文接着演示另一种 ON YARN 模式,这也是实际工作中都会使用。 五、ON YARN 模式 1,模式介绍 (1)ON YARN 模式很简单......
七月头条:Rust正在为进入前10名做准备 本月,高性能编程语言 Rust 在 TIOBE 榜单中从第 17 位跃升至第 13 位,创下了 Rust 有史以来的最高排名。虽然上升 4 个名次看似变化不大,但过去几年里,Rust 一直是业界热议的话题,却在 TIOBE 指数上进展缓慢......
1,问题描述 在使用 Windows 10 和 Windows 11 操作系统时,默认情况下文件后缀名(扩展名)是隐藏的。有时这会给我们带来一些麻烦,特别是在需要修改文件类型或确认文件格式时就不是很方便......
1,问题描述 当我们使用 IDEA 创建 Maven 项目时,系统会默认使用 maven 中央仓库下载相关依赖。但由于国内网络环境问题,有时下载速度会非常慢,严重影响开发效率。 2,解决办法 (1)我们可以通过配置阿里云的 Maven 仓库来进行加速......