四、提高并行度 1,并行度介绍 (1)Spark 会自动设置以文件作为输入源的 RDD 的并行度,依据其大小,比如 HDFS,就会给每一个 block 创建一个 partition,也依据这个设置并行度。对于 reduceByKey 等会发生 shuffle 操作的算子,会使用并行度最大的父 RDD 的并行度......
三、JVM 垃圾回收调优 1,Java 中的 GC 介绍 (1)Java 堆空间被划分成了两块空间:一个是年轻代,一个是老年代。 年轻代放的是短时间存活的对象,占堆内存的 1/3。 老年代放的是长时间存活的对象,占堆内存的 2/3。 (2)其中年轻代又被划分了三块,Eden、Survivor1、Survivor2......
1,问题描述 (1)最近在给项目中的一个 echarts 图表添加了 toolbox 工具栏: option = { toolbox: { feature: { saveAsImage: {}, // 导出图片......
二、使用高性能序列化类库 1,基本介绍 (1)Spark 默认会在一些地方对数据进行序列化,如果我们的算子函数使用到了外部的数据(比如 Java 中的自定义类型),那么也需要让其可序列化,否则程序在执行的时候是会报错的,提示没有实现序列化......
一、查看数据 cache 到内存后占用的大小 1,基本介绍 (1)Spark 是一个基于内存的计算引擎,所以对它来说,影响最大的可能就是内存,一般我们的任务如果遇到了性能瓶颈大概率都是内存的问题。 (2)当把原始文件中的数据转化为内存中的对象之后,占用的内存会比原始文件中的数据要大......
1,问题描述 最近使用 Scala 编写了个 Spark 程序,在本地运行是正常的,但打成 Jar 包使用 spark-submit 命令提交到 Spark 集群执行时就报如下错误: Exception in thread "main" java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: scala/collection/mutable/ArraySeq$ofRef at WordCount$.main......
1,问题描述 最近需要在本地使用 IDEA 进行 Spark 程序的调试,但一运行程序就报如下错误: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf at Hello$.main(Hello.scala:7) at Hello.main(Hello.scala)......
Apache Spark 是一个快速、通用的分布式计算系统,适用于大规模数据处理。为了让我们开发的应用程序能够在 Spark 集群上运行,我们需要将任务代码打包成一个可执行的 JAR 文件,并提交到 Spark 集群执行。下面我将详细演示如何完成这一过程......
1,问题描述 (1)当我们使用 Win10 或 Win11 系统自带的媒体播放器(如电影和电视)打开 HEVC (H.265 编码)格式视频时会提示“播放此视频需要新的编解码器”,如果安装的话需要收费......
在之前的文章中,我介绍了如何在 SparkSQL 中集成 Hive 并查询 Hive 表中的数据(点击查看)。实际工作中,我们不仅需要查询数据并计算结果,还希望将结果数据写入 Hive 表中。通常来说,向 Hive 表中写入数据有如下 3 种方法。 第一种:使用 inserInto() 方法......