1,问题描述 (1)最近在给项目中的一个 echarts 图表添加了 toolbox 工具栏: option = { toolbox: { feature: { saveAsImage: {}, // 导出图片......
二、使用高性能序列化类库 1,基本介绍 (1)Spark 默认会在一些地方对数据进行序列化,如果我们的算子函数使用到了外部的数据(比如 Java 中的自定义类型),那么也需要让其可序列化,否则程序在执行的时候是会报错的,提示没有实现序列化......
一、查看数据 cache 到内存后占用的大小 1,基本介绍 (1)Spark 是一个基于内存的计算引擎,所以对它来说,影响最大的可能就是内存,一般我们的任务如果遇到了性能瓶颈大概率都是内存的问题。 (2)当把原始文件中的数据转化为内存中的对象之后,占用的内存会比原始文件中的数据要大......
1,问题描述 最近使用 Scala 编写了个 Spark 程序,在本地运行是正常的,但打成 Jar 包使用 spark-submit 命令提交到 Spark 集群执行时就报如下错误: Exception in thread "main" java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: scala/collection/mutable/ArraySeq$ofRef at WordCount$.main......
1,问题描述 最近需要在本地使用 IDEA 进行 Spark 程序的调试,但一运行程序就报如下错误: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf at Hello$.main(Hello.scala:7) at Hello.main(Hello.scala)......
Apache Spark 是一个快速、通用的分布式计算系统,适用于大规模数据处理。为了让我们开发的应用程序能够在 Spark 集群上运行,我们需要将任务代码打包成一个可执行的 JAR 文件,并提交到 Spark 集群执行。下面我将详细演示如何完成这一过程......
1,问题描述 (1)当我们使用 Win10 或 Win11 系统自带的媒体播放器(如电影和电视)打开 HEVC (H.265 编码)格式视频时会提示“播放此视频需要新的编解码器”,如果安装的话需要收费......
在之前的文章中,我介绍了如何在 SparkSQL 中集成 Hive 并查询 Hive 表中的数据(点击查看)。实际工作中,我们不仅需要查询数据并计算结果,还希望将结果数据写入 Hive 表中。通常来说,向 Hive 表中写入数据有如下 3 种方法。 第一种:使用 inserInto() 方法......
向 Hive 表中写入数据有如下 3 种方法。 第一种:使用 inserInto() 方法。 第二种:使用 saveAsTable() 方法。 第三种:使用 SparkSQL 语句。 其中第二种不推荐使用,最常用的是第三种,用起来比较方便。我在前文介绍了第一种方法,本文接着介绍第二种使用 saveAsTable() 方法......
在之前的文章中,我介绍了如何在 SparkSQL 中集成 Hive 并查询 Hive 表中的数据。实际工作中,我们不仅需要查询数据并计算结果,还希望将结果数据写入 Hive 表中。通常来说,向 Hive 表中写入数据有如下 3 种方法。 第一种:使用 inserInto() 方法......