一、使用集合或数组直接创建 DataSet 1,使用样例 下面代码我们定义了一个包含数据的集合和一个包含列名的数组。最后,我们通过调用 toDS 方法将集合转换为 DataFrame: import spark.implicits._ 作用是引入 SparkSession 中的隐式转换,具体功能如下......
一、使用集合或数组直接创建 DataFrame 1,使用样例 下面代码我们定义了一个包含数据的集合和一个包含列名的数组。最后,我们通过调用 toDF 方法将集合转换为 DataFrame: import spark.implicits._ 作用是引入 SparkSession 中的隐式转换,具体功能如下: 启用隐式转换:SparkSession 对象 spark 是一个特殊的......
十七、案例实操3:统计页面单跳转换率 1,数据准备 (1)我们有一个电商网站的用户行为数据文件 user_visit_action.txt,下面是截取里面一部分内容: 2,需求描述 (1)页面单跳转化率是网站转化率的一种统计形式。假设一个用户在一次 Session 过程中访问的页面路径 3,5,7,9,10,21,那么页面 3 跳到页面 5 叫一次单跳......
十六、案例实操2:统计 Top10 热门品类 1,数据准备 (1)我们有一个电商网站的用户行为数据文件 user_visit_action.txt,下面是截取里面一部分内容: (2)该文件主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下: 数据文件中每行数据采用逗号分隔数据 每一行数据表示用户的一次行为......
十一月头条:Kotlin 的排名仍然在持续上升 编程语言 Kotlin 正在取得良好进展。本月增长了 0.17%,排名从第 18 名上升到第 15 名。两个月前,当 Kotlin 进入 TIOBE 指数前 20 名时,我们已经讨论过它。Kotlin 在 2017 年迎来了第一波流行,当时 Google 宣布全面支持在 Android 上使用 Kotlin......
十五、案例实操1:统计各省点击量TOP3广告 1,需求描述 (1)我们有一个记录广告点击的日志文件 agent.log,文件内容如下(部分),其中时间戳,省份,城市,用户,广告,中间字段使用空格分隔。 (2)现要求统计出每一个省份每个广告被点击数量排行的 Top3......
十三、累加器 1,基本介绍 (1)Spark 累加器(Spark Accumulators)是一种在分布式计算环境下进行累积计算的特殊变量。在 Driver 程序中定义的变量,在 Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge......
十一、HBase 的读取与写入 1,准备工作 (1)首先我们需要在项目的 pom.xml 文件中添加 HBase 相关依赖项。 (2)接着我们编写一段代码测试对 HBase 的数据读写操作(与 Spark 无关): import org.apache.hadoop.hbase.{HBaseConfiguration, TableName} ......
十二、文件的读取与保存 1,读取与保存文本文件 (1)使用 textFile 方法可以从本地文件系统或者分布式文件系统(HDFS)上读取文本文件,该方法返回一个 RDD 对象......
十、RDD 缓存(Cache) 1,缓存的使用 (1)缓存是指将 RDD 的计算结果存储在内存中,以便后续的重复使用。通过缓存 RDD,可以避免每次需要使用 RDD 时都重新计算,从而提高 Spark 应用程序的性能...... 比如下面样例,我们分别实现了单词数量统计和单词分组这两个功能,