五、Kafka 的读取与写入 1,准备工作 首先编辑项目的 pom.xml 文件,添加Kafka相关的依赖: 2,输出数据到 Kafka (1)这种方式输出离线处理的结果, 将已存在的数据分为若干批次进行处理,处理完毕后程序退出......
一、UDF(用户自定义函数) 1,基本介绍 UDF(User-Defined Function)是用户自定义函数,它允许我们在 Spark SQL 中创建自定义函数,以对 DataFrame 中的每个元素进行处理,并返回一个新的元素。 UDF 可以用于单个数据项的转换,类似于对 DataFrame 的某一列进行自定义操作......
一、SQL 语法 1,基本介绍 SQL 语法是一种结构化查询语言,用于处理和管理关系型数据。在 Spark SQL 中,我们可以使用标准的 SQL 查询语句来对注册的临时视图或者全局视图进行操作。 SQL 语法非常直观,对于熟悉 SQL 的用户来说非常友好......
一、使用集合或数组直接创建 DataSet 1,使用样例 下面代码我们定义了一个包含数据的集合和一个包含列名的数组。最后,我们通过调用 toDS 方法将集合转换为 DataFrame: import spark.implicits._ 作用是引入 SparkSession 中的隐式转换,具体功能如下......
一、使用集合或数组直接创建 DataFrame 1,使用样例 下面代码我们定义了一个包含数据的集合和一个包含列名的数组。最后,我们通过调用 toDF 方法将集合转换为 DataFrame: import spark.implicits._ 作用是引入 SparkSession 中的隐式转换,具体功能如下: 启用隐式转换:SparkSession 对象 spark 是一个特殊的......
十七、案例实操3:统计页面单跳转换率 1,数据准备 (1)我们有一个电商网站的用户行为数据文件 user_visit_action.txt,下面是截取里面一部分内容: 2,需求描述 (1)页面单跳转化率是网站转化率的一种统计形式。假设一个用户在一次 Session 过程中访问的页面路径 3,5,7,9,10,21,那么页面 3 跳到页面 5 叫一次单跳......
十六、案例实操2:统计 Top10 热门品类 1,数据准备 (1)我们有一个电商网站的用户行为数据文件 user_visit_action.txt,下面是截取里面一部分内容: (2)该文件主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下: 数据文件中每行数据采用逗号分隔数据 每一行数据表示用户的一次行为......
十一月头条:Kotlin 的排名仍然在持续上升 编程语言 Kotlin 正在取得良好进展。本月增长了 0.17%,排名从第 18 名上升到第 15 名。两个月前,当 Kotlin 进入 TIOBE 指数前 20 名时,我们已经讨论过它。Kotlin 在 2017 年迎来了第一波流行,当时 Google 宣布全面支持在 Android 上使用 Kotlin......
十五、案例实操1:统计各省点击量TOP3广告 1,需求描述 (1)我们有一个记录广告点击的日志文件 agent.log,文件内容如下(部分),其中时间戳,省份,城市,用户,广告,中间字段使用空格分隔。 (2)现要求统计出每一个省份每个广告被点击数量排行的 Top3......
十三、累加器 1,基本介绍 (1)Spark 累加器(Spark Accumulators)是一种在分布式计算环境下进行累积计算的特殊变量。在 Driver 程序中定义的变量,在 Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge......