MapReduce 中常见的数据压缩格式主要包括:DEFLATE、Gzip、Bzip2、Lz4、Lzo、Snappy。Hadoop 3.x 版本中已经默认集成了除 Lzo 外的其他所有压缩格式,它们的介绍和用法可以参考我之前写的文章。本文接着演示如何在 Hadoop 中集成 Lzo,使其支持 Lzo 压缩......
一、基本介绍 1,MapReduce 中常见的数据压缩格式 (1)DEFLATE DEFLATE 是同时使用了 LZ77 算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法,其底层使用的是 Zlib。 DEFLATE 压缩与解压的源代码可以在自由、通用的压缩库 Zlib 上找到......
1,问题描述 最近我在 Hadoop 上执行一个 MapReduce 任务时,发现报“找不到或无法加载主类”错误,具体错误信息如下: 2024-01-26 09:45:52,652 INFO mapreduce.Job: map 0% reduce 0% 2024-01-26 09:45:52,671 INFO mapreduce.Job: Job job_1706233227329_0003 failed with......
我们知道 MapReduce 是分为 Map 阶段和 Reduce 阶段,其实提高执行效率就是提高这两个阶段的执行效率。默认情况下 Map 阶段中 Map 任务的个数是和数据的 InputSplit 相关的,而 InputSplit 的个数一般是和 Block 块是有关联的,所以可以认为 Map 任务的个数和数据的 block 块个数有关系......
B 站下载助手是个免费好用的 Chrome 浏览器插件,可以让我们很方便地下载保存 bilibili 上的视频,支持 4K 分辨率下载。下面我将介绍如何安装并使用这个插件......
如果我们想从互联网上采集数据就需要用到网页数据采集工具。网页数据采集工具又被称为“网络爬虫”。网页数据采集工具有商业收费版的,也有开源免费版的。国内常见的商业收费版的有火车采集器、八爪鱼采集器等,而开源免费版的有 Web Scraper、Nutch、Webmagic 等。本文通过样例演示如何使用 Web Scraper 进行网页数据采集......
前文我演示了如何将小文件合并成 SequenceFile 进行存储,本文我接着演示如何通过 MapReduce 读取 SequenceFile 进行计算。 1,样例代码 (1)之前我演示过如何通过 MapReduce 读取普通文件进行单词统计,但之前的代码默认只能读取普通文本文件,对于 SequenceFile 是无法读取的......
1,小文件问题说明 (1)Hadoop 的 HDFS 和 MapReduce 都是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源。 针对 HDFS 而言,每一个小文件在 namenode 中都会占用 150 字节的内存空间,最终会导致集群中虽然存储了很多个文件......
1,问题描述 (1)MapReduce 任务执行时,我们在控制台上是看不到任务中的日志信息的。因为我们相当于是通过一个客户端把任务提交到集群里面去执行了,所以日志是存在在集群里面的。 (2)如果要查看日志信息,先进入到 yarn 的 web 界面,访问 8088 端口,点击对应任务的 history 链接......
1,问题描述 (1)如果一个 mapreduce 任务处理的数据量比较大的话,这个任务会执行很长时间,可能几十分钟或者几个小时都有可能。假设一个场景,任务执行了一半时我们发现我们的代码写的有问题,需要修改代码重新提交执行。这个时候之前的任务就没有必要再执行了......