1,基本介绍 (1)webmagic 是一个由国人开发的开源的 Java 垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic 的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。 (2)webmagic 的主要特色: 完全模块化的设计,强大的可扩展性......
nternet Download Manager(简称 IDM)是一款强大的下载工具,可以显著提高下载速度,并提供恢复和计划下载的功能。默认情况下 IDM 安装后只会提供一段试用时间,如果想要免费永久激活它可以按照下面步骤进行操作。 (1)确保电脑正常联网......
树形图是我们项目经常用到的一个组件。本文将介绍如何利用 Element-UI 的 tree 组件实现一个可编辑的树形结构,通过简单的操作实现节点的新增、删除和编辑功能。 1,效果图 (1)点击“新增”按钮后,在选中节点下会新增一个输入框,输入内容回车后......
MapReduce 中常见的数据压缩格式主要包括:DEFLATE、Gzip、Bzip2、Lz4、Lzo、Snappy。Hadoop 3.x 版本中已经默认集成了除 Lzo 外的其他所有压缩格式,它们的介绍和用法可以参考我之前写的文章。本文接着演示如何在 Hadoop 中集成 Lzo,使其支持 Lzo 压缩......
一、基本介绍 1,MapReduce 中常见的数据压缩格式 (1)DEFLATE DEFLATE 是同时使用了 LZ77 算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法,其底层使用的是 Zlib。 DEFLATE 压缩与解压的源代码可以在自由、通用的压缩库 Zlib 上找到......
1,问题描述 最近我在 Hadoop 上执行一个 MapReduce 任务时,发现报“找不到或无法加载主类”错误,具体错误信息如下: 2024-01-26 09:45:52,652 INFO mapreduce.Job: map 0% reduce 0% 2024-01-26 09:45:52,671 INFO mapreduce.Job: Job job_1706233227329_0003 failed with......
我们知道 MapReduce 是分为 Map 阶段和 Reduce 阶段,其实提高执行效率就是提高这两个阶段的执行效率。默认情况下 Map 阶段中 Map 任务的个数是和数据的 InputSplit 相关的,而 InputSplit 的个数一般是和 Block 块是有关联的,所以可以认为 Map 任务的个数和数据的 block 块个数有关系......
B 站下载助手是个免费好用的 Chrome 浏览器插件,可以让我们很方便地下载保存 bilibili 上的视频,支持 4K 分辨率下载。下面我将介绍如何安装并使用这个插件......
如果我们想从互联网上采集数据就需要用到网页数据采集工具。网页数据采集工具又被称为“网络爬虫”。网页数据采集工具有商业收费版的,也有开源免费版的。国内常见的商业收费版的有火车采集器、八爪鱼采集器等,而开源免费版的有 Web Scraper、Nutch、Webmagic 等。本文通过样例演示如何使用 Web Scraper 进行网页数据采集......
前文我演示了如何将小文件合并成 SequenceFile 进行存储,本文我接着演示如何通过 MapReduce 读取 SequenceFile 进行计算。 1,样例代码 (1)之前我演示过如何通过 MapReduce 读取普通文件进行单词统计,但之前的代码默认只能读取普通文本文件,对于 SequenceFile 是无法读取的......