返回导航

其他

hangge.com

Web Scraper - 免费的网页数据爬虫工具使用详解（附：抓取豆瓣图书数据示例）

作者：hangge | 2024-08-16 08:47

如果我们想从互联网上采集数据就需要用到网页数据采集工具。网页数据采集工具又被称为“网络爬虫”。网页数据采集工具有商业收费版的，也有开源免费版的。国内常见的商业收费版的有火车采集器、八爪鱼采集器等，而开源免费版的有 Web Scraper、Nutch、Webmagic 等。本文通过样例演示如何使用 Web Scraper 进行网页数据采集。

一、基本介绍

1，什么是 Web Scraper?

（1）Web Scraper 是一款直观且强大的 Chrome 浏览器插件，它通过模拟用户在网站上浏览的行为，并提从网页上提取所需要的数据。

（2）Web Scraper 提供了图形化界面，使用户能够通过简单的拖拽和点击来定义抓取规则，无需编写复杂的代码，大大提高了工作效率。

2，安装 Web Scraper 插件

打开 Chrome 浏览器，访问 Chrome 应用商店，在搜索栏中输入“Web Scraper”并安装插件即可。

二、爬虫的创建与抓取配置

1，启动 Web Scraper

使用 Chrome 浏览器打开需要进行数据抓取的网站，按下键盘 F12 快捷键进入浏览器的开发人员工具，在最右边就可以看到 Web Scraper 选项卡。

2，创建爬虫程序

（1）点击菜单的 Create new sitemap -> Create Sitemap 开始创建第一个爬虫。

提示：sitemap 直译起来是网站地图，有了该地图爬虫就可以顺着它获取到我们所需的数据。因此 sitemap 其实就可以理解为一个网站的爬虫程序，要爬取多个网站数据，就要定义多个 sitemap。

（2）接着填写相关内容后点击按钮创建即可。其中 Sitemap name 是这个爬虫的名称，Start URL 是要爬取的网页，直接把网址复制粘贴进去即可。

3，列表数据抓取配置

（1）点击“Add new selector”按钮：

（2）接着弹出新增数据元素选择器窗口，按照如下步骤进行操作：

输入 id 标识，比如我们要抓取的一周热门图书，我命名为 TopBooks
选择 type 为 Element，我们抓取的是一大片元素
勾选 Multiple，因为我们是抓取列表中多个图书元素的数据
最后我们点击 Select 开始选择目标元素

（3）对网页上的图书区域元素进行点击。当点击到第二个图书元素后，就会有多个被代码匹配的元素被标红。确保热门图书榜中的所有图书都被标红，然后点击“Done selecting”按钮。

（4）回到 Web Scraper 点击 Save Selector 按钮保存。

（5）保存后可以看到列表中新增了刚添加的选择器记录，我们点击该条记录。

（6）进入到该选择器后，我们要继续添加子选择器。点击“Add new selector”按钮：

（7）这次要抓取图书名字，具体设置如下，同样点击 Select 按钮：

（8）在页面上选中图书名字后，点击“Done selecting”按钮。

（9）回到 Web Scraper 点击 Save Selector 按钮保存。

（10）接下来要新增抓取图书对应详情页的地址的选择器，点击“Add new selector”按钮：

（11）抓取图书对应详情页的地址选择器具体设置如下，同样点击 Select 按钮：

（12）在页面上选中图书跳转链接后，点击“Done selecting”按钮。

（13）回到 Web Scraper 点击 Save Selector 按钮保存。

（14）回到爬虫的根节点目录，点击右上角的“Data preview”测试下数据是否能够正常抓取：

（15）此时会弹出一个窗口显示如下内容，说明列表数据选择器配置成功。

4，详情数据抓取配置

（1）接着就要添加图书详情页的数据选择器，首先我点击热门图书榜中任意一本图书链接，将页面跳转到详情页：

（2）回到 Web Scraper 界面，我们进入链接选择器这一层次，然后点击“Add new selector”按钮在这一层级下添加各个详情元素选择器：

（2）首先是抓取图书作者的选择器，具体设置如下，同样点击 Select 按钮：

（3）在页面上选中图书作者后，点击“Done selecting”按钮。

（4）回到 Web Scraper 点击 “Save Selector” 按钮保存。

（5）接下来要新增抓取图书评分的选择器，点击“Add new selector”按钮：

（6）抓取图书评分的选择器具体设置如下，同样点击 Select 按钮：

（7）在页面上选中图书评分后，点击“Done selecting”按钮。

（8）回到 Web Scraper 点击 “Save Selector” 按钮保存。

（9）接下来要新增抓取图书内容简介的选择器，操作同上面一样：

（10）同样在页面上选中图书内容简介后，点击“Done selecting”按钮。

（11）最后我们点击右上角的“Data preview”测试下数据是否能够正常抓取：

（12）此时会弹出一个窗口显示如下内容，说明详情数据选择器配置成功。

5，查看爬虫抓取的网站结构

（1）在 Web Scraper 菜单中选择 Selector graph 菜单项：

（2）可以看到爬虫执行的顺序结构：

三、数据的抓取与导出

1，抓取数据

（1）点击菜单的“Scrape”菜单项：

（2）根据自己的需要调整 Request interval（请求间隔）和 Page load delay （网页加载时间），点击 Start scraping 即可开始爬取数据。

（3）开始爬取后，Web Scraper 会新打开一个浏览器窗口，我们只需等待爬虫运行结束即可。而 Web Scraper 这边，我们可以点击左上角的“Refresh Data”来实时刷新展示目前已抓取的数据：

2，导出数据

（1）爬取结束后，点击“Export data”菜单项可以进行数据导出：

（2）接着选择是以 .xlsx 还是以 .csv 的格式导出数据。

（3）如果选择 .xlsx，则导出的数据内容如下：

四、爬虫的导出与导入

1，爬虫的导出

（1）如果我们想要将我们制作好的爬虫分享给别人，或者添加到另一台电脑上，可以点击“Export Sitemap”菜单项可以将爬虫结构导出：

（2）爬虫结果采用的是 json 数据格式，我们可以将其保存起来。

2，爬虫的导入

（1）如果需要导入已有的爬虫，点击“Create new sitemap”->“Import Sitemap”菜单项：

（2）将 JSON 格式的爬虫结构数据粘贴进来，点击“Import Sitemap”按钮即可。

全部评论（0）

回到顶部