返回 导航

其他

hangge.com

Web Scraper - 免费的网页数据爬虫工具使用详解(附:抓取豆瓣图书数据示例)

作者:hangge | 2024-08-16 08:47
    如果我们想从互联网上采集数据就需要用到网页数据采集工具。网页数据采集工具又被称为“网络爬虫”。网页数据采集工具有商业收费版的,也有开源免费版的。国内常见的商业收费版的有火车采集器、八爪鱼采集器等,而开源免费版的有 Web ScraperNutchWebmagic 等。本文通过样例演示如何使用 Web Scraper 进行网页数据采集。 

一、基本介绍

1,什么是 Web Scraper?

(1)Web Scraper 是一款直观且强大的 Chrome 浏览器插件,它通过模拟用户在网站上浏览的行为,并提从网页上提取所需要的数据。
(2)Web Scraper 提供了图形化界面,使用户能够通过简单的拖拽和点击来定义抓取规则,无需编写复杂的代码,大大提高了工作效率。

2,安装 Web Scraper 插件

打开 Chrome 浏览器,访问 Chrome 应用商店,在搜索栏中输入“Web Scraper”并安装插件即可。

二、爬虫的创建与抓取配置

1,启动 Web Scraper

    使用 Chrome 浏览器打开需要进行数据抓取的网站,按下键盘 F12 快捷键进入浏览器的开发人员工具,在最右边就可以看到 Web Scraper 选项卡。

2,创建爬虫程序

(1)点击菜单的 Create new sitemap -> Create Sitemap 开始创建第一个爬虫。
提示sitemap 直译起来是网站地图,有了该地图爬虫就可以顺着它获取到我们所需的数据。因此 sitemap 其实就可以理解为一个网站的爬虫程序,要爬取多个网站数据,就要定义多个 sitemap

(2)接着填写相关内容后点击按钮创建即可。其中 Sitemap name 是这个爬虫的名称,Start URL 是要爬取的网页,直接把网址复制粘贴进去即可。

3,列表数据抓取配置

(1)点击“Add new selector”按钮:

(2)接着弹出新增数据元素选择器窗口,按照如下步骤进行操作:
  • 输入 id 标识,比如我们要抓取的一周热门图书,我命名为 TopBooks
  • 选择 type Element,我们抓取的是一大片元素
  • 勾选 Multiple,因为我们是抓取列表中多个图书元素的数据
  • 最后 我们点击 Select 开始选择目标元素

(3)对网页上的图书区域元素进行点击。当点击到第二个图书元素后,就会有多个被代码匹配的元素被标红。确保热门图书榜中的所有图书都被标红,然后点击“Done selecting”按钮。

(4)回到 Web Scraper 点击 Save Selector 按钮保存。

(5)保存后可以看到列表中新增了刚添加的选择器记录,我们点击该条记录。

(6)进入到该选择器后,我们要继续添加子选择器。点击“Add new selector”按钮:

(7)这次要抓取图书名字,具体设置如下,同样点击 Select 按钮:

(8)在页面上选中图书名字后,点击“Done selecting”按钮。

(9)回到 Web Scraper 点击 Save Selector 按钮保存。

(10)接下来要新增抓取图书对应详情页的地址的选择器,点击“Add new selector”按钮:

(11)抓取图书对应详情页的地址选择器具体设置如下,同样点击 Select 按钮:

(12)在页面上选中图书跳转链接后,点击“Done selecting”按钮。

(13)回到 Web Scraper 点击 Save Selector 按钮保存。

(14)回到爬虫的根节点目录,点击右上角的“Data preview”测试下数据是否能够正常抓取:

(15)此时会弹出一个窗口显示如下内容,说明列表数据选择器配置成功。

4,详情数据抓取配置

(1)接着就要添加图书详情页的数据选择器,首先我点击热门图书榜中任意一本图书链接,将页面跳转到详情页:

(2)回到 Web Scraper 界面,我们进入链接选择器这一层次,然后点击“Add new selector”按钮在这一层级下添加各个详情元素选择器:

(2)首先是抓取图书作者的选择器,具体设置如下,同样点击 Select 按钮:

(3)在页面上选中图书作者后,点击“Done selecting”按钮。

(4)回到 Web Scraper 点击 “Save Selector” 按钮保存。

(5)接下来要新增抓取图书评分的选择器,点击“Add new selector”按钮:

(6)抓取图书评分的选择器具体设置如下,同样点击 Select 按钮:

(7)在页面上选中图书评分后,点击“Done selecting”按钮。

(8)回到 Web Scraper 点击 “Save Selector” 按钮保存。

(9)接下来要新增抓取图书内容简介的选择器,操作同上面一样:

(10)同样在页面上选中图书内容简介后,点击“Done selecting”按钮。

(11)最后我们点击右上角的“Data preview”测试下数据是否能够正常抓取:

(12)此时会弹出一个窗口显示如下内容,说明详情数据选择器配置成功。


5,查看爬虫抓取的网站结构

(1)在 Web Scraper 菜单中选择 Selector graph 菜单项:

(2)可以看到爬虫执行的顺序结构:

三、数据的抓取与导出

1,抓取数据

(1)点击菜单的“Scrape”菜单项:

(2)根据自己的需要调整 Request interval(请求间隔)和 Page load delay (网页加载时间),点击 Start scraping 即可开始爬取数据。

(3)开始爬取后,Web Scraper 会新打开一个浏览器窗口,我们只需等待爬虫运行结束即可。而 Web Scraper 这边,我们可以点击左上角的“Refresh Data”来实时刷新展示目前已抓取的数据:

2,导出数据

(1)爬取结束后,点击“Export data”菜单项可以进行数据导出:

(2)接着选择是以 .xlsx 还是以 .csv 的格式导出数据。

(3)如果选择 .xlsx,则导出的数据内容如下:

四、爬虫的导出与导入

1,爬虫的导出

(1)如果我们想要将我们制作好的爬虫分享给别人,或者添加到另一台电脑上,可以点击“Export Sitemap”菜单项可以将爬虫结构导出:

(2)爬虫结果采用的是 json 数据格式,我们可以将其保存起来。

2,爬虫的导入

(1)如果需要导入已有的爬虫,点击“Create new sitemap”->“Import Sitemap”菜单项:

(2)将 JSON 格式的爬虫结构数据粘贴进来,点击“Import Sitemap”按钮即可。
评论

全部评论(0)

回到顶部