`

Web Scraper-牛逼的东西就在身边

 
阅读更多

使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆、验证码、异步加载等复杂问题。

技术分享

Web Scraper插件

Web Scraper 官网中的简介:

Web Scraper Extension (Free!)
Using our extension you can create a plan (sitemap) how a web site should be traversed and what should be extracted. Using these sitemaps the Web Scraper will navigate the site accordingly and extract all data. Scraped data later can be exported as CSV.

先看一下,我用 web scaper 爬取到的数据:

1. 知乎轮子哥粉丝

轮子哥有 54 万多粉丝,我只抓取了前 20 页400条记录

技术分享

设定数据字段

技术分享

2.简书七日热门数据

技术分享

运行爬虫得到数据

技术分享

导出数据

技术分享

Web Scraper 抓取流程及要点:

安装Web Scraper插件后,三步完成爬取操作
1、Create new sitemap(创建爬取项目)
2、选取爬取网页中的内容,点~点~点,操作
3、开启爬取,下载CSV数据

其中最关键的是第二步,两个要点:

  1. 先选中数据块 Element,每块数据我们在页面上取,都是重复的,选中 Multiple
  2. 在数据块中再取需要的数据字段(上图Excel中的列)

爬取大量数据的要点,在于掌握分页的控制。
分页分为3种情况:

  1. URL 参数分页(比较规整方式)
    URL 中带有分页的 page 参数的,如:

    https://www.zhihu.com/people/excited-vczh/followers?page=2

    直接在创建sitemap时,Start URL中就可以带上分页参数,写成这样:

    https://www.zhihu.com/people/excited-vczh/followers?page=[1-27388]
  2. 滚动加载,点击“加载更多” 加载页面数据

  3. 点击分页数字标签(包括“下一页”标签)
    注意,这里第2-3种可以归为一类方式,是异步加载的方式,大部分都可以转为第1种的方式来处理。
    这种方式分页不太好控制。一般使用 Link 或 Element click 来实现分页的操作。

图示 Web Scraper 操作步骤:

技术分享

第一步:创建sitemap

技术分享

第二步:选取块数据Element

技术分享

第三步:选取抓取的字段text

技术分享

第四步:爬取

Web Scaper 使用体会:

1) 除了规整的分页方式外,其他分页方式不好控制,不同的网站受页面标签不同,操作也不一样。

2) 因为直接抓取页面显示值,抓取数据规整度不太好,需要 EXCEL 函数处理。
如,简书七日热门中文章发表时间,格式有好几种。

3) 有一点网页代码基础的上手很快,代码才是王道啊。
特别是有点Python爬虫基础的,在选取页面数据中很容易操作、理解,发现操作中出现的问题。

4) 比起八爪鱼、火车头等数据采集器,web scraper不需要下载软件,免费,无需注册,还很体会一点点代码的操作。当然 web scraper 也有付费的云爬虫。

Web Scraper 还可以导入sitemap,把下面的这段代码导入,你就可以抓取到知乎轮子哥前20页的粉丝:

{"startUrl":"https://www.zhihu.com/people/excited-vczh/followers?page=[1-20]","selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"items","selector":"div.List-item","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"desc","selector":"div.RichText","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"answers","selector":"span.ContentItem-statusItem:nth-of-type(1)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"articles","selector":"span.ContentItem-statusItem:nth-of-type(2)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"fans","selector":"span.ContentItem-statusItem:nth-of-type(3)","regex":"","delay":""}],"_id":"zh_vczh"}

PS, Web Scraper 资料教程

  1. 官网中的视频教程
    http://webscraper.io/tutorials

  2. 知乎@陈大欣 的回答 中写了详细的步骤,并录制了视频教程。

    这个问题来源 零基础如何学爬虫技术? @陈大欣 在文章中把 Excel 爬虫,web scraper,代码爬虫做了比较分析。

分享到:
评论

相关推荐

    Byteline Web Scraper-2.2.16.zip

    名称:Byteline Web Scraper ---------------------------------------- 版本:2.2.16 作者:https://www.byteline.io/ 分类:生产工具 ---------------------------------------- 概述:BYTELEL Web Scraper用于...

    website-scraper-puppeteer-master.rar

    在描述中,"website-scraper-puppeteer-master.rar"可能指的是一个完整的项目源代码压缩包,其中包含了一个名为"website-scraper-puppeteer-master.zip"的子文件。这个压缩文件很可能是项目的核心部分,包含了用于...

    Web Scraper - Free Web Scraping-crx插件

    Web Scraper在您的浏览器中运行,不需要在计算机上安装任何东西。 您不需要任何Python,PHP或JavaScript编码经验即可开始使用Web Scraper进行抓取。 此外,Web Scraper还为您提供了完全自动化Web Scraper Cloud中...

    Python库 | cazy_webscraper-2.0.3-py3-none-any.whl

    资源分类:Python库 所属语言:Python 资源全名:cazy_webscraper-2.0.3-py3-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    Python库 | cazy_webscraper-2.0.10-py3-none-any.whl

    资源分类:Python库 所属语言:Python 资源全名:cazy_webscraper-2.0.10-py3-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    Python库 | stimson-web-scraper-0.0.62.tar.gz

    在解压后,主要文件为“stimson-web-scraper-0.0.62”。 在Python世界里,库(Library)是预编写好的代码模块,它们提供了各种功能,帮助开发者更高效地编写程序。"stimson-web-scraper" 应该是一个专门设计用于...

    Keyword_Scraper_-_by_xRisky_keyword_

    本文将深入探讨由xRisky开发的关键词抓取工具——Keyword Scraper,揭示其工作原理、功能及其在实际应用中的价值。 Keyword Scraper是一款专为生成关键词而设计的工具,它的主要目标是帮助用户快速地收集和分析与...

    Python库 | stimson-web-scraper-0.0.22.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:stimson-web-scraper-0.0.22.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    web scraper 离线安装包

    web scraper插件 离线安装包,适合没有科学上网的小伙伴。 打开Google浏览器,打开 开发者模式,然后将这个 离线安装包拖拽至Google浏览器中即可。

    chrome爬虫插件 webscraper中文教程

    在Web Scraper中,可以通过输入URL或拖拽链接来创建Sitemap。对于存在序列关系的多个URL,可以设置它们的层级关系,以便爬虫按照特定顺序遍历页面。 2. **创建选择器(Selector)**:选择器是定义爬取数据的关键。在...

    web-scraper-chrome-extension:Web数据提取工具实现为chrome扩展

    网页刮板Web Scraper是chrome浏览器扩展程序,用于从网页提取数据。 使用此扩展,您可以创建计划(站点地图)如何遍历网站以及应提取什么内容。 使用这些站点地图,Web Scraper将相应地导航该站点并提取所有数据。 ...

    PyPI 官网下载 | hdx-scraper-geonode-1.2.5.tar.gz

    在PyPI官网上,我们可以找到名为“hdx-scraper-geonode-1.2.5.tar.gz”的压缩包,这是一款特定版本的Python库,专为地理空间数据管理设计。 这个库的名称“hdx-scraper-geonode”揭示了它的主要功能。"HDX"可能指的...

    PyPI 官网下载 | async-itunes-app-scraper-dmi-0.9.5.tar.gz

    标题中的"PyPI 官网下载 | async-itunes-app-scraper-dmi-0.9.5.tar.gz"表明这是一个从Python Package Index (PyPI)官方下载的软件包,名为`async-itunes-app-scraper-dmi-0.9.5`,且格式为tar.gz。PyPI是Python社区...

    Webscraper-bot:Webscraper Discord机器人

    在Webscraper-bot的实现中,开发者可能会创建一个事件驱动的系统,监听用户的命令,根据命令执行相应的网页抓取任务,并将结果返回到指定的Discord频道。为了确保效率和可扩展性,可能还会涉及多线程处理、错误处理...

    WebScraper - Web Data Extraction-开源

    在WebScraper中,用户可以利用这个功能定制化地定义他们想要抓取的数据结构,无论是网页上的文字、链接、图片还是其他元素。通过这种方式,WebScraper可以适应各种不同的网页布局和数据格式,从而实现高效的数据抽取...

    PyPI 官网下载 | rentswatch-scraper-0.11.0.tar.gz

    总的来说,"rentswatch-scraper-0.11.0.tar.gz"是一个用于RentSwatch网站数据抓取的Python库,它结合了Python的Web抓取技术,为用户提供了一个便捷的数据获取和分析平台。开发者可以通过学习和使用这个库,了解如何...

    Python库 | insta-scraper-1.1.3.tar.gz

    只需调用`insta_scraper.hashtag()`函数,输入想要搜索的标签,系统就会返回相关的结果。 此外,insta-scraper还提供了对Instagram故事(Story)的抓取功能。虽然Instagram的API不直接支持故事的获取,但insta-...

    web-scraper-chrome-extension:实现为chrome扩展的Web数据提取工具

    网络刮板Web Scraper是chrome浏览器扩展程序,用于从网页提取数据。 使用此扩展程序,您可以创建计划(站点地图)如何遍历网站以及应提取什么内容。 使用这些站点地图,Web Scraper将相应地导航该站点并提取所有数据...

Global site tag (gtag.js) - Google Analytics