让爬虫轻松一点~（一） - - ITeye博客

`

debbbbie

浏览: 27238 次
性别:
来自: 北京

最近访客更多访客>>

picksun

Variazioni

e_e

柏新星

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

让爬虫轻松一点~（一）

博客分类：

ruby
useragent
spider

阅读更多

在信息大爆炸的互联网，数据多的烦不胜数，想要人为的统计某类信息，恐怕越来越难了，这时候就需要爬虫的帮助了，一如 360 爬取百度的百科、知道，一淘爬取各大电商的产品、用户评论，百姓网从赶集网页面上收集其用户公开的 QQ 邮箱并发送推广邮件。。。

随着爬虫的发展，已经严重危害了目标网站的服务质量及数据安全，于是他们开始各种围追堵截。道高一尺魔高一丈，我们的爬虫终究能够突破层层壁垒，拿到想要的数据。

今天，我们就做一件事，让爬虫更智能。一般的服务器都会判断访问来源的 User-Agent，适时的更好一下你的 User-Agent，无非是个明智之举。 Gem useragents，已经为您封装了此项需求，只需拿来即用就行。用法非常简单：

首先安装一下本 gem，gem install useragents。

然后对代码：

    require 'httparty'
    HTTParty.get('http://ruby-china.org')

更改成这样即可

    require 'useragents'

    agent = UserAgents.rand()
    # => "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1464.0 Safari/537.36"
    HTTParty.get('http://ruby-china.org', :headers => {'User-Agent' => agent})

useragents 全部收集于流行浏览器 Chrome, Opera, Safari, InternetExplorer, Firexof，并剔除了其中的老旧版本，最终保留了 500 多个 User-Agent，并会定时更新。

附上 github 地址 https://github.com/debbbbie/useragents-rb，欢迎 fork 或提交 issues 。

分享到：

解析 Github 的默认头像

2013-12-21 19:50
浏览 979
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

爬虫技术的代码: 爬虫，也称为网络爬虫或蜘蛛，是一种自动抓取网页内容的程序。它通过模拟人类用户的行为，遵循HTML链接，遍历互联网上的页面，从而收集所需信息。在本压缩包文件中，我们关注的是“爬虫技术的代码”，这意味着我们将...

C#简单实现网络爬虫: `Task`类和`async/await`关键字可以帮助我们轻松实现这一点。 6. **防止反爬虫策略**：很多网站会设置反爬虫机制，如检查User-Agent、限制IP访问频率等。我们需要遵守网站的robots.txt规则，并模拟浏览器行为，例如...

微博爬虫，一个基于Scrapy框架的轻量微博爬虫，Sina Weibo Spider: 首先要说明最重要的一点是，本项目是基于开源爬虫框架Scrapy，针对新浪微博的移动站点，即M站，实现的一个单机、高并发且高性能的轻量微博爬虫。解释一下什么是新浪微博的M站。随着一堆乱七八糟的技术的迅速发展...

Java爬虫技术，无视频，图文教程: Java爬虫技术是一种在互联网上自动获取网页信息的程序，它是大数据时代的重要工具之一，尤其在数据分析、信息抓取和搜索引擎优化等领域具有广泛的应用。在这个无视频、图文教程中，我们将深入探讨Java语言如何用于...

Python-58同城二手商品爬虫实战项目: 为了存储抓取的数据，我们可以选择将数据保存为CSV或JSON格式，Python的csv和json库可以轻松实现这一点。数据应包含每个商品的所有关键字段，以便后续分析或导入其他系统。此外，我们还可以考虑使用数据库，如SQLite...

蜘蛛爬虫源码分享: 使用Python的`requests`库或者`urllib`库可以轻松实现这一点。 2. **解析HTML**：获取到页面后，爬虫需要解析HTML内容以提取所需数据。`BeautifulSoup`或`lxml`库是Python中常用的HTML解析工具。 3. **链接提取**...

链家Spider爬虫项目: 链家Spider爬虫项目是一个基于Python的网络爬虫程序，主要目标是抓取北京地区链家网站上的历年二手房成交记录。这个项目对于数据分析、房地产市场研究或者数据挖掘来说具有很高的价值，因为它能提供大量真实、详尽的...

基于PHP的股票贴吧爬虫天宇版.zip: 它的强大之处在于能够轻松处理HTTP请求，这一点对于构建网络爬虫而言至关重要。通过PHP的cURL库或者简单的file_get_contents函数，开发者可以向目标网站发送请求，获取HTML页面的源代码。拿到网页的源代码后，下...

超级简单快捷爬虫代码python: BeautifulSoup库可以轻松实现这一点。例如，`soup = BeautifulSoup(html_content, 'html.parser')`创建一个BeautifulSoup对象，然后可以使用方法如`.find()`或`.find_all()`来查找特定标签。 3. **异常处理**：在...

flask + 爬虫 = 小说 + 漫画.zip: 标题中的“flask + 爬虫 = 小说 + 漫画”揭示了这个项目的核心内容，即使用Python的Flask框架构建一个服务，该服务结合爬虫技术来抓取并展示网络上的小说和漫画资源。让我们深入探讨这个话题。首先，Python是一种...

亚马逊网站产品爬虫Python代码，selenium库模拟人的查询动作，根据关键词查询产品信息: 本文介绍的Python代码是一种网络爬虫程序，旨在从亚马逊网站抓取产品信息。该程序运用了selenium库，这是一个强大的工具，能够模拟真实用户的浏览器操作，通过模拟人工输入关键词、点击等动作，绕过网站可能实施的反...

java利用springboot提供的RestTemplate爬虫示例: 综上所述，利用Spring Boot的RestTemplate和第三方库如Jsoup，我们可以轻松地构建一个简单的Java爬虫，用于抓取和解析HTTP资源。不过，要注意爬虫行为需遵守相关法律法规，尊重网站的robots.txt规则，避免对服务器...

汽车之家车型参数配置-python爬虫: 在运行此爬虫时，需要注意的一点是，代码中提到了`chromedriver`。这是一款用于自动化浏览器操作的工具，常与`Selenium`库配合使用。当网站使用了动态加载技术，`requests`和`BeautifulSoup`可能无法获取完整数据时...

基于Python爬虫与Jupyter的链家二手房数据分析源码: 在这一点上，Jupyter Notebook的使用让整个分析过程变得非常直观和高效。Jupyter Notebook是一个开源的Web应用程序，它允许用户创建和共享包含代码、公式、可视化以及叙述性文本的文档。这样的交互式环境非常适合...

爬虫项目的概要介绍与分析: 它能够帮助开发者轻松地定位页面中的元素，并从中抽取所需数据。 - **csv**：Python的标准库之一，用于处理CSV文件。在本项目中，它将被用来将抓取到的数据存储为CSV格式。 #### 三、关键知识点详解 ##### 3.1 ...

python爬虫-17-体验案例-判断是否存在.ev4.rar: 在Python编程领域，爬虫是一项重要的技能，它用于自动化地从互联网上抓取大量数据。本案例主要关注如何使用Python进行网页抓取并判断特定文件（如`.ev4`文件）是否存在。首先，我们需要理解Python爬虫的基本原理，...

选择Python写网络爬虫的优势和理由: 1. **高效的开发速度**：Python的简洁语法和丰富的第三方库使得开发者能够在短时间内完成爬虫的开发工作，尤其是在原型设计阶段，这一点尤为重要。 2. **强大的数据处理能力**：利用Python的`pandas`等库，可以非常...

为什么说python适合写爬虫: 随着互联网的飞速发展，网络爬虫技术成为了一种重要的数据收集手段。在众多编程语言中，Python因其易用性和强大的库支持而成为了爬虫开发的首选语言之一。下面我们将从多个角度来探讨Python为何如此适合用于爬虫开发...

java版ss源码-vw-crawler:简单轻便的Java爬虫框架，只要会一点简单的正则表达式和简单的css选择器就能轻松的采集数据: 自己一直对爬虫比较感兴趣，大学的毕业论文也是一个爬虫项目(爬教务处信息，然后做了个Android版教务管理系统，还获得了优秀毕业设计的称号)，自那以后遇到自己感兴趣的网站就会去抓一下。前段时间工作上需要一些JD...

淘宝网数据爬取爬虫开发: 本开源程序原理使用代码操作webdriver，流量走到 mitmproxy进行过滤浏览器参数，这些参数会会让淘宝的js知道你使用的是webdriver,这样出现小二滑动也能轻松的过。不明白的，请参考查阅reademe文件，里面有详细的...

Global site tag (gtag.js) - Google Analytics