`
wtb
  • 浏览: 106517 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

用ruby抓取gzip网页

阅读更多

require 'net/http'
require 'uri'
module Net
  class HTTP
    def HTTP.get_with_headers(uri,headers=nil)
      uri=URI.parse(uri) if uri.respond_to? :to_str
      start(uri.host,uri.port) do |http|
        return http.get(uri.path,headers)
      end
    end
  end
end

gzipped = Net::HTTP.get_with_headers('http://www.qidian.com/','Accept-Encoding' => 'gzip')
puts gzipped.body.size
require 'zlib'
require 'stringio'
body_io=StringIO.new(gzipped.body)
unzipped_body=Zlib::GzipReader.new(body_io).read
puts unzipped_body

分享到:
评论

相关推荐

    网页抓取脚本(by ruby)

    用ruby写的网页抓取脚本,可用于在线文档下载以及整站下载。

    Ruby-Kimura用Ruby编写的现代Web抓取框架

    Kimura - 用Ruby编写的现代Web抓取框架,与Headless Chromium / Firefox,PhantomJS或简单的HTTP请求一起开箱即用,并允许抓取用交互JavaScript呈现的网站

    Ruby实现网页图片抓取

    ### Ruby 实现网页图片抓取 #### 知识点概览 1. **Nokogiri 库介绍与使用** 2. **Open-URI 库的使用** 3. **Ruby 基本语法:模块、方法定义与调用** 4. **网页数据解析** 5. **图片下载与保存** #### 详细解释 ##...

    Ruby-TensorStream用Ruby重新实现TensorFlow

    **Ruby-TensorStream:用Ruby重现实现TensorFlow** Ruby-TensorStream是一个开源项目,旨在为Ruby开发者提供一个类似于Google TensorFlow的深度学习框架。它的核心目标是让Ruby程序员能够利用TensorFlow的强大功能...

    Ruby-用Ruby编写的简单分布式区块链实验

    用Ruby编写的简单分布式区块链实验

    ruby实现网页图片抓取

    在Ruby编程语言中,网页图片抓取是一种常见的网络爬虫技术,主要用于自动化地从网站上下载图片资源。这里,我们将详细解析标题为“ruby实现网页图片抓取”的代码,了解如何利用Ruby进行网页图片的抓取和下载。 首先...

    Ruby Ruby Ruby Ruby Ruby Ruby

    Ruby Ruby Ruby Ruby Ruby Ruby

    如何用Ruby来实现页面性能测试

    标题中的“如何用Ruby来实现页面性能测试”指的是利用Ruby编程语言进行网页性能评估和监控的一种方法。在描述中提到,作者选择了Ruby而非QTP(QuickTest Professional)是因为Ruby具有优于QTP的独特优点,尤其在资源...

    ruby-2.2.4.tar.gz、rubygems-2.6.2.zip、redis-3.2.2.gem

    在给定的资源中,我们涉及到了三个主要的IT组件:Ruby编程语言、RubyGems包管理器以及Redis键值存储系统。以下是关于这些技术的详细知识点: 1. **Ruby 2.2.4**: Ruby是一种面向对象的、动态类型的编程语言,以其...

    用Ruby写的一个网络爬虫

    用Ruby写的一个网络爬虫,用到了正则表达式 和哈希表

    ruby DBI ruby DBI ruby DBI

    ruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ...

    Ruby-rubyinstall安装RubyJRubyRubiniusMagLevorMRuby

    3. Rubinius:Rubinius是一个用Ruby语言大部分实现的虚拟机,其目标是提供一个高性能的、符合Ruby语言规范的平台。它使用LLVM作为后端,支持即时编译,旨在提供比MRI更好的性能。 4. MagLev:MagLev是GemStone/S...

    Ruby-rubybuild编译和安装Ruby

    Ruby是一种动态、开源的编程语言,以其简洁、优雅的语法和强大的元编程能力著称。在Ruby开发中,为了管理不同版本的Ruby环境,我们常常会使用到`rbenv`和`ruby-build`这两个工具。本文将详细介绍如何使用`ruby-build...

    ruby+selenium-webdriver测试源代码003

    Ruby是一种流行的、动态的、面向对象的编程语言,而Selenium-Webdriver则是一个强大的工具,允许我们对浏览器进行自动化控制,以模拟用户的真实操作,特别适用于网页应用的测试。 1. **Ruby基础知识**: - Ruby...

    ruby2ruby.zip

    ruby2ruby 提供一些用来根据 RubyParser 兼容的 Sexps 轻松生成纯 Ruby 代码的方法。可在 Ruby 中轻松实现动态语言处理。 标签:ruby2ruby

    使用ruby解析awdb离线库

    使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库...

    Ruby-Wombat轻量级的RubyWeb爬虫

    它的主要目的是帮助开发者高效地从网页上抓取和解析结构化的数据。Wombat以其简洁的Domain Specific Language(DSL)著称,允许用户以优雅的方式定义爬虫规则,使得代码更加易读、易写。 在Ruby开发中,Web爬虫是...

    Ruby完全自学手册 下

    《Ruby完全自学手册》是一本完全覆盖Ruby和Ruby on Rails的完全自学手册。《Ruby完全自学手册》的特色是由浅入深、循序渐进,注重理论和实践的结合。虽然定位为入门手册,但是依然涉及许多高级技术和应用,覆盖到的...

    一个基于Ruby的快速且强大的类型检查器,大部分代码都是用Ruby编写

    一个基于Ruby的快速且强大的类型检查器,大部分代码都是用Ruby编写,个人经导师指导并认可通过的97分大作业设计项目,适用人群:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业或毕业设计,作为...

Global site tag (gtag.js) - Google Analytics