最新文章列表

没事抓点新闻看

# encoding: utf-8 require 'rubygems' require 'mechanize' class FetchNews def self.get_page(keyword) a = Mechanize.new { |agent| agent.user_agent_alias = 'Mac Safari' } base_url = " ...
michael_roshen 评论(0) 有272人浏览 2014-12-02 18:28

网络爬虫工具

http://hi.baidu.com/whhzthfnayhntwe/item/a4f9ae056f08b012cc34eadc Ruby Web Spidering and Data extraction Anemone: http://anemone.rubyforge.org Example: Anemone.crawl("http://www.example.com/ ...
1Fuyi 评论(0) 有1474人浏览 2013-01-22 02:08

用Python Mechanize做爬虫遇到的内存过高问题

今天在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。   整个过程是: 1、获取目标页面地址 2、取得目标地址前几页的所有图片url 3、对这些url进行下载,并把索引数据保存到mysql数据库。     这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)     当图片下载到大约15000张左右的时候,发现越来越慢,最后干 ...
royaki 评论(0) 有3636人浏览 2012-03-27 18:36

python 可变参数 *args, **kwds

以前在用到mechanize和调用win32接口时遇到大量签名为*args, **kwds的方法,如: mechanize的模块_form.py中有如下代码: def ParseString(text, base_uri, *args, **kwds): ...
mj4d 评论(1) 有5242人浏览 2012-02-03 22:18

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics