最新文章列表

没事抓点新闻看

# encoding: utf-8 require 'rubygems' require 'mechanize' class FetchNews def self.get_page(keyword) a = Mechanize.new { |agent| agent.user_agent_alias = 'Mac Safari' } base_url = " ...
michael_roshen 评论(0) 有272人浏览 2014-12-02 18:28

网络爬虫工具

http://hi.baidu.com/whhzthfnayhntwe/item/a4f9ae056f08b012cc34eadc Ruby Web Spidering and Data extraction Anemone: http://anemone.rubyforge.org Example: Anemone.crawl("http://www.example.com/ ...
1Fuyi 评论(0) 有1461人浏览 2013-01-22 02:08

用Python Mechanize做爬虫遇到的内存过高问题

今天在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。   整个过程是: 1、获取目标页面地址 2、取得目标地址前几页的所有图片url 3、对这些url进行下载,并把索引数据保存到mysql数据库。     这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)     当图片下载到大约15000张左右的时候,发现越来越慢,最后干 ...
royaki 评论(0) 有3636人浏览 2012-03-27 18:36

python 可变参数 *args, **kwds

以前在用到mechanize和调用win32接口时遇到大量签名为*args, **kwds的方法,如: mechanize的模块_form.py中有如下代码: def ParseString(text, base_uri, *args, **kwds): ...
mj4d 评论(1) 有5221人浏览 2012-02-03 22:18

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics