最新文章列表

用Python Mechanize做爬虫遇到的内存过高问题

今天在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。   整个过程是: 1、获取目标页面地址 2、取得目标地址前几页的所有图片url 3、对这些url进行下载,并把索引数据保存到mysql数据库。     这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)     当图片下载到大约15000张左右的时候,发现越来越慢,最后干 ...
royaki 评论(0) 有3636人浏览 2012-03-27 18:36

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics