`
mutongwu
  • 浏览: 451571 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

网站图片抓取

 
阅读更多
代码没有优化,仅仅作为大概的流程记录:
var http = require('http')
  , fs = require('fs');
var urlTpl = 'http://somedomain/loadmore.ashx?page={PAGE}&price=0&brandid=0&country=0&deliveryCapacity=0&level=0&struct=0&seat=0';

var counter = 0;
var page = 1,
    saveImage = function(res,name){
        var imagedata = '';
        res.setEncoding('binary');

        res.on('data', function(chunk){
            imagedata += chunk
        });

        res.on('end', function(){
            fs.writeFile("D:/ziliao/Node/pic/" + name + ".jpg", imagedata, 'binary', function(err){
                if (err) throw err
                console.log('File saved.')
            })
        });

    };

var reg = /src="(.*?)".*?title="(.*?)"/gi;
var reconvert = function(str){
    return str.replace(/(\\u)(\w{4}|\w{2})/gi, function($0,$1,$2){
        return String.fromCharCode(parseInt($2,16));
    }); 
} 
while(page < 26){
    url = urlTpl.replace(/\{PAGE\}/,page);
    var req = http.get(url,function(res){
         res.setEncoding('utf-8');

         var rs = null ,str = '';

         res.on('data', function (chunk) {
             str += chunk;
         });
         res.on('end',function(){
             while(true){
               //测试用,我们只要50张图片
               if(counter++ > 50) {break;}
               
               rs = reg.exec(str);
               if(rs === null){ break;}
              (
                function(url,name){
                  http.get(url,function(res){
                        //name  =  reconvert(name);
                        saveImage(res,reconvert(name));
                  });
                }
              )(rs[1],rs[2]);
            } 

         })
     });

     page++;
}



0
4
分享到:
评论

相关推荐

    网站图片抓取工具

    网站图片抓取工具是一种利用编程技术,特别是Python语言,实现从网页中自动提取并下载图片的软件工具。这种工具在数据分析、图像分析、网站备份、社交媒体监控等多种场景中都有广泛应用。接下来,我们将深入探讨该...

    自己写的一个网站图片抓取程序

    标题中的“自己写的一个网站图片抓取程序”指的是一个用Go语言编写的程序,它的主要功能是自动从网站上下载并收集图片。这种程序通常用于数据挖掘、网站备份或者图像分析等场景。开发者可能在编写这个程序时考虑了...

    网站图片抓取精灵

    网站图片抓取精灵是一款强大的工具,专为网页内容爱好者和开发者设计,旨在简化网页资源的保存和管理。这款工具能够一键保存网页上的全部内容,包括HTML文档、CSS样式表、JavaScript文件以及页面内的所有图片。这在...

    网站图片抓取最初版本

    在IT领域,网站图片抓取是一项常见的任务,它涉及到网络爬虫技术和图像处理技术。这个“网站图片抓取最初版本”可能是一个简单的Python脚本或工具,用于从互联网上自动下载指定网站上的图片。以下是对这个主题的详细...

    网站图片抓取源码(C#)

    通过自定义的抓取规则进行网站图片抓取。附带了抓取某个著名网站的所有PNG资源的配置文件。其他文件参考这个配置文件就可以。使用之前,把下载目录即配置文件中的location属性改成你要下载的目标文件夹即可。 内附...

    java编写的网站图片抓取小程序

    该程序是一个基于Java SE开发的简单网站图片抓取工具,主要展示了如何利用Java进行网络请求和数据解析,特别适用于初学者了解和学习Java网络编程。在这个项目中,开发者并未依赖任何特定的框架,而是直接使用Java的...

    Python项目开发实战:网站图片抓取工具(案例教程实例课程).pdf

    ### Python项目开发实战:网站图片抓取工具 #### 一、项目背景与需求 随着互联网技术的飞速发展,各类网站上涌现了大量高质量的图片资源。这些资源不仅丰富多彩,而且往往承载着重要的视觉信息。然而,对于某些...

    网站图片抓取助手

    本工具为Window系统网站图片爬虫,内置两种抓取方式: 1.按照网址深度挖掘,最多支持50层挖掘 2.按照网址指定格式,指定范围进行图片抓取 其它特色: 1.按照图片大小自动进行分组 2.当选择不按名称分组时每3000图片...

    php网站图片抓取源码

    这个源代码提供了网页图片抓取的思路,以及以精良的代码设计提高代码的执行效率

    网站神器-网页抓取精灵

    这表明压缩包中包含的是“网站图片抓取精灵”的第一个版本,V1.0,通常这是一个软件的初始发行版本,可能包含基本功能但仍有待改进和完善。用户需要解压并安装这个文件来使用该工具。在这个过程中,可能涉及文件的解...

    网站抓取精灵V3.0正式版

    网站图片抓取精灵[1] ,在它的帮助下你能够完整下载网站的内容,你下载到本地硬盘中的网站内容将仍保持原本的 HTML 格式,其文件名与目录结构都不会变化,这样可以准确地提供网站的镜像。 1、一键保存页面文字 2、...

    网页图片抓取工具

    GetWebPic作为一个典型的网页图片抓取工具,它可以帮助用户高效地从目标网站获取所需的图片资源。 在使用网页图片抓取工具时,我们需要了解以下几个关键知识点: 1. **URL解析**:工具首先需要识别并解析用户输入...

    图片抓取器

    标题中的“图片抓取器”指的是一个专门用于从网页中批量下载图片的软件或工具。这类工具通常能够帮助用户快速、高效地从互联网上获取所需的图片资源,尤其适用于需要大量图片素材的情况,如设计师、摄影师或者网站...

    网站爬虫——图片抓取小工具

    在本例中,我们关注的是一个专门用于抓取网站图片的工具。这个"图片抓取小工具"很可能是一个exe可执行文件,用户可以直接在本地运行,无需编程知识,就能方便地从目标网站下载所需的图片资源。 爬虫技术的核心在于...

    网页图片抓取小工具

    网页图片抓取小工具是一种基于Python编程语言开发的实用程序,设计用于自动化地从网站上抓取并下载图片。这个小工具的特点是它带有图形用户界面(GUI),使得非编程人员也能轻松操作。通过使用py2exe工具,该程序...

    网页图片抓取/批量保存

    网页图片抓取与批量保存是网络数据采集领域中常见的需求,尤其对于设计师、研究人员或内容创作者来说,高效地获取和管理网页上的图片资源至关重要。在这个过程中,我们可以利用各种工具和技术来实现这一目标,包括...

    抓取图片(网络爬虫)

    在实际应用中,“downPhoto”可能是一个具体的图片抓取脚本或工具,用于下载网页上的图片。通过调整参数和逻辑,我们可以定制这个工具以适应不同的抓取需求,比如只抓取特定尺寸、类型的图片,或者按照特定关键词...

    抓取MM图片

    ”这部分描述说明了操作步骤,用户需要执行一个批处理脚本来启动图片抓取的流程。批处理文件是Windows操作系统中的一种文本文件,包含了对系统的一系列命令,当用户运行它时,这些命令会按照顺序执行。在这里,...

Global site tag (gtag.js) - Google Analytics