qiaolevip

浏览: 4932315 次
性别:
来自: 上海

最近访客更多访客>>

summyhaha

liunancun

xuweije

hjz

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Nodejs 爬虫批量下载百度图片

博客分类：

nodejs

乔乐共享纵观千象每天进步一点点学习永无止境 Nodejs

var fs = require('fs'),
  path = require('path'),
  util = require('util'), // 以上为Nodejs自带依赖包
  request = require('request'); // 需要npm install的包

// main函数，使用 node main执行即可
patchPreImg();

// 批量处理图片
function patchPreImg() {
  var tag1 = '摄影', tag2 = '国家地理',
    url = 'http://image.baidu.com/data/imgs?pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=',
    url = util.format(url, 0, tag1, tag2),
    url = encodeURI(url),
    dir = 'D:/downloads/images/',
    dir = path.join(dir, tag1, tag2),
    dir = mkdirSync(dir);

  request(url, function(error, response, html) {
    var data = JSON.parse(html);
    if (data && Array.isArray(data.imgs)) {
      var imgs = data.imgs;
      imgs.forEach(function(img) {
        if (Object.getOwnPropertyNames(img).length > 0) {
          var desc = img.desc || ((img.owner && img.owner.userName) + img.column);
          desc += '(' + img.id + ')';
          var downloadUrl = img.downloadUrl || img.objUrl;
          downloadImg(downloadUrl, dir, desc);
        }
      });
    }
  });
}

// 循环创建目录
function mkdirSync(dir) {
  var parts = dir.split(path.sep);
  for (var i = 1; i <= parts.length; i++) {
    dir = path.join.apply(null, parts.slice(0, i));
    fs.existsSync(dir) || fs.mkdirSync(dir);
  }
  return dir;
}

var index = 1;
// 开始下载图片，并log统计日志
function downloadImg(url, dir, desc) {
  var fileType = 'jpg';
  if (url.match(/\.(\w+)$/)) fileType = RegExp.$1;
  desc += '.' + fileType;
  var options = {
    url: url,
    headers: {
      Host: 'f.hiphotos.baidu.com',
      Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;'
    }
  };
  var startTime = new Date().getTime();
  request(options)
    .on('response', function() {
      var endTime = new Date().getTime();
      console.log('Downloading...%s.. %s, 耗时: %ss', index++, desc, (endTime - startTime) / 1000);
    })
    .pipe(fs.createWriteStream(path.join(dir, desc)));
}

若有疑问，请发表评论或添加微信为你解答：

分享到：

2015-11-24 15:54
浏览 4419
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Nodejs 爬虫批量下载百度图片

若有疑问，请发表评论或添加微信为你解答：

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Nodejs 爬虫批量下载百度图片

若有疑问，请发表评论或添加微信为你解答：

评论

发表评论

相关推荐

Nodejs实现VScode搜索功能，递归读取文件夹匹配内容

Web前端开发必备软件安装一览表

Nodejs SyntaxError: Unexpected token import

js post x-www-form-urlencoded、form-url数据，Nodejs获取x-www-form-urlencoded数据

js post json、object、application/json数据，Nodejs获取json数据

js post FormData、Payload、multipart/form-data数据，Nodejs获取multipart/form-data数据

双色球全部开奖数据(json版)15年(2003~2015)开奖结果

NodeJs post xml info

Nodejs Express 报错之 listen EADDRINUSE

win10 webstorm9和10无法使用terminal解决方案

Nodejs 微信开发之地理位置获取周边美食

Nodejs 微信开发之语音识别

Nodejs 微信开发之颜值测评，面部识别

mongodb js-bson: Failed to load c++ bson extension, using pure JS version

Nodejs express 获取url参数，post参数的三种方式

angularjs获取nodejs response数据的两种方法

swig date filter中国日期错误原因及解决

nodejs同步操作mysql

Nodejs 或 js 判断手机操作系统 Android or IOS

微信开发 事件类型汇总

最近访客更多访客>>

微信开发事件类型汇总