本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
从0开始基于python3用scrapy爬取数据
写在开头:
博主刚开始爬取数据的时候选中的kanzhun网,结果被封了ip -_- 。查看了kanzhun网的robots协议(http://www.kanzhun.com/robots.txt),发现它们非常严格,就是这个不让爬那个也不让爬。于是想起了参加儿博会的时候被安利的一个母婴电商app,一看他们连robots协议都没有,想必是程序员都去赶功能去了,应该是我们都喜闻乐见的网站。于是进 ...
网络爬虫防止被封的策略
网络爬虫防止被封的策略和反反爬策略简单总结
今天不想工作,比较累,遇到一个网站反爬比较严重,不说具体哪个名字了,简单总结下爬虫防封策略
1,伪装http 头
chrome 开发者模式,firebug等抓包工具,查看http 进行模拟User-Agent,有的需要加上Referer,可以多加入几个http user
2,代理ip,对于限制ip 或者ip被封的采用代理i ...
通用httpclient生成方式
在做爬虫的时候,如何生成一个靠谱可用的httpclient对象是非常关键的。在踩了无数的坑之后,总结出一个较为完善的httpclient生成方式。
可以解决以下问题:
1、设置代理问题
2、设置默认的cookiestore对象,用来保存请求中的cookie。以便进行深层次访问。
3、在请求失败的重试策略问题
4、默认useragent的问题
5、https及自签名证书的验证问题
/ ...
Java写爬虫爬取今日头条推荐文章和头条号文章
闲来无事,写了个爬虫爬取今日头条的文章信息,然后使用ECharts展示出统计结果。
那么怎样爬取今日头条的信息呢?
首先,分析头条页面,文章是通过ajax获取的,所以要找到调用的url,然后跟踪代码查看url所需的参数,然后使用Java拼装成调用的url即可获得返回的json数据。
上图为ajax调用的url地址,接下来就是拼接所需的参数
如何使用Echarts将头条抓取结果以柱状图和饼形图展示?
如何使用Echarts将头条抓取结果以柱状图和饼形图展示?
后台框架:Spring+SpringMVC+Mybatis
表结构:
CREATE TABLE `article` (
`id` int(20) NOT NULL AUTO_INCREMENT,
`title` varchar(255) DEFAULT NULL COMMENT '文章名',
`readco ...
Python初学者之网络爬虫
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途。
本文将介绍我最近在学习Python过程中写的一个爬虫程序,将力争做到不需要有任何Python基础的程序员都能读懂。读者也可以先跳到文章末尾看最终收集的数据效果和完整代码。
1. 确立目标需求
本次练习Python爬虫的目标需求为以下两点:
1) 收集huajiao.com上的人气主播信息:每位主播的关注数,粉丝数,赞数, ...
python3.5 beautiful4.4 扣扣国内新闻 爬虫
#!/usr/bin/python3
# -*- coding: UTF-8 -*-
'''
Created on 2016年11月18日
@author: baoyou curiousby@163.com
'''
#http://ssdfz001.iteye.com/blog/2228685
import ...
想写Python爬虫?看这5个教程就行了!
写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩。
其实懂了之后,写个爬虫脚本是很简单的,但是对于新手来说却并不是那么容易。实验楼就给那些想学写爬虫,却苦于没有详细教程的小伙伴推荐5个爬虫教程,都是基于Python语言开发的,因此可能更适合有一定Python基础的人进行学习。
1、基于scrapy爬虫的天气数据采 ...
Java爬统计局12位区划代码
有朋友需要获取全国2013年统计用区划代码和城乡划分代码,于是写了个爬虫抓数据。
仔细分析页面后,发现其特点是根据最终的区域代码,可以反推上级省、市等代码,故只保存最后一步数据。
第一次接触爬虫,边做边研究。只写了个单线程,下载了41分钟。
后来研究多线程爬虫,又写了个多线程爬知乎话题+回答的程序。由于暂时无法正确保存页面上各种程序语言的代码,半成品的程序就不放出来了。
下面是单线程下载统 ...
如何使用爬虫采集赶集网出租房源信息
神箭手云爬虫如何采集赶集个人出租房源及电话 -神箭手云爬虫 -一站式云端通用爬虫开发平台24小时不停机 快速获取大量规模化的网页数据,操作简单,无需专业知识。
1.创建爬虫任务
(1) 在首页点击“爬虫市场”,在神箭手云市场中搜索出租房;
(2)找到赶集个人出租房源及电话采集爬虫,点击“免费获取
把互联网变成你的数据库之新浪汽车资讯采集
1.打开神箭手云爬虫官网
2.创建爬虫任务
(1) 在首页点击“爬虫市场”,在神箭手云市场中搜索汽车;
(2)找到新浪汽车新车资讯爬虫,点击“免费获取”;
3.管理爬虫
成功获取新浪汽车新车资讯爬虫之后就可以使用该爬虫采集新浪汽车上的新车资讯,点击“我的爬虫”进入管理后台。
(1) 在控制面板中,找到新浪汽车新车资讯爬虫,点击“管理”
(2)进入新 ...
多线程爬虫Miner [转]
多线程爬虫Miner
本文转自原作者博客:http://injavawetrust.iteye.com/blog/2293799需要配置项:1、URL包含关键字。2、存储方式:DB-数据库存储;FILE-文件存储。3、爬取页面最大深度。4、下载页面线程数。5、分析页面线程数。6、存储线程数。
-------------------------------------------
程序中 ...
教您使用DynamicGecco抓取JD全部商品信息
关于gecco爬虫框架
如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用。之前有一篇文章《教您使用java爬虫gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。这里介绍一下DynamicGecco方式,比之前更简单,抓取全部京东商品只要3个类就能搞定了。
什么是DynamicGecco
DynamicGec ...