本月博客排行
-
第1名
Xeden -
第2名
fantaxy025025 -
第3名
bosschen - paulwong
- johnsmith9th
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - gengyun12
- wy_19921005
- vipbooks
- e_e
- wallimn
- benladeng5225
- ranbuijj
- javashop
- robotmen
- fantaxy025025
- jickcai
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- sam123456gz
- zysnba
- sichunli_030
- gdpglc
- tanling8334
- gaojingsong
- arpenker
- xpenxpen
- kaizi1992
- wiseboyloves
- jh108020
- xyuma
- ganxueyun
- wangchen.ily
- xiangjie88
- Jameslyy
- luxurioust
- mengjichen
- jbosscn
- lemonhandsome
- nychen2000
- zxq_2017
- wjianwei666
- lzyfn123
- ajinn
- forestqqqq
- siemens800
- 大家都说我很棒
- hanbaohong
- 狂盗一枝梅
- java-007
- zhanjia
最新文章列表
java的WebCollector爬虫框架
WebCollector主页:https://github.com/CrawlScript/WebCollector
下载:webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。
接下来看demopackage org.spider.myspider;
import cn.edu.hfut.dmic.webcollector.crawler.Brea ...
简易java爬虫 改改路径可直接运行(httpclient+jsoup)
这几天在研究java爬虫,争取整理出个教程,一般都是用httpclient 和 Jsoup 来做的,
httpclient 下载地址:http://mirrors.hust.edu.cn/apache//httpcomponents/httpclient/binary/httpcomponents-client-4.3.5-bin.zip
jsoup 下载地址: http://jsou ...
Python网络爬虫实例
视频地址:
http://edu.51cto.com/lesson/id-12393.html
下载博客文章实例
源码:
import urllib
import time
#下载博客所有文章
i = 0
url = ['']*50
con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_397349507 ...
[转]Java模拟登录新浪微博
登录的类主要有3个,BigIntegerRSA.java加密类、SinaSSOEncoder密码加密类、SinaLogonDog登录类。
1、SinaLogonDog.java代码如下:
package com.crawler.sina.login;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
im ...
社会化海量数据采集爬虫框架搭建
随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。
我们来看一下作为人是怎么获取网页数据的呢?
1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或 ...
基于HttpClient4.0的网络爬虫基本框架(Java实现)
实现语言:Java
模拟HTTP请求:HttpClient 4.0
目标页面结构分析、HTTP请求头信息分析:Firefox + firebug / Chrome(F12 开发者模式)
HTML解析:Jsoup
基本思路
...
实战低成本服务器搭建千万级数据采集系统
上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社会化采集系统架构,讲架构一般都比较虚,这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。
有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu, 4 ...
配置Nutch模拟浏览器以绕过反爬虫限制
当我们配置Nutch抓取 http://yangshangchuan.iteye.com 的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ...... 这是最简单的反爬虫策略(该策略简单地读取HTTP请求头User-Agent的值来判断是人(浏览器)还是机器爬虫),我们只需要简单地配置Nutch来模拟浏览器(simulate web browser)就可以绕过这种限制。
在nutch ...
运行nutch报错:unzipBestEffort returned null
报错信息:fetch of http://szs.mof.gov.cn/zhengwuxinxi/zhengcefabu/201402/t20140224_1046354.html failed with: java.io.IOException: unzipBestEffort returned null
完整的报错信息为:
2014-03-12 16:48:38,031 ER ...
Java编程技巧:小爬虫程序(转)
原文地址:http://webservices.ctocio.com.cn/java/104/9390604.shtml
马萨玛索(http://www.masamaso.com/index.shtml)每天10点都会推出一折商品5件,就是秒购。男装质量还不错,所以就经常去抢,感觉手动太慢了,就写了一个小爬虫程序,让自己去爬,如果是金子页面(免费商品)就会自动打开,我就可以抢到了。和大家分享一下 ...