最新文章列表

HttpClient和HtmlUnit的比较总结以及使用技巧(一)

       大家在做爬虫、网页采集、通过网页自动写入数据时基本上都接触过这两个组件(权且称之为组件吧),网上入门资料已经很多了,我想从实 ...
zstu_cc 评论(0) 有4265人浏览 2014-09-15 14:56

java的WebCollector爬虫框架

WebCollector主页:https://github.com/CrawlScript/WebCollector 下载:webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。 接下来看demopackage org.spider.myspider; import cn.edu.hfut.dmic.webcollector.crawler.Brea ...
oloz 评论(0) 有1642人浏览 2014-09-05 17:04

jsoup使用笔记

<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式, <di ...
alleni123 评论(0) 有983人浏览 2014-08-28 10:44

简易java爬虫 改改路径可直接运行(httpclient+jsoup)

这几天在研究java爬虫,争取整理出个教程,一般都是用httpclient 和 Jsoup 来做的,   httpclient 下载地址:http://mirrors.hust.edu.cn/apache//httpcomponents/httpclient/binary/httpcomponents-client-4.3.5-bin.zip jsoup 下载地址: http://jsou ...
DavidIsOK 评论(0) 有2168人浏览 2014-08-21 17:58

Python网络爬虫实例

视频地址: http://edu.51cto.com/lesson/id-12393.html   下载博客文章实例 源码: import urllib import time #下载博客所有文章 i = 0 url = ['']*50 con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_397349507 ...
zhb8015 评论(0) 有1210人浏览 2014-07-13 23:16

heritrix 3.2.0 -- 环境搭建

heritrix作为一个比较经典的开源爬虫,写这篇文章目的是因为,3.X之后的heritrix的介绍以及配置的文章比较少了。 heritrix 3.x 以后使用maven 2配置jar包引用,但是总是有好多包没法从maven库下载。所以,这里讲的环境搭建直接使用了编译好的工程来做,heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.g ...
xiamizy 评论(2) 有2196人浏览 2014-07-11 10:02

[转]Java模拟登录新浪微博

登录的类主要有3个,BigIntegerRSA.java加密类、SinaSSOEncoder密码加密类、SinaLogonDog登录类。 1、SinaLogonDog.java代码如下: package com.crawler.sina.login; import java.io.ByteArrayOutputStream; import java.io.IOException; im ...
alleni123 评论(0) 有1558人浏览 2014-06-13 15:13

jsoup查看iteye的时候被拦截了

jsoup的使用方法可以在他的官网上找到 使用比较简单,像是jquery的操作 import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; public class MyJsoup { privat ...
sauzny 评论(0) 有1136人浏览 2014-06-05 17:11

社会化海量数据采集爬虫框架搭建

随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。 我们来看一下作为人是怎么获取网页数据的呢? 1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或 ...
wbj0110 评论(0) 有853人浏览 2014-05-26 00:37

基于HttpClient4.0的网络爬虫基本框架(Java实现)

实现语言:Java 模拟HTTP请求:HttpClient 4.0 目标页面结构分析、HTTP请求头信息分析:Firefox + firebug / Chrome(F12 开发者模式) HTML解析:Jsoup 基本思路 ...
wbj0110 评论(0) 有1381人浏览 2014-05-26 00:36

实战低成本服务器搭建千万级数据采集系统

上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社会化采集系统架构,讲架构一般都比较虚,这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。 有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu, 4 ...
wbj0110 评论(0) 有626人浏览 2014-05-26 00:36

Python爬虫-爬取SAE论坛上的精华帖子

       其实是写Java的,但是最近学习Python,于是写了一个Python的简单脚本练手       如何找到SAE上面所有的精华帖子,周末一个人无聊于是研究了一下python的urllib2,下面说下自己收集精华帖子的思路:        1,发送相关模块的请求,生产html信息返回给本地        2,处理html信息,找到可以标示精华帖子的html        3,提取取出 ...
tsface 评论(0) 有3275人浏览 2014-04-20 22:03

jcseg中文分词器去除不想要的分词

今天观察我的网站省淘网时,发现好多相关搜索结果,都是关键词“的”的命中。 一开始想自己把字符串里的“的”replace掉得了,但是一想,jcseg应该有这个功能吧。 翻阅了说明文档后,最终发现,默认的配置文件没有开启自动过滤停止词(其实就是去掉不想要的分词) 具体设置: 默认的配置文件在jcseg-core-1.9.1.jar包里:jcseg.properties #是否自动过滤停止词(0 关 ...
xwater 评论(0) 有1155人浏览 2014-04-17 15:12

Nutch抓取需要登录的网站

Tomcat自身带的后台管理程序是需要用户登录的,这样的网站如何用Nutch来爬呢?Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证,对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况,Nutch就无能为力了,就更不用说复杂验证码的认证方式了。   下面用一个简单的例子说明如何配置Nutch,使其能爬需要Htt ...
yangshangchuan 评论(2) 有6536人浏览 2014-03-16 20:01

网络爬虫面临的挑战 之 链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样,相互矛盾,相互克制,同时也相互促进。   网站的构建技术从简单的静态网站发展到动态网站,信息的传递从用户单向接收发展到双向交互,内容的产生从站长集中生成发展到全民参与生成。   Web技术的发展对网络爬虫构成了极大的挑战,我们以Nutch为例来说明难在哪里:   1、静态网站(简单) 2、动态网站(无陷阱)(难) 3、动态网站(有陷 ...
yangshangchuan 评论(0) 有5371人浏览 2014-03-16 01:39

配置Nutch模拟浏览器以绕过反爬虫限制

当我们配置Nutch抓取 http://yangshangchuan.iteye.com 的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ...... 这是最简单的反爬虫策略(该策略简单地读取HTTP请求头User-Agent的值来判断是人(浏览器)还是机器爬虫),我们只需要简单地配置Nutch来模拟浏览器(simulate web browser)就可以绕过这种限制。   在nutch ...
yangshangchuan 评论(1) 有7397人浏览 2014-03-14 02:48

运行nutch报错:unzipBestEffort returned null

报错信息:fetch of http://szs.mof.gov.cn/zhengwuxinxi/zhengcefabu/201402/t20140224_1046354.html failed with: java.io.IOException: unzipBestEffort returned null   完整的报错信息为:   2014-03-12 16:48:38,031 ER ...
yangshangchuan 评论(0) 有3847人浏览 2014-03-12 18:41

Java编程技巧:小爬虫程序(转)

原文地址:http://webservices.ctocio.com.cn/java/104/9390604.shtml 马萨玛索(http://www.masamaso.com/index.shtml)每天10点都会推出一折商品5件,就是秒购。男装质量还不错,所以就经常去抢,感觉手动太慢了,就写了一个小爬虫程序,让自己去爬,如果是金子页面(免费商品)就会自动打开,我就可以抢到了。和大家分享一下 ...
zhb8015 评论(1) 有1076人浏览 2014-03-12 17:29

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics