最新文章列表

jsoup 网络爬虫 基础文档

jsoup 简介:http://871421448.iteye.com/blog/1545996 jsoup API 文档:http://jsoup.org/apidocs/ jsoup Jar包下载:http://jsoup.org/download 示例1:http://blog.csdn.net/withiter/article/details/15339579 示例2:http:// ...
高军威 评论(0) 有1118人浏览 2014-11-17 09:29

学习Java网络爬虫

今天学习了一下Java的网络爬虫技术,发现网络爬虫技术首先分为以下几个步骤: 1、打开网页链接 2、把网页代码用一个BufferedReader存放 以下是我做的一个代码实例:   在学习网络爬虫的过程中首先要导入两个包:htmllexer.jar,htmlparser.jar   public static void main(String[] args) {  try {    ...
xiaoan2345 评论(0) 有1799人浏览 2014-10-20 21:03

Webmagic 一个网络爬虫工具包

webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。作者曾经进行过一年的垂直爬虫的开发,webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架。 web爬虫是一种技术,webmagic致力于将这种技术的实现成本降低,但是出于对资源提供者的尊重,w ...
aoyouzi 评论(0) 有5270人浏览 2014-09-05 12:30

网络爬虫策略介绍

网络爬虫策略介绍   Web爬虫(Crawler,Robot,Bot,Spider)与爬取(Crawling),被认为所谓的SEO学习的第一步。由于现在各大搜索引擎提倡通过sitemap主动提交内容 ...
aoyouzi 评论(0) 有1211人浏览 2014-07-22 10:22

网络爬虫(网络蜘蛛)之网页抓取

   转载地址:http://www.cnblogs.com/chenying99/articles/3213533.html           现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以 ...
xiaodong* 评论(0) 有804人浏览 2014-07-18 11:02

模拟浏览器的神器 - HtmlUnit

随着Web的发展,RIA越来越多,JavaScript和Complex AJAX Libraries给网络爬虫带来了极大的挑战,解析页面的时候需要模拟浏览器执行JavaScript才能获得需要的文本内容。   好在有一个Java开源项目HtmlUnit,它能模拟Firefox、IE、Chrome等浏览器,不但可以用来测试Web应用,还可以用来解析包含JS的页面以提取信息。   下面看看H ...
yangshangchuan 评论(3) 有26806人浏览 2014-03-26 10:55

运行nutch提示:0 records selected for fetching, exiting

运行Nutch的时候提示Generator: 0 records selected for fetching, exiting ...然后程序退出,怎么回事呢?   原因多种多样,归根结底就是CrawlDB中的URL经过爬虫抓取调度器(默认是org.apache.nutch.crawl.DefaultFetchSchedule)判断,断定都不应该去抓,所以,Stop The World。 ...
yangshangchuan 评论(3) 有5208人浏览 2014-03-18 20:17

Apache Nutch v1.8发布,Java实现的网络爬虫

Apache Nutch v1.8已经发布了,建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本,Apache Tika也升级到了 ...
yangshangchuan 评论(1) 有4729人浏览 2014-03-18 10:14

Gora – 大数据持久化

gora-demo托管于github   wget http://mirrors.cnnic.cn/apache/gora/0.3/apache-gora-0.3-src.zip unzip apache-gora-0.3-src.zip cd apache-gora-0.3 mvn clean package 1、创建项目 mvn archetype:create -Dg ...
wbj0110 评论(0) 有1058人浏览 2014-03-17 17:27

Nutch抓取需要登录的网站

Tomcat自身带的后台管理程序是需要用户登录的,这样的网站如何用Nutch来爬呢?Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证,对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况,Nutch就无能为力了,就更不用说复杂验证码的认证方式了。   下面用一个简单的例子说明如何配置Nutch,使其能爬需要Htt ...
yangshangchuan 评论(2) 有6564人浏览 2014-03-16 20:01

网络爬虫面临的挑战 之 链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样,相互矛盾,相互克制,同时也相互促进。   网站的构建技术从简单的静态网站发展到动态网站,信息的传递从用户单向接收发展到双向交互,内容的产生从站长集中生成发展到全民参与生成。   Web技术的发展对网络爬虫构成了极大的挑战,我们以Nutch为例来说明难在哪里:   1、静态网站(简单) 2、动态网站(无陷阱)(难) 3、动态网站(有陷 ...
yangshangchuan 评论(0) 有5409人浏览 2014-03-16 01:39

配置Nutch模拟浏览器以绕过反爬虫限制

当我们配置Nutch抓取 http://yangshangchuan.iteye.com 的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ...... 这是最简单的反爬虫策略(该策略简单地读取HTTP请求头User-Agent的值来判断是人(浏览器)还是机器爬虫),我们只需要简单地配置Nutch来模拟浏览器(simulate web browser)就可以绕过这种限制。   在nutch ...
yangshangchuan 评论(1) 有7460人浏览 2014-03-14 02:48

运行nutch报错:unzipBestEffort returned null

报错信息:fetch of http://szs.mof.gov.cn/zhengwuxinxi/zhengcefabu/201402/t20140224_1046354.html failed with: java.io.IOException: unzipBestEffort returned null   完整的报错信息为:   2014-03-12 16:48:38,031 ER ...
yangshangchuan 评论(0) 有3893人浏览 2014-03-12 18:41

网络爬虫读取js生成的页面

还有js逻辑的页面,对网络爬虫的信息抓取工作造成了很大障碍。DOM树,只有执行了js的逻辑才可以完整的呈现。而有的时候,有要对js修改后的 dom树进行解析。在搜寻了大量资料后,发现了一个开源的项目cobra。cobra支持JavaScript引擎,其内置的JavaScript引擎是 mozilla下的 rhino,利用rhino的API,实现了对嵌入在html的JavaScript的解释执行。测 ...
wbj0110 评论(0) 有1699人浏览 2014-01-15 10:41

大数据系列12:Hadoop2 – 全新的Hadoop

wget http://mirrors.hust.edu.cn/apache/hadoop/common/stable2/hadoop-2.2.0.tar.gz tar -xzvf hadoop-2.2.0.tar.gz cd hadoop-2.2.0 vi etc/hadoop/hadoop-env.sh 修改: export  JAVA_HOME=/home/ysc/jdk1.7. ...
yangshangchuan 评论(6) 有9297人浏览 2013-11-01 00:02

大数据系列6:HBase – 基于Hadoop的分布式数据库

wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz tar -xzvf zookeeper-3.4.5.tar.gz cd zookeeper-3.4.5 cp conf/zoo_sample.cfg conf/zoo.cfg vi conf/zoo.cfg  修改:da ...
yangshangchuan 评论(3) 有7925人浏览 2013-10-10 00:07

大数据系列1:在win7上安装配置Hadoop伪分布式集群

1、  安装虚拟机和操作系统 VMware-workstation-full-10.0.0  或 VirtualBox-4.2.18-88781-Win  下载VMware  下载VirtualBox ubuntu-13.04-server-amd64.iso 下载ubuntu 2、  设置root用户密码 sudo passwd root 3、  上传文件 利用
yangshangchuan 评论(2) 有12710人浏览 2013-10-09 18:39

大数据系列11:Gora – 大数据持久化

borm – 大数据的对象持久化   wget  http://archive.apache.org/dist/gora/0.3/apache-gora-0.3-src.zip unzip apache-gora-0.3-src.zip cd apache-gora-0.3 mvn clean package 1、创建项目 mvn archetype:create -DgroupI ...
yangshangchuan 评论(0) 有7835人浏览 2013-10-09 14:20

大数据系列5:Pig – 大数据分析平台

wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz tar -xzvf pig-0.11.1.tar.gz sudo vi /etc/profile 增加: export PIG_HOME=/home/ysc/pig-0.11.1 exportPATH=$PATH:$PIG_HOME/bin so ...
yangshangchuan 评论(0) 有6515人浏览 2013-10-04 02:06

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics